MANUAL DE PRÁCTICAS DE ORDENADOR -...

39
ASIGNATURA: AMPLIACIÓN DE ESTADISTICA Titulación: Ingeniería Industrial Profesora: María del Carmen Bueso Sánchez Curso Académico: 2007/2008 MANUAL DE PRÁCTICAS DE ORDENADOR

Transcript of MANUAL DE PRÁCTICAS DE ORDENADOR -...

Page 1: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

ASIGNATURA: AMPLIACIÓN DE ESTADISTICA Titulación: Ingeniería Industrial Profesora: María del Carmen Bueso Sánchez Curso Académico: 2007/2008 MANUAL DE PRÁCTICAS DE ORDENADOR

Page 2: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 2

� Práctica 1. Contrastes de hipótesis estadísticas. Ficheros de datos: alfalfa.txt

� Práctica 2. Análisis de la varianza. Ficheros de datos: luz.txt,

bilirrubi.txt, elnino.txt.

� Práctica 3. Regresión lineal simple. Ficheros de datos: espinaca.txt, venecia.txt, cemento.txt, petroleo.txt.

� Práctica 4. Regresión lineal múltiple. Ficheros de datos: agua.txt,

cerezos.txt, helados.txt.

� Práctica 5. Regresión lineal múltiple. Selección de variables. Ficheros de datos: trigo.txt, carne.txt.

� Práctica 6. Diseño de experimentos.

Page 3: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 3

Práctica 1: Contrastes de hipótesis paramétricas.

El programa Statistix permite realizar diversos contrastes de hipótesis paramétricas. Los comandos relativos a los contrastes que realizaremos en esta práctica se encuentran en el menú Statistics -> One, Two, Multi-Sample Tests: Las instrucciones que vamos a considerar son las siguientes:

� One-Sample T Test: Test de la t de Student para el contraste de la media de una población con varianza desconocida.

� Paired T Test: Test de la t de Student para el contraste de la diferencia de medias de dos

poblaciones no necesariamente independientes (datos apareados). � Two-Sample T Test: Test de la t de Student para el contraste de la diferencia de medias de dos

poblaciones independientes con varianzas desconocidas. Test de la F de Snedecor para el contraste de la igualdad de varianzas.

� Proportion Test. Test z para una proporción y para la comparación de proporciones.

Para ilustrar estas instrucciones resolveremos paso a paso algunos ejemplos. Ejemplo 1. Para reducir la concentración de ácido úrico en la sangre, se prueban dos medicamentos, reduciéndose las concentraciones de ácido úrico en los distintos pacientes hasta los siguientes niveles:

Medicamento I 20 12 16 18 13 22 15 20 Medicamento II 17 14 12 10 15 13 9 19 20 11

Se supone que las muestras proceden de dos poblaciones normales e independientes.

Page 4: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 4

Empezamos introduciendo los datos usando dos variables distintas, por ejemplo, Med_I y Med_II (menú Data->Insert->Variables). La ventana de los datos sería: Una vez que tengamos los datos en una hoja de cálculo, vamos a considerar la primera muestra para construir intervalos de confianza y tests de hipótesis para la media de la población. Supongamos que se quiere realizar el contraste:

H0: µ1 = 16 H1: µ1 � 16

En el menú Statistics -> One, Two, Multi-Sample Tests activamos la opción One-Sample T Test y aparece una ventana de diálogo En esta ventana, encontramos, como es usual en Statistix, una lista de las variables que se han definido y entre las que se selecciona la variable cuya media queremos contrastar. Una vez seleccionada, se pasa con las flechas al cuadro Sample Variables. En el cuadro Null Hypothesis se indica el valor de µ que se quiere contrastar (en nuestro ejemplo µ1 = 16) y en el cuadro Alternative Hypothesis se selecciona el tipo de hipótesis alternativa:

Not Equal H1: µ1 � 16 Less Than H1: µ1 < 16 Greater Than H1: µ1 > 16

Page 5: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 5

Los resultados para el ejemplo considerado aparecen en la ventana siguiente: One-Sample T Test Null Hypothesis: mu = 16 Alternative Hyp: mu <> 16 95% Conf Interval Variable Mean SE Lower Upper T DF P Med_I 17.000 1.2677 14.002 19.998 0.79 7 0.4561 Cases Included 8 Missing Cases 2

donde Mean representa la media, SE el error estándar para la media, Lower y Upper el extemo inferior y superior, respectivamente, del intervalo de confianza para µ al nivel de confianza del 95%, T el valor del estadístico de contraste, DF los grados de libertad y P el valor del p-valor.

En nuestro ejemplo, obtenemos un p-valor de 0.4561, por lo tanto aceptamos H0 con gran confianza. Para la segunda muestra, podemos realizar el contraste de hipótesis

H0: µ2 = 10 H1: µ2 > 10

obteniendo la ventana de resultados:

One-Sample T Test Null Hypothesis: mu = 10 Alternative Hyp: mu > 10 95% Conf Interval Variable Mean SE Lower Upper T DF P Med_II 14.000 1.1832 11.323 16.677 3.38 9 0.0041 Cases Included 10 Missing Cases 0

Ahora se obtiene un p-valor de 0.0041, por lo tanto rechazamos H0 con gran confianza. Si queremos realizar un contraste para la diferencia de medias utilizamos la opción Two-Sample T Test dentro del menú Statistics -> One, Two, Multi-Sample Tests,

Para introducir las variables seleccionamos dentro de la especificación del modelo la opción Table, que corresponde a una presentación de los datos en una tabla (se han introducido dos variables Med_I y Med_II). Una forma alternativa para introducir los datos consiste en definir una variable que contenga a todos los datos observados, Med, y otra variable, Factor, que tome el valor 1 si el dato corresponde al primer medicamento y el valor 2 si proviene del segundo. En este segundo caso en la especificación del modelo se selecciona la opción Categorical, donde la variable dependiente es Med y la variable de las

Page 6: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 6

categorías es Factor. Para completar el cuadro de diálogo, tenemos que especificar para la hipótesis nula el valor para la diferencia de las medias (en el caso en que se quiera contrastar la igualdad de medias, el valor para la diferencia sería 0) y para la hipótesis alternativa debemos seleccionar el tipo de hipótesis. En nuestro ejemplo, para el contraste

H0: µ1 = µ2 H1: µ1 � µ2

se obtiene la ventana de resultados Two-Sample T Tests for Med_I vs Med_II Variable Mean N SD SE Med_I 17.000 8 3.5857 1.2677 Med_II 14.000 10 3.7417 1.1832 Difference 3.0000 Null Hypothesis: difference = 0 Alternative Hyp: difference <> 0 95% CI for Difference Assumption T DF P Lower Upper Equal Variances 1.72 16 0.1045 -0.6947 6.6947 Unequal Variances 1.73 15.4 0.1036 -0.6876 6.6876 Test for Equality F DF P of Variances 1.09 9,7 0.4660 Cases Included 18 Missing Cases 2

Para el contraste se calculan dos estadísticos, uno corresponde al caso en que suponemos que las dos variables tienen la misma varianza poblacional y el otro al caso en que las varianzas pueden ser distintas. Para cada uno de estos dos casos, se obtiene el valor del estadístico muestral, los grados de libertad, el p-valor y el intervalo de confianza para la diferencia de medias al nivel de confianza del 95%. También se obtiene el contraste para la igualdad de varianzas. A partir de los resultados obtenidos, ¿se pueden suponer las varianzas iguales? ¿Puede afirmarse que existen diferencias significativas entre las reducciones de concentración de ácido úrico proporcionadas por ambos tratamientos? Ejemplo 2. Una determinada empresa presenta un nuevo y revolucionario sistema de aprendizaje del idioma Inglés. Con el fin de verificar la hipótesis de que con este nuevo sistema se obtienen mejores resultados que con los métodos tradicionales, una organización de consumidores se decide a comparar ambos métodos. Para ello, de un curso de 250 alumnos, se seleccionan de manera aleatoria un grupo de 100, el cual estudiará con este nuevo sistema durante un trimestre, mientras que los 150 alumnos restantes, lo harán con el método tradicional durante el mismo periodo de tiempo. Al final del trimestre se les sometió a una prueba y los resultados que se obtuvieron fueron los siguientes:

Método tradicional Método nuevo Aprobados 107 63 Suspensos 43 37 Total 150 100

En este ejemplo vamos a construir un intervalo de confianza al nivel de confianza del 95% para la diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos y a hacer un contraste de hipótesis con el fin de determinar si el nuevo método proporciona mejores resultados que el método tradicional. Sean p1 y p2 las proporciones de aprobados por el método tradicional y el método nuevo, respectivamente. Tenemos que construir un intervalo de confianza para al diferencia p1-p2 y realizar el contraste

H0: p1 = p2 H1: p1 < p2

En primer lugar, seleccionamos la opción Proportion Test, dentro del menú Statistics -> One, Two, Multi-Sample Tests, y completamos cada uno de los cuadros que aparecen con los datos observados y

Page 7: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 7

con la especificación de la hipótesis alternativa y del nivel de confianza para el intervalo de confianza. En este ejemplo, el cuadro de diálogo quedaría de la siguiente forma:

y la ventana de resultados Two-Sample Proportion Test Sample 1 Sample 2 Sample Size 150 100 Successes 107 63 Proportion 0.71333 0.63000 Null Hypothesis: P1 = P2 Alternative Hyp: P1 < P2 Difference 0.08333 SE (diff) 0.06022 Z (uncorrected) 1.38 P 0.9168 Z (corrected) 1.25 P 0.8935 Fisher's Exact 0.8936 95% Confidence Interval of Difference Lower Limit -0.03470 Upper Limit 0.20137

De estos resultados se deduce que no podemos rechazar H0, con lo que ambos métodos producen resultados similares y, por tanto, el nuevo método no proporciona mejores resultados que el tradicional. El test para una proporción se obtendría seleccionando los datos de una única muestra y especificando las hipótesis nula y alternativa como ya se ha comentado anteriormente. Ejemplo 3. En la publicidad de un producto dietético líquido se afirma que si se emplea durante un mes se produce una pérdida promedio superior a 4 kg. Ocho personas utilizaron el producto durante un mes, obteniéndose los siguientes valores para el peso antes y después de utilizar dicho producto. Admitiendo la hipótesis de normalidad, construir un intervalo de confianza al nivel de confianza del 95% para la pérdida de peso promedio. ¿Los datos apoyan la afirmación realizada en la publicidad? (Para responder a esta pregunta formular un contraste de hipótesis). En este ejemplo los datos están apareados porque los pesos inicial y final corresponden a la misma persona. El contraste que tenemos que realizar sería

Persona Peso inicial Peso final

1 64 61

2 102 95

3 96 92

4 99 97

5 56 50

6 44 41

7 51 46

8 88 83

Page 8: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 8

H0: µ I-µF � 4 H1: µ I-µF > 4

Para ello, seleccionamos la opción Paired T Test del menú Statistics -> One, Two, Multi-Sample Tests, Especificadas las hipótesis nula y alternativa, se obtiene la siguiente salida: Paired T Test for Peso_inic - Peso_fina Null Hypothesis: difference = 4 Alternative Hyp: difference > 4 Mean 4.3750 Std Error 0.5957 Mean - H0 0.3750 Lower 95% CI -1.0337 Upper 95% CI 1.7837 T 0.63 DF 7 P 0.2745

De estos resultados, se concluye que con un p-valor de 0.2745 no tenemos suficiencia evidencia en contra de la hipótesis nula, con lo cual los datos no corroboran la afirmación realizada por la publicidad. También obtenemos (-1.0337,1.7837) como intervalo de confianza al 95% para µ I-µF-4, con lo cual para µ I-µF tendremos el intervalo (2.9663,5.7837). Observando que sólo contiene valores positivos para la diferencia media de peso, ¿qué podemos concluir?

Page 9: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 9

Ejercicios propuestos. Ejercicio 1. Los alumnos de un curso de estadística desean saber si se emplea menos tiempo resolviendo los problemas con calculadora o utilizando un paquete estadístico para ordenador. Para ello, se tomó una muestra de diez que utilizaron sólo calculadora y otra de siete que usaron el paquete estadístico para resolver el mismo grupo de ejercicios. Los tiempos observados, en minutos, fueron los siguientes: Sistema I 58 65 70 85 69 74 69 58 76 69 Sistema II 45 56 68 45 63 69 52 Si los tiempos se distribuyen normalmente, ¿puede concluirse que el paquete estadístico ahorra tiempo? Ejercicio 2. Para comparar dos programas OCR de digitalización de letra impresa, se sometió cada uno a 50 pruebas. El primero cometió 4 fallos y el segundo 6. ¿Puede afirmarse que el primero es significativamente más fiable que el segundo? Ejercicio 3. En una empresa de fundición se recibe periódicamente mineral de hierro procedente de dos yacimientos distintos A y B. Para estudiar la calidad del mineral recibido se extraen dos muestras y se analiza la riqueza en hierro, obteniendo los siguientes resultados en tanto por ciento:

A 43 45 42 35 37 38 33 38 41 43 B 39 36 35 37 40 39 40 38 35 39 38 34

Suponiendo normal la distribución de la riqueza del mineral en ambos yacimientos, ¿se puede admitir que la diferencia, en lo que a calidad del mineral se refiere, es significativa al 0.05?

Ejercicio 4. Se está interesado en comparar el contenido de celulosa en dos variedades de alfalfa A y B. En una muestra de 1000 cortes de alfalfa de cada variedad se observó el contenido de celulosa (en mg/g). (Fichero de datos: alfalfa.txt).

a) Construir en un mismo gráfico los diagramas de Box-Whisker para los datos observados de cada variedad. ¿Qué podemos concluir de esta representación gráfica?

b) Suponiendo que el contenido de celulosa para cada variedad de alfalfa, XA y XB, se

distribuye aproximadamente como una distribución normal, ¿qué valores muestrales se obtendrían como estimaciones para la media y la varianza de cada distribución?

c) Obtener un intervalo de confianza al 95% para la diferencia de los contenidos medios de

celulosa en ambas poblaciones. ¿Existen diferencias significativas entre ambas variedades?

d) ¿Se puede afirmar que el contenido medio de celulosa de la variedad A supera en 15

unidades al de la variedad B? Plantear un contraste de hipótesis obteniendo el p-valor correspondiente. Interpretar los resultados.

Nota: Los ejercicios propuestos deben presentarse resueltos utilizando el programa Statistix (plazo máximo de entrega: dos semanas a partir del día en que se realice la práctica).

Page 10: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 10

Práctica 2: Análisis de la varianza.

El menú Statistics-> One, Two, Multi-Sample Tests->One Way ANOVA permite llevar a cabo de manera automática todos los cálculos relacionados con el análisis de la varianza de un sólo factor, así como la comprobación de las hipótesis del modelo. Para ilustrar los comandos necesarios, resolveremos paso a paso el ejemplo siguiente: Ejemplo 1. Una compañía algodonera, interesada en maximizar el rendimiento de la semilla de algodón, desea comprobar si dicho rendimiento depende del tipo de fertilizante utilizado para tratar la planta. A su disposición tiene 5 tipos de fertilizantes. Para comparar su eficacia fumiga, con cada uno de los fertilizantes, un cierto número de parcelas de terreno de la misma calidad y de igual superficie. Al recoger la cosecha se mide el rendimiento de la semilla (peso por unidad de superficie), obteniéndose las siguientes observaciones:

Fertilizante Rendimiento 1 51 49 50 49 51 50 2 56 60 56 56 57 3 48 50 53 44 45 4 47 48 49 44 5 43 43 46 47 45 46

La variable Y que nos interesa corresponde con el rendimiento de la semilla y el factor es el tipo de fertilizante aplicado. La observación yij hace referencia al rendimiento medido en la j-ésima parcela en la que se aplicó el fertilizante i, para i=1,…,5, y j=1,…,ni. Para la formulación del modelo de análisis de la varianza se parte de la hipótesis que las vv. aa. Yij son independientes con distribución N(µi,�2) . Introducimos los datos usando dos variables distintas, por ejemplo, Y y Factor (menú Data->Insert->Variables). En la primera variable se introducen los datos observados para el rendimiento y en la segunda el tipo de fertilizante utilizado (1, 2, 3, 4 ó 5). Para cada variable se tendrán 26 datos. Para visualizar los datos utilizamos la opción Scatter Plot dentro del menú Statistics->Summary Statistics. A continuación vamos al menú Statistics->One, Two, Multi-Sample Tests->One Way ANOVA para realizar el análisis de la varianza e introducimos las variables seleccionando en la especificación del

Page 11: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 11

modelo la opción Categorical, donde Y es la variable dependiente y Factor la variable de clasificación en categorías. Los resultados aparecen en la ventana siguiente: One-Way AOV for Y by FACTOR Source DF SS MS F P FACTOR 4 439.885 109.971 23.6 0.0000 Error 21 98.000 4.667 Total 25 537.885 Grand Mean 49.346 CV 4.38 Chi-Sq DF P Bartlett's Test of Equal Variances 8.09 4 0.0883 Cochran's Q 0.5451 Largest Var / Smallest Var 16.875 Component of variance for between groups 20.3563 Effective cell size 5.2 FACTOR N Mean SE 1 6 50.000 0.8819 2 5 57.000 0.9661 3 5 48.000 0.9661 4 4 47.000 1.0801 5 6 45.000 0.8819

Empezamos examinando la validez del modelo estadístico. El p-valor obtenido en el Test de Bartlett para la comparación de varianzas no conduce a rechazar la hipótesis nula de igualdad de varianzas. Para continuar con la validación del modelo debemos analizar los residuos. La opción Plots del menú Results en la ventana de resultados nos permite obtener una gráfica de los residuos en función de los valores ajustados (opción Resids By Fitted Values) y una gráfica normal de los mismos (opción Normal Probability Plot).

Page 12: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 12

O bien, almacenamos los residuos eij y los valores ajustados �ij, seleccionando la opción Save Residuals en el menú Results de la ventana de resultados: Usando la opción Scatter Plot, dentro del menú Statistics->Summary Statistics, representamos los residuos frente a los valores ajustados y con la opción Shapiro-Wilk…, dentro del menú Statistics->Randomnness/Normality Tests, obtenemos un gráfico probabilístico normal de los residuos. Puesto que en ninguno de los pasos hemos observado una violación clara de alguna de las hipótesis del modelo, podemos seguir con el estudio del modelo. Antes de analizar los resultados del análisis de la varianza podemos representar las medias muestrales para cada nivel del factor con la opción Means Plot del menú Results->Plots. En este gráfico observamos que hay una clara diferencia entre la media obtenida para el nivel 2 y el resto de las medias. En la tabla ANOVA se ha obtenido un p-valor para el contraste de igualdad de medias inferior a 0.00001, lo que conduce a rechazar con gran confianza la hipótesis nula de igualdad de medias entre los distintos niveles. Con estos resultados podemos afirmar que el tipo de fertilizante influye en el rendimiento medio.

Page 13: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 13

Como se ha confirmado la existencia de diferencias significativas entre los tipos de fertilizante, será conveniente hacer comparaciones por pares de las medias para cada tipo de fertilizante para determinar cuáles son los tipos de fertilizante estadísticamente diferentes o en cuánto oscilan esas diferencias. Para ello activamos la opción All-pairwise Comparisons del menú Results->Multiple Comparisons, y seleccionamos el procedimiento de comparación múltiple que se desee. Las ventanas de resultados para los procedimientos LSD, Bonferroni y Scheffé se presentan de la forma siguiente: LSD All-Pairwise Comparisons Test of Y by FACTOR FACTOR Mean Homogeneous Groups 2 57.000 A 1 50.000 B 3 48.000 BC 4 47.000 CD 5 45.000 D Alpha 0.05 Critical T Value 2.080 There are 4 groups (A, B, etc.) in which the means are not significantly different from one another.

Bonferroni All-Pairwise Comparisons Test of Y by FACTOR FACTOR Mean Homogeneous Groups 2 57.000 A 1 50.000 B 3 48.000 BC 4 47.000 BC 5 45.000 C Alpha 0.05 Critical T Value 3.135 There are 3 groups (A, B, etc.) in which the means are not significantly different from one another. Scheffe All-Pairwise Comparisons Test of Y by FACTOR FACTOR Mean Homogeneous Groups 2 57.000 A 1 50.000 B 3 48.000 BC 4 47.000 BC 5 45.000 C Alpha 0.05 Critical F Value 2.840 There are 3 groups (A, B, etc.) in which the means

are not significantly different from one another. Con estos procedimientos de comparación se detectan varios grupos homogéneos de medias.

Page 14: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 14

Ejercicios propuestos. Ejercicio 1. En 1879 el físico A. A. Michelson realizó en cinco ensayos 100 determinaciones de la velocidad de la luz en el aire. El fichero luz.txt contiene esos datos en km/s, después de haberles restado 299000.

1. Proponer un modelo estadístico para investigar si existen diferencias entre los distintos ensayos. 2. Realizar la validación del modelo anterior.

3. ¿Qué se puede decir sobre la homogeneidad de las mediciones entre los distintos grupos? 4. Repetir el análisis con los datos de los cuatro últimos ensayos. Basándose en estos cuatro

ensayos, ¿qué valor se estimaría para la velocidad de la luz en el aire?

Ejercicio 2. Se quiere estudiar el nivel de bilirrubina en la sangre, para ello se analiza cada semana la sangre de tres hombres jóvenes, midiendo la concentración de bilirrubina. Se ha realizado un test con anterioridad para asegurarse que la concentración de una semana no influye significativamente sobre la concentración de la semana siguiente. Los datos se encuentran en el fichero bilirrubi.txt

1. Proponer un modelo estadístico para estudiar si hay diferencias entre los niveles de bilirrubina de los tres individuos.

2. Realizar una gráfica normal de las concentraciones de bilirrubina. ¿Parece aceptable la hipótesis

de normalidad de las variables? 3. Definir una nueva variable que sea igual al logaritmo de la concentración de bilirrubina y

realizar de nuevo una gráfica normal para la variable transformada. ¿Qué ocurre ahora? 4. Realizar un análisis de la varianza para el logaritmo de las concentraciones de los tres

individuos, con comparaciones múltiples si fuese necesario.

Ejercicio 3. El fenómeno de El Niño se refiere a corrientes oceánicas inusualmente calientes en el Pacífico que aparecen alrededor de Navidad y pueden durar varios meses. Efectos catastróficos como huracanes y tempestades se han relacionado con El Niño. Una hipótesis que fue emitida es que una fase caliente de El Niño tiende a disminuir el número de huracanes mientras que éste tiende a aumentar en una fase fría. Desde el National Hurricane Center se ha obtenido el número de huracanes y tempestades desde 1950 hasta 1995, así como el tipo de corrientes de El Niño (calientes, frías o neutras). Después de haber importado los datos del fichero elnino.txt (Fuente: Exploring Statistics (1996) L. Kitchen, Duxbury press, p. 813), contestar a las siguientes preguntas:

1. Construir diagramas de cajas para el número de tempestades asociadas con cada una de las tres fases de El Niño. ¿Qué conclusiones se pueden extraer?

2. ¿Parecen razonables las hipótesis del modelo para el análisis de varianza para estos datos?

Realizar el test F para el número de tempestades.

3. ¿Cuál es la correlación entre el número de tempestades y el número de huracanes?

4. Realizar el test F para el número de huracanes. ¿Son los resultados coherentes con los dos apartados anteriores?

Page 15: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 15

Práctica 3: Regresión lineal simple.

El menú Statistics->Linear Models->Linear Regression permite un estudio completo de un conjunto de datos usando el modelo de regresión lineal simple, así como la comprobación de las hipótesis del modelo. Para ilustrar los comandos necesarios, analizaremos el conjunto de datos correspondiente a un estudio de la evolución del contenido en ácido ascórbico en verduras durante los procesos de secado y almacenamiento. Se pretende expresar el contenido en % de ácido ascórbico en función del % de materia seca de la verdura. Los datos están contenidos en el fichero ASCII espinaca.txt cuya primera línea contiene los nombres de las variables. Después de haber importado los datos, procedemos al análisis. Representación de la nube de puntos. En el menú Statistics->Summary Statistics->Scatter Plot y como es usual en Statistix, en la ventana de diálogo que aparece seleccionamos entre la lista de las variables definidas de la izquierda las variables asociadas con los ejes OX y OY. También se puede especificar el rango de los ejes (opcional). Puesto que parecen presentar una relación lineal podemos considerar el modelo de regresión lineal. Suponemos que observamos una realización de las variables (Y1,Y2,...,Yn), independientes, y que la distribución de cada v.a. Yi es N(µi,�2), donde las medias satisfacen la relación

µ i = �1 + �2 xi , para i = 1, ..., n Determinación de la recta de regresión. La opción Statistics->Linear Models->Linear Regression nos permite realizar de manera automática todos los cálculos necesarios en el estudio del modelo de regresión lineal. Debemos especificar la variable dependiente (variable respuesta en el estudio) y la variable independiente (variable de control). Nota: Si la casilla Fit constant está desactivada, corresponde al modelo simplificado µ i = �2 xi , para i =1, ..., n, donde imponemos que la ordenada en el origen sea igual a 0. Empezamos considerando el modelo

Page 16: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 16

lineal con término constante y si al realizar el contraste H0: �1 = 0 el p-valor no es significativo para rechazar H0 podemos considerar el modelo simplificado. Al pulsar OK, aparece la siguiente ventana de resultados: Unweighted Least Squares Linear Regression of ACIDO Predictor Variables Coefficient Std Error T P Constant 33.4819 11.0983 3.02 0.0063 MATERIA 3.84580 1.04243 3.69 0.0013 R-Squared 0.3822 Resid. Mean Square (MSE) 64.8409 Adjusted R-Squared 0.3541 Standard Deviation 8.05238 Source DF SS MS F P Regression 1 882.53 882.525 13.61 0.0013 Residual 22 1426.50 64.841 Total 23 2309.02 Cases Included 24 Missing Cases 0

Interpretación de los resultados proporcionados: En la columna Coefficient aparecen las estimaciones de �1 (en la fila Constant) y de �2 (en la fila MATERIA). La columna Std Error contiene una estimación de la desviación estándar de los estimadores �1 (en la fila Constant) y �2 (en la fila MATERIA), que nos permite la construcción de intervalos de confianza. A partir de estos valores determinar un intervalo de confianza al 95% para la pendiente y la ordenada en el origen de la recta de regresión. Siguiendo el principio de parsimonia, se realizan automáticamente los constrastes

H0: �1 = 0 H1: �1 � 0 (línea Constant) H0: �2 = 0 H1: �2 � 0 (línea MATERIA)

La columna T contiene los valores de los estadísticos correspondientes y la columna P contiene los p-valores de las pruebas. En este caso, rechazamos las dos hipótesis nulas. Resid. Mean Square representa la estimación de la varianza de los errores (se considera el estimador insesgado para la varianza) y Standard Deviation la estimación de la desviación típica de los errores R-Squared corresponde al valor de R2, porcentaje de la variabililidad de los datos que está explicada por el modelo de regresión. En nuestro caso, el valor de R2 es bajo, aunque los datos presentan una clara tendencia lineal, porque la varianza es bastante grande. La tabla que aparece en la ventana de resultados recoge los cálculos para realizar el contraste de regresión. En el caso de regresión lineal simple este contraste es equivalente al contraste

H0: �2 = 0 H1: �2 � 0

(comprobar que el p-valor es el mismo que se obtuvo en la columna P y en la línea MATERIA). La ventana de resultados proporcionados por Statistix, en la opción Results->Plots->Simple Regression Plot, nos permite visualizar la recta de regresión junto con los intervalos de predicción al 95%.

Page 17: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 17

Para la predicción de nuevos valores seleccionamos en la ventana de resultados la opción Results -> Prediction, en la que podemos especificar varios valores de x0 para los cuales nos interesa obtener los intervalos para el valor medio de la respuesta µxo y para el valor de la respuesta Yx0. También podemos especificar el nivel de confianza en el cuadro C.I. Percent Coverage. Para x0 = 10 y nivel de confianza 0.95, aparece la siguiente ventana de los resultados: Predicted/Fitted Values of ACIDO Lower Predicted Bound 54.858 Lower Fitted Bound 68.344 Predicted value 71.940 Fitted Value 71.940 Upper Predicted Bound 89.022 Upper Fitted Bound 75.536 SE (Predicted Value) 8.2369 SE (Fitted Value) 1.7338 Unusualness (Leverage) 0.0464 Percent Coverage 95.0 Corresponding T 2.07 Predictor Values: MATERIA = 10.000

Page 18: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 18

LOWER PREDICTED BOUND: Extremo inferior del intervalo de predicción para Yxo . PREDICTED VALUE: Estimación para Yxo . UPPER PREDICTED BOUND: Extremo superior del intervalo de predicción para Yxo. SE (PREDICTED VALUE): Estimación de la desviación típica del estimador para Yxo . Para µx0 los valores correspondientes se especifican en LOWER FITTED BOUND, FITTED VALUE, UPPER FITTED BOUND y SE (FITTED VALUE). CORRESPONDING T 2.07 : Valor crítico tn-2,1-� /2 . Validación del modelo. Podemos almacenar los residuos (los residuos estandarizados, los valores ajustados, longitud de intervalo de predicción, etc...) en una nueva variable utilizando la opción Results-> Save Residuals de la ventana de resultados proporcionados por Statistix, indicando en los cuadros vacíos los nombres de las nuevas variables que queremos definir. También tenemos la posibilidad de visualizar directamente las gráficas que permiten la validación del modelo dentro de la opción Plots del menú Results: Std Resid. vs Fitted values : Residuos estandarizados en función de los valores ajustados. Std. Resid. vs Time series : Residuos estandarizados en función de su posición. Normal Probability Plot (Wilks-Shapiro/Rankit Plot) : Gráfico probabilístico normal de los residuos.

Page 19: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 19

Ejercicios propuestos. Ejercicio 1. Nivel del mar en Venecia. Queremos estudiar la evolución del máximo anual del nivel del mar (en cm.) en Venecia. Los datos de los que disponemos corresponden a los años 1931-1981, y están contenidos en el fichero venecia.txt (Datos reales, publicados en Smith R.L, ''Extreme value theory based on the r largest annual events”, Journal of Hydrology, 86, 1986).

Máximos anuales del nivel del mar, años 1931-1981

103 78 121 116 115 147 119 114 89 102 99 91 97 106 105 136 126 132 104 117 151 116 107 112 97 95 119 124 118 145 122 114 118 107 110 194 138 144 138 123 122 120 114 96 125 124 120 132 166 134 138

1. Nube de puntos del nivel máximo en función del año, ¿parece presentar una tendencia lineal?

2. Si suponemos que las hipótesis del modelo de regresión lineal se satisfacen y

µ i = �1 + �2 xi , para i = 1, ..., n

� Intervalo de confianza al 95% para �1 y para �2. � Estimación de �2.

� Principio de parsimonia.

� Valor de R2. Comentar.

� Predicción del nivel máximo del mar en 1990, comentar la precisión de la predicción.

3. Validación del modelo.

� Residuos en función de los valores ajustados. Comentar.

� Residuos en función de su posición. Comentar

� Gráfica normal de los residuos. Comentar.

Ejercicio 2. Resistencia del cemento. Se quiere estudiar la resistencia de unas piezas de cemento en función de su edad en días.

Edad (días) Resistencia (Kg/cm2) 1 13 13.3 11.8 2 21.9 24.5 24.7 3 29.8 28 24.1 24.2 26.2 7 32.4 30.4 34.5 33.1 35.7 28 41.8 42.6 40.3 35.7 37.3

Page 20: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 20

1. Nube de puntos de la resistencia en función de la edad. ¿Parece presentar una tendencia lineal?

Si la respuesta es negativa, ¿qué tipo de función podría ajustarse a la nube de puntos? Si la función es f (t) = � exp(-�2 / t), ¿cuál es la interpretación física del coeficiente �? ¿Cuál es la transformación de los datos que nos permitirá evidenciar una relación lineal? Realizar la nube de puntos correspondiente.

1. Una vez realizadas las transformaciones convenientes, determinar los intervalos de

confianza al 95% para �1 y para �2, una estimación de �2, conclusiones sobre el principio de parsimonia, determinar el valor de R2 y realizar los comentarios convenientes.

2. Validación del modelo. Residuos en función de los valores ajustados, en función de su

posición y gráfica normal. Comentar. Ejercicio 3. Producción mundial de petróleo. Se quiere estudiar la evolución de la producción mundial de petróleo de 1880 a 1973. Los datos se encuentran en el fichero ASCII petroleo.txt.

1. Nube de puntos de la producción en función del año. ¿Parece presentar una tendencia lineal?

Si la respuesta es negativa, ¿qué tipo de función podría ajustarse a la nube de puntos? ¿Cuál es la transformación de los datos que nos permitirá evidenciar una relación lineal? Realizar la nube de puntos correspondiente.

2. Estudio de regresión lineal.

3. Validación del modelo.

Page 21: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 21

Práctica 4: Regresión lineal múltiple.

El menú Statistics->Linear Models->Linear Regression permite un estudio completo de un conjunto de datos usando el modelo de regresión lineal múltiple, así como la comprobación de las hipótesis del modelo. Para ilustrar los comandos necesarios, estudiaremos paso a paso un ejemplo. Ejemplo. Un ingeniero de producción es responsable de la reducción del costo. Una de las materias primas fundamentales en la producción es el agua. Para estudiar el consumo de agua, el ingeniero recopila durante 17 meses los datos relativos al consumo mensual de agua (Y) junto con los indicadores de temperatura media mensual (x2, en ºF), la producción (x3), el número de días de trabajo en el mes (x4) y el número de personal en la planta de producción (x5). Los datos están contenidos en el fichero ASCII agua.txt cuya primera línea contiene los nombres de las variables. Después de haber importado los datos, procedemos al análisis. Cálculo de los estimadores. Suponemos que observamos una realización de las variables (Y1,Y2,...,Yn), independientes, y que la distribución de cada v.a. Yi es N(µi,�2), donde las medias satisfacen la relación

µ i = �1 + �2 xi2 + �3 xi3 + �4 xi4 + �5 xi5 , para i = 1, ..., n En primer lugar calculamos estimaciones para �=(�1, �2, �3, �4, �5)’ y �2. La opción Statistics->Linear Models->Linear Regression nos permite realizar de manera automática todos los cálculos necesarios en el estudio del modelo de regresión lineal múltiple. Debemos especificar la variable dependiente (variable respuesta en el estudio) y las variables independientes (x2, x3, x4, x5). Nota: Si la casilla Fit constant está desactivada, corresponde al modelo simplificado

µ i = �2 xi2 + �3 xi3 + �4 xi4 + �5 xi5 , para i =1, ..., n,

donde imponemos que el hiperplano pasa por el origen. Empezamos considerando el modelo lineal con término constante y si al realizar el contraste H0: �1 = 0 el p-valor no es significativo para rechazar H0 podemos considerar el modelo simplificado. Al pulsar OK, aparece la siguiente ventana de resultados: Unweighted Least Squares Linear Regression of Y Predictor Variables Coefficient Std Error T P VIF Constant 6360.34 1314.39 4.84 0.0004 X2 13.8689 5.15982 2.69 0.0197 1.3 X3 0.21170 0.04554 4.65 0.0006 6.7 X4 -126.690 48.0223 -2.64 0.0216 1.3 X5 -21.8180 7.28452 -3.00 0.0112 6.6 R-Squared 0.7670 Resid. Mean Square (MSE) 61983.1 Adjusted R-Squared 0.6894 Standard Deviation 248.964 Source DF SS MS F P Regression 4 2448834 612209 9.88 0.0009 Residual 12 743798 61983 Total 16 3192632 Cases Included 17 Missing Cases 0

Page 22: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 22

Interpretación de los resultados proporcionados: En la columna Coefficient aparecen las estimaciones de �i. La columna Std Error contiene una estimación de la desviación estándar de los estimadores de �i , que nos permite la construcción de intervalos de confianza. A partir de estos valores determinar intervalos de confianza al 95% para los parámetros �i . Siguiendo el principio de parsimonia, se realizan automáticamente los k constrastes

H0: �i = 0 H1: �i � 0 (i=1,…,k)

La columna T contiene los valores de los estadísticos correspondientes y la columna P contiene los p-valores de las pruebas. En este caso, Resid. Mean Square representa la estimación de la varianza de los errores (se considera el estimador insesgado para la varianza), 61983.1, y Standard Deviation la estimación de la desviación típica de los errores, 248.964. R-Squared corresponde al valor de R2, porcentaje de la variabililidad de los datos que está explicada por el modelo de regresión. En nuestro caso, R2 =0.7670. La tabla que aparece en la ventana de resultados recoge los cálculos para realizar el contraste de regresión.

H0: �2 = … = �k = 0 H1: �i � 0, para algún i

La hipótesis nula corresponde a que ninguna de las variables x2, x3, x4 y x5 tiene influencia sobre los valores de y. En nuestro caso, se tiene un p-valor igual a 0.0009 y se tomaría la decisión de rechazar dicha hipótesis. La matriz estimada de covarianza de los estimadores se obtiene en la opción Results-> Var-Cov Of Betas de la ventana de resultados proporcionados por Statistix, Variance-Covariance Matrix for Coefficients Constant X2 X3 X4 X5 Constant 1727625 X2 102.760 26.6237 X3 36.7128 -0.01190 0.00207 X4 -45405.5 -106.168 -0.33425 2306.14 X5 -6761.36 3.32007 -0.30536 38.9854 53.0642

Page 23: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 23

Para la predicción de nuevos valores seleccionamos en la ventana de resultados la opción Results -> Prediction, en la que podemos especificar varios valores del vector x0=(x01, x02, …, x0k)’ para los cuales nos interesa obtener los intervalos para el valor medio de la respuesta µxo y para el valor de la respuesta Yx0. También podemos especificar el nivel de confianza en el cuadro C.I. Percent Coverage. Para obtener predicciones para un mes de 22 días laborables, en el que la temperatura media mensual sea de 80ºF, la producción igual a 14000 y en el que la plantilla sea de 200 personas se consideraría x0 = (80,14000,22,200)’ . Al nivel de confianza del 0.95 aparece la siguiente ventana de resultados: Predicted/Fitted Values of Y Lower Predicted Bound 2665.5 Lower Fitted Bound 2988.0 Predicted value 3282.9 Fitted Value 3282.9 Upper Predicted Bound 3900.4 Upper Fitted Bound 3577.8 SE (Predicted Value) 283.39 SE (Fitted Value) 135.37 Unusualness (Leverage) 0.2956 Percent Coverage 95.0 Corresponding T 2.18 Predictor Values: X2 = 80.000, X3 = 14000, X4 = 22.000, X5 = 200.00

LOWER PREDICTED BOUND: Extremo inferior del intervalo de predicción para Yxo . PREDICTED VALUE: Estimación para Yxo . UPPER PREDICTED BOUND: Extremo superior del intervalo de predicción para Yxo. SE (PREDICTED VALUE): Estimación de la desviación típica del estimador para Yxo . Para µx0 los valores correspondientes se especifican en LOWER FITTED BOUND, FITTED VALUE, UPPER FITTED BOUND y SE (FITTED VALUE). CORRESPONDING T 2.18 : Valor crítico tn-k,1-� /2 . Validación del modelo. Podemos almacenar los residuos (los residuos estandarizados, los valores ajustados, longitud de intervalo de predicción, etc...) en una nueva variable utilizando la opción Results-> Save Residuals de la ventana de resultados proporcionados por Statistix, indicando en los cuadros vacíos los nombres de las nuevas variables que queremos definir. También tenemos la posibilidad de visualizar directamente las gráficas que permiten la validación del modelo dentro de la opción Plots del menú Results: Std Resid. vs Fitted values : Residuos estandarizados en función de los valores ajustados. Std. Resid. vs Time series : Residuos estandarizados en función de su posición. Normal Probability Plot (Wilks-Shapiro/Rankit Plot) : Gráfico probabilístico normal de los residuos.

Page 24: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 24

Ejercicios propuestos. Ejercicio 1. Estimación del volumen de madera de un árbol. En Ingeniería Forestal existe la necesidad evidente de poder predecir el volumen de madera disponible de un tronco de un árbol todavía en pie. El método más sencillo consiste en medir el diámetro cerca del suelo y la altura del tronco y estimar el volumen utilizando estas dos cantidades. En el fichero cerezos.txt están los datos de un experimento realizado en un parque nacional de Pennsylvania donde se midió con cuidado el volumen después de cortar el tronco (v: volumen, d: diámetro y a: altura)

1. Realizar el análisis de regresión lineal del volumen sobre el diámetro y la altura. Proceder al análisis de los residuos, ¿qué se puede concluir?

2. Si se supone que el tronco es un cilindro perfecto, ¿cuál sería la relación entre v, a y d?

3. Proponer una transformación sobre los datos que sea acorde con esta relación física. Realizar el

ajuste lineal correspondiente y analizar los residuos.

4. Si se supone que el tronco es un cono perfecto, ¿cuáles deberían ser los valores de los parámetros del apartado anterior?

5. Plantear los contrastes sobre los parámetros para probar si podemos aceptar la hipótesis de que i)

el tronco es un cilindro perfecto y ii) el tronco es un cono perfecto. Con la información muestral disponible ¿qué decisión se tomaría?

Ejercicio 2. Consumo de helados. Se quieren identificar los factores más influyentes en el consumo de helados. Para ello se midió en una familia americana durante 30 semanas, desde el 18 de marzo de 1953 hasta 11 de julio 1953, el consumo semanal de helado por persona (Y), junto con las cantidades siguientes que se pensaba podían tener alguna influencia sobre el consumo: p, el precio de una pinta de helado, i, los ingresos semanales de la familia y temp, la temperatura media de la semana. Los datos recopilados se encuentran en el fichero helados.txt, en donde también se incluye el número de la semana observada.

1. Representar gráficamente el consumo de helados en función de las semanas.

2. Determinar la matriz de correlación de las variables y, p, i y temp. Para ello se utiliza la opción Statistics-> Linear Models-> Correlations (Pearson), y como es usual en Statistix, en la ventana de diálogo que aparece seleccionamos entre la lista de las variables definidas de la izquierda las variables que nos interesan.

3. ¿Cuál es la variable que parece tener más influencia en y?

4. Realizar un ajuste lineal de y sobre p, i y temp. ¿Cuál es el valor estimado para la varianza del

error? ¿Y el valor de R2? 5. Realizar un ajuste lineal de y sobre i y temp. ¿Cuál es el valor estimado para la varianza del

error? ¿Y el valor de R2? Guardar los valores ajustados en una variable llamada ajucomp. Representar en la misma gráfica y en función de semana y ajucomp en función de semana.

Ejercicio 3. Residuos en un polígono industrial. El Departamento de Medio Ambiente de un polígono industrial sospecha que la cantidad de residuos contaminantes vertidos por las empresas depende del número de trabajadores (x1) y del volumen de la producción (x2). Para comprobar esta suposición se seleccionan cinco empresas del polígono industrial y se observan los valores anuales de las variables en estudio, obteniéndose los siguientes valores:

Empresa Cantidad de residuos (y, en Tn)

Número de trabajadores (x1)

Producción (x2, en miles de Tn)

1 11 147 56 2 26 357 65 3 39 348 82 4 98 153 135 5 82 312 120

Page 25: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 25

Se pide:

1. Plantear el modelo de regresión lineal múltiple que explique la cantidad de residuos vertidos en función del número de trabajadores y de la producción. Para poder hacer inferencia sobre los parámetros del modelo, ¿qué hipótesis deben imponerse?

2. Obtener estimaciones para los parámetros del modelo.

3. Decidir qué coeficientes de la regresión son significativos planteando contrastes de hipótesis.

4. Por cada tonelada de residuos contaminantes que vierta una empresa deberá pagar al

Ayuntamiento 5,000 euros. ¿Qué tasa deberá abonar una empresa con 250 trabajadores y que tenga un volumen de producción de 100,000 Tn anuales? Obtener un intervalo de confianza al nivel de confianza del 95% para dicha tasa.

5. Se decide eliminar la variable x1 del modelo y ajustar un modelo de regresión lineal simple para

predecir la cantidad de residuos vertidos en función de x2.

a) ¿Qué modelo se obtendría? Estimar los parámetros del nuevo modelo.

b) Utilizando el modelo estimado en el apartado anterior, ¿qué tasa deberá abonar una empresa con un volumen de producción de 100,000 Tn anuales? Obtener un intervalo de confianza al nivel de confianza del 95% para dicha tasa y comparar los resultados con los obtenidos previamente.

Page 26: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 26

Práctica 5: Regresión lineal múltiple. Selección de variables.

Ejemplo 1. Producción de trigo. En el estado de Iowa, se intentó relacionar la producción de trigo con la cantidad de lluvia caída y la temperatura media durante los tres meses que corresponden a la fase de crecimiento del trigo y el mes de cosecha. En el fichero trigo.txt están los datos correspondientes a 32 años de mediciones, con las variables

a: año r0, r1, r2: cantidad de lluvia en los meses de crecimiento r3: cantidad de lluvia en el mes de cosecha t0, t1, t2: temperatura media en los meses de crecimiento t3: temperatura en el mes de cosecha prod : producción

a) Representar la producción en función del año. b) Calcular la matriz de correlación de las variables involucradas en el problema. ¿Cuáles son las

variables que parecen tener mayor influencia en la producción? c) Realizar el ajuste lineal de la producción sobre las variables r0, r1, r2, r3, t0, t1, t2 y t3. Calcular el

valor de R2. ¿Qué estimación se obtiene para la varianza del error? Según la columna de los p-valores correspondientes a los contrastes H0: �i = 0 frente a H1: �i � 0, ¿cuál sería la primera variable que podemos suprimir en el modelo?

d) A continuación vamos a realizar de manera automática la selección de modelo.

Seleccionamos la opción Statistix -> Linear models -> Stepwise regression y aparece la ventana siguiente:

Page 27: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 27

En esta ventana de diálogo tenemos que rellenar los cuadros referentes a las variables que decidimos que se introduzcan en cada uno. Dependent variable: se trata de la variable respuesta y. En nuestro caso, la producción de trigo, prod. Forced Indep. variables: variables que obligamos a que formen parte de nuestro modelo. Starting Indep. variables: variables de partida para que el programa incorpore en el modelo de regresión. En particular, si queremos hacer eliminación hacia atrás, introducimos todas las variables regresoras en este cuadro. Non- forced indep. variables: variables candidatas para incorporar en el modelo. En cada etapa del proceso se introduce/elimina la variable con menor/mayor p-valor en el contraste de la hipótesis nula que el correspondiente coeficiente de regresión es nulo. Los valores de P to enter y P to exit son los valores límite para decidir si una variable entra o sale en el modelo.

El valor de P to enter corresponde al nivel de significación � que sirve de frontera para incorporar una nueva variable en el modelo, introduciendo aquella variable con correspondiente p-valor menor que P to enter. El valor de P to exit corresponde al nivel de significación � para el contraste correspondiente a una variable que está incorporada en el modelo, eliminando aquella variable con correspondiente p-valor mayor que P to exit. Si queremos hacer eliminación hacia atrás pura debemos especificar que el P to enter es 0, para que una variable eliminada no pueda volver a entrar en el modelo. Si queremos hacer selección hacia delante pura especificamos P to exit como 1, para que una variable que ha entrado en el modelo no pueda volver a salir. Si queremos hacer regresión por pasos en el que una variable ya seleccionada pueda salir o una variable ya descartada pueda volver a entrar especificamos dos valores para P to exit y P to enter, por ejemplo, 0.05.

Podemos decidir entre dos tipos de informes breve o completo en el cuadro Report. Se recomienda la opción Full. En nuestro caso, (supongamos que en un primer intento el año no es un regresor posible). � Eliminación hacia atrás.

Variables que se van eliminando del modelo por orden:

Especificar el modelo definitivo con los p-valores correspondientes a cada coeficiente. Calcular el valor de R2. ¿Qué estimación se obtiene para la varianza del error?

� Selección hacia delante.

¿Cuáles son los pasos que ha seguido el programa? Especificar el modelo definitivo con los p-valores correspondientes a cada coeficiente. Calcular el valor de R2. ¿Qué estimación se obtiene para la varianza del error?

Page 28: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 28

� Regresión por pasos.

¿Cuáles son los pasos que ha seguido el programa? Especificar el modelo definitivo con los p-valores correspondientes a cada coeficiente. Calcular el valor de R2. ¿Qué estimación se obtiene para la varianza del error?

e) Realizar el ajuste lineal correspondiente al (a los) modelo (s) del apartado anterior. Examinar los residuos. Introducir el año en el modelo. ¿Mejora el ajuste la introducción de esta nueva variable?

Ejemplo 2. Precios de la carne de cerdo y de ternera. Waugh estudió en 1957 la evolución de la demanda de la carne de cerdo y de ternera en Estados Unidos durante el período 1925-1941. El fichero carne.txt contiene los datos que fueron objeto de estudio, con las variables

Fecha: Año. PrecTernera: Precio de la ternera en centavos de dólar por libra de peso (aprox. medio kilo). ConsTernera: Consumo de ternera en libras per cápita. PrecCerdo: Precio del cerdo en centavos de dólar por libra de peso. ConsCerdo: Consumo de cerdo en libras per cápita. IPCAlimentac: Indice de precios de la alimentación, base 1947-49. IRentaDispPC: Indice de Renta Disponible per cápita, base 1947-49. IConsAlimPC: Indice de consumo de alimento per cápita, base 1947-49. IRentaRealDPC: Indice de Renta Real Disponible per cápita, base 1947-49. IPrecRelatAlim: Precios relativos de la alimentación, IPCAlimentac/IPCGeneral.

1. La mayor parte de los estudios de demanda especifican la relación entre las variables utilizando una

transformación logarítmica.

a) Realizar una transformación logarítmica a las variables PrecTernera, ConsTernera, PrecCerdo, ConsCerdo, IPCAlimentac, IRentaDispPC, IConsAlimPC, IRentaRealDPC e IPrecRelatAlim.

b) Proponer un modelo lineal para predecir el logaritmo del consumo de cerdo (ConsCerdo) en

función de los logaritmos de las variables PrecTernera, PrecCerdo, IPCAlimentac, IRentaDispPC, IConsAlimPC, IRentaRealDPC e IPrecRelatAlim. Calcular el valor de R2 e interpretar su valor. ¿Qué estimación se obtiene para la varianza del error?

Page 29: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 29

c) Observando los p-valores correspondientes a cada coeficiente de las variables incluidas en el modelo, ¿qué variable podría suprimirse en primer lugar?

2. Seleccionar las variables que se incluirían en el modelo de regresión mediante los métodos: regresión

por pasos, eliminación hacia atrás y selección hacia delante. Especificar el modelo definitivo con los p-valores correspondientes a cada coeficiente. Calcular el valor de R2. ¿Qué estimación se obtiene para la varianza del error?

Page 30: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 30

3 Realizar el ajuste lineal correspondiente al modelo obtenido por regresión por pasos.

a) Proporcionar intervalos de confianza al nivel de confianza del 95% para los parámetros del modelo.

b) Si el precio de la ternera se duplica, ¿cuál sería el efecto que tendría en el logaritmo del consumo

de ternera? ¿Y si el precio del cerdo disminuye un 70%?

c) Examinar los residuos. ¿Se verifican las hipótesis del modelo? ¿Qué repercusión tiene la no

verificación de estas hipótesis sobre el modelo ajustado?

Page 31: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 31

Práctica 6: Diseño de experimentos.

El menú Statistics->Linear Models->Analysis of Variance permite analizar un conjunto de datos usando diferentes modelos de diseño de experimentos, así como validar las hipótesis de los modelos considerados. Las instrucciones que vamos a considerar son las siguientes:

� Completely Randomized AOV. Diseño con un factor principal. Esta instrucción produce los mismos resultados que One-Way AOV del menú Statistics-> One, Two, Multi-Sample Tests, utilizada en la práctica sobre el análisis de la varianza.

� Randomized Complete Block AOV. Diseño con un factor principal y una variable bloque. � Latin Square AOV. Diseño en cuadrado latino (un factor principal y dos factores bloque). � Factorial AOV. Diseño factorial con varios factores principales e interacciones entre los factores

incluidos. � General AOV/AOCV. Diseño general.

Para ilustrar estas instrucciones estudiaremos paso a paso algunos ejemplos. Ejemplo 1. En un artículo del Journal of Testing and Evaluation se investigan los efectos de la frecuencia de carga cíclica y las condiciones de ambiente sobre la rapidez de crecimiento de grietas por fatiga a un esfuerzo constante de 22MPa, para un determinado material. Los datos obtenidos se recogen en la siguiente tabla:

Condiciones ambientales Frecuencia de

carga cíclica Aire Agua Agua salada 10 2.29 2.47 2.48 2.12 2.06 2.05 2.23 2.03 1.9 1.93 1.75 2.06 1 2.65 2.68 2.06 2.38 3.2 3.18 3.96 3.64 3.1 3.24 3.98 3.24

0.1 2.24 2.71 2.81 2.08 11 11 9.06 11.3 9.96 10.01 9.36 10.4

1. ¿Cuál es el objetivo del estudio? ¿Qué modelo se propondría para realizarlo? Especificar detalladamente las hipótesis que deben imponerse.

2. ¿Cómo se validan las hipótesis impuestas en el modelo propuesto en el apartado anterior?

Page 32: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 32

Para la validación del modelo debemos analizar el comportamiento de los residuos. Para ello, en primer lugar seleccionamos la opción Statistics->Linear Models->Analysis of Variance-> Factorial AOV e introducimos como variable respuesta la rapidez de crecimiento y como factores la frecuencia de carga cíclica y las condiciones ambientales, con interacción de orden 2. A continuación pasamos al análisis de los residuos activando en la ventana de resultados la opción Results -> Plots, donde podremos realizar la gráfica de las medias con la opción Means Plot, el gráfico probabilístico normal de los residuos con la opción Normal Probabiliy Plot y la gráfica de los residuos en función de los valores ajustados con la opción Resids By Fitted Values.

Si representamos la gráfica normal de los residuos obtenemos que el p-valor para el test de Shapiro-Wilks es 0.0025, lo cual significa que se no podemos aceptar la hipótesis de normalidad de los residuos.

Page 33: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 33

Por otra parte, si representamos los residuos frente a los valores ajustados obtenemos el gráfico que pone de manifiesto la no homogeneidad de las varianzas. Puesto que no podemos aceptar que se verifiquen las hipótesis del modelo se decide realizar una transformación en los datos considerando logaritmos neperianos en la rapidez de crecimiento de las grietas. Considerando ahora como variable respuesta el logaritmo neperiano de la rapidez de crecimiento, se obtiene que el p-valor para el test de Shapiro-Wilk es 0.6842 Y si representamos la gráfica los residuos en función de los valores ajustados

Page 34: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 34

Observamos que se mejora el comportamiento de dichos residuos.

Para estimar todos los parámetros del nuevo modelo consideramos la opción Results-> Means

and Std Errors… y seleccionamos todos los términos de variabilidad del modelo

Obteniéndose la ventana de resultados Means of LnRapidez for Condicion Condicion Mean 1 0.8760 2 1.4469 3 1.3855 Observations per Mean 12 Standard Error of a Mean 0.0279 Std Error (Diff of 2 Means) 0.0395 Means of LnRapidez for Frecuenci Frecuenci Mean 0 1.8478 1 1.1169 10 0.7437 Observations per Mean 12 Standard Error of a Mean 0.0279

Page 35: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 35

Std Error (Diff of 2 Means) 0.0395 Means of LnRapidez for Condicion*Frecuenci Condicion Frecuenci Mean 1 0 0.8922 1 1 0.8875 1 10 0.8481 2 0 2.3561 2 1 1.2471 2 10 0.7376 3 0 2.2951 3 1 1.2160 3 10 0.6454 Observations per Mean 4 Standard Error of a Mean 0.0484 Std Error (Diff of 2 Means) 0.0684

3. A partir de estos valores proporcionar estimaciones de los parámetros del modelo.

Una estimación de la varianza del error es 0.00937, obtenida a partir de los resultados de la tabla ANOVA. Analysis of Variance Table for LnRapidez Source DF SS MS F P Condicion 2 2.3576 1.17881 125.85 0.0000 Frecuenci 2 7.5702 3.78512 404.09 0.0000 Condicion*Frecuenci 4 3.5284 0.88210 94.17 0.0000 Error 27 0.2529 0.00937 Total 35 13.7092 Grand Mean 1.2361 CV 7.83

Observando los valores de esta tabla, ¿la frecuencia de carga cíclica y las condiciones ambientales son factores determinantes en la variable respuesta? ¿Existe interacción entre ambos factores? A continuación vamos a representar (en una misma gráfica) la respuesta media estimada en función de los distintos niveles de las condiciones ambientales, para cada frecuencia de carga cíclica. Para ello, seleccionamos la opción Results -> Means Plots e introducimos en el cuadro Means Factor las condiciones ambientales y en el cuadro “By” Factor (optional) la frecuencia cíclica.

Page 36: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 36

¿Qué frecuencia resulta más adecuada para un crecimiento de las grietas más lento? Para comparaciones múltiples por pares utilizamos la opción Results -> Multiple Comparisons -> All pairs-wise comparisons.....

4. Realizar comparaciones múltiples para la respuesta media atendiendo a la frecuencia de carga cíclica, utilizando el método de Scheffé y un nivel de confianza del 95%. Comentar los resultados.

5. Supongamos ahora que el único medio al que se expone el material en estudio es el aire, de manera que los datos recopilados para el agua y agua-salada no son de interés. ¿Tiene algún efecto la frecuencia de carga cíclica sobre el logaritmo de la rapidez de crecimiento de las grietas? Plantear el modelo, realizar los contrastes de interés y comentar los resultados. ¿Contradicen los resultados obtenidos a los de los apartados anteriores?

Page 37: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 37

Ejemplo 2. Un ingeniero industrial está interesado en estudiar el efecto que tienen cuatro métodos de ensamblaje (M1, M1, M3 y M4) sobre el tiempo de ensamblaje de una componente para ordenadores. Se seleccionan cuatro operarios para realizar este estudio. Por otra parte, el ingeniero sabe que cada método produce fatiga, por lo que el tiempo que se tarda en el último ensamblaje puede ser mayor que en el primero, independientemente del método. Para controlar esta posible fuente de variabilidad, el ingeniero realiza un diseño en cuadrado latino, obteniéndose los siguientes resultados:

Orden de ensamblaje

Operario 1 2 3 4 1 7 M3 11 M2 4 M1 5 M4 2 4 M4 15 M3 8 M2 5 M1 3 2 M1 7 M4 8 M3 6 M2 4 7 M2 7 M1 9 M4 11 M3

1. Plantear el modelo apropiado para este experimento, identificando la variable respuesta y los factores.

Para obtener la tabla ANOVA se introducen los valores de la variable respuesta (tiempo) y los valores de las variables que actúan como factores (operario, orden y metodo). A continuación seleccionamos la opción Statistics->Linear Models->Analysis of Variante-> Latin Square AOV. En esta ventana de diálogo tenemos que rellenar los cuadros referentes a las variables que actuarán como variables respuesta (Dependent Variables), factor principal (Treatment Variable) y factores bloque (Row Variable y Column Variable). En nuestro ejemplo, la variable respuesta es tiempo, el factor principal metodo y los factores bloque operador y orden.

2. Utilizando la opción anterior completar los datos de la tabla ANOVA. Latin Square AOV Table for tiempo Source DF SS MS F P orden operario metodo Error Total

Alternativamente, se puede utilizar la opción válida para cualquier diseño, Statistics->Linear Models->Analysis of Variante-> General AOV/AOCV. En este caso, se rellenan los cuadros de las variables seleccionando de la lista de variables, la variable que actúa como variable respuesta y las variables que actúan como factores.

3. Completar la tabla ANOVA cuando utilizamos esta opción. Analysis of Variance Table for tiempo Source DF SS MS F P metodo operario orden Error Total

Page 38: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 38

4. ¿Existen diferencias significativas en el tiempo de ensamblaje para los cuatro métodos? En caso afirmativo, realizar comparaciones por pares mediante el método LSD, Bonferroni y Scheffé. ¿Cuántos grupos homogéneos se detectan?

5. ¿Influyen los operarios en el tiempo? En caso afirmativo, realizar comparaciones por pares mediante el método LSD, Bonferroni y Scheffé. ¿Cuántos grupos homogéneos se detectan?

6. ¿Influye el orden de ensamblaje?

En caso afirmativo, realizar comparaciones por pares mediante el método LSD, Bonferroni y Scheffé. ¿Cuántos grupos homogéneos se detectan?

Page 39: MANUAL DE PRÁCTICAS DE ORDENADOR - dmae.upct.esmcbueso/ampliacion_estadistica_archivos/2007_2008/... · diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos

Ampliación de Estadística. Ingeniería Industrial. Curso Académico 2007-2008 39

Ejemplo 3. En unos laboratorios se están estudiando los factores que influyen en la resistencia de un tipo particular de fibra. Se eligen cuatro máquinas y tres operarios y se realiza un experimento factorial usando fibras de un mismo lote de producción. Los resultados obtenidos se muestran en la tabla adjunta.

Tipos de máquinas

Operario M1 M2 M3 M4

1 109 110

110 115

108 109

110 108

2 110 112

110 111

111 109

114 112

3 116 114

112 115

114 119

120 117

1. Escribir el modelo matemático asociado a este experimento.

Usaremos la opción Statistics -> Linear Models -> Analysis of Variance -> Factorial AOV que permite introducir en el modelo diferentes grados de interacción entre los factores.

2. Completar la tabla ANOVA. Analysis of Variance Table for resist Source DF SS MS F P maquina operario maquina*operario Error Total

3. ¿Qué factores son determinantes para la resistencia del tipo de fibra considerado? ¿Existe interacción entre los factores estudiados?

4. A partir de los resultados obtenidos ¿será necesario modificar el modelo inicial? ¿Qué modelo plantearía?

5. Obtener la tabla ANOVA para el modelo modificado e interpretar los resultados. ¿Qué influencia tienen los factores incluidos en este modelo?