Ejercicios Para El Examen

7
Métodos Estadísticos Ejercicios de ensayo para el examen Jorge Fábrega Para medir la comprensión de lectura de sus alumnos, una escuela realiza anualmente un test a los 6 cursos que están próximos a graduarse. Los registros históricos muestran que las generaciones anteriores han obtenido un promedio de 52 puntos (sobre un máximo posible de 65 puntos) con una varianza de 9.8. Con estos datos, puede decirse que: En el espacio debajo de la distribución normal que va entre la media menos dos desviaciones estándar a la media más dos desviaciones estándar se acumula un 95”% de los datos. Por ende, la respuesta correcta es: Con un 95% de confianza, la próxima generación promediará en el rango [45,7-58,2] Suponga que una noticia de un diario señala lo siguiente: “Alarma en el sector exportador de frutas por baja en la inversión de un 8% en el período octubre-diciembre del 2008 respecto al trimestre anterior”. La noticia viene acompañada del siguiente gráfico: Índice de inversiones en el sector exportador Los datos oficiales del índice son los siguientes 2004 ene-mar 100,0 abr-jun 102,2 jul-sep 101,7 oct-dic 92,9 2005 ene-mar 100,0 abr-jun 103,8 jul-sep 101,9 oct-dic 93,4 2006 ene-mar 100,0 abr-jun 104,6 jul-sep 104,5 oct-dic 91,8 2007 ene-mar 100,0 80,0 85,0 90,0 95,0 100,0 105,0 110,0 ene-mar abr-jun jul-sep oct-dic Series1

description

ejerccicios tipo examen de metodos estadísticos UAI 2014

Transcript of Ejercicios Para El Examen

Page 1: Ejercicios Para El Examen

Métodos Estadísticos Ejercicios de ensayo para el examen

Jorge Fábrega

• Para medir la comprensión de lectura de sus alumnos, una escuela realiza anualmente un test a los 6 cursos que están próximos a graduarse. Los registros históricos muestran que las generaciones anteriores han obtenido un promedio de 52 puntos (sobre un máximo posible de 65 puntos) con una varianza de 9.8. Con estos datos, puede decirse que:

En el espacio debajo de la distribución normal que va entre la media menos dos desviaciones estándar a la media más dos desviaciones estándar se acumula un 95”% de los datos. Por ende, la respuesta correcta es: Con un 95% de confianza, la próxima generación promediará en el rango [45,7-58,2]

• Suponga que una noticia de un diario señala lo siguiente: “Alarma en el sector exportador de frutas por baja en la inversión de un 8% en el período octubre-diciembre del 2008 respecto al trimestre anterior”. La noticia viene acompañada del siguiente gráfico:

Índice de inversiones en el sector exportador

Los datos oficiales del índice son los siguientes

2004 ene-mar 100,0

abr-jun 102,2

jul-sep 101,7

oct-dic 92,9

2005 ene-mar 100,0

abr-jun 103,8

jul-sep 101,9

oct-dic 93,4

2006 ene-mar 100,0

abr-jun 104,6

jul-sep 104,5

oct-dic 91,8

2007 ene-mar 100,0

80,0

85,0

90,0

95,0

100,0

105,0

110,0

ene-mar abr-jun jul-sep oct-dic

Series1

Page 2: Ejercicios Para El Examen

abr-jun 103,1

jul-sep 103,0

oct-dic 91,6

2008 ene-mar 100,0

abr-jun 100,7

jul-sep 104,8

oct-dic 90,4

¿Cuán alarmante es la noticia? ¿Cuán probable era obtener una reducción de la inversión de esta magnitud? Explique

Respuesta: Lo primero que se debe notar es que la serie tiene un ciclo estacional. Las inversiones bajan el último trimestre de cada año. Por ende, la comparación relevante no es respecto al trimestre anterior, sino respecto a los cuartos trimestres de cada año. Es decir, los datos relevantes son:

oct-dic

2004 92,9

2005 93,4

2006 91,8

2007 91,6

2008 90,4

Con estos datos, efectivamente, se observa una baja en el 2008. A falta de más información, para seguir avanzando es necesario hacer algunos supuestos. Por ende, nuestra respuesta será condicional a la veracidad de dichos supuestos. Supuesto: La inversión es una variable aleatoria que se distribuye en forma normal. De ser así, podemos hacer un test t para resolver el problema ¿Por qué un test t y no uno normal estandarizado? Porque tenemos sólo 5 datos y no conocemos la desviación estándar poblacional. Podemos usar el promedio de esos datos como estimador de la media: Es decir: E(inversión en el cuarto trimestre de cada año)=(92.9+93.4+…+90.4)/5=92.

A su vez, la desviación estándar de dicha media es �√� � �.��√�

Por ende,

� 90,4 � 921,17/√5 � �3.04

El estadístico tiene una distribución t con 4 grados de libertad (N-1). Por ende, en la tabla, buscamos el valor de t más cercano a 3.04 (el signo no importa). Para 4 grados de libertad los valores más cercanos son 2.999 y 3.747, correspondientes a probabilidades de 0.02 y 0.01, respectivamente. Por ende, la probabilidad que estemos ante un año normal es baja. Específicamente, con un margen de error de a lo más un 2% rechazamos que estemos ante un año normal. Conclusión: en relación al titular del diario, pese a que la comparación que hace induce a error, la evidencia indica que el último trimestre fue inusualmente malo.

• Un investigador desea saber si la política gubernamental de nutrición infantil ha rendido frutos. Para ello ha desarrollado un índice de calidad de alimentos con valores que van desde 0 (desnutrición) a 100 (excelente nutrición). Sus cálculos indican que antes de implementada la política, el índice tenía un valor de 64 puntos con una desviación estándar de 2.4. Para hacer su estimación tomó una muestra de 30 personas que fueron beneficiarias del programa gubernamental y obtuvo un índice promedio de 65.11. Sus datos le sugieren al investigador que:

Page 3: Ejercicios Para El Examen

Solución:

En el enunciado nos están dando el valor de la media y desviación estándar poblacional antes de la política pública. Si la política es efectiva, los niveles de nutrición deberían aumentar. La muestra de 30 personas tiene un índice de 65,11>64. Eso sugiere una mejoría, pero no sabemos con que grado de confianza. Para eso, hacemos el siguiente test: si la distribución de la población no cambió (es decir, misma media y misma varianza) cuán probable es obtener una muestra de 30 personas con estas características? O dicho de otro modo, si ambas medias (antes y después) son iguales, cuán probable es que obtengamos estos valores? Formalmente:

Calculamos el valor de z = (media muestral – media poblacional)/(desviación estándar de la media muestral).

� � ����� ������� � ����� !"��#�!$�����%��#�ó$ ��á$��� �� �� ����� ������� � � 65.11 � 642.4/√30 � 2.53

En una tabla de la distribución normal P(z>2,53)=0,0057

Por ende, la respuesta correcta es que rechazaríamos la hipótesis que la media muestral es igual a la media población antes de la intervención con un margen de error de 0,0057. En consecuencia, la única que es verdadera es: “con un 1% de probabilidad de equivocarse, la política ha sido efectiva”

• Suponga que las horas de descanso de la población tienen una distribución normal con una media de 12 horas diarias y una desviación estándar de 2,3 horas diarias.

a) Qué fracción de la población descansa entre 9,7 horas y 14,3 horas diarias

Respuesta. Nótese que: 9,7=12 – una desviación estándar 14.3=12+ una desviación estándar

Por ende, sabemos que el 68% de la población descansa entre 9,7 y 14,3 horas al día.

b) ¿Qué proporción de la población descansa menos de 5,1 horas diarias?

Nótese que 5,1=12-3 desviaciones estándar. Es decir, prácticamente nadie debería dormir menos de 5,1 horas (debo ser la triste excepción). Formalmente, estandarizamos y buscamos el valor en tabla

� � 5.1 � 122.3 � �3

Es decir, buscando en la tabla: la probabilidad que alguien duerma esa cantidad de horas diarias es de 0.0013.

• Según un titular de prensa, en un país X los hombres y las mujeres ganan estadísticamente lo mismo. El informe se basa en las remuneraciones de 100 hombres y 100 mujeres. Los ingresos promedio de los hombres reportados por el estudio fueron de $330.000 y los de las mujeres fueron de $320.000. Si usted sabe que la desviación estándar de los ingresos de los hombres es de $10.000 y el de las mujeres es de $4.000, usted diría:

Page 4: Ejercicios Para El Examen

Hacemos un test de medias con la hipótesis que las medias de ambas distribuciones son idénticas. Para ello calculamos z y obtenemos un valor de 9.28. Es decir, concluimos que “Con esta información es muy poco probable que los ingresos medios de hombres y mujeres sean estadísticamente iguales”

• Un estudio del Instituto de Salud Pública indica que la cantidad de cloroformo en el agua potable promedia los 34 microgramos por litro con una desviación estándar de 53 microgramos por litro. Explique porqué la concentración de cloroformo en el agua no se distribuye normal.

Respuesta: Una desviación estándar por debajo de la media da un número negativo. Como no puede haber concentraciones negativas de cloroformo en el agua (es decir, o el agua tiene o no tiene cloroformo), entonces, las concentraciones no se distribuyen en forma simétrica en torno a una media

• Un productor de alimentos para ganadería dice que el 80% del ganado que recibe su complemento alimenticio obtiene pesos iguales o superiores a 20 kilos a los seis meses de uso. Una muestra de bovinos que usaron el producto arrojó una distribución aproximadamente normal con una media de 22 kilos y una desviación estándar de 2 kilos ¿Contradice la evidencia la afirmación del productor?

Respuesta: técnicamente, la pregunta es cuál es la probabilidad que el peso de un bovino que consumió el complemento alimenticio sea igual o mayor que 20. Podríamos estandarizar y ver en una tabla, pero en este caso, es más simple porque 20 es igual a la media menos una desviación estándar. Como sabemos que en el espacio de +/- una desviación estándar de la media hay un 68% de los datos. Esto implica que quedan fuera de ese rango un 32% de los datos, o bien 16% a cada lado. Por ende, la probabilidad que la ganancia de peso sea menor a 20 kilos es de un 16%. O bien, la probabilidad que sea mayor es de un 84%.

En suma, el productor tiene la razón, de hecho la proporción es un poco más de lo que el dijo.

• Las oficinas de profesores en una universidad están equipadas con un computador y una impresora. Los registros históricos de fallas en los sistemas son los siguientes:

Oficinas que no presentan fallas: 84% Oficinas que presentan fallas sólo en los computadores: 8% Oficinas que presentan fallas sólo en las impresoras: 6% Oficinas que presentan fallas en ambos: 2%

¿Cuál es la probabilidad que una oficina elegida al azar tenga fallas ya sea en un computador o en una impresora?

Respuesta: Los tres sets de fallas son independientes, por ende, sumamos: 0.08+0.06+0.02=0.16

• Para completar un equipo de expertos, un ministerio necesita reclutar a dos personas más. Existe una lista de 6 posibles candidatos, 2 mujeres y 4 hombres. Si todos los candidatos son igualmente buenos y se decide elegir al azar ¿Cuál es la probabilidad que se elija a las dos mujeres?

Respuesta: El espacio muestral lo constituyen pares de personas. Un par contiene las dos mujeres, todos los otros pares contienen al menos un hombre. Por ende, lo que queda saber es cuántos pares distintos se pueden formar con 6 personas.

Es decir, '62( � )!+!,! � �-+-.-,-�-)�-+-�-+-.-, � 15

Por ende la probabilidad de elegir a las dos mujeres es de 1/15

Page 5: Ejercicios Para El Examen

• En un estudio sobre delincuencia juvenil en una comuna de Santiago, se reporta que el 8% de los hombres y el 6% de las mujeres entre 19 y 24 años han sido detenidos por robo o hurto. Y se informa que en esa comuna viven 1000 hombres y 800 mujeres en ese rango de edad.

Si tomamos una muestra aleatoria de 200 hombres y 50 mujeres que viven en la comuna, la probabilidad de seleccionar más de 20 hombres y más de 7 mujeres con antecedentes por robo o hurto es de:

Ambas muestras son independientes, aquí se explica el caso de los hombres, el de las mujeres es idéntico. En el enunciado de la pregunta se nos pide 20 sobre 200 hombres. Esto es una proporción de 0,1. La media poblacional es 0,08. La desviación estándar de la media poblacional la podemos obtener recordando que la varianza de una proporción tiene la forma p*q/n Por ende, buscamos P(z>0,1). Calculamos z = (0,1-0,08)/0,00000736 = 2,33 A ese valor de z le corresponde un acumulado de un 1% Por ende: 1% para los hombres. De forma similar, obtenemos un 0,01% para las mujeres

• Un estudio fue realizado para medir la velocidad de reacción de los conductores cuando hablan por celular mientras manejan. Los datos son los siguientes:

Hombres Mujeres Número=50 Número=50 Reacción promedio=3.6 Reacción Promedio=3.8 Varianza=.18 Varianza=.14

Con un margen de error de un 5%, ¿diría usted que los hombres reaccionan más rápido que las mujeres?

Respuesta: H0: Media de reacción de hombres =Media de reacción de mujeres Ha: Media de reacción de hombres < Media de reacción de mujeres Como ambas muestras son relativamente grandes, podemos usar una aproximación normal. Así:

� � 3.6 � 3.80. 1850 1 . 1450

� �2.5

El valor de z al 5% de error es -1.64 (una cola), por ende, se rechaza la hipótesis nula que la velocidad de reacción es similar entre hombres y mujeres.

• Según un titular de prensa, en un país X los hombres y las mujeres ganan estadísticamente lo mismo. El informe se basa en las remuneraciones de 100 hombres y 100 mujeres. Los ingresos promedio de los hombres reportados por el estudio fueron de $330.000 y los de las mujeres fueron de $320.000. Si usted sabe que la desviación estándar de los ingresos de los hombres es de $10.000 y el de las mujeres es de $4.000, usted diría:

Respuesta:

Sea M=ingreso medio de los hombres en la muestra y F=ingreso medio de las mujeres en la muestra. Además, definamos 2 como las medias de ingresos de la población (identificando con subíndices si se trata de hombres, M, o mujeres, F). De igual modo, sea n el tamaño de cada muestra con el índice M y F, según corresponda.

Entonces:

Hipótesis nula: M=F

Hipótesis alternativa: M es distinto de F

Page 6: Ejercicios Para El Examen

� � 34 � 56 � 327 � 2869:7+;7 1 :8+;8

� 330.000 � 320.000010.000+100 1 4000+100

� 92.84

En una tabla normal el valor más grande que aparece es 3.49 y acumula una probabilidad de 0.0002. Como este valor de z está incluso más lejano de 0 que el valor más pequeño de la muestra, se puede concluir que es muy poco probable que los hombres ganen lo mismo que las mujeres.

Para los siguientes ejercicios puede utilizar el siguiente extracto de una tabla de distribución chi2.

Grados de libertad

.10 .05 .01 .005 .0025

1 2.71 3.84 6.63 7.88 9.14 2 4.61 5.99 9.21 10.6 11.98 3 6.25 7.81 11.34 12.84 14.32 4 6.74 7.78 13.28 14.86 16.42

• Un investigador desea comprobar si es cierto que existe una relación entre comercio callejero y número de asaltos. Para ello, obtuvo la información de los números de asaltos y vendedores ambulantes que existen un total de 276 comunas. Los resultados están en la tabla siguiente:

Número de personas trabajando en

comercio callejero en la comuna

bajo medio alto

Número de asaltos

en la comuna bajo 45 15 25

medio 8 55 33

alto 23 12 60

Con esta información ¿a qué conclusión llega el investigador?

Respuesta, realiza un test chi2. El estadístico a crear tiene una distribución chi2 (se escribe <+) con 4 grados de libertad (2 por las filas y 2 por las columnas)

<+ � = 3%��!� !"���%��! � %��!� �� ����!6+%��!� �� ����!

La tabla con los valores esperados es la siguiente y se obtiene multiplicando los totales de fila y columna correspondientes a cada celda y dividiéndolos por el total general. Por ejemplo, para la celda correspondiente a las comunas de baja delincuencia y baja intensidad de comercio callejero el cálculo es total columna(76) por el total de la fila (85) dividido por el total de comunas (276), es decir 23,4.

bajo medio alto

bajo 23 25 36

medio 26 29 41

alto 26 28 41

Page 7: Ejercicios Para El Examen

Al computar el valor de <+obtenemos 85.59. Al ver la tabla chi2 que se incluye más arriba. Para 4 grados de libertad con un margen de error de 0.0025 el valor es 16.42<85.59. Por lo tanto, concluimos que existe una asociación entre ambas variables.

• Un medicamento fue usado en unos pacientes de cáncer para aliviar los dolores. Al mismo tiempo otro grupo de pacientes recibió un placebo. Los resultados fueron los siguientes

Población participante en el

estudio

Con

medicamento Placebo

Alivio del dolor bajo 80 109

medio 115 108

alto 130 99

¿Rechazaría con un 5% de error la hipótesis que el medicamento no alivia el dolor?

Respuesta,

El valor de <+ � 8.74. Como son tres filas y dos columnas, el grado de libertad se obtiene multiplicando 2 (por las filas) por 1 (por las columnas). Es decir, el punto de comparación es el valor de la tabla que acumula 0.05 de error con dos grados de libertad, es decir, 5.99. Como 8.74>5.99, se rechaza la hipótesis que el medicamento no tiene efecto.