Clases 4 Pruebas de Hipótesis

27
Clases 4 Pruebas de Hipótesis Curso de Metodología de la Investigación Profesor Manuel Lobos González Año 2011

description

Clases 4 Pruebas de Hipótesis. Curso de Metodología de la Investigación Profesor Manuel Lobos González Año 2011. PRUEBA CHI CUADRADO. - PowerPoint PPT Presentation

Transcript of Clases 4 Pruebas de Hipótesis

Page 1: Clases 4 Pruebas de Hipótesis

Clases 4Pruebas de Hipótesis

Curso de Metodología de la InvestigaciónProfesor Manuel Lobos González

Año 2011

Page 2: Clases 4 Pruebas de Hipótesis

• Sean X e Y dos variables categóricas. X con r categorías e Y con c categorías. Podemos utilizar una tabulación cruzada entre las variables para identificar la relación que existe entre ambas.

• En este caso la tabulación cruzada entre X e Y tendrá r filas y c columnas.

• Las respuestas para (X, Y) pueden ser pensadas como provenientes de alguna población tal que se pueden definir probabilidades para cada celda de la tabla.

• Cuando las celdas de una tabla contienen las frecuencias de respuestas, la tabla se denomina de contingencia.

PRUEBA CHI CUADRADO

Page 3: Clases 4 Pruebas de Hipótesis

• Una de las principales preguntas que uno quiere responder cuando analiza la asociación entre dos variables es si existe alguna relación entre ellas o lo que muestra la tabla es simple error muestral.

• Para responder a esta pregunta, se utiliza un test de hipótesis conocido como el test Chi-cuadrado de Pearson. La hipótesis nula del test es que las dos variables analizadas son independientes. La hipótesis alternativa es que las variables no son independientes, es decir que existe una relación entre las dos variables.

PRUEBA CHI CUADRADO

Page 4: Clases 4 Pruebas de Hipótesis

• Ejemplo:

• La siguiente tabla de contingencia muestra la tabulación cruzada de la variable Cantidad de libros en Biblioteca (dividido en tres categorías, menos de 2000; entre 2000 y 4000 y más de 4000) y la dependencia del colegio (dividida en tres categorías, Municipal, Particular Subvencionado y Particular Pagado).

PRUEBA CHI CUADRADO

Page 5: Clases 4 Pruebas de Hipótesis

PRUEBA CHI CUADRADO

    DEPENDENCIA    

CANTIDAD LIBROS

PARTICULAR PAGADO

PARTICULAR SUBVENCIONADO

MUNICIPALTotal

Menos de 2000 45 95 62 202

2000 - 4000 65 80 100 245

más de 4000 90 62 89 241

Total 200 237 251 688

Tablas de Contingencia y Medidas de Asociación

Page 6: Clases 4 Pruebas de Hipótesis

• Las entradas de la tabla representan el número de colegios en la muestra con cada combinación de cantidad de libros en la biblioteca y dependencia del colegio. Por ejemplo, 45 colegios particulares pagados tienen menos de 2000 libros.

• El test Chi-cuadrado de Pearson se basa en encontrar cual hubiera sido el valor de cada entrada si las variables fueran independientes. Es decir el valor esperado de cada celda de la tabla si las variables cantidad de libros en la biblioteca y dependencia del colegio son independientes.

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 7: Clases 4 Pruebas de Hipótesis

• Si cantidad de libros en la biblioteca y dependencia del colegio son independientes, la probabilidad del evento conjunto "A1: tener menos de 2000 libros" y "B1: dependencia particular pagada" es el producto de esas dos probabilidades:

• Pr(A1 y B1) = Pr(A1)*Pr(B1)

• Pr(A1) = A1/A = 202/688,

• Pr(B1) = B1/B = 200/688

• Donde A y B son las frecuencias totales de los eventos.

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 8: Clases 4 Pruebas de Hipótesis

• Por lo tanto:

• Pr(A1 y B1) = Pr(A1)*Pr(B1) = 202*200/(688*688) = 0.0854

• El número esperado en la entrada A1B1 es entonces:

• N* Pr(A1 y B1) = 688*0.0854 = 58,72

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 9: Clases 4 Pruebas de Hipótesis

• En general la fórmula del valor esperado es:

• Eij = (NAi*NBj)/N.

– Eij = número esperado

– NAi= número de elementos en la categoría Ai

– NBi= número de elementos en la categoría Bi

• Para A1B1 el número esperado es:

– E11 = (202*200)/688 = 58,72

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 10: Clases 4 Pruebas de Hipótesis

• Este proceso se debe repetir para cada una de las entradas de la tabla. Una vez hecho esto el estadístico Chi-cuadrado se calcula con la siguiente fórmula:

– r = número de categorías de la variable en las filas

– c = número de categorías de la variable en las columnas

– Oij = número observado en entrada ij

– Eij = número esperado en la entrada ij

• Este estadístico Chi-cuadrado tiene (r-1)*(c-1) grados de libertad.

r

i

c

j ijEEO ijij

1 1

2

2

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 11: Clases 4 Pruebas de Hipótesis

• En nuestro ejemplo hay (3-1)*(3-1) = 4 grados de libertad. Realizando todos los cálculos con la tabla del ejemplo, el estadístico da 27,389.

• Se debe comparar este número con el valor crítico de la distribución Chi-cuadrado con 4 grados de libertad a un nivel de significación estadística del 5%

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 12: Clases 4 Pruebas de Hipótesis

• El valor crítico de la distribución Chi-cuadrado con 4 grados de libertad a un nivel de significación estadística del 5% el valor crítico correspondiente es 9,48.

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Como 27,389 > 9,48 se rechaza la hipótesis nula. Es decir, las variables no son independientes.

22

0 si Rechacecobs

H

22

0 si rechace Nocobs

H

Page 13: Clases 4 Pruebas de Hipótesis

Limitaciones

La muestra de tamaño n debe ser suficientemente grande,

de modo que ninguna de las frecuencias esperadas Eij sea

menor que 1 y no más del 20 % de los mismos sea menor

que 5.

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 14: Clases 4 Pruebas de Hipótesis

Ejemplo

• Considere un estudio sobre consumo que esta interesado en investigar las preferencias de las familias por diferentes Tipos de colegios.

• A priori, uno pensaría que sería más probable que familias más numerosas eligieran colegios municipales o subvencionados y que familias con menos miembros optaran por colegio particulares pagados.

PRUEBA CHI CUADRADO

Page 15: Clases 4 Pruebas de Hipótesis

Ejemplo

• Supongamos que para investigar esta relación, el investigador toma una muestra aleatoria de tamaño n=300 de todas aquellas familias que matricularon a sus hijos en las escuelas de una región.

• La siguiente tabla provee la clasificación de los 300 datos:

PRUEBA CHI CUADRADO

Page 16: Clases 4 Pruebas de Hipótesis

PRUEBA CHI CUADRADO

   TAMAÑO DE

FAMILIA    

DEPENDENCIA DEL COLEGIO 2 Y 3 4 Y 5 más de 5 Total

PARTICULAR PAGADO 25 37 8 70

PARTICULAR SUBVENCIONADO 10 62 53 125

MUNICIPAL 5 41 59 105

Total 40 140 120 300

EJEMPLO

Page 17: Clases 4 Pruebas de Hipótesis

Ejemplo

• Nuestra tarea es determinar si el tamaño de la familia afecta la decisión del tipo de colegio.

• La hipótesis nula es que las variables son independientes (esto es, no hay relación entre tamaño familiar y la elección del colegio); la hipótesis alternativa es que las variables no son independientes.

PRUEBA CHI CUADRADO

Page 18: Clases 4 Pruebas de Hipótesis

Ejemplo

• Trabajemos con un nivel de confianza del 95% y calculemos el estadístico de Pearson.

• Para esto asignemos las siguientes letras a los eventos de la tabla:

– A1 Dependencia particular pagada

– A2 Dependencia particular subvencionada

– A3 Dependencia municipal

PRUEBA CHI CUADRADO

Page 19: Clases 4 Pruebas de Hipótesis

Ejemplo

– B1 Familia de 2 a 3 miembros

– B2 Familia de 4 a 5 miembros

– B3 Familia de más de 5 miembros

• Sabemos que el número esperado de observaciones que se esperarían en la celda (Ai, Bj) si las variables fueran independientes esta definido por:

• Eij = (NAi*NBj)/N, por lo tanto:

PRUEBA CHI CUADRADO

Page 20: Clases 4 Pruebas de Hipótesis

Ejemplo• E11 = ( NA1 * NB1 ) / N =

• E12 = ( NA1 * NB2 ) / N =

• E13 = ( NA1 * NB3 ) / N =

• E21 = ( NA2 * NB1 ) / N =

• E22 = ( NA2 * NB2 ) / N =

• E23 = ( NA2 * NB3 ) / N =

• E31 = ( NA3 * NB1 ) / N =

• E32 = ( NA3 * NB2 ) / N =

• E33 = ( NA3 * NB3 ) / N =

70 140 32.67300

70

70

40

120

300

300

300

300

300

300

300

300

125

125

125

105

105

105

40

120

140

40

120

140

9.33

28

58.33

16.67

50

49

14

42

PRUEBA CHI CUADRADO

Page 21: Clases 4 Pruebas de Hipótesis

Ejemplo

• La fórmula de cálculo del estadístico viene dada por

67.3233.9

)67.3237()33.925(2 2

3

1

3

1

2

2

i j ijEEO ijij

5033.5867.1628

)5053()33.5862()67.1610()288(2222

21.58424914

)4259()4941()145(222

PRUEBA CHI CUADRADO

Page 22: Clases 4 Pruebas de Hipótesis

Ejemplo

• El valor crítico desde una tabla Chi-cuadrado con 4 grados de libertad y un margen de error del 5% es 9,488

• Como el valor del estadístico de Pearson 58.21 es mayor al valor crítico de la tabla se rechaza la hipótesis nula.

• Por lo tanto, podemos afirmar que no existe independencia entre el tamaño de la familia y la elección del tipo de colegio.

PRUEBA CHI CUADRADO

Page 23: Clases 4 Pruebas de Hipótesis

• El estadístico de Pearson nos dice si dos variables son independientes una de otra pero no nos dice nada acerca de la naturaleza de la relación.

• Esto es, no sabemos cuan fuerte es la asociación entre las variables analizadas.

• Para medir el grado de relación entre las variables se utiliza el denominado Coeficiente de Contingencia (C).

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 24: Clases 4 Pruebas de Hipótesis

• El coeficiente de contingencia se calcula fácilmente desde el estadístico de Pearson:

• donde n es el tamaño muestral.

2

2

nC

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 25: Clases 4 Pruebas de Hipótesis

• Del ejemplo anterior sabemos que el número de miembros que tenga la familia afecta la decisión de la elección del colegio, pero esa es solamente una parte del análisis. En particular, cuál es el grado de relación entre las dos variables?

403.021.58300

21.58

C

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 26: Clases 4 Pruebas de Hipótesis

• ¿Este valor de 0.403 indica una relación fuerte entre las variables?

• Para poder responder esta pregunta necesitamos saber los límites de variación de C.

• Cuando no hay relación entre las variables el coeficiente C = 0. El valor máximo de C está dado por

)1,1min(1

)1,1min(max

cr

crC

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

Page 27: Clases 4 Pruebas de Hipótesis

• En nuestro caso:

816.03

2

)1,1min(1

)1,1min(max

cr

crC

Tablas de Contingencia y Medidas de Asociación

PRUEBA CHI CUADRADO

El valor calculado se encuentra más o menos en la mitad entre el valor mínimo y máximo de C por lo que uno puede afirmar que existe una relación moderada entre el tamaño de la familia y la elección del tipo de colegio.

• Entonces: