Post on 26-Jan-2015
Hipótesis para dos MuestrasHipótesis para dos Muestras• Con frecuencia es necesario la
comparación de dos estadísticos (media, mediana, varianza, coeficiente de variación o índices de diversidad).
• La comparación se realiza para inferir si existen diferencias entre dos poblaciones muestreadas.
Estadística Biología Marina 2003
Distribución de StudentDistribución de Student
• Es una prueba estadística para evaluar si dos grupos difieren entre sí de manera significativa respecto a sus medias.
• Se simboliza por la letra “t”.
Estadística Biología Marina 2003
Es análoga a la distribución ZEs análoga a la distribución Z
• ES corresponde al error estándar de la muestra, el que puede ser definido por el error en el muestreo, o la desviación promedio de un estimado de los valores reales de la población.
Estadística Biología Marina 2003
Xi
ZES
Xit
ES
Xit
nES
2
nES
2
• Si el ajuste entre lo observado y lo esperado es pobre, entonces en base de la precisión de la medición, se espera rechazar Ho.
Estadística Biología Marina 2003
Largo de caninosF
recu
en
cia
RechazoH0
AceptoH0
ObservadoEsperado
20 30 40 50 600
10
20
30e
0
20
30e
xSX
t
xSX
t
X
X
Estadística Biología Marina 200
3
“Dependiendo de lo que nosotros estemos interesados
en probar o inferir sobre la población, la prueba de
hipótesis va a ser una o dos colas.”
• Nos interesa determinar si existe o no diferencia entre dos medias:
Ho: Media A = Media B
Ha: Media A Media B
Estadística Biología Marina 2003
Hipótesis de dos colas (Hipótesis de dos colas (22).).
Áreas de aceptación y rechazo Áreas de aceptación y rechazo en t-test de dos colas.en t-test de dos colas.
Estadística Biología Marina 2003
Región de rechazo
0.025 0.025
Región de aceptación
0.95
-0.2 0.2
u
Región de rechazo
Ho: Media A = Media BHa: Media A Media B
• Se aplica cuando existe una presunción de que no solo existen diferencia entre las muestras.
• Inferimos si el tratamiento producirá una diferencia orientada en alguna dirección en particular.
• La región de rechazo corresponde a un lado de la distribución.
Estadística Biología Marina 2003
Hipótesis de una cola (Hipótesis de una cola (11).).
La media del grupo al que se aplicó La media del grupo al que se aplicó el tratamiento será más grande que el tratamiento será más grande que
la media del grupo control.la media del grupo control.
Ho: Media Control Media del tratamiento
Ha: Media Control < Media del tratamiento
Estadística Biología Marina 2003
Región de rechazo
0.05
-0.2 0.2
0.5000 0.4500
Valor crítico de t
La media del grupo al que se aplicó La media del grupo al que se aplicó el tratamiento será más pequeña el tratamiento será más pequeña que la media del grupo control.que la media del grupo control.
Ho: Media Control Media del tratamiento
Ha: Media Control > Media del tratamiento
Estadística Biología Marina 2003
0.05
-0.2 0.2
0.50000.4500
Valor crítico de t
Región de rechazo
EjemploEjemplo• Mediciones de la concentración de
monóxido de carbono en el aire mg/m3
realizadas dentro de un taller mecánico.
• La concentración máxima permitida es de 10.00 mg/m3.
Estadística Biología Marina 2003
10.25 10.37 10.66 10.47 10.56 10.22 10.44 10.38 10.48
10.63 10.40 10.39 10.26 10.32 10.35 10.54 10.33 10.68
¿Las mediciones se diferencian del valor permitido?
¿Cual sería la hipótesis?:
Estadística Biología Marina 2003
10.25 10.37 10.66 10.47 10.56 10.22 10.44 10.38 10.48
10.63 10.40 10.39 10.26 10.32 10.35 10.54 10.33 10.68
Ho: Media = 10.00 mg/m3
Ha: Media 10.00 mg/m3
T-test:
Calcular media, varianza, Error estándar.
xSX
t
xSX
t
nS
Sx2
nS
Sx2
ResultadosResultados
Media = 10.43 mg/m3
Varianza = 0.019 mg/m3
ER = 0.033 mg/m3
Estadística Biología Marina 2003
t = 10.43 – 10.00 = 13.43
0.033
•Grados de libertad = n-1
•El valor crítico se busca en la tabla B.3
t 0.05 (2), 17 = 2.110
ConclusiónConclusión
• Se rechaza la Ho.
• Existen diferencias significativas entre la concentración de dióxido de carbono máxima permitida y los valores estimados en el taller mecánico (t test P < 0.001)
Estadística Biología Marina 2003
¿La concentración de dióxido ¿La concentración de dióxido de carbono es más alta que los de carbono es más alta que los
valores permitidos?valores permitidos?• Hipótesis:
Estadística Biología Marina 2003
Ho: Media Control (10.00 mg/m3) Media del tratamientoHa: Media Control (10.00 mg/m3) < Media del tratamiento
t = 13.43
t 0.05 (1), 17 = 1.753
¿Conclusión?¿Conclusión?
“Las concentraciones de dióxido de carbono estimadas en el taller mecánico, son significativamente mayores a la concentración de
dióxido de carbono máxima permitida (t test P < 0.001)”
Estadística Biología Marina 2003
Tener en cuenta:
• Los valores tabulados de los test de una cola son menores que los de dos colas.
• Las hipótesis estadísticas (una o dos colas) deben ser declaradas antes de examinar los datos y deben reflejar la pregunta de interés sobre la población.
Estadística Biología Marina 2003
Ejemplo 1:
• Una máquina producía tapas de 0.05 pulgadas de espesor. Para determinar si sigue en buen estado, se toma una muestra de 10 tapas, que dan un espesor medio de 0.053 ± 0.003 in. ¿La maquina sigue produciendo tapas de 0.05 in?
Estadística Biología Marina 2003
• Una prueba de 6 linternas de cultivo de ostión dio una tensión media de ruptura de 7150 ± 145 lb. El fabricante las promocionaba con una resistencia de 8000 lb. En base a estos datos: ¿Las linternas resistirán menos que lo anunciado por el fabricante?
Estadística Biología Marina 2003
Ejemplo 2:
Comparación de medias de Comparación de medias de dos muestras.dos muestras.
Estadística Biología Marina 2003
• Apropiado cuando existen dos grupos para comparar (e.g. control y tratamiento).
• En principio, podemos comparar cualquier estadístico de una muestra, e.g. medias, medianas, varianzas, etc.
• Apropiado cuando existen dos grupos para comparar (e.g. control y tratamiento).
• En principio, podemos comparar cualquier estadístico de una muestra, e.g. medias, medianas, varianzas, etc.
ControlF
recu
en
cia
X C X T
s2C
s2T
Tratamiento
Por Ejemplo:Por Ejemplo:
Estadística Biología Marina 2003
• Dos muestras (1, 2) con valores medios que difieren en cierta cantidad .
• ¿Cual es la probabilidad p de observar esta diferencia bajo la hipótesis H0 que las dos medias son de echo iguales?
• Dos muestras (1, 2) con valores medios que difieren en cierta cantidad .
• ¿Cual es la probabilidad p de observar esta diferencia bajo la hipótesis H0 que las dos medias son de echo iguales?
Fre
cue
nci
a
X1 X2
| |X X1 2
Muestra 2Muestra 1
Dependiendo de las características Dependiendo de las características de nuestras muestras, existen dos de nuestras muestras, existen dos
opciones de comparaciónopciones de comparación
• t-test para muestras independientes.
• t-test para muestras agrupadas (pareadas).
Estadística Biología Marina 2003
t-test para muestras independientes.t-test para muestras independientes.
Estadística Biología Marina 2003
• En el test de muestras independientes, no existe una correlación experimental o “asociación” entre las observaciones (muestras) de los dos grupos.
• E.g. Peso a los 6 meses de una muestra aleatoria de diferentes cerdos aliementados con dos dietas distintas.
• En el test de muestras independientes, no existe una correlación experimental o “asociación” entre las observaciones (muestras) de los dos grupos.
• E.g. Peso a los 6 meses de una muestra aleatoria de diferentes cerdos aliementados con dos dietas distintas.
1 2
Dieta
t-test para muestras agrupadas.t-test para muestras agrupadas.
Estadística Biología Marina 2003
1 2
• En los test de muestras pareadas, las observaciones (muestras) en un grupo se encuentran relacionadas con las observaciones en el otro grupo.
• E.g. Peso a los 6 meses de 2 cerdos, ambos de la misma madre, alimentados con diferentes dietas.
• En los test de muestras pareadas, las observaciones (muestras) en un grupo se encuentran relacionadas con las observaciones en el otro grupo.
• E.g. Peso a los 6 meses de 2 cerdos, ambos de la misma madre, alimentados con diferentes dietas.
Dieta
Progenitora
• Tiempo de coagulación sanguínea, de un grupo de 13 personas, probando las drogas (B Y G):
Estadística Biología Marina 2003
t-test para muestras independientes.t-test para muestras independientes.EJEMPLO:EJEMPLO:
Droga B Droga G
8.8 9.9
8.4 9.0
7.9 11.1
8.7 9.6
9.1 8.7
9.6 10.4
9.5
n1 = 6 n2 = 7
Gl1 =5 Gl2 = 6
Media 1 = 8.75 minMedia 2 = 9.74 min
SS1 = 1.6950 min2
SS2 = 4.0171 min2
• La interrogante en el experimento era si la sangre de las personas tratadas con la droga B presentaba el mismo tiempo medio de coagulación que las personas tratadas con la droga G.
• ¿HIPÓTESIS?
• Ho: Media Droga B = Media Droga G
• Ha: Media Droga B Media Droga G
Estadística Biología Marina 2003
Cálculo:Cálculo:
• El cálculo es análogo a la formula de Student ya conocida.
• De esta manera el estadístico t-Student para dos muestras es:
• Con Gl = (n1 + n2) – k
Estadística Biología Marina 2003
xSX
t
xSX
t
21
21
XXs
XXt
21
21
XXs
XXt
El error estándar es:El error estándar es:
Estadística Biología Marina 2003
21
21
XXs
XXt
• Si n1 y n2 son iguales
2
2
1
2
21 n
S
n
Ss pp
XX 2
2
1
2
21 n
S
n
Ss pp
XX
n
Ss p
XX
2221 n
Ss p
XX
2221
2212
nnSSSS
S p 2212
nnSSSS
S p
De vuelta con el ejemplo: De vuelta con el ejemplo:
Estadística Biología Marina 2003
Droga B Droga G
8.8 9.9
8.4 9.0
7.9 11.1
8.7 9.6
9.1 8.7
9.6 10.4
9.5
n1 = 6 n2 = 7
Gl1 =5 Gl2 = 6
Media 1 = 8.75 minMedia 2 = 9.74 min
SS1 = 1.6950 min2
SS2 = 4.0171 min2
• t0.05(2), 11 = 2.201
• ¿CONCLUSIÓN?
22 min5193.011
7121.5
65
0171.46950.1
pS
min40.00742.00866.07
5193.0
6
5193.021
XXS
475.240.0
74.975.8
t
Rechazamos Ho:Rechazamos Ho:
• El tiempo de coagulación de la sangre es diferente entre los grupos de
personas tratadas con diferentes tipos de drogas (t-test 0.02 < P <0.05).
Estadística Biología Marina 2003
Requisitos para aplicar el t-test:Requisitos para aplicar el t-test:
• Ambas muestras son obtenidas al azar.
• Las muestras son independientes unas de otras.
• La variable debe ser continua.
• Las variables deber tener distribución normal.
• Las varianzas deben ser homocedásticas.
Estadística Biología Marina 2003
Homocedásticidad de varianzas:Homocedásticidad de varianzas:
• TEST DE FISHER (F)• Trabaja verificando si las varianzas de los
grupos que estamos comparando son significativamente iguales o distintas.
• Las hipótesis son:– Ho: Existe homocedásticidad de varianzas
entre el grupo 1 y el grupo 2.– Ha: No Existe homocedásticidad de varianzas
entre el grupo 1 y el grupo 2.
Estadística Biología Marina 2003
Cálculo de Fisher (F):Cálculo de Fisher (F):
• Siempre se debe tener presente que la varianza mayor debe ir en el numerador, y la menor en el denominador.
• Los grados de libertad son: Gl= n1, n2• El valor critico se busca en la tabla Fisher como :
F0.05 (2) n1,n2
Estadística Biología Marina 2003
22
21
S
SF 2
2
21
S
SF
21
22
S
SF 2
1
22
S
SF
Test de Fisher con los datos del Test de Fisher con los datos del ejemplo:ejemplo:
• S21= 0.3390 y S2
2= 0.6695
• F = 0.6695/0.339 = 1.9749
• F 0.05 (2) 7,6 = 5.70
¿CONCLUSIÓN?
Estadística Biología Marina 2003
Droga B Droga G
8.8 9.9
8.4 9.0
7.9 11.1
8.7 9.6
9.1 8.7
9.6 10.4
9.5
n1 = 6 n2 = 7
Gl1 =5 Gl2 = 6
Media 1 = 8.75 minMedia 2 = 9.74 min
SS1 = 1.6950 min2
SS2 = 4.0171 min2
Para tener presente:Para tener presente:
• El test de Fisher es un prerrequisito del test de Student entonces:
• Primero debemos determinar si las varianzas son homocedásticas para luego realizar el t-test.
Estadística Biología Marina 2003
Otros datos…Otros datos…
• La capacidad del t-test se relaciona directamente con el cumplimiento de sus requisitos.
• Si éstos no se cumplen existen otras alternativas (no paramétricas).
• En general, si se aumenta el tamaño de las muestras el test tiende a ser más robusto.
Estadística Biología Marina 2003
• Si tenemos dos medias con distribución normal, pero con varianzas heterocedásticas.
• Es posible realizar un t-test, con la aproximación de Welsh.
Estadística Biología Marina 2003
El Calculo es:El Calculo es:
• Si no es un entero se aproxima al entro próximo más pequeño.
• De esta forma se paga por heterocedasticidad con una disminución en .
Estadística Biología Marina 2003
2
22
1
21
n
S
n
S
XXt
ba
2
22
1
21
n
S
n
S
XXt
ba
11 2
222
1
221
2
2
22
1
21
n
S
n
S
n
S
n
S
11 2
222
1
221
2
2
22
1
21
n
S
n
S
n
S
n
S
Ejemplo:Ejemplo:
• Un jardinero, desea utilizar un nuevo tipo de fertilizante aparecido en el mercado que promociona un mejer crecimiento que el fertilizante que ha utilizado siempre.
• El jardinero era un genio en estadística y diseño un experimento para probar si el nuevo fertilizante produce plantas más grandes que el antiguo.
Estadística Biología Marina 2003
Los datos son:Los datos son:
• Crecimiento de plantas (cm) después de dos meses de plantadas:
Estadística Biología Marina 2003
Fertilizante viejo Fertilizante nuevo
48.2 52.3
54.6 57.4
58.3 55.6
47.8 53.2
51.4 61.3
52.0 58.0
55.2 59.8
49.1 54.8
49.9
52.6
Plantear hipótesis.Plantear hipótesis.
Realizar el test.Realizar el test.
Conclusión.Conclusión.
Plantear hipótesis.Plantear hipótesis.
Realizar el test.Realizar el test.
Conclusión.Conclusión.
Independencia de las observacionesIndependencia de las observaciones
Estadística Biología Marina 2003
• La ausencia de independencia usualmente ocurre porque las observaciones están correlacionadas en el tiempo o espacio.
• E.g. Mediciones de concentración de arsénico río arriba y río abajo desde el punto donde se piensa que es la fuente.
• La ausencia de independencia usualmente ocurre porque las observaciones están correlacionadas en el tiempo o espacio.
• E.g. Mediciones de concentración de arsénico río arriba y río abajo desde el punto donde se piensa que es la fuente.
Río arribaRío abajo
Test student para muestras Test student para muestras agrupadas. agrupadas.
• En este tipo de test, las muestras del grupo 1 se encuentran relacionadas con las del grupo 2.
• Es decir se encuentran “Pareados”.
• Aquí,no se analizan los datos originales, sino que se trabaja con las diferencias entre los miembros de cada par.
Estadística Biología Marina 2003
t-Test para muestras agrupadast-Test para muestras agrupadas
Estadística Biología Marina 2003
• Es utilizado cuando un mismo objeto es medido bajo diferentes tratamientos (e.g. cambio en el peso de una rata antes y después del tratamiento con una droga)…
• … o cuando existe una correlación entre las observaciones de las dos muestras.
• Use paired t-statistic.
• Es utilizado cuando un mismo objeto es medido bajo diferentes tratamientos (e.g. cambio en el peso de una rata antes y después del tratamiento con una droga)…
• … o cuando existe una correlación entre las observaciones de las dos muestras.
• Use paired t-statistic.
Individo Antes Después Cambio W
1 12 18 +6
2 9 12 +3
3 11 13 +2
4 16 22 +6
Promedio 12 16.25 4.25
0W
Estadística Biología Marina 200
3
t-test para muestras agrupadas- t-test para muestras agrupadas- versus muestras independientes.versus muestras independientes.t-test para muestras agrupadas- t-test para muestras agrupadas-
versus muestras independientes.versus muestras independientes.• Cuando existe una correlación,
el t-test agrupado es mucho mas poderoso porque la desviación estándar de las diferencias promedios es usualmente mucho menor que el error estándar de las diferencias entre las dos medias.
• Si no existe una correlación, el test pareado es más débil porque N es el número de parejas, no el número de observaciones.
• Cuando existe una correlación, el t-test agrupado es mucho mas poderoso porque la desviación estándar de las diferencias promedios es usualmente mucho menor que el error estándar de las diferencias entre las dos medias.
• Si no existe una correlación, el test pareado es más débil porque N es el número de parejas, no el número de observaciones.
Individuo Antes Después Cámbio W
1 12 18 +6
2 9 12 +3
3 11 13 +2
4 16 22 +6
Promedio 12 16.25 4.25
s2a = 8.67, s2
d= 21.58, s2W = 2.81
Queremos verificar la hipótesis nula de que el largo de Queremos verificar la hipótesis nula de que el largo de la pata delantera y la pata trasera de los Pudú del la pata delantera y la pata trasera de los Pudú del zoológico, es el mismo. De esta manera los datos son zoológico, es el mismo. De esta manera los datos son tabulados en parestabulados en pares
Estadística Biología Marina 2003
CiervoPata
Delantera(X1)
Pata Trasera
(X2)
Diferencia(d = X1 –
X2)
1 142 138 4
2 140 136 4
3 144 147 -3
4 144 139 5
5 142 143 -1
6 146 141 5
7 149 143 6
8 150 145 5
9 142 136 6
10 148 146 2
Cálculo del test:Cálculo del test:• Las hipótesis estadísticas son:
• Ho: μ1 – μ2 = 0 o Ho: μd = 0• Ha: μ1 – μ2 0 o Ha: μd 0
• Las formulas del test son:
donde Sd (error estándar) es:
• Los grados de libertad son: Gl= n-1
Estadística Biología Marina 2003
ds
dt
ds
dt
n
n
ddi
S d1
)( 2
n
n
ddi
S d1
)( 2
A que se A que se parece esto?parece esto?
A que se A que se parece esto?parece esto?
Para el ejemplo:Para el ejemplo:
Estadística Biología Marina 2003
CiervoPata
Delantera(X1)
Pata Trasera
(X2)
Diferencia(d = X1 –
X2)
1 142 138 4
2 140 136 4
3 144 147 -3
4 144 139 5
5 142 143 -1
6 146 141 5
7 149 143 6
8 150 145 5
9 142 136 6
10 148 146 2
n = 10
Gl = 10-1 = 9
d media= 3.3 cm
S2d = 9.34 cm2
cmS d 97.010
3444.9 cmS d 97.0
10
3444.9 402.3
97.0
3.3
cmt 402.3
97.0
3.3
cmt tt0.05(2),90.05(2),9= 2.262= 2.262 tt0.05(2),90.05(2),9= 2.262= 2.262
¿CONCLUSIÓN?¿CONCLUSIÓN?
Se rechaza Ho.Se rechaza Ho.
Se determinó que el largo de las Se determinó que el largo de las patas delanteras difiere patas delanteras difiere
significativamente con el largo significativamente con el largo de las patas traseras de los Pudú de las patas traseras de los Pudú
del zoológico metropolitano (t-del zoológico metropolitano (t-test 0.005 < P < 0.01).test 0.005 < P < 0.01).
Estadística Biología Marina 2003
Para tener en cuenta:Para tener en cuenta:
• El t-test de pares agrupados no asume normalidad de los datos.
• Tampoco asume homocedásticidad de las varianzas.
• Pero si asume que las diferencias de los pares si se distribuyen de forma normal.
Estadística Biología Marina 2003
Un poco mas del t-test.Un poco mas del t-test.
• Solo se han analizado casos desde comparamos dos grupos.
• ¿Porque no comparar mas de dos grupos?
Estadística Biología Marina 2003
Riesgo de cometer un error de Riesgo de cometer un error de tipo Itipo I
Corrección de Bonferroni:– Se aplica para realizar este tipo
de comparaciones múltiples.– Produce un cambio en el valor
de (0.05).– Para corregir se divide el valor
de por el número (P) de comparaciones.
– De esta manera ´= / P.
Estadística Biología Marina 2003
Número de Comparacione
s
% Riesgo de cometer error
Tipo I
2 5
3 12
4 20
6 37
8 51
10 63
Para 5 comparaciones:Para 5 comparaciones:
´=0.05/5 = 0.01´=0.05/5 = 0.01
Ejemplo:Ejemplo:Se esta probando la efectividad de una droga que permite bajar de Se esta probando la efectividad de una droga que permite bajar de peso. El medicamento se le administró a 9 voluntarios a los que se les peso. El medicamento se le administró a 9 voluntarios a los que se les midió la cantidad de grasa corporal (kg) antes y después de dos midió la cantidad de grasa corporal (kg) antes y después de dos semanas de iniciado el tratamiento.semanas de iniciado el tratamiento.
Estadística Biología Marina 2003
Plantear hipótesis.Plantear hipótesis.
Realizar el test.Realizar el test.
Conclusión.Conclusión.
Plantear hipótesis.Plantear hipótesis.
Realizar el test.Realizar el test.
Conclusión.Conclusión.
Antes Después
1 22.50 19.20
2 24.10 20.20
3 22.60 20.60
4 22.00 19.60
5 23.60 19.60
6 23.20 21.40
7 22.40 19.80
8 23.00 19.40
9 20.90 17.90