FUOC • P01/71075/00228 58 Cálculo de probabilidades y ampliaciones de inferencia estadística
4. Análisis de la varianza
4.1. Introducción
Recordad que ya estudiamos la comparación de medias de dos poblaciones in-
dependientes a partir de diferentes estadísticos de prueba. Así, con poblacio-
nes básicas normales o con muestras grandes, y si no conocíamos las varianzas
poblacionales, pero las suponíamos iguales, teníamos el estadístico siguiente:
o incluso con varianzas desconocidas, pero con muestras grandes, podíamos
utilizar, por aproximación, el estadístico:
Estos estadísticos sólo se pueden aplicar para relacionar dos poblaciones, com-
parar la vida media de dos marcas de televisores, determinar si hay diferencia
significativa entre las rentas per cápita en los hábitats rural y urbano, discutir
el aumento de productividad al pasar de un proceso tecnológico a otro, etc.
Si estamos interesados en comparar diferentes poblaciones, tendremos que
utilizar otros estadísticos de prueba basados en el análisis de la varianza o, en
su defecto, en otras técnicas no paramétricas. Antes, sin embargo, definiremos
de manera muy concisa los modelos probabilísticos χ2 de Pearson y F de Sne-
decor, claves para la correcta aplicación de estos tests.
En este apartado sobre el análisis de la varianza aprenderéis:
• qué son las distribuciones χ2 de Pearson y F de Snedecor;
• cómo se contrasta la desigualdad de medias correspondientes a más de dos
muestras;
X1 X2–( ) µ1 µ2–( )–
1n1----- 1
n2-----+
n1 1–( )s1
2 n2 1–( )s22+
n1 n2 2–+---------------------------------------------------------
-------------------------------------------------------------------------------------- tn1 n2 2–+∼
X1 X2–( ) µ1 µ2–( )–
s12
n1-----
s22
n2-----+
----------------------------------------------------- N 0,1( )∼
FUOC • P01/71075/00228 59 Cálculo de probabilidades y ampliaciones de inferencia estadística
• cómo se contrasta la desigualdad de medias entre muestras o grupos defi-
nidos por medio de dos criterios de clasificación;
• cómo se contrastan las desigualdades de más de dos medias con pruebas no
paramétricas.
4.2. Distribución χχ22 de Pearson
La densidad se define por los valores positivos de la variable y presenta un
comportamiento campaniforme y un asimetría hacia la derecha, como pone
de manifiesto la siguiente figura:
4.2.1. Uso de tablas para el cálculo de valores y de probabilidades
en la distribución χχ22
Así, podemos buscar qué valor de la χ2 con 15 grados de libertad genera un área
a su izquierda del 1%. Si fijamos un nivel (en la cabecera de la columna) de 0,01
y la quinceava línea para determinar los grados de libertad, encontramos en la in-
tersección de los dos puntos que el valor que buscamos es = 30,578.
Definiremos un modelo χ2 como la suma de los cuadrados de normales
independientes y estandarizadas:
con Zi ~ N(0,1) ∀i, Zi y Zj independientes ∀ i ≠ j, n = grados de libertad
del modelo χ2.
χn2 Z1
2 Z22 … Zn
2+ + +=
Karl Pearson (1857-1936)...
... es el exponente de la escuela estadística anglosajona, el fun-dador de la revista Biometrika y el autor de la distribución χ2. Se ha dicho que el modelo χ2 (y sus aplicaciones en la infe-rencia estadística) forma parte de los veinte máximos descu-brimientos de este siglo, junta-mente con los plásticos, la teoría de la relatividad, la tele-visión, los antibióticos, la teoría del big-bang, el láser, etc.
χ0,001 , 152
Para el cálculo de valores y de probabilidades en la distribución χ2, podemos utilizar las tablas que se presentan en la web asociada.
FUOC • P01/71075/00228 60 Cálculo de probabilidades y ampliaciones de inferencia estadística
También podríamos determinar qué dos puntos de la ley χ2 con 8 grados de
libertad acotan el 90% del área, descartando colas extremas del 5%. El valor
que genera un área del 95% a su izquierda es = 2,733, que se encuentra
en la intersección de la octava fila con la columna del 0,95, mientras que el
que deja un área del 5% a su izquierda es = 15,507.
De hecho, cuando el modelo presenta muchos grados de libertad (n > 30), se
puede utilizar la aproximación asintótica a la ley normal que vemos a conti-
nuación:
Con el fin de ilustrar esta aproximación, supongamos que queremos calcu-
lar el tercer cuartil, Q3, del modelo. Dado que los grados de libertad
son superiores a 30, podemos hacer el cálculo a partir de la aproximación
N(200,20). Si estandarizamos y buscamos en las tablas de la normal están-
dar el valor z que corresponde al tercer cuartil, es decir, el que acumula has-
ta él un área 0,75, tenemos que:
donde Q3 = 213,5, resultado muy cercano al valor exacto .
Actividades
4.1. Calculad la probabilidad de encontrar un valor superior al 12,59 en una distribuciónχ2 con 6 grados de libertad. (Respuesta: 0,05)
4.2. Calculad el valor de la distribución χ2 con 15 grados de libertad que deja por encimade él una probabilidad del 10%. (Respuesta: 22,3)
4.3. Calculad la probabilidad de que la distribución χ2 con 25 grados de libertad tome unvalor en el intervalo que vaya desde el 30,0 hasta el 40,0. (Respuesta: 0,1955)
4.3. Distribución F de Snedecor
Una variable aleatoria sigue un modelo F de Snedecor (o de Fisher)
cuando resulta de operar dos distribuciones χ2 de Pearson independien-
tes según el criterio:
donde m y n son los grados de libertad de F y vienen determinados por
los grados de libertad de ambas χ2.
χ0,95 , 82
χ0,05 , 82
χn2
n 30>( ) N µ n , σ 2n==( )
χ2002
Q3 200–20
----------------------- 0,675=
χ0,25 , 2002
Fm,nχm
2 m⁄χm
2 n⁄----------------=
FUOC • P01/71075/00228 61 Cálculo de probabilidades y ampliaciones de inferencia estadística
La densidad, definida por valores positivos de la variable, es campaniforme
con asimetría hacia la derecha, como muestra la figura, y con una media
para n > 2 y una varianza para n > 4.
La expresión analítica de la densidad no es cómodamente operable, razón por
la cual omitimos su presentación. En consecuencia, es necesario usar tablas es-
tadísticas para el cálculo de probabilidades.
4.3.1. Uso de tablas para el cálculo de valores y de probabilidades
de la ley F de Snedecor
Las tablas proporcionan puntos Fα que generan colas a la derecha con niveles
α (significación) del 10%, del 5% y del 1%; para el cálculo de niveles mayores,
siempre es posible utilizar la relación:
Por ejemplo, supongamos que un indicador económico X determinado se adapta
a un modelo F de Snedecor con 3 y 20 grados de libertad y que queremos calcular
el noveno decil, d9 (valor que toma, como vemos en la figura, a su izquierda un
área de 0,9) en las tablas de la distribución F, con una cola superior de 0,1. Leemos
3 (como primeros grados de libertad) y 20 (como segundos grados de libertad) y
encontramos en la convergencia de ambas líneas el punto 2,38.
Si ahora quisiéramos calcular el primer centil, c1 (valor que toma a su izquierda
un área de 0,01), no lo podríamos encontrar en las tablas de F3, 20, pero podría-
mos utilizar el cambio:
Actividades
4.4. Calculad la probabilidad de encontrar un valor superior a 20,3 en una F con 8 y 16grados de libertad. (Respuesta: 0)4.5. Qué valor de la distribución F con 4 y 19 grados de libertad deja por encima de él unárea del 20%. (Respuesta: 1,6630)4.6. Calculad la probabilidad de que la F con 3 y 12 grados de libertad tome un valor entre0,1 y 6,4. (Respuesta: 0,9507)
4.4. Análisis simple de la varianza. Objetivos y requisitos
El análisis de la varianza (Anova) permite comparar las medias de va-
rios grupos, después de cumplir algunos supuestos de partida. Sirve
para contrastar hipótesis del tipo H0: µ1 = µ2 = ... = µk, que tiene tra-
ducciones diferentes.
nn 2–------------ 2n2 m n 2–+( )
m n 4–( ) n 2–( )2-------------------------------------------
F1 α,n,m–1
Fα ,n,m--------------=
C1 F0,99, 3, 20 1F0,01, 20, 3------------------------ 1
26 69,---------------- 0,0374====
FUOC • P01/71075/00228 62 Cálculo de probabilidades y ampliaciones de inferencia estadística
Suponemos que hemos dividido España en provincias y que estamos interesa-
dos, a partir de la experimentación muestral, en determinar si:
– La renta per cápita de las provincias es la misma (y, por tanto, igual a la de
toda España).
– España es homogénea en su división provincial por lo que respecta a la re-
partición de las rentas.
– El hecho no es explicativo de la desigualdad de rentas.
Estos tres planteamientos son sinónimos y tienen un mismo tratamiento es-
tadístico: el Anova.
Dado que no siempre será fácil asumir estos supuestos de partida, nos remiti-
mos a otras técnicas de estadística no paramétrica; sin embargo, si estos requi-
sitos se cumplen, el Anova resulta el procedimiento más potente (la
probabilidad de aceptar una hipótesis falsa es menor que en otras técnicas).
4.4.1. Información muestral
Consideramos k poblaciones (o k grupos en que hemos dividido una pobla-
ción), de las cuales hemos tomado diferentes muestras:
Unas restricciones previas son necesarias para poder aplicar esta técnica
con fiabilidad:
1) Las muestras (submuestras) tienen que ser independientes.
2) Las poblaciones (o subpoblaciones) siguen distribuciones normales
o, en su defecto, la muestra elegida es suficientemente grande (más de
40 datos en cada submuestra).
3) Supondremos la misma varianza para cada población (o subpobla-
ción):
Grupos
1 2 ... k
Observacionesx11
x12
x1n1
x21
x22
x2n2
...
...
...
xk1
xk2
xknk
Muestras n1 n2 ... nk
Medias muestrales ...
Varianzas muestrales ...
El uso del Anova...
... es recomendable por enci-ma de otras técnicas de esta-dística no paramétrica si se cumplen los requisitos de uso . Es un procedimiento más ade-cuado porque no acepta una hipótesis falsa, como hacen otros recursos estadísticos.
σ12 σ2
2 … σk2= = =
Notad...
... que hemos asumido la res-tricción a priori
, pero que esto no quiere decir que en el ámbito muestral se dé la igualdad de varianzas ( ).
σ12 σ2
2= =… σk
2= =
Sj2
X1 X2 Xk
S12 S2
2 Sk2
FUOC • P01/71075/00228 63 Cálculo de probabilidades y ampliaciones de inferencia estadística
donde: xji = i-ésima observación del j-ésimo grupo
i = 1, 2, ... , nj
j = 1, 2, ... , k
y las características para la muestra global:
La siguiente figura sitúa las observaciones y los parámetros calculados:
Obviamente, las medias muestrales no deben ser iguales obligatoriamente
(Xj); lo que se cuestiona es saber si en el ámbito poblacional todas las medias
(µj) son iguales.
n njj
∑=
X
xjij
∑j
∑
n-----------------
Xjnjj
∑
n----------------= =
S2
Xji X–( )2
i∑
j∑
n 1–------------------------------------=
FUOC • P01/71075/00228 64 Cálculo de probabilidades y ampliaciones de inferencia estadística
La dispersión de la nube de puntos que constituye la muestra global puede ve-
nir dada a partir de medidas como la varianza, la desviación estándar, etc. Ele-
giremos como variación total de la muestra STC (suma total de cuadrados):
Esta dispersión se puede dividir fácilmente en dos componentes: la dispersión
explicada mediante los grupos SCE (suma de cuadrados entre grupos):
y la dispersión explicada por medio de otros factores diferentes de los grupos
en que hemos dividido la población SCD (suma de cuadrados dentro de los
grupos):
es fácilmente demostrable la relación:
4.4.2. Contraste F de Snedecor
Como ya habíamos dicho al principio, nuestro objetivo es determinar si hay
diferencias significativas entre los grupos en que hemos dividido la población;
es decir, comprobar la variación que existe entre los grupos (SCE) es lo sufi-
cientemente importante como para entender que no se trata de una población
homogénea. Como es obvio, no podemos contestar dando una simple ojeada
porque nos arriesgaríamos a dar respuestas subjetivas; se trata de utilizar un
criterio objetivo de decisión, como el basado en un estadístico F de Snedecor.
Para contrastar la hipótesis nula:
H0: µ1 = µ2 = ... = µk = µ
STC = SCE + SCD
STC xji X–( )2
i∑
j∑ xji
2 nX2–i
∑j
∑ n 1–( )S2= = =
SCE Xj X–( )2njj
∑ Xj2nj n 1–( )X2–
j∑= =
SCD xji Xj–( )2
i∑
j∑ xji
2 Xj2nj
j∑–
i∑
j∑ Sj
2 nj 1–( )j
∑= = =
FUOC • P01/71075/00228 65 Cálculo de probabilidades y ampliaciones de inferencia estadística
utilizaremos la expresión, válida para n observaciones y k grupos:
la cual, con una significación prefijada, permite distinguir entre el rechazo de la
H0 (cuando F* > Fα , k − 1 , n − k) o el no-rechazo de la H0 (cuando F* < Fα , k − 1 , n − k).
Notad que el hecho de no rechazar la H0 no quiere decir exactamente que
aceptemos la hipótesis, sino simplemente que nada se opone a pensar que
la H0 pueda ser verdad.
Por otro lado, rechazar la H0 no quiere decir necesariamente que todas las me-
dias sean diferentes, sino que algunas (quizá todas) son diferentes. La realiza-
ción de pruebas de t de Student para pares de medias pueden determinar qué
grupos son los que presentan unas diferencias suficientemente significativas.
Ejemplo
A partir de un diseño muestral estratificado previo, se eligieron 123 tiendas de
una ciudad, de las cuales 36 correspondían a la periferia, 48 a la zona centro y
39 al barrio antiguo. En el cuadro que tenemos a continuación se detalla la
suma de las superficies de los diferentes establecimientos:
Fuente de variación Suma de cuadrados Grados de libertad
Entre grupos (SCE) k − 1
Dentro de los grupos (SCD) n − k
Total (STC) n − 1
si F∗ > Fα , k − 1 , n − k ⇒ Rechazo H0si F∗ < Fα , k − 1 , n − k ⇒ No-rechazo H0
Total Suma de cuadrados
PeriferiaZona centroBarrio antiguo
1.1571.4641.205
245.926323.152264.340
F∗
SCEk 1–------------
SCDn k–------------
-------------------=
La ciencia del pesimismo
Alguien etiquetó la estadística como la ciencia del pesimismo, porque las hipótesis plantea-das pueden ser rechazadas o no rechazadas, pero nuncason aceptadas.
Xj2nj n 1–( )X2–
j∑
xj i Xj–( )2
i∑
j∑
x j i2 nX j
2
j∑–
i∑
j∑
F∗
SCEk 1–------------
SCDn k–------------
-------------------=
FUOC • P01/71075/00228 66 Cálculo de probabilidades y ampliaciones de inferencia estadística
Teniendo en cuenta que no hay nada que impida aceptar la premisa de varian-
zas iguales en las tres zonas, contrastaremos la hipótesis de que también son
iguales las medias con un 25% de significación.
En primer lugar, calculamos las medias muestrales de cada una de las tres zo-
nas y la total:
= 32,138 = 30,500 = 30,897
= 31,105
A continuación, podemos calcular las variaciones que presentan los datos re-
gistrados:
STC =
= 245.926 + 325.152 + 264.340 − 123(31,105)2 = 714.412,914
SCE =
= 36(32,138)2 + 48(30,500)2 + 39(30,897)2 − 123(31,105)2 = 59,911
SCD = STC − SCE = 714.412,914 − 59,911 = 714.353,003
Contrastamos la H0: µn = µc = µs = µ (igual superficie media por zona):
por lo cual no se rechaza la hipótesis nula, al 25% de significación.
Actividades
4.7. Hemos observado en horas diferentes el número de usuarios de tres cajeros automá-ticos que hay en una agencia bancaria. Los resultados obtenidos son los siguientes:
Cajeros
1r 2n 3r
3238283339
28,031,033,027,031,0
3736402933
MediaVarianza
3416,4
30,04,8
3514
X1 X2 X3
X
xji2 nX2–
i∑
j∑ =
Xj2nj nX2–
j∑ =
SCE( )k 1–( )
-----------------
SCDn k–------------
---------------------
59,9113 1–
------------------
714.353,003123 3–
-------------------------------------------------------------------- 0,005 1,40< F0,25 , 2 , 120= = =
FUOC • P01/71075/00228 67 Cálculo de probabilidades y ampliaciones de inferencia estadística
Después de asumir los supuestos que hacen viable el análisis de la varianza probad, conuna significación del 5%, si es posible aceptar un ritmo de trabajo igual en los tres cajeros.
La cuestión que se plantea es probar hasta qué punto es suficientemente pequeña la va-riación que existe entre grupos como para asignar una dispersión a errores muestrales o,en definitiva, al azar, lo cual equivale a postular la hipótesis H0: µ1 = µ2 = µ3.
Si realizáis las operaciones correspondientes, obtendréis unas sumas de cuadrados:
SCE = 70, SCD = 176 y STC = 246
con lo cual el estadístico de contraste toma el valor 2,4, que es menor que el valor críticoen tablas. En consecuencia, no rechazamos la H0 de un ritmo medio de clientes por cajeroigual.
4.8. En diferentes momentos del mes de abril, hemos medido la temperatura de cincociudades del interior. Los resultados que hemos obtenido son los siguientes:
que nos han permitido calcular la media y la desviación estándar de las temperaturasmuestrales en cada ciudad:
Una vez que habéis admitido los supuestos que permiten efectuar el análisis de la varian-za, comprobad si es posible aceptar una temperatura media igual para las cinco ciudadesdurante el mes de abril.
Tenéis que llegar a conseguir el cuadro que reúne toda la información necesaria:
y a “aceptar” la hipótesis de igualdad de medias al 5% de significación.
Ciudad 1
Ciudad 2
Ciudad 3
Ciudad 4
Ciudad 5
261711
626
77
2416212211
181121
925
26
201211
44
32220
824
53
251714
111
145
201122
68
212117
817
1123311025
9143130171226
Media Desviación estándar
Ciudad 1Ciudad 2Ciudad 3Ciudad 4Ciudad 5
16,16711,91712,75014,16719,917
7,6147,5378,7816,3378,649
Fuente Grados de libertad
Suma de
cuadradosMedia F
FactorErrorTotal
45559
489,63.375,43.865,0
122,461,4
1,99
FUOC • P01/71075/00228 68 Cálculo de probabilidades y ampliaciones de inferencia estadística
4.9. Queremos determinar si el lugar donde se encuentra un árbol plantado puede influiren sus dimensiones: diámetro, altura y peso. Para este fin, hemos seleccionado aleatoria-mente diez árboles de zona seca y soleada (lugar 1) y diez árboles de zona húmeda y som-bría (lugar 2). Éstos son los datos relativos a cada árbol:
Efectuad tres análisis de la varianza para comprobar si el factor lugar es explicativo de lasdiferentes dimensiones observadas. Tenéis que acabar encontrando los cuadros de traba-jo siguientes y concluir que el tipo de zona donde está la plantación no es relevante paradeterminar las diferentes dimensiones.
Observación Diámetro Altura Peso Lugar
123456789
1011121314151617181920
2,232,121,062,122,994,012,412,752,204,093,624,771,392,893,901,524,511,183,173,33
3,763,151,853,644,645,254,074,724,175,735,105,542,404,484,842,905,272,204,934,89
0,170,150,020,160,370,730,220,300,190,780,601,110,040,320,070,070,790,030,440,52
11111111112222222222
Análisis de la varianza en altura
Fuente Gradosde libertad
Sumade cuadrados Media Estadístico F Valor P
LugarError
118
0,1225,10
0,121,39
0,09 0,770
Total 19 25,22
Análisis de la varianza en peso
Fuente Gradosde libertad
Sumade cuadrados Media Estadístico F Valor P
LugarError
118
0,04051,7782
0,0050,0988
0,41 0,530
Total 19 1,8187
Análisis de la varianza en diámetro
Fuente Gradosde libertad
Sumade cuadrados Media Estadístico F Valor P
LugarError
118
0,9222,39
0,921,24
0,74 0,400
Total 19 23,32
FUOC • P01/71075/00228 69 Cálculo de probabilidades y ampliaciones de inferencia estadística
4.5. Análisis doble de la varianza
Si ampliamos el análisis anterior, podríamos considerar una clasificación do-
ble de la población, de manera que utilizamos dos criterios de estratificación:
Así, en el ejemplo de la renta familiar, además de dividir la población en co-
marcas (1, 2, ... k), podríamos dividirla en hábitats: rural, semiurbano, ..., ur-
bano (1, 2, ... , Q), y hacer que los datos de la muestra quedasen clasificados
en esta doble estratificación; nuestro objetivo final sería determinar si el factor
comarca o el factor hábitat explican el reparto desigual de la renta.
Las relaciones básicas siguientes comportan cálculos previos al análisis en la
fase descriptiva:
• Variación total:
Estratificación vertical
1 2 ... j ... k
Estr
atif
icac
ión
ho
rizo
nta
l
1
x11.1
x11.2
.
x12.1
x12.2
.
.
.
.
.
x1j.1
x1j.2
.
.
.
.
.
x1k.1
x1k.2
.
n1.
.
2
x21.1
x21.2
.
x22.1
x22.2
.
.
.
.
.
x2j.1
x2j.2
.
.
.
.
.
x2k.1
x2k.2
.
n2.
.
... ... ... ... ... ... ... ...
q
xq1.1
xq1.2
.
xq2.1
xq2.2
.
.
.
.
.
xqj.1
xqj.2
.
.
.
.
.
xqk.1
xqk.2
.
nq.
.
... ... ... ... ... ... ... ...
Q
xQ1.1
xQ1.2
.
xQ2.1
xQ2.2
.
.
.
.
.
xQj.1
xQj.2
.
.
.
.
.
xQk.1
xQk.2
.
nQ.
.
n.1 n.2 n.j n.k n
x11.n11x12.n12
x1 j .n1 j x1k.n1k
X1
x21.n21x22.n22
x2 j .n2 j x2k.n2k
X2
xq1.nq1xq2.nq2
xqj.nqjxqk.nqk
Xq
xQ1,nQ1xQ2 ,nQ2
xQj.nQjxQk.nQk
X1
X.1 X.2 X.j X.k X
STC xqj i⋅ X–( )2
i∑
j∑
q∑ xqj i⋅
2 nX– 2
i∑
j∑
q∑= =
FUOC • P01/71075/00228 70 Cálculo de probabilidades y ampliaciones de inferencia estadística
• Variación explicada por medio de la estratificación vertical:
• Variación explicada mediante la estratificación horizontal:
• Variación no explicada:
• Variación explicada por medio de la interacción de estratificaciones:
El siguiente cuadro resume la información de un análisis doble de la varianza:
Una vez realizados estos cálculos previos y presentado el cuadro resumen, aho-
ra podemos contrastar hipótesis asumiendo poblaciones normales o muestras
grandes e independientes y varianzas iguales en cada clasificación de estratos.
Ahora podremos verificar si la estratificación vertical, la estratificación hori-
zontal o la interacción entre las estratificaciones explican o no variaciones en
la población. Para hacerlo, será necesario que especifiquemos las hipótesis nu-
las de los contrastes correspondientes:
a) En primer lugar, contrastamos si la estratificación vertical no explica varia-
ciones en la población:
H0: µ.1 = µ.2 = ... =µ.k = µ
SCI = STC − (SCV + SCH + SCR)
Fuente de variación Suma de cuadrados Grados de libertad Media
Estrat. verticalEstrat. horizontalInteracción estrat.Residual
SCVSCHSCISCR
k − 1Q− 1
(k − 1)(Q − 1)n − kQ
SCV / (k − 1)SCH / (Q − 1)
SCI/(k − 1)(Q − 1)SCR / (n − kQ)
Total STC n − 1
SCV X.j X–( )2n.jj
∑ X.j2n. j nX2–
j∑= =
SCH Xq. X–( )2nq.q∑ Xq.
2 nq. nX2–q∑= =
SCR xqj i⋅ Xqj–( )2
i∑
j∑
q∑ xqj i⋅
2 Xqj2 nqj
j∑
q∑–
i∑
j∑
q∑= =
FUOC • P01/71075/00228 71 Cálculo de probabilidades y ampliaciones de inferencia estadística
La expresión del estadístico es:
la cual, con una significación α prefijada, permite distinguir entre el rechazo de la
H0 (cuando F* > Fα , k − 1 , n − kQ) o el no-rechazo de la H0 (cuando F* < Fα , k − 1 , n − kQ).
b) En segundo lugar, contrastamos si la estratificación horizontal no explica
variaciones en la población:
H0: µ1. = µ2. = ... = µQ. = µ
La expresión del estadístico es:
la cual, con una significación α prefijada, permite distinguir entre el rechazo de la
H0 (cuando F* > Fα , Q − 1 , n − kQ) o el no-rechazo de la H0 (cuando F* < Fα , Q − 1 , n − kQ).
c) Finalmente, contrastamos que el efecto conjunto de la interacción de los
dos estratos no explica variaciones en la población:
H0: µ11 = µ12 = ... = µQk = µ
La expresión del estadístico es:
la cual, con una significación prefijada, permite distinguir entre el rechazo
de la H0 (cuando F* > Fα , (k − 1)(Q − 1) , n − kQ) o el no-rechazo de la H0 (cuando
F* < Fα , (k − 1)(Q − 1) , n − kQ).
F∗ SCV
k 1–------------
SCRn kQ–-----------------
---------------------=
F∗ SCH
Q 1–-------------
SCRn kQ–-----------------
----------------------=
F∗ SCI
k 1–( ) Q 1–( )------------------------------------
SCRn kQ–-----------------
--------------------------------------------=
FUOC • P01/71075/00228 72 Cálculo de probabilidades y ampliaciones de inferencia estadística
Ejemplo
Mediante un ejemplo presentaremos el desarrollo de los contrastes.
Hemos realizado un estudio sobre los ingresos que reciben treinta estudiantes
de Ingeniería que trabajan la jornada completa. Los hemos clasificado según
su especialidad y la antigüedad de la empresa. El siguiente cuadro recopila, en
miles de pesetas, los ingresos que recibían al mes:
Si asumimos las hipótesis que permiten efectuar un análisis doble de la va-
rianza y trabajamos con un nivel de significación del 5%, haremos los con-
trastes necesarios para probar si la especialidad y la antigüedad en el trabajo
influyen en los ingresos de los estudiantes y, también, si hay un efecto ex-
plicativo conjunto.
En primer lugar, a partir de los datos por grupos, calculamos las variaciones:
Contrastamos, en principio, la hipótesis H0: la antigüedad no influye. El estadís-
tico toma el valor:
y, por tanto, rechazamos la hipótesis nula.
AntigüedadEspecialidad
Mecánica Organización Eléctrica Textil
Poca 175 86, 78 170, 128 119
Media 196, 211,169 79, 114 215, 195, 184,302
106, 97, 124, 111, 100, 62
Mucha 228, 203 118 277, 241, 187 127, 210, 164
STC xqj.i2 nX2–∑∑∑ 869.802 30 159,2( )2– 109.462,8= = =
SCV X.j2n. j nX2–∑ 827.508 760.339,2 67.168,8=–= =
SCH Xq.2 nq. nX2–∑ 779.496 760.339,2 19.156,8=–= =
SCR xqj.i2 Xqj
2 nqj∑∑–∑∑∑ 869.802 848.703– 21.099= = =
SCI STC SCH– SCV– SCR– 2.038,2= =
19.156,83 1–
------------------------
21.09930 12–-------------------
-------------------------------- 8,171534 3,55> F0,05 , 2 , 18= =
FUOC • P01/71075/00228 73 Cálculo de probabilidades y ampliaciones de inferencia estadística
Seguidamente, contrastamos la hipótesis H0: la especialidad no influye. El esta-
dístico de contraste es equivalente a:
y, en consecuencia, rechazamos la hipótesis nula.
Finalmente, verificamos la hipótesis H0: no hay ningún efecto conjunto. Dado
que el estadístico equivale a:
no rechazamos la hipótesis nula.
Actividades
4.10. Suponed que queremos efectuar un análisis doble de la varianza para determinar siel tipo de fertilizante y la orientación de las tierras pueden explicar los rendimientos dela cosecha de maíz.
Hemos dividido seis parcelas iguales en cuatro partes: zona noreste (NE), zona noroeste(NO), zona sudeste (SE) y zona sudoeste (SO); en tres de las parcelas que hemos seleccio-nado al azar, hemos utilizado el fertilizante A y en las otras tres, el fertilizante B. La can-tidad de kilogramos de maíz que ha producido cada una de las 24 zonas es ésta:
Orientación Fertilizante kg de maíz
NENENENENENENONONONONONOSESESESESESESOSOSOSOSOSO
AAABBBAAABBBAAABBBAAABBB
235,7240,1238,8277,8278,9265,8244,9251,2239,6267,8271,1273,5247,2244,4248,8260,5262,7270,6256,0249,1244,3267,7270,2272,5
67.168,84 1–
------------------------
21.09930 12–-------------------
-------------------------------- 19,101037 3,16> F0,05 , 3 , 18= =
2.038,26
---------------------
21.09930 12–-------------------
----------------------------- 0,289805 2,66< F0,05 , 6 , 18= =
FUOC • P01/71075/00228 74 Cálculo de probabilidades y ampliaciones de inferencia estadística
Comprobad que los cálculos necesarios para un análisis doble de la varianza nos remiti-rían al cuadro siguiente:
Si asumimos las hipótesis que hacen viable estos tipos de análisis y operamos al 5% designificación, comprobad si los factores de significación, “fertilizante”, “orientación delas tierras” y “acción conjunta de los dos factores” pueden explicar la variación de los ren-dimientos. Tenéis que concluir que la respuesta es negativa sólo en el segundo caso.
4.11. Razonad la posibilidad de utilizar el análisis doble de la varianza para:a) Detectar variaciones de tendencia y de estacionalidad en series largas de paro.b) Comprobar si el tipo de música ambiental (clásica, melódica, rock, etc.) y el estadocivil del trabajador (soltero, casado, etc.) pueden influir sobre la productividad de unafábrica.c) Determinar si el nivel cultural y la opción política de los trabajadores pueden ex-plicar la desigualdad salarial en un sector económico determinado.
4.6. Análisis múltiple de la varianza
Hemos visto cómo funcionan un análisis simple y uno doble de la varianza.
De forma parecida, podríamos también considerar clasificaciones triples o
de orden superior en la población y discutir las causas de la variabilidad de
los datos según cada factor de discriminación y la interacción conjunta de
factores. Ciertamente, las variables que pueden influir en los resultados de
un experimento son múltiples y el estudio del efecto cuantitavivo de estas
variables da sentido a modelos múltiples de análisis de la varianza. No
profundizaremos en este aspecto, pero tened en cuenta que hacerlo no re-
presentaría más que una ampliación del procedimiento que hemos utiliza-
do para una clasificación doble, con resultados fundamentalmente
resumibles en tablas de análisis de varianza.
Indicamos, para finalizar, la utilidad de estas técnicas en diferentes métodos
de muestreo, la conveniencia o no de estratificar una población en subcolec-
tivos a partir de los cuales hacemos la selección aleatoria o la búsqueda de
conglomerados de datos heterogéneos.
4.7. Test de Kruskal-Wallis
La correcta aplicación del análisis de la varianza exigía el cumplimiento de
una serie de hipótesis de partida: varianzas iguales, poblaciones normales o
muestras grandes. En la práctica, no siempre se dan estos supuestos y tene-
mos que recurrir a otras pruebas estadísticas menos exigentes pero, a su vez,
también menos potentes.
Fuente GL SQ Media
FertilizanteOrientaciónInteracciónError
133
16
3.725,067,9
291,3346,7
3.725,022,697,121,7
Total 23 4.430,9
FUOC • P01/71075/00228 75 Cálculo de probabilidades y ampliaciones de inferencia estadística
Es el caso del test de Kruskal-Wallis, que permitirá decidir si muestras inde-
pendientes varias pertenecen a una misma población o, lo que es equiva-
lente, si no hay una diferencia significativa entre las diferentes muestras
obtenidas.
A partir de las k muestras (o submuestras) conseguidas para cada uno de los
grupos:
asignamos rangos a los datos combinados de todas las muestras:
.
.
.
y sumamos los rangos correspondientes a cada muestra:
.
.
A partir de aquí, podemos crear el estadístico de prueba:
Grupos
1 2 ... k
x11
x12
...
x21
x22
...
...
...
...
...
xk1
xk
.
x1n1x2n2
xknk
mín xji 1=ji
máx xji n nj∑= =ji
R1 rangosx1ii
∑=
R2 rangosx2ii
∑=
RK rangosxkii
∑=
H∗ 12n n 1+( )---------------------
Rj2
nj------ 3 n 1+( )–
j 1=
k
∑=
FUOC • P01/71075/00228 76 Cálculo de probabilidades y ampliaciones de inferencia estadística
para contrastar la siguiente hipótesis nula:
H0: todas las muestras pertenecen a una misma población. (No existe diferencia
alguna entre los grupos.)
Con una significación a prefijada podemos distinguir entre el rechazo de la H0
(cuando H* > Hα) o el no-rechazo de la H0 (cuando H* < Hα), donde Hα es un
punto crítico que hemos buscado en las tablas.
Ejemplo
Si ponemos un ejemplo, el procedimiento quedará más claro.
Para comprobar si hay alguna diferencia entre el número de coches aparcados
en una calle a diferentes horas del día, hemos hecho observaciones por la ma-
ñana (en tres ocasiones), por la tarde (en cinco ocasiones) y por la noche (en
cuatro ocasiones). Los resultados que hemos obtenido son los siguientes:
Si utilizamos el test de Kruskal-Wallis con un 5% de significación, averiguare-
mos si el número de coches aparcados en esta calle no cambia durante el día
o, en todo caso, en estas franjas horarias.
En primer lugar, asignamos rangos a los valores conjuntos de los tres grupos y
los sumamos:
R1 = 9 + 2 + 3,5 = 14,5
R2 = 7,5 + 12 + 3,5 + 5 + 1 = 29
R3 = 7,5 + 6 + 10 + 11 = 34,5
El estadístico de prueba correspondiente es:
el cual, según las tablas estadísticas, es inferior al punto crítico (al 5% de sig-
nificación), que es H0,05 = 5,6308, así que no rechazaremos la hipótesis nula y
Mañana 474 468 469
Tarde 473 481 469 470 467
Noche 473 472 476 480
Las mencionadas tablas...
... de los puntos críticos para di-ferentes niveles de significación del estadístico del test de Krus-kal-Wallis existen (de manera equivalente a lo que hemos vis-to para las distribuciones χ2 y F), pero son de lectura com-pleja. Por este motivo, para muestras de más de cinco datos se puede utilizar la aproxima-ción:
H
(nj > 5)
χk 1–2
Asignación de rangos
Primero asignamos los rangos a los valores conjuntos de los tres grupos, desde el valor menor (rango 1) hasta el mayor (rango 12). Después ordenamos los rangos de menor a mayor, como hacemos a continuación:
Valor Rango
467468469469470472473473474476480481
123,53,5567,57,59
101112
H∗ 1212 12 1+( )---------------------------- 14,5( )2
3------------------- 29( )2
5-------------- 34,5( )2
4-------------------+ +
3 12 1+( )– 2,2189= =
FUOC • P01/71075/00228 77 Cálculo de probabilidades y ampliaciones de inferencia estadística
concluiremos que no hay diferencias significativas entre el número de coches
aparcados por la mañana, por la tarde y por la noche.
Actividad
4.12. Para determinar si la dimensión de los municipios rurales es un factor explica-tivo del régimen de tenencia de las viviendas, hemos calculado, sobre una muestra dedoce municipios de menos de 10.000 habitantes, la proporción de viviendasutilizadas por sus propietarios. Los resultados, presentados para tres niveles de muni-cipios, son los siguientes:
Queremos aplicar la prueba de Kruskal-Wallis para determinar si el régimen de vivi-endas de propiedad difiere de un tipo de municipio a otro, trabajando con un nivel0,05 de significación.
Obtendréis un valor del estadístico de prueba de 7,317 y, con un nivel del 5% de signifi-cación, un valor crítico en las tablas (n1 = 5, n2 = 4, n3 = 3) igual a 5,6308, con lo cualhemos rechazado la hipótesis nula de que el porcentaje de viviendas utilizadas por suspropietarios es el mismo para los tres grupos de municipios.
4.8. Test de Friedman
Puede suceder que, como ocurre en el caso de los resultados que se obtienen
después de hacer diferentes pruebas o experimentos, haya dependencia entre
las muestras obtenidas. Supongamos que se quieren evaluar los rendimientos
obtenidos en diferentes exámenes por el mismo grupo de estudiantes. Lógica-
mente, ahora se trata de observaciones muestrales relacionadas entre sí y, por
tanto, la prueba Anova no es aplicable.
A partir de los resultados obtenidos se asignan rangos dentro de cada grupo y
se suman (observad que ahora todas las submuestras son de la misma dimen-
sión n). Después de sumar los rangos de los datos de cada grupo:
% de viviendas utilizadas por los propietarios
Municipios
< 2.000 viv. 2.001 a 5.000 viv. 5.001 a 10.000 viv.
89,397,592,888,890,6
83,578,691,486,4
74,381,169,8
El test de Friedman es una prueba no paramétrica que permite, en estos
casos, discutir sobre si existe o no diferencia significativa entre los gru-
pos (entre los resultados de cada examen).
FUOC • P01/71075/00228 78 Cálculo de probabilidades y ampliaciones de inferencia estadística
podemos construir el estadístico:
que nos servirá para contrastar la hipótesis nula:
H0: no hay diferencia en los resultados conseguidos en cada uno de los grupos,
ya que con una significación a prefijada podemos distinguir entre el rechazo
de la H0 (cuando FR∗ > FRα) o el no-rechazo de la H0 (cuando R∗ < FRα), donde
FRα es un punto crítico que hemos buscado en las tablas. Igual que antes, para
muestras y grupos grandes, podemos utilizar una aproximación del tipo:
Ejemplo
También en este caso un ejemplo aclarará el procedimiento.
Contrariamente a la opinión de los sindicatos, la federación de empresarios de
una actividad industrial mantiene que en los últimos cuatro años los salarios
reales no han variado sustancialmente. Ambas instituciones se ponen de
acuerdo para seleccionar una muestra suficientemente representativa del sec-
tor, anotando las mensualidades medias de quince trabajadores, una vez de-
flactadas con el IPC (base 1994). Si utilizamos el test de Friedman, con
aproximación a la ley χ2 a causa de la extensa información disponible, pode-
.
.
.
FR
R1 rangos x1ii
∑=
R2 rangos x2ii
∑=
Rk rangos xkii
∑=
FR∗ 12nk k 1+( )------------------------ Rj
2 3n k 1+( )–j 1=
k
∑=
En resumen...
... presentamos los resultados en un cuadro de doble entra-da, asignamos rangos a losresultados de cada elemento (por ejemplo, por orden cre-ciente) y sumamos los rangos de cada grupo. Una vez que hemos hecho esto, ya pode-mos aplicar el estadísticode prueba.(k > 4, n > 10)
(k > 5, n > 5)
χk 1–2
FUOC • P01/71075/00228 79 Cálculo de probabilidades y ampliaciones de inferencia estadística
mos preguntarnos con qué nivel de confianza tendría que trabajar la federa-
ción empresarial para poder justificar su opinión.
La tabla siguiente recopila los rangos asignados a los salarios de cada año:
El estadístico de Friedman será:
Si nos remitimos a las tablas de la χ2 con 3 grados de libertad, encontramos
que los valores críticos son: 7,82 para el 95% de confianza y 6,25 para el 90%
de confianza. En consecuencia, si la federación empresarial trabaja al 95% de
confianza, no rechazará la hipótesis nula y podrá justificar la opinión de que
los salarios reales no han variado sustancialmente en los últimos años, mien-
tras que, si trabaja al 90% de confianza, rechazará la hipótesis nula y no podrá
justificar su opinión.
TrabajadoresMensualidad media
1992 1993 1994 1995
123456789
101112
61.02683.24177.49592.30062.31487.42653.42164.33757.73448.43480.81374.425
60.93181.12777.32192.34862.30785.39253.34265.22156.81748.34180.86674.319
60.94781.11976.98792.26161.92786.02153.20765.32457.42148.33781.23374.281
60.62482.32476.91492.27161.73086.01453.19665.03856.92548.45181.22674.299
1992 1993 1994 1995
444344414314
223431331223
312123243141
131212122432
40 29 27 24
FR∗ 1212 4 4 1+( )××----------------------------------------- 402 292 272 242+ + +( ) 3 12 4 1+( )×–= =
187,3 180–= 7,3=
Top Related