Download - 4. Análisis de la varianza - UOC (Universitat Oberta de ...cv.uoc.edu/moduls/UW03_84003_01131/web/nwin/m1/anova_1.pdf · Uso de tablas para el cálculo de valores y de probabilidades

FUOC • P01/71075/00228 58 Cálculo de probabilidades y ampliaciones de inferencia estadística

4. Análisis de la varianza

4.1. Introducción

Recordad que ya estudiamos la comparación de medias de dos poblaciones in-

dependientes a partir de diferentes estadísticos de prueba. Así, con poblacio-

nes básicas normales o con muestras grandes, y si no conocíamos las varianzas

poblacionales, pero las suponíamos iguales, teníamos el estadístico siguiente:

o incluso con varianzas desconocidas, pero con muestras grandes, podíamos

utilizar, por aproximación, el estadístico:

Estos estadísticos sólo se pueden aplicar para relacionar dos poblaciones, com-

parar la vida media de dos marcas de televisores, determinar si hay diferencia

significativa entre las rentas per cápita en los hábitats rural y urbano, discutir

el aumento de productividad al pasar de un proceso tecnológico a otro, etc.

Si estamos interesados en comparar diferentes poblaciones, tendremos que

utilizar otros estadísticos de prueba basados en el análisis de la varianza o, en

su defecto, en otras técnicas no paramétricas. Antes, sin embargo, definiremos

de manera muy concisa los modelos probabilísticos χ2 de Pearson y F de Sne-

decor, claves para la correcta aplicación de estos tests.

En este apartado sobre el análisis de la varianza aprenderéis:

• qué son las distribuciones χ2 de Pearson y F de Snedecor;

• cómo se contrasta la desigualdad de medias correspondientes a más de dos

muestras;

X1 X2–( ) µ1 µ2–( )–

1n1----- 1

n2-----+

n1 1–( )s1

2 n2 1–( )s22+

n1 n2 2–+---------------------------------------------------------

-------------------------------------------------------------------------------------- tn1 n2 2–+∼

X1 X2–( ) µ1 µ2–( )–

s12

n1-----

s22

n2-----+

----------------------------------------------------- N 0,1( )∼


• cómo se contrasta la desigualdad de medias entre muestras o grupos defi-

nidos por medio de dos criterios de clasificación;

• cómo se contrastan las desigualdades de más de dos medias con pruebas no

paramétricas.

4.2. Distribución χχ22 de Pearson

La densidad se define por los valores positivos de la variable y presenta un

comportamiento campaniforme y un asimetría hacia la derecha, como pone

de manifiesto la siguiente figura:

4.2.1. Uso de tablas para el cálculo de valores y de probabilidades

en la distribución χχ22

Así, podemos buscar qué valor de la χ2 con 15 grados de libertad genera un área

a su izquierda del 1%. Si fijamos un nivel (en la cabecera de la columna) de 0,01

y la quinceava línea para determinar los grados de libertad, encontramos en la in-

tersección de los dos puntos que el valor que buscamos es = 30,578.

Definiremos un modelo χ2 como la suma de los cuadrados de normales

independientes y estandarizadas:

con Zi ~ N(0,1) ∀i, Zi y Zj independientes ∀ i ≠ j, n = grados de libertad

del modelo χ2.

χn2 Z1

2 Z22 … Zn

2+ + +=

Karl Pearson (1857-1936)...

... es el exponente de la escuela estadística anglosajona, el fun-dador de la revista Biometrika y el autor de la distribución χ2. Se ha dicho que el modelo χ2 (y sus aplicaciones en la infe-rencia estadística) forma parte de los veinte máximos descu-brimientos de este siglo, junta-mente con los plásticos, la teoría de la relatividad, la tele-visión, los antibióticos, la teoría del big-bang, el láser, etc.

χ0,001 , 152

Para el cálculo de valores y de probabilidades en la distribución χ2, podemos utilizar las tablas que se presentan en la web asociada.


También podríamos determinar qué dos puntos de la ley χ2 con 8 grados de

libertad acotan el 90% del área, descartando colas extremas del 5%. El valor

que genera un área del 95% a su izquierda es = 2,733, que se encuentra

en la intersección de la octava fila con la columna del 0,95, mientras que el

que deja un área del 5% a su izquierda es = 15,507.

De hecho, cuando el modelo presenta muchos grados de libertad (n > 30), se

puede utilizar la aproximación asintótica a la ley normal que vemos a conti-

nuación:

Con el fin de ilustrar esta aproximación, supongamos que queremos calcu-

lar el tercer cuartil, Q3, del modelo. Dado que los grados de libertad

son superiores a 30, podemos hacer el cálculo a partir de la aproximación

N(200,20). Si estandarizamos y buscamos en las tablas de la normal están-

dar el valor z que corresponde al tercer cuartil, es decir, el que acumula has-

ta él un área 0,75, tenemos que:

donde Q3 = 213,5, resultado muy cercano al valor exacto .

Actividades

4.1. Calculad la probabilidad de encontrar un valor superior al 12,59 en una distribuciónχ2 con 6 grados de libertad. (Respuesta: 0,05)

4.2. Calculad el valor de la distribución χ2 con 15 grados de libertad que deja por encimade él una probabilidad del 10%. (Respuesta: 22,3)

4.3. Calculad la probabilidad de que la distribución χ2 con 25 grados de libertad tome unvalor en el intervalo que vaya desde el 30,0 hasta el 40,0. (Respuesta: 0,1955)

4.3. Distribución F de Snedecor

Una variable aleatoria sigue un modelo F de Snedecor (o de Fisher)

cuando resulta de operar dos distribuciones χ2 de Pearson independien-

tes según el criterio:

donde m y n son los grados de libertad de F y vienen determinados por

los grados de libertad de ambas χ2.

χ0,95 , 82

χ0,05 , 82

χn2

n 30>( ) N µ n , σ 2n==( )

χ2002

Q3 200–20

----------------------- 0,675=

χ0,25 , 2002

Fm,nχm

2 m⁄χm

2 n⁄----------------=


La densidad, definida por valores positivos de la variable, es campaniforme

con asimetría hacia la derecha, como muestra la figura, y con una media

para n > 2 y una varianza para n > 4.

La expresión analítica de la densidad no es cómodamente operable, razón por

la cual omitimos su presentación. En consecuencia, es necesario usar tablas es-

tadísticas para el cálculo de probabilidades.

4.3.1. Uso de tablas para el cálculo de valores y de probabilidades

de la ley F de Snedecor

Las tablas proporcionan puntos Fα que generan colas a la derecha con niveles

α (significación) del 10%, del 5% y del 1%; para el cálculo de niveles mayores,

siempre es posible utilizar la relación:

Por ejemplo, supongamos que un indicador económico X determinado se adapta

a un modelo F de Snedecor con 3 y 20 grados de libertad y que queremos calcular

el noveno decil, d9 (valor que toma, como vemos en la figura, a su izquierda un

área de 0,9) en las tablas de la distribución F, con una cola superior de 0,1. Leemos

3 (como primeros grados de libertad) y 20 (como segundos grados de libertad) y

encontramos en la convergencia de ambas líneas el punto 2,38.

Si ahora quisiéramos calcular el primer centil, c1 (valor que toma a su izquierda

un área de 0,01), no lo podríamos encontrar en las tablas de F3, 20, pero podría-

mos utilizar el cambio:

Actividades

4.4. Calculad la probabilidad de encontrar un valor superior a 20,3 en una F con 8 y 16grados de libertad. (Respuesta: 0)4.5. Qué valor de la distribución F con 4 y 19 grados de libertad deja por encima de él unárea del 20%. (Respuesta: 1,6630)4.6. Calculad la probabilidad de que la F con 3 y 12 grados de libertad tome un valor entre0,1 y 6,4. (Respuesta: 0,9507)

4.4. Análisis simple de la varianza. Objetivos y requisitos

El análisis de la varianza (Anova) permite comparar las medias de va-

rios grupos, después de cumplir algunos supuestos de partida. Sirve

para contrastar hipótesis del tipo H0: µ1 = µ2 = ... = µk, que tiene tra-

ducciones diferentes.

nn 2–------------ 2n2 m n 2–+( )

m n 4–( ) n 2–( )2-------------------------------------------

F1 α,n,m–1

Fα ,n,m--------------=

C1 F0,99, 3, 20 1F0,01, 20, 3------------------------ 1

26 69,---------------- 0,0374====


Suponemos que hemos dividido España en provincias y que estamos interesa-

dos, a partir de la experimentación muestral, en determinar si:

– La renta per cápita de las provincias es la misma (y, por tanto, igual a la de

toda España).

– España es homogénea en su división provincial por lo que respecta a la re-

partición de las rentas.

– El hecho no es explicativo de la desigualdad de rentas.

Estos tres planteamientos son sinónimos y tienen un mismo tratamiento es-

tadístico: el Anova.

Dado que no siempre será fácil asumir estos supuestos de partida, nos remiti-

mos a otras técnicas de estadística no paramétrica; sin embargo, si estos requi-

sitos se cumplen, el Anova resulta el procedimiento más potente (la

probabilidad de aceptar una hipótesis falsa es menor que en otras técnicas).

4.4.1. Información muestral

Consideramos k poblaciones (o k grupos en que hemos dividido una pobla-

ción), de las cuales hemos tomado diferentes muestras:

Unas restricciones previas son necesarias para poder aplicar esta técnica

con fiabilidad:

1) Las muestras (submuestras) tienen que ser independientes.

2) Las poblaciones (o subpoblaciones) siguen distribuciones normales

o, en su defecto, la muestra elegida es suficientemente grande (más de

40 datos en cada submuestra).

3) Supondremos la misma varianza para cada población (o subpobla-

ción):

Grupos

1 2 ... k

Observacionesx11

x12

x1n1

x21

x22

x2n2

...

...

...

xk1

xk2

xknk

Muestras n1 n2 ... nk

Medias muestrales ...

Varianzas muestrales ...

El uso del Anova...

... es recomendable por enci-ma de otras técnicas de esta-dística no paramétrica si se cumplen los requisitos de uso . Es un procedimiento más ade-cuado porque no acepta una hipótesis falsa, como hacen otros recursos estadísticos.

σ12 σ2

2 … σk2= = =

Notad...

... que hemos asumido la res-tricción a priori

, pero que esto no quiere decir que en el ámbito muestral se dé la igualdad de varianzas ( ).

σ12 σ2

2= =… σk

2= =

Sj2

X1 X2 Xk

S12 S2

2 Sk2


donde: xji = i-ésima observación del j-ésimo grupo

i = 1, 2, ... , nj

j = 1, 2, ... , k

y las características para la muestra global:

La siguiente figura sitúa las observaciones y los parámetros calculados:

Obviamente, las medias muestrales no deben ser iguales obligatoriamente

(Xj); lo que se cuestiona es saber si en el ámbito poblacional todas las medias

(µj) son iguales.

n njj

∑=

X

xjij

∑j

∑

n-----------------

Xjnjj

∑

n----------------= =

S2

Xji X–( )2

i∑

j∑

n 1–------------------------------------=


La dispersión de la nube de puntos que constituye la muestra global puede ve-

nir dada a partir de medidas como la varianza, la desviación estándar, etc. Ele-

giremos como variación total de la muestra STC (suma total de cuadrados):

Esta dispersión se puede dividir fácilmente en dos componentes: la dispersión

explicada mediante los grupos SCE (suma de cuadrados entre grupos):

y la dispersión explicada por medio de otros factores diferentes de los grupos

en que hemos dividido la población SCD (suma de cuadrados dentro de los

grupos):

es fácilmente demostrable la relación:

4.4.2. Contraste F de Snedecor

Como ya habíamos dicho al principio, nuestro objetivo es determinar si hay

diferencias significativas entre los grupos en que hemos dividido la población;

es decir, comprobar la variación que existe entre los grupos (SCE) es lo sufi-

cientemente importante como para entender que no se trata de una población

homogénea. Como es obvio, no podemos contestar dando una simple ojeada

porque nos arriesgaríamos a dar respuestas subjetivas; se trata de utilizar un

criterio objetivo de decisión, como el basado en un estadístico F de Snedecor.

Para contrastar la hipótesis nula:

H0: µ1 = µ2 = ... = µk = µ

STC = SCE + SCD

STC xji X–( )2

i∑

j∑ xji

2 nX2–i

∑j

∑ n 1–( )S2= = =

SCE Xj X–( )2njj

∑ Xj2nj n 1–( )X2–

j∑= =

SCD xji Xj–( )2

i∑

j∑ xji

2 Xj2nj

j∑–

i∑

j∑ Sj

2 nj 1–( )j

∑= = =


utilizaremos la expresión, válida para n observaciones y k grupos:

la cual, con una significación prefijada, permite distinguir entre el rechazo de la

H0 (cuando F* > Fα , k − 1 , n − k) o el no-rechazo de la H0 (cuando F* < Fα , k − 1 , n − k).

Notad que el hecho de no rechazar la H0 no quiere decir exactamente que

aceptemos la hipótesis, sino simplemente que nada se opone a pensar que

la H0 pueda ser verdad.

Por otro lado, rechazar la H0 no quiere decir necesariamente que todas las me-

dias sean diferentes, sino que algunas (quizá todas) son diferentes. La realiza-

ción de pruebas de t de Student para pares de medias pueden determinar qué

grupos son los que presentan unas diferencias suficientemente significativas.

Ejemplo

A partir de un diseño muestral estratificado previo, se eligieron 123 tiendas de

una ciudad, de las cuales 36 correspondían a la periferia, 48 a la zona centro y

39 al barrio antiguo. En el cuadro que tenemos a continuación se detalla la

suma de las superficies de los diferentes establecimientos:

Fuente de variación Suma de cuadrados Grados de libertad

Entre grupos (SCE) k − 1

Dentro de los grupos (SCD) n − k

Total (STC) n − 1

si F∗ > Fα , k − 1 , n − k ⇒ Rechazo H0si F∗ < Fα , k − 1 , n − k ⇒ No-rechazo H0

Total Suma de cuadrados

PeriferiaZona centroBarrio antiguo

1.1571.4641.205

245.926323.152264.340

F∗

SCEk 1–------------

SCDn k–------------

-------------------=

La ciencia del pesimismo

Alguien etiquetó la estadística como la ciencia del pesimismo, porque las hipótesis plantea-das pueden ser rechazadas o no rechazadas, pero nuncason aceptadas.

Xj2nj n 1–( )X2–

j∑

xj i Xj–( )2

i∑

j∑

x j i2 nX j

2

j∑–

i∑

j∑

F∗

SCEk 1–------------

SCDn k–------------

-------------------=


Teniendo en cuenta que no hay nada que impida aceptar la premisa de varian-

zas iguales en las tres zonas, contrastaremos la hipótesis de que también son

iguales las medias con un 25% de significación.

En primer lugar, calculamos las medias muestrales de cada una de las tres zo-

nas y la total:

= 32,138 = 30,500 = 30,897

= 31,105

A continuación, podemos calcular las variaciones que presentan los datos re-

gistrados:

STC =

= 245.926 + 325.152 + 264.340 − 123(31,105)2 = 714.412,914

SCE =

= 36(32,138)2 + 48(30,500)2 + 39(30,897)2 − 123(31,105)2 = 59,911

SCD = STC − SCE = 714.412,914 − 59,911 = 714.353,003

Contrastamos la H0: µn = µc = µs = µ (igual superficie media por zona):

por lo cual no se rechaza la hipótesis nula, al 25% de significación.

Actividades

4.7. Hemos observado en horas diferentes el número de usuarios de tres cajeros automá-ticos que hay en una agencia bancaria. Los resultados obtenidos son los siguientes:

Cajeros

1r 2n 3r

3238283339

28,031,033,027,031,0

3736402933

MediaVarianza

3416,4

30,04,8

3514

X1 X2 X3

X

xji2 nX2–

i∑

j∑ =

Xj2nj nX2–

j∑ =

SCE( )k 1–( )

-----------------

SCDn k–------------

---------------------

59,9113 1–

------------------

714.353,003123 3–

-------------------------------------------------------------------- 0,005 1,40< F0,25 , 2 , 120= = =


Después de asumir los supuestos que hacen viable el análisis de la varianza probad, conuna significación del 5%, si es posible aceptar un ritmo de trabajo igual en los tres cajeros.

La cuestión que se plantea es probar hasta qué punto es suficientemente pequeña la va-riación que existe entre grupos como para asignar una dispersión a errores muestrales o,en definitiva, al azar, lo cual equivale a postular la hipótesis H0: µ1 = µ2 = µ3.

Si realizáis las operaciones correspondientes, obtendréis unas sumas de cuadrados:

SCE = 70, SCD = 176 y STC = 246

con lo cual el estadístico de contraste toma el valor 2,4, que es menor que el valor críticoen tablas. En consecuencia, no rechazamos la H0 de un ritmo medio de clientes por cajeroigual.

4.8. En diferentes momentos del mes de abril, hemos medido la temperatura de cincociudades del interior. Los resultados que hemos obtenido son los siguientes:

que nos han permitido calcular la media y la desviación estándar de las temperaturasmuestrales en cada ciudad:

Una vez que habéis admitido los supuestos que permiten efectuar el análisis de la varian-za, comprobad si es posible aceptar una temperatura media igual para las cinco ciudadesdurante el mes de abril.

Tenéis que llegar a conseguir el cuadro que reúne toda la información necesaria:

y a “aceptar” la hipótesis de igualdad de medias al 5% de significación.

Ciudad 1

Ciudad 2

Ciudad 3

Ciudad 4

Ciudad 5

261711

626

77

2416212211

181121

925

26

201211

44

32220

824

53

251714

111

145

201122

68

212117

817

1123311025

9143130171226

Media Desviación estándar

Ciudad 1Ciudad 2Ciudad 3Ciudad 4Ciudad 5

16,16711,91712,75014,16719,917

7,6147,5378,7816,3378,649

Fuente Grados de libertad

Suma de

cuadradosMedia F

FactorErrorTotal

45559

489,63.375,43.865,0

122,461,4

1,99


4.9. Queremos determinar si el lugar donde se encuentra un árbol plantado puede influiren sus dimensiones: diámetro, altura y peso. Para este fin, hemos seleccionado aleatoria-mente diez árboles de zona seca y soleada (lugar 1) y diez árboles de zona húmeda y som-bría (lugar 2). Éstos son los datos relativos a cada árbol:

Efectuad tres análisis de la varianza para comprobar si el factor lugar es explicativo de lasdiferentes dimensiones observadas. Tenéis que acabar encontrando los cuadros de traba-jo siguientes y concluir que el tipo de zona donde está la plantación no es relevante paradeterminar las diferentes dimensiones.

Observación Diámetro Altura Peso Lugar

123456789

1011121314151617181920

2,232,121,062,122,994,012,412,752,204,093,624,771,392,893,901,524,511,183,173,33

3,763,151,853,644,645,254,074,724,175,735,105,542,404,484,842,905,272,204,934,89

0,170,150,020,160,370,730,220,300,190,780,601,110,040,320,070,070,790,030,440,52

11111111112222222222

Análisis de la varianza en altura

Fuente Gradosde libertad

Sumade cuadrados Media Estadístico F Valor P

LugarError

118

0,1225,10

0,121,39

0,09 0,770

Total 19 25,22

Análisis de la varianza en peso



LugarError

118

0,04051,7782

0,0050,0988

0,41 0,530

Total 19 1,8187

Análisis de la varianza en diámetro



LugarError

118

0,9222,39

0,921,24

0,74 0,400

Total 19 23,32


4.5. Análisis doble de la varianza

Si ampliamos el análisis anterior, podríamos considerar una clasificación do-

ble de la población, de manera que utilizamos dos criterios de estratificación:

Así, en el ejemplo de la renta familiar, además de dividir la población en co-

marcas (1, 2, ... k), podríamos dividirla en hábitats: rural, semiurbano, ..., ur-

bano (1, 2, ... , Q), y hacer que los datos de la muestra quedasen clasificados

en esta doble estratificación; nuestro objetivo final sería determinar si el factor

comarca o el factor hábitat explican el reparto desigual de la renta.

Las relaciones básicas siguientes comportan cálculos previos al análisis en la

fase descriptiva:

• Variación total:

Estratificación vertical

1 2 ... j ... k

Estr

atif

icac

ión

ho

rizo

nta

l

1

x11.1

x11.2

.

x12.1

x12.2

.

.

.

.

.

x1j.1

x1j.2

.

.

.

.

.

x1k.1

x1k.2

.

n1.

.

2

x21.1

x21.2

.

x22.1

x22.2

.

.

.

.

.

x2j.1

x2j.2

.

.

.

.

.

x2k.1

x2k.2

.

n2.

.

... ... ... ... ... ... ... ...

q

xq1.1

xq1.2

.

xq2.1

xq2.2

.

.

.

.

.

xqj.1

xqj.2

.

.

.

.

.

xqk.1

xqk.2

.

nq.

.

... ... ... ... ... ... ... ...

Q

xQ1.1

xQ1.2

.

xQ2.1

xQ2.2

.

.

.

.

.

xQj.1

xQj.2

.

.

.

.

.

xQk.1

xQk.2

.

nQ.

.

n.1 n.2 n.j n.k n

x11.n11x12.n12

x1 j .n1 j x1k.n1k

X1

x21.n21x22.n22

x2 j .n2 j x2k.n2k

X2

xq1.nq1xq2.nq2

xqj.nqjxqk.nqk

Xq

xQ1,nQ1xQ2 ,nQ2

xQj.nQjxQk.nQk

X1

X.1 X.2 X.j X.k X

STC xqj i⋅ X–( )2

i∑

j∑

q∑ xqj i⋅

2 nX– 2

i∑

j∑

q∑= =


• Variación explicada por medio de la estratificación vertical:

• Variación explicada mediante la estratificación horizontal:

• Variación no explicada:

• Variación explicada por medio de la interacción de estratificaciones:

El siguiente cuadro resume la información de un análisis doble de la varianza:

Una vez realizados estos cálculos previos y presentado el cuadro resumen, aho-

ra podemos contrastar hipótesis asumiendo poblaciones normales o muestras

grandes e independientes y varianzas iguales en cada clasificación de estratos.

Ahora podremos verificar si la estratificación vertical, la estratificación hori-

zontal o la interacción entre las estratificaciones explican o no variaciones en

la población. Para hacerlo, será necesario que especifiquemos las hipótesis nu-

las de los contrastes correspondientes:

a) En primer lugar, contrastamos si la estratificación vertical no explica varia-

ciones en la población:

H0: µ.1 = µ.2 = ... =µ.k = µ

SCI = STC − (SCV + SCH + SCR)

Fuente de variación Suma de cuadrados Grados de libertad Media

Estrat. verticalEstrat. horizontalInteracción estrat.Residual

SCVSCHSCISCR

k − 1Q− 1

(k − 1)(Q − 1)n − kQ

SCV / (k − 1)SCH / (Q − 1)

SCI/(k − 1)(Q − 1)SCR / (n − kQ)

Total STC n − 1

SCV X.j X–( )2n.jj

∑ X.j2n. j nX2–

j∑= =

SCH Xq. X–( )2nq.q∑ Xq.

2 nq. nX2–q∑= =

SCR xqj i⋅ Xqj–( )2

i∑

j∑

q∑ xqj i⋅

2 Xqj2 nqj

j∑

q∑–

i∑

j∑

q∑= =


La expresión del estadístico es:

la cual, con una significación α prefijada, permite distinguir entre el rechazo de la

H0 (cuando F* > Fα , k − 1 , n − kQ) o el no-rechazo de la H0 (cuando F* < Fα , k − 1 , n − kQ).

b) En segundo lugar, contrastamos si la estratificación horizontal no explica

variaciones en la población:

H0: µ1. = µ2. = ... = µQ. = µ


la cual, con una significación α prefijada, permite distinguir entre el rechazo de la

H0 (cuando F* > Fα , Q − 1 , n − kQ) o el no-rechazo de la H0 (cuando F* < Fα , Q − 1 , n − kQ).

c) Finalmente, contrastamos que el efecto conjunto de la interacción de los

dos estratos no explica variaciones en la población:

H0: µ11 = µ12 = ... = µQk = µ


la cual, con una significación prefijada, permite distinguir entre el rechazo

de la H0 (cuando F* > Fα , (k − 1)(Q − 1) , n − kQ) o el no-rechazo de la H0 (cuando

F* < Fα , (k − 1)(Q − 1) , n − kQ).

F∗ SCV

k 1–------------

SCRn kQ–-----------------

---------------------=

F∗ SCH

Q 1–-------------

SCRn kQ–-----------------

----------------------=

F∗ SCI

k 1–( ) Q 1–( )------------------------------------

SCRn kQ–-----------------

--------------------------------------------=


Ejemplo

Mediante un ejemplo presentaremos el desarrollo de los contrastes.

Hemos realizado un estudio sobre los ingresos que reciben treinta estudiantes

de Ingeniería que trabajan la jornada completa. Los hemos clasificado según

su especialidad y la antigüedad de la empresa. El siguiente cuadro recopila, en

miles de pesetas, los ingresos que recibían al mes:

Si asumimos las hipótesis que permiten efectuar un análisis doble de la va-

rianza y trabajamos con un nivel de significación del 5%, haremos los con-

trastes necesarios para probar si la especialidad y la antigüedad en el trabajo

influyen en los ingresos de los estudiantes y, también, si hay un efecto ex-

plicativo conjunto.

En primer lugar, a partir de los datos por grupos, calculamos las variaciones:

Contrastamos, en principio, la hipótesis H0: la antigüedad no influye. El estadís-

tico toma el valor:

y, por tanto, rechazamos la hipótesis nula.

AntigüedadEspecialidad

Mecánica Organización Eléctrica Textil

Poca 175 86, 78 170, 128 119

Media 196, 211,169 79, 114 215, 195, 184,302

106, 97, 124, 111, 100, 62

Mucha 228, 203 118 277, 241, 187 127, 210, 164

STC xqj.i2 nX2–∑∑∑ 869.802 30 159,2( )2– 109.462,8= = =

SCV X.j2n. j nX2–∑ 827.508 760.339,2 67.168,8=–= =

SCH Xq.2 nq. nX2–∑ 779.496 760.339,2 19.156,8=–= =

SCR xqj.i2 Xqj

2 nqj∑∑–∑∑∑ 869.802 848.703– 21.099= = =

SCI STC SCH– SCV– SCR– 2.038,2= =

19.156,83 1–

------------------------

21.09930 12–-------------------

-------------------------------- 8,171534 3,55> F0,05 , 2 , 18= =


Seguidamente, contrastamos la hipótesis H0: la especialidad no influye. El esta-

dístico de contraste es equivalente a:

y, en consecuencia, rechazamos la hipótesis nula.

Finalmente, verificamos la hipótesis H0: no hay ningún efecto conjunto. Dado

que el estadístico equivale a:

no rechazamos la hipótesis nula.

Actividades

4.10. Suponed que queremos efectuar un análisis doble de la varianza para determinar siel tipo de fertilizante y la orientación de las tierras pueden explicar los rendimientos dela cosecha de maíz.

Hemos dividido seis parcelas iguales en cuatro partes: zona noreste (NE), zona noroeste(NO), zona sudeste (SE) y zona sudoeste (SO); en tres de las parcelas que hemos seleccio-nado al azar, hemos utilizado el fertilizante A y en las otras tres, el fertilizante B. La can-tidad de kilogramos de maíz que ha producido cada una de las 24 zonas es ésta:

Orientación Fertilizante kg de maíz

NENENENENENENONONONONONOSESESESESESESOSOSOSOSOSO

AAABBBAAABBBAAABBBAAABBB

235,7240,1238,8277,8278,9265,8244,9251,2239,6267,8271,1273,5247,2244,4248,8260,5262,7270,6256,0249,1244,3267,7270,2272,5

67.168,84 1–

------------------------

21.09930 12–-------------------

-------------------------------- 19,101037 3,16> F0,05 , 3 , 18= =

2.038,26

---------------------

21.09930 12–-------------------

----------------------------- 0,289805 2,66< F0,05 , 6 , 18= =


Comprobad que los cálculos necesarios para un análisis doble de la varianza nos remiti-rían al cuadro siguiente:

Si asumimos las hipótesis que hacen viable estos tipos de análisis y operamos al 5% designificación, comprobad si los factores de significación, “fertilizante”, “orientación delas tierras” y “acción conjunta de los dos factores” pueden explicar la variación de los ren-dimientos. Tenéis que concluir que la respuesta es negativa sólo en el segundo caso.

4.11. Razonad la posibilidad de utilizar el análisis doble de la varianza para:a) Detectar variaciones de tendencia y de estacionalidad en series largas de paro.b) Comprobar si el tipo de música ambiental (clásica, melódica, rock, etc.) y el estadocivil del trabajador (soltero, casado, etc.) pueden influir sobre la productividad de unafábrica.c) Determinar si el nivel cultural y la opción política de los trabajadores pueden ex-plicar la desigualdad salarial en un sector económico determinado.

4.6. Análisis múltiple de la varianza

Hemos visto cómo funcionan un análisis simple y uno doble de la varianza.

De forma parecida, podríamos también considerar clasificaciones triples o

de orden superior en la población y discutir las causas de la variabilidad de

los datos según cada factor de discriminación y la interacción conjunta de

factores. Ciertamente, las variables que pueden influir en los resultados de

un experimento son múltiples y el estudio del efecto cuantitavivo de estas

variables da sentido a modelos múltiples de análisis de la varianza. No

profundizaremos en este aspecto, pero tened en cuenta que hacerlo no re-

presentaría más que una ampliación del procedimiento que hemos utiliza-

do para una clasificación doble, con resultados fundamentalmente

resumibles en tablas de análisis de varianza.

Indicamos, para finalizar, la utilidad de estas técnicas en diferentes métodos

de muestreo, la conveniencia o no de estratificar una población en subcolec-

tivos a partir de los cuales hacemos la selección aleatoria o la búsqueda de

conglomerados de datos heterogéneos.

4.7. Test de Kruskal-Wallis

La correcta aplicación del análisis de la varianza exigía el cumplimiento de

una serie de hipótesis de partida: varianzas iguales, poblaciones normales o

muestras grandes. En la práctica, no siempre se dan estos supuestos y tene-

mos que recurrir a otras pruebas estadísticas menos exigentes pero, a su vez,

también menos potentes.

Fuente GL SQ Media

FertilizanteOrientaciónInteracciónError

133

16

3.725,067,9

291,3346,7

3.725,022,697,121,7

Total 23 4.430,9


Es el caso del test de Kruskal-Wallis, que permitirá decidir si muestras inde-

pendientes varias pertenecen a una misma población o, lo que es equiva-

lente, si no hay una diferencia significativa entre las diferentes muestras

obtenidas.

A partir de las k muestras (o submuestras) conseguidas para cada uno de los

grupos:

asignamos rangos a los datos combinados de todas las muestras:

.

.

.

y sumamos los rangos correspondientes a cada muestra:

.

.

A partir de aquí, podemos crear el estadístico de prueba:

Grupos

1 2 ... k

x11

x12

...

x21

x22

...

...

...

...

...

xk1

xk

.

x1n1x2n2

xknk

mín xji 1=ji

máx xji n nj∑= =ji

R1 rangosx1ii

∑=

R2 rangosx2ii

∑=

RK rangosxkii

∑=

H∗ 12n n 1+( )---------------------

Rj2

nj------ 3 n 1+( )–

j 1=

k

∑=


para contrastar la siguiente hipótesis nula:

H0: todas las muestras pertenecen a una misma población. (No existe diferencia

alguna entre los grupos.)

Con una significación a prefijada podemos distinguir entre el rechazo de la H0

(cuando H* > Hα) o el no-rechazo de la H0 (cuando H* < Hα), donde Hα es un

punto crítico que hemos buscado en las tablas.

Ejemplo

Si ponemos un ejemplo, el procedimiento quedará más claro.

Para comprobar si hay alguna diferencia entre el número de coches aparcados

en una calle a diferentes horas del día, hemos hecho observaciones por la ma-

ñana (en tres ocasiones), por la tarde (en cinco ocasiones) y por la noche (en

cuatro ocasiones). Los resultados que hemos obtenido son los siguientes:

Si utilizamos el test de Kruskal-Wallis con un 5% de significación, averiguare-

mos si el número de coches aparcados en esta calle no cambia durante el día

o, en todo caso, en estas franjas horarias.

En primer lugar, asignamos rangos a los valores conjuntos de los tres grupos y

los sumamos:

R1 = 9 + 2 + 3,5 = 14,5

R2 = 7,5 + 12 + 3,5 + 5 + 1 = 29

R3 = 7,5 + 6 + 10 + 11 = 34,5

El estadístico de prueba correspondiente es:

el cual, según las tablas estadísticas, es inferior al punto crítico (al 5% de sig-

nificación), que es H0,05 = 5,6308, así que no rechazaremos la hipótesis nula y

Mañana 474 468 469

Tarde 473 481 469 470 467

Noche 473 472 476 480

Las mencionadas tablas...

... de los puntos críticos para di-ferentes niveles de significación del estadístico del test de Krus-kal-Wallis existen (de manera equivalente a lo que hemos vis-to para las distribuciones χ2 y F), pero son de lectura com-pleja. Por este motivo, para muestras de más de cinco datos se puede utilizar la aproxima-ción:

H

(nj > 5)

χk 1–2

Asignación de rangos

Primero asignamos los rangos a los valores conjuntos de los tres grupos, desde el valor menor (rango 1) hasta el mayor (rango 12). Después ordenamos los rangos de menor a mayor, como hacemos a continuación:

Valor Rango

467468469469470472473473474476480481

123,53,5567,57,59

101112

H∗ 1212 12 1+( )---------------------------- 14,5( )2

3------------------- 29( )2

5-------------- 34,5( )2

4-------------------+ +

3 12 1+( )– 2,2189= =


concluiremos que no hay diferencias significativas entre el número de coches

aparcados por la mañana, por la tarde y por la noche.

Actividad

4.12. Para determinar si la dimensión de los municipios rurales es un factor explica-tivo del régimen de tenencia de las viviendas, hemos calculado, sobre una muestra dedoce municipios de menos de 10.000 habitantes, la proporción de viviendasutilizadas por sus propietarios. Los resultados, presentados para tres niveles de muni-cipios, son los siguientes:

Queremos aplicar la prueba de Kruskal-Wallis para determinar si el régimen de vivi-endas de propiedad difiere de un tipo de municipio a otro, trabajando con un nivel0,05 de significación.

Obtendréis un valor del estadístico de prueba de 7,317 y, con un nivel del 5% de signifi-cación, un valor crítico en las tablas (n1 = 5, n2 = 4, n3 = 3) igual a 5,6308, con lo cualhemos rechazado la hipótesis nula de que el porcentaje de viviendas utilizadas por suspropietarios es el mismo para los tres grupos de municipios.

4.8. Test de Friedman

Puede suceder que, como ocurre en el caso de los resultados que se obtienen

después de hacer diferentes pruebas o experimentos, haya dependencia entre

las muestras obtenidas. Supongamos que se quieren evaluar los rendimientos

obtenidos en diferentes exámenes por el mismo grupo de estudiantes. Lógica-

mente, ahora se trata de observaciones muestrales relacionadas entre sí y, por

tanto, la prueba Anova no es aplicable.

A partir de los resultados obtenidos se asignan rangos dentro de cada grupo y

se suman (observad que ahora todas las submuestras son de la misma dimen-

sión n). Después de sumar los rangos de los datos de cada grupo:

% de viviendas utilizadas por los propietarios

Municipios

< 2.000 viv. 2.001 a 5.000 viv. 5.001 a 10.000 viv.

89,397,592,888,890,6

83,578,691,486,4

74,381,169,8

El test de Friedman es una prueba no paramétrica que permite, en estos

casos, discutir sobre si existe o no diferencia significativa entre los gru-

pos (entre los resultados de cada examen).


podemos construir el estadístico:

que nos servirá para contrastar la hipótesis nula:

H0: no hay diferencia en los resultados conseguidos en cada uno de los grupos,

ya que con una significación a prefijada podemos distinguir entre el rechazo

de la H0 (cuando FR∗ > FRα) o el no-rechazo de la H0 (cuando R∗ < FRα), donde

FRα es un punto crítico que hemos buscado en las tablas. Igual que antes, para

muestras y grupos grandes, podemos utilizar una aproximación del tipo:

Ejemplo

También en este caso un ejemplo aclarará el procedimiento.

Contrariamente a la opinión de los sindicatos, la federación de empresarios de

una actividad industrial mantiene que en los últimos cuatro años los salarios

reales no han variado sustancialmente. Ambas instituciones se ponen de

acuerdo para seleccionar una muestra suficientemente representativa del sec-

tor, anotando las mensualidades medias de quince trabajadores, una vez de-

flactadas con el IPC (base 1994). Si utilizamos el test de Friedman, con

aproximación a la ley χ2 a causa de la extensa información disponible, pode-

.

.

.

FR

R1 rangos x1ii

∑=

R2 rangos x2ii

∑=

Rk rangos xkii

∑=

FR∗ 12nk k 1+( )------------------------ Rj

2 3n k 1+( )–j 1=

k

∑=

En resumen...

... presentamos los resultados en un cuadro de doble entra-da, asignamos rangos a losresultados de cada elemento (por ejemplo, por orden cre-ciente) y sumamos los rangos de cada grupo. Una vez que hemos hecho esto, ya pode-mos aplicar el estadísticode prueba.(k > 4, n > 10)

(k > 5, n > 5)

χk 1–2


mos preguntarnos con qué nivel de confianza tendría que trabajar la federa-

ción empresarial para poder justificar su opinión.

La tabla siguiente recopila los rangos asignados a los salarios de cada año:

El estadístico de Friedman será:

Si nos remitimos a las tablas de la χ2 con 3 grados de libertad, encontramos

que los valores críticos son: 7,82 para el 95% de confianza y 6,25 para el 90%

de confianza. En consecuencia, si la federación empresarial trabaja al 95% de

confianza, no rechazará la hipótesis nula y podrá justificar la opinión de que

los salarios reales no han variado sustancialmente en los últimos años, mien-

tras que, si trabaja al 90% de confianza, rechazará la hipótesis nula y no podrá

justificar su opinión.

TrabajadoresMensualidad media

1992 1993 1994 1995

123456789

101112

61.02683.24177.49592.30062.31487.42653.42164.33757.73448.43480.81374.425

60.93181.12777.32192.34862.30785.39253.34265.22156.81748.34180.86674.319

60.94781.11976.98792.26161.92786.02153.20765.32457.42148.33781.23374.281

60.62482.32476.91492.27161.73086.01453.19665.03856.92548.45181.22674.299

1992 1993 1994 1995

444344414314

223431331223

312123243141

131212122432

40 29 27 24

FR∗ 1212 4 4 1+( )××----------------------------------------- 402 292 272 242+ + +( ) 3 12 4 1+( )×–= =

187,3 180–= 7,3=