ANalysisANalysis OfOf VArianceVArianceANOVAANOVA
Análisis de la VarianzaAnálisis de la Varianza
Teresa VillagarcíaTeresa Villagarcía
El objetivo del diseño de experimentosEl objetivo del diseño de experimentos
�� Estudiar si determinados factores influyen sobre una variable deEstudiar si determinados factores influyen sobre una variable de nuestro nuestro interés.interés.�� Por ejemplo: Rendimiento de un proceso industrial.Por ejemplo: Rendimiento de un proceso industrial.�� ¿Influyen?...¿Influyen?...
�� Presión de trabajo.Presión de trabajo.�� Temperatura de trabajo.Temperatura de trabajo.�� Catalizador.Catalizador.
�� Lo más importante es TOMAR DATOS. Lo más importante es TOMAR DATOS. �� Es decir EXPERIMENTAR.Es decir EXPERIMENTAR.
El diseño de experimentosEl diseño de experimentos
�� Es un mecanismo de muestreoEs un mecanismo de muestreo�� Nos muestra cómo tomar observaciones para comprobar si sobre la Nos muestra cómo tomar observaciones para comprobar si sobre la variable variable
de interés (Rendimiento de la reacción) influyen los factores (Tde interés (Rendimiento de la reacción) influyen los factores (Temperatura, emperatura, Presión, Catalizador)Presión, Catalizador)
�� Nuestro objetivo será realizar un análisis que nos lleve a conclNuestro objetivo será realizar un análisis que nos lleve a conclusiones usiones fiables.fiables.
�� Con pocas observaciones. ¿Por qué?Con pocas observaciones. ¿Por qué?�� Las observaciones son caras.Las observaciones son caras.
Vamos a estudiar.Vamos a estudiar.
�� Análisis de la varianzaAnálisis de la varianza�� Diseños factoriales a dos niveles.Diseños factoriales a dos niveles.�� Diseños fraccionales.Diseños fraccionales.�� Extensiones (Extensiones (TaguchiTaguchi))
Análisis de la varianza.Análisis de la varianza.
XY
¿Cómo influye X sobre Y?
Análisis de la varianza.Análisis de la varianza.
XY
Lo hemos estudiado en Regresión. Pero no nos importaba cómorecoger los datos. Ahora sí.
Vamos a estudiarlo con un ejemploVamos a estudiarlo con un ejemplo
�� Se desea saber si el contenido de algodón de una fibra Se desea saber si el contenido de algodón de una fibra semisintéticasemisintética influye en la influye en la fortaleza de la misma:fortaleza de la misma:
�� Se toman los siguientes datos:Se toman los siguientes datos:
111123231919181899
15151919191918181111
11112222181812121515
101025251818171777
7719191414121277
35%35%30%30%25%25%20%20%15%15%
Porcentaje de algodónPorcentaje de algodón
151523231919181899
MediasMedias
10.810.821.621.617.617.615.415.49.89.8
15151919191918181111
11112222181812121515
101025251818171777
7719191414121277
35%35%30%30%25%25%20%20%15%15%
Porcentaje de algodónPorcentaje de algodón
¿Influye el % de algodón?¿Influye el % de algodón?
¿Influye el % de algodón?¿Influye el % de algodón?
15 20 25 30 35
Scatterplot by Level Code
7
10
13
16
19
22
25
Forta
leza
Porc. Algodon
Medias
Porc. Algodon
Forta
leza
15 20 25 30 359
12
15
18
21
24
¿Influye el % de algodón?¿Influye el % de algodón?
Box-and-Whisker Plot
Porc. Algodon
Forta
leza
15 20 25 30 357
10
13
16
19
22
25
ANOVAANOVA
151523231919181899
MediasMedias
10.810.821.621.617.617.615.215.29.89.8
15151919191918181111
11112222181812121515
101025251818171777
7719191414121277
35%35%30%30%25%25%20%20%15%15%
Porcentaje de algodónPorcentaje de algodón
MediasMedias
......
yyII,nI,nIyy2,n22,n2yy1,n11,n1
..
..
..
......
......
......
..
..
..
..
..
..
yyII,2,2......yy2,22,2yy1,21,2
yyII,1,1......yy2,12,1yy1,11,1
II......2211
Grupo o FactorGrupo o Factor
.Iy .2y .Iy
No tiene que haber el mismo número de datos para cada grupo
n=n1+n2+…+nI
El modelo estadístico:El modelo estadístico:
yij = µi + eij
Observación j-ésimadel grupo i
Media del grupo iEfecto del factor
Error de la observaciónj-ésima del grupo i
Hipótesis:Hipótesis:
yij = µi + eij
1. Linealidad2. Homocedasticidad3. Independencia4. Normalidad
Grupo 1
µ1
Grupo 1
Grupo 2
µ2
µ1
Grupo 1
Grupo 2
Grupo 3µ2
µ3Los datos proceden de campanas (Son normales). Con medias distintas y varianza (Amplitud) constante
µ1
µi
µ se deslaza de un grupo a otro:
•Si el factor influye µ será distinto para cada grupo•Si el factor no influye µ será igual para todos
Estimación: Máxima Estimación: Máxima verosimilitudverosimilitud
�� ¿Cómo estimaríais ¿Cómo estimaríais µµii??
�� Por mPor mááxima verosimilitud xima verosimilitud se obtiene:se obtiene:
Efecto grupoEfecto grupo
......
yyII,nI,nIyy2,n22,n2yy1,n11,n1
..
..
..
......
......
......
..
..
..
..
..
..
yyII,2,2......yy2,22,2yy1,21,2
yyII,1,1......yy2,12,1yy1,11,1
II......2211
Grupo o FactorGrupo o Factor
y
∑=
=
in
jiji yy
1
Objetivo del análisisObjetivo del análisis
�� Saber si el grupo (Factor) influyeSaber si el grupo (Factor) influye�� En el modelo equivale a:En el modelo equivale a:
�� ¿Son iguales ¿Son iguales µµ11, , µµ22, , µµ33. . ……..? ..? �� ¿¿Alguna media es diferente?Alguna media es diferente?
�� EstadEstadíísticamente:sticamente:
�� ¿¿HHoo: : µµ11= = µµ22= = µµ33= = …….= .= µµII??�� ¿¿HH11: Alguna es diferente?: Alguna es diferente?
µ1
µ2
Supongamos los datos:
La flecha indica la diferencia entre ambas medias.
¿Son iguales?
µ1
µ2
O estos datos:
¿Son iguales?
La flecha indica la diferencia entre ambas medias.Es la misma que en el caso anterior.
µ1
µ2
¿Son iguales?
O finalmente:
La flecha indica la diferencia entre ambas medias.Es la misma que en el caso anterior.
Hay que comparar las mediasteniendo en cuenta las dispersiones(varianzas)
La distancia entre las dos medias es la misma.Pero la variabilidad es muy diferente.
¿Son iguales?
El análisis de la varianza:El análisis de la varianza:
�� Decide si los grupos son iguales comparando la distancia entre lDecide si los grupos son iguales comparando la distancia entre las medias as medias en función de varianza de los grupos.en función de varianza de los grupos.
�� Grupos con la misma diferencia de medias serán probablemente disGrupos con la misma diferencia de medias serán probablemente distintos si tintos si sus datos tienen menos variabilidadsus datos tienen menos variabilidad
Bases del Bases del análisisanálisis
.3y
.2y
..y
.1y
Todos los datos
Datos por grupos
Bases del Bases del análisisanálisis
.3y
.2y
..y
.1y
Todos los datos
Datos por grupos
...3 yy −
...2 yy −
...1 yy −
Bases del Bases del análisisanálisis
.3y
.2y
..y
.1y
Esa observación jy ,1
jy ,1
...1 yy −
...2 yy −
...3 yy −
Bases del Bases del análisisanálisis
.3y
.2y
..y
.1y
Esa observación...1 yy −
...3 yy −
...2 yy −
jy ,1
jy ,1
..,1 yy j −
.1,1 yy j −
)()()( ...1.1,1..,1 yyyyyy jj −+−=−
))((
)()()(
....,1 1
2...
1 1
2.,
1 1
2..,
1 1
yyyy
yyyyyy
iiji
n
i
n
j
i
n
i
n
jiji
n
i
n
jji
n
i
n
j
i
iii
−−
+−+−=−
∑∑
∑∑∑∑∑∑
= =
= == == =
Elevando al cuadrado y sumando para todas las observaciones:
0)()())(( .,1 1
.......,1 1
=−−=−− ∑ ∑∑∑= == =
iji
n
i
n
jiiiji
n
i
n
jyyyyyyyy
ii
)()()( ...1.1,1..,1 yyyyyy jj −+−=−
2.,
1 1
2...
1 1
2..,
1 1
)()()( iji
n
i
n
ji
n
i
n
jji
n
i
n
jyyyyyy
iii
−+−=− ∑∑∑∑∑∑= == == =
El primer término se denomina Variación Total: VTyy
j
n
i
n
j
i
=−∑∑= =
)(..,11 1
VNEyy j
n
i
n
j
i
=−∑∑= =
2.1,1
1 1)(
VEyynyy i
n
iii
n
i
n
j
i
=−=− ∑∑∑== =
2...
1
2...
1 1
)()(
El segundo término se denomina Variación Explicada:
El tercero se denomina Variación No Explicada
Distribuciones: Se puede demostrarDistribuciones: Se puede demostrar
22 una como SIEMPRE distribuye se In
VNE−
χσ
2
12
210
una como distribuye se
:Hcumplese si sóloy Si
−
===
I
I
VEχ
σ
µµµ m
2
2
, 1
1:esF una que Sabemos
m
n
mn
m
nFχ
χ
= O
2
2
,1 Hcumple se si SOLO 11
1
11
1:Por tanto
VNEIn
VEI
VNEIn
VEIF InI
−
−=
−
−=
−−
σ
σ
O,1 Hcumple se si SOLO 11
1:Por tanto
VNEIn
VEIF InI
−
−=
−−
Numerator d.f,D10,10
F (variance ratio) Distribution
0 1 2 3 4 5
x
0
0,2
0,4
0,6
0,8
dens
ity
Rechazamos HoNo rechazamos Ho
Tabla ANOVATabla ANOVA
VT/nVT/n--11nn--11VTVTTotalTotal
VNE/nVNE/n--IInn--IIVNEVNENo explicada No explicada o residualo residual
VE/IVE/I--11II--11VEVEExplicada o Explicada o entre gruposentre grupos
FFVarianzaVarianzaGrados de Grados de libertadlibertad
Suma de Suma de cuadradoscuadrados
Fuente de Fuente de variaciónvariación
)( ..,1 1
yy ji
n
i
n
j
i
−∑∑= =
2.1,
1 1
)( yy jin
i
n
j
i
−∑∑= =
2...
1)( yyn i
n
ii −∑
=
2ˆRs
2ˆes
2
Ys
2ˆes 2ˆ
Rs
Ejemplo: Porcentaje de algodónEjemplo: Porcentaje de algodón
111123231919181899
15151919191918181111
11112222181812121515
101025251818171777
7719191414121277
35%35%30%30%25%25%20%20%15%15%
Porcentaje de algodónPorcentaje de algodón
Se desea saber si el contenido de algodón de una fibra Se desea saber si el contenido de algodón de una fibra semisintéticasemisintética influye en la fortaleza de la misma:influye en la fortaleza de la misma:
Tabla ANOVATabla ANOVA
VT/nVT/n--112424nn--11
636.96636.96TotalTotal
VNE/nVNE/n--II161.2/20=161.2/20=
8.068.06
2020nn--II
161.2161.2No explicada No explicada o residualo residual
118.94/8.06118.94/8.06==
14.7614.76
VE/IVE/I--11475.76/4=475.76/4=
118.94118.94
44II--11
475.76475.76Explicada o Explicada o entre gruposentre grupos
FFVarianzaVarianzaGrados de Grados de libertadlibertad
Suma de Suma de cuadradoscuadrados
Fuente de Fuente de variaciónvariación
)( ..,1 1
yy ji
n
i
n
j
i
−∑∑= =
2.1,
1 1
)( yy jin
i
n
j
i
−∑∑= =
2...
1)( yyn i
n
ii −∑
=
151523231919181899
MediasMedias
10.810.821.621.617.617.615.415.49.89.8
15151919191918181111
11112222181812121515
101025251818171777
7719191414121277
35%35%30%30%25%25%20%20%15%15%
Porcentaje de algodónPorcentaje de algodón
Analysis of Variance-----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value-----------------------------------------------------------------------------Between groups 475,76 4 118,94 14,76 0,0000Within groups 161,2 20 8,06-----------------------------------------------------------------------------Total (Corr.) 636,96 24
Analysis of Variance-----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value-----------------------------------------------------------------------------Between groups 475,76 4 118,94 14,76 0,0000Within groups 161,2 20 8,06-----------------------------------------------------------------------------Total (Corr.) 636,96 24
Numerator d.f,Denominator d.f.4,20
F (variance ratio) Distribution
x
dens
ity
0 2 4 6 8 10 12 14 16 18 200
0,2
0,4
0,6
0,8
¿Influye el algodón?. Si se cumple Ho el número obtenido proviene de esa FSi no se cumple Ho el número no proviene de esa F
Comparación de mediasComparación de medias
�� Los datos indican que alguna media es diferenteLos datos indican que alguna media es diferente�� ¿Cuántas difieran?¿Cuántas difieran?�� ¿Son todas distintas?¿Son todas distintas?�� ¿Cuál es la mayor?¿Cuál es la mayor?
�� Intervalo de confianza para la diferencia de medias:Intervalo de confianza para la diferencia de medias:
�� Si el cero está dentro del intervalo las dos medias pueden ser iSi el cero está dentro del intervalo las dos medias pueden ser igualesguales
jiInjiji nnstyyR
11ˆ)( ,2/.. −±−∈−−α
µµ
Comparación de los gruposComparación de los grupos
�� tt0.025, 20gl0.025, 20gl=2.09=2.09
�� ((µµ11 ––µµ2 2 ) ) εε (61(61--66) +66) +-- 2.09 2.37 2.09 2.37 sqrtsqrt(1/4+1/6)(1/4+1/6)�� ((µµ11 ––µµ3 3 ) ) εε ((--10.2, 10.2, --3.8)3.8)�� ((µµ11 ––µµ4 4 ) ) εε ((--3.03, 3.03)3.03, 3.03)�� ((µµ22 ––µµ3 3 ) ) εε ((--4.8, 0.86)4.8, 0.86)�� ((µµ22 ––µµ4 4 ) ) εε (2.32, 7.67)(2.32, 7.67)�� ((µµ33 ––µµ4 4 ) ) εε (4,32, 9.7)(4,32, 9.7)
jijiji nn
styyR
11ˆ)( 2/.. −±−∈−α
µµ
Esto lo hace el ordenador mejor ya que tiene en Esto lo hace el ordenador mejor ya que tiene en cuenta el problema de contrastes múltiplescuenta el problema de contrastes múltiples
15 20 25 30 35
Means and 95,0 Percent LSD Intervals
Col_2
7
10
13
16
19
22
25
Col
_1
Multiple Range Tests for Col_1 by Col_2
-------------------------------------------------------------------------------Method: 95,0 percent LSDCol_2 Count Mean Homogeneous Groups-------------------------------------------------------------------------------15 5 9,8 X 35 5 10,8 X 20 5 15,2 X 25 5 17,6 X 30 5 21,6 X-------------------------------------------------------------------------------Contrast Difference +/- Limits-------------------------------------------------------------------------------15 - 20 *-5,4 3,69399 15 - 25 *-7,8 3,69399 15 - 30 *-11,8 3,69399 15 - 35 -1,0 3,69399 20 - 25 -2,4 3,69399 20 - 30 *-6,4 3,69399 20 - 35 *4,4 3,69399 25 - 30 *-4,0 3,69399 25 - 35 *6,8 3,69399 30 - 35 *10,8 3,69399 -------------------------------------------------------------------------------* denotes a statistically significant difference.
DiagnosisDiagnosis
�� Igual que en regresión: residuos vs. Igual que en regresión: residuos vs. Valores ajustadosValores ajustados
�� Comprobaremos que son Comprobaremos que son homocedásticos y que no pasan cosas homocedásticos y que no pasan cosas raras.raras.
Residual Plot for Col_1
-6
-4
-2
0
2
4
6
resi
dual
9 12 15 18 21 24
predicted Col_1