Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf ·...
Transcript of Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf ·...
Universidad Técnica Federico Santa María
1
Capítulo 8Capítulo 8
Contraste de Hipótesis Contraste de Hipótesis
I Semestre 2006I Semestre 2006
Profesor: Carlos VallePágina: www.inf.utfsm.cl/~cvallee-mail: [email protected]
2
Contraste de HipótesisContraste de Hipótesis
� Contrastar una Hipótesis Estadísticamente es juzgar si cierta propiedad supuesta para una población es compatible con lo observado en una muestra de ella.
TiposTipos dede HipótesisHipótesis::
�� HipótesisHipótesis AlternativasAlternativas
�� HipótesisHipótesis AnidadasAnidadas
AlternativasAlternativas: Hipótesis A v/s : Hipótesis A v/s
Hipótesis B, donde A y B no Hipótesis B, donde A y B no
pueden cumplirse pueden cumplirse
simultáneamente. simultáneamente.
AnidadasAnidadas: Hipótesis A y B, : Hipótesis A y B,
donde A es un caso especial de donde A es un caso especial de
B.B.
Universidad Técnica Federico Santa María
2
3
Contraste de HipótesisContraste de Hipótesis
� Hipótesis Simple: El parámetro tiene un único valor.
� Hipótesis Compuesta: El parámetro tiene varios valores.
� Hipótesis Nula: (H0) es la hipótesis que se contrasta. Esta hipótesis se mantendrá a no ser que los datos indiquen lo contrario. Esta hipótesis nunca se considera probada aunque puede ser rechazada por los datos.
� Hipótesis Alternativa: (H1) es la hipótesis contrapuesta a H0.
4
Elementos de una Prueba de HipótesisElementos de una Prueba de Hipótesis
1.- Hipótesis Nula (H0), Hipótesis Alternativa.2.- Estadística de Prueba (Discrepancia).3.- Región de Rechazo (Región Crítica).4.- Regla de Decisión.
Universidad Técnica Federico Santa María
3
5
Definiciones BásicasDefiniciones Básicas
� Prueba (Contraste) de Hipótesis Estadística: es una regla γ (Procedimiento) para decidir si rechazamos una hipótesis H0.
� Estadística de Prueba: Es una función de la muestra. Interesa que contenga el máximo de información sobre H0. Es en base a la información contenida en esta función que decidiremos respecto de la aceptación o rechazo de H0.
� Región Crítica: Define los valores del estadístico de Prueba para los cuales se contradice H0.
6
Definiciones BásicasDefiniciones Básicas
� Regla de Decisión: Procedimiento que acepta o rechaza H0, dependiendo del valor del estadístico de Prueba.
� Nivel de Significación: Este valor α determina un valor crítico c : P(d>c|H0)=α. El procedimiento de selección de “c” a partir de α tiene varias críticas:� El resultado del Test depende de la elección de α.� Sólo el resultado del Test( A/R) no permite diferenciar el grado de evidencia que la muestra indica a favor o en contra de H0.
Universidad Técnica Federico Santa María
4
7
Contraste de HipótesisContraste de Hipótesis
� Consideremos
� Sea Θ: Estado de Naturaleza Θ = ΘΘ0 ∪ ΘΘ1χ: Espacio de Información χ = C ∪ CC
� Regla de Decisión: x ∈ C ⇒ H0 es Fx ∈ CC ⇒ H0 es V
� Error tipo I: Rechazar H0 (cuando es verdadero)� P(Error tipo I) = Pθ ( C ) = α(θ) , θ ∈ Θ0
� Error tipo II: Aceptar H0 (cuando es falso)� P(Error tipo II) = Pθ (CC) = β(θ) , θ ∈ Θ1
� Fijada la región crítica C podemos definir:πC: Θ [0,1] , πC(θ) = Pθ (C) Función Potencia
HH00: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ11
8
Contraste de HipótesisContraste de Hipótesis
0Θ
C
cC
HH00: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ11
)(XT
Modelo H0 aceptado
0 ,))(()I Error tipo( Θ==∈= θαθ CXTPP
)(XTModelo H0 rechazado
Universidad Técnica Federico Santa María
5
9
Contraste de HipótesisContraste de Hipótesis
1Θ
C
cC
HH00: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ11
1 ,))(()II Error tipo( Θ==∈= θβθcCXTPP
)(XT
Modelo H0 aceptado
)(XTModelo H0 rechazado
10
Contraste de HipótesisContraste de Hipótesis
HH00: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ11
�Aumento del error tipo I:
�Disminución del error tipo II:
C
cC
0 , )()()I Error tipo( Θ∈== θθαθ CPP
1 , )()()II Error tipo( Θ∈== θθβθc
CPP
0>∆α
0<∆β
Universidad Técnica Federico Santa María
6
11
Contraste de HipótesisContraste de Hipótesis
HH00: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ11
�Disminución del error tipo I:
�Aumento del error tipo II:
C
cC0<∆α
0>∆β
0 , )()()I Error tipo( Θ∈== θθαθ CPP
1 ),()()II Error tipo( Θ∈== θθβθc
CPP
12
Ejemplo Nº1Ejemplo Nº1
� Una v.a. X tiene una ley de Probabilidades dada por:
� Regla: Se decide rechazar H0 si X = 3 ó 4
� Determinar: α = Error tipo I ; β = Error tipo II y la Potencia del Test
X 1 2 3 4 5 6
Bajo H0 p 1/6 1/6 1/6 1/6 1/6 1/6
Bajo H1 p 2/15 1/6 1/5 1/5 1/6 2/15
Universidad Técnica Federico Santa María
7
13
SoluciónSolución-- Problema 1Problema 1
α = PHo ( C )
= PHo ({ 3 , 4 }) = 2/6 = 1/3
β = PH1 ( CC )
= PH1 ({ 1 , 2 , 5 , 6 }) = 1 - 2/5 = 3/5
πC (θ) = Pθ (C) = 1 - β = 2/5
14
Contraste de HipótesisContraste de Hipótesis
� En la práctica interesa que α , β sean pequeños.� Un método apropiado para construir una Prueba es:1.- Fijar C : Pθ ( C ) ≤ α dado el nivel de significación α. Sea ζ = {C : Pθ ( C ) ≤ α}
2.- Elegir C : Pθ ( CC ) = β sea mínimo para C ∈ ζ.� Toda región C ⊂ χ región crítica : Pθ (C) ≤α si θ
∈ Θ y Pθ (C) máxima θ ∈ Θ1, se dice Región Crítica Óptima.
Universidad Técnica Federico Santa María
8
15
H0: H0: θθθθθθθθ = = ΘΘΘΘΘΘΘΘ00 v/sv/s H1: H1: θθθθθθθθ = = ΘΘΘΘΘΘΘΘ11
�Fijar α
C
cC
C
cC
C
cC
�Minimizar β
16
Función de operación Función de operación característica/potenciacaracterística/potencia
� Función de operación característica (FOC):
� Función de potencia:
� Observación:
Θ∈∀∈== ϑθθθ , )|)(()|aceptar ()( 0
cCXTPHPL
)(1)|)(()rechazar ()( 0 ϑθθθπ LCXTP|HP −=∈==
0 si 1)( Θ=−= θαθL
1 si )( Θ== θβθL
Θ∈∀ϑ
Universidad Técnica Federico Santa María
9
17
Propiedades de la FOCPropiedades de la FOC
� Si
Propiedades:� L(-∞)=1� L(∞)=0� dL/dθ<0 para todo θ (Luego L es una función estrictamente decreciente).
1
θ
1)( =θL)(θL
)|)(()( θθ CXTPL ≤=
18
Contraste de Hipótesis usando la FOCContraste de Hipótesis usando la FOC
� Consideremos
� Sea T(x) un estimador de θ.� Regla de Decisión: T(x) ∈ C ⇒ H0 es F
T(x) ∈ CC ⇒ H0 es V� Definir la FOC:
� Encontrar estadístico de manera tal que la Distribución probabilidad no dependa de los parámetros del modelo( Cantidad Pivotal):
HH00: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ11
)|)(()|aceptar ()( 0 θθθ cCXTPHPL ∈==
FCXWPCXTPL cc ~)|),(()|)(()( θθθθ ∈=∈=
Universidad Técnica Federico Santa María
10
19
Contraste de Hipótesis usando la FOCContraste de Hipótesis usando la FOC
� Fijar nivel α del error tipo I, y encontrar la región crítica C:
� Rechazar Ho si
CCXWP c ⇒−=∈ αθθ 1)|),((
CXT ∈)(
20
Test de Medias (Varianza Test de Medias (Varianza σσσσσσσσ22 conocida)conocida)
� Consideremos
� Sea un estimador de µµµµµµµµ.� Regla de Decisión: T(x) ∈ C ⇒ H0 es F
T(x) ∈ CC ⇒ H0 es V� Definir la FOC:
� Encontrar estadístico de manera tal que la probabilidad no dependa de los parámetros del modelo:
HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ > > µµµµµµµµ00
)()|aceptar ()( 0 cXPHPL ≤== µµ
XXT =)(
)1,0(~//
)()( Nn
c
n
XPcXPL
−≤−=≤=σ
µσ
µµ
)1,0(~/
),()/,(~2
Nn
XXWnNX
σµµσµ −=⇒
Universidad Técnica Federico Santa María
11
21
Test de Medias (Varianza Test de Medias (Varianza σσσσσσσσ22 conocida) conocida)
� Fijar nivel α del error tipo I, y encontrar la región crítica C:
� Rechazar Ho si
nzcz
n
c σµσ
µαα −− +=⇒=−
1010
/
ασ
µσ
µµ −=
−Φ=
−≤ 1//
),( 00
n
c
n
cXWP
∞+= − ,10n
zCσµ α
CX ∈
22
Test de Medias (Varianza Test de Medias (Varianza σσσσσσσσ22 conocida)conocida)
� Caso 1:
� Caso 2:
� Caso 3:
HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ > > µµµµµµµµ00)()'()|aceptar ()( 0 cXPcXPHPL ≤=≤−== µµµ
HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ < < µµµµµµµµ00
HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ ≠≠≠≠≠≠≠≠ µµµµµµµµ00
)()'|(|)|aceptar ()( 210 cXcPcXPHPL ≤≤=≤−== µµµ
)()'()|aceptar ()( 0 cXPcXPHPL ≥=≤−== µµµ
] ] [ [ ] ] [ [+∞∪∞−=+∞=∞−= :;C :C ; 21321 ccccC
Universidad Técnica Federico Santa María
12
23
Ejemplo 2Ejemplo 2
� Problema 3 Una investigación conducida por el INE Instituto nacional de estadística establece que la tasa de desempleo en Chile es 10%. Se toma una muestra de 35 personas de la fuerza de trabajo de la V región, encontrando que 7 de ellas se encuentran sin empleo. ¿Es ésta una fuerte evidencia para confirmar que la tasa de desempleo en la V región es más alta que la que figura en el INE ?
� (Justifique todos sus supuestos)
24
Ejemplo 2Ejemplo 2
� H0: p= 0,10 v/ H1: p>0,10� m.a. de tamaño n=35 de � Número de personas sin empleo 7� Bajo H0 :
[ [ 1,64c tablade :C2 =+∞= c
( ) ( )( )pnpnpNpnBX i −=Χ ∑ 1;~,~
( )( )1,0~
1N
pnp
npZ
−−Χ=
( )1,0~6,5
5,3
8,02,035
1,035 : 0 N
XXQHBajo
−=⋅⋅⋅−=
48,1366,2
5,3
6,5
5,377 0 ≅=−== QX
No hay evidencia contra H0 con
05,0=α
05,0=α⇒∉CQ0
Universidad Técnica Federico Santa María
13
25
Ejemplo 2Ejemplo 2
No hay evidencia contra H0 con 05,0=α
26
Test de Comparación de MediasTest de Comparación de Medias
� Consideremos
� Sea X=x1,...,xn1 y Y=y1,...,yn2 yun estimador de µ= µx- µy.
� Regla de Decisión: T(x) ∈ C ⇒ H0 es FT(x) ∈ CC ⇒ H0 es V
� Definir FOC:
� Encontrar estadístico de manera tal que la probabilidad no dependa de los parámetros del modelo:
HH00: : µµµµµµµµxx = = µµµµµµµµyy v/sv/s HH11: : µµµµµµµµxx--µµµµµµµµyy>0 >0
)()|aceptar ()( 0 cYXPHPL ≤−== µµ
YXYXT −=),(
Universidad Técnica Federico Santa María
14
27
Test de Comparación de MediasTest de Comparación de Medias
Supuesto: Independencia
[ ] 1µ=XE( )2
11 σµ ,NX
( )2
22 σµ ,NY [ ] "µ=YE
[ ] 2
1σ=XVar
[ ] 2
2σ=YVar
~~
Caso Normal: Estadística de Prueba
( ))1,0(~
2
2
2
1
2
1
21 N
nn
YXZ
σσµµ
+
−−−= ( )2
21
21
21~
11−+
+
−−−= nn
P
t
nnS
YXt
µµ
σi conocidosσi desconocidos
pero iguales
28
Test de Comparación de MediasTest de Comparación de Medias
donde
� Para el caso de σi desconocidos y distintos no hay solución exacta.
� Región crítica C se modifica
( ) ( )2
11
21
2
22
2
112
−+−+−=
nn
SnSnSP
2
2
2
1
2
1
0
21
n
S
n
S
YXt
nn
+
−=
21
2211
ww
twtwt
++='
1
2
11
n
Sw =
2
2
22
n
Sw =
)( 11211 −= − ntt α )( 12212 −= − ntt α
Universidad Técnica Federico Santa María
15
29
HipótesisHipótesis Estadística de PruebaEstadística de Prueba
10 µµµµ == sv /
00 µµµµ <= sv /
0µµ >
nX
z
−=σ
µ0
nS
Xt
−= 0µ
(σ conocido)
(σ desconocido)
idem
2
1
22
0
2 σσσσ == sv /2
1
2 σσ ≠2
1
2 σσ >2
1
2 σσ <
( )1
2
2
22 1
−−= n
Sn χσ
χ
idem
∼
30
HipótesisHipótesis Estadística de PruebaEstadística de Prueba
2121 µµµµ ≠= sv /2
2
2
1 σσ =con
( ) ( )2
21
21
2121
21 −++−−−
nn
P
t
nn
nnS
XX µµ
2
2
2
1
2
2
2
1 σσσσ ≠= sv /
10 ppsvpp == /
( )112
2
2
1
21 −− nnFS
S,
∼asdesconocid
2121 µµµµ ≠= sv /2
2
2
1 σσ ≠con
( ) ( )2
2
2
2
1
2
1
2121
21 −∆−+
+
−−−nn
P
t
n
S
n
SS
XX µµ∼
asdesconocid
∼
( ) ( )101 00
0 ,Npnp
npX
−− ∼
Universidad Técnica Federico Santa María
16
31
Problema NProblema N°°22
� Un nuevo dispositivo de filtrado se instala en una planta química. Antes y después de su instalación una m.a. respectiva arrojó la siguiente información del porcentaje de impurezas:
Antes Después
8
17101
512
1
2
1
1
==
=
n
S
y
,
,
9
7394
210
2
2
2
2
==
=
n
S
y
,
,
32
Problema NProblema N°°22
� ¿El dispositivo de filtrado ha reducido el porcentaje de impurezas significativamente?� Opción 1: (Lamentablemente no se conoce µ0)
� Opción 2:
� ¿El dispositivo de filtrado ha cambiado el porcentaje de impurezas significativamente?� Opción 3:
211210 µµµµ ≠= :/: HsvH
211210 :/: µµµµ >= HsvH
µµµµ >= 0100 :/: HsvH
Universidad Técnica Federico Santa María
17
33
Solución Problema 2Solución Problema 2
2
2
2
1 σσ =Si( ) ( )
2
21
21
2121
21 −++−−−= nn
P
t
nn
nnS
yyt
µµ ∼
0HBajo( )
48049099
32
72
17
210512
21
21
210 ,
,,
,,, =∗
=−=+
−=
PP Snn
nnS
yyt
( ) ( )73,97
15
03,1466
15
73,94817,1017
2
11
21
2
22
2
112 ==∗+∗=−+
−+−=nn
SnSnSP
34
Solución Problema 2Solución Problema 2
� Opción 2:� Nivel de significancia α=0,05 t0,95(15)gl = 1,753� Región crítica C = [ 1,753 ; ∞ [
T0=0.48 ∈ CC ⇒ Se acepta H0Es decir, el dispositivo nuevo no reduce significativamente
el porcentaje de impurezas.
� Opción 3:� Nivel de significancia α=0,05 t0,975(15)gl = 2,131� Región crítica C = ] -∞ ; -2,131 ] ∪ [ 2,131 ; ∞ [
t0 =0.48 ∈ CC ⇒ Se acepta H0Es decir, el dispositivo nuevo no cambia significativamente
el porcentaje de impurezas.
Universidad Técnica Federico Santa María
18
35
Solución Problema 2Solución Problema 2
� Región crítica C = ] 0 ; 0,204 ] ∪ [ 4,53 ; ∞ [F0 ∈ CC ⇒ Se acepta H0 :
211210 σσσσ ≠= :/: HsvH
:0HBajo ( )1,12
2
2
10 21
~068,173,94
17,101−−=== nnF
S
SF
050,=α 2040870250 ,),(, =F 534879750 ,),(, =F
2
2
2
1 σσ =
36
¿ Provienen¿ Provienen las las observaobservaccionionees s
de una distribución en de una distribución en
particularparticular??
Luis Seccatore G07 - 2
Contraste Bondad de Ajuste
Universidad Técnica Federico Santa María
19
37
Usualmente se supone que los datos se comportan como si proviniesen de una distribución particular.
1. Muchas Decisiones Estadísticas descansan en que las observaciones son de un formato específico (normal, lognormal, poisson, etc.) • Por ejemplo: En aplicaciones de confiabilidad de sistemas computacionales,
modelos de esperas, etc . En tal caso para modelar preciso los tiempos de sobrevivencia se requiere especificar correctamente la forma de la distribución.
2. Puede existir, también, razones históricas para suponer que la muestra proviene de una población particular; • datos en el pasado pueden haberse ajustado consistentemente a una
distribución conocida
• la teoría parece indicar que la población subyacente debiera ser de una determinada forma.
¿Datos Provienen de una Distribución Particular?
38
Contrastar Hipótesis
H0: Los datos provienen de la distribución especificada. P(ג); EXP(θ)
H1: Los datos no provienen de la distribución especificada.
Propósito: Probar si los datos de la muestra se comportan como si proviniesen de una distribución específica.
Contraste Bondad de Ajuste
Universidad Técnica Federico Santa María
20
39
Q-Q Plot & Probability Plot
� Propósito: Verificar si los Datos siguen o provienen de una Distribución Dada.
Qt(p i): teórico
-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,00,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
Qx(
pi):
em
píric
o� Para cada valor pi, graficar Qx(pi) contra Qt(pi)
para i = 1, 2, ..., n,
40
Hipótesis Simples vs. Compuestas
1. Hipótesis es simple , cuando se especifican los valores de los parámetros de la distribución en cuestión, antes de obtener la muestra.
H0: datos provienen de una distribución N(0, 1)
2. Hipótesis es compuesta , cuando uno o más de los parámetros es desconocido. A menudo, éstos son estimados a partir de los datos de la muestra.
H0: Datos se distribuyen normalmente con parámetros desconocidos µµµµ y σσσσ2.
Universidad Técnica Federico Santa María
21
41
• Las hipótesis compuestas son las más comunes porque ellas permiten decidir si una muestra proviene de una distribución de un determinado tipo a partir de las observaciones de una muestra.
Hipótesis Compuestas
• En esta situación, es de interés la forma de la distribución, independientemente de los valores de los parámetros.
• Desgraciadamente, las hipótesis compuestas son más difíciles de trabajar porque los valores críticos son complicados de calcular.
42
Examinaremos varios Test para probar Bondad de Ajuste:
1. Chi-cuadrado para distribuciones continuas o discretas.
2. Kolmogorov-Smirnov para distribuciones continuas, basado en la función de distribución acumulada empírica de los datos.
3. Anderson-Darling para distribuciones continuas
Contraste de Bondad de Ajuste
Universidad Técnica Federico Santa María
22
43
Contraste Contraste
de de
χχ22 de K. Pearsonde K. Pearson
Luis Seccatore G07 - 2
Contraste Bondad de AjusteContraste Bondad de Ajuste
44
Bondad de Ajuste Chi-cuadrado
1. Una característica atractiva que puede ser aplicada a cualquier distribución de datos discretos o continuos para la cual es posible calcular la función de distribución acumulada. Consiste en comparar la distribución acumulada teórica y empírica
2. Se aplica a datos que previamente han sido comprimidos en una tabla de frecuencia o un histograma.
Universidad Técnica Federico Santa María
23
45
Bondad de Ajuste Chi-cuadrado
3. El número de observaciones en cada grupo o clase se compara con el número esperado de observaciones para ese grupo. El estadístico de prueba se calcula como un función de esa diferencia.
46
4. El estadístico de prueba depende de cómo se genera la tabla de frecuencia o el histograma.
El número de clases o grupos y cómo se define la pertenencia a cada grupo afectará a la potencia del contraste o prueba
5. La potencia también será afectada por el tamaño de la muestra y forma de la distribución nula (hipotética) y la subyacente (real) de los datos.
Se requiere un tamaño suficientemente grande con el propósito que la aproximación de chi-cuadrado sea válida .
�Bondad de Ajuste Chi-cuadrado
Universidad Técnica Federico Santa María
24
Hipótesis Nula v/s Alternativa
H0: F (x) = F*(x) para toda x
H1: F (x) ≠ F*(x) para a lo menos una x
dondeF (x) es la verdadera, pero desconocida, distribución de x
F*(x) es una distribución completamente especificada: la función de
distribución acumulada hipotética
H0: datos provienen de una distribución especificada;la función de distribución de la v. a. observada es F*(x)
H1: datos no provienen de la distribución especificada;
la función de distribución observada es diferente a F*(x)
Oi : frecuencia Observada de la
i-ésima clase: Oi ≥ 5
Oi = nΣn
i=1
• Ya sea especificando los parámetros antes de tomar la muestra.
1. Especificar Distribución de H0: F*(x)
ui : límite superior de Ii
li : límite inferior de Ii
Ii : intervalo de clase i
uili
Ii
Oi
Clase i
K: número de clases; K ≥ 5. (12 – 20)
2. Construir Histograma, tal que:
n : tamaño de la muestra: n ≥ 25 (100- 200)
Contraste χ2 de Pearson
Universidad Técnica Federico Santa María
25
• F*(x) función distribución acumulada
• pi = {F*(ui) – F*(li)}; probabilidad que el modelo, asigna a cada clase
• Ei = pi * n frecuencia teórica esperada de la i-ésima celda si H0 es cierta
3. Calcular la Frecuencia Esperada de cada Clase.
• Cuando n es grande y suponiendo pi pequeño, Oi será aproximadamente
Poisson con λ = npi � Ei = σi = λ
• (Oi - Ei ) es la discrepancia entre lo observado y lo estimado
• Al tomar muchas muestras, Oi tendrá una distibución binomial con
esperanza Ei = n*pi & σi = n * pi *(1-pi)
4. Calcular diferencias entre Oi & Ei para la clase i en Intervalo Ii
2
2
Contraste χ2 de Pearson
~ χ2K - c
K = número de celdas no vacías
c = es el número de parámetros
(incluyendo ubicación, escala y de
forma) para la distribución + 1;
así para una distribución Weibull
de 3 parámetros � c = 4
χ2 (Oi – Ei)2
EiΣK
i = 1
=
Oi – Ei
σi~ N(0, 1)
5. Estadístico de Prueba
• Si λ > 5 utilizamos la aproximación de la poisson por la normal
Oi – Ei
Ei
=√
Contraste χ2 de Pearson
•El estadístico de Prueba se define como
Universidad Técnica Federico Santa María
26
51
χ21−α, K –c-1>
χ21−α, K -c
α
Rechazar H0 si:
K = no. de celdas no vacías
c = no. de parámetros
de la distribuciónχ2
obs
H1: NO
H0: datos provienen de una distribución dada
Distribución de χ2 si H0 es cierta
El estadístico de Prueba se define como
χ2 (Oi – Ei)2
EiΣK
i = 1=
Contraste χ2 de Pearson
obs
52
Ejemplo 3
23 23 24 27 29 31 32 33 33 35 36 37 40 42 43 43 44 45 48 48 54 54 56 57 57 58 58 58 58 59 61 61 62 63 64 65 66 68 68 70 73 73 74 75 77 81 87 89 93 97
Tamaño 50
Media 55,04
Mediana 57,50
Moda 58,0
Variancia 361,1820
Desv.Estándar 19,00479
Mínimo 23,0
Máximo 97,0
Rango 74,0
Q(,25) 40,0
Q(,75) 68,0
R.Intercuatílico 28,0
Sesgo 0,158196
Achatamiento -0,605570
Median = 57,525%-75% = (40, 68)Non-Outlier Range = (23, 97)
20
30
40
50
60
70
80
90
100
Universidad Técnica Federico Santa María
27
53
-10 0 10 20 30 40 50 60i
20
30
40
50
60
70
80
90
100
X
19,5 39,5 59,5 79,5 99,5X
0
2
4
6
8
10
12
14
16
18
20
No
of o
bs
-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5Theoretical Quantile
0,01 0,050,10 0,25 0,50 0,75 0,900,95 0,99
10
20
30
40
50
60
70
80
90
100
110
Obs
erve
d V
alue
20 30 40 50 60 70 80 90 100X i
20
30
40
50
60
70
80
90
100
X
i -1
Análisis Exploratorio
54
< 19,5 19,5 – 39,5 39,5 – 59,5 59,5 – 79,5 79,5 – 99,5 >99,5
Ei
0 12 18 15 5 0Oi
1,5 8,8 19,3 15,4 4,5 0,5
19,5 39,5 59,5 79,5 99,5X
02468101214161820
No
of o
bs
x = 55,05 s = 19,00
ν = 4 – (2 + 1) = 1
10,3 5
(12 – 10,3)2 (18 – 19,3)2 (15 – 15,4)2 (5 – 5)2
10,3 19,3 15,4 5
+ + += = 0,3785χ2
Ejemplo: Bondad Ajuste χ2
χ2tabla, ν: 1; α: 0,05 = 3,84 ¿Decisión?
^
Universidad Técnica Federico Santa María
28
55
Ejemplo: Distribución Exponencial
Ejemplo:La vida útil de 70 computadoras ha tenido la siguiente
distribución exponencial con paramétro ג
� Años funcionamiento (0;1) (1;2) (2;3) (3;4) Más de 4 � Frecuencia 30 23 6 5 6
� Vida útil media = 0,5*30/70+1,5*23/70+…..5*6/70=1,6
56
(30 – 32,2)2 (23 – 17,5)2 (6 – 9,1)2 (6 – 5,6)2
32,2 17,5 9,1 5,6
+ += = 3,03χ2
Ejemplo: Distribución Exponencial
χ2tabla, ν= 3; α: 0,05 =
7,81¿Decisión?
� Vida útil media = 0,5*30/70+1,5*23/70+…..5*6/70=1,6
� H0: F (x) = Exp(ג)= 1- Exp(-1,6) v/s H1: F (x) ≠ Exp(ג)
� F(1)=0,46; F(2)=0,71; F(3)=0,84; F(4)=0,92
Universidad Técnica Federico Santa María
29
57
Ventajas & Desventajas test Chi-2
Limitaciones:
• Requiere que los datos sean agrupados creando un histograma; la definición de las clases o grupos es más bien arbitraria. Se obtienen valores diferentes para el estadístico de prueba.
• La distribución del estadístico de prueba se conoce sólo aproximadamente; la potencia del contraste es baja.
• Requiere muestras de tamaño razonablemente grandes
Ventajas:
• Es lo suficientemente flexible para permitir que ciertos parámetros sean calculados desde los datos; se extrae un grado de libertad por cada parámetro estimado.
• Es aplicable tanto a distribuciones discretas como continuas
3. Frecuencia observada por celda• Para que la aproximación sea válida, la frecuencia esperada por
celda debe ser a lo menos 5 • si alguna de la frecuencias es menor que 5 � combinar celdas:
4. La prueba no es válida para muestras pequeñas;
1. El contraste es sensible a la elección de las celdas• No existe un método óptimo de selección del ancho de clase (ya
que el ancho óptimo depende de la distribución). • Las elecciones más razonables deberían producir resultados
similares, pero no idénticos. Una regla práctica de ancho es 0,3 s, donde s es la desviación ^^
2. Las clases superior e inferior deberían estar a más menos, 6 *s de la media muestral.^
Reglas Prácticas
Universidad Técnica Federico Santa María
30
59
Contraste deContraste de
Bondad de Ajuste Bondad de Ajuste KolmogorovKolmogorov--
SmirnovSmirnov
( Distribuciones Continuas)( Distribuciones Continuas)
Test ( K-S)
Luis Seccatore G07 - 2
60
Función de Distribución Empírica
La muestra aleatoria de tamaño n � X : {x1, x2, x3, ..., xn} es ordenada de menor a mayor x(1), x(2), x(3), ..., x (n),
entonces, FE se define como:
FE( x (i)) = n (i) / n
donde n (i) es el número depuntos menores que X (i).
La función de distribución empírica acumulada (FE) se obtiene de la muestra de la siguiente manera:
20 30 40 50 60 70 80 90 100
x
0,0
0,2
0,4
0,6
0,8
1,0
FE
(x)
2 ó + valores idénticos
No hay valores observados en este tramo
Es una función escalón que aumenta en 1/n en el punto donde X toma un valor.
Universidad Técnica Federico Santa María
31
Propósito: Probar si los datos de la muestra se comportan como si provinieran de una distribución dada F*(x)
Propósito del Test K-s
Se basa en la comparación de los valores función de distribución acumulada empírica FE(x)
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0
Contra la F*(x) de la distribución de la cual se supone provienen los datos observados
Test K- S: Hipótesis
H0: F (x) = F*(x) para toda x
H1: F (x) ≠ F*(x) para a lo menos una x
dondeF (x) es la verdadera, pero desconocida, distribución de x
F*(x) es una distribución completamente especificada: la función de
distribución acumulada hipotética
H0: datos provienen de una distribución especificadala función de distribución de la v.a. observada es F*(x)
H1: datos no provienen de la distribución especificada.
la función de distribución observada es diferente a F*(x)
Universidad Técnica Federico Santa María
32
1. Ordenar los valores muestrales de manera quex(1) ≤ x(2) ≤ x(3) • • • ≤ x(n)
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0
2. Calcular la función de distribución acumulada empírica F n(x)
0 x < x(1)
i/n x (i) ≤ x < x(i+1)
1 x ≥ x(n)
FE(x) =
Contraste de Kolmogorov-Smirnov
3. Calcular F (x), función de distribución acumulada, totalmente especificada; parámetros de ubicación, escala y forma NO pueden ser estimados de los datos
64Rechazar H0 si: D máx > D tabla(α,n)
D n (x (i)) = máx { donde
4. Calcular la discrepancia máxima entre FE(x) & F*(x)
D max = máx Dn (x (i)) = máx |FE (x (i)) – F(x (i))|
Dn(xi)
| FE (x(i-1)) – F*(x(i))|
Dn(xi)
; |FE (x(i)) – F*(x(i))| }
Test de Kolmogorov-Smirnov
Universidad Técnica Federico Santa María
33
65
Valores Críticos
1. La hipótesis nula respecto a la forma de la distribución es rechazada si el estadístico de prueba, D máx , es mayor que el valor crítico obtenido de una tabla de K-S
2.La tabla de K-S es:
• exacta para n ≤ 20 para contrastes de dos colas;
• para n > 20 y para contrastes de una cola, la tabla provee una buena aproximación que son exactos en la mayoría de los casos.
• para n > 40 el contraste se basa en la distribución asintótica del estadístico de prueba y no es muy exacta para cuando n es muy grande
66
Ejemplo 4 Test K-S en U(0,1)
2. Ho : F(x) = U(0, 1)Ha : F(x) ≠ U(0, 1)
3. Nivel Significancia, α = 0,05
1. Sea una muestra de tamaño n = 10:
0,621 0,503 0,203 0,477 0,710 0,581 0,329 0,480 0,554 0,382
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
4. FE(x) F*(x) = U(0, 1)
5. Estadístico de Prueba D = máx |FE(x(i)) – F*(x(i))|
D = 0,29
6. Dtabla = 0,409
Universidad Técnica Federico Santa María
34
67
Tes K-S: Ventajas & Desventajas
Ventajas:
1. El estadístico de prueba no depende de la distribución acumulativa que está siendo contrastada.
2. Es un contraste exacto si F*(x) es continua (no depende de un tamaño adecuado de la muestra para que la aproximación sea válida como el contraste chi-cuadrado)
Desventajas:
1. Es aplicable sólo a distribuciones continuas.
2. Tiende a ser más sensible cerca del centro de la distribución que en sus extremos.