Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf ·...

Universidad Técnica Federico Santa María

1

Capítulo 8Capítulo 8

Contraste de Hipótesis Contraste de Hipótesis

I Semestre 2006I Semestre 2006

Profesor: Carlos VallePágina: www.inf.utfsm.cl/~cvallee-mail: [email protected]

2

Contraste de HipótesisContraste de Hipótesis

� Contrastar una Hipótesis Estadísticamente es juzgar si cierta propiedad supuesta para una población es compatible con lo observado en una muestra de ella.

TiposTipos dede HipótesisHipótesis::

�� HipótesisHipótesis AlternativasAlternativas

�� HipótesisHipótesis AnidadasAnidadas

AlternativasAlternativas: Hipótesis A v/s : Hipótesis A v/s

Hipótesis B, donde A y B no Hipótesis B, donde A y B no

pueden cumplirse pueden cumplirse

simultáneamente. simultáneamente.

AnidadasAnidadas: Hipótesis A y B, : Hipótesis A y B,

donde A es un caso especial de donde A es un caso especial de

B.B.


2

3


� Hipótesis Simple: El parámetro tiene un único valor.

� Hipótesis Compuesta: El parámetro tiene varios valores.

� Hipótesis Nula: (H0) es la hipótesis que se contrasta. Esta hipótesis se mantendrá a no ser que los datos indiquen lo contrario. Esta hipótesis nunca se considera probada aunque puede ser rechazada por los datos.

� Hipótesis Alternativa: (H1) es la hipótesis contrapuesta a H0.

4

Elementos de una Prueba de HipótesisElementos de una Prueba de Hipótesis

1.- Hipótesis Nula (H0), Hipótesis Alternativa.2.- Estadística de Prueba (Discrepancia).3.- Región de Rechazo (Región Crítica).4.- Regla de Decisión.


3

5

Definiciones BásicasDefiniciones Básicas

� Prueba (Contraste) de Hipótesis Estadística: es una regla γ (Procedimiento) para decidir si rechazamos una hipótesis H0.

� Estadística de Prueba: Es una función de la muestra. Interesa que contenga el máximo de información sobre H0. Es en base a la información contenida en esta función que decidiremos respecto de la aceptación o rechazo de H0.

� Región Crítica: Define los valores del estadístico de Prueba para los cuales se contradice H0.

6

Definiciones BásicasDefiniciones Básicas

� Regla de Decisión: Procedimiento que acepta o rechaza H0, dependiendo del valor del estadístico de Prueba.

� Nivel de Significación: Este valor α determina un valor crítico c : P(d>c|H0)=α. El procedimiento de selección de “c” a partir de α tiene varias críticas:� El resultado del Test depende de la elección de α.� Sólo el resultado del Test( A/R) no permite diferenciar el grado de evidencia que la muestra indica a favor o en contra de H0.


4

7


� Consideremos

� Sea Θ: Estado de Naturaleza Θ = ΘΘ0 ∪ ΘΘ1χ: Espacio de Información χ = C ∪ CC

� Regla de Decisión: x ∈ C ⇒ H0 es Fx ∈ CC ⇒ H0 es V

� Error tipo I: Rechazar H0 (cuando es verdadero)� P(Error tipo I) = Pθ ( C ) = α(θ) , θ ∈ Θ0

� Error tipo II: Aceptar H0 (cuando es falso)� P(Error tipo II) = Pθ (CC) = β(θ) , θ ∈ Θ1

� Fijada la región crítica C podemos definir:πC: Θ [0,1] , πC(θ) = Pθ (C) Función Potencia

HH00: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ ∈∈∈∈∈∈∈∈ ΘΘΘΘΘΘΘΘ11

8


0Θ

C

cC

HH00: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ11

)(XT

Modelo H0 aceptado

0 ,))(()I Error tipo( Θ==∈= θαθ CXTPP

)(XTModelo H0 rechazado


5

9


1Θ

C

cC

HH00: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ00 v/sv/s HH11: : θθθθθθθθ = = ΘΘΘΘΘΘΘΘ11

1 ,))(()II Error tipo( Θ==∈= θβθcCXTPP

)(XT

Modelo H0 aceptado

)(XTModelo H0 rechazado

10



�Aumento del error tipo I:

�Disminución del error tipo II:

C

cC

0 , )()()I Error tipo( Θ∈== θθαθ CPP

1 , )()()II Error tipo( Θ∈== θθβθc

CPP

0>∆α

0<∆β


6

11



�Disminución del error tipo I:

�Aumento del error tipo II:

C

cC0<∆α

0>∆β

0 , )()()I Error tipo( Θ∈== θθαθ CPP

1 ),()()II Error tipo( Θ∈== θθβθc

CPP

12

Ejemplo Nº1Ejemplo Nº1

� Una v.a. X tiene una ley de Probabilidades dada por:

� Regla: Se decide rechazar H0 si X = 3 ó 4

� Determinar: α = Error tipo I ; β = Error tipo II y la Potencia del Test

X 1 2 3 4 5 6

Bajo H0 p 1/6 1/6 1/6 1/6 1/6 1/6

Bajo H1 p 2/15 1/6 1/5 1/5 1/6 2/15


7

13

SoluciónSolución-- Problema 1Problema 1

α = PHo ( C )

= PHo ({ 3 , 4 }) = 2/6 = 1/3

β = PH1 ( CC )

= PH1 ({ 1 , 2 , 5 , 6 }) = 1 - 2/5 = 3/5

πC (θ) = Pθ (C) = 1 - β = 2/5

14


� En la práctica interesa que α , β sean pequeños.� Un método apropiado para construir una Prueba es:1.- Fijar C : Pθ ( C ) ≤ α dado el nivel de significación α. Sea ζ = {C : Pθ ( C ) ≤ α}

2.- Elegir C : Pθ ( CC ) = β sea mínimo para C ∈ ζ.� Toda región C ⊂ χ región crítica : Pθ (C) ≤α si θ

∈ Θ y Pθ (C) máxima θ ∈ Θ1, se dice Región Crítica Óptima.


8

15

H0: H0: θθθθθθθθ = = ΘΘΘΘΘΘΘΘ00 v/sv/s H1: H1: θθθθθθθθ = = ΘΘΘΘΘΘΘΘ11

�Fijar α

C

cC

C

cC

C

cC

�Minimizar β

16

Función de operación Función de operación característica/potenciacaracterística/potencia

� Función de operación característica (FOC):

� Función de potencia:

� Observación:

Θ∈∀∈== ϑθθθ , )|)(()|aceptar ()( 0

cCXTPHPL

)(1)|)(()rechazar ()( 0 ϑθθθπ LCXTP|HP −=∈==

0 si 1)( Θ=−= θαθL

1 si )( Θ== θβθL

Θ∈∀ϑ


9

17

Propiedades de la FOCPropiedades de la FOC

� Si

Propiedades:� L(-∞)=1� L(∞)=0� dL/dθ<0 para todo θ (Luego L es una función estrictamente decreciente).

1

θ

1)( =θL)(θL

)|)(()( θθ CXTPL ≤=

18

Contraste de Hipótesis usando la FOCContraste de Hipótesis usando la FOC

� Consideremos

� Sea T(x) un estimador de θ.� Regla de Decisión: T(x) ∈ C ⇒ H0 es F

T(x) ∈ CC ⇒ H0 es V� Definir la FOC:

� Encontrar estadístico de manera tal que la Distribución probabilidad no dependa de los parámetros del modelo( Cantidad Pivotal):


)|)(()|aceptar ()( 0 θθθ cCXTPHPL ∈==

FCXWPCXTPL cc ~)|),(()|)(()( θθθθ ∈=∈=


10

19

Contraste de Hipótesis usando la FOCContraste de Hipótesis usando la FOC

� Fijar nivel α del error tipo I, y encontrar la región crítica C:

� Rechazar Ho si

CCXWP c ⇒−=∈ αθθ 1)|),((

CXT ∈)(

20

Test de Medias (Varianza Test de Medias (Varianza σσσσσσσσ22 conocida)conocida)

� Consideremos

� Sea un estimador de µµµµµµµµ.� Regla de Decisión: T(x) ∈ C ⇒ H0 es F

T(x) ∈ CC ⇒ H0 es V� Definir la FOC:

� Encontrar estadístico de manera tal que la probabilidad no dependa de los parámetros del modelo:

HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ > > µµµµµµµµ00

)()|aceptar ()( 0 cXPHPL ≤== µµ

XXT =)(

)1,0(~//

)()( Nn

c

n

XPcXPL

−≤−=≤=σ

µσ

µµ

)1,0(~/

),()/,(~2

Nn

XXWnNX

σµµσµ −=⇒


11

21

Test de Medias (Varianza Test de Medias (Varianza σσσσσσσσ22 conocida) conocida)

� Fijar nivel α del error tipo I, y encontrar la región crítica C:

� Rechazar Ho si

nzcz

n

c σµσ

µαα −− +=⇒=−

1010

/

ασ

µσ

µµ −=

−Φ=

−≤ 1//

),( 00

n

c

n

cXWP

∞+= − ,10n

zCσµ α

CX ∈

22

Test de Medias (Varianza Test de Medias (Varianza σσσσσσσσ22 conocida)conocida)

� Caso 1:

� Caso 2:

� Caso 3:

HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ > > µµµµµµµµ00)()'()|aceptar ()( 0 cXPcXPHPL ≤=≤−== µµµ

HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ < < µµµµµµµµ00

HH00: : µµµµµµµµ = = µµµµµµµµ00 v/sv/s HH11: : µµµµµµµµ ≠≠≠≠≠≠≠≠ µµµµµµµµ00

)()'|(|)|aceptar ()( 210 cXcPcXPHPL ≤≤=≤−== µµµ

)()'()|aceptar ()( 0 cXPcXPHPL ≥=≤−== µµµ

] ] [ [ ] ] [ [+∞∪∞−=+∞=∞−= :;C :C ; 21321 ccccC


12

23

Ejemplo 2Ejemplo 2

� Problema 3 Una investigación conducida por el INE Instituto nacional de estadística establece que la tasa de desempleo en Chile es 10%. Se toma una muestra de 35 personas de la fuerza de trabajo de la V región, encontrando que 7 de ellas se encuentran sin empleo. ¿Es ésta una fuerte evidencia para confirmar que la tasa de desempleo en la V región es más alta que la que figura en el INE ?

� (Justifique todos sus supuestos)

24

Ejemplo 2Ejemplo 2

� H0: p= 0,10 v/ H1: p>0,10� m.a. de tamaño n=35 de � Número de personas sin empleo 7� Bajo H0 :

[ [ 1,64c tablade :C2 =+∞= c

( ) ( )( )pnpnpNpnBX i −=Χ ∑ 1;~,~

( )( )1,0~

1N

pnp

npZ

−−Χ=

( )1,0~6,5

5,3

8,02,035

1,035 : 0 N

XXQHBajo

−=⋅⋅⋅−=

48,1366,2

5,3

6,5

5,377 0 ≅=−== QX

No hay evidencia contra H0 con

05,0=α

05,0=α⇒∉CQ0


13

25

Ejemplo 2Ejemplo 2

No hay evidencia contra H0 con 05,0=α

26

Test de Comparación de MediasTest de Comparación de Medias

� Consideremos

� Sea X=x1,...,xn1 y Y=y1,...,yn2 yun estimador de µ= µx- µy.

� Regla de Decisión: T(x) ∈ C ⇒ H0 es FT(x) ∈ CC ⇒ H0 es V

� Definir FOC:

� Encontrar estadístico de manera tal que la probabilidad no dependa de los parámetros del modelo:

HH00: : µµµµµµµµxx = = µµµµµµµµyy v/sv/s HH11: : µµµµµµµµxx--µµµµµµµµyy>0 >0

)()|aceptar ()( 0 cYXPHPL ≤−== µµ

YXYXT −=),(


14

27


Supuesto: Independencia

[ ] 1µ=XE( )2

11 σµ ,NX

( )2

22 σµ ,NY [ ] "µ=YE

[ ] 2

1σ=XVar

[ ] 2

2σ=YVar

~~

Caso Normal: Estadística de Prueba

( ))1,0(~

2

2

2

1

2

1

21 N

nn

YXZ

σσµµ

+

−−−= ( )2

21

21

21~

11−+

+

−−−= nn

P

t

nnS

YXt

µµ

σi conocidosσi desconocidos

pero iguales

28


donde

� Para el caso de σi desconocidos y distintos no hay solución exacta.

� Región crítica C se modifica

( ) ( )2

11

21

2

22

2

112

−+−+−=

nn

SnSnSP

2

2

2

1

2

1

0

21

n

S

n

S

YXt

nn

+

−=

21

2211

ww

twtwt

++='

1

2

11

n

Sw =

2

2

22

n

Sw =

)( 11211 −= − ntt α )( 12212 −= − ntt α


15

29

HipótesisHipótesis Estadística de PruebaEstadística de Prueba

10 µµµµ == sv /

00 µµµµ <= sv /

0µµ >

nX

z

−=σ

µ0

nS

Xt

−= 0µ

(σ conocido)

(σ desconocido)

idem

2

1

22

0

2 σσσσ == sv /2

1

2 σσ ≠2

1

2 σσ >2

1

2 σσ <

( )1

2

2

22 1

−−= n

Sn χσ

χ

idem

∼

30

HipótesisHipótesis Estadística de PruebaEstadística de Prueba

2121 µµµµ ≠= sv /2

2

2

1 σσ =con

( ) ( )2

21

21

2121

21 −++−−−

nn

P

t

nn

nnS

XX µµ

2

2

2

1

2

2

2

1 σσσσ ≠= sv /

10 ppsvpp == /

( )112

2

2

1

21 −− nnFS

S,

∼asdesconocid

2121 µµµµ ≠= sv /2

2

2

1 σσ ≠con

( ) ( )2

2

2

2

1

2

1

2121

21 −∆−+

+

−−−nn

P

t

n

S

n

SS

XX µµ∼

asdesconocid

∼

( ) ( )101 00

0 ,Npnp

npX

−− ∼


16

31

Problema NProblema N°°22

� Un nuevo dispositivo de filtrado se instala en una planta química. Antes y después de su instalación una m.a. respectiva arrojó la siguiente información del porcentaje de impurezas:

Antes Después

8

17101

512

1

2

1

1

==

=

n

S

y

,

,

9

7394

210

2

2

2

2

==

=

n

S

y

,

,

32

Problema NProblema N°°22

� ¿El dispositivo de filtrado ha reducido el porcentaje de impurezas significativamente?� Opción 1: (Lamentablemente no se conoce µ0)

� Opción 2:

� ¿El dispositivo de filtrado ha cambiado el porcentaje de impurezas significativamente?� Opción 3:

211210 µµµµ ≠= :/: HsvH

211210 :/: µµµµ >= HsvH

µµµµ >= 0100 :/: HsvH


17

33

Solución Problema 2Solución Problema 2

2

2

2

1 σσ =Si( ) ( )

2

21

21

2121

21 −++−−−= nn

P

t

nn

nnS

yyt

µµ ∼

0HBajo( )

48049099

32

72

17

210512

21

21

210 ,

,,

,,, =∗

=−=+

−=

PP Snn

nnS

yyt

( ) ( )73,97

15

03,1466

15

73,94817,1017

2

11

21

2

22

2

112 ==∗+∗=−+

−+−=nn

SnSnSP

34


� Opción 2:� Nivel de significancia α=0,05 t0,95(15)gl = 1,753� Región crítica C = [ 1,753 ; ∞ [

T0=0.48 ∈ CC ⇒ Se acepta H0Es decir, el dispositivo nuevo no reduce significativamente

el porcentaje de impurezas.

� Opción 3:� Nivel de significancia α=0,05 t0,975(15)gl = 2,131� Región crítica C = ] -∞ ; -2,131 ] ∪ [ 2,131 ; ∞ [

t0 =0.48 ∈ CC ⇒ Se acepta H0Es decir, el dispositivo nuevo no cambia significativamente

el porcentaje de impurezas.


18

35


� Región crítica C = ] 0 ; 0,204 ] ∪ [ 4,53 ; ∞ [F0 ∈ CC ⇒ Se acepta H0 :

211210 σσσσ ≠= :/: HsvH

:0HBajo ( )1,12

2

2

10 21

~068,173,94

17,101−−=== nnF

S

SF

050,=α 2040870250 ,),(, =F 534879750 ,),(, =F

2

2

2

1 σσ =

36

¿ Provienen¿ Provienen las las observaobservaccionionees s

de una distribución en de una distribución en

particularparticular??

Luis Seccatore G07 - 2

Contraste Bondad de Ajuste


19

37

Usualmente se supone que los datos se comportan como si proviniesen de una distribución particular.

1. Muchas Decisiones Estadísticas descansan en que las observaciones son de un formato específico (normal, lognormal, poisson, etc.) • Por ejemplo: En aplicaciones de confiabilidad de sistemas computacionales,

modelos de esperas, etc . En tal caso para modelar preciso los tiempos de sobrevivencia se requiere especificar correctamente la forma de la distribución.

2. Puede existir, también, razones históricas para suponer que la muestra proviene de una población particular; • datos en el pasado pueden haberse ajustado consistentemente a una

distribución conocida

• la teoría parece indicar que la población subyacente debiera ser de una determinada forma.

¿Datos Provienen de una Distribución Particular?

38

Contrastar Hipótesis

H0: Los datos provienen de la distribución especificada. P(ג); EXP(θ)

H1: Los datos no provienen de la distribución especificada.

Propósito: Probar si los datos de la muestra se comportan como si proviniesen de una distribución específica.

Contraste Bondad de Ajuste


20

39

Q-Q Plot & Probability Plot

� Propósito: Verificar si los Datos siguen o provienen de una Distribución Dada.

Qt(p i): teórico

-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,00,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

Qx(

pi):

em

píric

o� Para cada valor pi, graficar Qx(pi) contra Qt(pi)

para i = 1, 2, ..., n,

40

Hipótesis Simples vs. Compuestas

1. Hipótesis es simple , cuando se especifican los valores de los parámetros de la distribución en cuestión, antes de obtener la muestra.

H0: datos provienen de una distribución N(0, 1)

2. Hipótesis es compuesta , cuando uno o más de los parámetros es desconocido. A menudo, éstos son estimados a partir de los datos de la muestra.

H0: Datos se distribuyen normalmente con parámetros desconocidos µµµµ y σσσσ2.


21

41

• Las hipótesis compuestas son las más comunes porque ellas permiten decidir si una muestra proviene de una distribución de un determinado tipo a partir de las observaciones de una muestra.

Hipótesis Compuestas

• En esta situación, es de interés la forma de la distribución, independientemente de los valores de los parámetros.

• Desgraciadamente, las hipótesis compuestas son más difíciles de trabajar porque los valores críticos son complicados de calcular.

42

Examinaremos varios Test para probar Bondad de Ajuste:

1. Chi-cuadrado para distribuciones continuas o discretas.

2. Kolmogorov-Smirnov para distribuciones continuas, basado en la función de distribución acumulada empírica de los datos.

3. Anderson-Darling para distribuciones continuas

Contraste de Bondad de Ajuste


22

43

Contraste Contraste

de de

χχ22 de K. Pearsonde K. Pearson


Contraste Bondad de AjusteContraste Bondad de Ajuste

44

Bondad de Ajuste Chi-cuadrado

1. Una característica atractiva que puede ser aplicada a cualquier distribución de datos discretos o continuos para la cual es posible calcular la función de distribución acumulada. Consiste en comparar la distribución acumulada teórica y empírica

2. Se aplica a datos que previamente han sido comprimidos en una tabla de frecuencia o un histograma.


23

45

Bondad de Ajuste Chi-cuadrado

3. El número de observaciones en cada grupo o clase se compara con el número esperado de observaciones para ese grupo. El estadístico de prueba se calcula como un función de esa diferencia.

46

4. El estadístico de prueba depende de cómo se genera la tabla de frecuencia o el histograma.

El número de clases o grupos y cómo se define la pertenencia a cada grupo afectará a la potencia del contraste o prueba

5. La potencia también será afectada por el tamaño de la muestra y forma de la distribución nula (hipotética) y la subyacente (real) de los datos.

Se requiere un tamaño suficientemente grande con el propósito que la aproximación de chi-cuadrado sea válida .

�Bondad de Ajuste Chi-cuadrado


24

Hipótesis Nula v/s Alternativa

H0: F (x) = F*(x) para toda x

H1: F (x) ≠ F*(x) para a lo menos una x

dondeF (x) es la verdadera, pero desconocida, distribución de x

F*(x) es una distribución completamente especificada: la función de

distribución acumulada hipotética

H0: datos provienen de una distribución especificada;la función de distribución de la v. a. observada es F*(x)

H1: datos no provienen de la distribución especificada;

la función de distribución observada es diferente a F*(x)

Oi : frecuencia Observada de la

i-ésima clase: Oi ≥ 5

Oi = nΣn

i=1

• Ya sea especificando los parámetros antes de tomar la muestra.

1. Especificar Distribución de H0: F*(x)

ui : límite superior de Ii

li : límite inferior de Ii

Ii : intervalo de clase i

uili

Ii

Oi

Clase i

K: número de clases; K ≥ 5. (12 – 20)

2. Construir Histograma, tal que:

n : tamaño de la muestra: n ≥ 25 (100- 200)

Contraste χ2 de Pearson


25

• F*(x) función distribución acumulada

• pi = {F*(ui) – F*(li)}; probabilidad que el modelo, asigna a cada clase

• Ei = pi * n frecuencia teórica esperada de la i-ésima celda si H0 es cierta

3. Calcular la Frecuencia Esperada de cada Clase.

• Cuando n es grande y suponiendo pi pequeño, Oi será aproximadamente

Poisson con λ = npi � Ei = σi = λ

• (Oi - Ei ) es la discrepancia entre lo observado y lo estimado

• Al tomar muchas muestras, Oi tendrá una distibución binomial con

esperanza Ei = n*pi & σi = n * pi *(1-pi)

4. Calcular diferencias entre Oi & Ei para la clase i en Intervalo Ii

2

2


~ χ2K - c

K = número de celdas no vacías

c = es el número de parámetros

(incluyendo ubicación, escala y de

forma) para la distribución + 1;

así para una distribución Weibull

de 3 parámetros � c = 4

χ2 (Oi – Ei)2

EiΣK

i = 1

=

Oi – Ei

σi~ N(0, 1)

5. Estadístico de Prueba

• Si λ > 5 utilizamos la aproximación de la poisson por la normal

Oi – Ei

Ei

=√


•El estadístico de Prueba se define como


26

51

χ21−α, K –c-1>

χ21−α, K -c

α

Rechazar H0 si:

K = no. de celdas no vacías

c = no. de parámetros

de la distribuciónχ2

obs

H1: NO

H0: datos provienen de una distribución dada

Distribución de χ2 si H0 es cierta

El estadístico de Prueba se define como

χ2 (Oi – Ei)2

EiΣK

i = 1=


obs

52

Ejemplo 3

23 23 24 27 29 31 32 33 33 35 36 37 40 42 43 43 44 45 48 48 54 54 56 57 57 58 58 58 58 59 61 61 62 63 64 65 66 68 68 70 73 73 74 75 77 81 87 89 93 97

Tamaño 50

Media 55,04

Mediana 57,50

Moda 58,0

Variancia 361,1820

Desv.Estándar 19,00479

Mínimo 23,0

Máximo 97,0

Rango 74,0

Q(,25) 40,0

Q(,75) 68,0

R.Intercuatílico 28,0

Sesgo 0,158196

Achatamiento -0,605570

Median = 57,525%-75% = (40, 68)Non-Outlier Range = (23, 97)

20

30

40

50

60

70

80

90

100


27

53

-10 0 10 20 30 40 50 60i

20

30

40

50

60

70

80

90

100

X

19,5 39,5 59,5 79,5 99,5X

0

2

4

6

8

10

12

14

16

18

20

No

of o

bs

-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5Theoretical Quantile

0,01 0,050,10 0,25 0,50 0,75 0,900,95 0,99

10

20

30

40

50

60

70

80

90

100

110

Obs

erve

d V

alue

20 30 40 50 60 70 80 90 100X i

20

30

40

50

60

70

80

90

100

X

i -1

Análisis Exploratorio

54

< 19,5 19,5 – 39,5 39,5 – 59,5 59,5 – 79,5 79,5 – 99,5 >99,5

Ei

0 12 18 15 5 0Oi

1,5 8,8 19,3 15,4 4,5 0,5

19,5 39,5 59,5 79,5 99,5X

02468101214161820

No

of o

bs

x = 55,05 s = 19,00

ν = 4 – (2 + 1) = 1

10,3 5

(12 – 10,3)2 (18 – 19,3)2 (15 – 15,4)2 (5 – 5)2

10,3 19,3 15,4 5

+ + += = 0,3785χ2

Ejemplo: Bondad Ajuste χ2

χ2tabla, ν: 1; α: 0,05 = 3,84 ¿Decisión?

^


28

55

Ejemplo: Distribución Exponencial

Ejemplo:La vida útil de 70 computadoras ha tenido la siguiente

distribución exponencial con paramétro ג

� Años funcionamiento (0;1) (1;2) (2;3) (3;4) Más de 4 � Frecuencia 30 23 6 5 6

� Vida útil media = 0,5*30/70+1,5*23/70+…..5*6/70=1,6

56

(30 – 32,2)2 (23 – 17,5)2 (6 – 9,1)2 (6 – 5,6)2

32,2 17,5 9,1 5,6

+ += = 3,03χ2

Ejemplo: Distribución Exponencial

χ2tabla, ν= 3; α: 0,05 =

7,81¿Decisión?

� Vida útil media = 0,5*30/70+1,5*23/70+…..5*6/70=1,6

� H0: F (x) = Exp(ג)= 1- Exp(-1,6) v/s H1: F (x) ≠ Exp(ג)

� F(1)=0,46; F(2)=0,71; F(3)=0,84; F(4)=0,92


29

57

Ventajas & Desventajas test Chi-2

Limitaciones:

• Requiere que los datos sean agrupados creando un histograma; la definición de las clases o grupos es más bien arbitraria. Se obtienen valores diferentes para el estadístico de prueba.

• La distribución del estadístico de prueba se conoce sólo aproximadamente; la potencia del contraste es baja.

• Requiere muestras de tamaño razonablemente grandes

Ventajas:

• Es lo suficientemente flexible para permitir que ciertos parámetros sean calculados desde los datos; se extrae un grado de libertad por cada parámetro estimado.

• Es aplicable tanto a distribuciones discretas como continuas

3. Frecuencia observada por celda• Para que la aproximación sea válida, la frecuencia esperada por

celda debe ser a lo menos 5 • si alguna de la frecuencias es menor que 5 � combinar celdas:

4. La prueba no es válida para muestras pequeñas;

1. El contraste es sensible a la elección de las celdas• No existe un método óptimo de selección del ancho de clase (ya

que el ancho óptimo depende de la distribución). • Las elecciones más razonables deberían producir resultados

similares, pero no idénticos. Una regla práctica de ancho es 0,3 s, donde s es la desviación ^^

2. Las clases superior e inferior deberían estar a más menos, 6 *s de la media muestral.^

Reglas Prácticas


30

59

Contraste deContraste de

Bondad de Ajuste Bondad de Ajuste KolmogorovKolmogorov--

SmirnovSmirnov

( Distribuciones Continuas)( Distribuciones Continuas)

Test ( K-S)


60

Función de Distribución Empírica

La muestra aleatoria de tamaño n � X : {x1, x2, x3, ..., xn} es ordenada de menor a mayor x(1), x(2), x(3), ..., x (n),

entonces, FE se define como:

FE( x (i)) = n (i) / n

donde n (i) es el número depuntos menores que X (i).

La función de distribución empírica acumulada (FE) se obtiene de la muestra de la siguiente manera:

20 30 40 50 60 70 80 90 100

x

0,0

0,2

0,4

0,6

0,8

1,0

FE

(x)

2 ó + valores idénticos

No hay valores observados en este tramo

Es una función escalón que aumenta en 1/n en el punto donde X toma un valor.


31

Propósito: Probar si los datos de la muestra se comportan como si provinieran de una distribución dada F*(x)

Propósito del Test K-s

Se basa en la comparación de los valores función de distribución acumulada empírica FE(x)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0

Contra la F*(x) de la distribución de la cual se supone provienen los datos observados

Test K- S: Hipótesis

H0: F (x) = F*(x) para toda x

H1: F (x) ≠ F*(x) para a lo menos una x

dondeF (x) es la verdadera, pero desconocida, distribución de x

F*(x) es una distribución completamente especificada: la función de

distribución acumulada hipotética

H0: datos provienen de una distribución especificadala función de distribución de la v.a. observada es F*(x)

H1: datos no provienen de la distribución especificada.

la función de distribución observada es diferente a F*(x)


32

1. Ordenar los valores muestrales de manera quex(1) ≤ x(2) ≤ x(3) • • • ≤ x(n)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0

2. Calcular la función de distribución acumulada empírica F n(x)

0 x < x(1)

i/n x (i) ≤ x < x(i+1)

1 x ≥ x(n)

FE(x) =

Contraste de Kolmogorov-Smirnov

3. Calcular F (x), función de distribución acumulada, totalmente especificada; parámetros de ubicación, escala y forma NO pueden ser estimados de los datos

64Rechazar H0 si: D máx > D tabla(α,n)

D n (x (i)) = máx { donde

4. Calcular la discrepancia máxima entre FE(x) & F*(x)

D max = máx Dn (x (i)) = máx |FE (x (i)) – F(x (i))|

Dn(xi)

| FE (x(i-1)) – F*(x(i))|

Dn(xi)

; |FE (x(i)) – F*(x(i))| }

Test de Kolmogorov-Smirnov


33

65

Valores Críticos

1. La hipótesis nula respecto a la forma de la distribución es rechazada si el estadístico de prueba, D máx , es mayor que el valor crítico obtenido de una tabla de K-S

2.La tabla de K-S es:

• exacta para n ≤ 20 para contrastes de dos colas;

• para n > 20 y para contrastes de una cola, la tabla provee una buena aproximación que son exactos en la mayoría de los casos.

• para n > 40 el contraste se basa en la distribución asintótica del estadístico de prueba y no es muy exacta para cuando n es muy grande

66

Ejemplo 4 Test K-S en U(0,1)

2. Ho : F(x) = U(0, 1)Ha : F(x) ≠ U(0, 1)

3. Nivel Significancia, α = 0,05

1. Sea una muestra de tamaño n = 10:

0,621 0,503 0,203 0,477 0,710 0,581 0,329 0,480 0,554 0,382

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

4. FE(x) F*(x) = U(0, 1)

5. Estadístico de Prueba D = máx |FE(x(i)) – F*(x(i))|

D = 0,29

6. Dtabla = 0,409


34

67

Tes K-S: Ventajas & Desventajas

Ventajas:

1. El estadístico de prueba no depende de la distribución acumulativa que está siendo contrastada.

2. Es un contraste exacto si F*(x) es continua (no depende de un tamaño adecuado de la muestra para que la aproximación sea válida como el contraste chi-cuadrado)

Desventajas:

1. Es aplicable sólo a distribuciones continuas.

2. Tiende a ser más sensible cerca del centro de la distribución que en sus extremos.

Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf ·...

Documents

Transcript of Capítulo 8 Contraste de Hipótesis I Semestre 2006cvalle/ILI-280/Cap8-II-07-2pp.pdf ·...