Lecturas de Teor a de Muestreo · PDF fileMuestreo por conglomerado en una etapa Muestreo...

25
Lecturas de Teor´ ıa de Muestreo M.Sc. Fidel Ordo˜ nez Junio-Agosto 2013

Transcript of Lecturas de Teor a de Muestreo · PDF fileMuestreo por conglomerado en una etapa Muestreo...

Lecturas de Teorıa de Muestreo

M.Sc. Fidel Ordonez

Junio-Agosto 2013

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 1

Contenido

• Introduccion de terminos tecnicos

• Etapas fundamentales en la estructuracion de la teorıa del muestreo

• Muestreo aleatorio simple

• Estimadores de razon y de regresion

• Muestreo estratificado

• Muestreo sistematico

• Muestreo por conglomerado en una etapa

• Muestreo polietapico

• Muestreo doble

Introduccion

Poblacion (N, Y , σ2, P, R), elementos, parametro, estimadores, distribuciones muestrales, unidad demuestreo, marco muestralPoblacion (N, Y , σ2, P, R), muestra (n, y, σ2, p, r)

Etapas

a. Definicion de los parametros a estimar (θ)

b. Proponer los estimadores (θ)

c. Propiedades de los estimadores (insesgamiento,consistencia)

d. Precision de los estimadores. Var[θ] insesgado, ECM(θ) no insesgado mide la variabilidad conrespecto al valor promedio del estimador

Var[θ] = E[(θ − E(θ))2]

ECM(θ) = E[(θ − θ)2]

= Var(θ) + (B(θ))2

e. Estimar la confianza de la precision de los estimadores Var[θ] y ˆECM(θ)

Ejemplo

N = 4, y1 = 3, y2 = 4, y3 = 6, y4 = 7, µ = 5, σ2 = 52

a. Muestra aleatoria (m.a. = 2) sin reposicion para estimar µ(N

n

)=

(4

2

)= 6

µ = y

=1

n

n∑i=1

yi

Distribucion muestral de ymi yi f(yi)y1, y2 3.5 1/6y1, y3 4.5 1/6y1, y4 5.0 1/6y2, y3 5.0 1/6y2, y4 5.5 1/6y3, y4 6.5 1/6

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 2

µy = E[y]

= 5.0

σ2y = Var[y]

= 5/6

E(y) = µ

Var(y) =σ2

n

=N − nN − 1

σ2

n

es el factor de correlacion para poblacion finita.P (|y − µ| ≤ 1) = 4

6

b. m.a. = 2 con reposicion

Nn = 24

= 16

Distribucion muestral de yyi f(yi)3.0 1/163.5 2/164.0 1/164.5 2/165.0 4/165.5 2/166.0 1/166.5 2/167.0 1/16

µy = E(y)

= 5.0

σ2y = Var(y)

= 5/4

P (|y − µ| ≤ 1) = 1216

Parametros

Poblacion y1, y2, . . . , yN , Y total, Y media, σ2 varianza, P proporcion, A total, R razon

Y =n∑i=1

yi

Y =1

N

N∑i=1

yi

σ2 =1

N

n∑i=1

(yi − Y )2

=1

N

N∑i=1

(y2i − Y 2

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 3

S2 =1

N − 1

n∑i=1

(yi − Y )2

P =A

N

A =N∑i=1

yi

R =Y

X

=Y

X

donde yi =

{1 i ∈ C0 i /∈ C

Muestreo Aleatorio Simple MAS

Una muestra de tamano n − elementos es tomada de una poblacion de N − elementos es MAS sicualquier otra muestra de tamano n tiene igual probabilidad de ser tomadaC =

(Nn

)posibles muestras. S1, S2, . . . , SC , P (Si) = 1

C

Poblacion: y1, y2, . . . , yN , muestra:y1, y2, . . . , yn

Estimacion de una Media Y

1. Parametro Y

Y =1

N

n∑i=1

yi

2. Estimador ˆY

ˆY = y

=n∑i=1

yi

3. a. Insesgado P:D. E(y) = Y

E(y) = E

(1

n

n∑i=1

yi

)

=1

n

n∑i=1

E(yi)

=1

n

n∑i=1

Y

=1

nnY

= Y♦

b. Consistente

4.

Var(y) =N − nN − 1

σ2

n

=N − nN

S2

n

= (1− f)S2

n

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 4

donde f = nN

se llama fraccion de muestreo, recordando que

Cov(X, Y ) = E[(X − µX)(Y − µY )]

Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y )

ρ(X, Y ) =Cov(X, Y )

σXσY

Cov(yi, yj) = E[(yi − Y )(yj − Y )]

= E[yiyj]− Y 2

=N∑i 6=j

yiyj1

N

N

N − 1−( 1

N

N∑i=1

yi

)2

=1

N(N − 1)

( N∑i=1

yi

)2

−N∑i=1

y2i

= − 1

N2

( N∑i=1

yi

)2

= − σ2

N − 1

Var(y) = Var

(1

n

n∑i=1

yi

)

=1

n2Var

(n∑i=1

yi

)

=1

n2

[n∑i=1

Var(yi) +∑i 6=j

∑i 6=j

Cov(yi, yj)

]

=1

n2

[n∑i=1

σ2 +∑i 6=j

∑i 6=j

(− σ2

N − 1

)]

=1

n2

[nσ2 + n(n− 1)

(− σ2

N − 1

)]=N − nN − 1

σ2

n♦

σ2 =1

N

N∑i=1

(yi − Y )2

=1

N

N∑i=1

y2i − Y 2

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 5

5.

Var(y) = Var(y)

=N − nN

s2

n

= (1− f)s2

n

s2 =1

n− 1

n∑i=1

(yi − y)2

E[s2] = E

[1

n− 1

n∑i=1

(yi − y)2

]

=1

n− 1E

[n∑i=1

(yi − y)2

]

=1

n− 1

{n∑i=1

E(yi − y)2 + nE[(y − Y )2]

}

=1

n− 1

[ n∑i=1

Var(yi)− nVar(y)]

=1

n− 1

[n∑i=1

σ2 − nN − nN

S2

n

]

=1

n− 1

[nσ2 − nN − n

NS2

]=

1

n− 1

[nN − 1

NS2 − N − n

NS2

]= S2

P.D E[Var(y)] = Var(y)

E[Var(y)] = E

[(1− f)

S2

n

]=

(1− f)

nE[S2]

=(1− f)

nS2

= Var(y)

` es insesgado ♦

Intervalo de confianza (IC) del (1− α)100% para YY + /− Zα/2, Zα/2 cuantil de una N(0, 1)Tamano de la muestra para estimar YPrecision deseada,confianza que deseamos para esa precision.Sea d = %y el maximo error dispuestos a aceptar.Sea z = Zα/2 confianza del (1 − α)100% de que el error de estimacion no sera mayor a d, la varianzadeseada es

Var =( d

Zα/2

)2

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 6

Queremos que Var(y) ≤ Var (1− n

N

) S2

n≤ Var

S2

n− S2

N≤ Var

S2

n≤ Var +

S2

Nn

S2≥ 1

Var +S2

N

n ≥ S2

Var +S2

N

≥S2

Var

1 + 1N

(S2

Var

)=

N0

1 + n0

N

n0 =S2

Var

== Zα/2S

2

d2

Ejemplo

N = 5000 empleados de una empresa, n =?, Y ingreso promedio por empleado, d = 0.05Y con unaconfianza del 95%Suponga que en una investigacion anterior ˆY = 10, 000, S = 1500(1− α)100% = 95%, α = 0.05, α/2 = 0.025, Zα/2 = 1.96

d = 0.05× 10, 000

= 500

n0 =(1.96)2(1500)2

(500)2

.= 35

n =35

1 + 35500

.= 35

f =n

N

=35

5000= 0.007

Estimacion de un Total Y

1. Parametro Y

Y =N∑i=1

yi

= NY

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 7

2. Estimador Y

Y = Ny

=N

n

n∑i=1

yi

=N

ny

3. a.

E(Y ) = E(Ny)

= N E(y)

= NY

= Y

b. Consistente

4.

Var(Y ) = Var(Ny)

= N2 Var(y)

= N2(1− f)S2

n

5.

Var = N2(1− f)s2

n

Tamano de la muestra para estimar Y , d = %Y , Zα/2 cuantil (1 − α2) de la N(0, 1) de que el error no

sera mayor que d

Y = Ny

Var(Y ) = N2 Var(y)

= N2(1− f)S2

n

d error maximo que se acepta con una confianza del (1− α)100%, la varianza deseada

Var =

(d

Zα/2

)2

Queremos que Y ≤ Var

N2(

1− n

N

) S2

n≤ Var

n0 =N2S2

Var

=N2Zα/2S

2

d2

n =n0

1 + n0

N

Estimacion de una Proporcion P

1. Parametro P

P =A

N

A =n∑i=1

yi

yi =

{1 i ∈ C0 i /∈ C

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 8

2. Estimador p

p = p

=a

n

a =n∑i=1

yi

3. Insesgado, consistente

4.

S2 =1

N − 1

N∑i=1

(yi − Y )2

=1

N − 1

N∑i=1

(yi − P )2

=1

N − 1

{N∑i=1

y2i −NP 2

}=

1

N − 1{NP −NP 2}

=N

N − 1PQ;Q = 1− P

N∑i=1

y2i =

N∑i=1

yi

= A

= NP

Var = Var(y)

= (1− f)S2

nN

N − 1(1− f)

PQ

n

5.

s2 =1

n− 1

n∑i=1

(yi − y)2

=1

n− 1

n∑i=1

(yi − p)2

=1

N − 1

{n∑i=1

y2i − np2

}=

n

n− 1pq; q = 1− p

n∑i=1

y2i =

n∑i=1

yi

= a

= np

Var(p) = (1− f)pq

n− 1; (1− f) =

N − nN

IC del (1− α)100% para P , p± Zα/2√

Var(p)Tamano de muestra para estimar P , d = %P error maximo que pueda suceder, Zα/2 para confianza del(1− α)100%, la varianza deseada

Var =

(d

Zα/2

)2

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 9

Queremos que Var(p) ≤ Var, consideremos N − 1 ≈ N(1− n

N

) PQn≤ Var

n ≥PQVar

1 + 1N

(PQVar

)n0 =

PQ

Var

=Z2α/2PQ

d2

n =n0

1 + n0

N

Usar P = 0.5 cuando no se conoce nada sobre P

Ejemplo

Se piensa utilizar MAS para estimar la proporcion de hogares que utilizan lena para cocinar en un paisdeterminado, se desea que el error de estimacion no sea mayor a 3% con una confianza del 95%.Suponga que una investigacion anterior ha reportado que esa proporcion es de 30%d = 0.03, Z0.025 = 1.96 confianza del 95%, P = 0.30

n0 =(1.96)2(0.3)(0.7)

(0.03)2

= 897

Estimacion de una Razon R

1. Parametro R

R =Y

X

=Y

X

2. Estimador R

R =y

x

=y

x

y =y

n

x =x

n

x =n∑i=1

xi

y =n∑i=1

yi

3. Consistente, sesgado

4.

ECM(R).= Var(R)

.=

(1− f)

nX2

∑Ni=1(yi −Rxi)2

N − 1

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 10

5.

ˆVar( ˆ )R

.=

(1− f)

nX2

∑ni=1(yi − Rxi)2

n− 1

.=

(1− f)

nX2

∑ni=1 y

2i − 2R

∑i=1 xiyi + R2

∑ni=1 x

2i

n− 1

En la practica si no se conoce X usar x. IC del (1− α)100% para R.

R± Zα/2√

Var(R)

Nota

Si n es grande, entonces

R−R =y

x− Y

X

.=y − YX

=y

x−R

=y −Rxx

=y −RxX

E(R−R).=

1

X(y − Y )

= 0

ECM(R) = E[(R−R)2

].=

1

X2E[(y −Rx)2

]Sea di = yi −Rxi, luego d = y −Rx

Var(R).=

1

X2E(d2)

=1

X2Var(d)

=1

X2

(1− f)

n

∑Ni=1(yi −Rxi)2

N − 1

D = Y −RX= Y − Y= 0

Ejemplo

En un pequeno pueblo de 3000 familias se eligio una muestra aleatoria de 40 de ellas, a cada familia dela muestra se le pregunto el numero de miembros y de autos que tenia.Determine un IC del 95% para el numero de miembros por auto en esas 3000 familias, si los resultadosde la muestra son los siguientes:yi numero de miembros de la familia ixi numero de autos de la familia i

40∑i=1

yi = 23640∑i=1

xi = 11540∑i=1

xiyi = 11540∑i=1

y2i = 1494

40∑i=1

x2i = 401

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 11

N = 3000, n = 40, IC del 95% para R numero de miembros por auto

R =Y

X

=Y

X

R =y

x

=236

115= 2.05

Var(R).=

1− 403000

40(2.875)2

1494− 2(2.05)(6.85) + (2.05)2(401)

39

ee(R).= 0.1673

2.05± 1.96(0.16739)

2.05± 0.33

1.72 ≤ R ≤ 2.38 es IC del 95%

Estimadores de Razon para MAS

Si xi es correlacionada positivamente con yi, podemos mejorar la estimacion Y , Y usando estimadoresde razon, usando las xi como variable auxiliar.

ˆYR =y

xX

=y

xX

MAS :y1 y2 . . . ynx1 x2 . . . xn

y =n∑i=1

yi

x =n∑i=1

xi

Var( ˆYR) = X2 Var(R)

.=

(1− f)

n

∑ni=1(yi −Rxi)2

N − 1

.=

(1− f)

n

∑ni=1 y

2i − 2R

∑ni=1 xiyi +

∑ni=1 x

2i

n− 1

Muestreo Estratificado

N =L∑h=1

Nh

Se particiona la poblacion en L estratos.Se seleccionan muestras aleatorias independientes (MAI) en cada estrato.yh valor de y en la i esima unidad del estrato h.

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 12

Nh tamano del estrato h, N tamano de la poblacion, Wh = Nh

Nponderacion del estrato

Yh =1

Nh

Nh∑i=1

yhi

Yh = NhYh

S2h =

1

Nh − 1

Nh∑i=1

(yhi − Yh)

Y =1

N

L∑h=1

Nh∑i=1

yhi

=1

N

L∑h=1

NhYh

=L∑h=1

WhYh

Y = NY

Suposicion

Suponga que las muestras dentro de los estratos son MAS.nh tamano de la muestra en el estrato h

n =L∑h=1

nh

fh =nhNh

yh =1

nh

nh∑i=1

yhi

s2h =

1

nh − 1

nh∑i=1

(yhi − yh)

Estimacion de una Media

1. Parametro Y

2. Estimador yst

yst =L∑h=1

Whyh

3. Consistente, insesgado

E(yst) =L∑h=1

Wh E(yh)

=L∑h=1

WhYh

= Y

4.

Var(yst) =L∑h=1

W 2h Var(yh)

=L∑h=1

W 2h (1− f)

S2h

nh

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 13

5. Insesgado

Var(yst) =L∑h=1

W 2h (1− fh)

s2h

nh

Afijacion Proporcional al Tamano de los Estratos MAEP

Se distribuye la muestra proporcional al tamano de los estratos

nhn

=Nh

N=⇒ nh =

Nh

Nn

= Whn

La muestra resulta ser autoponderada (cada unidad tiene igual probabilidad de ser seleccionada)

Estimacion de una Media

1. Parametro Y

2. Estimador yst

yst =L∑h=1

Nh

Nyh

=L∑h=1

Nh

N

1

nh

nh∑i=1

hhi

=1

n

L∑h=1

nh∑i=1

yhi

3. Ya esta hecho

4.

Var(yst) =1− fnN

L∑h=1

NhS2h

5.

Var(yst) =1− fnN

L∑h=1

Nhs2h

d = %Y , Zα/2 confianza del (1− α)100%, la varianza deseada

Var =

(d

Zα/2

)2

Queremos que Var(yst) ≤ Var

no =1

N Var

L∑h=1

NhS2h

n =n0

1 + n0

N

Afijacion Optima de la Muestra en los Estratos MAEO

Se distribuyen los nh para min Var(yst) con C dado (fijo)

C = C0 +L∑h=1

nhCh

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 14

con Var(yst) dado

minC = C0 +L∑h=1

nhCh

Los nh resultan ser

nh =

WhSh√Ch∑L

h=1NhSh√Ch

n

=

NhSh√Ch∑L

h=1NhSh√Ch

n

Nota

Si

Ch = C =⇒ nh =WhSh∑Lh=1 WhSh

n

=NhSh∑Lh=1 NhSh

n (1)

A (1) se le conoce como afijacion de Neyman

Demostracion

Sea

Var = Var(yst)

=L∑h=1

W 2h (1− fh)

S2h

nh

=L∑h=1

W 2h

S2h

nh−

L∑h=1

W 2hS

2h

Nh

Minimizar Var dado C o minimizar C dado Var, es equivalente a minimizar Var′C ′ con

Var′ = Var +L∑h=1

W 2hS

2h

Nh

=L∑h=1

W 2hS

2h

nh

C ′ = C − C0

=L∑h=1

nhCh

Recordando el teorema de Cauchy-Schwarz (∑a2h)(∑b2h) ≥ (

∑ahbh)

2, la igualdad de cumple cuandoahbh

= cte, luego

Var′C ′ =

(L∑h=1

W 2hS

2h

nh

)(L∑h=1

nhCh

)

(L∑h=1

WhSh√Ch

)2

ah =WhSh√nh

bh =√nhCh

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 15

La igualdad se cumple cuando

WhSh√nh√nhCh

=

WhSh√nh√nh

= cte

` nhn

=

WhSh√nh∑L

h=1WhSh√nh

Varmin(yst) =(∑WhSh)

2

n−∑WhS

2h

N

con la afijacion de Neyman

nh =NhSh∑NhSh

n

n =(∑NhSh)

2

Var + 1N

∑WhS2

h

d = %Y , Zα/2 confianza del (1− α)100%, la varianza deseada

Var =

(d

Zα/2

)2

Dado n VarMAEO(yst) ≤ VarMAEP (yst) ≤ VarMAS(yst), usar

S2 =L∑h=1

WhS2h +

L∑h=1

Wh(Yh − Y )2

VarMAS(y) = (1− f)S2

n

=(1− f)

n

L∑h=1

WhS2h +

(1− f)

n

L∑h=1

Wh(Yh − Y )2

= VarMAEP (yst) +(1− f)

n

L∑h=1

Wh(Yh − Y )2

VarMAEP (yst)− VarMAEO(yst) =1

n

L∑h=1

WhS2h −

(L∑h=1

WhSh

)2

=1

n

L∑h=1

Wh(Sh − S)2

S =L∑h=1

WhSh

VarMAS(y) = VarMAEO(yst) +1

n

L∑h=1

Wh(Sh − S)2

+(1− f)

n

L∑h=1

Wh(Yh − Y )2♦

Estimadores de Razon en Muestreo Estratificado

1. Estimacion de Razon Separada

Y =L∑h=1

yhxhXh

=L∑h=1

yhxhXh

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 16

Xh es un dato auxiliar (externo) no viene de la muestra

Rh =yhxh

=yhxh

Con muestras grandes

Var(YRS) =L∑h=1

N2(1− fh)nh(nh − 1)

nh∑h=1

(yhi − Rhxhi)2

nh∑h=1

(yhi − Rhxhi)2 =

nh∑h=1

y2hi− 2Rh

nh∑h=1

xiyhi + R2h

nh∑h=1

x2hi

2. Estimacion de razon Combinada

YRc =Yst

Xst

X

=ystxst

R =ystxst

Si n es grande

Var(YRC) =L∑h=1

N2h(1− fh)

nh(nh − 1)

nh∑h=1

[(yhi − yh)− R(xhi − xh)

]Teorema

Si se ignoran los terminos1

Nh

relativamente a la unidad, entonces tenemos que

VarMAEO ≤ VarMAEP ≤ VarMAS

donde la asignacion optima para n fijo, o sea que nh ∝ NhSh

VarMAS = (1− f)S2

n

=(1− f)

n

[∑h

WhS2h +

∑h

Wh(Yh − Y )2

]

=(1− f)

n

∑WhS

2h +

(1− f)

n

∑Wh(Yh − Y )2

VarMAEP = (1− f)∑

WhS2h

=

∑WhS

2h

n−∑WhS

2h

N

VarMAEO =(∑WhSh)

2

n−∑WhS

2h

N

S2h =

1

Nh − 1

Nh∑i=1

(yhi − Y )2

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 17

(N − 1)S2 =L∑h=1

Nh∑i=1

(yhi − Y )2

=L∑h=1

(Nh − 1)S2h +

∑h

Nh(Yh − Y )2

=∑h

∑i

[(yhi − Yh)− (Yh − Y )2]

=∑h

[(yhi − Y ) +

∑(Yh − Y 2 + 2

∑(yhi − Yh)(Yh − Y )

]=∑h

∑i

(yhi − Y )2 +∑

Nh(Yh − Y )2

=∑h

(N − 1)S2h +

∑Nh(Yh − Y )2

(1− 1

NS2

)=∑h

(Nh

N− 1

N

)+∑ Nh

N(Yh − Y )2

S2 =∑h

WhS2h +

∑Wh

(Yh − Y

)2

VarMAEP −VarMAEO =1

n

[∑WhS

2h −

(∑WhSh

)2]

=1

n

[∑WhS

2h −

(∑WhSh

)2

+(∑

WhSh

)2

−(∑

WhSh

)2]

=1

n

[∑WhS

2h − 2

(∑WhSh

)2

+∑

Wh

(∑WhSh

)2]

=1

n

∑(WhS

2h − 2WhShS +WhS

2)

=1

n

∑Wh(S

2h − 2ShS + S2)

=1

n

∑Wh(Sh − S)2

S =∑

WhSh

Muestreo por Conglomerados

Unidad de muestreo es un conglomerado de elementos.Poblacion: M elementos en N unidades (conglomerados)Yij el valor de y en el j esimo elemento de la unidad iMi tamano del conglomerado i (numero de elementos)Conglomerado: 1, 2, . . . , i, . . . , NTamano: M1, 2, . . . ,Mi, . . . ,MN

M =M

NM =

N∑i=1

Mi

Conglomerado i: Yi1, Yi2, . . . , Yij, . . . , YiMi

Yi =

Mi∑j=1

Yij Yi =YiMi

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 18

S2w:i =

1

Mi−1

Mi∑j=1

(Yij − Yi)2 cuasi varianza dentro de la unidad i

Y =1

n

N∑i=1

Yi media por unidad

Y =N∑i=1

Yi

=N∑i=1

Mi∑j=1

Yij total

¯Y =1

M

N∑i=1

Yi media por elemento

S2B:y =

1

N − 1

N∑i=1

(yi − Y )2 varianza entre conglomerados

I. MAS de n Conglomerados y Censo de los Elementos de los Conglomeradosde la Muestra(Una Etapa)

1. Estimadores Insesgados para Y, Y , ¯Y

a. Para Y

Y = Ny

=N

n

n∑i=1

Yi

Var(Y ) = N2Var(Y )

b. Para Y :

ˆY = y

=1

n

n∑i=1

Yi

Var =(1− f)

n

∑ni=1(yi − y)2

n− 1f =

n

N

c. Para ¯Y :

ˆY = ¯y

=Y

M

=y

M

Var(¯y) =1

M2Var(y)

Todos los estimadores son insesgados y consistentes

2. Estimadores de Razon

a. Para Y

Y =

∑ni=1 Yi∑ni=1Mi

M

Var(YR).=N2(1− f)

n

∑Mi=1(Yi − ¯yRMi)

n− 1

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 19

b. Para ¯Y

ˆY = ¯yR

=YRM

=

∑ni=1 Yi∑ni=1 Mi

Var(¯yR).=

(1− f)

nM2

∑ni=1(Yi − ¯yRMi)

n− 1

.=

(1− f)

nM2

∑Y 2i − 2¯yR

∑MiYi + ¯y2

R

∑M2

i

n− 1

c. Para P

PR = pR

=

∑pi=1 Ai∑ni=1Mi

Ai =

Mi∑i=1

yij yi =

{1 i ∈ C0 i /∈ C

Var.=

(1− f)

nM2

∑ni=1(Ai − pRMi)

2

n− 1

.=

(1− f)

nM2

∑A2i − pR

∑MiAi + p2

R

∑M2

i

n− 1

Todos los estimadores son insesgados y consistentes

II.Muestra PPT de Conglomerados y Censo de los Elementos de los Con-glomerados de la Muestra(Una Etapa)

PPT probabilidad proporcional al tamano, relativo al numero de elementos.Se selecciona el i esimo conglomerado con probabilidad

zi =Mi

MMi∑Ni=1Mi

Para ¯Y se tiene que

ˆY =¯PPT

=1

n

n∑i=1

YiMi

Yi =

Mi∑i=1

yij

=1

n

n∑i=1

Yi

Var(¯yPPT ) =1

n(n− 1)

n∑i=1

(YiMi

− ¯yPPT

)2

=1

n(n− 1)

n∑i=1

(Yi − ¯yPPT )2

Para Y : Y = M ¯yPPTVar(Y ) = M2Var(¯yPPT )

Nota

a. Si Yi no correlacionado con Mi usar I1

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 20

b. Si Yi correlacionado con Mi, I1yII mejor que I1

i. Si S2w:i no cambia con Mi, II mejor que I2

ii. Si S2w:i se incrementa con Mi, mejor I2 que II

Ejemplo

Sean M = 10, 000 empleados, N = 600 oficinas, n = 20Oficina i # empleados Mi # hijos < 4 anos Yi M2

i Y 2i MiYi

1 15 30 225 900 4502 18 54 324 2916 972...

......

......

...20 25 75 625 5625 1875

734 7186 33,336 14,241

Coeficiente de Correlacion Intraclase y Efecto del Diseno DEFF

Sea ρI = DEFF , ρI mide la homogeneidad o heterogeneidadDEFF cuanto aumenta la varianza por usar un diseno de muestreo determinado a usar MAS

DEFF =Vardiseno utilizado

VarMAS

Supongamos que Mi = M0, luego M = NM0 (conglomerados de igual tamano)

ρI =E(yij − ¯Y )(yij′ − ¯Y )2

E(yij − ¯Y )2j = j′

Recordando que

S2 =

∑Ni=1

∑M0

j=1(yij − ¯Y )2

NM0 − 1cuasi-varianza por elemento

E(yij − ¯Y )(yij′ − ¯Y ) =1

NM0(M0 − 1)

N∑i=1

M0∑j 6=j′

(yij − ¯Y )(yij′ − ¯Y )

E(yij − ¯Y )2 =1

NM0

N∑i=1

M0∑j=1

(yij − Y )2

ρI =

∑Ni=1

∑M0

j 6=j′(yij − ¯Y )(yij − ¯Y )

(m0 − 1)(nm0 − 1)S2

Por otro lado

Var(¯y) =1

n

(1− n

N

) ∑Ni=1(Yi − ¯Y )2

N − 1

=1

nM0

(1− nM0

NM0

)S2[1 + (M0 − 1)ρI ]

VarMAS =1

nM0

(1− nM0

NM0

)S2 DEFF = 1 + (M0 − 1)ρI

Muestreo Sistematico

Sea N tamano de la poblacion, n tamano de la muestraSi se selecciona al azar un elemento dentro de los primeros k, y luego a partir de este, cada k esimo

elemento se considera en la muestra, decimos que tenemos una muestra sistematica de 1 en k k =N

nsuponga N = kn

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 21

y11 y21 . . . yi1 . . . yk1

y11 y22 . . . yi2 . . . yk2...

......

...y1j y21 . . . yi1 . . . yk1...

......

...y1n y2n . . . yin . . . ykny1. y2. . . . yi. . . . yk.

1. Parametro Y = y.. donde

y.. =1

k

k∑i=1

yi.

=y..nk

y.. =k∑i=1

n∑j=1

yij

2. Estimador ˆY

ˆY = ysist

= yi.

Var(ysist) =1

k

k∑i=1

(yi. − y..)2

No se pueden estimar con una sola muestra sistematica de tamano n

Ejemplo

1. 12345678910 N = 10, n = 2, k =10

2= 5, Aleat=3, Aleat+k=8

2. N = 1000, n = 50, k =1000

50= 20

r, r + k, r + 2k4, . . . , r + (n− 1)k7, 27, 47, 67, 87, . . . , 987

Si la poblacion es aleatoria con respecto a y

Var(ysist = (1− f)s2

ns2 =

1

n− 1

n∑j=1

(yij − yi.)

= Var(yMAS)

si la poblacion esta ordenada de acuerdo a la magnitud de y, entonces

Var(ysist) ≤ Var(yMAS)

Var(ysist) = (1− f)s2

n

Si la poblacion es cıclica el muestreo sistematico tiene problemas

Var(ysist) =s2

n[1 + (n− 1)ρ]

Muestreo por Conglomerado en Dos Etapas

Poblacion N conglomerados, Mi numero de elementos del conglomerado i

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 22

Submuestreo

En la primera etapa se selecciona una muestra aleatoria de conglomerados que se les llama unidadesprimarias de muestreo (UPM).Seguido de una segunda etapa de una muestra aleatoria de elementos de cada conglomerado en la muestra(USM)Muestra n conglomerados, mi numero de elementos seleccionados de los Mi que tiene el conglomeradoi de la muestra, yij valor de y en el j esimo elemento del conhglomerado i

yi =1

mi

mi∑j=1

yij

I. MAS de n Conglomerados y MAS de Elementos Dentro de los Conglomerados de laMuestra

Poblacion

M =N∑i=1

Mi

1 . . . i . . . NM1 . . . Mi . . . Mn

Primera etapa:MAS de n conglomerados UPM(Nn

)Segunda estapa:MAS de mi elementos de los Mi del conglomerado i de la muestra (USM)

n∑i=1

(M

mi

)1. Estimadores Insesgados

Parametro ¯YEstimador

¯y =1

nM

n∑i=1

MiYi yi =1

mi

mi∑j=1

yij

insesgado, consistente

Var(¯y) =1− f1

nM2s2

1

1

nNM2

n∑i=1

M2i (1− f2

s22i

mi

f1 =n

Nf21 =

mi

Mi

variabilidad de la primera etapa, variabilidad de la segunda etapa

S21 =

1

n− 1

n∑i=1

(Miyi − M ¯y)2

=1

n− 1

[n∑i=1

(Miyi)2 − 2M ¯y

n∑i=1

Miyi + n(M ¯y)2

]

S22i =

1

mi − 1

mi∑j=1

(yij − yi)2

2. Estimadores de RazonParametro YREstimador

¯yR =

∑ni=1Miyi∑ni=1 Mi

Var(¯y) =(1− f)

nM2s2

1 +(1− f)

nMM2

n∑i=1

M2i (1− f2i)

s22i

mi

s21 =

1

n− 1

n∑i=1

M2i (yi − ¯yR)2

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 23

II. Seleccion PPT de Conglomerados y MAS de Elementos en los Conglomerados de laMuestra

Para ¯Y

¯yPPT =1

n

n∑i=1

yi yi =1

mi

mi∑j=1

yij

Var(¯yPPT ) =1

n(n− 1)

n∑i=1

(yi − ¯yPPT )2

=1

n(n− 1)

n∑i=1

y2i − 2yPPT

n∑i=1

yi + n(¯yPPT )

Ejemplo

N = 800, n = 100 PPT , mi = m = 10 MAS o sistematica

Pij = PiPj|i

= nMi

M

m

Mi

Factor =1

Pij

=nm

M

Muestra auto ponderada es cuando cada elemento tiene igual probabilidad de salir seleccionado en lamuestra

Tamano de la Muestra

Recordar que

DEFF =Var(¯y)

VarMAS(¯y)

= 1 + (m− 1)ρI

Para cada estimador hay un DEFF. ρ decrece a medida que la unidad es mas grande. m numero deelementos seleccionados en el conglomerado.

Ejemplo

Numero de viviendas que usan lena para cocinar

p = 0.20 E = 0.03 z = 1.96 m = 10 DEFF = 1.6 de un censo anterior

mMAS =(1.96)2(0.20)(0.80)

(0.03)2

= 683

m = 683(1.6)

= 1093

n = 110

m =?, n =? Que minimice Var(¯y) para C fijo o minimizar C con Var(¯y) fija.C1 costo de muestreo de cada conglomeradoC2 costo de muestreo por elemento C costo total

C = nC1 +mnC2

Suponiendo Mi = M = constante recordemos que

¯y =1

nM

n∑i=1

yi

=1

n

n∑i=1

yi

Editado por Mauricio Zelaya Aguilar en www.write LATEX.com 24

Sin considerar las correcciones para poblaciones finitas (CPF) entonces

Var(¯y) =σ2b

n+σ2w

nm

σ2b varianza entre medias verdaderas de los conglomeradosσ2w varianza entre elementos del conglomerado

mopt =

√σ2w

σ2b

C1

C2

de otra investigacion

σ2w = S2

2

=1

n

n∑i=1

S2i

σ2b = S2

1 −S2

2

m

S21 =

1

n− 1

n∑i=1

(yi − ¯y)2

Muestro Doble

LLamado muestreo en dos fasesFase 1 −→ nL

↑Fase 2 −→ n