Tamaño Muestral y Cálculos de Poder - · PDF file1. Introducción a las...
Transcript of Tamaño Muestral y Cálculos de Poder - · PDF file1. Introducción a las...
1. Introducción a las Evaluaciones de Impacto
2. Teoría de Cambio e Indicadores
3. Por qué y Cómo Aleatorizar
4. Tamaño de Muestra y Cálculos de Poder
5. Inferencia Causal
6. Evaluaciones Experimentales y Políticas
Públicas
7. Evidencia de Evaluaciones Experimentales
8. Evaluación Experimental de Principio a Fin
Contexto del Curso
• Introducción al método científico
• Estimación
• Prueba de hipótesis
• Significancia estadística
• Magnitud del efecto
• Poder
• Factores que influyen en el poder
Resumen de la exposición
Pruebas de hipótesis
• En derecho penal, la mayoría de las
instituciones siguen la regla: “inocente hasta
que se pruebe lo contrario”
• La presunción es que el acusado es inocente y
es responsabilidad del fiscal demostrar que es
culpable
– El juez comienza con “la hipótesis nula” de que el
acusado es inocente
– El fiscal tiene una hipótesis de que el acusado es
culpable
4
• En la evaluación del programa, en lugar de la
“presunción de inocente,” la regla es:
“presunción de insignificancia”
• La “hipótesis nula” (H0) es que no hubo (cero)
impacto del programa
• El evaluador debe demostrar un efecto
significativo del programa
Pruebas de hipótesis
• Hipótesis nula y alternativa
– Nula: no hay efecto, Alternativa: el efecto es
positivo.
• La idea es ver si los datos que recolectamos vienen
de la nula o de la alternativa
• Si la diferencia entre las poblaciónes de tratamiento
y control es “grande”, entonces rechazamos la
hipótesis nula.
Distancia entre poblaciones
USTED CONCLUYE
Sí tuvo efecto No rechazo Ho: nula
No tuvo efecto Rechazo Ho en favor de H1
LA
VERDAD
Programa tuvo efecto
Error tipo II
(bajo poder)
Dije que no tuvo efecto cuando en
verdad sí (muestra muy chica para
detectar efectos?)
Programa no tuvo efecto
Error tipo I
Dije que Sí hay efecto
cuando en verdad no
El problema es que podemos cometer error de dos tipos
7
Bajo poder Baja confianza
¿Qué es el nivel de significancia?
• Error tipo I: rechazar la hipótesis nula,
aún cuando sea verdadera (positivo falso)
• Nivel de significancia: La probabilidad
de que rechacemos la hipótesis nula aún
cuando sea verdadera
¿Qué es Poder Estadístico?
• Error Tipo II: No rechazar la hipótesis
nula (concluir que no hay diferencia),
cuando en realidad la hipótesis nula es
falsa.
• Poder: Si hay un efecto medible de
nuestra intervención (la hipótesis nula es
falsa), la probabilidad que detectemos un
efecto (rechazar la hipótesis nula)
Problemas de las muestras chicas
• En muestras arbitrariamente grandes ambos tipos de errores
tienden a cero. Pero en muestras chicas hay los siguientes
problemas:
• Sesgo: Puedes tener mala suerte y que la muestra no
represente a la población: e.g. si tiras una moneda 2 veces
puede caer sol en ambas.
• Imprecisión: Puede haber mucho “ruido”/ imprecisión,
aunque no haya sesgo.
• Se complica usar estadística porque en muestras chicas la
distribución de estimadores es complicada.
Haciendo rodar 2 dados:
Puntaje promedio de los dados y probabilidad
1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6
Frequency 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36
0
0
1/6
1/4
Like
liho
od
Frecuencia
>99% de todas las rodaduras darán un promedio entre 3 y 4
0,0%
0,5%
1,0%
1,5%
2,0%
2,5%
3,0%
3,5%
1 1,5 2 2,5 3 3,5 4 4,5 5 5,5
Haciendo rodar 30 dados:
Se distribuye Normal, con media 3.5
0
20
40
60
80
100
120
140
160
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
PUNTAJES
control
treatment
Distribución de calificaciones de control y tratamiento
Control
Tratamiento
Vamos a necesitar una medida de distancia para “decir” si hay efecto o no
Significancia: probabilidad de correctamente decir que sí hay efecto
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
Sin programa
Con Programa
a =Significancia o error tipo 1: decir que hay efecto cuando
no es verdad
t= valor critico
Verdad bajo Ho Verdad bajo H1
Poder: probabilidad de detectar el efecto cuando este existe
Sin programa
Con Programa
t= valor critico
Poder: Probabilidad de detectar el efecto cuando SÍ es cierto
Verdad bajo Ho Verdad bajo H1
error tipo 2
Trade-off: si subes t-crítico reduces error tipo 1
pero subes error tipo 2 (i.e. bajas poder)
• Una forma de reducir ambos tipos de errores es
“haciendo” las distribuciones más delgadas. Esto se
logra subiendo el tamaño de muestra.
• Por lo tanto, la práctica común es fijar un nivel de
significancia y escoger el tamaño de muestra para
aumentar el poder, típicamente 80% o 90% de poder es
aceptable en economía.
Teorema del límite central
• Para calcular aéreas de curvas necesito saber cual es la
curva. ¿Pero cómo sé cual es la distribución de las
calificaciones en la población?
• En general no sabemos, sin embargo sí sabemos como se
distribuye el promedio.
• No importa cual es la población de la que estemos hablando
(calificaciones de alumnos, días de estancia en el hospital,
etc) el promedio de la variable se distribuye normal
N(mu, var/n).
• Noten que el promedio está centrado en la media y la
varianza de la media muestral (llamado o error estándar)
disminuye con el tamaño muestra.
Cómo pasamos desde aquí…
0
100
200
300
400
500
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
Puntajes
Hasta aquí…
Esta es la distribución de la población
(Distribución Poblacional)
Esta es la distribución de los Promedios de todas las muestras
aleatorias
(Distribución Muestral)
Pruebas de hipótesis: conclusiones
• Es altamente improbable (probabilidad
inferior al 5%) que la diferencia se deba
solamente a la casualidad:
– Nosotros “rechazamos nuestra hipótesis nula”
• Ahora podemos decir:
– “nuestro programa tiene un impacto
estadísticamente significativo”
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
Antes del Programa
H0 Hβ
Control
Tratamiento
Asuma que hay dos efectos: efecto nulo y efecto β
¿Qué afecta el poder?
¿Cuáles son los factores que cambian la
proporción de la hipótesis de investigación
que está sombreada; es decir, la proporción
que está a la derecha (o izquierda) de la
curva de la hipótesis nula?
Comprender esto nos ayuda a diseñar
experimentos más potentes
24
Poder: Ingredientes Principales
1. Magnitud del efecto
2. Tamaño de la muestra
3. Varianza
4. Proporción de la muestra en T vs. C
5. Grupos (clusters)
Magnitud del Efecto: 1*Error Est.
• Hypothesized effect size determines distance between means
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
1 Desviación Estándar
Hβ H0
Control
Tratamiento
Magnitud del Efecto = 1*Error Est.
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significanceH0 Hβ
Control
Tratamiento
Significancia
Poder: 26% Si el impacto verdadero fuese 1*Error Est.
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
powerHβ H0
La hipótesis nula sería rechazada el 26% de las veces
Control
Tratamiento
Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
Magnitud del Efecto: 3*Error Est.
3*SE
Mayor magnitud del efecto hipotetizado las distribuciones se apartan
Control
Tratamiento
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Magnitud del Efecto 3*Error Est: Poder= 91%
H0
Hβ
Control
Tratamiento
Poder
Efecto más grande Más poder
Poder: Ingredientes Principales
1. Magnitud del efecto
2. Tamaño de la muestra
3. Varianza
4. Proporción de la muestra en T vs. C
5. Grupos (clusters)
Poder: Magnitud del efecto = 1SD,
Tamaño de la muestra = N
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
Control
Tratamiento
Significancia
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
Poder: Tamaño de la muestra = 4N
Control
Tratamiento
Significancia
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Poder: 64%
Control
Tratamiento
Poder
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significance
Poder: Tamaño de la muestra = 9
Control
Tratamiento
Significancia
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Poder: 91%
Control
Tratamiento
Poder
Poder: Ingredientes Principales
1. Magnitud del efecto
2. Tamaño de la muestra
3. Varianza
4. Proporción de la muestra en T vs. C
5. Grupos (clusters)
Varianza
• En ocasiones, podemos hacer muy poco para
reducir el ruido
• Podemos tratar de “absorber” la varianza:
– usando una línea base
– controlando otras variables
• Podemos tratar de hacer mediciones más
precisas
Poder: Ingredientes Principales
1. Magnitud del efecto
2. Tamaño de la muestra
3. Varianza
4. Proporción de la muestra en T vs. C
5. Grupos (clusters)
División de la muestra: 50% C, 50% T
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significanceH0
Hβ
Control
Tratamiento
Significancia
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Poder: 91%
Control
Tratamiento
Poder
¿Y si no tenemos una división 50-50?
¿Qué pasa con el “grosor” relativo si la
división no es 50-50 y es 25-75?
División de la muestra: 25% C, 75% T
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
significanceH0
Hβ
Control
Tratamiento
Significancia
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
power
Poder: 83%
Control
Tratamiento
Poder
Poder: Ingredientes Principales
1. Magnitud del efecto
2. Tamaño de la muestra
3. Varianza
4. Proporción de la muestra en T vs. C
5. Grupos (clusters)
Fórmula sencilla
Fórmula sencilla con asignación de individuos a
tratamiento y control
• “k” = error tipo 2, alfa=error tipo 1.
• t(1-k) con 80% de poder es aproximadamente = 0.80
• t(alpha) con 5% de significancia es aproximadamente 1.96
Hay varios programas en el internet que les calculan el tamaño de
muestra, e.g. “Optimal Design”. En Stata “sampsi”.
TAMAÑO DE MUESTRA
7.7284 t's al cuadrado
4 proporciones al cuadrado
40 varianza
N 1237 Efecto=1
309 Efecto=2
137 Efecto=3
Diseño agrupado: intuición
• Usted desea saber cuán estrechas serán las
próximas elecciones nacionales
• Método 1: Seleccione aleatoriamente a 50
personas de toda la población en Perú
• Método 2: Seleccione aleatoriamente a 5
familias, y pregúnteles la opinión a diez
miembros de cada familia
• Digamos que creemos que el impacto
en nuestros participantes es “3”
• ¿Qué sucede si la tasa de participación
en el programa es de 1/3?
Mostremos esto gráficamente
Magnitud del efecto y aceptación
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
Magnitud del Efecto: 3*SE
3*SE
Control
Tratamiento
Digamos que creemos que el impacto en nuestros participantes es de “3”
La aceptación es 33%. La magnitud del
efecto es un tercio
• Hypothesized effect size determines distance between means
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
-4 -3 -2 -1 0 1 2 3 4 5 6
control
treatment
1 Desviación Estándar
Hβ H0
Control
Tratamiento