Introducci on a la estad stica bayesiana, aplicaciones y m ...

Introduccion a la estadıstica bayesiana, aplicaciones ymetodos

Parte 1

Ana Paula Palacios y Peter Diko

Universidad Carlos III de Madrid

21 de Marzo de 2011

Instituto de Economıa y FinanzasFacultad de Ciencias Economicas

U.N.C.

(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 1 / 40

Programa

1 Introduccion al pensamiento bayesiano

2 Inferencia bayesiana

3 Ventajas del enfoque bayesiano

Pensamiento bayesiano

Programa

Inferencia estadıstica

Procedimiento estadıstico:

Formular la pregunta de investigacion

Recolectar datos

Construir un modelo probabilıstico

Estimar el modelo

Resumir los resultados y concluir

Objetivo

Contestar nuestras preguntas de investigacion y sacar conlusiones a partirde los datos observados.

Recolectar datos

Estimar el modelo

Objetivo

Recolectar datos

Estimar el modelo

Objetivo

Recolectar datos

Estimar el modelo

Objetivo

Recolectar datos

Estimar el modelo

Objetivo

Recolectar datos

Estimar el modelo

Objetivo

Enfoques:

Clasico: parametros fijos

Bayesiano: parametros variables

Objetivo del curso

Brindar una detallada introduccion a la estadıstica bayesianacomparandola con el enfoque clasico y focalizandonos en las etapas demodelizacion, estimacion e interpretacion de los resultados.

Enfoques:

Clasico: parametros fijos

Bayesiano: parametros variables

Objetivo del curso

Brindar una detallada introduccion a la estadıstica bayesianacomparandola con el enfoque clasico y focalizandonos en las etapas demodelizacion, estimacion e interpretacion de los resultados.

Ejemplo

Tras una noche de fiesta, una mujer sospecha que puede estarembarazada. Para estar segura de su estado compra un test del cual seconoce que tiene una eficacia del 90% en detectar embarazos. La mujer serealiza el test y obtiene un resultado positivo. Pregunta: Cual es laprobabilidad de que dicha mujer este embarazada?

P(emb|+) =P(emb y +)

=P(+|emb)P(emb)

P(+|emb)P(emb) + P(+|no − emb)P(no − emb)

Ejemplo

Tras una noche de fiesta, una mujer sospecha que puede estarembarazada. Para estar segura de su estado compra un test del cual seconoce que tiene una eficacia del 90% en detectar embarazos. La mujer serealiza el test y obtiene un resultado positivo. Pregunta: Cual es laprobabilidad de que dicha mujer este embarazada?

P(emb|+) =P(emb y +)

=P(+|emb)P(emb)

Ejemplo

Adicionalmente supongamos que el test da falsos positivos el 50% de lasveces y que, sin ninguna informacion adicional, la probabilidad deconcepcion luego de mantener una relacion sexual es del 15%.

P(emb|+) =P(+|emb)P(emb)

=0.90× 0.15

0.90× 0.15 + 0.50× 0.85

= 0.241

Ejemplo

Adicionalmente supongamos que el test da falsos positivos el 50% de lasveces y que, sin ninguna informacion adicional, la probabilidad deconcepcion luego de mantener una relacion sexual es del 15%.

=0.90× 0.15

0.90× 0.15 + 0.50× 0.85

= 0.241

Ejemplo

Supongamos que la mujer para confirmar su estado se realiza un nuevotest de embarazo y obtiene nuevamente un resultado positivo. Con estainformacıon adicional como cambian nuestras conclusiones? Cual es laprobabilidad de que la mujer este embarazada?

=0.90× 0.241

0.90× 0.241 + 0.50× 0.759

= 0.364

Si sucesivamente repetimos el test obteniendo resultados positivos, laprobabilidad de embarazo serıa: test 3 = 0.507, test 4 =0.649, test 5 =0.769, test 6 = 0.857, test 7 = 0.915, test 8 = 0.951, test 9 = 0.972, test10 = 0.984.

Ejemplo

=0.90× 0.241

0.90× 0.241 + 0.50× 0.759

= 0.364

Ejemplo

=0.90× 0.241

0.90× 0.241 + 0.50× 0.759

= 0.364

Enfoque bayesiano

Probabilidad a priori: 0.15

Observacion de datos: resultado positivo en el test

Probabilidad a posteriori: 0.241

Actualizacion de las probabilidades al disponer de nueva informacion:0.364

Teorema de Bayes para distribuciones

Los parametros del modelo son variables.

Probabilidad como incertidumbre.

Teorema de Bayes aplicado a distribuciones:

f (θ|datos) =f (datos|θ)f (θ)

f (datos)

=f (datos|θ)f (θ)∫f (datos|θ)f (θ)dθ

Proporcionalidad:

f (θ|datos) ∝ f (datos|θ)f (θ)

Posteriori ∝ Verosimilitud × Priori

f (datos)

Proporcionalidad:

f (datos)

Proporcionalidad:

Evolucion del pensamiento estadıstico

Inferencia bayesiana

Programa

Un ejemplo electoral

Son las elecciones presidenciales de EEUU del ano 2004 con George W.Bush y John F. Kerry como sus principales candidatos. Una consultorarealiza una encuesta en el estado de Ohio y obtiene que 556 personas delos consultados elige a J. Kerry y 511 a G. Bush.Quien ganara las elecciones?

Ejemplo electoral

Definimos a la variable X como intencion de voto.Tenemos 556 + 511 = 1067 observaciones de X .

encuestado respuesta X

1 Kerry 12 Bush 03 Bush 0...

......

1067 Kerry 1

X ∼ Bernoulli(p)

{1 p0 1− p

datos = (x1, x2, . . . , x1067) = xfuncion de verosimilitud

f (x|p) =1067∏i=1

f (xi |p) = p556(1− p)511 = L(p; x)

Maxima verosimilitud

Funcion de verosimilitud: L(p; x) = p556(1− p)511

Estimador maximo verosımil: EMV = 5561067 = 0.521

Error estandar:√

0.521×0.4791067 = 0.015

Intervalo de confianza: IC95% = [0.492; 0.550]

Contraste de hipotesis: H0 : p < 0.5

t =(0.521− 0.5)

0.015= 1.4

Estimacion bayesiana

1 Establecer un modelo probabilıstico completo: una distribucion deprobabilidad conjunta para todas las cantidades del problema,observables y no obervables.

Funcion de verosimilitud: f (x|p)Distribucion a priori: f (p)

2 Condicionar a los datos: obtener la distribucion a posteriori, es decir,la distribucion condicionada de los parametros del modelo, dados losdatos.

Teorema de Bayes: f (p|x) ∝ f (x|p)f (p)

3 Resumir la distribucion a posteriori y evaluar el ajuste del modelo.

Distribucion a priori

Como construimos la distribucion a priori?

1 Distribucion a priori informativa-Estudios empıricos previos-Conocimiento del investigador:

Por intervalosEstimacion de momentos y supuesto de simetrıaReparametrizacion de distribuciones. Ej.: beta(m · τ, (1−m) · τ)

2 Distribucion a priori no-informativa

Impropias: U(−∞,∞) o U(0,∞)Jeffrey’s prior: p(θ) ∝ |I (θ)|0.5Distribuciones poco informativas: θ ∼ N(µ, 10000),σ2 ∼ G (0.001, 0.001)

Distribucion a priori

Como construimos la distribucion a priori?

1 Distribucion a priori informativa-Estudios empıricos previos-Conocimiento del investigador:

Por intervalosEstimacion de momentos y supuesto de simetrıaReparametrizacion de distribuciones. Ej.: beta(m · τ, (1−m) · τ)

2 Distribucion a priori no-informativa

Impropias: U(−∞,∞) o U(0,∞)Jeffrey’s prior: p(θ) ∝ |I (θ)|0.5Distribuciones poco informativas: θ ∼ N(µ, 10000),σ2 ∼ G (0.001, 0.001)

Distribucion beta como a priori

Funcion de densidad 0 ≤ p ≤ 1; α, β > 0

f (p) =Γ(α + β)

Γ(α)Γ(β)pα−1(1− p)β−1

∝ pα−1(1− p)β−1

Estadısticos

E (p) =α

α + β

moda(p) =α− 1

α + β − 2

var(p) =αβ

(α + β)2(α + β + 1)

Distribucion beta como a priori

Distribucion beta como a posteriori

A posteriori: f (p|x) ∝ f (x|p)f (p)

funcion de verosimilitud: f (x|p) = pn1(1− p)n2

distribucion a priori: f (p) = Γ(α+β)Γ(α)Γ(β)p

α−1(1− p)β−1

distribucion a posteriori:

f (p|x) ∝ pn1(1− p)n2 · pα−1(1− p)β−1

= pn1+α−1(1− p)n2+β−1

f (p|x) ∼ beta(n1 + α, n2 + β)

Distribuciones Bernoulli y beta son conjugadas - la distribucion aposteriori es de la misma familia parametrica que a priori.

Distribucion beta como a posteriori

A posteriori: f (p|x) ∝ f (x|p)f (p)

funcion de verosimilitud: f (x|p) = pn1(1− p)n2

distribucion a priori: f (p) = Γ(α+β)Γ(α)Γ(β)p

α−1(1− p)β−1

distribucion a posteriori:

f (p|x) ∝ pn1(1− p)n2 · pα−1(1− p)β−1

= pn1+α−1(1− p)n2+β−1

f (p|x) ∼ beta(n1 + α, n2 + β)

Distribuciones Bernoulli y beta son conjugadas - la distribucion aposteriori es de la misma familia parametrica que a priori.

Ejemplo electoral

Encuestas en 2004 de CNN/USAToday/Gallup:

fecha n % Kerry ≈ nK % Bush ≈ nB17-20 Oct 706 49% 346 48% 33925-28 Sep 664 47% 312 49% 3254-7 Sep 661 43% 284 52% 344

TOTAL 2031 942 1008

f (p) ∝ p942−1(1− p)1008−1

f (p|x) ∝ p556(1− p)511p942−1(1− p)1008−1 = p1498−1(1− p)1519−1

f (p|x) ∼ beta(1498, 1519)

Ejemplo electoral

Encuestas en 2004 de CNN/USAToday/Gallup:

fecha n % Kerry ≈ nK % Bush ≈ nB17-20 Oct 706 49% 346 48% 33925-28 Sep 664 47% 312 49% 3254-7 Sep 661 43% 284 52% 344

TOTAL 2031 942 1008

f (p) ∝ p942−1(1− p)1008−1

f (p|x) ∝ p556(1− p)511p942−1(1− p)1008−1 = p1498−1(1− p)1519−1

f (p|x) ∼ beta(1498, 1519)

Desplazamiento de la distribucion a priori

Distribucion a posteriori

Como se obtiene la distribucion a posteriori?

Analıticamente

Distribuciones conjugadas

Metodos numericosMarkov Chain Monte Carlo(MCMC):

Gibbs SamplingMetropolis-Hastings

Verosimilitud A priori conjugada

Bernoulli BetaBinomial BetaMultinomial DirichletBinomial Negativa BetaPoisson GammaExponencial GammaGamma(χ2) GammaNormal µ NormalNormal σ2 Gamma InversaPareto α GammaPareto β Pareto

Estimacion puntual

Problema de decision → seleccion de criterio.Elegimos θ como estimador de θ tal que minimice la funcion de perdida

L(θ, θ)

Sin embargo, θ es desconocido, tan solo tenemos su distribucion aposteriori f (θ|x).

Minimizaremos la perdida esperada a posteriori

E [L(θ, θ)|x] = minθ

∫ΘL(θ, θ)f (θ|x)dθ

El estimador bayesiano sera el argumento

θ = arg minθ

E [L(θ, θ)|x]

Estimacion puntual

Problema de decision → seleccion de criterio.Elegimos θ como estimador de θ tal que minimice la funcion de perdida

L(θ, θ)

Sin embargo, θ es desconocido, tan solo tenemos su distribucion aposteriori f (θ|x).Minimizaremos la perdida esperada a posteriori

E [L(θ, θ)|x] = minθ

∫ΘL(θ, θ)f (θ|x)dθ

El estimador bayesiano sera el argumento

θ = arg minθ

E [L(θ, θ)|x]

Ejemplos de la funcion de perdida

Perdida cuadraticaL(θ, θ) = (θ − θ)2

el estimador bayesiano es la media a posteriori

E (θ|x) =

∫ ∞−∞

θ · f (θ|x)dθ.

Perdida de error absoluto

L(θ, θ) = |θ − θ|

el estimador bayesiano es la mediana a posteriori

∫ θ

−∞f (θ|x)dθ = 0.5.

E (θ|x) =

∫ ∞−∞

θ · f (θ|x)dθ.

L(θ, θ) = |θ − θ|

∫ θ

−∞f (θ|x)dθ = 0.5.

E (θ|x) =

∫ ∞−∞

θ · f (θ|x)dθ.

L(θ, θ) = |θ − θ|

∫ θ

−∞f (θ|x)dθ = 0.5.

E (θ|x) =

∫ ∞−∞

θ · f (θ|x)dθ.

L(θ, θ) = |θ − θ|

∫ θ

−∞f (θ|x)dθ = 0.5.

Error absoluto asimetrico

Lr ,s(θ, θ) =

{s · (θ − θ) si θ > θ

r · (θ − θ) si θ ≤ θ

el estimador bayesiano es el cuantil sr+s a posteriori

∫ θ

−∞f (θ|x)dθ =

r + s.

Error absoluto asimetrico

Lr ,s(θ, θ) =

{s · (θ − θ) si θ > θ

r · (θ − θ) si θ ≤ θ

el estimador bayesiano es el cuantil sr+s a posteriori

∫ θ

−∞f (θ|x)dθ =

r + s.

Estimador MAP

Una alternativa a la funcion de perdida es el estimador del maximo aposteriori (MAP)

θ = arg maxθ

f (θ|x) = arg maxθ

f (x|θ)f (θ)

que corresponde a la moda a posteriori de f (θ|x).

El estimador MAP es una generalizacion del estimador clasico de maximaverosimilitud.

Si suponemos la distribucion a priori no informativa f (θ) ∝ 1, el estimadorMAP coincide con el estimador de maxima verosimilitud clasico.

θ = arg maxθ

f (x|θ)

Estimador MAP

Una alternativa a la funcion de perdida es el estimador del maximo aposteriori (MAP)

θ = arg maxθ

f (θ|x) = arg maxθ

f (x|θ)f (θ)

que corresponde a la moda a posteriori de f (θ|x).

El estimador MAP es una generalizacion del estimador clasico de maximaverosimilitud.

Si suponemos la distribucion a priori no informativa f (θ) ∝ 1, el estimadorMAP coincide con el estimador de maxima verosimilitud clasico.

θ = arg maxθ

f (x|θ)

Estimacion por intervalos

Intervalo de credibilidad∫ qL−∞ f (θ|x)dθ = α/2

∫∞qU

f (θ|x)dθ = 1− α/2

Pr(qL < θ < qU |x) = 1− α

Estimacion por intervalos

Intervalo HPD (highest posterior density):

Sea R una region de contenido 1− α, es decir Pr(θ ∈ R) = 1− α.R se llama region de maxima densidad a posteriori si para cualquierθ1 ∈ R y θ2 /∈ R se cumple f (θ1|x) ≥ f (θ2|x).

Ejemplo electoral

f (p|x) ∼ beta(1498, 1519)

Media=0.497Moda=0.496Mediana=0.497

Intervalo de credibilidad

Pr{p ∈ [0.479, 0.514]} = 95%

Clave: Cual es la probabilidad de ganar las elecciones?

Pr(p > 0.5) = 0.351

Ejemplo electoral

f (p|x) ∼ beta(1498, 1519)

Media=0.497Moda=0.496Mediana=0.497

Intervalo de credibilidad

Pr{p ∈ [0.479, 0.514]} = 95%

Clave: Cual es la probabilidad de ganar las elecciones?

Pr(p > 0.5) = 0.351

Modelo normal-normal con σ2 conocido

La distribucion normal es una de las mas utilizadas.funcion de verosimilitud f (x |µ, σ2) ∼ N(µ, σ2)

f (x|µ) ∝n∏

1√2πσ2

{−(xi − µ)2

a priori - N(m, τ2)

f (µ) =1√

2πτ2exp

{−(µ−m)2

}a posteriori

f (µ|x) ∝ 1√σ2τ2

{−(µ−m)2

2τ2−∑n

i=1(xi − µ)2

Modelo normal-normal con σ2 conocido

El exponente

−(µ−m)2

2τ2−∑n

i=1(xi − µ)2

se puede transformar en

−µ2 − 2µσ

2m+nτ2xnτ2+σ2

σ2τ2

nτ2+σ2

y completando los cuadrados obtenemos la distribucion a posteriori para elparametro µ

f (µ|x) ∼ N

(σ2m + τ2nx

nτ2 + σ2,

σ2τ2

nτ2 + σ2

Modelo normal generalizado

funcion de verosimilitud f (x |µ, σ2) ∼ N(µ, σ2)

f (x|µ, σ2) ∝n∏

1√2πσ2

{−(xi − µ)2

}ahora los dos parametros µ, σ2 son desconocidos.Distribucion a priori f (µ, σ2) = f (µ) · f (σ2) asumiendo independencia.Introducimos distribuciones a priori no informativas

f (µ) ∝ 1

f (log(σ2)) ∝ 1→ f (σ2) ∝ 1

estas distribuciones son el caso lımite de µ ∼ N(m, τ2), σ2 ∼ IG (a, b)

f (σ2) ∝ (σ2)−(a+1)eb/(σ2)

La densidad a posteriori

f (µ, σ2|x) ∝ 1

(σ2)n/2+1exp

{−∑

(xi − µ)2

}se puede expresar en forma

f (µ, σ2|x) = f (µ|σ2, x)f (σ2|x).

Suponiendo σ2 fijo

f (µ|σ2, x) ∝ exp

{−nµ2 − 2nxµ

}∝ exp

{−(µ− x)2

2σ2/n

La densidad a posteriori se puede factorizar como

f (µ, σ2|x) ∝ 1

{−(µ− x)2

2σ2/n

(σ2)(n+1)/2exp

{∑x2i − nx2

de donde podemos identificar

f (σ2|x) ∼ IG (n − 1

(n − 1)var(x)

El muestreo de la distribucion conjunta se puede realizar en dos pasos:

1 generar σ2 de la distribucion f (σ2|x)

2 generar µ correspondiente de la distribucion f (µ|σ2, x)

Distribucion predictiva a posteriori

Para la prediccion se emplea la distribucion predictiva a posteriori

f (y |x) =

∫Θf (y |θ) · f (θ|x)dθ

Es el valor esperado del modelo especificado, ponderando los posiblesvalores del parametro por su densidad a posteriori.

La distribucion predictiva a posteriori es la alternativa correcta al ”plug-in”

f (y |x) = f (y |θ)

Comparacion de modelos

DIC: Este indicador evalua tanto el ajuste del modelo como la complejidaddel mismo. Evalua el poder explicativo del modelo. Menores valores delDIC indican mejor ajuste del modelo.

DIC = D + pD

= 2D − D(θ)

siendo D el estadıstico de desvıo

D(θ) = −2 log f (x|θ)

PPLC: Este indicador tambien penaliza por complejidad del modelo.Evalua el poder predictivo del modelo.

PPLP =k

n∑i=1

(µi − xi )2 +

n∑i=1

siendo µi = E (x repi |x) y σ2i = Var(x repi |x) y k es el peso que le damos al

primer termino del indicador.

Comparacion de modelos

DIC: Este indicador evalua tanto el ajuste del modelo como la complejidaddel mismo. Evalua el poder explicativo del modelo. Menores valores delDIC indican mejor ajuste del modelo.

DIC = D + pD

= 2D − D(θ)

siendo D el estadıstico de desvıo

D(θ) = −2 log f (x|θ)

PPLC: Este indicador tambien penaliza por complejidad del modelo.Evalua el poder predictivo del modelo.

PPLP =k

n∑i=1

(µi − xi )2 +

n∑i=1

siendo µi = E (x repi |x) y σ2i = Var(x repi |x) y k es el peso que le damos al

primer termino del indicador.(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 37 / 40

Ventajas del enfoque bayesiano

Programa

Diferencias entre clasicos y bayesianos

Figure: Frecuentistas Figure: Bayesianos

Diferencias entre clasicos y bayesianos

Frecuentistas Bayesianos

Parametro fijo Parametro variable

Datos variables (repeticion) Datos fijos (observados)

Probabilidad como frecuencia lımite Probabilidad como incertidumbre

No incluye informacion previa Inclusion de informacion previa

Intervalos de confianza Intervalos de credibilidad

Contraste de hipotesis Distribucion a posteriori delparametro

Provee una completa caracterizacion del parametro a traves de unafuncion de distribucion.

Provee un modo sistematico y explıcito de incorporar conocimientosprevios.

Formaliza el proceso de aprendizaje a partir de los datos al actualizarlos resultados probabilısticos a medida que se conoce nuevainformacion.

Mejora la precision de la estimacion al incluir informacion extra yacumular conocimiento.

Mejora la estimacion en casos de datos espaciados y datos faltantes atraves de borrowing strength.

No asume infinitas muestras ni normalidad.

Interpretacion mas directa que los intervalos de confianza, contrastesde hipotesis y p-valor.

Introducci on a la estad stica bayesiana, aplicaciones y m ...

Documents

Transcript of Introducci on a la estad stica bayesiana, aplicaciones y m ...