Introducci on a la estad stica bayesiana, aplicaciones y m ...
Transcript of Introducci on a la estad stica bayesiana, aplicaciones y m ...
Introduccion a la estadıstica bayesiana, aplicaciones ymetodos
Parte 1
Ana Paula Palacios y Peter Diko
Universidad Carlos III de Madrid
21 de Marzo de 2011
Instituto de Economıa y FinanzasFacultad de Ciencias Economicas
U.N.C.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 1 / 40
Programa
1 Introduccion al pensamiento bayesiano
2 Inferencia bayesiana
3 Ventajas del enfoque bayesiano
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 2 / 40
Pensamiento bayesiano
Programa
1 Introduccion al pensamiento bayesiano
2 Inferencia bayesiana
3 Ventajas del enfoque bayesiano
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 3 / 40
Pensamiento bayesiano
Inferencia estadıstica
Procedimiento estadıstico:
Formular la pregunta de investigacion
Recolectar datos
Construir un modelo probabilıstico
Estimar el modelo
Resumir los resultados y concluir
Objetivo
Contestar nuestras preguntas de investigacion y sacar conlusiones a partirde los datos observados.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 4 / 40
Pensamiento bayesiano
Inferencia estadıstica
Procedimiento estadıstico:
Formular la pregunta de investigacion
Recolectar datos
Construir un modelo probabilıstico
Estimar el modelo
Resumir los resultados y concluir
Objetivo
Contestar nuestras preguntas de investigacion y sacar conlusiones a partirde los datos observados.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 4 / 40
Pensamiento bayesiano
Inferencia estadıstica
Procedimiento estadıstico:
Formular la pregunta de investigacion
Recolectar datos
Construir un modelo probabilıstico
Estimar el modelo
Resumir los resultados y concluir
Objetivo
Contestar nuestras preguntas de investigacion y sacar conlusiones a partirde los datos observados.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 4 / 40
Pensamiento bayesiano
Inferencia estadıstica
Procedimiento estadıstico:
Formular la pregunta de investigacion
Recolectar datos
Construir un modelo probabilıstico
Estimar el modelo
Resumir los resultados y concluir
Objetivo
Contestar nuestras preguntas de investigacion y sacar conlusiones a partirde los datos observados.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 4 / 40
Pensamiento bayesiano
Inferencia estadıstica
Procedimiento estadıstico:
Formular la pregunta de investigacion
Recolectar datos
Construir un modelo probabilıstico
Estimar el modelo
Resumir los resultados y concluir
Objetivo
Contestar nuestras preguntas de investigacion y sacar conlusiones a partirde los datos observados.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 4 / 40
Pensamiento bayesiano
Inferencia estadıstica
Procedimiento estadıstico:
Formular la pregunta de investigacion
Recolectar datos
Construir un modelo probabilıstico
Estimar el modelo
Resumir los resultados y concluir
Objetivo
Contestar nuestras preguntas de investigacion y sacar conlusiones a partirde los datos observados.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 4 / 40
Pensamiento bayesiano
Inferencia estadıstica
Enfoques:
Clasico: parametros fijos
Bayesiano: parametros variables
Objetivo del curso
Brindar una detallada introduccion a la estadıstica bayesianacomparandola con el enfoque clasico y focalizandonos en las etapas demodelizacion, estimacion e interpretacion de los resultados.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 5 / 40
Pensamiento bayesiano
Inferencia estadıstica
Enfoques:
Clasico: parametros fijos
Bayesiano: parametros variables
Objetivo del curso
Brindar una detallada introduccion a la estadıstica bayesianacomparandola con el enfoque clasico y focalizandonos en las etapas demodelizacion, estimacion e interpretacion de los resultados.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 5 / 40
Pensamiento bayesiano
Ejemplo
Tras una noche de fiesta, una mujer sospecha que puede estarembarazada. Para estar segura de su estado compra un test del cual seconoce que tiene una eficacia del 90% en detectar embarazos. La mujer serealiza el test y obtiene un resultado positivo. Pregunta: Cual es laprobabilidad de que dicha mujer este embarazada?
P(emb|+) =P(emb y +)
P(+)
=P(+|emb)P(emb)
P(+|emb)P(emb) + P(+|no − emb)P(no − emb)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 6 / 40
Pensamiento bayesiano
Ejemplo
Tras una noche de fiesta, una mujer sospecha que puede estarembarazada. Para estar segura de su estado compra un test del cual seconoce que tiene una eficacia del 90% en detectar embarazos. La mujer serealiza el test y obtiene un resultado positivo. Pregunta: Cual es laprobabilidad de que dicha mujer este embarazada?
P(emb|+) =P(emb y +)
P(+)
=P(+|emb)P(emb)
P(+|emb)P(emb) + P(+|no − emb)P(no − emb)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 6 / 40
Pensamiento bayesiano
Ejemplo
Adicionalmente supongamos que el test da falsos positivos el 50% de lasveces y que, sin ninguna informacion adicional, la probabilidad deconcepcion luego de mantener una relacion sexual es del 15%.
P(emb|+) =P(+|emb)P(emb)
P(+|emb)P(emb) + P(+|no − emb)P(no − emb)
=0.90× 0.15
0.90× 0.15 + 0.50× 0.85
= 0.241
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 7 / 40
Pensamiento bayesiano
Ejemplo
Adicionalmente supongamos que el test da falsos positivos el 50% de lasveces y que, sin ninguna informacion adicional, la probabilidad deconcepcion luego de mantener una relacion sexual es del 15%.
P(emb|+) =P(+|emb)P(emb)
P(+|emb)P(emb) + P(+|no − emb)P(no − emb)
=0.90× 0.15
0.90× 0.15 + 0.50× 0.85
= 0.241
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 7 / 40
Pensamiento bayesiano
Ejemplo
Supongamos que la mujer para confirmar su estado se realiza un nuevotest de embarazo y obtiene nuevamente un resultado positivo. Con estainformacıon adicional como cambian nuestras conclusiones? Cual es laprobabilidad de que la mujer este embarazada?
P(emb|+) =P(+|emb)P(emb)
P(+|emb)P(emb) + P(+|no − emb)P(no − emb)
=0.90× 0.241
0.90× 0.241 + 0.50× 0.759
= 0.364
Si sucesivamente repetimos el test obteniendo resultados positivos, laprobabilidad de embarazo serıa: test 3 = 0.507, test 4 =0.649, test 5 =0.769, test 6 = 0.857, test 7 = 0.915, test 8 = 0.951, test 9 = 0.972, test10 = 0.984.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 8 / 40
Pensamiento bayesiano
Ejemplo
Supongamos que la mujer para confirmar su estado se realiza un nuevotest de embarazo y obtiene nuevamente un resultado positivo. Con estainformacıon adicional como cambian nuestras conclusiones? Cual es laprobabilidad de que la mujer este embarazada?
P(emb|+) =P(+|emb)P(emb)
P(+|emb)P(emb) + P(+|no − emb)P(no − emb)
=0.90× 0.241
0.90× 0.241 + 0.50× 0.759
= 0.364
Si sucesivamente repetimos el test obteniendo resultados positivos, laprobabilidad de embarazo serıa: test 3 = 0.507, test 4 =0.649, test 5 =0.769, test 6 = 0.857, test 7 = 0.915, test 8 = 0.951, test 9 = 0.972, test10 = 0.984.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 8 / 40
Pensamiento bayesiano
Ejemplo
Supongamos que la mujer para confirmar su estado se realiza un nuevotest de embarazo y obtiene nuevamente un resultado positivo. Con estainformacıon adicional como cambian nuestras conclusiones? Cual es laprobabilidad de que la mujer este embarazada?
P(emb|+) =P(+|emb)P(emb)
P(+|emb)P(emb) + P(+|no − emb)P(no − emb)
=0.90× 0.241
0.90× 0.241 + 0.50× 0.759
= 0.364
Si sucesivamente repetimos el test obteniendo resultados positivos, laprobabilidad de embarazo serıa: test 3 = 0.507, test 4 =0.649, test 5 =0.769, test 6 = 0.857, test 7 = 0.915, test 8 = 0.951, test 9 = 0.972, test10 = 0.984.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 8 / 40
Pensamiento bayesiano
Enfoque bayesiano
Probabilidad a priori: 0.15
Observacion de datos: resultado positivo en el test
Probabilidad a posteriori: 0.241
Actualizacion de las probabilidades al disponer de nueva informacion:0.364
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 9 / 40
Pensamiento bayesiano
Teorema de Bayes para distribuciones
Los parametros del modelo son variables.
Probabilidad como incertidumbre.
Teorema de Bayes aplicado a distribuciones:
f (θ|datos) =f (datos|θ)f (θ)
f (datos)
=f (datos|θ)f (θ)∫f (datos|θ)f (θ)dθ
Proporcionalidad:
f (θ|datos) ∝ f (datos|θ)f (θ)
Posteriori ∝ Verosimilitud × Priori
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 10 / 40
Pensamiento bayesiano
Teorema de Bayes para distribuciones
Los parametros del modelo son variables.
Probabilidad como incertidumbre.
Teorema de Bayes aplicado a distribuciones:
f (θ|datos) =f (datos|θ)f (θ)
f (datos)
=f (datos|θ)f (θ)∫f (datos|θ)f (θ)dθ
Proporcionalidad:
f (θ|datos) ∝ f (datos|θ)f (θ)
Posteriori ∝ Verosimilitud × Priori
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 10 / 40
Pensamiento bayesiano
Teorema de Bayes para distribuciones
Los parametros del modelo son variables.
Probabilidad como incertidumbre.
Teorema de Bayes aplicado a distribuciones:
f (θ|datos) =f (datos|θ)f (θ)
f (datos)
=f (datos|θ)f (θ)∫f (datos|θ)f (θ)dθ
Proporcionalidad:
f (θ|datos) ∝ f (datos|θ)f (θ)
Posteriori ∝ Verosimilitud × Priori
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 10 / 40
Pensamiento bayesiano
Evolucion del pensamiento estadıstico
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 11 / 40
Inferencia bayesiana
Programa
1 Introduccion al pensamiento bayesiano
2 Inferencia bayesiana
3 Ventajas del enfoque bayesiano
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 12 / 40
Inferencia bayesiana
Un ejemplo electoral
Son las elecciones presidenciales de EEUU del ano 2004 con George W.Bush y John F. Kerry como sus principales candidatos. Una consultorarealiza una encuesta en el estado de Ohio y obtiene que 556 personas delos consultados elige a J. Kerry y 511 a G. Bush.Quien ganara las elecciones?
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 13 / 40
Inferencia bayesiana
Ejemplo electoral
Definimos a la variable X como intencion de voto.Tenemos 556 + 511 = 1067 observaciones de X .
encuestado respuesta X
1 Kerry 12 Bush 03 Bush 0...
......
1067 Kerry 1
X ∼ Bernoulli(p)
X =
{1 p0 1− p
datos = (x1, x2, . . . , x1067) = xfuncion de verosimilitud
f (x|p) =1067∏i=1
f (xi |p) = p556(1− p)511 = L(p; x)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 14 / 40
Inferencia bayesiana
Maxima verosimilitud
Funcion de verosimilitud: L(p; x) = p556(1− p)511
Estimador maximo verosımil: EMV = 5561067 = 0.521
Error estandar:√
0.521×0.4791067 = 0.015
Intervalo de confianza: IC95% = [0.492; 0.550]
Contraste de hipotesis: H0 : p < 0.5
t =(0.521− 0.5)
0.015= 1.4
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 15 / 40
Inferencia bayesiana
Estimacion bayesiana
1 Establecer un modelo probabilıstico completo: una distribucion deprobabilidad conjunta para todas las cantidades del problema,observables y no obervables.
Funcion de verosimilitud: f (x|p)Distribucion a priori: f (p)
2 Condicionar a los datos: obtener la distribucion a posteriori, es decir,la distribucion condicionada de los parametros del modelo, dados losdatos.
Teorema de Bayes: f (p|x) ∝ f (x|p)f (p)
3 Resumir la distribucion a posteriori y evaluar el ajuste del modelo.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 16 / 40
Inferencia bayesiana
Estimacion bayesiana
1 Establecer un modelo probabilıstico completo: una distribucion deprobabilidad conjunta para todas las cantidades del problema,observables y no obervables.
Funcion de verosimilitud: f (x|p)Distribucion a priori: f (p)
2 Condicionar a los datos: obtener la distribucion a posteriori, es decir,la distribucion condicionada de los parametros del modelo, dados losdatos.
Teorema de Bayes: f (p|x) ∝ f (x|p)f (p)
3 Resumir la distribucion a posteriori y evaluar el ajuste del modelo.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 16 / 40
Inferencia bayesiana
Estimacion bayesiana
1 Establecer un modelo probabilıstico completo: una distribucion deprobabilidad conjunta para todas las cantidades del problema,observables y no obervables.
Funcion de verosimilitud: f (x|p)Distribucion a priori: f (p)
2 Condicionar a los datos: obtener la distribucion a posteriori, es decir,la distribucion condicionada de los parametros del modelo, dados losdatos.
Teorema de Bayes: f (p|x) ∝ f (x|p)f (p)
3 Resumir la distribucion a posteriori y evaluar el ajuste del modelo.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 16 / 40
Inferencia bayesiana
Distribucion a priori
Como construimos la distribucion a priori?
1 Distribucion a priori informativa-Estudios empıricos previos-Conocimiento del investigador:
Por intervalosEstimacion de momentos y supuesto de simetrıaReparametrizacion de distribuciones. Ej.: beta(m · τ, (1−m) · τ)
2 Distribucion a priori no-informativa
Impropias: U(−∞,∞) o U(0,∞)Jeffrey’s prior: p(θ) ∝ |I (θ)|0.5Distribuciones poco informativas: θ ∼ N(µ, 10000),σ2 ∼ G (0.001, 0.001)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 17 / 40
Inferencia bayesiana
Distribucion a priori
Como construimos la distribucion a priori?
1 Distribucion a priori informativa-Estudios empıricos previos-Conocimiento del investigador:
Por intervalosEstimacion de momentos y supuesto de simetrıaReparametrizacion de distribuciones. Ej.: beta(m · τ, (1−m) · τ)
2 Distribucion a priori no-informativa
Impropias: U(−∞,∞) o U(0,∞)Jeffrey’s prior: p(θ) ∝ |I (θ)|0.5Distribuciones poco informativas: θ ∼ N(µ, 10000),σ2 ∼ G (0.001, 0.001)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 17 / 40
Inferencia bayesiana
Distribucion beta como a priori
Funcion de densidad 0 ≤ p ≤ 1; α, β > 0
f (p) =Γ(α + β)
Γ(α)Γ(β)pα−1(1− p)β−1
∝ pα−1(1− p)β−1
Estadısticos
E (p) =α
α + β
moda(p) =α− 1
α + β − 2
var(p) =αβ
(α + β)2(α + β + 1)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 18 / 40
Inferencia bayesiana
Distribucion beta como a priori
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 19 / 40
Inferencia bayesiana
Distribucion beta como a posteriori
A posteriori: f (p|x) ∝ f (x|p)f (p)
funcion de verosimilitud: f (x|p) = pn1(1− p)n2
distribucion a priori: f (p) = Γ(α+β)Γ(α)Γ(β)p
α−1(1− p)β−1
distribucion a posteriori:
f (p|x) ∝ pn1(1− p)n2 · pα−1(1− p)β−1
= pn1+α−1(1− p)n2+β−1
f (p|x) ∼ beta(n1 + α, n2 + β)
Distribuciones Bernoulli y beta son conjugadas - la distribucion aposteriori es de la misma familia parametrica que a priori.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 20 / 40
Inferencia bayesiana
Distribucion beta como a posteriori
A posteriori: f (p|x) ∝ f (x|p)f (p)
funcion de verosimilitud: f (x|p) = pn1(1− p)n2
distribucion a priori: f (p) = Γ(α+β)Γ(α)Γ(β)p
α−1(1− p)β−1
distribucion a posteriori:
f (p|x) ∝ pn1(1− p)n2 · pα−1(1− p)β−1
= pn1+α−1(1− p)n2+β−1
f (p|x) ∼ beta(n1 + α, n2 + β)
Distribuciones Bernoulli y beta son conjugadas - la distribucion aposteriori es de la misma familia parametrica que a priori.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 20 / 40
Inferencia bayesiana
Ejemplo electoral
Encuestas en 2004 de CNN/USAToday/Gallup:
fecha n % Kerry ≈ nK % Bush ≈ nB17-20 Oct 706 49% 346 48% 33925-28 Sep 664 47% 312 49% 3254-7 Sep 661 43% 284 52% 344
TOTAL 2031 942 1008
f (p) ∝ p942−1(1− p)1008−1
f (p|x) ∝ p556(1− p)511p942−1(1− p)1008−1 = p1498−1(1− p)1519−1
f (p|x) ∼ beta(1498, 1519)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 21 / 40
Inferencia bayesiana
Ejemplo electoral
Encuestas en 2004 de CNN/USAToday/Gallup:
fecha n % Kerry ≈ nK % Bush ≈ nB17-20 Oct 706 49% 346 48% 33925-28 Sep 664 47% 312 49% 3254-7 Sep 661 43% 284 52% 344
TOTAL 2031 942 1008
f (p) ∝ p942−1(1− p)1008−1
f (p|x) ∝ p556(1− p)511p942−1(1− p)1008−1 = p1498−1(1− p)1519−1
f (p|x) ∼ beta(1498, 1519)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 21 / 40
Inferencia bayesiana
Desplazamiento de la distribucion a priori
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 22 / 40
Inferencia bayesiana
Distribucion a posteriori
Como se obtiene la distribucion a posteriori?
Analıticamente
Distribuciones conjugadas
Metodos numericosMarkov Chain Monte Carlo(MCMC):
Gibbs SamplingMetropolis-Hastings
Verosimilitud A priori conjugada
Bernoulli BetaBinomial BetaMultinomial DirichletBinomial Negativa BetaPoisson GammaExponencial GammaGamma(χ2) GammaNormal µ NormalNormal σ2 Gamma InversaPareto α GammaPareto β Pareto
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 23 / 40
Inferencia bayesiana
Estimacion puntual
Problema de decision → seleccion de criterio.Elegimos θ como estimador de θ tal que minimice la funcion de perdida
L(θ, θ)
Sin embargo, θ es desconocido, tan solo tenemos su distribucion aposteriori f (θ|x).
Minimizaremos la perdida esperada a posteriori
minθ
E [L(θ, θ)|x] = minθ
∫ΘL(θ, θ)f (θ|x)dθ
El estimador bayesiano sera el argumento
θ = arg minθ
E [L(θ, θ)|x]
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 24 / 40
Inferencia bayesiana
Estimacion puntual
Problema de decision → seleccion de criterio.Elegimos θ como estimador de θ tal que minimice la funcion de perdida
L(θ, θ)
Sin embargo, θ es desconocido, tan solo tenemos su distribucion aposteriori f (θ|x).Minimizaremos la perdida esperada a posteriori
minθ
E [L(θ, θ)|x] = minθ
∫ΘL(θ, θ)f (θ|x)dθ
El estimador bayesiano sera el argumento
θ = arg minθ
E [L(θ, θ)|x]
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 24 / 40
Inferencia bayesiana
Ejemplos de la funcion de perdida
Perdida cuadraticaL(θ, θ) = (θ − θ)2
el estimador bayesiano es la media a posteriori
E (θ|x) =
∫ ∞−∞
θ · f (θ|x)dθ.
Perdida de error absoluto
L(θ, θ) = |θ − θ|
el estimador bayesiano es la mediana a posteriori
θ :
∫ θ
−∞f (θ|x)dθ = 0.5.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 25 / 40
Inferencia bayesiana
Ejemplos de la funcion de perdida
Perdida cuadraticaL(θ, θ) = (θ − θ)2
el estimador bayesiano es la media a posteriori
E (θ|x) =
∫ ∞−∞
θ · f (θ|x)dθ.
Perdida de error absoluto
L(θ, θ) = |θ − θ|
el estimador bayesiano es la mediana a posteriori
θ :
∫ θ
−∞f (θ|x)dθ = 0.5.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 25 / 40
Inferencia bayesiana
Ejemplos de la funcion de perdida
Perdida cuadraticaL(θ, θ) = (θ − θ)2
el estimador bayesiano es la media a posteriori
E (θ|x) =
∫ ∞−∞
θ · f (θ|x)dθ.
Perdida de error absoluto
L(θ, θ) = |θ − θ|
el estimador bayesiano es la mediana a posteriori
θ :
∫ θ
−∞f (θ|x)dθ = 0.5.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 25 / 40
Inferencia bayesiana
Ejemplos de la funcion de perdida
Perdida cuadraticaL(θ, θ) = (θ − θ)2
el estimador bayesiano es la media a posteriori
E (θ|x) =
∫ ∞−∞
θ · f (θ|x)dθ.
Perdida de error absoluto
L(θ, θ) = |θ − θ|
el estimador bayesiano es la mediana a posteriori
θ :
∫ θ
−∞f (θ|x)dθ = 0.5.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 25 / 40
Inferencia bayesiana
Ejemplos de la funcion de perdida
Error absoluto asimetrico
Lr ,s(θ, θ) =
{s · (θ − θ) si θ > θ
r · (θ − θ) si θ ≤ θ
el estimador bayesiano es el cuantil sr+s a posteriori
θ :
∫ θ
−∞f (θ|x)dθ =
s
r + s.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 26 / 40
Inferencia bayesiana
Ejemplos de la funcion de perdida
Error absoluto asimetrico
Lr ,s(θ, θ) =
{s · (θ − θ) si θ > θ
r · (θ − θ) si θ ≤ θ
el estimador bayesiano es el cuantil sr+s a posteriori
θ :
∫ θ
−∞f (θ|x)dθ =
s
r + s.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 26 / 40
Inferencia bayesiana
Estimador MAP
Una alternativa a la funcion de perdida es el estimador del maximo aposteriori (MAP)
θ = arg maxθ
f (θ|x) = arg maxθ
f (x|θ)f (θ)
que corresponde a la moda a posteriori de f (θ|x).
El estimador MAP es una generalizacion del estimador clasico de maximaverosimilitud.
Si suponemos la distribucion a priori no informativa f (θ) ∝ 1, el estimadorMAP coincide con el estimador de maxima verosimilitud clasico.
θ = arg maxθ
f (x|θ)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 27 / 40
Inferencia bayesiana
Estimador MAP
Una alternativa a la funcion de perdida es el estimador del maximo aposteriori (MAP)
θ = arg maxθ
f (θ|x) = arg maxθ
f (x|θ)f (θ)
que corresponde a la moda a posteriori de f (θ|x).
El estimador MAP es una generalizacion del estimador clasico de maximaverosimilitud.
Si suponemos la distribucion a priori no informativa f (θ) ∝ 1, el estimadorMAP coincide con el estimador de maxima verosimilitud clasico.
θ = arg maxθ
f (x|θ)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 27 / 40
Inferencia bayesiana
Estimacion por intervalos
Intervalo de credibilidad∫ qL−∞ f (θ|x)dθ = α/2
∫∞qU
f (θ|x)dθ = 1− α/2
Pr(qL < θ < qU |x) = 1− α
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 28 / 40
Inferencia bayesiana
Estimacion por intervalos
Intervalo HPD (highest posterior density):
Sea R una region de contenido 1− α, es decir Pr(θ ∈ R) = 1− α.R se llama region de maxima densidad a posteriori si para cualquierθ1 ∈ R y θ2 /∈ R se cumple f (θ1|x) ≥ f (θ2|x).
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 29 / 40
Inferencia bayesiana
Ejemplo electoral
f (p|x) ∼ beta(1498, 1519)
Media=0.497Moda=0.496Mediana=0.497
Intervalo de credibilidad
Pr{p ∈ [0.479, 0.514]} = 95%
Clave: Cual es la probabilidad de ganar las elecciones?
Pr(p > 0.5) = 0.351
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 30 / 40
Inferencia bayesiana
Ejemplo electoral
f (p|x) ∼ beta(1498, 1519)
Media=0.497Moda=0.496Mediana=0.497
Intervalo de credibilidad
Pr{p ∈ [0.479, 0.514]} = 95%
Clave: Cual es la probabilidad de ganar las elecciones?
Pr(p > 0.5) = 0.351
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 30 / 40
Inferencia bayesiana
Modelo normal-normal con σ2 conocido
La distribucion normal es una de las mas utilizadas.funcion de verosimilitud f (x |µ, σ2) ∼ N(µ, σ2)
f (x|µ) ∝n∏
i=1
1√2πσ2
exp
{−(xi − µ)2
2σ2
}
a priori - N(m, τ2)
f (µ) =1√
2πτ2exp
{−(µ−m)2
2τ2
}a posteriori
f (µ|x) ∝ 1√σ2τ2
exp
{−(µ−m)2
2τ2−∑n
i=1(xi − µ)2
2σ2
}
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 31 / 40
Inferencia bayesiana
Modelo normal-normal con σ2 conocido
El exponente
−(µ−m)2
2τ2−∑n
i=1(xi − µ)2
2σ2
se puede transformar en
−µ2 − 2µσ
2m+nτ2xnτ2+σ2
σ2τ2
nτ2+σ2
y completando los cuadrados obtenemos la distribucion a posteriori para elparametro µ
f (µ|x) ∼ N
(σ2m + τ2nx
nτ2 + σ2,
σ2τ2
nτ2 + σ2
)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 32 / 40
Inferencia bayesiana
Modelo normal generalizado
funcion de verosimilitud f (x |µ, σ2) ∼ N(µ, σ2)
f (x|µ, σ2) ∝n∏
i=1
1√2πσ2
exp
{−(xi − µ)2
2σ2
}ahora los dos parametros µ, σ2 son desconocidos.Distribucion a priori f (µ, σ2) = f (µ) · f (σ2) asumiendo independencia.Introducimos distribuciones a priori no informativas
f (µ) ∝ 1
f (log(σ2)) ∝ 1→ f (σ2) ∝ 1
σ2
estas distribuciones son el caso lımite de µ ∼ N(m, τ2), σ2 ∼ IG (a, b)
f (σ2) ∝ (σ2)−(a+1)eb/(σ2)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 33 / 40
Inferencia bayesiana
Modelo normal generalizado
La densidad a posteriori
f (µ, σ2|x) ∝ 1
(σ2)n/2+1exp
{−∑
(xi − µ)2
2σ2
}se puede expresar en forma
f (µ, σ2|x) = f (µ|σ2, x)f (σ2|x).
Suponiendo σ2 fijo
f (µ|σ2, x) ∝ exp
{−nµ2 − 2nxµ
2σ2
}∝ exp
{−(µ− x)2
2σ2/n
}
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 34 / 40
Inferencia bayesiana
Modelo normal generalizado
La densidad a posteriori se puede factorizar como
f (µ, σ2|x) ∝ 1
σexp
{−(µ− x)2
2σ2/n
}× 1
(σ2)(n+1)/2exp
{∑x2i − nx2
2σ2
}.
de donde podemos identificar
f (σ2|x) ∼ IG (n − 1
2,
(n − 1)var(x)
2)
El muestreo de la distribucion conjunta se puede realizar en dos pasos:
1 generar σ2 de la distribucion f (σ2|x)
2 generar µ correspondiente de la distribucion f (µ|σ2, x)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 35 / 40
Inferencia bayesiana
Distribucion predictiva a posteriori
Para la prediccion se emplea la distribucion predictiva a posteriori
f (y |x) =
∫Θf (y |θ) · f (θ|x)dθ
Es el valor esperado del modelo especificado, ponderando los posiblesvalores del parametro por su densidad a posteriori.
La distribucion predictiva a posteriori es la alternativa correcta al ”plug-in”
f (y |x) = f (y |θ)
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 36 / 40
Inferencia bayesiana
Comparacion de modelos
DIC: Este indicador evalua tanto el ajuste del modelo como la complejidaddel mismo. Evalua el poder explicativo del modelo. Menores valores delDIC indican mejor ajuste del modelo.
DIC = D + pD
= 2D − D(θ)
siendo D el estadıstico de desvıo
D(θ) = −2 log f (x|θ)
PPLC: Este indicador tambien penaliza por complejidad del modelo.Evalua el poder predictivo del modelo.
PPLP =k
k + 1
n∑i=1
(µi − xi )2 +
n∑i=1
σ2i
siendo µi = E (x repi |x) y σ2i = Var(x repi |x) y k es el peso que le damos al
primer termino del indicador.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 37 / 40
Inferencia bayesiana
Comparacion de modelos
DIC: Este indicador evalua tanto el ajuste del modelo como la complejidaddel mismo. Evalua el poder explicativo del modelo. Menores valores delDIC indican mejor ajuste del modelo.
DIC = D + pD
= 2D − D(θ)
siendo D el estadıstico de desvıo
D(θ) = −2 log f (x|θ)
PPLC: Este indicador tambien penaliza por complejidad del modelo.Evalua el poder predictivo del modelo.
PPLP =k
k + 1
n∑i=1
(µi − xi )2 +
n∑i=1
σ2i
siendo µi = E (x repi |x) y σ2i = Var(x repi |x) y k es el peso que le damos al
primer termino del indicador.(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 37 / 40
Ventajas del enfoque bayesiano
Programa
1 Introduccion al pensamiento bayesiano
2 Inferencia bayesiana
3 Ventajas del enfoque bayesiano
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 38 / 40
Ventajas del enfoque bayesiano
Diferencias entre clasicos y bayesianos
Figure: Frecuentistas Figure: Bayesianos
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 39 / 40
Ventajas del enfoque bayesiano
Diferencias entre clasicos y bayesianos
Frecuentistas Bayesianos
Parametro fijo Parametro variable
Datos variables (repeticion) Datos fijos (observados)
Probabilidad como frecuencia lımite Probabilidad como incertidumbre
No incluye informacion previa Inclusion de informacion previa
Intervalos de confianza Intervalos de credibilidad
Contraste de hipotesis Distribucion a posteriori delparametro
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 39 / 40
Ventajas del enfoque bayesiano
Ventajas del enfoque bayesiano
Provee una completa caracterizacion del parametro a traves de unafuncion de distribucion.
Provee un modo sistematico y explıcito de incorporar conocimientosprevios.
Formaliza el proceso de aprendizaje a partir de los datos al actualizarlos resultados probabilısticos a medida que se conoce nuevainformacion.
Mejora la precision de la estimacion al incluir informacion extra yacumular conocimiento.
Mejora la estimacion en casos de datos espaciados y datos faltantes atraves de borrowing strength.
No asume infinitas muestras ni normalidad.
Interpretacion mas directa que los intervalos de confianza, contrastesde hipotesis y p-valor.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 40 / 40
Ventajas del enfoque bayesiano
Ventajas del enfoque bayesiano
Provee una completa caracterizacion del parametro a traves de unafuncion de distribucion.
Provee un modo sistematico y explıcito de incorporar conocimientosprevios.
Formaliza el proceso de aprendizaje a partir de los datos al actualizarlos resultados probabilısticos a medida que se conoce nuevainformacion.
Mejora la precision de la estimacion al incluir informacion extra yacumular conocimiento.
Mejora la estimacion en casos de datos espaciados y datos faltantes atraves de borrowing strength.
No asume infinitas muestras ni normalidad.
Interpretacion mas directa que los intervalos de confianza, contrastesde hipotesis y p-valor.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 40 / 40
Ventajas del enfoque bayesiano
Ventajas del enfoque bayesiano
Provee una completa caracterizacion del parametro a traves de unafuncion de distribucion.
Provee un modo sistematico y explıcito de incorporar conocimientosprevios.
Formaliza el proceso de aprendizaje a partir de los datos al actualizarlos resultados probabilısticos a medida que se conoce nuevainformacion.
Mejora la precision de la estimacion al incluir informacion extra yacumular conocimiento.
Mejora la estimacion en casos de datos espaciados y datos faltantes atraves de borrowing strength.
No asume infinitas muestras ni normalidad.
Interpretacion mas directa que los intervalos de confianza, contrastesde hipotesis y p-valor.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 40 / 40
Ventajas del enfoque bayesiano
Ventajas del enfoque bayesiano
Provee una completa caracterizacion del parametro a traves de unafuncion de distribucion.
Provee un modo sistematico y explıcito de incorporar conocimientosprevios.
Formaliza el proceso de aprendizaje a partir de los datos al actualizarlos resultados probabilısticos a medida que se conoce nuevainformacion.
Mejora la precision de la estimacion al incluir informacion extra yacumular conocimiento.
Mejora la estimacion en casos de datos espaciados y datos faltantes atraves de borrowing strength.
No asume infinitas muestras ni normalidad.
Interpretacion mas directa que los intervalos de confianza, contrastesde hipotesis y p-valor.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 40 / 40
Ventajas del enfoque bayesiano
Ventajas del enfoque bayesiano
Provee una completa caracterizacion del parametro a traves de unafuncion de distribucion.
Provee un modo sistematico y explıcito de incorporar conocimientosprevios.
Formaliza el proceso de aprendizaje a partir de los datos al actualizarlos resultados probabilısticos a medida que se conoce nuevainformacion.
Mejora la precision de la estimacion al incluir informacion extra yacumular conocimiento.
Mejora la estimacion en casos de datos espaciados y datos faltantes atraves de borrowing strength.
No asume infinitas muestras ni normalidad.
Interpretacion mas directa que los intervalos de confianza, contrastesde hipotesis y p-valor.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 40 / 40
Ventajas del enfoque bayesiano
Ventajas del enfoque bayesiano
Provee una completa caracterizacion del parametro a traves de unafuncion de distribucion.
Provee un modo sistematico y explıcito de incorporar conocimientosprevios.
Formaliza el proceso de aprendizaje a partir de los datos al actualizarlos resultados probabilısticos a medida que se conoce nuevainformacion.
Mejora la precision de la estimacion al incluir informacion extra yacumular conocimiento.
Mejora la estimacion en casos de datos espaciados y datos faltantes atraves de borrowing strength.
No asume infinitas muestras ni normalidad.
Interpretacion mas directa que los intervalos de confianza, contrastesde hipotesis y p-valor.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 40 / 40
Ventajas del enfoque bayesiano
Ventajas del enfoque bayesiano
Provee una completa caracterizacion del parametro a traves de unafuncion de distribucion.
Provee un modo sistematico y explıcito de incorporar conocimientosprevios.
Formaliza el proceso de aprendizaje a partir de los datos al actualizarlos resultados probabilısticos a medida que se conoce nuevainformacion.
Mejora la precision de la estimacion al incluir informacion extra yacumular conocimiento.
Mejora la estimacion en casos de datos espaciados y datos faltantes atraves de borrowing strength.
No asume infinitas muestras ni normalidad.
Interpretacion mas directa que los intervalos de confianza, contrastesde hipotesis y p-valor.
(Univ. Carlos III de Madrid) Estadıstica bayesiana 21-03-11 40 / 40