2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-1
Tema 2Tema 2Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana
El teorema de BayesEjemploInterpretaciónEjemplo: influencia de la distribución a prioriEjemplo: densidad de flujoProbabilidad bayesianaEjemplo: distancia a una estrellaEstimación de parámetrosComparación de modelosLa navaja de OccamEjemplo: detección de una línea espectralResumenVentajas de la estrategia bayesiana
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-2
El teorema de El teorema de BayesBayes
Def. de probabilidad condicionada:
Teorema de Bayes
Hipótesis, parámetro, modelo
Datos, observaciones
Distribución de probabilidad a priori
(prior)
Función de verosimilitudDistribución de
probabilidad posteriorde la hipótesis dados
los datos
Probabilidad marginal de los datos
Para n hipótesis excluyentes
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-3
Ejemplo: bolas en una urnaEjemplo: bolas en una urna
0.00000.01p = 1.0
0.00120.01p = 0.9
0.01890.02p = 0.8
0.10750.05p = 0.7
0.24250.09p = 0.6
0.33040.15p = 0.5
0.21550.18p = 0.4
0.07500.19p = 0.3
0.00890.15p = 0.2
0.00010.10p = 0.1
0.00000.05p = 0.0
P(posterior)P(prior)modelo
Observaciones: 6 éxitos (bolas rojas) de 10 pruebas
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-4
InterpretaciónInterpretación
P(datos | modelo) P(modelo | datos)
(estadística clásica) (estadística bayesiana)
Interpretación subjetiva de la probabilidad (en contraposición con la interpretación clásica basada en las frecuencias relativas)
En la estadística clásica no tiene sentido la probabilidad asociada a un parámetro de una población
Sólo los datos realmente observados son relevantes para la decisión final (en estadística clásica se suponen infinitas observaciones hipotéticas).
P(H0) representa nuestros conocimientos previos sobre la hipótesis.
Pero estos conocimientos previos pueden ser imprecisos o subjetivos (no existe un prior único correcto)
Un prior diferente de una distribución de probabilidad uniforme (prior difuso) debe justificarse adecuadamente.
Cuantas más observaciones se hagan, el prior tiene menos importancia.
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-5
Ejemplo: influencia de la distribución a prioriEjemplo: influencia de la distribución a priori
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-6
Ejemplo: densidad de flujoEjemplo: densidad de flujo
Datos (D): se mide una densidad de flujo f
f se distribuye normalmente (gaussiana) alrededor de un valor S con varianza σσσσ2
Información previa (prior):
Observaciones con un radiotelescopio de una región del cielo al azar
Probabilidad de observar f: (verosimilitud)
Si se tienen n medidas independientes (fi):
Probabilidades de S: (posterior)
Ejemplo: Datos (fi): 2, 1.3, 3, 1.5, 2, 1.8
σ=1 (S entre 1 y 100)
246
medidas
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-7
Probabilidad Probabilidad bayesianabayesiana
Hi = hipótesisI = información a prioriD = datos
Reglas básicas de la probabilidad bayesiana:
Probabilidad de que Hi sea cierta dados I y D
Probabilidad de A Y B
Probabilidad de A O B
(para hipótesis excluyentes)
Teorema de Bayes:
Factor de normalización
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-8
Para un prior difuso (uniforme):
La probabilidad es una medida de nuestro estado del conocimiento sobre la hipótesis.
Dicha probabilidad se calcula a partir de nuestros conocimientos previos + los nuevos datos
El posterior de un estudio se usa como prior para el estudio siguiente:
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-9
Ejemplo: distancia a una estrellaEjemplo: distancia a una estrella
El modelo M1 predice una distancia d1 = 100 alEl modelo M2 predice una distancia d2 = 200 alLa incertidumbre en las medidas sigue una dist. gausiana con
La distancia medida es d = 120 al
I
Modelo 1:
Modelo 2:
Ejemplo: ¿tienes esa enfermedad?
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-10
Moda posterior: Valor de θ que maximiza
Media posterior:
Intervalo de credibilidad:
Estimación de parámetrosEstimación de parámetros
Se supone que un cierto modelo M(θ) es cierto y el problema es encontrar el parámetro θ del modelo
función de densidad
Probabilidad (a priori) de que el verdadero valor del parámetro esté entre
Verosimilitud global:
(factor de normalización)
La estadística bayesiana no proporciona estimaciones puntuales, sino funciones de densidad
(ej. C = 0.95)con mayor dentro de R que fuera
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-11
Estimación de parámetros (II)Estimación de parámetros (II)Supongamos M(θ,φ) y sólo estamos interesados en θ (φ es un parámetro irrelevante - nuisance)
= marginalización
función de densidad posterior marginal
priors independientes
Media de la función de verosimilitud pesada con el prior para el parámetro irrelevante
Una de las ventajas técnicas de la estadística bayesiana
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-12
Comparación de modelosComparación de modelosEl problema es comparar las probabilidades de diferentes modelos. Cada uno de ellos puede tener un número diferente de parámetros (la navaja de Occam)
Prior: (uno de los modelos es el correcto)
Probabilidad de cada modelo:
verosimilitud del modelo i:
Probabilidades relativas (odds)
: factor de Bayes
Si se calculan las probabilidades relativas frente a un modelo (ej.): Oi1
Ej. para 2 modelos:
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-13
La navaja de La navaja de OccamOccamM1: modelo con un parámetro θM0: modelo sin parámetros (θ =θ0)
Normalmente la verosimilitud esmás estrecha que el prior (suponemos prior uniforme):
Anchura característica de la verosimilitud
Verosimilitud global del modelo: = valor de máxima verosimilitud
Factor de Bayes a favor del modelo más complicado:
>1 <1
En general:
factor de OccamPenaliza los modelos más complicados a favor
de los más simples
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-14
La teoría 1 predice que debe existir una línea espectral con las siguientes características:
Perfil gausiano:
T: amplitud de la línea (entre 0.1 y 100 mK)
νi: frecuencia (en nº de canal, entre 0 y 64)
ν0 = 37
σL =2 (anchura de la línea)
Ejemplo: Detección de una línea espectralEjemplo: Detección de una línea espectral
observaciones
predicción de la teoría 1
= el valor registrado en el canal i es di
Ruido gausiano caracterizado por σ = 1 mK
Datos:
La teoría 2 no predice ninguna línea:
A la vista de los datos, ¿que teoría es más probable?
M1 = “La teoría 1 es correcta”
M2 = “La teoría 2 es correcta”
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-15
DATOS
P. Gregory, Bayesian Logical Analysis for the Physical Sciences (Cambridge University Press)
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-16
Probabilidades relativas:priors iguales
Marginalización sobre el parámetro desconocido T:
Elección del prior:
Prior uniforme: (rango Tmin ≤ T ≤ Tmax)
Tmin=0.1 mK
Tmax=100 mKPrior de Jeffreys:
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-17
Cálculo de:
di: valor observado en el canal i donde (ei: error)
Ei: el valor del error en el canal i está entre ei y ei + dei
Ruido gausiano (σ)
(si todos los ei son independientes)
(verosimilitud)
Máximo = = 8.520×10-37 en T = 1.561 mk
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-18
Cálculo de: (verosimilitud global)
Prior uniforme:
Prior de Jeffreys:
Factor de Occam
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-19
Cálculo de:
Según M2, el espectro es consistente con ruido, sin parámetros libres.
No es necesario marginalizar
Probabilidades relativas (prior uniforme)
Probabilidades relativas (prior de Jeffreys)
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-20
Estimación del parámetro T
Asumiendo que el modelo M1 es el correcto podemos calcular la distribución de probabilidades del parámetro T
Teorema de Bayes:
Prior uniforme:
Prior de Jeffreys:
Intensidad de la línea comparable con el ruido
Si la línea fuese 5 veces más intensa:
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-21
Moralejas del ejemplo
Para elegir el mejor modelo hay que marginalizar sobre sus parámetros, introduciendo el factor de Occam. Dicho factor depende fuertemente del prior (la penalización aumenta al aumentar el rango de parámetros permitidos).
Cuando el rango a priori del parámetro incluye varios ordenes de magnitud, un prior uniforme favorece valores altos del parámetro. Si desconocemos la escala (valores grandes son igual de probables que pequeños) un prior de Jeffreys tiene más sentido.
Si se obtuviesen más datos, el prior sería el resultado anterior
Si la localización y la anchura fuesen desconocidos habría que marginalizar sobre estos parámetros, apareciendo más factores de Occam (si la posición de la línea es desconocida O_{12} disminuiría de 11 a 1. Función de densidad para la localización:
En la estimación de parámetros no hay factores de Occam
No se puede hacer primero la estimación de parámetros y descartar M2 (T=0). No aplicaríamos la navaja de Occam.
En un modelo más real habría que dejar libre el valor del fondo (se ha asumido = 0) y marginalizar sobre él.
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-22
�Procedimiento elegante, simple y racional para contestar cualquier cuestión teniendo en cuenta toda la información previa. Es un procedimiento directo.
�Se calculan directamente las probabilidades de las hipótesis:
�Toda la información relevante previa se incorpora a través del prior. Esto aumenta mucho la potencia del método (en particular para señales-ruido altas).
�Proporciona un método para eliminar los parámetros irrelevantes a través de la marginalización.
�Tiene una “navaja de Occam” incorporada, constituyendo un método potente para la comparación de modelos de diferente complejidad
�Proporciona un método para incorporar los efectos de errores sistemáticos.
Ventajas de la estadística Ventajas de la estadística bayesianabayesiana
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-23
ResumenResumen
Se evalúa la probabilidad del modelo (o parámetros de este) a partir únicamente de los datos observados. Los datos hipotéticos son irrelevantes
El nivel de significación de un contraste de hipótesis es la probabilidad de que, dada la hipótesis nula, se obtenga un resultado tanto o más extremo como el observado.
La probabilidad de que el parámetro poblacional caiga en un intervalo de credibilidad del 95% es del 95%
Un intervalo de confianza del 95% es el resultado de un proceso que tiene un 95% de probabilidades de producir un intervalo que contenga al parámetro poblacional.
La inferencia se basa en evaluar la probabilidad de que un modelo, o hipótesis, sea cierto dados unos datos observados.
La inferencia se basa en calcular las probabilidades de los datos observados o de datos hipotéticos más extremos, dada una hipótesis.
La probabilidad es una medida del grado de incertidumbre que tiene un observador sobre el resultado de un experimento. La probabilidad es subjetiva y depende del observador.
La probabilidad es la frecuencia relativa que se obtiene tras repetir muchas veces el experimento. La probabilidad es objetiva y es igual para todos los observadores.
Estadística bayesianaEstadística clásica
2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-24
BibliografíaBibliografía
Bayesian Statistics, J.M. Bernardo, http://www.uv.es/bernardo/BayesStat.pdf
Bayesian Theory, J.M. Bernardo & A.F.M. Smith, ed. Wiley
Introduction to Bayesian Statistics, W. M. Bolstad, ed. Wiley-IEEE
Bayesian Spectrum Analysis and Parameter Estimation, G.L. Bretthorst, Springer-Verlag
Probability and Measurement Uncertainty in Physics – A Bayesian Primer Notes, G. D’Agostini, hep-ph/9512295
Bayesian Data Analysis, A.B. Gelman, CRC Press
Bayesian Logical Data Analysis for the Physical Science, P. Gregory, Cambridge University Press
Bayesian reading list, T. Griffiths, http://cocosci.berkeley.edu/tom/bayes.html
Probability Theory: The Logic Of Science, E.T. Jaynes
Information Theory, Inference and Learning Algorithms, D.J.C. MacKay, Cambridge University Press