Download - Tema 2 - webs.ucm.eswebs.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/tema02.pdf · El teorema de Bayes Def. de probabilidad condicionada: Teorema de Bayes Hipótesis, parámetro,

2. 2. Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana2-1

Tema 2Tema 2Introducción a la Estadística Introducción a la Estadística BayesianaBayesiana

El teorema de BayesEjemploInterpretaciónEjemplo: influencia de la distribución a prioriEjemplo: densidad de flujoProbabilidad bayesianaEjemplo: distancia a una estrellaEstimación de parámetrosComparación de modelosLa navaja de OccamEjemplo: detección de una línea espectralResumenVentajas de la estrategia bayesiana


El teorema de El teorema de BayesBayes

Def. de probabilidad condicionada:

Teorema de Bayes

Hipótesis, parámetro, modelo

Datos, observaciones

Distribución de probabilidad a priori

(prior)

Función de verosimilitudDistribución de

probabilidad posteriorde la hipótesis dados

los datos

Probabilidad marginal de los datos

Para n hipótesis excluyentes


Ejemplo: bolas en una urnaEjemplo: bolas en una urna

0.00000.01p = 1.0

0.00120.01p = 0.9

0.01890.02p = 0.8

0.10750.05p = 0.7

0.24250.09p = 0.6

0.33040.15p = 0.5

0.21550.18p = 0.4

0.07500.19p = 0.3

0.00890.15p = 0.2

0.00010.10p = 0.1

0.00000.05p = 0.0

P(posterior)P(prior)modelo

Observaciones: 6 éxitos (bolas rojas) de 10 pruebas


InterpretaciónInterpretación

P(datos | modelo) P(modelo | datos)

(estadística clásica) (estadística bayesiana)

Interpretación subjetiva de la probabilidad (en contraposición con la interpretación clásica basada en las frecuencias relativas)

En la estadística clásica no tiene sentido la probabilidad asociada a un parámetro de una población

Sólo los datos realmente observados son relevantes para la decisión final (en estadística clásica se suponen infinitas observaciones hipotéticas).

P(H0) representa nuestros conocimientos previos sobre la hipótesis.

Pero estos conocimientos previos pueden ser imprecisos o subjetivos (no existe un prior único correcto)

Un prior diferente de una distribución de probabilidad uniforme (prior difuso) debe justificarse adecuadamente.

Cuantas más observaciones se hagan, el prior tiene menos importancia.


Ejemplo: influencia de la distribución a prioriEjemplo: influencia de la distribución a priori


Ejemplo: densidad de flujoEjemplo: densidad de flujo

Datos (D): se mide una densidad de flujo f

f se distribuye normalmente (gaussiana) alrededor de un valor S con varianza σσσσ2

Información previa (prior):

Observaciones con un radiotelescopio de una región del cielo al azar

Probabilidad de observar f: (verosimilitud)

Si se tienen n medidas independientes (fi):

Probabilidades de S: (posterior)

Ejemplo: Datos (fi): 2, 1.3, 3, 1.5, 2, 1.8

σ=1 (S entre 1 y 100)

246

medidas


Probabilidad Probabilidad bayesianabayesiana

Hi = hipótesisI = información a prioriD = datos

Reglas básicas de la probabilidad bayesiana:

Probabilidad de que Hi sea cierta dados I y D

Probabilidad de A Y B

Probabilidad de A O B

(para hipótesis excluyentes)

Teorema de Bayes:

Factor de normalización


Para un prior difuso (uniforme):

La probabilidad es una medida de nuestro estado del conocimiento sobre la hipótesis.

Dicha probabilidad se calcula a partir de nuestros conocimientos previos + los nuevos datos

El posterior de un estudio se usa como prior para el estudio siguiente:


Ejemplo: distancia a una estrellaEjemplo: distancia a una estrella

El modelo M1 predice una distancia d1 = 100 alEl modelo M2 predice una distancia d2 = 200 alLa incertidumbre en las medidas sigue una dist. gausiana con

La distancia medida es d = 120 al

I

Modelo 1:

Modelo 2:

Ejemplo: ¿tienes esa enfermedad?


Moda posterior: Valor de θ que maximiza

Media posterior:

Intervalo de credibilidad:

Estimación de parámetrosEstimación de parámetros

Se supone que un cierto modelo M(θ) es cierto y el problema es encontrar el parámetro θ del modelo

función de densidad

Probabilidad (a priori) de que el verdadero valor del parámetro esté entre

Verosimilitud global:

(factor de normalización)

La estadística bayesiana no proporciona estimaciones puntuales, sino funciones de densidad

(ej. C = 0.95)con mayor dentro de R que fuera


Estimación de parámetros (II)Estimación de parámetros (II)Supongamos M(θ,φ) y sólo estamos interesados en θ (φ es un parámetro irrelevante - nuisance)

= marginalización

función de densidad posterior marginal

priors independientes

Media de la función de verosimilitud pesada con el prior para el parámetro irrelevante

Una de las ventajas técnicas de la estadística bayesiana


Comparación de modelosComparación de modelosEl problema es comparar las probabilidades de diferentes modelos. Cada uno de ellos puede tener un número diferente de parámetros (la navaja de Occam)

Prior: (uno de los modelos es el correcto)

Probabilidad de cada modelo:

verosimilitud del modelo i:

Probabilidades relativas (odds)

: factor de Bayes

Si se calculan las probabilidades relativas frente a un modelo (ej.): Oi1

Ej. para 2 modelos:


La navaja de La navaja de OccamOccamM1: modelo con un parámetro θM0: modelo sin parámetros (θ =θ0)

Normalmente la verosimilitud esmás estrecha que el prior (suponemos prior uniforme):

Anchura característica de la verosimilitud

Verosimilitud global del modelo: = valor de máxima verosimilitud

Factor de Bayes a favor del modelo más complicado:

>1 <1

En general:

factor de OccamPenaliza los modelos más complicados a favor

de los más simples


La teoría 1 predice que debe existir una línea espectral con las siguientes características:

Perfil gausiano:

T: amplitud de la línea (entre 0.1 y 100 mK)

νi: frecuencia (en nº de canal, entre 0 y 64)

ν0 = 37

σL =2 (anchura de la línea)

Ejemplo: Detección de una línea espectralEjemplo: Detección de una línea espectral

observaciones

predicción de la teoría 1

= el valor registrado en el canal i es di

Ruido gausiano caracterizado por σ = 1 mK

Datos:

La teoría 2 no predice ninguna línea:

A la vista de los datos, ¿que teoría es más probable?

M1 = “La teoría 1 es correcta”

M2 = “La teoría 2 es correcta”


DATOS

P. Gregory, Bayesian Logical Analysis for the Physical Sciences (Cambridge University Press)


Probabilidades relativas:priors iguales

Marginalización sobre el parámetro desconocido T:

Elección del prior:

Prior uniforme: (rango Tmin ≤ T ≤ Tmax)

Tmin=0.1 mK

Tmax=100 mKPrior de Jeffreys:


Cálculo de:

di: valor observado en el canal i donde (ei: error)

Ei: el valor del error en el canal i está entre ei y ei + dei

Ruido gausiano (σ)

(si todos los ei son independientes)

(verosimilitud)

Máximo = = 8.520×10-37 en T = 1.561 mk


Cálculo de: (verosimilitud global)

Prior uniforme:

Prior de Jeffreys:

Factor de Occam


Cálculo de:

Según M2, el espectro es consistente con ruido, sin parámetros libres.

No es necesario marginalizar

Probabilidades relativas (prior uniforme)

Probabilidades relativas (prior de Jeffreys)


Estimación del parámetro T

Asumiendo que el modelo M1 es el correcto podemos calcular la distribución de probabilidades del parámetro T

Teorema de Bayes:

Prior uniforme:

Prior de Jeffreys:

Intensidad de la línea comparable con el ruido

Si la línea fuese 5 veces más intensa:


Moralejas del ejemplo

Para elegir el mejor modelo hay que marginalizar sobre sus parámetros, introduciendo el factor de Occam. Dicho factor depende fuertemente del prior (la penalización aumenta al aumentar el rango de parámetros permitidos).

Cuando el rango a priori del parámetro incluye varios ordenes de magnitud, un prior uniforme favorece valores altos del parámetro. Si desconocemos la escala (valores grandes son igual de probables que pequeños) un prior de Jeffreys tiene más sentido.

Si se obtuviesen más datos, el prior sería el resultado anterior

Si la localización y la anchura fuesen desconocidos habría que marginalizar sobre estos parámetros, apareciendo más factores de Occam (si la posición de la línea es desconocida O_{12} disminuiría de 11 a 1. Función de densidad para la localización:

En la estimación de parámetros no hay factores de Occam

No se puede hacer primero la estimación de parámetros y descartar M2 (T=0). No aplicaríamos la navaja de Occam.

En un modelo más real habría que dejar libre el valor del fondo (se ha asumido = 0) y marginalizar sobre él.


�Procedimiento elegante, simple y racional para contestar cualquier cuestión teniendo en cuenta toda la información previa. Es un procedimiento directo.

�Se calculan directamente las probabilidades de las hipótesis:

�Toda la información relevante previa se incorpora a través del prior. Esto aumenta mucho la potencia del método (en particular para señales-ruido altas).

�Proporciona un método para eliminar los parámetros irrelevantes a través de la marginalización.

�Tiene una “navaja de Occam” incorporada, constituyendo un método potente para la comparación de modelos de diferente complejidad

�Proporciona un método para incorporar los efectos de errores sistemáticos.

Ventajas de la estadística Ventajas de la estadística bayesianabayesiana


ResumenResumen

Se evalúa la probabilidad del modelo (o parámetros de este) a partir únicamente de los datos observados. Los datos hipotéticos son irrelevantes

El nivel de significación de un contraste de hipótesis es la probabilidad de que, dada la hipótesis nula, se obtenga un resultado tanto o más extremo como el observado.

La probabilidad de que el parámetro poblacional caiga en un intervalo de credibilidad del 95% es del 95%

Un intervalo de confianza del 95% es el resultado de un proceso que tiene un 95% de probabilidades de producir un intervalo que contenga al parámetro poblacional.

La inferencia se basa en evaluar la probabilidad de que un modelo, o hipótesis, sea cierto dados unos datos observados.

La inferencia se basa en calcular las probabilidades de los datos observados o de datos hipotéticos más extremos, dada una hipótesis.

La probabilidad es una medida del grado de incertidumbre que tiene un observador sobre el resultado de un experimento. La probabilidad es subjetiva y depende del observador.

La probabilidad es la frecuencia relativa que se obtiene tras repetir muchas veces el experimento. La probabilidad es objetiva y es igual para todos los observadores.

Estadística bayesianaEstadística clásica


BibliografíaBibliografía

Bayesian Statistics, J.M. Bernardo, http://www.uv.es/bernardo/BayesStat.pdf

Bayesian Theory, J.M. Bernardo & A.F.M. Smith, ed. Wiley

Introduction to Bayesian Statistics, W. M. Bolstad, ed. Wiley-IEEE

Bayesian Spectrum Analysis and Parameter Estimation, G.L. Bretthorst, Springer-Verlag

Probability and Measurement Uncertainty in Physics – A Bayesian Primer Notes, G. D’Agostini, hep-ph/9512295

Bayesian Data Analysis, A.B. Gelman, CRC Press

Bayesian Logical Data Analysis for the Physical Science, P. Gregory, Cambridge University Press

Bayesian reading list, T. Griffiths, http://cocosci.berkeley.edu/tom/bayes.html

Probability Theory: The Logic Of Science, E.T. Jaynes

Information Theory, Inference and Learning Algorithms, D.J.C. MacKay, Cambridge University Press