14172970 bayesilibro

207

description

 

Transcript of 14172970 bayesilibro

Page 1: 14172970 bayesilibro
Page 2: 14172970 bayesilibro

ii

Introduccion a laEstadıstica Bayesiana

Juan Carlos Correa Morales

Escuela de Estadıstica

Universidad Nacional de Colombia

Sede Medellın

2008

Page 3: 14172970 bayesilibro

Prefacio

Estas notas presentan una introduccion a la estadıstica bayesiana. Este es uncampo que ha tenido un desarrollo impresionante en los ultimos anos, en espe-cial desde la introduccion de la parte computacional. Muchas ideas han estadocirculando desde hace mucho tiempo, pero su imposibilidad practica hacıan quese miraran con cierto pesar, ya que eran muy atractivas pero inaplicables. Estoafortunadamente ha cambiado. Es lamentable los libros basicos en estadısticano hagan una presentacion de los elementos basicos de esta aproximacion parala solucion de problemas estadısticos.

Aquı vamos a presentar una aproximacion eminentemente practica, esto es,el lector puede aplicar de forma casi inmediata los metodos a problemas reales.El software que se utilizara es de dominio publico como el R o de permisolibre para educacion como el WinBUGS. Se requiere familiaridad con el primerprograma al menos a un nivel operativo basico.

Se asume que el lector tiene familiaridad con los metodos estadısticos a unnivel operativo, al menos. Conocimiento de inferencia a un nivel de un textobasico de estadıstica matematica ayuda bastante.

iii

Page 4: 14172970 bayesilibro

iv

Page 5: 14172970 bayesilibro

Indice general

1. Introduccion 31.1. Aproximaciones al analisis bayesiano . . . . . . . . . . . . . . . . 61.2. Problemas con la aproximacion clasica . . . . . . . . . . . . . . . 6

2. Probabilidad Subjetiva “Apriori” 92.1. Probabilidad Personal . . . . . . . . . . . . . . . . . . . . . . . . 92.2. Probabilidad Subjetiva y Apuestas . . . . . . . . . . . . . . . . . 92.3. Clasificacion de las Distribuciones Apriori . . . . . . . . . . . . . 102.4. Distribuciones Apriori No Informativas . . . . . . . . . . . . . . . 112.5. Distribuciones Apriori Informativas . . . . . . . . . . . . . . . . . 112.6. Elicitacion de Probabilidades Subjetivas . . . . . . . . . . . . . . 11

2.6.1. Supuestos de Coherencia . . . . . . . . . . . . . . . . . . . 122.7. Formas de Elicitacion . . . . . . . . . . . . . . . . . . . . . . . . 122.8. Un Dialogo para la Obtencion de la Proporcion . . . . . . . . . . 132.9. Analisis preposterior . . . . . . . . . . . . . . . . . . . . . . . . . 17

3. Teorema de Bayes 193.1. Usos de la Funcion de Verosimilitud en Analisis Bayesiano . . . . 22

4. Distribuciones Conjugadas 234.1. Distribucion Binomial . . . . . . . . . . . . . . . . . . . . . . . . 24

4.1.1. Elicitacion de los Parametros de la Beta para Proporciones 264.2. Distribucion Binomial Negativa . . . . . . . . . . . . . . . . . . . 284.3. Distribucion Geometrica . . . . . . . . . . . . . . . . . . . . . . . 284.4. Distribucion Multinomial . . . . . . . . . . . . . . . . . . . . . . 284.5. Distribucion Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 294.6. Distribucion Exponencial . . . . . . . . . . . . . . . . . . . . . . 304.7. Distribucion Normal . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.7.1. Precision Conocida . . . . . . . . . . . . . . . . . . . . . . 304.7.2. Precision Desconocida . . . . . . . . . . . . . . . . . . . . 314.7.3. Media y Precision Desconocidas . . . . . . . . . . . . . . . 31

v

Page 6: 14172970 bayesilibro

vi INDICE GENERAL

4.8. Distribucion Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 32

5. Distribuciones No Informativas 355.1. El Principio de la Razon Insuficiente de Laplace . . . . . . . . . . 365.2. Apriori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . 365.3. Otras Alternativas . . . . . . . . . . . . . . . . . . . . . . . . . . 395.4. Marginalizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6. Inferencia Bayesiana 436.1. Estimacion Puntual . . . . . . . . . . . . . . . . . . . . . . . . . 436.2. Regiones de Credibilidad . . . . . . . . . . . . . . . . . . . . . . . 496.3. Region de la Densidad Posterior Mas Alta (RDPMA) . . . . . . 49

6.3.1. Intervalos frecuentistas tradicionales para la Poisson . . . 516.4. Pruebas de Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . 53

6.4.1. Comparacion de Modelos . . . . . . . . . . . . . . . . . . 586.5. La aproximacion BIC . . . . . . . . . . . . . . . . . . . . . . . . . 61

7. Inferencia Predictiva 657.1. Tamano Muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

8. WinBUGS 698.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 698.2. Que se espera de un software para estadıstica bayesiana? . . . . . 698.3. Utilizacion de WinBUGS . . . . . . . . . . . . . . . . . . . . . . 708.4. Algunos de los comandos del WinBUGS . . . . . . . . . . . . . . 76

8.4.1. Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 768.4.2. Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

9. Modelos Lineales 819.1. La regresion clasica . . . . . . . . . . . . . . . . . . . . . . . . . . 81

9.1.1. Usos del Analisis de Regresion . . . . . . . . . . . . . . . 819.1.2. Estrategia Tıpica en un Analisis de Regresion . . . . . . 829.1.3. Regresion simple . . . . . . . . . . . . . . . . . . . . . . . 829.1.4. Modelo de Regresion Lineal Multiple . . . . . . . . . . . 839.1.5. Notacion Matricial . . . . . . . . . . . . . . . . . . . . . . 83

9.2. Aproximacion Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 849.3. Distribucion Normal-Gamma . . . . . . . . . . . . . . . . . . . . 849.4. Distribucion Aposteriori . . . . . . . . . . . . . . . . . . . . . . . 859.5. Analisis Conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . 86

9.5.1. Distribucion Predictiva . . . . . . . . . . . . . . . . . . . 889.5.2. Inferencias . . . . . . . . . . . . . . . . . . . . . . . . . . 899.5.3. Pruebas de Hipotesis . . . . . . . . . . . . . . . . . . . . . 89

9.6. Precios de Oferta de Vehıculos . . . . . . . . . . . . . . . . . . . 909.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 929.8. Estrategias en Modelacion . . . . . . . . . . . . . . . . . . . . . . 979.9. Regresion Inversa o Calibracion . . . . . . . . . . . . . . . . . . . 98

Page 7: 14172970 bayesilibro

INDICE GENERAL vii

10.Modelo Lineal Generalizado 101

10.1. Modelo Logıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

10.1.1. Seleccion de la Distribucion Apriori . . . . . . . . . . . . 102

10.1.2. Analisis Bayesiano de Residuales de Modelos Logısticos . 106

10.2. Regresion Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

10.3. Log-concavidad de la log-verosimilitud . . . . . . . . . . . . . . . 111

11.Estadıstica Bayesiana Empırica 113

12.Analisis Multivariable 115

12.1. Distribucion Normal Multivariable . . . . . . . . . . . . . . . . . 115

13.Datos Categoricos 117

13.1. Distribucion Multinomial . . . . . . . . . . . . . . . . . . . . . . 117

13.1.1. Obtencion de la prevalencia verdadera from prevalenciaaparente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

13.1.2. La Razon de Odds . . . . . . . . . . . . . . . . . . . . . . 122

13.1.3. Modelos Loglineales . . . . . . . . . . . . . . . . . . . . . 123

13.1.4. Tablas con faltantes . . . . . . . . . . . . . . . . . . . . . 123

13.1.5. Estimacion de N (El tamano de toda una poblacion) . . . 123

14.Metodos Computacionales 125

14.0.6. Muestreo de Importancia . . . . . . . . . . . . . . . . . . 128

14.0.7. Muestreo por Rechazo . . . . . . . . . . . . . . . . . . . . 128

14.1. MCMC: Monte Carlo por Cadenas de Markov . . . . . . . . . . . 130

14.1.1. Algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . 131

14.1.2. Muestreador Griddy Gibbs . . . . . . . . . . . . . . . . . 140

14.2. Calculo de Integrales via Simulacion . . . . . . . . . . . . . . . . 141

14.2.1. Composicion . . . . . . . . . . . . . . . . . . . . . . . . . 141

14.3. Metodos Monte Carlo de Cadenas de Markov (MCMC) . . . . . 141

14.3.1. Glosario de Cadenas de Markov . . . . . . . . . . . . . . . 141

14.3.2. Muestreador Gibbs . . . . . . . . . . . . . . . . . . . . . . 142

14.4. Simulacion Exacta . . . . . . . . . . . . . . . . . . . . . . . . . . 142

14.4.1. El Muestreador Perfecto . . . . . . . . . . . . . . . . . . . 142

14.5. Algoritmo E −M . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

14.5.1. Modelo Probit para Datos Binarios . . . . . . . . . . . . . 144

14.6. Diagnosticos de los Muestreadores MCMC . . . . . . . . . . . . . 146

14.6.1. Monitoreo y Convergencia de una MCMC . . . . . . . . . 147

15.Modelos Jerarquicos 165

15.1. Meta-analisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

16.Datos 169

16.1. Apellidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

16.2. Mordeduras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

Page 8: 14172970 bayesilibro

INDICE GENERAL 1

17.Probabilidad Subjetiva: Fundamentos 18317.1. Verosimilitud Relativa . . . . . . . . . . . . . . . . . . . . . . . . 18317.2. El Experimento Auxiliar . . . . . . . . . . . . . . . . . . . . . . . 185

18.Referencias 187

Page 9: 14172970 bayesilibro

2 INDICE GENERAL

Page 10: 14172970 bayesilibro

Capıtulo 1Introduccion

La escuela bayesiana en estadıstica ha tomado fuerza en los ultimos anosdebido a su potencial para resolver problemas que no se pueden atacar conotros metodos y porque permite incorporar naturalmente informacion que esutil en la solucion del problema enfrentado. El siguiente ejemplo ilustra unasituacion tıpica:

Ejemplo 1.1 La loterıa que jugo anoche Suponga que a usted un amigo leofrece un billete de loterıa, pero con el problema que la loterıa jugo anoche. Suamigo, que ha demostrado ser una persona honesta le informa que el no sabe elresultado de la loterıa, y usted tampoco. En una situacion como esta podemospensar en una probabilidad de que el billete sea el ganador es la misma que elbillete tenıa antes de que se jugara la loterıa, no lo piensa ası?

Nadie niega que ante un problema debemos utilizar toda la informaciondisponible acerca de un problema particular. Para nuestro caso estadıstico laincertidumbre sobre paramteros poblacionales se resume por medio de distribu-ciones de probabilidad, que anterior a recoger informacion muestral relevantepara ellos, se conoce como ‘distribucion apriori.’ El problema esta en la formade cuantificar esta informacion sin generar alguna contradiccion.

Un problema que se ha planteado cuando se habla de la escuela bayesianaes que dos personas enfrentadas ante un problema y una decision a tomar,y asumiendo que tengan la misma informacion muestral, pueden llegar a dosdecisiones opuestas si su informacion adicional es diferente. Greenland (2001)afirma que “los epidemiologos perciben la especificacion de la distribucion aprioricomo impractica y ademas pocos epidemiologos emplearıan metodos que noestan disponibles en paquetes estadısticos lıderes.”

Albert (1997) presenta las siguientes razones por las cuales se deberıa ensenarestadıstica desde el punto de vista bayesiano:

3

Page 11: 14172970 bayesilibro

4 CAPITULO 1. INTRODUCCION

El paradigma bayesiano es un medio natural de implementar el metodocientıfico donde la distribucion apriori representa sus creencias inicialesacerca del modelo, usted recoge los datos adecuados, y la distribucionposterior representa sus creencias actualizadas despues de ver los datos.

Si la incertidumbre acerca de los modelos es expresada utilizando proba-bilidad subjetiva, entonces la regla de Bayes es la unica receta que unonecesita para realizar inferencias de los datos.

Las afirmaciones inferenciales bayesianas son mas faciles de entender quelas basadas en la inferencia tradicional basadas en muestreo repetido. Laprobabilidad que un parametro caiga dentro de un intervalo calculado esigual a 0.95. Tambien, en contraste con los procedimientos tradicionalesde pruebas de hipotesis, tiene sentido hablar acerca de la probabilidad queuna hipotesis estadıstica sea cierta.

Por el principio de condicionalidad, los unicos datos relevantes para eje-cutar inferencias son los datos realmente observados. Uno puede ignorarotros resultados de un espacio muestral que no son observados.

Los problemas de prediccion no son mas difıciles que los problemas de esti-macion de parametros. Parametros y observaciones futuras son cantidadesdesconocidas que son modeladas subjetivamente.

Ejemplo 1.2 Estatura de los colombianos. Si pensamos en la estaturapromedio de los hombres colombianos podemos pensar seriamente que este valorno es mayor que 180 cms. ni menor que 160 cms. Es claro que si conocemosmuchos hombres colombianos nuestra informacion puede utilizarse en un procesoinferencial, pero confiarıamos mas si la informacion sobre la estatura provienede algun estudio previo realizado sobre el mismo tema.

Ejemplo 1.3 La nota esperada. A un estudiante que acaba de presentarun examen se le puede preguntar cual sera su nota esperada. Con base en supropio conocimiento de su capacidad y de su preparacion, de como respondio elexamen el puede tener una idea sobre la nota que espera obtener al ser calificadosu examen. Obviamente la nota exacta no la conoce ya que existen multiplesfactores que entran en una evaluacion, pero puede proporcionar un rango dentrodel cual se sienta muy seguro.

Ejemplo 1.4 Sobre una proporcion. Ya que estamos familiarizados conel tipo de estudiantes que estan en este lugar, podemos establecer valores entrelos cuales creemos cae el porcentaje de mujeres que estudian en la universidad.

La aproximacion bayesiana es una herramienta fundamental en situacionesdonde la recoleccion de informacion muestral sea muy difıcil, por ejemplo en

Page 12: 14172970 bayesilibro

5

topicos de alta sensibilidad social o extremadamente costosa o imposible, comoserıa el caso de la determinacion del riesgo de falla de una nueva nave espacialo cual es la probabilidad de que haya vida inteligente en nuestra galaxia. Unproblema adicional es como cuantificar la informacion que se tenga.

Ejemplo 1.5 Porcentaje de estudiantes que consumen una droga. Siqueremos determinar el porcentaje de estudiantes que consumen un tipo de dro-gas, podemos utilizar la informacion que se haya recogido en estudios pasados.

Ejemplo 1.6 Tasa de estudiantes que ejercen la prostitucion. Si quer-emos determinar el porcentaje de estudiantes que ejercen la prostitucion ennuestra universidad, no parece facil resolver esto mediante una simple encuesta,aunque es posible utilizar procedimientos como el de la respuesta aleatorizada,el hecho de enfrentar un encuestador puede llevar a dar respuestas socialmenteaceptables.

Las ideas iniciales de la probabilidad surgieron relacionadas con los juegosde azar y su interpretacion es basicamente frecuentista. Esta formulacion fre-cuentista trabaja bien en muchas situaciones, pero no en todas.

Una caracterıstica distintiva de la estadıstica bayesiana es que tiene en cuentade forma explıcita la informacion previa y se involucra en el analisis en forma dedistribucion, llamada distribucion apriori. La teorıa clasica la considera basica-mente para determinar tamanos muestrales y el diseno de experimentos y, aveces, como forma de crıtica de los resultados hallados.

La expresion de la informacion previa en forma cuantitativa puede ser unproceso complejo y delicado, aunque se han hallado soluciones que pueden lle-gar a parecer extranas, como lo puede ser el uso de lo que se conoce comodistribuciones no informativas, pero que se utilizan extensamente en el trabajobayesiano aplicado.

Fuentes tradicionales para la construccion de la distribucion apriori son:

Estudios previos similares. La utilizacion de estudios previos sobre unospocos parametros especıficos ha dado origen a un area conocida comometanalisis, la cual puede trabajarse desde el punto clasico y bayesiano.Un problema cuando se trabaja con datos sacados de pubicaciones y nocon los estudios originales, es el que se conoce como sesgo de publicacion,que hace referencia a la publicacion, por parte de los editores o autores,solo a aquellos resultados que son significativos.

Opinion de expertos. La utilizacion de expertos es casi obligatoria en situa-ciones completamente nuevas donde experimentar puede ser muy costoso,por ejemplo en la implementacion de polıticas a nivel macroeconomico.

Page 13: 14172970 bayesilibro

6 CAPITULO 1. INTRODUCCION

1.1. Aproximaciones al analisis bayesiano

Esta seccion esta basada en Berger (1999).

1. Analisis bayesiano objetivo: Esta posicion se caracteriza por la utilizacionde distribuciones no informativas.

2. Analisis bayesiano subjetivo: La utilizacion de distribuciones apriori sub-jetivas es a menudo disponible como alternativa en algunos problemas.

3. Analisis bayesiano robusto: Esta posicion asume que es imposible especi-ficar completamente la distribucion apriori o el modelo, en cuyo caso esmejor trabajar dentro de clases donde haya un nivel de incertidumbresobre esta distribucion o modelo.

4. Analisis bayesiano-frecuentista: Hay problemas en los cuales la aproxi-macion frecuentista produce resultados satisfactorios, como en los meto-dos no parametricos, y al bayesiano le toca aceptarlos como solucionesseudobayesianas.

5. Analisis cuasibayesiano: Esta aproximacion utiliza distribuciones aprioriseleccionadas de una forma que acomoden a la solucion “bonita” del prob-lema, ajustando estas distribuciones apriori de diversas formas, por ejem-plo seleccionando distribuciones apriori vagas, o ajustando los parametros.

1.2. Problemas con la aproximacion clasica

Harrell (1998) ha presentado algunos de los problemas que ocurren con laaproximacion clasica a varios problemas estadısticos:

1. En pruebas de hipotesis:

Un experimento proporciona los elementos para una posibilidad derechazar la hipotesis nula.

El rechazo de una hipotesis nula es diferente de su rechazo logico.

Una hipotesis contradicha por los datos (un valor-p pequeno) significaque un evento improbable ha ocurrido, o que la hipotesis nula es falsa,o ambas.

Que hacer si la hipotesis nula no es rechazada?

De acuerdo a Fisher una hipotesis nula nunca es aceptada.

Cual estadıstico de prueba utilizar?

• No hay una regla general sobre cual estadıstico de prueba utilizar.

• Diferentes estadısticos pueden llevar a diferentes conclusiones delmismo analisis.

Page 14: 14172970 bayesilibro

1.2. PROBLEMAS CON LA APROXIMACION CLASICA 7

• Se pueden obtener conclusiones inconsistentes de manera logi-ca, por ejemplo colapasando tablas de contingencia y realizandopruebas χ2.

En la teorıa de Neyman-Pearson una prueba estadıstica de hipotesis(Ho) no esta sola sino contra teorıas competidoras (H1). Se puedencometer dos tipos de errores y la idea es tener probabililidades deambos errores tan pequenas como sean posibles. El problema es deinterpretacion: Que significa aceptar o rechazar?

En ambas escuelas no hay probabilidades de que las teorıas seancorrectas.

Problemas con los valores-p.

• Solo pueden ser utilizados como evidencia contra una hipotesis,no proporcionan evidencia a favor de una hipotesis.

• Valores-p iguales no proporcionan igual evidencia acerca de unahipotesis.

• Si usamos valor-p < 0,05 como un evento binario, la evidencia esmayor en estudios mas grandes.

• Si usamos el valor-p real, la evidencia es mayor en estudios maspequenos.

Muchos resultados pueden ser estadısticamente significativos debidoa un n grande y no a una diferencia significativa.

2. En estimacion:

Los intervalos de confianza son a menudo malinterpretados

Diferencias entre la teorıa clasicay la teorıa bayesiana

Caracterıstica Teorıa Clasica Teorıa BayesianaParametros de interes Constantes desconocidas Variables aleatoriasDistribucion apriori No existe Existe y es explıcitaModelo muestral Se asume Se asumeDistribucion posterior No existe Existe y se derivaRazonamiento Inductivo Deductivo

Utilizaremos la siguiente notacion:

θ′ = (θ1, · · · , θk) Vector de parametrosx1, · · · , xn Observaciones muestrales (i.i.d.)ξ(θ) Distribucion apriori conjunto de Θf(xi|θ) Distribucion de Xi dado θ

Page 15: 14172970 bayesilibro

8 CAPITULO 1. INTRODUCCION

Page 16: 14172970 bayesilibro

Capıtulo 2Probabilidad Subjetiva “Apriori”

El trabajo estadıstico descansa en el concepto de probabilidad. La definicionmatematica es clara: Es una funcion aditiva no negativa, cuyo maximo valores la unidad (Jackman). El problema fundamental esta en la forma como sedetermine esa funcion.

2.1. Probabilidad Personal

Horowitz (1968) define la probabilidad como

“La probabilidad no es sino un numero ındice entre 0 y 1, queexpresa un pensamiento del individuo sobre la posibilidad del resul-tado, relativo, de una experiencia... Debemos por tanto, reconocerque podemos evaluar la probabilidad, bien cuando el suceso es unicoo se trata de un suceso de caracter repetitivo, que pueda presen-tarse en varias pruebas. El hecho de que el suceso vaya a ocurrir unavez no impide que un individuo pueda formar un juicio acerca de loprobable que suceda respecto a otros posibles resultados; es decir,puede asignar probabilidades a cada uno de los posibles resultados.”

2.2. Probabilidad Subjetiva y Apuestas

Las creencias pueden ser expresadas en terminos de apuestas, esto se hacemucho en la practica, y esto puede ser utilizado como una forma general de hacerlas creencias relativas explıcitas (D’Agostini, 2000). Hay condiciones naturalesa ser impuestas sobre las apuestas:

La apuesta debe ser reversible y que ninguna apuesta pueda ser elaboradatal que uno pierda o gane con certeza. Esta condicion obliga al sujeto aasignar las apuestas consistentemente con sus creencias.

9

Page 17: 14172970 bayesilibro

10 CAPITULO 2. PROBABILIDAD SUBJETIVA “APRIORI”

La anterior tambien obliga a aceptar la segunda condicion: una vez el hafijado los odds, el debe estar preparado para apostar en cualquier direccion.Esta coherencia juega dos papeles importantes:

1. es moral y obliga a la gente a ser honesta,

2. y otro formal, que permite que las reglas basicas de la probabilidadsean derivadas como teoremas.

Es evidente que “subjetividad” no se puede confundir con “arbitrariedad”,ya que todos los elementos para la asignacion de probabilidades deben tenerseen cuenta, incluyendo el conocimiento que otros puedan asignar a las diferentesposibilidades de los mismos eventos.

2.3. Clasificacion de las Distribuciones Apriori

Distribuciones Apriori =

PropiasImpropias

Definicion 2.1 (Distribucion Apriori Propia) Es una distribucion que asignapesos no negativos y que suman o integran hasta uno, a todos los valores posiblesdel parametro.

Ası, una distribucion propia satisface las condiciones de funcion de densidadde probabilidad. Una distribucion impropia es la que suma o integra a un valordiferente de uno, digamos K. Si K es finito, entonces la distribucion impropiainduce una distribucion propia normalizando la funcion. Si K es infinito, en-tonces la distribucion tiene un papel de ponderacion o de herramienta tecnicapara llegar a una dsitribucion posterior.

Distribuciones Apriori =

InformativasNo informativas

Definicion 2.2 (Distribucion Apriori No Informativa) Decimos que unadistribucion apriori es no informativa cuando refleja una ignorancia total o unconocimiento muy limitado sobre el parametro de interes.

El area de las distribuciones no informativas es grande y polemica. Existendiferentes posiciones sobre como reflejar ignorancia mediante una distribucion.A este tema le dedicaremos una seccion ya que es de crucial importancia enestadıstica bayesiana.

Distribuciones Apriori =

ConjugadasNo conjugadas

Definicion 2.3 (Distribucion Apriori Conjugada) Decimos que una dis-tribucion apriori es conjugada, si al proceder a su actualizacion mediante lainformacion muestral, la distribucion aposteriori es igual a la apriori, exceptoen los hiperparametros.

Page 18: 14172970 bayesilibro

2.4. DISTRIBUCIONES APRIORI NO INFORMATIVAS 11

2.4. Distribuciones Apriori No Informativas

En muchas ocasiones sabemos nada o muy poco acerca del parametro deinteres o no queremos involucrar en nuestro estudio informacion previa, sinomas bien dejar que sean los datos los que “hablen por ellos mismos”. En estecaso la distribucion debe reflejar nuestro total desconocimento de los valoresposibles del parametro. Esta es un area de trabajo que ha crecido enormemente.

2.5. Distribuciones Apriori Informativas

Una de las mayores dificultades en la ejecucion de un analisis bayesianoconcierne con la identificacion, de la seleccion y la justificacion de la distribucionapriori. Preguntas como:

Que clase de distribucion apriori debemos utilizar?

Que tipos de datos estan disponibles para seleccionar el modelo apriori?

Como cuantificificamos la informacion subjetiva?

Como ajustamos la distribucion apriori con los datos subjetivos disponibles?

deben ser resueltas sin lugar a dudas.

2.6. Elicitacion de Probabilidades Subjetivas

En muchas situaciones es de importancia cuantificar la informacion subjetivaque sobre la posibilidad de la ocurrencia de un evento sientan uno o variosindividuos. La idea es entonces “desarrollar metodos que ayuden a la personaque asigna las probabilidades, las asigne de acuerdo con sus juicios” ( Winkler,1967a, 1967b). Esta tarea es difıcil y puede llegar a ser frustante.

En esta asignacion de probabilidades personales a eventos hay dos requisitos:

1. La asignacion debe obedecer ciertos postulados de coherencia, y

2. las asignaciones deben corresponder a los juicios de la persona.

Es facil chequear el primer punto, pero en el segundo una probabilidad asig-nada a un evento es el resultado de la interaccion de numerosas creencias ojuicios que solo existen en la mente de la persona. Y hay que tener en cuentaque esta asignacion se realiza en un punto del tiempo y que la misma personapuede revisarlas a la luz de nueva informacion. Uno definitivamente no puedeprobar que las probabilidades asignadas corresponden realmente a los juicios dela persona.

Page 19: 14172970 bayesilibro

12 CAPITULO 2. PROBABILIDAD SUBJETIVA “APRIORI”

2.6.1. Supuestos de Coherencia

Asumimos que la persona que asigna las probabilidades subjetivas medianteinterrogacion directa, posee las siguientes condiciones ideales:

1. Ella nunca viola el supuesto de coherencia.

2. Ella entiende perfectamente los metodos utilizados para la asignacion deprobabilidades. Esto es, ella entiende las alternativas que se le presentany las implicaciones de cada alternativa.

3. Ella tiene una funcion de utilidad que es lineal con respecto al dinero enel rango relevante. Ademas, ella escoge sus respuestas de tal forma quemaximiza su utilidad esperada.

2.7. Formas de Elicitacion

Una forma de asignacion de probabilidades es la interrogacion directa, queconsiste en preguntas que conciernen con

las probabilidades,

CDF (Funcion de Distribucion Acumulada)

PDF (Funcion Densidad de Probabilidad)

• No parametrica

• Parametrica.

Ejemplo 2.1 Para ilustrar esta situacion consideremos este ca-so presentado en Bracken (1966). Supongamos que una personaquiere asignar una distribucion apriori beta a la variable aleato-ria π que representa el voto liberal en una eleccion futura comola fraccion del total de votos. Asumamos que el encuentra difıcilasignar un valor esperado subjetivo al valor de π, pero es capazde expresar sus juicios asignando una probabilidad de 0.50 a laafirmacion π ≤ 0,50 y asignando una probabilidad de 0.75 a laproposicion π ≤ 0,60.

prevision de muestras futuras,

HFS (Muestras Hipoteticas Futuras)

EPS (Informacion Muestral Apriori Equivalente)

apuestas,

loterıas hipoteticas,

graficos de distribuciones de probabilidad, etc.

Page 20: 14172970 bayesilibro

2.8. UN DIALOGO PARA LA OBTENCION DE LA PROPORCION 13

Oakley y O’Hagan (2002) consideran el caso de elicitacion de la informacionapriori de un sujeto que solo puede dar informacion parcial. De todas formasen un proceso de elicitacion hay incertidumbre con relacion a la informacionproporcionada por el experto. Ellos se limitan al caso en el cual el expertoproporciona informacion sobre un θ observable.

Chesley (1978) hace una comaparacion entre diferentes metodos de elic-itacion. la tecnica usada para la elicitacion afecta como el sujeto mira el prob-lema, la exactitud de sus respuestas y la consistencia de las mismas.

2.8. Un Dialogo para la Obtencion de la Pro-porcion

El siguiente dialogo ilustra una posible forma de elicitar informacion sobreuna proporcion y es presentado en Raiffa (1970)

Analista: Quisiera mostrarle una forma de obtener una distribucion de prob-abilidad subjetiva acerca de una proporcion π. Quiero elegir un contextoque sea lo suficientemente significativo para usted porque sus opiniones sonlas que interesan. Consideremos la poblacion de medicos no abstemios enColombia. Supongamos que π es la propocion de estos bebedores que con-sumieron mas cerveza que aguardiente durante el ultimo ano. Por cierto,sabe usted algo de los habitos alcoholicos de los medicos?

Cliente: No mucho. Conozco personalmente a tres o cuatro medicos, pero meimagino que los doctores no seran muy diferentes de los abogados, losdentistas o los ingenieros. El problema es que no sabrıa responder a supregunta para cualquiera de esos grupos. No tengo ni la mas remota ideadel valor de π.

Analista: Bueno. Esto es justamente lo que querıa.

Cliente: Supongo que quiere que haga una prediccion optima de π. No se sipodrıa hacerlo.

Analista: No, no es eso lo que quiero. De hecho no creo que tenga sentidohablar de una prediccion “optima”. Optima para que? Dejeme hacerle unaspreguntas de precalentamiento. Cree usted que es probable que π sea menoro mayor que 0.10?

Cliente: Mayor, seguro.

Analista: Es probable que π sea mayor o menor que 0.90?

Cliente: Menor.

Analista: Estas preguntas eran faciles. Vea usted, ya sabe algo sobre π. Ahoraquiero que piense bien antes de contestarme. Deme una proporcion tal quesea extremadamente difıcil decidir si es probable que π sea mayor o menor

Page 21: 14172970 bayesilibro

14 CAPITULO 2. PROBABILIDAD SUBJETIVA “APRIORI”

que ese valor. En otras palabras, quiero que me de un valor para el quecrea que es igualmente probable que π sea mayor o menor que el.

Cliente: (Despues de pensar un rato). Yo dirıa que 0.60. Pero no estoy nadaseguro. Creo que la mayorıa de los medicos prefieren tomar cerveza.

Analista: No se preocupe demasiado; si quiere cambiar de opinion mas tarde,no hay inconveniente. Me acaba de decir que cree que es igualmente prob-able que π sea mayor o menor que 0.60.

Cliente: Exactamente. Pero no me pida que defina lo que significa “igualmenteprobable”.

Analista: Por “igualmente probable” , en este contexto, quiero decir que ust-ed es indiferente entre recibir un premio muy deseable condicionado aque π sea menor que 0.60, y recibir este mismo premio condicionado aque π sea mayor que 0.60. O, de forma mas dramatica, si su vida de-pendiera de ello, optarıa igualmente por un π ≤ 0,60 que por un π ≥ 0,60.Esta siguiendome?

Cliente: Hasta ahora sı.

Analista: Esencialmente, me acaba de decir, y usted lo cree, que 0.60 divideel intervalo de cero a uno en dos partes igualmente probables,en su opi-nion. Ahora voy a pedirle que repita este proceso de dividir imaginaria-mente diferentes intervalos en dos partes igualmente probables. Por ejem-plo, que cree usted que es mas probable, que π sea menor que 0.20 o queeste comprendido entre 0.20 y 0.60?

Cliente: Entre 0.20 y 0.60.

Analista: Entre cero y 0.58, o entre 0.58 y 0.60?

Cliente: Entre 0 y 0.58.

Analista: De acuerdo. Ahora deme un numero para el que crea que es igual-mente probable que π este comprendido entre cero y ese numero y esenumero y 0.60.

Cliente: Que ocurre si π es mayor que 0.60?

Analista: Tal como estan las cosas usted pierde. Mire, si me dice que el numeroes π∗, esto quiere decir que sus probabilidades de ganar el premio sonigualmente buenas si elege el intervalo de cero a π∗ como lo son si elige elintervalo de π∗ a 0.60. Si π es mayor que 0.60 , no obtendrıa el premiosea cual sea el lado de π∗ que elija, porque π no estarıa en esos intervalos.

Cliente: De acuerdo. Veamos... Dire que 0.50 divide el intervalo de cero a 0.60en dos partes igualmente probables.

Page 22: 14172970 bayesilibro

2.8. UN DIALOGO PARA LA OBTENCION DE LA PROPORCION 15

Analista: Le hubiera sido mas facil si, una vez que me habıa dado el numero0.60 le hubiera hecho la ultima pregunta de esta otra manera?: “Mire,suponga que le digo que π es menor que 0.60. Como dividirıa ahora elintervalo de cero a 0.60 en dos partes igualmente probables?”

Cliente: Son iguales las preguntas?

Analista: Creo que sı. Pienselo.

Cliente: Supongo que son iguales. La segunda me parece mas facil, pero lascosas siempre me parecen mas faciles a la segunda vez.

Analista: Continuemos. Imagınese que le digo que π es mayor que 0.60. Comodividirıa el intervalo 0.60 a 1 en dos partes igualmente probables?

Cliente: 0.70. El intervalo de 0.60 a 0.70 me parece igualmente probable quelos valores superiores a 0.70. Pero realmente me siento un poco incomodoacerca de 0.50 y 0.70 porque el 0.60 es muy poco firme. Me parece comosi estuviera construyendo sobre una esponja. Espero que se de cuenta deque estos numeros son muy poco firmes.

Analista: Me doy cuenta de ello. Animo! Ahora me ha dado tres numeros,0.60, 0.50 y 0.70. Voy a dibujar un intervalo de cero a 1 y colocar estospuntos en el.

0 1

Me acaba de decir que, en lo que a usted respecta, cree que es igualmenteprobable que π este situado en cualquiera de los cuatro intervalos [0 a0.50], [0.50 a 0.60], [0.60 a 0.70] y (0.70 a 1.00].

Cliente: Si, creo que eso es lo que he dicho.

Analista: Ahora voy a comprobarlo. No pretendo confudirle ni molestarle, peroes importante considerar estas cuestiones desde todos los angulos. Porejemplo, prefirirıa usted apostar que π esta en el intervalo [0.50 a 0.70 ]o apostar que esta fuera de este intervalo?

Cliente: Creo que apostarıa que esta dentro del intervalo. Pero estoy siendoinconsistente, no?

Analista: Sı, lo esta siendo, pero es normal. Quiero que piense mas sobre ello.Es una ventaja que trate conscientemente de ser consistente.

Cliente: Bien, no quiero cambiar el 0.60. Me siento mas inseguro con el 0.70.Supongo que estarıa dispuesto a admitir un 0.68. En lo que a mı respecta,hay una probabilidad del 50-50 de que π este en el intervalo [0.50 a 0.68].

Analista: Estarıa dispuesto a decir que es igualmente probable que π este enel intervalo [0.60 a 0.68] o en el intervalo [0.68 a 1]?

Page 23: 14172970 bayesilibro

16 CAPITULO 2. PROBABILIDAD SUBJETIVA “APRIORI”

Cliente: De acuerdo, lo admitire. Pero, si lo hicieramos todo otra vez y siborrara esta convesacion de mi memoria, puedo imaginar que, en lugar determinar con los numeros 0.50, 0.60 y 0.68, podrıa haber terminado connumeros como 0.52, 0.64 y 0.74.

Analista: Bien, podrıa usted imaginar terminar con numeros tales como 0.20,0.40 y 0.55?

Cliente: No. Realmente no. Pero, que harıa si yo dijera “Sı”?

Analista: Seguirıa presionandole y utilizarıa algun sistema de promedios queseparara aun mas los tres que me ha dado. Pero, continuemos. Me referire alnumero 0.60 como su percentil 0.50, al numero 0.50 como su percentil 0.25y al numero 0.68 como su percentil 0.75. Necesito unos cuantos porcentajesmas. Como dividirıa usted el intervalo [0 a 0.50] en dos partes igualmenteprobables?

Cliente: 0.42.

Analista: Ahora divida el intervalo [0 a 0.42]

Cliente: Me esta forzando un poco demasiado.

Analista: Bien. Suponga que yo le dijera que π es menor que 0.42. Preferirıaapostar por el intervalo [0 a 0.21] o por el intervalo [0.21 a 0.42]?

Cliente: Por el ultimo, por supuesto. De acuerdo, utilice 0.36.

Analista: Ahora pasemos al extremo superior. Divida [0.68 a 1.00].

Cliente: Utilice 0.75.

Analista: De acuerdo. Divida [0.75 a 1.00].

Cliente: Utilice 0.80.

Analista: Resumamos sus respuestas en una tabla:

Distribucion Subjetiva del ClientePercentil Valor del Percentil0.0625 0.360.125 0.420.25 0.500.50 0.600.75 0.680.875 0.750.9375 0.80

Esta discusion puede continuar por largo tiempo y a medida que el clientees mas y mas consciente del proceso de elicitacion y su informacion es cada vezmejor.

Page 24: 14172970 bayesilibro

2.9. ANALISIS PREPOSTERIOR 17

2.9. Analisis preposterior

Martz y Waller (1982) recomiendan lo siguiente para garantizar la realizacionde un buen analisis bayesiano:

Una justificacion y analisis detallados de la distribucion apriori selecciona-da, con un claro entendimiento de las implicaciones matematicas de laapriori,

Una documentacion completa de las fuentes de datos utilizados en la iden-tificacion y seleccion de la apriori,

Un analisis preposterior de la distribucion apriori con resultados de pruebahipoteticos,

Una distribucion aposteriori claramente definida para los parametros deinteres,

Un analisis de sensibilidad de las inferencias bayesianas para el modeloapriori seleccionado.

Page 25: 14172970 bayesilibro

18 CAPITULO 2. PROBABILIDAD SUBJETIVA “APRIORI”

Page 26: 14172970 bayesilibro

Capıtulo 3Teorema de Bayes

El Teorema de Bayes es ahora una de las piedras fundamentales del trabajoestadıstico y sigue siendo de cierta discusiones tanto de sus orıgenes como de susimplicaiones filosoficas (Dawid, 2004). Este teorema fue publicado varios anosdespues de la muerte de reverendo Thomas Bayes por un amigo.

Teorema 3.1 (Teorema de Bayes) Sean B1, B2, · · · , Bk eventos mutuamenteexcluyentes y exhaustivos. Para cualquier evento nuevo A, tenemos

P (Bi|A) =P (Bi

⋂A)

P (A)=

P (A|Bi)P (Bi)∑ki=1 P (A|Bi)P (Bi)

Prueba: (Ejercicio)

Teorema 3.2 (Teorema de Bayes para Variables Aleatorias) Sean X yθ variables aleatorias con fdp’s f (x|θ) y ξ(θ).

ξ (θ|x) =f (x|θ) ξ(θ)∫

Θf (x|θ) ξ(θ) dθ

Dentro del marco bayesiano tenemos que:

X : Datos (escalar o vector o matriz)

θ: Parametro desconocido (escalar o vector o matriz)

f (x1, · · · , xn|θ): Verosimilitud de los datos dado el parametro (desconoci-do) θ.

ξ(θ): Distribucion apriori de θ.

19

Page 27: 14172970 bayesilibro

20 CAPITULO 3. TEOREMA DE BAYES

Por el teorema anterior

ξ (θ|x1, · · · , xn) =f (x1, · · · , xn|θ) ξ(θ)∫

Θf (x1, · · · , xn|θ) ξ(θ) dθ

Esta es llamada la distribucion posterior. La inferencia bayesiana se derivade esta distribucion. En la practica, el denominador de la expresion anterior nonecesita ser calculado en general, y la regla de Bayes se escribe como

ξ (θ|x1, · · · , xn) ∝ f (x1, · · · , xn|θ) ξ(θ)

Por lo tanto solo necesitamos conocer la distribucion posterior hasta una con-stante de normalizacion. Muchas veces somos capaces de identificar la distribu-cion posterior de θ mirando solamente este numerador. El teorema de Bayes loque hace es una “actualizacion” de ξ(θ) a ξ (θ|x1, · · · , xn).

Nota: El aprendizaje bayesiano sera

ξ (θ|x1) ∝ f (x1|θ) ξ(θ)ξ (θ|x1, x2) ∝ f (x2|θ) f (x1|θ) ξ(θ)

∝ f (x2|θ) ξ (θ|x1)

Por lo tanto el teorema de Bayes nos muestra como el conocimiento acercadel estado de la naturaleza representada por θ es continuamente modificada amedida que nuevos datos son adquiridos.

Ejemplo 3.1 Distribucion Apriori Uniforme Truncada Muchas vecessomos capaces en un problema binomial de especificar claramente en que regiones imposible que este el parametro, pero somos incapaces de especificar mejornuestro conocimiento sobre el. Podemos pensar en utilizar una distribucion apri-ori que refleje esta ignorancia, para ello considremos una uniforme truncada, estoes,

π ∼ U (π0, π1)

Esto es,

ξ (π|π0, π1) =1

π1 − π00 ≤ π0 < π < π1 ≤ 1

La distribucion posterior de π dado x es

ξ (π|x, π0, π1) =

Γ(n+2)Γ(y+1)Γ(n−y+1)π

(y+1)−1(1 − π)(n−y+1)−1

∫ π1

π0

Γ(n+2)Γ(y+1)Γ(n−y+1)π

(y+1)−1(1 − π)(n−y+1)−1dπ

donde y =∑ni=1 xi. Notemos que el denominador de la funcion es la P (π0 < W < π1|y + 1, n− y + 1),

donde W ∼ Beta(y + 1, n − y + 1), y esto se calcula facilmente en programascomo el R.

Page 28: 14172970 bayesilibro

21

Es facil hallar la media y la varianza aposteriori. Ellas son

E (π|x, π0, π1) =y + 1

n+ 2

P (π0 < W < π1|y + 2, n− y + 1)

P (π0 < W < π1|y + 1, n− y + 1)

y

V ar (π|x, π0, π1) =(y + 2)(y + 1)

(n+ 3)(n+ 2)

P (π0 < W < π1|y + 3, n− y + 1)

P (π0 < W < π1|y + 1, n− y + 1)

−(

(y + 1)

(n+ 2)

P (π0 < W < π1|y + 2, n− y + 1)

P (π0 < W < π1|y + 1, n− y + 1)

)2

Ejemplo 3.2 Aplicacion Numerica del Caso Anterior Suponga quecreemos que el porcentaje de mujeres que actualmente estudia en la universidadesta entre el 35 % y el 70 %, o sea

ξ(π) =1

0,70 − 0,35para π ∈ (0,35, 0,70)

= 0 en otro caso.

Asumamos ademas que tomamos una muestra al azar de la poblacion de10 estudiantes y encontramos que 6 son hombres y 4 mujeres, o sea, y = 4 yn = 10. El intervalo de confianza clasico (clasico porque la mayorıa de los textosbasicos es el unico que presentan) basado en el teorema central del lımite, apesar del tamano muestral ser pequeno, dada la casi simetrıa de la distribucionpoblacional, se puede aplicar, sera

π ± 1,96

√π (1 − π)

n

lo que produce (0.0963, 0.703).La aproximacion bayesiana nos da una distribucion posterior

ξ (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) =

Γ(12)Γ(5)Γ(5)π

4(1 − π)6

K(0,70; 5, 7) −K(0,35; 5, 7)

donde

K(z;α, β) =

∫ z

0

Γ(α+ β)

Γ(α)Γ(β)xα−1(1 − x)β−1dx

Entonces

E (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) = 0,4823673

y un intervalo de credibilidad del 95 % es (0.3561442, 0.6680237). Este ultimose encuentra resolviendo

Page 29: 14172970 bayesilibro

22 CAPITULO 3. TEOREMA DE BAYES

∫ π∗

π∗

Γ(12)Γ(5)Γ(5)π

4(1 − π)6

K(0,70; 5, 7) −K(0,35; 5, 7)dπ = 0,95

y formando el intervalo (π∗, π∗).

3.1. Usos de la Funcion de Verosimilitud en Anali-sis Bayesiano

Berger et a. (1998) presenta diferentes usos para la funcion de verosimilitud,L(θ):

1. Reporte Cientıfico: Se considera una buena practica de reporte presentarseparadamente L(θ) y ξ(θ|x), a menudo graficamente, para indicar el efectode la distribucion apriori. Esto le permite a otros investigadores utilizarsus propias distribuciones apriori.

2. Analisis de Sensibilidad: Es importante estudiar la sensibilidad a ξ(θ), ytener disponible L(θ) para este proposito es valioso.

3. Costo de Elicitacion: Obtener distribuciones apriori subjetivas es a menudomuy costoso, tanto en tiempo como en esfuerzo. Es a menudo efectivo anivel de costos eliminar los parametros de molestia de una forma basica,produciendo L(θ), y concentrar la elicitacion subjetiva a ξ(θ).

4. Objevitivismo: Aunque la “objetividad” no se puede garantizar en ningunestudio, el presentar L(θ) ayuda a darle esta impresion a muchos investi-gadores.

5. Combinacion de Verosimilitudes: Si se obtiene informacion sobre θ dediferentes fuentes independientes, y vienen con sus respectivas verosimili-tudes, digamos Li(θ), podemos resumir toda esta informacion como

∏i Li(θ).

Esta es la base del meta-analisis. De hecho, no se pueden multiplicar apos-terioris de esta forma.

6. Aprioris Impropias: Se reduce los peligros de utlizar aprioris impropias.

Page 30: 14172970 bayesilibro

Capıtulo 4Distribuciones Conjugadas

Dada la magnitud de la tarea de determinar una distribucion apriori querefleje de una manera clara nuestra informacion bayesiana, uno intuitivamentepiensa en limitar la busqueda a familias de distribuciones apriori que poseanciertas caracterısticas, tales como:

1. Tratabilidad analıtica:

a) Facilidad de determinacion de la distribucion posterior de la muestray de la apriori.

b) Facilidad para obtener caracterısticas de interes, por ejemplo, valoresesperados.

c) La apriori y aposteriori deben ser miembros de la misma familia(cerrada).

2. Flexibilidad y riqueza: Debe permitir modelar una gran variedad de infor-macion apriori y creencias.

3. Interpretabilidad: Los parametros deben ser de tal forma que el analistapueda relacionarlos facilmente con sus creencias e informacion.

Las distribuciones conjugadas juegan un papel importante en los metodosbayesianos, ya que su uso puede simplificar el procedimiento de integracionrequerido para la marginalizacion. Ya que al pertenecer la apriori y la aposteri-ori a la misma familia, el proceso de actualizacion de parametros se simplifica(Ramoni y Sebastiani, 1998), lo cual es una gran ventaja para los sistemas in-teligentes.

La conjugacion nos limita a la seleccion de una clase de aprioris limitada y lainformacion apriori solo puede utilizarse para la seleccion de los hiperparamet-ros. Si la clase es lo suficientemente grande esto puede no ser un gran problema.

23

Page 31: 14172970 bayesilibro

24 CAPITULO 4. DISTRIBUCIONES CONJUGADAS

4.1. Distribucion Binomial

Teorema 4.1 Suponga que X1, · · · ,Xn es una muestra aleatoria de una dis-tribucion Bernoulli con parametro π, donde el valor de π es desconocido. Tam-bien supongamos que la distribucion apriori de π es una beta con parametrosα(> 0) y β(> 0). Entonces la distribucion posterior de π cuando Xi = xi, parai = 1, · · · , n es una beta con parametros α+

∑ni=1 xi y β + n−∑n

i=1 xi.

SeanX1, · · · ,Xn variables aleatorias independientes Bernoulli(π). La verosimil-itud es

L(θ) ∝ π∑

iXi(1 − π)n−

∑iXi

El parametro π es univariable, y restringido al intervalo [0, 1]. La distribucionconjugada sera

ξ(π) ∝ πα−1(1 − π)β−1, con α, β > 0

α y β son llamados hiperparametros. Esta palabra se utiliza para distiguirlosdel parametro modelo muestral π. Si comparamos la apriori con la verosimilitudvemos que α−1 puede asociarse con

∑iXi y β−1 con n−∑iXi. Por lo tanto el

experto que debe expresar su informacion apriori puede realizar la tarea mentalde extraer una muestra imaginaria de 0’s y 1’s de tamano α+β− 2 y distribuirtanto los ceros y los unos como su imaginacion se lo dicte. El tamano de estamuestra imaginaria puede asociarse con el nivel de confianza subjetiva que elexperto tenga en sus asignaciones. Esta distribucion apriori se puede resumirmediante:

E(π) =α

α+ β

Moda =α− 1

α+ β − 2

V ariancia =αβ

(α+ β)2(α+ β + 1)=E(π)(1 − E(π))

α+ β + 1

La esperanza apriori E(π) corresponde a la probabilidad marginal de tenerun exito antes de obtener cualquier observacion:

E(π) =

∫πξ(θ) dπ =

∫p(Y = 1|π)ξ(π) dπ = p(X = 1)

Ya que la varianza de π es una funcion decreciente de α + β para una mediadada, la suma de los hiperparametros α+ β es tambien llamada la precision dela distribucion.

La distribucion posterior es

ξ(π|X1, · · · ,Xn) ∝ πα+∑

iXi−1(1 − π)β+n−

∑iXi−1

la cual es una distribucion beta con hiperparametros α+∑iXi y β+n−∑iXi.

Por lo tanto, la precision posterior se incrementa por el tamano muestral n.

Page 32: 14172970 bayesilibro

4.1. DISTRIBUCION BINOMIAL 25

La media aposteriori se puede expresar como

α+∑ni=1Xi

α+ β + n=

(α+ β

α+ β + n

)(α

α+ β

)+

(n

α+ β + n

)(∑ni=1Xi

n

)

lo que es una media ponderada

E (π|X1, · · · ,Xn, α, β) = w · E(π|α, β) + (1 − w) ·∑ni=1Xi

n

donde w = (α+ β)/(α+ β + n).

Ejemplo 4.1 Este ejemplo es desarrollado por Draper (2000) y hace referen-cia a entradas de pacientes a un hospital universitario con Ataque Agudo delMiocardio (AAM). Se considera la tasa de mortalidad de los pacientes en los30 dıas siguientes a la admision al hospital. Se conoce que en Inglaterra estatasa es del 15 % (No necesariamente para este hospital la tasa sea igual). Paraelicitar la distribucion apriori sobre la proporcion de pacientes con AAM quemuere en lo 30 dıas siguientes, se utiliza esta informacion como, digamos elpromedio. Ahora se necesita un poco mas de informacion y el analista,tal vezusando el Teorema Central del Lımite, piensa que el 95 % de las posibles tasasde mortalidad para este hospital deben estar entre 5 % y 30 %. Debemos buscarpor lo tanto una distribucion Beta(α, β) que tenga una media de 0.15 y el areabajo la curva entre los lımites (0.05, 0.30) debe ser igual a 0.95. Mediante ensayoy error se encuentra que α = 4,5 y β = 25,5 se tiene una distribucion con lascaracterısticas deseada.

Escrito esto en forma jerarquica el modelo es

(α, β) = (4,5, 25,5) (Hiperparametros)

π|α, β ∼ Beta(α, β) (Apriori)

X1, · · · ,Xn ∼ Bernoulli(π) (Verosimilitud)

La funcion de verosilmilitud de los datos es

L(π) = p (X1, · · · ,Xn|π) = πS(1 − π)n−S ∝ Beta(S + 1, n− S + 1)

donde S =∑ni=1Xi. Si hemos observado 400 personas con AMM en el hospi-

tal, de los cuales 72 fallecieron en los siguientes 30 dıas, lo cual produce unaverosimilitud proporcional a una Beta(73, 329). La distribucion posterior sera,por lo tanto,

ξ(π|S = 72, n = 400) ∝ Beta(76,5, 353,5)

La informacion muestral equivalente en la distribucion apriori se puede aso-ciar con n∗ = α + β, en este caso es n∗ = 4,5 + 25,5 = 30. La informacionmuestral es muy grande con relacion a la apriori 400/30 es mas de 13 a 1.

Page 33: 14172970 bayesilibro

26 CAPITULO 4. DISTRIBUCIONES CONJUGADAS

4.1.1. Elicitacion de los Parametros de la Beta para Pro-porciones

1. Determine la probabilidad r de que un elemento sacado al azar sea unexito. Esta probabilidad sera considerada como la media de la beta

r =α

α+ β

2. Dada la informacion que el primer elemento sea un exito, determine laprobabilidad, r+, de que el segundo elemento seleccionado al azar sea otroexito. La regla dice que la densidad actualizada es una Beta (α+ 1, β),ası que

r+ =α+ 1

α+ β + 1

3. Resuelva simultaneamente

α =r (1 − r+)

r+ − r

β =(1 − r) (1 − r+)

r+ − r

4. Chequee consistencia: Pregunte por la probabilidad de que el segundoartıculo sea un exito dado que el primero fue un fracaso, diga r−. Uti-lizando los valores de α y β calcule

r− =α

α+ β + 1

y compruebe si los valores elicitados concuerdan.

5. Si el resultado no es satisfactorio se pueden ajustar los valores de r yr+ or− hasta obtener un resultado consistente.

En lugar de una Beta

El modelo apriori Beta tiene limitaciones practicas para representar conocimien-to apriori sobre la proporcion. Gordy1 revisa algunos modelos y propone otropara representar una variable continua que este definida en un intervalo acotado.

1Gordi, B. M. (1998) A generalization of generalized beta distributions. Board of Governorsof the Federal Reserve System

Page 34: 14172970 bayesilibro

4.1. DISTRIBUCION BINOMIAL 27

La Hipergeometrica Gaussiana (GH) tiene densidad

GH (x |p, q, r, λ ) =xp−1(1 − x)q−1(1 + λx)−r

B(p, q) 2 F1(r, p, p+ q,−λ)

para 0 < x < 1, p > 0, q > 0 y 2 F1 es la funcion gaussiana hipergeometri-ca. Cuando r = 0 o λ = 0 se tiene la beta ordinaria. Esta distribucion seha usado en analisis bayesiano.

La beta generalizada se define por

GB (x |a, b, c, p, q ) =|a|xap−1 (1 − (1 − c)(x/b)a)

q−1

bapB(p, q) (1 + c(x/b)a)p+q

para 0 < xa < ba/(1−c), 0 ≤ c ≤ 1, y b, p y q positivos. Cuando a = b = 0y c = 1 se tiene la beta prima.

Gordy propone la beta generalizada llamada hipergeometrica confluentey definida por

CH(x |p, q, s ) =xp−1(1 − p)q−1 exp (−sx)B(p, q) 1 F1(p, p+ q,−s)

para 0 < x < 1. La 1 F1 es la hipergeometrica confluente.

Gordy propone la hipergeometrica confluente compuesta definida por

CCH(x |p, q, r, s, ν, θ ) =xp−1(1 − νx)q−1(θ + (1 − θ)νx)−r exp(−sx)

B(p, q)H(p, q, r, s, ν, θ)

para 0 < x < 1/ν, p > 0, q > 0, r ∈ R, s ∈ R, 0 ≤ ν ≤ 1 y θ > 0. AdemasH esta dada por

H(p, q, r, s, ν, θ) = ν−p exp (−s/ν) Φ1 (q, r, p+ q, s/ν, 1 − θ)

con Φ1 es la funcion hipergeometrica confluyente definida por

Φ1(α, β, γ, x, y) =

∞∑

m=0

∞∑

n=0

(α)m+n(β)n(γ)m+nm!n!

xmyn

y donde (a)k es la notacion de Pochhammer, esto es, (a)0 = 1, (a)1 = ay (a)k = (a)k−1(a+ k − 1). Para esta distribucion el k-esimo momento secalcula como

E(Xk) =(p)k

(p+ q)k

H(p+ k, q, r, s, ν, θ)

H(p, q, r, s, ν, θ)

Page 35: 14172970 bayesilibro

28 CAPITULO 4. DISTRIBUCIONES CONJUGADAS

4.2. Distribucion Binomial Negativa

Teorema 4.2 Suponga que X1, · · · ,Xn es una muestra aleatoria de una dis-tribucion binomial negativa con parametros r y π, donde r tiene una valor es-pecıfico (r > 0) y el valor de π es desconocido. Tambien supongamos que ladistribucion apriori de π es una beta con parametros α(> 0) y β(> 0). Entoncesla distribucion posterior de π cuando Xi = xi, para i = 1, · · · , n es una beta onparametros α+ rn y β +

∑ni=1 xi.

4.3. Distribucion Geometrica

Otra distribucion de conteo popular es la geometrica, la cual cuenta elnumero de fracasos antes de obtener el primer exito. Su funcion de probabilidadesta dada por

P (X = k) = (1 − π)πk k = 0, 1, 2, · · ·

Su media es π/(1 − π) y su varianza π/(1 − π)2. El sesgo es (1 + π)/√π.

4.4. Distribucion Multinomial

Definicion 4.1 (Distribucion Dirichlet) El vector aleatorio X = (X1, · · · ,Xk)′

se distribuye como una Dirichlet con vector de parametros α = (α1, · · · , αk)′ con

αi > 0; i = 1, · · · , k, si la p.d.f. f(x|α) para x = (x1, · · · , xk) y∑ki=1 xi = 1

esta dada por:

f(x|α) =Γ(α1 + · · · + αk)

Γ(α1) · · ·Γ(αk)xα1−1

1 · · ·xαk−1k

La media de Xi es

E(Xi) =αiα0

donde α0 =∑ki=1 α1.

La varianza de Xi es

var(Xi) =αi(α0 − αi)

α20(α0 + 1)

y la covarianza entre Xi y Xj es, (i 6= j),

Cov(Xi,Xj) = − αiαjα2

0(α0 + 1)

Page 36: 14172970 bayesilibro

4.5. DISTRIBUCION POISSON 29

Teorema 4.3 Suponga que Y = (Y1, · · · , Yk)′ tiene una distribucion multino-mial con parametros n (fijo) y W = (W1, · · · ,Wk)

′, desconocidos. Suponga tam-bien que la distribucion apriori de W es una Dirichlet con vector de parametrosα = (α1, · · · , αk)′ con αi > 0; i = 1, · · · , k. Entonces la distribucion posteriorde W cuando Yi = yi, i = 1, · · · , k, es una distribucion Dirichlet con vector deparametros α∗ = (α1 + y1, · · · , αk + yk)

′.

Gustafson y Walker (200*) extienden el problema a datos multinomialeslongitudinales. Ellos penalizan la distribucion apriori Dirichlet para mermarel impacto de grandes cambios en las probabilidades en puntos sucesivos deltiempo. Si denotamos

ξD(π|α) =Γ(α1 + · · · + αk)

Γ(α1) · · ·Γ(αk)πα1−1

1 · · ·παk−1k

Entonces esta funcion es reemplazada por

ξ(πi|σ

)= c(σ)

T∏

t=1

ξD(πi,t|α = 1)

exp

(− 1

σ2

T∑

t=2

∣∣∣∣πi,t − πi,t−1∣∣∣∣2)

donde ||·|| es la norma euclıdea, y σ es un hiperparamtero que debe ser especifi-cado. La i hace referencia al i-esimo sujeto. Claramente σ gobierna el grado en elcual la apriori favorece los pequenos cambios en el tiempo. En particular valoresgrandes de σ corresponden a menos favoritismo, con independencia surgiendocuando σ → ∞.

4.5. Distribucion Poisson

El modelo de conteo mas utilizado es el modelo Poisson ya que su desarrolloteorico es claro y muchos problemas reales pueden modelarse muy bien de estaforma. Decimos que una variable aleatoria de conteo X se distribuye Poisson(θ)si su funcion de probabilidad esta dada por

f(x) =θx exp(−θ)

x!x = 0, 1, 2, 3, · · ·

Para esta distribucion se tiene que E(X) = V ar(X) = θ.

Teorema 4.4 Suponga que X1, · · · ,Xn es una muestra de una distribucionPoisson con media desconocida θ. Tambien supongamos que la distribucion apri-ori de θ es una gamma con parametros α(> 0) y β(> 0). Entonces la distribucionposterior de θ cuando Xi = xi, para i = 1, · · · , n es una gamma con parametrosα+

∑ni=1 xi y β + n.

Page 37: 14172970 bayesilibro

30 CAPITULO 4. DISTRIBUCIONES CONJUGADAS

4.6. Distribucion Exponencial

La distribucion exponencial tiene funcion de densidad de probabilidad dadapor

f(x) = θe−θx x ∈ (0,∞)

Teorema 4.5 Suponga que X1, · · · ,Xn es una muestra de una distribucion ex-ponencial con parametro desconocido θ. Tambien supongamos que la distribucionapriori de θ es una gamma con parametros α(> 0) y β(> 0). Entonces la dis-tribucion posterior de θ cuando Xi = xi, para i = 1, · · · , n es una gamma conparametros α+ n y β +

∑ni=1 xi.

4.7. Distribucion Normal

La distribucion normal es la mas ampliamente conocida y utilizada distribu-cion en el trabajo estadıstico. Hay basicamente dos razones para ello:

Muchas poblaciones pueden ser modeladas aproximadamente por esta dis-tribucion.

Como resultados lımites se llega a ella en muchas situaciones.

Su funcion de densidad es

f(x) =1√2πσ

exp

(−1

2

(x− µ)2

σ2

)

con soporte x ∈ (−∞,∞). Su funcion de distribucion acumulada se denotaΦ(x), su media es µ y su varianza σ2. Esta distribucion posee dos parametros,lo cual nos lleva a considerar diferentes situaciones. La precision es el inverso dela varianza.

4.7.1. Precision Conocida

Teorema 4.6 Suponga que X1, · · · ,Xn es una muestra aleatoria de una dis-tribucion normal con un valor desconocido de la media µ y un valor especificadode la precision r (r > 0).

Distribucion Apriori: µ ∼ N (µ0, τ0) donde τ0 es la precision, tal que−∞ < µ0 <∞ y τ0 > 0.

Distribucion Posterior:

(µ|X = x) ∼ N (µ1, τ1)

donde

µ1 =τ0µ0 + nrx

τ0 + nrτ1 = τ0 + nr es la precision

y x es la media muestral.

Page 38: 14172970 bayesilibro

4.7. DISTRIBUCION NORMAL 31

Prueba: (Ejercicio)

Observe que la media posterior se puede expresar como

µ1 =τ0µ0 + nrx

τ0 + nr=

nr

τ0 + nrx+

τ0τ0 + nr

µ0

Se ve claramente que la media posterior es una media ponderada de la mediaapriori y la media muestral.

4.7.2. Precision Desconocida

Este tipo de problema surge en control de calidad cuando lo que interesacontrolar es la variabilidad de un proceso determinado.

Teorema 4.7 Suponga que X1, · · · ,Xn es una muestra aleatoria de una dis-tribucion normal con un valor conocido de la media m (−∞ < m < ∞) y unvalor desconocido de la precision W (W > 0).

Distribucion Apriori: W ∼ Gamma2 (α0, β0) donde α0 > 0 y β0 > 0.

Distribucion Posterior:

(W |X = x) ∼ Gamma (α1, β1)

donde

α1 = α0 +n

2

β1 = β0 +1

2

n∑

i=1

(xi −m)2.

Prueba: (Ejercicio)

4.7.3. Media y Precision Desconocidas

Este caso, a pesar de lo simple que puede parecer, muestra la complejidad a laque puede llegar a enfrentar el estadıstico ante la presencia de varios parametros.

Teorema 4.8 Suponga que X1, · · · ,Xn es una muestra aleatoria de una dis-tribucion normal con un valor desconocido de la media µ y un valor desconocidode la precision R (R > 0).

2Asumimos una gamma de la forma

f(x) =βα

Γ(α)xα−1e−βx

Page 39: 14172970 bayesilibro

32 CAPITULO 4. DISTRIBUCIONES CONJUGADAS

Distribucion Apriori Conjunta de µ y R:

1. La distribucion condicional de µ cuando R = r es µ ∼ N (µ0, τ0r)donde τ0r es la precision, tal que −∞ < µ0 <∞ y τ0 > 0, y

2. la distribucion marginal de R es Gamma (α0, β0) donde α0 > 0 yβ0 > 0.

Distribucion Posterior Conjunta de µ y R cuando X = x:

1. La distribucion condicional de µ cuando R = r es

(µ|X = x) ∼ N (µ1, τ1)

donde

µ1 =τ0µ0 + nx

τ0 + n

τ1 = (τ0 + n)r

y x es la media muestral.

2. la distribucion marginal de R es Gamma(α1, β1) donde

α1 = α0 +n

2

β1 = β0 +1

2

n∑

i=1

(xi − x)2

+τn (x− µ0)

2

2(τ + n)

Prueba: (Ejercicio)

4.8. Distribucion Gamma

La distribucion gamma ha sido ampliamente aplicada en confiabilidad y enpruebas de vida. Decimos que la variable aleatoria X tiene una distribuciongamma con parametros β y α si su densidad es

f(x|α, β) =βα

Γ(α)xα−1 exp (−βx) x > 0, α > 0

donde α denota el parametro de forma y β es el recıproco de un parametro deescala. Si x1, x2, · · · , xn es una muestra aleatoria de esta distribucion, entoncesla funcion de densidad conjunta es

n∏

i=1

f(xi|α, β) =βnα

[Γ(α)]npα−1 exp (−sβ)

Page 40: 14172970 bayesilibro

4.8. DISTRIBUCION GAMMA 33

donde

s =n∑

i=1

xi

p =

n∏

i=1

xi

Miller (1980) usa una clase conjugada muy general definida por la conjunta

ξ(α, β) ∝ βν′α−1

[Γ(α)]n′(p′)

α−1exp (−s′β)

donde α > 0, β > 0, n′ > 0, ν′ > 0, s′ > 0 y p′ > 0, tal que n′(p′)1/n′

/s′ < 1.La distribucion posterior es proporcional a

ξ(α, β|x) ∝ βν′′α−1

[Γ(α)]n′′p′′α−1

exp (−s′′β)

donde ν′′ = ν′ + n, p′′ = p′p, s′′ = s′ + s y n′′ = n′ + n.La distribucion condicional de β dado α es una Gamma (ν′′, s′′), y la dis-

tibucion marginal posterior de α es proporcional a

Γ (ν′′α)

[Γ(α)]′′

(r′′

n′′

)ν′′α

donde

r′′

n′′=

ν′′√p′′

s′′=

(p′)1/(ν′+n)(r/n)n/(ν

′+n)sn/(ν′+n)

s′ + s

Page 41: 14172970 bayesilibro

34 CAPITULO 4. DISTRIBUCIONES CONJUGADAS

Page 42: 14172970 bayesilibro

Capıtulo 5Distribuciones No Informativas

El uso de distribuciones apriori no informativas buscan que ellas tengan unimpacto mınimo sobre la distribucion posterior del parametro de interes y quesea relativamente plana con relacion a la verosimilitud. Esto busca que seanlos datos los que tengan un claro dominio en la distribucion posterior, y, porlo tanto, en todas las inferencias que de ellas se obtengan. Tambien se conocencomo vagas, difusas, planas o de referencia. Estas distribuciones no informativasse reunen en dos grupos:

Propias: Cuando la distribucion de probabilidad integra a una constante finita,se dice que es propia. Por ejemplo, para el caso de la distribucion bino-mial, su parametro π, que denota el porcentaje de exitos en la poblacion,podemos asumir como apriori la U(0, 1), lo cual refleja nuestra ignoranciatotal, al asumir que cualquier valor en este intervalo es igualmente posiblecomo valor.

Impropias: Una distribucion apriori ξ(θ) es impropia si

Θ

ξ(θ) dθ = ∞

Notas:

1. Una distribucion apriori impropia puede terminar en una aposteriori im-propia y por lo tanto no se podran hacer inferencias.

2. Una distribucion apriori impropia puede llevar a una aposteriori propia.

Ejemplo 5.1 Asumamos que y1, · · · , yn|θ son variables distribuidas normal eindependientemente con media θ y con varianza conocida σ2. Asumamos queξ(θ) ∝ 1 es la distribucion apriori uniforme (impropia) sobre los numeros reales.La verosimilitud es

35

Page 43: 14172970 bayesilibro

36 CAPITULO 5. DISTRIBUCIONES NO INFORMATIVAS

L (θ|y) ∝ exp

(−n

2

(y − θ)2

σ2

)

y la distribucion posterior es

θ|y ∼ N

(y,σ2

n

)

la cual es una distribucion propia.

Yang y Berger (1998) presentan varias razones por las cuales es importanteconsiderar las distribuciones no informativas. Tenemos entre ellas

Con frecuencia la elicitacion de las distribuciones apriori es imposible, pormultiples razones, por ejemplo, limitaciones de costo o tiempo, o resisten-cia o falta de entrenamiento de los clientes.

El analisis estadıstico debe aparecer como “objetivo”.

La elicitacion subjetiva puede producir malas distribuciones subjetivas,por ejemplo si la elicitacion es sesgada.

En problemas de alta dimension, lo mas que se puede esperar es obtenerbuenas distribuciones subjetivas para algunos pocos parametros, y a losparametros de perturbacion se les asignan distribuciones no informativas.

El analisis bayesiano con distribuciones no informativas puede utilizarsepara obtener procedimientos clasicos buenos.

Aun cuando un investigador tenga creencias apriori fuertes, puede ser masconvincente analizar los datos utilizando una apriori de referencia dominada porla verosimilitud. Ademas podemos automatizar el proceso de hallar aprioris.Yang y Berger (1998) proporcionan un amplio catalogo de distribuciones noinformativas que es util en el trabajo aplicado.

5.1. El Principio de la Razon Insuficiente de Laplace

Si el espacio parametral es finito se puede utilizar una distribucion aprioriuniforme para reflejar ignorancia total.

5.2. Apriori de Jeffreys

La distribucion apriori de Jeffreys satisface la propiedad local de uniformidadpara distribuciones apriori no informativas. Esta apriori esta basada en la matrizde informacion de Fisher. Jeffreys la propuso como una “regla general” paradeterminar la distribucion apriori (Kass y Wasserman, 1994).

Page 44: 14172970 bayesilibro

5.2. APRIORI DE JEFFREYS 37

Definicion 5.1 Sea f (x|θ) la densidad de x dado θ. La informacion de Fisheres definida como

I(θ) = −E[∂2 log (f (x|θ))

∂θ2

]

Si θ es un vector de p componentes, entonces

I(θ) = −E[∂2 log (f (x|θ))

∂θi ∂θj

]

p×p

y entonces I(θ) sera una matriz de dimension p× p.

Definicion 5.2 La distribucion apriori de Jeffreys se define como

ξ(θ) ∝ |I(θ)|1/2

La distribucion apriori de Jeffreys es localmente uniforme y por lo tanto noinformativa. Esta propiedad es importante ya que nos proporciona un esquemaautomatizado para hallar distribuciones apriori no informativas para cualquiermodelo parametrico (Ibrahim, 2002). Esta distribucion es impropia para muchosmodelos, sin embargo, es propia para algunos.

Ejemplo 5.2 Asumamos que y1, · · · , yn son variables distribuidas independi-entemente Bernoulli(π). Encontremos la distribucion apriori de Jeffreys paraπ.

La densidad para una variable Bernoulli(π) es

p(y|π) = πy(1 − π)1−y

Entonces tenemos

log (p(y|π)) = y log(π) + (1 − y) log(1 − π)

∂πlog (p(y|π)) =

y

π− 1 − y

1 − π

∂2

∂π2log (p(y|π)) = − y

π2− 1 − y

(1 − π)2

I(π) = −E[∂2

∂π2log (p(y|π))

]

=E(y)

π2+

1 − E(y)

(1 − π)2=

1

π+

1 − π

(1 − π)2

=1

π+

1

1 − π=

1

π(1 − π).

Por lo tanto la distribucion apriori de Jeffreys es

Page 45: 14172970 bayesilibro

38 CAPITULO 5. DISTRIBUCIONES NO INFORMATIVAS

ξ(π) ∝ I(π)1/2

=

(1

π(1 − π)

)1/2

= π−1/2(1 − π)−1/2

= π1/2−1(1 − π)1/2−1

Ası π ∼ Beta(

12 ,

12

). Por lo que vemos en este caso la distribucion apriori de

Jeffreys es propia.

Ejemplo 5.3 Asumamos que y1, · · · , yn|µ son variables distribuidas normal eindependientemente con media µ y con varianza σ2 desconocidas. calculemos ladistribucion apriori de Jeffreys para (µ, σ)

f (x|µ, σ) =1√2πσ

exp

(− 1

2σ2(x− µ)

2

)

log (f (x|µ, σ)) = −1

2log(2π) − log(σ) − 1

2σ2(x− µ)

2

∂ log (f (x|µ, σ))

∂µ=

1

σ2(x− µ)

∂2 log (f (x|µ, σ))

∂µ2= − 1

σ2

∂ log (f (x|µ, σ))

∂σ= − 1

σ+

1

σ3(x− µ)2

∂2 log (f (x|µ, σ))

∂σ2=

1

σ2− 3

σ4(x− µ)2

∂2 log (f (x|µ, σ))

∂µ∂σ= − 2

σ3(x− µ)

Tomando la esperanza obtenemos

I((

µσ

))=

[1σ2 00 2

σ2

]

Ası la distribucion apriori sera

ξ(µ, σ) ∝∣∣∣∣I((

µσ

))∣∣∣∣1/2

=

(1

σ2× 2

σ2

)1/2

∝ 1

σ2

Page 46: 14172970 bayesilibro

5.3. OTRAS ALTERNATIVAS 39

Esta distribucion apriori de Jeffreys es impropia.

La distribucion apriori de Jeffreys tiene la propiedad de invarianza, ya quepara cualquier otra transformacion uno a uno sigue siendo no informativa. Estosurge de la relacion

I(θ) = I(ψ(θ))

(dψ(θ)

)2

donde ψ(θ) es una transformacion uno a uno de θ. Ası

(I(θ))1/2

= (I(ψ(θ)))1/2

∣∣∣∣dψ(θ)

∣∣∣∣

Note que∣∣∣dψ(θ)dθ

∣∣∣ es el valor absoluto del jacobiano de la transformacion de θ a

ψ(θ). Ası

(I(θ))1/2

dθ = (I(ψ))1/2

La apriori de Jeffreys preserva la escala en parametrizaciones.

Ejemplo 5.4 Supongamos x ∼ N(µ, 1). La distribucion apriori de Jeffreys paraµ es ξ(µ) ∝ 1. Sea ψ(µ) = eµ. Esta es una transformacion uno a uno en µ. Lacorrespondiente apriori de jeffreys para ψ(µ) es

(I(ψ(µ)))1/2 = (I(µ))1/2∣∣∣∣dψ(µ)

∣∣∣∣−1

= 1 × e−µ

= e−µ

Ası la distribucion apriori de Jeffreys para ψ(µ) = eµ es

ξ(µ) ∝ e−µ, −∞ < µ <∞.

La propiedad de invarianza significa que si tenemos una distribucion apriorilocalmente uniforme en θ, y si ψ(θ) es una funcion uno a uno de θ, entoncesξ (ψ(θ)) es una distribucion apriori localmente uniforme para ψ(θ).

5.3. Otras Alternativas

Definicion 5.3 (Distribucion Apriori de Maxima Entropıa) Cuando θ esunivariable y puede tomar cualquier valor sobre la recta real, y la media y la var-ianza apriori estan especificadas, la distribucion apriori de maxima entropıa esla Normal con la media y la varianza especificadas.

Page 47: 14172970 bayesilibro

40 CAPITULO 5. DISTRIBUCIONES NO INFORMATIVAS

Kass y Wasserman (1994) presentan la definicion planteada por Novick yHall:

Definicion 5.4 (Distribucion Apriori Indiferente) Se define una distribu-cion apriori indiferente si identificando una clase de conjugadas se seleccionauna apriori de esta clase que satisfaga:

La apriori debe ser impropia y

una “muestra mınima necesaria” debe inducir una posterior propia.

Un ejemplo de la anterior definicion es claro en el problema binomial, con laclase conjugada de las Betas, la distribucion apriori π(1 − π)−1

es una aprioriindiferente.

Box y Tiao (1973) proponen el uso de distribuciones apriori localmente uni-formes, las cuales consideran el comportamiento local de la apriori en una regiondonde la verosimilitud es apreciable, pero la apriori no se asume grande por fuerade esa region.

5.4. Marginalizacion

Ejemplo 5.5 Eliminando un termino de molestia. En muchas situacionestenemos un vector de parametros, pero solo estamos interesados realmente enunos pocos. Debemos por lo tanto proceder a “eliminar” aquellos terminos demolestia. Esto lo hacemos mediante la marginalizacion. Suponga que x1, · · · , xnes una muestra aleatoria de una N

(µ, σ2

), donde

(µ, σ2

)son desconocidos. Sea

τ = 1/σ2. Suponga que especificamos una apriori no informativa de Jeffreys

ξ(µ, σ2

)∝ τ

Ahora,

ξ (µ, τ |x) ∝ τn2 −1 exp

−τ

2

n∑

i=1

(xi − µ)2

.

Ası, para eliminar el termino nuisance τ marginalizamos

ξ (µ |x) ∝∫ ∞

0

τn2 −1 exp

−τ

2

n∑

i=1

(xi − µ)2

dτ.

No es difıcil llegar a

ξ (µ |x) ∝∫ ∞

0

τn2 −1 exp

−τ

2

n∑

i=1

(xi − x)2

exp

−nτ

2(x− µ)

2dτ.

Sea

Page 48: 14172970 bayesilibro

5.4. MARGINALIZACION 41

s2 =1

n− 1

n∑

i=1

(xi − x)2

Entonces

ξ (µ |x) ∝∫ ∞

0

τn2 −1 exp

−τ

2

((n− 1)s2 + n(µ− x)2

)dτ

∝((n− 1)s2 + n(µ− x)2

)−n/2

∝(

1 +n

(n− 1)s2(µ− x)2

)−(n−1+1)/2

Ası

µ|x ∼ t

(n− 1, x,

s2

n

)

Por lo tanto

µ− x

s/√n∼ t(n−1)

A pesar de haber llegado a un resultado que es de uso comun en la estadısticaclasica, la interpretacion aquı es diferente.

Ejemplo 5.6 Eliminando otro termino de molestia. En el ejemplo anteriorsupongamos que el termino de molestia es µ. Debemos por lo tanto halla ξ (τ |x).procedemos de manera similar

ξ (τ |x) ∝∫ ∞

−∞

τn2 −1 exp

−τ

2

((n− 1)s2 + n(µ− x)2

)dµ

∝ τn−1

2 −1 exp−τ

2

((n− 1)s2

)

Ası

τ |x ∼ Gamma

(n− 1

2,(n− 1)s2

2

)

De lo anterior obtenemos que

(n− 1)s2τ ∼ ξ2n−1

Page 49: 14172970 bayesilibro

42 CAPITULO 5. DISTRIBUCIONES NO INFORMATIVAS

Page 50: 14172970 bayesilibro

Capıtulo 6Inferencia Bayesiana

6.1. Estimacion Puntual

Dada una distribucion sobre un parametro particular, digamos θ, requerimosseleccionar un mecanismo para escoger un “buen” un estimador θ. Supongamosque θ0 es el verdadero parametro, desconocido. Sea d nuestra adivinanza de estevalor. Debemos de alguna forma medir el error que cometemos (digamos queesto puede ser una multa o un pago) al adivinar a θ0 mediante d. Esto puede

ser medido por (d− θ0)2

o por |d− θ0| o mediante alguna otra funcion.Un problema estadıstico puede resumirse como (S,Ω,D, L), donde

S: Es el espacio muestral de un experimento relevante que tiene asociada unavariable aleatoria X cuya distribucion de probabilidad esta parametrizadapor un elemento de Ω.

Ω: Espacio parametral (en un sentido amplio)

D: Un espacio de decisiones

L: Una funcion de perdida.

Una vez un problema estadıstico ha sido especificado, el problema de infer-encia estadıstica es seleccionar un procedimiento (estadıstico), a veces llamadouna funcion de decision, que nos describe la forma de tomar una decision unavez un resultado muestral ha sido obtenido.

Definicion 6.1 Una funcion de decision o procedimiento estadıstico es una fun-cion o estadıstico d que mapea de S a D.

Definicion 6.2 Sea D un espacio arbitrario de decisiones. Una funcion no neg-ativa L que mapea de Ω ×D a R es llamada una funcion de perdida.

43

Page 51: 14172970 bayesilibro

44 CAPITULO 6. INFERENCIA BAYESIANA

Definicion 6.3 El valor esperado de L(θ, d(X)) cuando θ es el verdadero valores llamada la funcion de riesgo

R(θ, d) = Eθ [L (θ, d(X))] =

∫L (θ, d(x)) dPθ(x)

Funcion de Perdida Cuadratica:

L(d, θ) = (d− θ)2

Miremos el riesgo para esta funcion de perdida. Sea

b = Eξ(θ|x)(θ) =

∫θ ξ (θ|x) dθ

el promedio de la distribucion aposteriori. Entonces

E [L(d, θ)] =

∫L(a, θ) ξ (θ|x) dθ

=

∫(a− b+ b− θ)2 ξ (θ|x) dθ

= (a− b)2 +

∫(b− θ)2 ξ (θ|x) dθ

≥∫

(b− θ)2 ξ (θ|x) dθ

,

para cualquier valor de d. La desigualdad anterior se convierte en igual-dad cuando d = b. El estimador bayesiano bajo una funcion de perdidacuadratica es la media de la distribucion posterior.

Funcion de Perdida Error Absoluto:

L(d, θ) = |d− θ|

El riesgo es minimizado tomando d como la mediana de la distribucionposterior, digamos d∗. O sea, la mediana es el estimador bayesiano cuandola funcion de perdida es el valor absoluto. Para mostrar esto supongamosotra decision tal que d > d∗. Entonces

|θ − d| − |θ − d∗| =

d∗ − d si θ ≥ d,d+ d∗ − 2θ si d∗ < θ < d,d− d∗ si θ ≤ d∗.

Ya que (d + d∗ − 2θ) > (d∗ − d) cuando d∗ < θ < d, entonces el siguienteresultado se consigue

Page 52: 14172970 bayesilibro

6.1. ESTIMACION PUNTUAL 45

E(|θ − d| − |θ − d∗|) ≥ (d∗ − d)P (θ ≥ d) + (d∗ − d)P (d∗ < θ < d)

+(d− d∗)P (θ ≤ d∗)

= (d− d∗) [P (θ ≤ d∗) − P (θ > d∗)] ≥ 0

Esta ultima desigualdad sigue del hecho que d∗ es la mediana de la distribucionde θ. La primera desigualdad en este conjunto de ecuaciones sera una igualdadsi, y solo si, P (d∗ < θ < d) = 0. La desigualdad final sera una igualdad si, ysolo sı,

P (θ ≤ d∗) = P (θ > d∗) =1

2.

Estas condiciones implican que d es tambien una mediana. Por lo tanto, E(|θ−d|) ≥ E(|θ − d∗|), y la igualdad se cumple si, y solo si, d es tambien mediana.

Una prueba similar puede hacerse si d < d∗.

Funcion de Perdida Escalonada:

L(d, θ) = 0 si |d− θ| ≤ δ

= 1 si |d− θ| > δ

donde δ es un numero predeterminado, usualmente pequeno.

E [L(d, θ)] =

Θ

I (|d− θ| > δ) ξ (θ|x) dθ

=

Θ

I (1 − (|d− θ| ≤ δ)) ξ (θ|x) dθ

= 1 −∫ d+δ

d−δ

ξ (θ|x) dθ

≈ 1 − 2δξ (d|x)

Para minimizar el riesgo es necesario maximizar ξ (d|x) con respecto a d y elestimador bayesiano es el maximizador. Por lo tanto, el estimador bayesianosera el que maximiza la posterior, esto es, el valor modal. Este estimador esllamado el estimador maximo-aposteriori (MAP).

Una estimacion que puede ser utilizada en una o mas dimensiones, espe-cialmente cuando la funcion de perdida no ha sido definida explıcitamente, esel valor del parametro en el cual se maximiza la disribucion posterior. Paracualquier observacion de x, sea ψ(·|x) que denota la distribucion posterior deW en el espacio parametral Ω. Sea w(x) el valor de w que satisface la relacion

Page 53: 14172970 bayesilibro

46 CAPITULO 6. INFERENCIA BAYESIANA

Ejemplo 6.1 Estimacion Puntual de la Media de una Poblacion Nor-mal con Varianza Conocida

Datos: y = (y1, y2, · · · , yn)′. Asumimos que yi ∼ N(θ, σ2), para todoi = 1, 2, · · · , n. y la varianza es conocida.

Distribucion Apriori para θ:

θ ∼ N(µo, σ

2o

),

o

ξ(θ) ∝ exp

(−1

2

(θ − µo)2

σ2o

)

Verosimilitud:

f(y|θ, σ2

)=

n∏

i=1

1√2πσ2

exp

(− (yi − θ)

2

2σ2

)

∝ exp

(−

n∑

i=1

(yi − θ)2

2σ2

)

Distribucion Aposterior: Se aplica la regla de Bayes

ξ (θ|y) ∝ ξ(θ) · f(y|θ)∝ ξ(θ) · L (θ|)

∝ exp

(−1

2

(θ − µo)2

σ2o

)exp

(−

n∑

i=1

(yi − θ)2

2σ2

)

∝ exp

(−1

2

(θ − µo)

2

σ2o

+n∑

i=1

(yi − θ)2

σ2

)

La distribucion posterior se puede reorganizar y mostrar que

θ|y ∼ N(µn, σ

2n

)

donde

µn =

1σ2

oµo + n

σ2 y

1σ2

o+ n

σ2

=τoµo + nry

τo + nr

y1

σ2n

=1

σ2o

+n

σ2

Page 54: 14172970 bayesilibro

6.1. ESTIMACION PUNTUAL 47

Bajo las tres funciones de perdida el estimador bayesiano para la media sera

θ = µn.

Ejemplo 6.2 PoissonSea y1, · · · yn una muestra aleatoria de una Poisson(λ). Supongamos tam-

bien que la apriori es unaGamma(1, 1). Por lo tanto la aposterior seraGamma(1+∑ni=1 yi, n+ 1).El estimador bayesiano para λ

bajo la funcion de perdida cuadratica es

λ =1 +

∑ni=1 yi

n+ 1

bajo la funcion de perdida escalonada

λ =α∗ − 1

β∗=

∑ni=1 yin+ 1

si α∗ ≥ 1

La siguiente funcion en R calcula los tres estimadores, bajo el supuesto deuna aprori Gamma(α0, β0) :

calcula.estimadores.poisson<-function(alfa0,beta0,x,n=lenght(x))

alfa1<-alfa0+sum(x)

beta1<-beta0+n

estimador.fpc<-alfa1/beta1

estimador.fpa<-qgamma(0.5,alfa1,beta1)

estimador.fpe<-(alfa1-1)/beta1

list(estimador.fpc=estimador.fpc,

estimador.fpa=estimador.fpa,

estimador.fpe=estimador.fpe)

La utilizacion sera

>calcula.estimadores.poisson(1,1,16,n=4)

$estimador.fpc

[1] 3.4

$estimador.fpa

[1] 3.333571

$estimador.fpe

[1] 3.2

Page 55: 14172970 bayesilibro

48 CAPITULO 6. INFERENCIA BAYESIANA

Figura 6.1: Distribuciones Apriori Gamma(α0 = 1, β0 = 1) y AposterioriGamma(α1 = 17, β1 = 5) para un problema de conteo Poisson con parametro

λ . La muestra n = 4 y∑4i=1 yi = 16.

Page 56: 14172970 bayesilibro

6.2. REGIONES DE CREDIBILIDAD 49

Definicion 6.4 Estimador generalizado de maxima verosimilitud Si talvalor de w existe para todo valor de x,

ξ [w(x)|x] = supw∈Ω

ξ(w|x)

entonces decimos que el estimador w(X) es un estimador generalizado de maxi-ma verosimilitud de W .

6.2. Regiones de Credibilidad

Los intervalos de confianza clasicos frecuentemente son malinterpretados ylos usuarios actuan como si “grado de confianza” fuera sinonimo de uniformidaddentr del intervalo.

Valores p iguales no proporcionan igual evedencia acerca de la hipotesis,Harrel Jr., F. E. (2000)

6.3. Region de la Densidad Posterior Mas Alta(RDPMA)

Si p(θ|Y ) denota la densidad posterior entonces podemos definir un intervalode credibilidad utilizando la RDPMA.

Definicion 6.5 (Box y Tiao, 1973) Una region R en un espacio parametral Θes llamada la region de la densidad posterior mas alta (RDPMA) de contenidoα si

1. P (θ ∈ R|Y ) = α

2. Para θ1 ∈ R y θ2 6∈ R, se cumple P (θ1 ∈ R|Y ) ≥ P (θ2 ∈ R|Y ).

Para un contenido de probabilidad α, la RDPMA tiene el volumen maspequeno en el espacio parametral.

Ejemplo 6.3 Distribucion Exponencial Elfessi y Reineke (2001) con-struyen intervalos de credibilidad para la media de la distribucion exponencialbajo una distribucion apriori propia conjugada

ξ(θ) = θα−1 exp (−βθ)

para θ > 0, −∞ < α < ∞ y β ≥ 0. Note que esta distribucion apriori cor-responde al kernel de una distribucion gamma cuando α ≥ 0. La distribucionaposteriori es por lo tanto

ξ (θ|x1, · · ·xn) ∝ θn+α−1 exp

(−θβ +

n∑

i=1

xi

)

Page 57: 14172970 bayesilibro

50 CAPITULO 6. INFERENCIA BAYESIANA

Esta distribucion posterior es propia cuando α + n > 0, y la constante deproporcionalidad es

(β +∑ni=1)

α+n

Γ(α+ n).

El intervalo de credilidad de probabilidad C100% es

(χ2

2(α+n),(1−(1−C)/2)

2 (β +∑ni=1 xi)

,χ2

2(α+n),((1−C)/2)

2 (β +∑ni=1 xi)

)

Ejemplo 6.4 Distribucion Uniforme Rossman et al. (1998) presentan lacontruccion de la region de mayor probabilidad para el “parametro” de la dis-tribucion uniforme U (0, θ). La estadıstica clasica nos presenta, asumiendo queX1, · · · ,Xn sea una muestra aleatoria,

Estimador de Maxima Verosimilitud max Xi

Estimador de Mınima Varianza Insesgado n+1n max Xi

Si escogemos una distribucion apriori impropia o aplanada de la formaξ(θ) = 1 para θ > 0, la distribucion posterior es proporcional a la funcionde verosimilitud,

ξ (θ|X) ∝ 1

θnpara θ ≥ max Xi

La constante de proporcionalidad, que vuelve la distribucion posterior propiaes (n − 1) (max Xi)n−1

. Bajo la funcion de perdida cuadratica el estimadorbayesiano es igual a la media aposteriori

E[θ|X] =

∫ ∞

−∞

θ · ξ (θ|X) dθ =n− 1

n− 2max Xi

Un intervalo de probabilidad del 95 % se halla resolviendo

∫ LS

LI

(n− 1) (max Xi)n−1

θndθ

Ejemplo 6.5 la siguiente funcion permite construir un intervalo del 95 % deprobabilidad de la mayor densidad para el parametro de la Poisson

Page 58: 14172970 bayesilibro

6.3. REGION DE LA DENSIDAD POSTERIOR MAS ALTA (RDPMA) 51

intervalo.poisson <-function(a,b)

x1<-1:499/10000

x2<-0.950+x1

dif<-abs(dgamma(qgamma(x1,a,rate=b),a,rate=b)

-dgamma(qgamma(x2,a,rate=b),a,rate=b))

x3<-qgamma(x1[which.min(dif)],a,rate=b)

x4<-qgamma(x2[which.min(dif)],a,rate=b)

list(x3=x3,x4=x4)

En el ejemplo que tenıamos nos da

>intervalo.poisson(17,5)

$x3

[1] 1.871629

$x4

[1] 5.045115

Mientras que el intervalo tradicional hallado con ambas colas iguales a α/2 es

$x3

[1] 1.980625

$x4

[1] 5.1966

6.3.1. Intervalos frecuentistas tradicionales para la Pois-son

El ejemplo anterior nos permite ilustrar una de la multiples dificultades quetiene la aproximacion tradicional, en la cual pueden existir mas de una reglapara construir intervalos de confianza y muchas veces sin la suficiente claridadpor parte del investigador sobre cual de ellos usar, debido en parte a la carenciade elementos de juicio que le permita escoger el mejor en una circunstanciaparticular.

Intervalo basado en transformaciones (M.T.)

Si X ∼(λ, σ2/n

), entonces log(X) ∼ (log(λ), 1/n), asumiendo que λ > 0

(Serfling, 1980). El intervalo de confianza esta dado por

(X

1

exp(zα/2/

√n) , X exp

(zα/2/

√n))

Page 59: 14172970 bayesilibro

52 CAPITULO 6. INFERENCIA BAYESIANA

Metodo basado en el Teorema Central del Lımite (T.C.L.)

Si el tamano muestral es lo suficientemente grande, podemos aplicar el teo-rema central del lımite.

(X − zα/2

s√n, X + zα/2

s√n

)

donde s2 = 1/n∑ni=1

(Xi − X

)2. Este es el intervalo propuesto en la mayorıa

de textos basicos en estadıstica (Canavos, 1988; Wonnacott y Wonnacott, 1979;Roussas, 1973; Walpole, 1992; Meyer, 1986; Mood et al., 1974)

Metodo basado en la Maxima Verosimilitud

Se sabe que si θ es el estimador maximo verosımil para θ (puede ser un vec-

tor), bajo ciertas condiciones suaves (Serfling, 1980), entonces θ ∼(θ, I−1(θ)

),

con I(θ) siendo la matriz de informacion de Fisher. Entonces, en el caso expo-nencial

(X − zα/2

√X√n, X + zα/2

√X√n

)

Metodo Exacto

Se sabe que S =∑ni=1Xi se distribuye Poisson con parametro nλ. Un in-

tervalo de confianza exacto se obtiene resolviendo

exp (nλL)

s∑

i=0

(nλL)i

i!= 1 − α

2

y

exp (nλU )

s∑

i=0

(nλU )i

i!=α

2

Intervalos basados en la Razon de Verosimilitud Relativa

Kalbfleish (1985) presenta la metodologıa para construir intervalos de verosimi-litud. Si L(µ) es la funcion de verosimilitud, se define la funcion de verosimilitudrelativa como

R(λ) =L(λ)

L(λ)

El conjunto de valores de λ para los cuales R(λ) ≥ p es llamado la intervalo de100%p de verosimilitud para λ. Los intervalos del 14.7 % y del 3.6 % de verosi-militud corresponden a intervalos de confianza aproximadamente de niveles del95 % y del 99 %.

Page 60: 14172970 bayesilibro

6.4. PRUEBAS DE HIPOTESIS 53

Lo que se debe hacer entonces es hallar las raıces que nos dan los lımitesdel intervalo. Para el caso del parametro de la exponencial, λ, tenemos que unintervalo de confianza del 95 % se halla encontrando el par de raıces tal que

R(λ) =L(λ)

L(λ)=

X

)nX≥ K(k, α)

Esto se resuelve numericamente.

Bootstrap

El metodo bootstrap proporciona una manera directa y sencilla para hallarintervalos simultaneos para los parametros de la distribucion multinomial. Parahallarlos se procede ası:

1. A partir de la muestra estime el parametro por maxima verosimilitud.

λ =1

n

n∑

j=1

Xj

2. Genere M muestras de tamano n de una distribucion exponencial conparametro λ. Para cada muestra estime el parametro λ, digamos que parala muestra j el estimador es λj

3. Para losλj

Mj=1

, construya un histograma y calcule los percentiles .025/(k-

1) y 0.975/(k-1), denotemoslos por λ(0,025)i y π

(0,975)i

Otro Metodo Exacto, K −B

Kabila y Byrne (2000) presentan un metodo para calcular intervalos de con-fianza exactos mas cortos.

6.4. Pruebas de Hipotesis

Ejemplo 6.6 Poderes Sobrenaturales Bayarri y Berger en la reunion an-ual que se lleva a cabo en Valencia (Espana) presentaron el siguiente caso desicokinesis: Tres investigadores (Schmidt, Jahn y Radin) en 1987 utilizaron ungenerador cuantico que recibe una fila de partıculas y el desvıa cada partıcula,independientemente de las otras, hacia una luz roja o una luz verde con igualprobabilidad. Se le pidio a un sujeto quien alegaba tener poderes sicokineticosque tratara de influenciar el generador de tal forma que las partıculas se fueranpara la luz roja. Se generaron 104.490.000 partıculas y se contaron 52.263.470partıculas que se fueron hacia la luz roja. Habra suficiente evidencia que permitadecir que el sujeto tiene poderes sicokineticos?

Page 61: 14172970 bayesilibro

54 CAPITULO 6. INFERENCIA BAYESIANA

Podemos pensar en este exprimento ası: Cada partıcula corresponde a unensayo Bernoulli(π), y un exito sera si la partıcula se va para la luz roja. SiX denota el numero de exitos, X ∼ Binomial (n, π). Tenemos x = 52,263,470como la observacion real. Se necesita probar

H0 : π =1

2(El sujeto no tiene poderes)

H1 : π 6= 1

2(El sujeto tiene poderes)

El valor − p = PH0

(∣∣X − n2

∣∣ ≥∣∣x− n

2

∣∣) ≈ 0,0003 nos lleva a concluir quehay una fuerte evidencia contra H0.

Si pensamos bayesianamente necesitamos una distribucion apriori, pero aho-ra definida sobre las hipotesis en juego:

ξ (Hi) = probabilidad apriori de que Hi sea cierta, i = 0, 1.

Bajo H1 : π 6= 1/2, sea ξ(π) la densidad apriori sobre π. El Bayes objetivoselecciona

Pr (H0) = Pr (H1) =1

2

con ξ(π) = 1 (0 < π < 1)La probabilidad posterior de la hipotesis

Pr (H0|x) = probabilidad de queH0 sea cierta dados los datos x

=f (x|π = 1/2)Pr (H0)

Pr (H0) f (x|π = 1/2) + Pr (H1)∫f (x|π) ξ(π) dπ

Para la apriori objetiva

Pr (H0|x = 52,263,470) ≈ 0,92

La densidad posterior en H1 : π 6= 1/2 es

ξ (π|x,H1) ∝ ξ(π)f(x|π) ∝ 1 × πx(1 − π)n−x,

que es una Beta (52,263,470, 52,226,530)

La aproximacion bayesiana a las pruebas de hipotesis esta basada en el calcu-lo de de la probabilidad condicional de una hipotesis Ho dada la informaciondisponible, digamos Io, esto es, p(H|Io). Cuando la hipotesis nula es Ho : θ ∈ Θo

y la alternativa H1 : θ ∈ Θ1, con Θo

⋂Θ1 = ∅, son formuladas, hay creencias

apriori sobre ambas, digamos ξ(Ho|Io) y ξ(H1|Io), con ξ(Ho|Io)+ ξ(H1|Io) = 1.Por el teorema de la probabilidad total, la distribucion apriori de θ es:

ξ(θ|Io) = ξ(θ|Ho, Io)ξ(Ho|Io) + ξ(θ|H1, Io)ξ(H1|Io)

Page 62: 14172970 bayesilibro

6.4. PRUEBAS DE HIPOTESIS 55

donde ξ(θ|Hi, Io), son las densidades apriori de θ, condicionadas en cada hipotesis.La informacion muestral es utilizada entonces para calcular de los odds apriori:

ξ(Ho|Io)ξ(H1|Io)

los odds posteriores en favor de Ho:

ξ(Ho|I1)ξ(H1|I1)

=p(y|Ho)

p(y|H1)

ξ(Ho|Io)ξ(H1|Io)

de la cual se deriva la siguiente regla de decision:

si ξ(Ho|I1) < ξ(H1|I1) Rechace Ho

si ξ(Ho|I1) > ξ(H1|I1) Acepte Ho

si ξ(Ho|I1) = ξ(H1|I1) Indecision acerca de Ho

Definicion 6.6 (Factor de Bayes) La razon p(y|Ho)/p(y|H1) es llamado elfactor de Bayes, denotado por BF o B01(y).

Si queremos probar

H0 : θ ∈ Θ0 versus H1 : θ ∈ Θ1

Sea f(x|θ) la verosimilitud de x dado θ. Tenemos las siguientes formas del factorde Bayes

B01(x) =f(x|θ0)f(x|θ1)

(Prueba simple vs. simple)

B01(x) =f(x|θ0)∫

Θ1f(x|θ)ξ1(θ)dθ

(Prueba simple vs. compuesta)

B01(x) =

∫Θ0f(x|θ0)ξ0(θ)dθ∫

Θ1f(x|θ)ξ1(θ)dθ

(Prueba compuesta vs. compuesta)

Jeffreys presenta los siguientes criterios sobre el factor de Bayes para decidircuando optar por H0:

1 < B Hipotesis Nula se sostiene

10−1/2 < B < 1 Evidencia contra H0, peroapenas para mencionar.

10−1 < B < 10−1/2 Evidencia sustancial contra H0,

10−3/2 < B < 10−1 Evidencia fuerte contra H0,

10−2 < B < 10−3/2 Evidencia muy fuerte contra H0,B < 10−2 Evidencia decisiva contra H0,

Page 63: 14172970 bayesilibro

56 CAPITULO 6. INFERENCIA BAYESIANA

Ejemplo 6.7 Continuacion del ejemplo de Sicokinesia Calculemos elfactor de Bayes para la situacion del individuo con poderes.

B01 =f(x∣∣π = 1

2

)∫ 1

0f(x|π)ξ(π) dπ

≈ 12

Note quePr(H0|x)Pr(H0|x)

= Pr(H0)Pr(H0)

× B01

(Odds posterior) (Odds apriori) (Factor de Bayes)

Una region de credibilidad del 95 % para π bajo el supuesto de H1 es C =(0,50008, 0,50027).

Cuando las probabilidades apriori son iguales, el factor de Bayes determinala regla de decision. La evaluacion del factor de Bayes involucra el calculo de

p(y|Ho) =

∫p(y|Ho,θ)ξ(θ|Ho, Io) dθ

p(y|H1) =

∫p(y|H1,θ)ξ(θ|H1, Io) dθ

El factor de Bayes proporciona una indicacion de cuanto cambian nuestrasrazones de probabilidad de una situacion sin datos, a la luz de los datos, para fa-vorecer un modelo. Puede verse como una medida de la evidencia proporcionadapor los datos en favor de un modelo comparado con un competidor. El logaritmodel factor de Bayes ha sido llamado el peso de la evidencia proporcionada porlos datos (De Santis y Spezzaferri, 1999).

Ejemplo 6.8 La Prueba de Sabor (Sahu, 2000) Se conduce un experi-mento para determinar si un individuo tiene poder discriminatorio. El individuodebe identificar correctamente cual de las dos marcas de un producto ha recibido(obviamente las condiciones experimentales deben ser optimas). Si θ denota laprobabilidad de que seleccione la correcta en el i-esimo ensayo, entonces la vari-able Bernoulli xi denota el resultado del experimento, tomando el valor de 1 siacierta y 0 si falla. Supongamos que en los 6 primeros ensayos los resultados son1, 1, 1, 1, 1 y 0. Nuestro problema es verificar

H0 : θ =1

2versus H1 : θ >

1

2.

En este caso tenemos una hipotesis simple contra una compuesta dondeΘ0 = 1

2 y Θ1 =(

12 , 1). Asumamos una distribucion apriori uniforme sobre θ

bajo la hipotesis alternativa. Ası ξ1(θ) = 2 si 12 < θ < 1. Ahora el factor de

Bayes es

B01(x) =

(12

)6∫ 1

1/2θ5(1 − θ)2dθ

=1

2,86.

Page 64: 14172970 bayesilibro

6.4. PRUEBAS DE HIPOTESIS 57

Esto sugiere que esta persona parece tener algun poder discriminatorio, pero nomucho.

El factor de Bayes puede verse como la version bayesiana de la prueba clasicade la razon de verosimilitudes (De Santis y Spezzaferri, 1999). Si se asumen doshipotesis simples, digamos θ1 y θ2, el factor de Bayes se reduce a la razon deverosimilitud f(y|θ1)/f(y|θ2).

Ejemplo 6.9 Sean y1, · · · , yn|θ variables independientes y distribuidas Poissoncon paramtero θ. Ası,

p (yi|θ) =θyi e−θ

yi!

para θ > 0, yi = 0, 1, 2, · · ·. Sea H0 : θ = θ0 y H1 : θ = θ1 dos hipotesis simples,con ξ (H0|I0) = ξ (H1|I0). El Factor Bayes es

(θ0θ1

)∑iyi

exp (θ1 − θ0)

y por lo tanto, ya que la distribucion apriori asigna igual probabilidad a lashipotesis, la regla de decision sera aceptar H0 si el Factor de Bayes es mayorque 1.

Ejemplo 6.10 Comparacion de dos proporciones Un problema comunen estadıstica es el de verificar que dos proporciones son iguales (H0 : π1 = π2)contra la alternativa H1 : π1 6= π2. Bajo el supuesto de H0 solo tenemos unparametro que puede tomar un valor en (0, 1) y por lo tanto necesitamos es-pecificar una distribucion apriori en esta situacion, digamos ξH0

(π) (podemospensar en una Beta(α, β)), donde α y β se escogen de tal forma que reflejen elconocimiento apriori (en caso de ignorancia podemos escoger α = 1 y β = 1). Ba-jo la alternativa H1 debemos pensar en una distribucion conjunta para (π1, π2),digamos ξH1

(π1, π2). Bajo la alternativa una seleccion obvia es una uniformeen el area (0, 1) × (0, 1), con π1 6= π2 y esto corresponde al producto de dosuniformes independientes. Ademas asumamos que la probabilidad apriori de H0

es 0.5.

Asumamos que nuestros datos son

Exitos Fracasos TotalMuestra 1 2 13 15Muestra 2 14 1 15

El factor de Bayes es 0.0000894 y la probabilidad posterior de la hipotesisnula es 0.0000894.

Page 65: 14172970 bayesilibro

58 CAPITULO 6. INFERENCIA BAYESIANA

6.4.1. Comparacion de Modelos

Esta parte esta basada en De Santis y Spezzaferri (1999). Si pensamos enterminos de modelos, digamosM1, · · · ,Ms, donde asumimos queMi esta parametriza-do por θi ∈ Θi, de dimension di, y con funcion de densidad de probabilidadde los datos fi(y|θi) y distribucion apriori ξ(θi). Si se tienen las probabilidadesapriori para los modelos p1, · · · , ps, por el teorema de Bayes tenemos

Pr (Mi|y) =pimi(y)∑sj=1 pjmj(y)

donde

mi(y) =

Θi

fi(y|θi)ξ(θi) dθi, para i = 1, · · · , s,

es la distribucion marginal de los datos bajo el modelo Mi. La razon de lasprobabilidades posteriores nos permiten hacer una comparacion entre modelos.Para los modelos Mj y Mk se tiene:

Pr (Mj |y)

Pr (Mk|y)=pjpkBjk(y),

donde

Bjk(y) =mj(y)

mk(y)

es el factor de Bayes para el modelo Mj contra el modelo Mk a partir de losdatos y.

Ejemplo 6.11 Geometrica vs. Poisson (Sahu, 2000) Supongamos ten-emos una muestra aleatoria x1, x2, · · · , xn de uno de los dos modelos hipoteticos

M0 : f(x|θ0) = θ0 (1 − θ0)x, x = 0, 1, · · ·

M1 : f(x|θ1) = e−θ1θx1/x!, x = 0, 1, · · ·

Por simplicidad asumamos que θ0 y θ1 son conocidos. Como nos decidimos entrelos dos modelos utilizando la evidencia muestral?

Ya que los parametros se asumieron conocidos no necesitamos asumir ningu-na distribucion apriori para ellos. Por lo tanto

f (x|M0) = θn0 (1 − θ0)nx

y

f (x|M1) =e−nθ1θnx1∏n

i=1 xi!

ahora, el factor de Bayes es la razon de las dos ultimas ecuaciones. Supongamos,θ0 = 1/3 y θ1 = 2, o sea que las dos distribuciones tienen la misma media. Si

Page 66: 14172970 bayesilibro

6.4. PRUEBAS DE HIPOTESIS 59

n = 2 y x1 = x2 = 0 entonces B01(x) = 6,1, sin embargo, si n = 2 y x1 = x2 = 2entonces B01(x) = 0,3

Definicion 6.7 (Modelos Encajados) Dos modelos Mk y Mj son encajados(con Mk en Mj), si θj = (φ,η) y θk = φ y fk(y|φ) = fj(y|φ,η0), donde η0

es un valor especıfico de η, y φ es un parametro comun.

Asumamos que tenemos datos x que surge de uno de los siguientes modelos(hipotesis):

M1 : X tiene densidad f1 (x |θ1 )M2 : X tiene densidad f2 (x |θ2 )

......

Mq : X tiene densidad fq (x |θq )Le asignamos probabilidades apriori a cada modelo ξ (Mi). Bajo el modelo

Mi:

Densidad apriori de θi: ξi (θi)

Densidad marginal de X:

mi (x) =

∫fi (x | θi) ξi (θi) dθi

que mide que tan verosımil es x bajo Mi.

Densidad posterior:

ξi (θi |x ) =fi (x | θi) ξi (θi)

mi (x)

El factor de Bayes de Mj con respecto a Mi:

Bji =mj (x)

mi (x)

La probabilidad posterior de Mi:

ξ (Mi |x ) =ξ (Mi)mi (x)∑qj=1 ξ (Mj)mj (x)

=

q∑

j=1

ξ (Mj)

ξ (Mi)Bji

−1

En el caso particular ξ (Mj) = 1/q, entonces

ξ (Mi |x ) = mi (x) =mi (x)∑qj=1mj (x)

=1∑q

j=1Bji

Page 67: 14172970 bayesilibro

60 CAPITULO 6. INFERENCIA BAYESIANA

Ejemplo 6.12 Localizacion-Escala Suponga que X1,X2, · · · ,Xn es unamuestra aleatoria con densidad

f (xi |µ, σ ) =1

σg

(xi − µ

σ

)

Podemos considerar varios modelos:

1. MN : g es N(0, 1)

2. MU : g es Uniforme(0, 1)

3. ML: g es Exponencial a la izquierda(

1σ e

x−µ), para x ≤ µ

4. MR: g es Exponencial a la derecha(

1σ e

−(x−µ)), para x ≥ µ

Observe que estos modelos no son encajados.

Ejemplo 6.13 Localizacion-Escala Suponga que X1,X2, · · · ,Xn es unamuestra aleatoria con densidad

f (xi |µ, σ ) =1

σg

(xi − µ

σ

)

Podemos considerar varios modelos:

1. MN : g es N(0, 1)

2. MU : g es Uniforme(0, 1)

3. ML: g es Exponencial a la izquierda(

1σ e

x−µ), para x ≤ µ

4. MR: g es Exponencial a la derecha(

1σ e

−(x−µ)), para x ≥ µ

Observe que estos modelos no son encajados.

Normal:

m (x |MN ) =Γ(n−1

2

)

(2π)(n−1)/2√n[∑

i (xi − x)2](n−1/2)

Uniforme:

m (x |MU ) =1

n(n− 1)(x(n) − x(1)

)(n−1)

Exponencial izquierda:

m (x |ML ) =(n− 2)!

nn(x(n) − x

)(n−1)

Exponencial derecha:

m (x |MR ) =(n− 2)!

nn(x− x(1)

)(n−1)

Page 68: 14172970 bayesilibro

6.5. LA APROXIMACION BIC 61

6.5. La aproximacion BIC

Esta seccion esta basada en Raftery (1994). La cantidad basica que subyaceen el factor Bayes es la verosimilitud integrada para el modelo, dada por

p(D|M1) =

∫p(D|θ1,M1)ξ(θ1|M1) dθ1

Primero se derivara una aproximacion simple para esta cantidad, y mostrarposteriormente como lleva a aproximar los factores de Bayes al criterio BICpara cualificar modelos. Por simplicidad la ecuacion anterior se escribe como

p(D) =

∫p(D|θ)ξ(θ) dθ

Consideremos el caso donde D consiste de n observaciones i.i.d. y1, · · · , yn, quepueden ser vectores.

Considere la expansion en series de Taylor de g(θ) = log (p(D|θ)ξ(θ)) alrede-dor de θ, el valor de θ que maximiza g(θ), esto es, la moda posterior. La ex-pansion es

g(θ) = g(θ) +(θ − θ

)Tg′(θ) +

1

2

(θ − θ

)Tg′′(θ)

(θ − θ

)+ o

(||θ − θ||2

)

donde

g′(θ) =

∂g(θ)∂θ1...

∂g(θ)∂θd

y g′′(θ) es la matriz Hessian de segundas derivadas parciales

g′′(θ) =

∂2g(θ)∂θ1∂θ1

· · · ∂2g(θ)∂θ1∂θd

.... . .

...∂2g(θ)∂θd∂θ1

· · · ∂2g(θ)∂θd∂θd

Ahora, ya que g(θ) = 0 tenemos

g(θ) ≈ g(θ) +1

2

(θ − θ

)Tg′′(θ)

(θ − θ

)

Esta aproximacion es buena si θ esta cercano a θ. Cuando n es grande laverosimilitud p(D|θ) esta concentrada alrededor de su maxima y declina rapi-

damente cuando se aleja de θ, ası que los unicos valores de θ que contribuyena p(D) =

∫p(D|θ)ξ(θ) dθ son los que estan cercanos a θ. Se sigue por lo tanto

que

p(D) =

∫exp (g(θ)) dθ ≈ exp

(g(θ)

) ∫exp

((θ − θ

)Tg′′(θ)

(θ − θ

))dθ

Page 69: 14172970 bayesilibro

62 CAPITULO 6. INFERENCIA BAYESIANA

La integral en la ecuacion anterior es proporcional a una densidad normal mul-tivariable, por lo tanto

p(D) ≈ exp(g(θ)

)(2π)

d/2 |A|−1/2

donde A = −g′′(θ). El error en la ecuacion anterior es O

(n−1

), ası

log (p(D)) = log(p(D|θ)

)+ log

(ξ(θ)

)+d

2log(2π) − 1

2log (|A|) +O

(n−1

)

Ahora, si la muestra es grande, θ ≈ θ, donde θ es el estimador de maximaverosimilitud, y A ≈ nI, donde I es la matrix de Informacion de Fisher esperadapara una observacion. Ası |A| ≈ nd|I|. Estas dos aproximaciones introducen unerror O

(n−1/2

)en la ecuacion anterior, la cual se convierte en

log (p(D)) = log(p(D|θ)

)+log

(ξ(θ)

)+d

2log(2π)−d

2log(n)−1

2log (|I|)+O

(n−1/2

)(∗)

Removiendo los terminos de orden O(1) o menores queda

log (p(D)) = log(p(D|θ)

)− d

2log(n) +O(1)

La ecuacion anterior nos dice que la verosimilitud log-integrada, log(p(D)),

es igual a la logverosimilitud maximizada, log(p(D|θ)

), menos un factor de

correccion.La ecuacion anterior es la aproximacion en la cual esta basada el BIC, y

su error O(1) significa que, en general, el error no se deparaece aun con unacantidad infinita de datos. Esto no es tan malo como parece, ya que los otrosterminos de la derecha de la ecuacion tienden a infinito cuando n lo hace, por lotanto ellos eventualmente dominaran. Ası el error en la ecuacion tendera haciacero como una proporcion del log (p(D)), asegurando que el error no afectara laconclusion a la cual se llegue, dado que se tengan suficientes datos.

Suponga que la apriori ξ (θ) es normal multivariable con media π y matrizde covarianzas I−1. Ası, hablando aproximadamente, la distribucion apriori con-tiene la misma cantidad de informacion que una solo observacion. Esto parecerazonable en una situacion en la cual haya poca informacion apriori. Entonces

log(ξ(θ)

)= −d

2log (2π) +

1

2log (|I|)

y sustituyendo en (*) se llega a

log (p(D)) = log(p(D|θ)

)− d

2log(n) +O(n−1/2)

Ası para la distribucion apriori particular seleccionada, el error en la aprox-imacion es O(n−1/2) en vez de O(n−1/2)

Esta aproximacion puede usarse para aproximar el factor de Bayes

Page 70: 14172970 bayesilibro

6.5. LA APROXIMACION BIC 63

B12 =p (D|M2)

p (D|M1).

Esto queda mejor en la escala logarıtmica

2 log (B12) = 2 (log (p (D|π2,M2)) − log (p (D|π1,M1)))−(d2 − d1) log(n)+O(n−1/2)

Si M1 esta encajado en M2, la ecuacion anterior puede re-escribirse

2 log (B12) ≈ χ221 − (d2 − d1) log(n)

donde χ221 es el estadıstico de la prueba de la razon de verosimilitud corriente

para probar M1 contra M2, y d2 − d1 son los grados de libertad asociados conla prueba.

Page 71: 14172970 bayesilibro

64 CAPITULO 6. INFERENCIA BAYESIANA

Page 72: 14172970 bayesilibro

Capıtulo 7Inferencia Predictiva

Muchas situaciones aplicadas implican realizar inferencias sobre una obser-vacion futura de una variable aleatoria, cuya distribucion depende de un numerofinito de parametros (desconocidos), esta distribucion se conoce como distribu-cion predictiva. Smith (1998) argumenta que afirmaciones predictivas acerca devariables aleatorias no observadas tiene mas sentido a menudo que la estimaciontradicional de parametros.

Asumiendo que ξ (θ) es la distribucion apriori y que ξ (θ|x) es la posterior,la distribucion predictiva bayesiana se calcula como

p (z|x) =p(z,x)

p(x)

=

∫Θp(z,x, θ) dθ∫Θp(x, θ) θ

=

∫Θp(z,x|θ)ξ(θ) dθ∫Θp(x|θ)ξ(θ) θ

=

∫Θp(z|θ)p(x|θ)ξ(θ) dθ∫

Θp(x|θ)ξ(θ) θ

=

Θ

p(z|θ)

p(x|θ)ξ(θ)∫Θp(x|θ)ξ(θ) θ

=

∫p(z|θ)ξ (θ|x) dθ

Ası

p (z|x) =

∫p(z|θ)ξ (θ|x) dθ

= Eθ|x [p(z|θ)]

65

Page 73: 14172970 bayesilibro

66 CAPITULO 7. INFERENCIA PREDICTIVA

La funcion p(z|θ) es la de verosimilitud de θ evaluada en z.

Ejemplo 7.1 Suponga que x1, · · · , xn es una muestra aleatoria de unaBernoulli(π)y suponga que la distribucion apriori de π es una Beta(α, β). Encontremos ladistribucion predictiva de una observacion futura z.

Tenemos

p (z|x) =

∫p(z|π)ξ (π|x) dπ

Ahora

p(z|π) = πz(1 − π)1−z, z = 0, 1,

y

ξ(π|x) ∝ π∑

xi+α−1(1 − π)n−∑

xi+β−1

Ahora, si denotamos por α∗ =∑xi + α y β∗ = n−∑xi + β tenemos que

p(z|x) =

∫ 1

0

Γ(n+ α+ β)

Γ(α∗)Γ(β∗)πz+α

∗−1(1 − π)β∗+1−z−1 dπ

=Γ(n+ α+ β)

Γ(α∗)Γ(β∗)

Γ(z + α∗)Γ(1 − z + β∗)

Γ(n+ α+ β + 1)

Ası

P (z = 0|x) =Γ(n+ α+ β)Γ(1 + β∗)

Γ(β∗)Γ(n+ α+ β + 1)

=β∗

n+ α+ β

=β∗

α∗ + β∗

y

P (z = 1|x) =α∗

α∗ + β∗

Vale la pena notar que

P (z = 1|x) = E(π|x),

la media posterior.

Page 74: 14172970 bayesilibro

67

Ejemplo 7.2 Suponga que x1, · · · , xn es una muestra aleatoria de un Poisson(θ).Ademas supongamos que la distribucion apriori de θ es una Gamma(α, β). En-contremos la distribucion predictiva p(z|x).

Sabemos que la distribucion aposteriori es una Gamma(α∗ = α+∑xi, β

∗ =β + n). Ahora

p(z|x) =θze−θ

z!

Ası

p(z|x) =

∫ ∞

0

θze−θ

z!

(β∗)α∗

Γ (α∗)e−β

∗θ dθ

=(β∗)α

z!Γ (α∗)

∫ ∞

0

θz+α∗−1e−(β∗+1)θ dθ

=(β∗)α

z!Γ (α∗)

Γ (z + α∗)

(β∗ + 1)(z+α∗)

=

(z + α∗ − 1

z

)(β∗

β∗ + 1

)α∗ (1

β∗ + 1

)z

para z = 0, 1, 2, · · · Por lo tanto

z|x ∼ Binomial −Negativa

(α∗,

1

β∗ + 1

)

Ejemplo 7.3 Sea x1, · · · , xn una muestra aleatoria de una exponencial condensidad θe−θx, con x > 0, θ > 0. Sea Z que denota una observacion futu-ra de la misma densidad. Estamos interesados en la probabilidad predictivaque Z > z para algun nivel dado z. Cuando θ es conocido, esto esta dado porφ = φ(z|θ) = e−θz.

Si asumimos que la distribucion apriori de θ es ξ(θ) ∝ θa−1e−bθ, una aprioriGamma con parametros (a, b). La distribucion aposteriori de θ es tambien unaGamma con parametros (a+ n, b+ Sn), donde Sn = x1+· · ·+xn, y la esperanzaposterior de φ se calcula como

φ =

(b+ Sn

b+ Sn + z

)a+n

Cuando a = b = 0 se tiene una distribucion apriori Jeffreys y la esperanzase reduce a

φ =

(Sn

Sn + z

)n

Page 75: 14172970 bayesilibro

68 CAPITULO 7. INFERENCIA PREDICTIVA

7.1. Tamano Muestral

Existen varias aproximaciones en estadıstica bayesiana para la determinaciondel tamano muestral. Joseph et al (1999) presentan los siguientes criterios

Criterio de Cobertura Promedio (ACC): Este criterio permite variar elnivel de cobertura 1−α con x, mientras se tiene fija la longitud del intervaloHPD, l. El tamano muestral se obtiene hallando el mınimo n que satisfaga

X

∫ a(x,n)+l

a(x,n)

ξ(θ|x) dθf(x) dx ≥ 1 − α

donde a(x, n) es el lımite inferior del intervalo HPD de longitud l parala distribucion posterior ξ(θ|x), la cual dpende de x y n. f(x) es la dis-tribucion predictiva de x, tambien conocida como la distribucion marginalpre-posterior de los datos y esta dada por

f(x) =

Θ

f(x|θ)ξ(θ) dθ

Criterio de Longitud Promedio (ALC): En este caso se fija la probabili-dad de cobertura, 1 − α, y se permite que la longitud del intervalo HPDvarıe dependiendo de los datos. En este caso para cada x en X debemoshallar la longitud HPD l′(x, n) tal que

∫ a(x,n)+l′(x,n)

a(x,n)

ξ(θ|x) dθ = 1 − α

y el tamano muestral n es el mınimo entero que satisfaga

X

l′(x, n)f(x) dx ≤ l,

donde l es la longitud promedio preespecificada.

Criterio del Peor Resultado (WOC): Otra aproximacion es definir una lon-gitud maxima permisible l y una probabilidad de cobertura mınima de1 − α, no importa que datos tengamos. Debemos escoger el mınimo valorde n tal que

ınfx∈X

∫ a(x,n)+l

a(x,n)

ξ(θ|x) dθ

≥ 1 − α

Page 76: 14172970 bayesilibro

Capıtulo 8WinBUGS

8.1. Introduccion

Uno de los inconvenientes que han tenido los metodos bayesianos para serutilizados en la practica ha sido la carencia de software especializado. Ningunode los grandes paquetes en estadıstica, SAS, SPSS, etc., tienen modulos parahacer estadıstica bayesiana.

Existe un programa de acceso gratuito al publico que permite utilizar simu-lacion estadıstica basada en cadenas de Markov en una forma simple y efectivapara gran variedad de modelos llamado BUGS, que es un acronimo de Bayesiananalysis Using the Gibbs Sampler (Muestreador Gibbs, que lo veremos en uncapıtulo posterior). Este programa esta disponible en

http://www.mrc-bsu.cam.ac.uk/bugs

y para el entorno de Windows existe WinBUGS. Este programa fue de-sarrollado por UK Medical Research Council y el Imperial College of Science,Technology and Medicine.

Existen otros programas que permiten resolver problemas bayesianos comoel BACC, First Bayes, etc. El R trae algunas librerıas con soluciones a ciertosproblemas especıficos, por ejemplo la MCMCPack y CODA.

8.2. Que se espera de un software para estadısti-ca bayesiana?

Koop (1999) senala algunos requisitos claves que todo software bayesianodeberıa cumplir:

1. Debe ser computacionalmente eficiente.

2. Debe estar bien documentado.

69

Page 77: 14172970 bayesilibro

70 CAPITULO 8. WINBUGS

3. El grupo de soporte debe ser amplio y reconocido.

4. Debe proporcionar simuladores posteriores para la clase de modelos quelos investigadores quieran usar.

5. Para los modelos no incluidos, debe ser facil la inclusion de los simuladoresposteriores que se necesitan por parte del usuario.

6. Debe tener una base amplia de funciones g(θ).

7. Debe proporcionar medidas del error en la aproximacion para las esti-madas de E (g(θ)|Y ) y las verosimilitudes marginales.

8. Debe permitir al usuario graficar la aposteriori y la apriori.

9. Debe permitirle al usuario realizar un analisis de sensibilidad apriori deuna manera facil.

10. Todo lo anterior debe poderse llevar a cabo de una manera simple, trans-parente y conveniente para el usuario.

8.3. Utilizacion de WinBUGS

La utilizacion por primera vez del programa puede ser una experiencia ex-trana, ya que el programa no funciona en una forma lineal, sino que requieremultiples pasos que pueden parecer repetitivos, pero que en realidad no lo son.

En WinBUGS el sımbolo ∼ significa “distribuido como” y se utiliza para

Especificar la distribucion de los datos.

Especificar la distribucion apriori.

Los valores a la izquierda de ∼ son llamados “estocasticos”.La flecha (conformada por dos sımbolos) a la izquierda <- se utiliza como el

igual. Por ejemplo var <- 1/precision . Los valores a la izquierda de <- sonllamados “logicos”.

Los pasos en el programa para correr un modelo son:

1. Los comandos anteriores los escribimos en una ventana que abrimos se-leccionando File y luego New. Si usted ya tiene algun archivo con unprograma creado y salvado con anterioridad en formato .odc puede abrirlopara trabajar con el.

Si seleccionamos New el programa muestra una ventana en blanco en lacual podemos escribir los comados apropiados, como los que se encuentranenseguida. Con el cursor seleccionamos toda la parte correspondiente almodelo y seleccionamos Edit y luego Copy.

Ejemplo con la longitud maxima del pie de estudiantes universitarios:

Page 78: 14172970 bayesilibro

8.3. UTILIZACION DE WINBUGS 71

Figura 8.1: Pantalla al iniciar el programa. Aparece una ventana con la notasobre el Copyright.

Page 79: 14172970 bayesilibro

72 CAPITULO 8. WINBUGS

El programa WinBUGS permite utilizar un languaje conciso para

expresar un modelo: β y τ son expresados con distribuciones apriori

propias pero lo mas mınimo informativas que se pueda, mientras

que la expresion logica sigma permite que la desviacion estandar

sea estimada.

Primero seleccionamos el menu Model.

Abrimos la herramienta Specification. Aquı nos aparece una ventana

con varias opciones.

Se~nalamos la palabra check model en el comenzo de la descripcion

del modelo. Necesitamos chequear que la descripcion del modelo

define completamente un modelo de probabilidad. Si el modelo fue

especificado correctamente aparece el mensaje model is syntacti-cally correct en la parte inferior izquierda de la ventana principal.

Sino, nos aparece el tipo de error que tenemos en el modelo.

Luego se~nalamos los datos (los cuales deben estar en un formato

especial, estilo S−Plus) y los copiamos con Edit y luego Copy.

Nuevamente nos vamos a la ventana Specification Tool y seleccionamos

load data. Si los datos estan conformes al modelo, aparece un mensaje

en la parte inferior izquierda de la ventana principal donde se

informa que los datos fueron cargados. (Estos datos pueden estar

copiados en la misma ventana en la cual escribimos nuestro modelo.

Lo que hacemos es se~nalarlos y copiarlos y luego oprimimimos el

cuadro load data).

list(Y = c(24.2,25.4,25.0,25.9,25.5,24.4), N = 6)

El siguiente paso se ejecuta en la ventana Specification Tool y seleccionamos

compile.

A continuacion en la ventana Specification Tool seleccionamos loadinits. Los valores iniciales para el proceso iterativo (Estos valores

iniciales pueden estar copiados tambien en la misma ventana en

la cual escribimos nuestro modelo y los datos. Lo que hacemos

es se~nalarlos y copiarlos y luego oprimimimos el cuadro load inits).

Otra opcion nos permite que el programa genere automaticamente

valores iniciales, esto lo hace generando numeros aleatorios de

la distribucion apriori. El programa permite correr mas de una

cadena simultaneamente, para lo cual se necesta especificar mas

de un conjunto de valores iniciales.

Del menu model seleccione Update... y del menu Inference seleccione

Samples. Ahora usted tiene dos nuevas ventanas, una con el nombre

Update Tool y la otra con el nombre Sample Monitor Tool.

Page 80: 14172970 bayesilibro

8.3. UTILIZACION DE WINBUGS 73

Figura 8.2: Tenemos la panatalla para los pasos de definicion del modelo.

Page 81: 14172970 bayesilibro

74 CAPITULO 8. WINBUGS

La ventana Update Tool nos permite generar muestras. En MCMC usualmente

hay que dejar correr el muestreador duarante algun tiempo (quiza 1000

iteraciones) para asegurarnos de que el proceso esta estable antes

de guardar valores.

Despues de una corrida inicial nos ubicamos en la ventana Sam-ple Monitor Tool. Para empezar escribimos los nombres de los nodos

(parametros) que queremos estudiar. Escribimos en la parte de

node beta y seleccionamos luego set. Procedemos igual con tau.

De la ventana Update Tool seleccionamos la opcion update. Esto lo

podemos realizar tantas veces como sea necesario para que el proceso

converja.

De la ventana Sample Monitor Tool seleccionamos ya lo que sea de

nuestro interes. Por ejemplo, seleccionamos un nodo, diagamos

beta y luego stats, nos aparece una nueva ventana con algunos resultados

de interes acerca de este parametro. Lo mismo hacemos para tau.

node mean sd MC error 2.5 % median 97.5 % start sample

beta 25.06 0.3443 0.006615 24.34 25.06 25.75 1 3000

sigma 0.778 0.3284 0.0068 0.4095 0.698 1.589 1 3000

]

Ejemplo 8.1 El caso normal con varianza conocida Supongamos quetenemos una muestra aleatoria de una normal y asumimos que su varianza esconocida e igual a 1.

Distribucion apriori mu dnorm(0,1) list(y=c(1.84,-0.23,1.12,0.35,-0.24, -0.89,1.65,-1.01,2.01,1.12))

8.4. Algunos de los comandos del WinBUGS

8.4.1. Model

Specification

Este comnado activa una ventana llamada Specification Tool que

nos permite definir completamente el modelo.

check model:

Page 82: 14172970 bayesilibro

8.4. ALGUNOS DE LOS COMANDOS DEL WINBUGS 75

Figura 8.3: Ventanas de salida de resultados de la ejecucion del programa.

Page 83: 14172970 bayesilibro

76 CAPITULO 8. WINBUGS

Figura 8.4: Ventana de definicion del modelo.

load data:

compile:

load inits:

gen inits:

num of chains:

for chain:

Update

Este comando se activa una vez el modelo ha sido compilado e inicializado.

El produce la ventana Update Tool con los siguientes comandos:

updates: numero de actualizaciones MCMC a ser llevadas a cabo.

refresh: el numero de actualizaciones entre reactualizaciones de

la pantalla.

thin: las muestras de cada k-esima iteracion sera guardada, donde

k es el valor de thin. Hacer k > 1 puede ayudar a reducir la autocorrelacion

en la muestra.

update: clickee para comenzar a actualizar el modelo.

over relax: esta seleccion permite trabajar con una version mas

relajada del MCMC.

adapting: Esta seleccion permite un proceso de adaptacion inicial

para un mejor ajuste de los parametros. Toda la informacion generada

en este proceso es descartada.

Page 84: 14172970 bayesilibro

8.4. ALGUNOS DE LOS COMANDOS DEL WINBUGS 77

Figura 8.5: Ventana de Actualizacion.

8.4.2. Inference

La opcion Inference tiene varias opciones, pero la mas importante

es Samples.

Samples...: Bajo este comando aparece una ventana con tıtulo Sam-ple Monitor Tool. Contiene los siguientes campos:

node: Se epecifica el parametro o variable de interes para el

analisis.

chains: Se pueden seleccionar las cadenas con las que se construiran

los estadısticos.

to: Opera junto con el comando anterior.

beg: Cuando se utiliza una submuestra para el analisis este comando

nos indica desde donde empezamos a utilizar los valores originales.

Marca el comienzo de la submuestra.

end: Marca el final de la submuestra que se inicio con el comando

anterior.

thin: las muestras de cada k-esima iteracion sera utilizada para

los estadısticos a producir, donde k es el valor de thin.

percentiles:

clear: Remueve cualquier valor guardado de las variables.

set: Debe utilizarse para empezar a guardar los valores para una

variable.

Page 85: 14172970 bayesilibro

78 CAPITULO 8. WINBUGS

Figura 8.6: Ventana de Muestras.

trace: Presenta una grafica del valor de la variable contra el

numero de la iteracion. La traza es dinamica y se esta reactualizando.

history: Grafica la traza completa para la variable.

density: Presenta un grafico de densidad para la variable si es

continua, o un histograma si es discreta,

stats: Produce un resumen estadıstico para la variable.

coda: Produce una representacion ASCII del proceso para ser reanalizada

con CODA.

quantiles:

GR diag: Calcula el estadıstico para convergencia de Gelman-Rubin.

autoC: Grafica la funcion de autocorrelacion de variable hasta

un rezago de 50.

Fit...: Fit Tool

Correlations:

Page 86: 14172970 bayesilibro

8.4. ALGUNOS DE LOS COMANDOS DEL WINBUGS 79

Figura 8.7: Ventana de Ajuste.

Page 87: 14172970 bayesilibro

80 CAPITULO 8. WINBUGS

Page 88: 14172970 bayesilibro

Capıtulo 9Modelos Lineales

9.1. La regresion clasica

Un modelo de regresion es un medio formal para expresar los dos

ingredientes esenciales de una relacion estadıstica:

a ) Una tendencia de la variable dependiente Y que cambia, cuando

la variable independiente cambia, en una forma sistematica.

b ) Una dispersion de los puntos alrededor de la relacion estadıstica.

Estas caracterısticas se expresan en un modelo de regresion como:

a ) Para cada nivel de X hay una distribucion de probabilidad de Y .

b ) Las medias de estas distribuciones de probabilidad cambian en

una forma sistematica con X.

9.1.1. Usos del Analisis de Regresion

Descripcion

Control

Prediccion

9.1.2. Estrategia Tıpica en un Analisis de Regresion

a ) Dise~no del Experimento

b ) Analisis Exploratorio o inicial de los datos

c ) Desarrollo de uno o mas modelos de regresion tentativos

81

Page 89: 14172970 bayesilibro

82 CAPITULO 9. MODELOS LINEALES

d ) Hay uno o mas modelos adecuados en los datos? Sı.

e ) Identifique el modelo mas adecuado

f ) Haga todas las inferencias necesarias basado en el modelo seleccionado

g ) Revise los modelos y/o desarrolle otros diferentes

h ) Presentacion de resultados e interpretacion.

9.1.3. Regresion simple

El modelo mas sencillo, pero el mas util, es el que se conoce

como modelo de regresion simple. Si tenemos una variable, Y , en cuyo

comportamiento estamos interesados cuando la condicionamos en

ciertos valores de otra variable, X, el modelo de regresion simple

nos dice que la media condicional de Y dado un valor de X = x,denotada por E [Y |X] = µY |X, es una funcion lineal de X, o sea,

E [Y |X = x] = µY |X=x = β0 + β1x

donde β0 y β1 se conocen como los parametros del modelo. Estos

valores usualmente son desconocidos y el problema es estimarlos

a partir de una muestra de individuos de la poblacion.

Sea (Y1,X1), (Y2,X2), · · · , (Yn,Xn) una muestra aleatoria extraıda de

la poblacion de referencia. Observe como cada individuo proporciona

informacion simultaneamente sobre X y sobre Y . El individuo i-esimopuede representarse en terminos del modelos ası:

Yi = β0 + β1Xi + ei

Supuestos:

a ) ei ∼ Normal(0, σ2

), varianza constante (homoscedasticidad)

b ) Cov (ei, ej) = 0 para todo i 6= j

Notacion:

yi =(Yi − Y

)

xi =(Xi − X

)

Las minusculas denotan desviaciones de la media.

9.1.4. Modelo de Regresion Lineal Multiple

Y = β0 + β1X1 + β2X2 + . . .+ βkXk + ei

donde

Page 90: 14172970 bayesilibro

9.1. LA REGRESION CLASICA 83

Y : Respuesta o variable dependiente

X1,X2, · · · ,Xk : k variables explicatorias o independientes (no

estocasticas)

β0, β1, · · · , βk: k + 1 parametros (usualmente desconocidos)

e: Error aleatorio

a ) E (e; ) = 0

b ) V ar (e; ) = σ2e

c ) Adicionalmente se asume normal

Y ∼ N(β0 + β1X1 + · · · + βkXk, σ

2

E [Y |X1,X2, · · · ,Xk] = β0+β1X1+· · ·+βkXkLamuestraaleatoriaconstadenpuntos.Eli−esimopuntosedenotacomo

(Xi1,Xi2, · · · ,Xik, Yi) , para i = 1, 2, · · · , n

CondicionCov (Yi, Yj) = 0 para todo i 6= j

Yi = β0 + β1Xi1 + β2Xi2 + · · · + βkXik + ei para i = 1, 2, · · · , nel modelo aplicado al i-esimo punto

Para las n observaciones tenemos

Y1 = β0 + β1X11 + β2X12 + · · · + βkX1k + e1

Y2 = β0 + β1X21 + β2X22 + · · · + βkX2k + e2...

......

Yn = β0 + β1Xn1 + β2Xn2 + · · · + βkXnk + en

9.1.5. Notacion Matricial

La notacion matricial simplifica todo el trabajo

Y n×1 = Xn×(k+1)β(k+1)1 + en×1

Si β denota el estimador de β, se puede mostrar queˆβ =

(XTX

)−1XTY .

Este es el estimador de maxima verosimilitud y coincide con el estimador demınimos cuadrados. Y = Xβ son los valores de la respuesta predichos por elmodelo estimado. Y es el estimador de E[Y |X] y los residuales estan dados por

e = Y − Y . La prediccion para una observacion X0 tenemos Y0 = XT0 β

Page 91: 14172970 bayesilibro

84 CAPITULO 9. MODELOS LINEALES

9.2. Aproximacion Bayesiana

Sea β = (β1, · · · , βk)′ ∈ Rk, con k ≥ 1 y sea W otro parametro (positivo).Supongamos que podemos observar Y1, · · · , Yn, cada una de las cuales se dis-tribuye normalmente cuya media es una combinacion lineal de las k componentesde β y cuya precision es W .

Sea X la matriz de diseno definida ası:

X =

x11 · · · x1k

x21 · · · x2k

.... . .

...xn1 · · · xnk

La distribucion condicional conjunta de Y = (Y1, · · · , Yn)′ cuando β = b yW = w es una normal multivariable con vector de medias Xb y matriz deprecision wI, donde I es la matriz de identidad de dimension n × n. Por lotanto la funcion de verosimilitud tendra la siguiente forma para todo puntoy = (y1, · · · , yn)T

L(b, w|y) ∝ wn/2 exp(−w

2(y − Xb)′(y − Xb)

)

El objetivo principal en el analisis de regresion es el de realizar inferencias con-cernientes a β yW teniendo como base el valor observado Y = y. Un estimadorde mınimos cuadrados de β se define como el vector b = b que minimiza laforma cuadratica (y −Xb)′(y−Xb) que aparece en el exponente de la funcion

de verosimilitud. El valor de b que minimiza la forma cuadratica satisface laecuacion:

X ′Xb = X ′y

Estas son conocidas como las ecuaciones normales. Si X es una matriz de rangocompleto, entonces X ′X es no singular, y llegamos a la solucion bien conocidab = (X ′X)−1X ′y.

9.3. Distribucion Normal-Gamma

Definicion 9.1 Distribucion Normal-Gamma Suponga que X1, · · · ,Xn esuna muestra aleatoria de una distribucion normal multivariable con vector demedias M desconocida y matriz de precision de la forma WR, donde R esuna matriz definida positiva conocida y W desconocida. Suponga tambien quela distribucion apriori conjunta de M y W es como sigue:

Page 92: 14172970 bayesilibro

9.4. DISTRIBUCION APOSTERIORI 85

La distribucion condicional de M cuando W = w es una distribucionnormal multivariable con vector de medias µ y matriz de precision wτ ,con µ ∈ Rk y τ k×k es una matriz simetrica definida positiva y,

la distribucion marginal de W es una gamma con parametros α > 0 yβ > 0.

Entonces la distribucion posterior conjunta de M y W cuando X1 = x1, · · · ,Xn =xn es como sigue:

La distribucion condicional de M cuando W = w es una distribucionnormal multivariable con vector de medias µ∗ y matriz de precision w(τ +nR), donde

µ∗ = (τ + nR)−1(τµ + nRx)

la distribucion marginal de W es una gamma con parametros α+ (nk/2)y β∗, donde

β∗ = β + 1/2

n∑

i=1

(xi − x)′R(xi − x) + 1/2(µ∗ − µ)′τ (x − µ)

Supongamos ahora que la distribucion apriori conjunta de β y W es una normal-gamma multivariable como la definida arriba. La distribucion conjunta ξ de β

y W es como sigue para β ∈ Rk y W > 0:

ξ(β,W ) ∝W k/2 exp

(−W

2(β − µ)′τ (β − µ)

)Wα−1 exp(−βW )

9.4. Distribucion Aposteriori

La distribucion conjunta ξ de β y W es como sigue para β ∈ Rk y W > 0:

ξ(β,W |y) ∝ W k/2 exp

(−W

2(β − β1)

′(τ + X ′X

)(β − β1)

)

×Wα+(n/2)−1 exp(−β1W )

donde

β1 =(τ + X ′X

)−1 (τµ + X ′y

)

β1 = β +1

2

[(y − Xβ1)

′y + (µ − β1)

′τµ]

Por lo tanto

Page 93: 14172970 bayesilibro

86 CAPITULO 9. MODELOS LINEALES

la distribucion condicional de β dado W = w aposterior es

N(β1, w

(τ + X ′X

))

donde w(τ + X ′X

)es la precision.

la distribucion marginal de W es una Gamma(α+ n

2 , β1

)

Teorema 9.1 Bajo las condiciones anteriores la distrbucion marginal aposte-riori de β sera una distribucion t multivariable1

AQUI EMPIEZAN NOTAS NUEVAS

yi | xi ∼ N(xiβ, σ

2)

o y | X ∼ N(Xβ, σ2I

)

L(β, σ2 | y

)=

(2πσ2

)−n/2exp

(− 1

2σ2(y − Xβ)

′(y − Xβ)

)

=(2πσ2

)−n/2exp

(− 1

2σ2

(y − Xβ

)′ (y − Xβ

))

× exp

(− 1

2σ2

(β − β

)′X′X

(β − β

))

donde β = (X′X)−1

X′y, el estimador de mınimos cuadrados y utilizamos elhecho que

(y − Xβ

)′X(β − β

)= y′

(I − X (X′X)

−1X′)X(β − β

)

= y′ (X − X)(β − β

)= 0.

Por lo tanto se concluye que S =(y − Xβ

)′ (y − Xβ

), X′X y β son estadısti-

cos suficientes para β y σ2.

1Un vector aleatorio X se dice que tiene una distribucion t multivaiable con n grados delibertad, vector dfe localizacion µ y matriz de precision T , si su densidad es

f (x|n, µ, T ) = c

(1 +

1

n(x− µ)′T (x− µ)

)−(n+k)/2

donde

c =Γ [(n + k)/2] |T |1/2

Γ(n/2)(nπ)(k/2)con

2 α + n grados de libertad, vector de localizacion β1 y matriz de precision

2α + n

2β1

(τ + X′X

)

Page 94: 14172970 bayesilibro

9.5. ANALISIS CONJUGADO 87

9.5. Analisis Conjugado

La verosimilitud es de la forma normal-gamma

L(β, σ2 | y

)∝

(σ2)−(n−k−2)/2−1

exp

(− 1

2σ2

(y − Xβ

)′ (y − Xβ

))

×(σ2)−k/2

exp

(− 1

2σ2

(β − β

)′X′X

(β − β

))

con β | σ2 normal y la distribucion marginal de σ2 es una Gamma2 invertida,denotada por IG2 con n − k − 2 grados de libertad. La distribucion aprioriconjugada tambien es de la forma normal-gamma.

β | σ2 ∼ N(β0, σ

2M−10

)

σ2 ∼ IG2 (S0, v0)

tenemos

ξ(β, σ2 | y

)∝

(σ2)−(n−k−2)/2−1

exp

(− S

2σ2

)exp

(− 1

2σ2

(β − β

)′X′X

(β − β

))

×(σ2)−v0/2−1

exp

(− S0

2σ2

)(σ2)−k/2

exp

(− 1

2σ2(β − β0)

′M0 (β − β0)

)

=(σ2)−(v0+n)/2−1

exp

(− S1

2σ2

×(σ2)−k/2

exp

(− 1

2σ2(β − β1)

′M1 (β − β1)

)

donde

M1 = M0 + X′X

β1 = M−11

(M0β0 + X′Xβ

)

S1 = S0 + S + Sβ

Sβ =(β0 − β

)′ [M−1

0 + (X′X)−1]−1 (

β0 − β)

El resultado sigue completando el cuadrado para β y reuniendo los otros termi-nos en Sβ teniendo en cuenta que

(M0 + (X′X))−1

= M−10 − M−1

0

[M−1

0 + (X′X)−1]−1

M−10

Page 95: 14172970 bayesilibro

88 CAPITULO 9. MODELOS LINEALES

= (X′X)−1 − (X′X)

−1[M−1

0 + (X′X)−1]−1

(X′X)−1

(X′X)(M0 + (X′X)

−1M0 =

[M−1

0 (M0 + (X′X)) (X′X)−1]−1

=[M−1

0 + (X′X)−1]−1

La distribucion posterior sera entonces

β | y, σ2 ∼ N(β1, σ

2M−11

)

σ2 | y ∼ IG2 (S1, v1)

donde v1 = v0 + n.

La distribucion marginal posterior para β es una t multivariable. Si integramospara eliminar σ2 de la distribucion conjunta posterior obtenemos el kernel de lamarginal posterior como

ξ (β | y) ∝[S1 + (β − β1)

′M1 (β − β1)

]−(v1+k)/2

Este es el kernel de la distribucion t multidimensional con v1 grados de libertady parametros de escala S1 y M1, y denotado por

β | y ∼ tk (β1,S1,M1,v1)

Resultados similares se obtienen para subconjuntos de parametros de la regre-sion. Sea β ∼ N

(b, σ2M−1

)y σ2 ∼ IG2 (S, v). Asumamos la siguiente particion

conformable

β =

(βa

βb

)

M−1 =

(Maa Mab

Mba Mbb

)

Ya que β es normal condicionado en σ2 tenemos

βa | σ2 ∼ N(ba, σ2Maa

)

βa | βb, σ2 ∼ N(ba + Mab

(Mbb

)−1 (βb − bb

), σ2

(Maa − Mab

(Mbb

)−1Mba

)).

Marginalizando con respecto a σ2 tenemos

βa ∼ tka

(ba,S, (Maa)

−1,v)

βa | βb ∼ tka

(ba + Mab

(Mbb

)−1 (βb − bb

),S,(Maa − Mab

(Mbb

)−1Mba

)−1

,v

).

Page 96: 14172970 bayesilibro

9.5. ANALISIS CONJUGADO 89

9.5.1. Distribucion Predictiva

Recordemos que el modelo de interes es y = Xβ + ǫ, con ǫ ∼ N(0, σ2I

).Ya que

β | σ2 ∼ N(β0, σ

2M−10

), entonces Xβ | σ2 ∼ N(Xβ0, σ

2XM−10 X′). Se sigue

que

y | σ2 ∼ N(Xβ0, σ

2(I + XM−1

0 X′))

ya que ǫ es independiente de β cuando condicionamos en σ2. La apriori para σ2

es IG2 (S0, v0) y marginalizando con respecto a σ2 produce

y ∼ tn

(Xβ0,S0,

(I + XM−1

0 X′)−1

,v0

)

La densidad predictiva para un vector y∗ de m componentes condicionado a unconjunto de valores para las variables explicatorias X∗ es

y∗ | X∗ ∼ tm

(X∗β1,S1,

(I + X∗M−1

1 X∗′)−1

,v1

)

9.5.2. Inferencias

Intervalos de Probabilidad

Regiones de alta probabilidad para conjuntos de parametros se encuentran direc-tamente de la distribucion marginal posterior. Para un solo parametro tenemos

βi | y ∼ t(β1i ,S1,

(Mii

1

)−1,v1

)

donde M ii1 es el elemento i, i de M−1

1 . La transformacion

βi − β1i√

M ii1 S1/v1

tiene una distribucion t estandar y una region de mas alta probabilidad 1 − αesta dada por

(β1i − tα/2,v1

√M ii

1 S1/v1, β1i + tα/2,v1

√M ii

1 S1/v1

)

Para conjuntos de parametros notemos que si x ∼ tm (µ,S,M ,v) entonces

(x − µ)′M (x − µ) /m

S/v∼ F(m,n)

Una region de mas alta probabilidad para β esta dada por

β :

(β − β1)′M1 (β − β1) /k

S1/v1

≤ F(1−α,k,v1)

Page 97: 14172970 bayesilibro

90 CAPITULO 9. MODELOS LINEALES

9.5.3. Pruebas de Hipotesis

Las pruebas de hipotesis puntuales son faciles de implementar utilizando latecnica de la region de mas alta probabilidad y verificando que la hipotesisesta contenida en una region apropiada de mas alta probabilidad.

Si la hipotesis tiene la forma de q restricciones lineales Bβ = r, tenemos que ladistribucion posterior bajo la hipotesis es

Rβ ∼ tq

(Rβ1,S1,

(RM−1

1 R)−1

,v1

)

y por lo tanto

(δ − Rβ1 + r)′ (

RM−11 R

)−1(δ − Rβ1 + r) /q

S1/v1∼ F(q,v1)

para δ = Rβ1 − r. La hipotesis δ = 0 esta contenida en la region de mas altaprobabilidad si

(Rβ1 − r)′ (

RM−11 R

)−1(Rβ1 − r) /q

S1/v1< F(q,v1)

Para el calculo de las pruebas bayesianas y los factores de Bayes supongamosdeseamos probar H1 : Rβ = r y H2 : Rβ 6= r. H1 implica excatamente qrestricciones sobre los paametros que pueden ser sustituidos en el modelo, locual produce

y∗ = X∗β∗ + ǫ

donde β es un vector con k−q componentes. Especificando una apriori para β∗ y

σ2 bajo H1, digamos β∗ | σ2 ∼ N(β∗0, σ

2M∗−1

0

), σ2 ∼ IG1 (S0, v0) obtenemos

la verosimilitud marginal bajo H1 como

m (y∗ | H1) = tn

(X∗β∗

0,S0,(I + X∗M

∗−1

0 X∗′)−1

,v0

)

Bajo H2, especificamos una apriori β | σ2 ∼ N(β0, σ

2M−10

), σ2 ∼ IG1 (S0, v0)

y el analisis es igual al anterior. El factor de Bayes sera entonces

B12 =

tn

(X∗β∗

0,S0,(I + X∗M

∗−1

0 X∗′)−1

,v0

)

tn

(Xβ0,S0, (I + XM0;−1X′)

−1,v0

)

Page 98: 14172970 bayesilibro

9.6. PRECIOS DE OFERTA DE VEHICULOS 91

9.6. Precios de Oferta de Vehıculos

Consideremos los datos referentes a los precios de oferta de carros ChevroletSprint aparecidos en el periodico El Colombiano Abril 14 del 2002 en la seccionde Avisos Clasificados.

Ano Precio(en millones)

87 7.088 8.092 10.494 12.5

Si asumimos que el modelo Precio = β0 + β1Ano nos puede representar de unamanera adecuada la relacion entre el Precio de Oferta del vehıculo y el Ano delmismo. Ademas asumimos que una observacion particular tiene una diferenciacon el modelo teorico que se distribuye normal con media cero y varianza σ2.La pendiente β0 nos indica la diferencia promedio en el precio de dos carrosSprint de anos consecutivos. Podemos entonces utilizar un programa estadısticoque ajuste el modelo ( aun hasta calculadoras de bolsillo ajustan este tipo demodelos). Los resultados son

Precio Estimado = 9,475 + 0,74275Ano

Error Estandar 0,17326 0,06055

Desviacion Tıpica del Modelo: 0.3465 con 2 grados de libertad

R-Cuadrado: 0.9869

Obviamente el modelo ajusta bien, pero es claro que tenemos muy pocos datos.El intervalo de confianza del 95 % para la pendiente es ( 0.4822244, 1.003276),que es bastante amplio. Un problema con esta aproximacion es la interpretacionfrecuentista que hay que darle al intervalo y que se basa en el supuesto de laextraccion de infinitas muestras de tamano 4 de la misma poblacion.

Los precios de oferta del mismo tipo de carro que aparecieron en El Colombianoen Diciembre 16 del 2001, en el cual aparecieron los siguientes datos

Ano Precio(en millones)

88 7.890 8.895 11.895 12.394 12.095 8.8

Si asumimos que β0 se distribuye normalmente con media 10.86 y precision de28.08382 y β1 se distribuye normalmente con media 0.6522 y precision 225.2477.

Page 99: 14172970 bayesilibro

92 CAPITULO 9. MODELOS LINEALES

Para la varianza del modelo asumimos un modelo poco informativo Gamma(0.001,0.001).Los valores anteriores se construyeron asumiendo inicialmente distribucionespoco informativas y actualizandolos con la informacion previa, excepto el de lavarianza, ya que este nos refleja el nivel de credibilidad en las predicciones deesta actualizacion, que puede no ser muy alto. Dadas esta nuevas condicionespara nuestro problema, o sea informacion previa disponible y cuantificada enterminos de distribuciones, procedemos a mezclarla, utilizando el Teorema deBayes, para obtener nuestra distribucion actualizada o aposteriori. Esta ultimaproduce los resultados siguientes

Parametro media sd 2.5 % 97.5 %β0 10.76 0.1925 10.38 11.14β1 0.6581 0.06308 0.5339 0.7838τ 0.5937 0.4655 0.06085 1.825

El intervalo de credibilidad (en la estadıstica clasica lo llamamos de confianza)para la pendiente del 95 % de probabilidad es (0.5339 , 0.7838 ), el cual nos diceque el mas probable valor para la diferencia promedio en el precio de oferta dedos carros Sprint de anos consecutivos esta entre $534.000.00 y $784.000.00. Esteintervalo es mucho mas preciso que el intervalo hallado por el metodo clasicoque era $482.200.00 y $1.003.000.00.

9.7.

El modelo usual de regresion es

y = Xβ + ǫ, ǫ ∼ N (0,Σ) , β ∈ Rp

Las conjugadas son del tipo β ∼ N (Aθ,C) , donde θ ∈ Rq, con q ≤ p.

En el caso de distribuciones no informativas la apriori de Jeffreys es

ξ (β,Σ) |Σ|−(k+1)/2

recordando que la verosimilitud puede expresarse como

L (β,Σ|y) ∝ |Σ|−n/2 exp

−1

2traza

[Σ−1

n∑

i=1

(yi − xiβ) (yi − xiβ)′

]

Ejemplo 9.1 Propiedad Raız El mercado de propiedad raız es uno de losmas importantes y refleja la situcion economica de una region. En este caso va-mos a considerar el mercado de apartamentos usados en el sector de El Poblado.Seleccionamos este sector basicamente por las siguientes razones:

Page 100: 14172970 bayesilibro

9.7. 93

a) Es un sector de la ciudad con una gran dinamica en el mercado del usado.

b) A nivel de estratificacion socioeconomica es muy homogenea.

c) Los apartamentos son relativamente nuevos, en el sentido que la antiguedadde la mayorıa no supera los veinte anos.

Uno puede considerar muchos factores que expliquen el precio de oferta de unapartamento usado, por ejemplo:

Antiguedad del inmueble.

Metros cuadrados construidos.

Calidad de la construccion.

etc.

Nosotros consideramos la informacion disponible para construir un modelo queexplique el precio de oferta y basicamente se limita a los metros cuadradosconstruidos del apartamento.

Page 101: 14172970 bayesilibro

94 CAPITULO 9. MODELOS LINEALES

Apto. No. Metros2 Precio (en millones)1 113.00 92.002 140.00 130.003 140.00 125.004 110.00 90.005 69.00 65.006 152.00 130.007 105.00 110.008 144.00 120.009 103.00 89.00

10 107.00 145.0011 112.00 85.0012 103.00 89.0013 120.00 105.0014 86.00 75.0015 143.00 112.0016 115.00 112.0017 136.50 125.0018 168.50 145.0019 217.00 205.0020 132.80 115.0021 120.00 105.0022 108.00 89.0023 220.00 150.0024 110.00 89.0025 228.00 108.0026 83.00 66.0027 78.00 64.0028 150.00 135.0029 135.00 125.0030 90.00 65.00

Fuente: El Colombiano, Avisos Clasificados,Sept. 22 del 2002.

model

for( i in 1 : N ) Precio[i ] ~ dnorm(mu[i],tau)

mu[i] <- alpha + beta * (metros[i] - mean(metros[]))

tau ~ dgamma(0.001,0.001)

sigma <- 1 / sqrt(tau)

alpha ~ dnorm(0.0,1.0E-6)

error~dnorm(0,tau)

beta ~ dnorm(0.0,1.0E-6)

Precio175<-alpha+beta*(175-mean(metros[]))

Page 102: 14172970 bayesilibro

9.7. 95

Precio175indi<-Precio175+error

for(i in 1:N)PrecioIndi[i]<-alpha+beta*(metros[i]-mean(metros[]))+error

list(N=25, Precio=c(92,130,125,90,65, 130,110,120,89,145, 85,89,105,75,112,

112,125, 145,205,115, 105,89,150,89,108, 66,64,135,125,65), metros=c(113,140,140,110,69,

152,105,144,103,107, 112,103,120,86,143, 115,136.5,168.5,217,132.8,

120,108,220,110,228, 83,78,150,135,90))

list(tau=1,beta=0,alpha=0,error=0)

Los resultados del anterior programa se muestran en la siguiente tabla.

Nodo Media sd 2.50 % median 97.5 %1 alpha 108.70 3.79 101.20 108.70 116.202 beta 0.61 0.10 0.41 0.61 0.803 Precio175 137.20 5.90 125.40 137.20 148.804 Precio175indi 137.20 21.38 94.90 137.20 179.60

Ajustamos en R el modelo Precio = α + β(Metros2 −Media(Metros2)

)por

el metodo clasico (esto es, no bayesiano) y obtuvimos

Parametro Estimacion error Prueba t Valor-p1 a 108.66667 3.61327 30.074 < 2e− 16

2 β 0.60893 0.09303 6.546 4,27e− 07

Page 103: 14172970 bayesilibro

96 CAPITULO 9. MODELOS LINEALES

Obs. Media sd EMC 2.50 % Mediana 97.50 %1 99.45 20.96 0.25 58.01 99.35 141.002 115.90 20.96 0.25 74.58 115.80 156.903 115.90 20.96 0.25 74.58 115.80 156.904 97.63 20.98 0.25 56.52 97.54 139.005 72.72 21.64 0.26 30.34 72.53 114.606 123.10 21.06 0.26 81.64 123.10 164.707 94.59 21.02 0.25 53.26 94.54 136.008 118.30 20.99 0.25 76.88 118.20 159.409 93.38 21.04 0.25 52.12 93.30 134.70

10 95.81 21.00 0.25 54.43 95.74 137.2011 98.84 20.97 0.25 57.52 98.76 140.3012 93.38 21.04 0.25 52.12 93.30 134.7013 103.70 20.93 0.25 62.52 103.60 144.9014 83.05 21.28 0.25 41.36 82.92 124.9015 117.70 20.98 0.25 76.35 117.60 158.7016 100.70 20.95 0.25 59.33 100.50 142.1017 113.70 20.94 0.25 72.73 113.60 154.8018 133.20 21.31 0.26 90.95 133.30 174.8019 162.60 22.68 0.29 117.50 162.50 208.5020 111.50 20.93 0.25 70.56 111.30 152.7021 103.70 20.93 0.25 62.52 103.60 144.9022 96.41 20.99 0.25 55.03 96.37 137.8023 164.50 22.79 0.29 119.20 164.40 210.6024 97.63 20.98 0.25 56.52 97.54 139.0025 169.30 23.11 0.30 123.40 169.20 216.3026 81.23 21.33 0.25 39.49 81.10 123.0027 78.19 21.44 0.25 36.10 78.07 119.7028 121.90 21.04 0.26 80.46 121.90 163.3029 112.80 20.94 0.25 71.76 112.70 154.0030 85.48 21.21 0.25 43.99 85.38 127.10

Call:

lm(formula = Precio ~ Metros)

Residuals:

Min 1Q Median 3Q Max

-61.584 -8.028 -1.644 11.202 49.097

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 30.74757 12.44011 2.472 0.0198 *

Metros 0.60893 0.09303 6.546 4.27e-07 ***

Page 104: 14172970 bayesilibro

9.7. 97

Figura 9.1: Metros cuadrados de un apartamento versus el Precio de oferta(en millones) en el sector de El Poblado. El modelo estimado es Precio =30,7475+0,6089Metros2, el cual indica que el metro cuadrado para los usados eneste sector es aproximadamente de $600.000.00 Fuente: El Colombiano, AvisosClasificados, Sept. 22 del 2002.

Page 105: 14172970 bayesilibro

98 CAPITULO 9. MODELOS LINEALES

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 19.79 on 28 degrees of freedom

Multiple R-Squared: 0.6048, Adjusted R-squared: 0.5907

F-statistic: 42.85 on 1 and 28 DF, p-value: 4.27e-07

predict.lm(lm(Precio~Metros),data.frame(Metros=175),

interval=’prediction’)

fit lwr upr

[1,] 137.3109 95.13768 179.4841

> predict.lm(lm(Precio~Metros),data.frame(Metros=175),

interval=’confidence’)

fit lwr upr

[1,] 137.3109 125.6862 148.9355

El modelo clasico nos da

Precio = 30,7475 + 0,6089Metros2

X ′X =

[30,0 3838,83838,8 536471,3

]

9.8. Estrategias en Modelacion

Jefferys y Berger (1992) discuten el principio que es ahora popular entre losmodeladores conocido como la cuchilla de Ockham, y que dice Pluritas non estponenda sine necessitate, que traduce “La pluralidad no se debe imponer sinnecesidad”. Aunque el principio es relativamente vago, varias interpretacionesse le han dado tales como:

“Las entidades no deben ser multiplicadas sin necesidad”

“Es vano hacer con mas lo que se puede hacer con menos”

“Una explicacion de los hechos no debe ser mas complicada de lonecesario”

“Entre hipotesis que compiten, favorezca la mas simple”

Page 106: 14172970 bayesilibro

9.9. REGRESION INVERSA O CALIBRACION 99

Este ha sido un principio heurıstico, pero ellos argumentan que puede ser justi-ficado y aceptado bajo la escuela bayesiana.

Loredo (199*) habla de la Cuchilla de Occam Automtizada

Para probabilidades predictivas se prefieren modelos simples.

El Factor de Occam

P (D|Mi) =

∫ξ (θi|M)L(θi) dθi

≈ xi(θi|M

)L(θi) δθi

≈ L(θi)δθi∆θi

≈ Maxima Verosilitud × Factor de Occam

Los modelos con mas parametros usualmente hacen que los datos produzcan unmejor ajuste. El Factor de Occam penaliza los modelos por el “volumen” delespacio parametral desperdiciado.

No existen reglas rıgidas que se deban seguir en el proceso de modelacion, masbien lo que se presenta a continuacion nace mas bien de la experiencia:

Comenzar con modelos pequenos y simples que han sido utilizadospor otras personas y para los cuales los analisis han sido realizados.

Desarrollar modelos mas complejos paso a paso.

Cuando realice simulaciones chequee las respuestas finales comen-zado desde diferentes puntos iniciales y diferentes semillas para losgeneradores de numeros aleatorios.

9.9. Regresion Inversa o Calibracion

Suponga que realizamos un experimento para determinar el porcentaje en in-sectos que mueren cuando se les aplica una cantidad de droga letal. En el ex-perimento supogamos que tenemos 5 niveles de droga 0.1 0.2 0.3 0.4 0.5 y a500 insectos en grupos de a 100 les aplicamos el veneno (100 muertos por cadadosis)

Y 0.1 0.2 0.3 0.4 0.5X 22 35 4 6 0

La estimacion inversa serıa : Cual es la dosis que mata el 50 % de los insectos ?

El problema clasico nos da

Y = β0 + β1X

Page 107: 14172970 bayesilibro

100 CAPITULO 9. MODELOS LINEALES

Y0 es el valor dado. El estimador “natural”serıa

X0 =Y0 − β0

β1

con β1 6= 0

Un IC del (1 − α) 100% para X0 es el conjunto de valores X que satisface ladesigualdad (

Y0 − β0 − β1X)2

σ2eA

2≤ t2(α/2,n−2)

donde

A2 = 1 +1

n+

(X − X

)2∑ni=1

(Xi − X

)2

El problema de la regresion lineal inversa puede establecerse como: las observa-ciones toman la forma

y1i = β1 + β2xi + ǫ1i i = 1, · · · , ny2j = β1 + β2x+ ǫ2j j = 1, · · · ,m

donde los ǫ1i’s y los ǫ1j ’s estan mutua e independientemente distribuidasN(0, σ2

).

Se asume que x1, · · · , xn son constantes conocidas, y que β1, β2, σ2 y x son

desconocidas. El problema es realizar inferencias con respecto a x basados eny11, · · · , y1n, y21, · · · , y2m. Sin perdida de generalidad se asume que las xi’s sonseleccionadas tal que

i

xi = 0,

∑i x

2i

n= 1

Ejemplo 9.2 Regresion Inversa: Cuantos metros tendra un aparta-mento que cuesta $100 millones?

model

for( i in 1 : N )

Precio[i ] ~ dnorm(mu[i],tau) mu[i] <- alpha + beta * (metros[i]

- mean(metros[]))

tau ~ dgamma(0.001,0.001) sigma <- 1 / sqrt(tau) alpha ~ dnorm(0.0,1.0E-6)

beta ~ dnorm(0.5,1.0E-6) Metros100<-(100-alpha)/beta+ mean(metros[])

list(N=29, Precio=c(92,130,125,90,65,

130,110,120,89,145,

Page 108: 14172970 bayesilibro

9.9. REGRESION INVERSA O CALIBRACION 101

85,89,105,75,112,

112,125, 145,205,115,

105,89,150,89,

66,64,135,125,65),

metros=c(113,140,140,110,69,

152,105,144,103,107,

112,103,120,86,143,

115,136.5,168.5,217,132.8,

120,108,220,110,

83,78,150,135,90))

list(tau=1,beta=0.5,alpha=0)

node mean sd MC error 2.5 % median 97.5 % start sample

sigma 15.18 2.16 0.02817 11.59 14.95 20.04 4001 6000

alpha 108.6 2.851 0.02999 103.0 108.6 114.4 4001 6000

beta 0.7906 0.08203 0.00117 0.6274 0.7901 0.9532 4001 6000

Metros100 113.5 3.853 0.04096 105.5 113.6 120.7 4001 6000

Page 109: 14172970 bayesilibro

102 CAPITULO 9. MODELOS LINEALES

Page 110: 14172970 bayesilibro

Capıtulo 10Modelo Lineal Generalizado

El modelo lineal clasico ha sido utilizado extensivamente y con mucho exito enmultiples situaciones. En el analisis de regresion estamos interesados en predecirla media de una variable, llamada la respuesta, basados en un conjunto devariables, llamadas los predictores. La regresion clasica asume que la respuestaes continua y distribuıda normalmente. El modelo lineal clasico cae en una clasemayor de modelos que se conoce como modelo lineal generalizado, M.L.G., lacual tiene tres componentes basicas:

a) Un conjunto de variables aleatorias independientes que pertenecena la familia exponencial.

b) Una matriz de diseno y un vector de parametros.

c) Una funcion link (enlace, conexion) que relaciona las medias del mo-delo lineal.

Dentro de la clase de modelos lineales generalizados tenemos el modelo linealclasico, el modelo loglineal, la regresion Poisson, la regresion logıstica, etc.

En el modelo lineal generalizado clasico observamos respuestas Yi y covariablesk-dimensionales xi, donde las respuestas condicionales (Yi|θi, φ) se asumen sonvariables aleatorias independientes con una densidad que pertenece a la familiaexponencial de un parametro

f (yi|θi, φ) = exp

[yiθi − µ (θi)

a(φ)+ c (yi, φ)

]i = 1, · · · , n

El modelo clasico asume que la media E (Yi) = µ′ (θi) esta relacionada al inter-cepto β0 y al vector de parametros de las covariables β a traves de una funcion deencadenamiento monotona y diferenciable, y el espacio parametral no es vacıo.

103

Page 111: 14172970 bayesilibro

104 CAPITULO 10. MODELO LINEAL GENERALIZADO

El modelo lineal generalizado aparece imponiendo una apriori jerarquica so-bre los parametros (β0,β). Una seleccion particularmente conveniente es usaraprioris normales con aprioris conjugadas para los hiperparametros (Ishwaran,1997)

(β0|b0, σ0) ∼ N (b0, σ0)

(β|b,W ) ∼ Nk (b,W )

(bo|B0) ∼ N(0, B0)

(b|B) ∼ N(0, BI)(σ−1

0 |s1, s2)

∼ gamma (s1, s2)(W−1|V , v

)∼ Wishart

(V −1, v

)

10.1. Modelo Logıstico

Supongamos que observamos proporciones como respuesta y1, · · · , yN de pobla-ciones binomiales con proporciones π1, · · · , πN y sus correspondientes tamanosmuestrales n1, · · · , nN . Asociado con la i-esima observacion hay un vector decovariables xi y la proporcion πi es encadenada a las covariables xi por mediodel modelo logıstico

log

(πi

1 − πi

)= xTi β

La verosimilitud del vector de regresion β esta dada por

L(β) =N∏

i=1

πniyi

i (1 − πi)ni(1−yi)

donde

πi =exp

(xTi β

)

1 + exp(xTi β

)

Si ξ(β) es la densidad apriori para β, entonces la densidad posterior para β esproporcional a

ξ (β|y) ∝ ξ(β)L(β)

Page 112: 14172970 bayesilibro

10.1. MODELO LOGISTICO 105

10.1.1. Seleccion de la Distribucion Apriori

Para este caso es difıcil asignar una distribucion apriori directamente al vector deparametros de la regresion β ya que esta relacionado de una forma no lineal a lasprobabilidades πi. Puede ser mas facil especificar indirectamente una aprioripara β haciendo suposiciones sobre el valor promedio del valor de la proporcionE(π) para valores seleccionados de las covariables. Si el rango de la matriz de co-variables es k, entonces uno considera las proporciones π1, · · · , πk para k conjun-tos diferentes de la covariable x. Las medias condicionales apriori (MCA) asumeque π1, · · · , πk son independientes con πi se distribuye Beta (wimi, wi (1 −mi)),donde mi es una adivinaza apriori de πi y wi es la precision de esta adivinanza.La distribucion sobre π1, · · · , πk es proporcional a

ξ (π1, · · · , πk) ∝k∏

i=1

πwimi−1i (1 − πi)

wi(1−mi)−1

Para el linkeo logıstico, esta apriori sobre πi es equivalente a una apriori sobreβ que es de la misma forma que la verosimilitud con “observaciones apriori”(mi, wi,xi). Esta es llamada una apriori de datos aumentados (ADA). Esfacil actualizar la densidad aposteriori de β utilizando esta forma de distribucionapriori. La densidad posterior es proporcional a

ξ (β|y) ∝N∏

i=1

πniyi

i (1 − πi)ni(1−yi)

k∏

i=1

πwimi−1i (1 − πi)

wi(1−mi)−1

En otras palabras, la distribucion aposteriori de β es equivalente a la verosimil-itud de los datos observados (yi, ni,xi) aumentados con los “datos apriori”(mi, wi,xi).

Ejemplo 10.1 Modelo logıstico cuadratico Dellaportas y Smith (1993)presentan este ejemplo que considera un modelo logıstico cudratico. Los datoshacen referencia a la retinopatıa, una enfermedad de los ojos, y el tiempo queun paciente ha tenido diabetes. La siguiente tabla presenta informacion sobrepacientes que sufrıan de este padecimiento en dos muestras (una pasada y otraactual)

Duracion de Retinopatıala Diabetes Datos Previos Datos Actuales

z Si No Si No0-2 (1) 17 215 46 2903-5 (4) 26 218 52 2116-8 (7) 39 137 44 134

9-11 (10) 27 62 54 9112-14 (13) 35 36 38 5315-17 (16) 37 16 39 4218-20 (19) 26 13 23 2321+ (24) 23 15 52 32

Page 113: 14172970 bayesilibro

106 CAPITULO 10. MODELO LINEAL GENERALIZADO

El modelo considerado fue

log

(π1j

π2j

)= β1 + β2zj + β3z

2j = ηj

Un analisis que se realizo tomo como informacion apriori la generada por losestimadores de maxima verosimilitud de generada por los datos previos

βo =

−3,17+0,33−0,007

Do = 10−4

638,0−111,0 24,1

3,9 −0,9 0,04

y se considero como la distribucion apriori de β la normal trivariableN (βo,Do).Por lo tanto con los datos presentes la distribucion aposteriori de β sera pro-porcional a

ξ (β|Datos) ∝ exp

−1

2(βo)

′D−1o (βo)

8∑

j=1

x1j log (ηj) − (x1j + x2j) log (1 + eηj )

donde x1j y x2j son los numeros actuales en cada categorıa de edad con o sinretinopatıa. Para obtener la constante de normalizacion se necesita una inte-gracion numerica tridimensional.

Dellaporta y Smith (1993) comentan que Knuiman y Speed optaron por unaaproximacion normal basados en la moda posterior, una solucion de

∂βlog (β|Datos) = 0

y una medida de dispersion dada por la matriz

D (β) = −[∂2 log (β|Datos)

∂β ∂β′

]−1

evaluada en la moda posterior

β =

−2,37+0,21−0,004

D = 10−4

207,0−36,0 8,1

1,2 −0,3 0,01

Page 114: 14172970 bayesilibro

10.1. MODELO LOGISTICO 107

y Dellaporta y Smith utilzando el muestrador de Gibbs obtuvieron

β∗ =

−2,36+0,21−0,004

D∗ = 10−4

201,0−35,7 7,9

1,2 −0,3 0,01

Ejemplo 10.2 Ninas Polacas

for( i in 1 : N ) r[i] ~ dbin(p[i],n[i])

logit(p[i]) <- alpha.star + beta * (x[i] - mean(x[]))

rhat[i] <- n[i] * p[i]

alpha <- alpha.star - beta * mean(x[])

beta ~ dnorm(0.0,0.001)

alpha.star ~ dnorm(0.0,0.001)

list( x = c(10.83,11.08,11.33,11.58,11.83,12.08,

12.33,12.58,12.83,13.08,13.33,13.58,13.83,14.08,

14.33,14.58,14.83,15.08,15.33,15.58),

n = c(120,90,88,105,111,100, 93,100,108,99,106,

105,117,98,97,120, 102,122,111,94),

r = c(2,2,5,10,17,16, 29,39,51,47,67,

81,88,79,90,113, 95,117,107,92), N =20)

list(alpha.star=0, beta=0)

Procedimiento Clasico en R

>edad<- c(10.83,11.08,11.33,11.58,11.83,12.08,

12.33,12.58,12.83,13.08,13.33, 13.58,13.83,14.08,14.33,14.58,

14.83,15.08,15.33,15.58)

Page 115: 14172970 bayesilibro

108 CAPITULO 10. MODELO LINEAL GENERALIZADO

>exitos<-c(2,2,5,10,17,16, 29,39,51,47,67,

81,88,79,90,113, 95,117,107,92)

>n<-c(120,90,88,105,111,100, 93,100,108,99,106,

105,117,98,97,120, 102,122,111,94)

>summary(glm(cbind(exitos,n-exitos) edad,family=’binomial’))

Call:

glm(formula = cbind(exitos, n - exitos) edad, family = "binomial")

Deviance Residuals:

Min 1Q Median 3Q Max

-1.2267 -0.8613 -0.3124 0.7507 1.2841

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -20.46917 0.83475 -24.52 <2e-16 ***

edad 1.57545 0.06379 24.70 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 1278.571 on 19 degrees of freedom

Residual deviance: 14.893 on 18 degrees of freedom

AIC: 100.35

Number of Fisher Scoring iterations: 3

10.1.2. Analisis Bayesiano de Residuales de Modelos Logısti-cos

Este seccion esta basada en Albert y Chib (1994).

10.2. Regresion Poisson

La distribucion Poisson juega un papel de fundamental importancia en el trabajoaplicado para modelar problemas de conteo en muchas areas. Los problemasde regresion donde la variable dependiente es un conteo ocurre con bastantefrecuencia. Ejemplos tenemos el numero de muertos por una cierta enfermedad

Page 116: 14172970 bayesilibro

10.2. REGRESION POISSON 109

extrana puede explicarse por un numero grande de factores, por ejemplo, clima,salubridad, educacion, etc. El numero de defectos que aparece en cierto rollo detela depende de la longitud del rollo, epoca de elaboracion. Es comun asumiruna respuesta poissoniana, que perteneciendo a la familia exponencial puederesolverse con la metodologıa que estamos desarrollando.

Yi ∼ Poisson(λi)

f (yi;λi) =e−λiλyi

i

yi!

= exp (yi log λi − λi − log(yi!))

= exp (yiθi − λi − log(yi!))

dondeθi = log(λi)

el cual es el parametro natural.

E[yi] = λi

var[yi] = λi

ya que g(λi) = θi cuando g es la funcion logaritmo. El link canonico es el linklog

log(λi) = xi′β

ya que λi = exp(ηi) se tiene que

∂λi∂ηi

= exp(ηi) = λi

las ecuaciones de verosimilitud

n∑

i=1

(yi − λi)

var(yi)xij

∂λi∂ηi

= 0 j = 1, .., p

se reduce an∑

i=1

(yi − λi)xij = 0

ya que

wi =

(∂λi∂ηi

)21

var(yi)= λi

la matriz de covarianza estimada de β es(X ′WX

)−1

donde W es la matriz

diagonal con elementos de λ en la diagonal principal.

Page 117: 14172970 bayesilibro

110 CAPITULO 10. MODELO LINEAL GENERALIZADO

Figura 10.1: Se muestra la relacion entre el numero de hijos de una pareja ysus anos de casados en una muestra de corte transversal. Estos datos presentanun efecto de cohorte, esto es, hay cambios estructurales en estos modelos noobservables en los datos, y que se pueden detectar solo en datos que se generanen forma temporal siguiendo cohortes. Estos cambios se originan en cambios dela composicion familiar, en cambios economicos, etc. Se observa como la mediay la dispersion aumentan a medida que aumenta el numero de anos.

Page 118: 14172970 bayesilibro

10.2. REGRESION POISSON 111

Ejemplo de una Regresion Poisson

Variable dependiente: Numero de hijos en un matrimonio

Independiente: A~nos de Casados

model

for( i in 1 : N )

NHIJOS[i] ~ dpois(media[i])

log(media[i]) <- alpha.star + beta * (TPOCAS[i] - mean(TPOCAS[]))

alpha <- alpha.star - beta * mean(TPOCAS[])

beta ~ dnorm(0.0,0.001)

alpha.star ~ dnorm(0.0,0.001)

list(N=149, TPOCAS=c(28,38,22,1,5,2,3,44,33,10,30,9,21,9,

5,4,3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,27,

24,8,4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,4,

2,25,20,28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,27,

4,11,4,14,29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,16,4,

5,10,24,12,12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,16,6,

46,6,8,13,12,24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,12,

5,36,31,0),

NHIJOS=c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,3,2,2,3,1,1,

1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,0,2,4,9,0,

0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,3,2,2,0,1,

1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,2,2,2,3,2,2,

0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,2,1,2,2,3,1,2,

2,0,4,0,1,2,1,3,2,0))

list(alpha.star=0, beta=0)

node mean sd MC error 2.5% median 97.5% start sample

beta 0.04284 0.003621 7.762E-5 0.03573 0.04286 0.04996 2001 3000

alpha -0.1066 0.1046 0.002465 -0.3118 -0.1043 0.09703 2001 3000

El mismo problema con la aproximacion clasica:

Page 119: 14172970 bayesilibro

112 CAPITULO 10. MODELO LINEAL GENERALIZADO

> nrohijos<-c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,3,2,2,

3,1,1,1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,0,

2,4,9,0,0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,

3,2,2,0,1,1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,

2,2,2,3,2,2,0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,

2,1,2,2,3,1,2,2,0,4,0,1,2,1,3,2,0)

> tpocasados<-c(28,38,22,1,5,2,3,44,33,10,30,9,21,9,5,4,

3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,27,24,8,

4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,4,2,25,20,

28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,27,4,11,4,14,

29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,16,4,5,10,24,12,

12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,16,6,46,6,8,13,12,

24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,12,5,36,31,0)

> summary(glm(nrohijos~tpocasados,family=’poisson’))

Call:

glm(formula = nrohijos ~ tpocasados, family = "poisson")

Deviance Residuals:

Min 1Q Median 3Q Max

-2.02693 -0.54123 -0.06717 0.43187 2.09419

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -0.105135 0.102899 -1.022 0.307

tpocasados 0.042891 0.003568 12.020 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 222.330 on 148 degrees of freedom

Residual deviance: 98.788 on 147 degrees of freedom

AIC: 436.91

Number of Fisher Scoring iterations: 4

Sobredispersion es un fenomeno que ocurre en algunos datos, en especial cuandoprovienen de binomiales o Poisson. Si la estimacion de una medida de dispersiondespues de ajustar el modelo, como lo es la deviance o el chi cuadrado de Pearsondividido por sus respectivos grados de libertad no esta cerca a 1, entonces losdatos pueden ser sobredispersos si este cociente es mayor que 1 o subdispersos

Page 120: 14172970 bayesilibro

10.2. REGRESION POISSON 113

si es menor que 1.

# Modelo de regresion Poisson para el numero

# de hijos con sobredispersion

model

for( i in 1 : N )

NHIJOS[i] ~ dpois(media[i])

log(media[i]) <- alpha.star + beta * (TPOCAS[i] - mean(TPOCAS[]))

+ tau*TPOCAS[i]

alpha <- alpha.star - beta * mean(TPOCAS[])

beta ~ dnorm(0.0,0.001)

alpha.star ~ dnorm(0.0,0.001)

gamma ~ dnorm(0.0,1.0E-6)

tau ~ dgamma(0.001, 0.001)

sigma <- 1 / sqrt(tau)

list(N=149, TPOCAS=c(28,38,22,1,5,2,3,44,33,10,30,9,21,

9,5,4,3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,

27,24,8,4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,

4,2,25,20,28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,

27,4,11,4,14,29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,

16,4,5,10,24,12,12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,

16,6,46,6,8,13,12,24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,

12,5,36,31,0), NHIJOS=c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,

3,2,2,3,1,1,1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,

0,2,4,9,0,0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,3,

2,2,0,1,1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,2,2,

2,3,2,2,0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,2,1,2,

2,3,1,2,2,0,4,0,1,2,1,3,2,0))

list(alpha.star=0, beta=0, gamma = 0, tau = 0.1)

node mean sd MC error 2.5% median 97.5% start sample

beta 0.04282 0.003487 7.991E-5 0.03587 0.04282 0.04955 2001 2000

alpha -0.1081 0.1015 0.002578 -0.3082 -0.1091 0.09012 2001 2000

alpha.star 0.5482 0.06567 0.001591 0.4201 0.5485 0.6774 2001 2000

tau 1.501E-5 1.492E-4 8.288E-6 3.352E-33 6.125E-17 3.031E-5 2001

2000

Page 121: 14172970 bayesilibro

114 CAPITULO 10. MODELO LINEAL GENERALIZADO

10.3. Log-concavidad de la log-verosimilitud

La log-concavidad es una propiedad importante cuando se piensa implementarprocedimientos numericos de optimizacion (Dellportas y Smith, 1993).

Definicion 10.1 ( Log-Concavidad) Una funcion positiva f en un conjuntoconvexo abierto C en Rn es llamada log-concava si

log(f) es una funcion de valor real dos veces diferenciable en C, y

si su matriz hessiana es semidefinida negativa, (H ≤ 0), para todo x ∈ C,donde

H = (Hij(x)) , Hij(x) =∂2 log (f(x))

∂xi∂xj

Si la hessiana es definida negativa, la funcion f es llamada estrictamente log-concava.

En el modelo lineal generalizado la log-concavidad se cumple para

Normal: L es estrictamente concava solo para la funcion de linkeo canonica.

Gamma: Log-concavidad estricta para

g(µ) = log(µ)

g(µ) = µγ para −1 ≤ γ < 0

Poisson: Log-concavidad estricta si yi > 0 para g(µ) = µ, y concava paracualquier yi. L es estrictamente concavapara

g(µ) = log(µ)

g(µ) = µγ para 0 < γ < 1

Binomial: Los modelos logıstico, probit y log-complementario tienen log-concavidad de la funcion de verosimilitud.

Page 122: 14172970 bayesilibro

Capıtulo 11Estadıstica Bayesiana Empırica

Este capıtulo esta basado en la revision de Casella (1985). Este metodo fue prop-uesto por Robbins en 1955 (Miller, 1989), tambien conocida como EstadısticaBayesiana Empırica Noparametrica, ya que dejaba inespecificada la distribucionapriori. La estadıstica Bayesiana Empırica Parametrica es un hıbrido que asumela existencia de datos previos para estimar los parametros de f(θ).

Supongamos que tenemos p variables observadas, cada una de ellas de unapoblacion normal

Xi ∼ N(µ, σ2

)para i = 1, · · · , p.

El

115

Page 123: 14172970 bayesilibro

116 CAPITULO 11. ESTADISTICA BAYESIANA EMPIRICA

Page 124: 14172970 bayesilibro

Capıtulo 12Analisis Multivariable

12.1. Distribucion Normal Multivariable

Supongamos que Y 1, · · · ,Y n es una muestra de una distribucion multivariablep-dimensional, Np (µ, Σ). Una seleccion corriente para las apriori de µ y Σ es(Varbanov, 1996):

ξ (µ) ∝ 1

ξ (Σ) ∝ |Σ|−(p+1)/2

ξ (µ, Σ) = ξ (µ) ξ (Σ) ∝ |Σ|−(p+1)/2

Definamos

Y =1

n

n∑

i=1

Y i

S =

n∑

i=1

(Y i − Y

) (Y i − Y

)′

Entonces la verosimilitud de los datos es:

f (Y |µ,Σ) ∝ |Σ|−n/2 exp

−1

2tr(Σ−1S

)+ n

(Y − µ

)′Σ−1

(Y − µ

)

La distribucion posterior conjunta de (µ, Σ) es:

ξ (µ,Σ|Y ) ∝ |Σ|−(n+p+1)/2exp

−1

2tr(Σ−1S

)exp

−n

2

(µ − Y

)′Σ−1

(µ − Y

)

117

Page 125: 14172970 bayesilibro

118 CAPITULO 12. ANALISIS MULTIVARIABLE

y de donde se desprende

µ|Σ, Y ∼ Np

(Y ,

1

)

Σ|Y ∼ W−1 (S, p, n− p)

donde W−1 (S, p, n− p) es la distribucion Wishart invertida.

Page 126: 14172970 bayesilibro

Capıtulo 13Datos Categoricos

13.1. Distribucion Multinomial

La distribucion multinomial es la base del trabajo con datos categoricos. En elcapıtulo de distribuciones conjugadas habıamos visto que la distribucion conju-gada es la Dirichlet.

Intervalos de Sison y Glaz

Sison y Glaz (1995) proponen dos formas de calcular intervalos de confianzasimultaneos para los parametros multinomiales.

May y Johnson (2000) proporcionan macros en SAS para calcular estos interva-los. Ellos argumentan que estos intervalos funcionan mejor que los otro metodoscuando numero de categorıas es grande y el numero de observaciones no lo estanto y si no existen celdas que polaricen las probabilidades.

Intervalo de Quesenberry y Hurst

Johnson y Kotz (1969) presentan el intervalo propuesto por Quesenberry y Hursten 1964. El intervalo para πi esta dado por

χ2k−1,1−α + 2ni ±

√χ2k−1,1−α

(χ2k−1,1−α + 4ni

N (N − ni))

2(N + χ2

k−1,1−α

)

Una mejora se logra si trabaja con 1 − α/k en lugar de 1 − α.

119

Page 127: 14172970 bayesilibro

120 CAPITULO 13. DATOS CATEGORICOS

Metodo basado en el Teorema Central del Lımite

Si el tamano muestral es lo suficientemente grande, podemos aplicar el teoremacentral del lımite multivariable. Si n = (n1, n2, · · · , nk)T es un vector aleatoriok-dimensional proveniente de una multinomialMULTINOMIAL(π,N), dondeN =

∑nj es fijo y π = (π1, π2, · · · , πk), con

∑πj = 1. Entonces

π =1

Nn

Este es el intervalo propuesto en la mayorıa de textos basicos en estadıstica(Canavos, 1988; Wonnacott y Wonnacott, 1979; Roussas, 1973; Walpole, 1992;Meyer, 1986; Mood et al., 1974)

(i − zα/(2k)

√i(1−i)n

,i +zα/(2k)

√i(1−i)n

)

Se puede considerar la correcion por continuidad (Snedecor y Cochran, 1980)

(i − zα/(2k)

√i(1−i)n

− 1

2n,i +zα/(2k)

√i(1−i)n

+1

2n

)

Intervalos basados en la Razon de Verosimilitud Relativa

Kalbfleish (1985) presenta la metodologıa para construir intervalos de verosimi-litud. Si L(θ) es la funcion de verosimilitud, se define la funcion de verosimilitudrelativa como

R(θ) =L(θ)

L(θ)

El conjunto de valores de θ para los cuales R(θ) ≥ p es llamado la intervalo de100%p de verosimilitud para θ. Los intervalos del 14.7 % y del 3.6 % de verosi-militud corresponden a intervalos de confianza aproximadamente de niveles del95 % y del 99 %. Lo que se debe hacer entonces es hallar las raıces que nos danlos lımites del intervalo. Para el caso del parametro de la Bernoulli, π, tenemosque un intervalo de confianza del 95 % se halla encontrando el par de raıces talque

R(π1, π2, · · · , πk) =L(π1, π2, · · · , πk)L(π1, π2, · · · , πk)

≥ K(k, α)

Esto se resuelve numericamente.

Metodo Exacto Basado en la F

Para construir este intervalo con un nivel (1 − α)100% de confianza para πdebemos determinar los lımites inferior, LI y superior, LS , tales que P (Y ≥

Page 128: 14172970 bayesilibro

13.1. DISTRIBUCION MULTINOMIAL 121

y|π = LI) = α/2 y P (Y ≤ y|π = LS) = α/2. Leemis y Trivedi (1996) muestrandos procedimientos mediante los cuales se calculan LI y LS en terminos de ladistribucion F . El intervalo “exacto” es:

((1 +

n− y + 1

yF2y,2(n−y+1),1−α/2

)−1

,

(1 +

n− y

(y + 1)F2(y+1),2(n−y),α/2

)−1)

Bootstrap

El metodo bootstrap proporciona una manera directa y sencilla para hallarintervalos simultaneos para los parametros de la distribucion multinomial. Parahallarlos se procede ası:

a) A partir de la muestra estime los parametros por maxima verosimil-itud.

πi =nin

i = 1, 2, · · · , k

b) Genere M muestras de tamano n de una distribucion multinomi-al con parametros π1, π2, · · · , πk. Para cada muestra estime losparametros π1, π2, · · · , πk, digamos que para la muestra j los esti-madores son πj1, π

j2, · · · , πjk

c) Para cadaπji

Mj=1

, construya un histograma y calcule los per-

centiles .025/(k-1) y 0.975/(k-1), denotemoslos por π0,025i y π0,975

i

La siguiente tabla presenta los datos sobre el tipo de sangre en una muestra depersonas de la region central y oriental de Antioquia

Page 129: 14172970 bayesilibro

122 CAPITULO 13. DATOS CATEGORICOS

Tipo de SangreO A AB B

Frecuencia 474 246 11 59πi 0.60000000 0.31139241 0.01392405 0.07468354

Intervalos simultaneos: TCL0.556465534 0.270242626 0.003511297 0.0513228790.64353447 0.35254218 0.02433680 0.09804421

Intervalos simultaneos: Quesenberry y Hurst0.53763946 0.25675391 0.00505438 0.047957710.65927993 0.37184116 0.03776781 0.11451171

Intervalos simultaneos Bootstrap0.625 % 0.5509415 0.2746835 0.005063291 0.0509414699.375 % 0.6414636 0.3518987 0.026582278 0.09842563

Intervalos simultaneos: Sison y Glaz0.5658 0.2772 0.0000 0.04050.6363 0.3477 0.0502 0.1109

Intervalos simultaneos: Sison y Glaz II0.5646 0.2759 -0.0215 0.03920.6354 0.3465 0.0494 0.1101

Para la solucion bayesiana asumimos que la apriori es una Dirichlet(α = 1) noinformativa.

list(k=4,NN=790,n=c(474,246,11,59), alfa=c(1,1,1,1))

model

p[1:k]~ddirch(alfa[])

n[1:k]~dmulti(p[],NN)

node mean sd MC error 2.5\% median 97.5\% start sample

p[1] 0.5986 0.01734 2.691E-4 0.5633 0.5985 0.6328 1 5000

p[2] 0.3107 0.01641 2.374E-4 0.2786 0.3107 0.344 1 5000

p[3] 0.01512 0.004382 5.822E-5 0.00791 0.01457 0.02489 1 5000

p[4] 0.07555 0.009581 1.596E-4 0.05786 0.07524 0.09493 1 5000

13.1.1. Obtencion de la prevalencia verdadera from preva-lencia aparente

Estamos interesados en obtener la distribucion posterior para la prevalencia ver-dadera dados los resultados de una prueba de diagnostico (prevalencia aparente)

Page 130: 14172970 bayesilibro

13.1. DISTRIBUCION MULTINOMIAL 123

y las aprioris para sensitividad y especificidad.

En muchos casos la interpretacion de sondeos de una enfermedad es difıcil debidoa que la mayorıa de las pruebas de diagnostico (o tamizado) tienen sensitividady especificidad imperfectas. Ası, hay una distincion entre prevalencia verdadera(la proporcion de una poblacion que esta realmente infectada) y la prevalenciaaparente (la proporcion de una poblacion que da positivo en una prueba parauna enfermedad. Dadas las estimaciones puntuales para sensitividad (se), es-pecificidad (sp), y prevalencia aparente (AP), uno puede calcular la prevalenciaverdadera utilizando la siguiente expresion:

prevalencia verdadera =(AP + sp− 1)

(se+ sp− 1).

La obtencion de la estimada de la prevalencia verdadera cuando la sensitividady la especificidad son conocidas con incertidumbre es mas difıcil. Dado el re-sultado de un experimento binomial y dadas las distribuciones apriori para lasensitividad y la especificidad, el siguiente codigo puede usarse para obtener es-timaciones puntuales e intervalos de probabilidad para la prevalencia verdadera.

Considere el siguiente ejemplo, motivados por los datos hipoteticos de un muestreopara Salmonella enteriditis (SE). Asuma que el interes se centra en estimar laprevalencia verdadera (pi), el valor predictivo positivo (pvp), y 1-el valor pre-dictivo negativo (OneMinusPVN).

Asuma que seleccionamos 100 platos de cultivo de materia fecal para detectar.Asumamos que los n = 100 individuos sometidos a prueba tuvimos y = 0pruebas positivas. Esto es, la SE no fue cultivada exitosamente de ninguna delas 100 aves.

El siguiente modelo puede usarse para obtener probabilidades posteriores dela SE esparcida, dadas las probabilidades apriori para la sensitividad (se), laespecificidad (sp), y la prevalencia (π) de la prueba.

Asumamos que la especificidad es con casi certeza 1.000. Ası, modelamos spusando la siguiente apriori:

sp ∼ beta(9999, 1).

Asumamos que la sensitividad se modela bien con una apriori donde un 90 %de la probabilidad apriori esta en el intervalo (0.30, 0.70), con una moda apriori(la mejor adivinanza) de 0.50. Tal afirmacion sobre probabilidades correspondea la siguiente distribucion:

se ∼ beta(8, 8).

Asuma que no hay informacion sobre la prevalencia verdadera (π), ası la aprioripara π es uniforme:

π ∼ beta(1, 1)

El siguiente modelo puede usarse para obtener las distribuciones posteriores dePV P , π, y de 1 − PV N :

Page 131: 14172970 bayesilibro

124 CAPITULO 13. DATOS CATEGORICOS

a) MODELO

Model

for(i in 1:1)

y[i] ~ dbin(ap[i],n[i])

ap[i] <- se*pi+(1-sp)*(1-pi)

se ~ dbeta(8, 8)

sp ~ dbeta(9999, 1)

pi ~ dbeta(1, 1)

pvn <- sp*(1-pi)/((1-se)*pi+sp*(1-pi))

pvp <- se*pi/(se*pi+(1-sp)*(1-pi))

OneMinusPVN <- 1-pvn

b) DATOS

list(y=c(0),n=c(100))

c) RESULTADOS

node mean sd MC error 2.5\% median 97.5\% start sample

pi 0.02238 0.02437 2.058E-4 5.185E-4 0.01468 0.08842 10000

50001

se 0.4679 0.1249 6.486E-4 0.2308 0.4663 0.7123 10000 50001

sp 0.9999 9.814E-5 8.214E-7 0.9996 0.9999 1.0 10000 50001

pvp 0.9632 0.09053 5.082E-4 0.7125 0.9903 0.9998 10000 50001

OneMinusPVN 0.013 0.01687 1.427E-4 2.418E-4 0.007532 0.05828

10000 50001

13.1.2. La Razon de Odds

Los odds1 de que el evento B ocurra relativo al evento A se define como la razonde las probabilidades

P [B | A]

P [Bc | A]

Los odds de B relativo a Ac son

P [B | Ac]P [Bc | Ac]

1La palabra odds no tiene una unica y precisa traduccion, algunos la traducen como dis-paridad y otros como apuestas.

Page 132: 14172970 bayesilibro

13.1. DISTRIBUCION MULTINOMIAL 125

Cornfield (1951) definio la razon de odds como

ψ =

P [B|A]P [Bc|A]

P [B|Ac]P [Bc|Ac]

El estimador muestral de ψ, sera

r =

( aa+c

ca+c

)

(b

b+dd

b+d

) =acbd

=ad

bc

para lo anterior, se presupone una tabla como la que aparece a continuacion

Factor A Ac

B a bBc c d

Fisher (1962) la llama Razon del Producto Cruzado. Un problema con este es-timador es la presencia de ceros en las celdas, ya que puede convertirse en unaforma indeterminada.

Troendle y Frank (2001) presentan una aproximacion bayesiana para trabajarla razon de odds. Asumamos que π1 y π2 son variables aleatorias independientescondistribuciones apriori uniformes en (0, 1). Consideremos las variables x y ydistribuidas binomialmente con parametros n1, π1, y n2, π2, respectivamente.La distribucion de ψ dado el vector de observaciones (x, y) es

ξ (θ|x, y) =

∫ ∫Rwx(1 − w)n1−xzy(1 − z)n2−y dz dw

∫ 1

0

∫ 1

0wx(1 − w)n1−xzy(1 − z)n2−y dz dw

donde

R =

(w, z) ∈ (0, 1)2 :

w(1 − z)

z(1 − w)≤ θ

Esta region puede representarse como

R =

(w, z) ∈ (0, 1)2 : z ≥ w

w + θ − θw

Ası tenemos

ξ (θ|x, y) =

∫ 1

0

∫ 1w

w+θ−θw

wx(1 − w)n1−xzy(1 − z)n2−y dz dw∫ 1

0

∫ 1

0wx(1 − w)n1−xzy(1 − z)n2−y dz dw

La distribucion posterior de ψ puede ser evaluada numericamente de la ecuacionanterior.

Otra aproximacion puede realizarse sabiendo que el log la razon de odds muestralse distribuye asintoticamente normal con media log(ψ) y varianza 1/x+1/(n1−x) + 1/y + 1/(n2 − y) podemos entonces utilizar la familia conjugada normal.

Page 133: 14172970 bayesilibro

126 CAPITULO 13. DATOS CATEGORICOS

13.1.3. Modelos Loglineales

Al realizar un analisis bayesiano de tablas de contingencia, es necesario especi-ficar aprioris bien sea en las celdas (en los conteos o en terminos de las proba-bilidades y el total) o, equivalentemente, en los parametros loglineales (King yBrooks, 2000).

13.1.4. Tablas con faltantes

Tebaldi y West (1998) utilizan metodos bayesianos para tablas de contingenciacon tablas parcialmente observadas.

13.1.5. Estimacion de N (El tamano de toda una poblacion)

Brooks et al. (199*) presentan el problema de estimar el tamano de una poblacionde animales y su supervivencia desde el punta de vista bayesiano. Usualmenteel proceso de estimacion del tamano de una poblacion consiste en un proceso demınimo dos etapas: una primera de una captura de una muestra, su marcaciony su posterior devolucion al medio. Una segunda etapa consiste en otra capturay el conteo de sujetos marcados en la primera etapa. Con una relacion relativa-mente simple es posible estimar el tamano de la poblacion, si ciertos supuestosde aleatoriedad se cumplen.

Supongamos que en el tiempo t1 se cogieron y marcaron n1 animales. Mas tarde,en el tiempo t2, una segunda muestra de tamano n2 se coge de la poblacion yse encuentran m2 marcados. Se asume que la captura de un animal particularen el tiempo ti es un experimento Bernoulli con probabilidad de exito πi, laverosimilitud es el producto de los terminos; la primera es la probabilidad demuestrear n1 sujetos de una poblacion de tamano N y la segunda es la proba-bilidad de una muestra de tamano n2 de los cuales m2 son los marcados, dadoque habıa n1 sujetos marcados en la poblacion. La verosimilitud sera

L (N,π1, π2|n,m2) =

(Nn1

)πn1

1 (1 − π1)N−n1

(N − n1

n2 −m2

)(n1

m2

)πn2

2 (1 − π2)N−n2

=N !πn1

1 (1 − π1)N−n1 πn2

2 (1 − π2)N−n2

(n1 −m2)! (n2 −m2)!m2! (N − n1 − n2 +m2)!

Este es conocido como el modelo Lincoln-Peterson (Brroks et al. 199*). El esti-mador de maxima verosimilitud para el tamano poblacional es

N =n1n2

m2

Si asumimos que ξ (π1) es la distribucion apriori de π1, entonces su distribucioncondicional sera

Page 134: 14172970 bayesilibro

13.1. DISTRIBUCION MULTINOMIAL 127

ξ (π1|π2, N, n1, n2,m2) ∝ ξ (π1)πn11 (1 − π1)

N−n1

Si adoptamos unaBeta (α, β) como la apriori para π1, la distribucion condicionalsera

ξ (π1|π2, N, n1, n2,m2) ∝ πα−11 (1 − π1)

β−1πn1

1 (1 − π1)N−n1

∝ Beta (α+ n1, β +N − n1)

Page 135: 14172970 bayesilibro

128 CAPITULO 13. DATOS CATEGORICOS

Page 136: 14172970 bayesilibro

Capıtulo 14Metodos Computacionales

Ejemplo 14.1 La necesidad de utilizar metodos numericos en el analisis bayesianosqueda ilustrado con el siguiente ejemplo (Escobar, 199*). Considere la sigu-iente tabla que presenta informacion sobre la sobrevivencia en una semana depacientes que sufrieron un ataque al miocardio y que fueron tratados con unbloqueador beta

TratamientoBloqueador Beta PlaceboTotal Muertos Total Muertos

26 3 23 447 1 48 646 3 35 133 1 15 135 2 71 473 3 187 6

238 29 242 24698 18

La probabilidad de no sobrevivir una semana se estima como el cociente entreel numero de pacientes que murieron y el numero de pacientes que entraron coninfarto de miocardio. Usemos la siguiente notacion:

yij = de muertes en el j-esimo tratamiento en el sitio i

nij = de casos en el j-esimo tratamiento en el sitio i

Entonces podemos pensar en el siguiente modelo

129

Page 137: 14172970 bayesilibro

130 CAPITULO 14. METODOS COMPUTACIONALES

Yij |nij , πij ∼ Binomial (πij , nij)

πij |αj , βj ∼ Beta (αj , βj)

αj ∼ σGamma (dα)

βj ∼ σGamma (dβ)

Una parametrizacion alternativa para α y β es

λ1j =αj

αj + βj(La media)

λ2j = αj + βj (La precision)

λ1j ∼ Beta (dα, dβ)

λ2j ∼ σGamma (dα + dβ)

Tenemos un modelo, tenemos las distribuciones apriori y para realizar el analisisbayesiano solo necesitamos hallar la distribucion posterior conjunta que se hallacomo:

ξ (π,α,β|y,n, dα, dβ , σ) =

15︷ ︸︸ ︷∫· · ·∫ ∏2

j=1

∏Ij

i=1 f (yij |nij , πij , αj , βj) ξ (π,α,β|dα, dβ , σ) dy∫

· · ·∫

︸ ︷︷ ︸34

∏2j=1

∏Ij

i=1 f (yij |nij , πij , αj , βj) ξ (π,α,β|dα, dβ , σ) dy dπ dα dβ

Obviamente este es un trabajo que no se puede realizar a mano, lo cual obligaa implementar porcedimientos numericos para su solucion.

Una de las dificultades que surgen en el trabajo bayesiano aparecen cuandotratamos de manipular la distribucion aposteriori que usualmente aparece de lasiguiente forma

ξ (θ|Datos) ∝ L (θ|Datos) ξ (θ)

que no es una densidad de probabilidad en sı misma, sino que debe ajustarsepor un factor que se calcula como

Page 138: 14172970 bayesilibro

131

Θ

L (θ|Datos) ξ (θ) dθ

Solo en problemas muy sencillos es posible evaluar exactamente las expresionesanteriores, lo cual limitarıa el uso de los metodos bayesianos sino fuera porla posibilidad de utilizar metodos computacionales como es el Metodo MonteCarlo. Con esta tecnica es posible:

generar muestras θ1,θ2, · · · ,θR, de una distribucion de probabilidaddada, digamos F (θ), y

estimar valores esperados de funciones bajo esta distribucion, porejemplo,

Φ = E [h (θ)] =

∫h (θ) dF (θ)

Denotamos por f (θ) la densidad asociada con la distribucion y la llamaremosdensidad objetivo, ella puede ser la distribucion aposteriori, que en nuestro casoes el interes y es una distribucion condicionada en los datos. La generacion demuestras es mas importante ya que Φ puede ser estimada como

Φ =1

R

R∑

r=1

h (θr)

Es claro que si los vectores θrRr=1 corresponden a una muestra de F (θ),

entonces E[Φ]

= Φ. Tambien, a medida queR se incrementa la varianza de Φ

disminuye ya que es σ2/R, donde σ2 es la varianza de h(θ).

De lo anterior se desprende una propiedad importante del metodo Monte Carlo:la exactitud de la estimacion Monte Carlo no depende de la dimensionalidad delespacio muestreado. La varianza de Φ es siempre σ2/R. En teorıa si tenemos unamuestra aun pequena de observaciones independientes podemos obtener una es-timacion buena de Φ. El problema esta en que obtener muestras independientesde F puede no ser una tarea facil.

Asumamos que la densidad de la cual deseamos obtener muestras es la cor-respondiente a la distribucion aposteriori de un parametro de un experimentoexponencial, digamos λ para el cual la unica informacion apriori que disponi-amos era que λ ∼ U(0, 5). Se obtuvieron cinco muestras con resultados x1 =1, x2 = 1, x3 = 4, x4 = 2, x5 = 3. Por lo tanto la distrribucion posterior sera

ξ(λ|Datos) ∝ λ5e−11λI(0, 5)

Si la constante de normalizacion fuera difıcil de calcular (obviamente en esteproblema no lo es!) entonces no serıa facil muestrear de ξ. Si el problema fuera

Page 139: 14172970 bayesilibro

132 CAPITULO 14. METODOS COMPUTACIONALES

unidimensional podemos pensar en una discretizacion y muestrear de esta dis-tribucion discreta como se muestra en la figura 1. Cada punto discretizado enesta grafica tiene una altura igual al valor de la densidad en ese punto, o seap∗i = λ5

i e−11λi . Podemos calcular una constante de normalizacion Z como

Z =∑

i

p∗i

y

pi =p∗

Z

y nuestreamos de la distribucion de probabilidad pi. Cual es el costo de esteprocedimiento? Para poder calcular Z se requiere visitar cada punto en la dis-cretizacion. En nuestro caso la dimension del espacio era uno, pero si el espaciotuviera dimension 100, el numero de puntos a visitar serıa 50100. Un numeroinmenso de visitas.

14.0.6. Muestreo de Importancia

Este no es un metodo para generar muestras. Este es un metodo para calcularla esperanza de h(θ). Asumamos que nuestra densidad unidimensional objetivoes p(θ), y de la cual tenemos su kernel, digamos p∗(θ) tal que

p(θ) =p∗(θ)

Z

donde Z es una constante de normalizacion.

Supongamos que muestrear directamente de p(θ) es muy complicado. Ahoraasumamos quen existe una distribucion q(θ) de la cual sabemos es facil muestreary que tiene el mismo soporte que p. La densidad q es llamada la densidadmuestreadora.

En el muestreo de importancia procedemos ası:

a) Generamos R muestras θ(1), θ(2), · · · , θR de q(θ).

b) Calculamos los pesos

wr =p∗(θ(r))

q(θ(r))

c) Utilizamos los pesos anteriores para ajustar la “importancia” de cadapunto en nuestro estimador ası:

Φ =R∑

r=1

wr∑Rj=1

h(θ(r))

Page 140: 14172970 bayesilibro

133

Figura 14.1: La grafica derecha muestra el kernel de la densidad posteriorλ5e−11λI(0, 5). Como obtener muestras de esta densidad? La grafica derechapresenta una discretizacion del kernel evaluado en 50 puntos equiespaciados enel intervalo (0, 5). Como podemos muestrear de esta distribucion?

Page 141: 14172970 bayesilibro

134 CAPITULO 14. METODOS COMPUTACIONALES

14.0.7. Muestreo por Rechazo

Asumamos una densidad unidimensional p(θ) = p∗(θ)/Z que suponemos tieneuna forma muy complicada para muestrear directamente de ella. Asumamosademas que tenemos una distribucion que es mas simple y de la cual podemosmuestrear llamada densidad propuesta q(θ) la cual podemos evaluar hasta unfactor multiplicativo Zq. Ademas supongamos que conocemos una constante ctal que

cq∗(θ) > p∗(θ), para todo θ

a) Generamos dos numeros aleatorios:

1) El primero, digamos θ, es generado de la densidad propuestaq(θ). Evaluamos cq∗(θ).

2) Generamos un numero distribuido uniformemente en el inter-valo [0, cq∗(θ)], digamos u.

b) Evaluamos p∗(θ). Si u > p∗(θ) entonces θ es aceptado. En otro casoes rechazado.

14.1. MCMC: Monte Carlo por Cadenas de Markov

Cuando las distribuciones aposteriori son de alta dimension, las soluciones analıticaso las numericas comunes no se pueden obtener. Una solucion es considerar unprocedimiento Monte Carlo iterativo o Monte Carlo por Cadenas de Markov. Sesimula una cadena de Markov con distribucion estacionaria dada por la distribu-cion aposteriori ξ (θ|Datos).Las caracterısticas de ξ son obtenidas encontrandopromedios ergodicos

Φ =1

R

R∑

r=1

h (θr)

Los metodos MCMC son algoritmos iterativos que se utilizan cuando el muestreodirecto de una distribucion de interes ξ no es factible.

Una cadena de Markov es generada muestreando

θ(t+1) ∼ p(θ|θ(t)

)

Este p es llamado el kernel de transicion de la cadena de Markov. Ası θ(t+1)

depende solo de θ(t), y no de θ(0),θ(1), · · · ,θ(t−1)

Page 142: 14172970 bayesilibro

14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 135

Existen dos problemas mayores que rodean la implementacion e inferencias delos metodos MCMC. El primero tiene que ver con la convergencia y el segundocon la dependencia entre las muestras de la distribucion posterior.

Las condiciones bajo las cuales una cadena de Markov tiene una unica dis-tribcuion estacionaria son bien conocidas teoricamente:

Tiene que se aperiodica,

irreducible,

y positiva recurrente.

La forma en que construimos nuestras cadenas garantiza la existencia de la dis-tribucion estacionaria. Sin embargo en la practica esta convergencia puede serpenosamente lenta y el mayor problema es saber si se ha logrado una conver-gencia razonable (esto se conoce como un “burn-in”). Por lo tanto las muestrasobtenidas hasta el punto de “burn-in” son descartadas.

Un asunto relacionado con la convergencia es la tasa de mezclado. Informal-mente, el mezclado es la tasa con la cual la cadena de Markov se mueve a travesdel soporte de la distribucion estacionaria. Ası, si una cadena tiene un mezcladolento, puede quedarse en cierta porcion del espacio de estados por un perıodode tiempo muy largo, y a menos que la longitud de la cadena sea ajustadaacordemente, las inferencias seran afectadas sin ninguna duda.

El segundo asunto esta relacionado con el hecho que los valores observados,siendo un camino muestral de una cadena de Markov, no son independientesentre sı. Asumiendo que se ha logrado la convergencia, los valores observadosformaran una muestra dependiente de la distribucion posterior. Esto puede sermolesto para uno pero no es necesariamente malo en MCMC. En la mayorıa delos problemas, la estimacion tıpica se obtiene por un promedio sobre las mues-tras. Aunque las muestras no sean independientes, el teorema ergodico aseguraque estos promedios muestrales convergen a las verdaderas esperanzas. Ası quela aproximacion corriente al problema de dependencia es ignorarla. Pero si uno,por alguna razon, necesita una muestra independiente, puede resolver el proble-ma corriendo varias cadenas de Markov con puntos de comienzo independientesy utilizar el ultimo punto de cada cadena.

14.1.1. Algoritmo Metropolis-Hastings

El muestreo de importancia y el muestreo de rechazo trabajan bien si la densi-dad propuesta q(θ) es similar a p(θ). En problemas complejos puede ser difıcilcrear una unica q(θ) que tenga esta propiedad. El algoritmo Metropolis utilizauna densidad propuesta q que depende del estado actual de θ(t). La densidadq(θ′|θ(t)

)puede ser tan simple como una normal localizada en θ(t) y no es

necesario que se parezca a p(θ).

El algoritmo se resume ası:

Page 143: 14172970 bayesilibro

136 CAPITULO 14. METODOS COMPUTACIONALES

a) Comience en cualquier lugar, y digamos que estamos en θ(t) = θ.

b) Genere θ∗ de q (θ∗|θ). θ∗ es llamado un punto candidato y q esllamada una distribucion propuesta.

c) Calcule

α (θ,θ∗) = mın

1,ξ (θ∗) q (θ|θ∗)

ξ (θ) q (θ∗|θ)

d) Acepte θ(t+1) = θ∗ con probabilidad α (θ,θ∗).

e) En otro caso θ(t+1) = θ

Note que la densidad objetivo ξ solo entra en al proceso a traves del cocienteξ(θ

)ξ(θ)

y por lo tanto no hay necesidad de conocer la constante de normalizacion

para implementar el algoritmo.

Casos especiales:

a) q (θ|θ∗) = q (θ∗|θ): Algoritmo Metropolis.

b) q (θ|θ∗) = g (θ∗): Muestreador independiente.

c) q (θ|θ∗) =∏ki=1 ξ (θi|θ∗< i,θ>i) ⇒ α (θ,θ∗) = 1: Muestreador de

Gibbs.

El Algoritmo Metropolis

Aquı la distribucion propuesta es simetrica, esto es,

q (θ|θ∗) = q (θ∗|θ) ,

como en el caso de una Normal centrada en el punto actual, entonces el factor

q (θ|θ∗)

q (θ∗|θ)= 1,

y el algoritmo Metropolis simplemente se limita a comparar el valor de la den-sidad objetivo en los dos puntos.

Ejemplo 14.2 Modelo de regresion simple Asumamos

Yi ∼ N(β1Xi1 + β2Xi2, σ

2)

La formulacion bayesiana del modelo consiste en

a) La funcion de verosimilitud f(y|β1, β2, σ

2)

Page 144: 14172970 bayesilibro

14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 137

b) La distribucion apriori ξ(β1, β2, σ

2)

Estamos interesados en estimar las siguientes distribuciones posteriores:

La distribucion posterior conjunta

ξ(β1, β2, σ

2|y)∝ f

(y|β1, β2, σ

2)× ξ

(β1, β2, σ

2)

Distribuciones marginales posteriores ξ (β1|y), ξ (β2|y) y ξ(σ2|y

)

a) El Muestreador de Gibbs: Este muestreador genera muestras iterati-vamente de cada distribucion posterior condicional completa.

Genere β1 de ξ (β1|β2, σ,y)

Genere β2 de ξ (β2|β1, σ,y)

Genere σ2 de ξ(σ2|β1, β2,y

)

b) El Algoritmo Metropolis

Genere un vector de candidatos nuevo(β′

1, β′2, σ

2′)

de una distribu-cion conocida y facil de usar

q(β1, β2, σ

2|β′1, β

′2, σ

2′)

Acepte los valores propuestos con probabilidad

α = mın

1,ξ(β′

1, β′2, σ

2′|y)q(β′

1, β′2, σ

2′|β1, β2, σ2)

ξ (β1, β2, σ2|y) q (β1, β2, σ2|β′1, β

′2, σ

2′)

Ejemplo 14.3 Tabla 2 × 2 Suponga tenemos la siguiente tabla 2 × 2

CondicionCancer Control Total

Fumador Sı 83 72 155No 3 14 17

Total 86 86 192

que presenta informacion sobre el fumar y desarrollar cancer pulmonar (Jack-man, 2001). La pregunta que se hace un investigador es: Existe una diferenciasignificativa entre los habitos de los grupos (los que desarrollan cancer y losque no)? Denotemos por πL y πC las probabilidades poblacionales de desarrol-lar cancer pulmonar. Podemos responder a la pregunta mirando la distribucion

Page 145: 14172970 bayesilibro

138 CAPITULO 14. METODOS COMPUTACIONALES

posterior de la diferencia πL − πC , pero esta distribucion es altamente sesgada.Una solucion es utilizar el logaritmo de la razon de odds

λ = log

(πL/(1 − πL)

πC/(1 − πC)

)

λ = 0 cuando ambas proporciones son iguales. Si πL > πC entonces λ > 0.El logaritmo de la razon de odds tiene una distribucion mas simetrica, y separece a la normal, aun para muestras moderadas. La verosimilitud de los datosesta dada por

L (πL, πC) = π83L (1 − πL)

3π72C (1 − πC)

14, 0 < πL, πC < 1

Utilicemos la simulacion para recobrar la distribucion “exacta” de λ. Supong-amos que la distribucion πL es una Beta(83, 3) y de πC es una Beta(72, 14), in-dependientes. Ni la suma ni la diferencia de dos Betas tiene una forma estandar,ni la tiene el logaritmo de los odds de dos Beta. Los pasos a seguir son los sigu-ientes:

a) Muestree π(t)L de una Beta(83, 3).

b) Muestree π(t)C de una Beta(72, 14).

c) Calcule

λ(t) = log

(t)L /(1 − π

(t)L )

π(t)C /(1 − π

(t)C )

)

d) Con los λ(t) construya un histograma y calcule los estadısticos requeridosde esta distribucion.

Problemas con el Muestreador de Gibbs

Determinar el numero de iteraciones es un problema difıcil de re-solver.

Puede ser extremadamente demandante desde el punto de vistacomputacional aun para problemas estadısticos a escala pequena(Raftery y Lewis, 1991).

Puede ser muy ineficiente cuando la correlacion posterior entre losparametros es alta.

En modelos jerarquicos tiende a “pegarse”.

Page 146: 14172970 bayesilibro

14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 139

Recomendaciones

Raftery y Lewis (1991) sugieren que el metodo funciona bien parala mayorıa de los problemas con menos de 5000 iteraciones, aunquehay importantes excepciones, como se menciono en la parte anterior.

Una prueba simple de convergencia

Esta parte esta basada en Casella y George (1992). Supongamos el caso de unatabla 2 × 2 bajo un esquema de muestreo multinomial.

X0 1 Marginal de Y

Y 0 p1 p2 p1 + p2

1 p3 p4 p3 + p4

Marginal de X p1 + p3 p2 + p4 1

O sea, la distribucion de probabilidad conjunta de (X,Y ) esta dada por

[fxy(0, 0) fxy(1, 0)fxy(0, 1) fxy(1, 1)

]=

[p1 p2

p3 p4

]

La distribucion condicional de Y |X = x es

Ay|x =

[ p1p1+p3

p3p1+p3

p2p2+p4

p4p2+p4

]

y la distribucion condicional de X|Y = y es

Ax|y =

[ p1p1+p2

p2p1+p2

p3p3+p4

p4p3+p4

]

Las matrices Ay|x y Ax|y pueden pensarse como las matrices de transicion dealcanzar un estado dado otro.

Si solo estamos interesados en generar la distribucion marginal de X, entoncesempezando en X0 tenemos que pasar a traves de Y1 para llegar a X1, ya queel proceso es X0 → Y1 → X1, y X0 → X1 forma una cadena de Markov conprobabilidad de transicion

P (X1 = x1|X0 = x0) =∑

y

P (X1 = x1|X0 = y)P (Y1 = y|X0 = x0)

La matriz de las probabilidades de transicion de la sucesion X, digamos Ax|x,esta dada por

Page 147: 14172970 bayesilibro

140 CAPITULO 14. METODOS COMPUTACIONALES

Ax|x = Ay|xAx|y

La distribucion de probabilidad de cualquier Xk en la secuencia se halla facil-

mente. La matriz de transicion que produce P (Xk = xk|X0 = x0) es(Ax|x

)k.

Ademas si

f=[fk(0) fk(1)

]

denota la distribucion de probabilidad marginal de Xk, entonces para cualquierk,

fk = f0(Ax|x

)k= fk−1Ax|x

Para cualquier distribucion inicial f0, cuando k → ∞, fk converge a una unicadistribucion que es un punto estacionario de la ecuacion anterior, y satisface

fAx|x = f

Ası, si la sucesion de Gibbs converge, entonces f debe ser la distribucion marginalde X.

Ejemplo 14.4 Pruebas de tamizado Supongamos que la Secretarıa deSalud quiere determinar la prevalencia de un virus particular en la sangre don-ada en diferentes partes del departamento. Supongamos ademas que se aplicauna prueba tipo ELISA (las siglas en ingles de enzime-linked inmunosorbentassay) para detectar algun tipo particular de virus, por ejemplo el VIH.

Denotemos por D la condicion de una unidad particular de sangre y por T elresultado del test aplicado a esa unidad.

D =

1 si la muestra esta infectada0 en caso contrario

T =

1 si la muestra prueba positivo0 en caso contrario

Denotemos por

π = P (D = 1) = prevalencia

τ = P (T = 1)

Hay varios conceptos asociados con este tipo de pruebas y son

Page 148: 14172970 bayesilibro

14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 141

Sensitividad: η = P (T = 1|D = 1)

Especificidad: θ = P (T = 0|D = 0)

Valor Predictivo de una Prueba Positiva: γ = P (D = 1|T = 1)

Valor Predictivo de una Prueba Negativa: δ = P (D = 0|T = 0)

El interes es determinar π. Esto puede hacerse de varias formas pero el propositoes utilizar el meustreador de Gibbs.

Si conocemos que la distribucion conjunta de las variables aleatorias D y T ,podemos hallar la prevalencia directamente como la marginal

π = P (D = 1) = P (D = 1, T = 1) + P (D = 1, T = 0)

En su lugar nosotros conocemos las dos distribuciones condicionales T |D y D|T ,no la conjunta. Para nosotros la distribucion condicional de T |D es determinadapor η y θ, y la condicional de D|T es determinada por γ y δ.

Aquı estan los pasos para proceder con el muestreador de Gibbs para hallar laprevalencia π

Paso 1: Comienze el paso m = 1 con un valor arbitrario de D, digamosD(1) = 1.

Paso 2a: En el paso m = 2, condicionado en el valor D(1) simule si T (1)es 1 o 0. Esto es, simule T (1) = 1 con probabilidad η o T (1) = 0 conprobabilidad 1 − η. (Si hubiesemos comenzado con D(1) = 0, entoncessimularıamos usando 1 − θ o θ.)

Paso 2b: Ahora simulamos el valor de D(2) utilizando γ o δ, como seaapropiado. Por ejemplo, si obtuvimos T (1) = 1, entonces simularıamosD(2) = 1 con probabilidad γ = P (D(2) = 1|T (1) = 1)

Paso 3a: Esta vez, en el paso m = 3, simulamos T (2) usando η o θ.

Paso 3b: Ahora simule D(3) utilizando γ o δ, dependiendo del valor deT (2).

Este proceso se estabilizara en el lımite. Ası obtenemosD(1),D(2),D(3), · · · ,D(M1)como valores iniciales de “quemado” (se descartan), donde M1 es un valor“grande” para lograr estabilidad, y de ahı en adelante obtenemos D(M1 +1),D(M1 + 2),D(M1 + 3), · · · ,D(M2) de la distribucion estable.

Finalmente, estimamos π como la proporcion de pasos para los cualesD(m) = 1.

Page 149: 14172970 bayesilibro

142 CAPITULO 14. METODOS COMPUTACIONALES

Ejemplo 14.5 Distribucion ZIP Asumamos que X es una variable aleatoriadiscreta con soporte en los enteros nonegativos (una variable de conteo). Unproblema que ocurre con cierta frecuencia en la practica es que X = 0 se observacon una frecuencia significativamente mayor (o menor) que la predicha por elmodelo asumido. Entonces la variable aleatoria ajustada Y puede ser descritacomo

P (Y = 0) = ω + (1 − ω)P (X = 0)

P (Y = j) = (1 − ω)P (X = j) , j = 1, 2, 3, · · ·

Cuando 0 < ω < 1 el modelo tiene mas ceros. Si ω < 0 el modelo tiene menosceros.

Un caso de especial importancia es cuando X ∼ Poisson(λ). La versoimilituden este caso es

L(ω, λ) =

n∏

i=1

P (Yi = yi)

=n∏

i=1

(P (Yi = 0))

I(yi=0)(P (Yi = yi))

1−I(yi=0)

=

n∏

i=1

(ω + (1 − ω)e−λ

)I(yi=0)(

(1 − ω)λyie−λ

yi!

)1−I(yi=0)

Ası, si asumimos una distribucion apriori no informativa para ω y para λ, ten-emos

ξ(ω, λ) ∝ L(ω, λ)

Gupta et al. (1996) hacen referencia a los datos analizados por Leroux y Puter-man en 1992 sobre movimientos fetales. Estos datos se recogieron en un estudiosobre respiracion y movimiento corporal en fetos de ovejas disenado para ex-aminar los posibles cambios en el patron de la actividad fetal durante las dosterceras partes del perıodo de gestacion. El numero de movimientos efectuadospor el feto fue registrado por ultrasonido. Se analizaron los conteos del numerode movimientos en una sucesion particular de 240 intervalos de a 5 segundos.

Numero de movimientos 0 1 2 3 4 5 6 7Numero de movimientos 182 41 12 2 2 0 0 1

L<-function(omega,lambda,y)indicador<-ifelse(y==0,1,0)

Page 150: 14172970 bayesilibro

14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 143

Figura 14.2: Contorno de la funcion de verosimilitud de la distribucion ZIP parael problema de los fetos de ovejas.

Page 151: 14172970 bayesilibro

144 CAPITULO 14. METODOS COMPUTACIONALES

prod1<-prod((omega+(1-omega)*exp(-lambda))^indicador)

prod2<-prod(((1-omega)*exp(-lambda))^(1-indicador)

*lambda^(y*(1-indicador)))

productoria<-prod1*prod2

productoria

muestreadora<-function(teta.viejo)omega<-teta.viejo[1]

lambda<-teta.viejo[2]

valor.negativo<-1

while(valor.negativo==1)nuevo1<-rnorm(1,mean=omega)

if(nuevo1>0 & nuevo1<1) valor.negativo<-0

valor.negativo<-1

while(valor.negativo==1)nuevo2<-rnorm(1,mean=lambda)

if(nuevo2>0 ) valor.negativo<-0

teta.nuevo<-c(nuevo1,nuevo2)

teta.nuevo

qmuestreadora<-function(nuevo,viejo,y)omega1<-viejo[1]

omega2<-nuevo[1]

lambda2<-nuevo[2]

lambda1<-viejo[2]

resultado<-(dnorm(omega1)*dnorm(lambda1))

/(dnorm(omega2)*dnorm(lambda2))

resultado<-resultado*L(omega2,lambda2,y)

/L(omega1,lambda1,y)

resultado<-min(1,resultado)

resultado

DATOS

>y<-c(rep(0,182),rep(1,41),rep(2,12),3,3,4,4,7)

VALOR INICIAL

>viejo<-c(0.05,1)

Page 152: 14172970 bayesilibro

14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 145

>nuevo<-muestreadora(viejo)

>nuevo

[1] 0.8752859 0.2031465

>qmuestreadora(nuevo,viejo,y)

[1] 1.966996e-16

>nuevo<-muestreadora(viejo)

>qmuestreadora(nuevo,viejo,y)

[1] 2.728314e-12

>nuevo<-muestreadora(viejo)

>qmuestreadora(nuevo,viejo,y)

[1] 1 ESTE VALOR SE ACEPTA

>nuevo

[1] 0.4595973 0.5060316

>viejo<-nuevo

>nuevo<-muestreadora(viejo)

>qmuestreadora(nuevo,viejo,y)

[1] 0.03142081

>runif(1)

[1] 0.2793600

>nuevo<-muestreadora(viejo)

>qmuestreadora(nuevo,viejo,y)

[1] 6.851616e-05

>nuevo<-muestreadora(viejo)

>qmuestreadora(nuevo,viejo,y)

[1] 3.287750e-64

>nuevo<-muestreadora(viejo)

>qmuestreadora(nuevo,viejo,y)

[1] 1.64309e-14

>nuevo<-muestreadora(viejo)

>qmuestreadora(nuevo,viejo,y)

[1] 2.542491e-106

>nuevo<-muestreadora(viejo)

>qmuestreadora(nuevo,viejo,y)

[1] 1 ESTE VALOR SE ACEPTA

>nuevo

[1] 0.5490383 0.6058326

>viejo<-nuevo

>nuevo<-muestreadora(viejo)

>qmuestreadora(nuevo,viejo,y)

[1] 1 ESTE VALOR SE ACEPTA

>nuevo

[1] 0.5416923 0.6257388

>viejo<-nuevo

>nuevo<-muestreadora(viejo)

Page 153: 14172970 bayesilibro

146 CAPITULO 14. METODOS COMPUTACIONALES

14.1.2. Muestreador Griddy Gibbs

Cuando es difıcil muestrear directamente de p(Xi|Xj , j 6= i) Ritter y Tanner(1991) propusieron una aproximacion simple a la FDA inversa basada en laevaluacion de p(Xi|Xj , j 6= i) en una rejilla de puntos. Los pasos son los sigu-ientes:

a) Evalue p(Xi|Xj , j 6= i) enXi = x1, x2, · · · , xn para obtener w1, w2, · · · , wn.b) Utilice w1, w2, · · · , wn para obtener una aproximacion de la FDA

inversa de p(Xi|Xj , j 6= i).

c) Muestree de una U(0, 1) y transforme la observacion via la FDAinversa aproximada.

14.2. Calculo de Integrales via Simulacion

14.2.1. Composicion

Supongamos que f(y|x) es una densidad (donde x y y pueden ser vectores).Nuestro objetivo es obtener una muestra aleatoria y1, · · · , ym de

J(y) =

∫f(y|x) g(x) dx

El metodo de composicion procede ası:

a) Saque x ∗∼ g(x)b) Saque x ∗∼ f(y|x∗)

Repita los pasos m veces. Los pares (x1, y1), · · · , (xm, ym) forman una mues-tra aleatoria de la densidad conjunta h(x, y) = f(y|x) g(x). Las cantidadesy1, · · · , ym forman una muestra aleatoria de la marginal J(y).

14.3. Metodos Monte Carlo de Cadenas de Markov(MCMC)

14.3.1. Glosario de Cadenas de Markov

Definicion 14.1 (Irrudicibilidad) Una cadena de Markov X1,X2, · · · es ir-reducible si la cadena puede moverse libremente a traves del espacio de estados;esto es, para dos estados cualesquiera x y x′, existe un n tal que

P (Xn = x′|X0 = x) > 0.

Page 154: 14172970 bayesilibro

14.3. METODOS MONTE CARLO DE CADENAS DE MARKOV (MCMC)147

Definicion 14.2 (Recurrencia) Una cadena de Markov es recurrente si elnumero promedio de visitas a un estado arbitrario es infinito.

Definicion 14.3 (Perıodo) Un estado x tiene perıodo d si P (Xn+t = x|Xt = x) =0 si n no es divisible por d, donde d es el mayor entero con esta propiedad.

Definicion 14.4 (Aperiodicidad) Si un estado x tiene perıodo d = 1 se diceque es aperiodico.

En una cadena irreducible todos los estados tienen el mismo perıodo. Si eseperıodo es d = 1, la cadena de Markov es aperiodica.

Teorema 14.1 (Convergencia a una Distribucion Estacionaria) Si unacadena de Markov con espacio de estados contable X1,X2, · · · es positiva, re-currente y aperiodica con distribucion estacionaria π, entonces desde cualquierestado inicial

Xn → X ∼ π

Definicion 14.5 (Ergodicidad) Una cadena de Markov positiva, recurrentey aperiodica es llamada ergodica.

Teorema 14.2 (Convergencia de Sumas (Teorema Ergodico)) Si una ca-dena de Markov con espacio de estados contable X1,X2, · · · es ergodica con dis-tribucion esatcionaria π, entonces desde cualquier estado inicial

1

n

n∑

i=1

h (Xi) → Eπ [h(X)]

14.3.2. Muestreador Gibbs

Para obtener una muestra de la distribucion conjunta p(X1, · · · ,Xd) el MuestreadorGibbs itera sobre este ciclo:

Muestree X(i+1)1 de p

(X1

∣∣∣∣X(i),···,X

(i)

d

2

)

Muestree X(i+1)2 de p

(X2

∣∣∣X(i+1)1 ,X

(i)3 · · · ,X(i)

d

)

...

Muestree X(i+1)d de p

(Xd

∣∣∣∣X(i+1),···,X

(i+1)

d−1

1

)

Page 155: 14172970 bayesilibro

148 CAPITULO 14. METODOS COMPUTACIONALES

14.4. Simulacion Exacta

Esta seccion esta basada en Dimakos (2001) Propp y Wilson en 1996 propusieronun algoritmo de Cadena de Markov llamado Emparejamiento Desde el Pasado(CFTP, Coupling From The Past)que produce muestras exactas de la distribu-cion objetivo y determina que tanto hay dejar correrla.

Definicion 14.6 Decimos que dos cadenas estan acopladas si ellas utilizan lamisma sucesion de numeros aleatorios para las transiciones.

14.4.1. El Muestreador Perfecto

Page 156: 14172970 bayesilibro

14.4. SIMULACION EXACTA 149

Ejemplo 14.6 Caso Trivial: Muestra Aleatoria Normal Asumamos quetenemos una muestra Y1, Y2, · · · , Yn que proviene de una poblacion N

(µ, σ2

).

Las distribuciones apriori de µ y σ se supondran independientes y dadas por:

µ ∼ N(ξ, κ−1

)

σ−2 ∼ Γ (α, β)

La distribucion conjunta aposterior

ξ (µ, σ|Y ) ∝(σ2)−α−n/2−1

exp

(− β

σ2− κ(µ− ξ)2

2−∑

(Yi − µ)2

2σ2

)

que no es de forma estandar. Las condionales completas se hallan facilmente:

µ|σ,Y ∼ N

(σ−2

∑Yi + κξ

σ−2n+ κ,

1

σ−2n+ κ

)

σ−2|µ,Y ∼ Γ

(α+

n

2, β +

∑ (Yi − µ)2

2

)

y podemos implementar el muestreador de Gibbs para sacar alternadamente µy σ−2 de estas distribuciones.

Ejemplo 14.7 Experimento Weibull/Gamma Supongamos una muestraaleatoria, quiza con censura, de una Weibull(ρ, κ):

f (Y |ρ, κ) = κmρmk∏

U

Y κ−1i exp

(−ρκ

∑Y κi

)

donde m y∏U son el numero y el producto sobre las observaciones sin censura.

Supongamos distribuciones apriori independientes Gamma para ρ y κ:

ξ(ρ, κ) ∝ ρα−1e−βρκγ−1e−δκ

La distribucion posterior es:

ξ(ρ, κ) ∝ κmρmk

[∏

U

Y κ−1i exp

(−ρκ

∑Y κi

)]ρα−1e−βρκγ−1e−δκ

Las distribuciones condicionales son

Page 157: 14172970 bayesilibro

150 CAPITULO 14. METODOS COMPUTACIONALES

ξ (ρ|κ) ∝ ρmk exp(−ρκ

∑Y κi

)ρα−1e−βρ

ξ (κ|ρ) ∝ κmρmk∏

U

Y κ−1i exp

(−ρκ

∑Y κi

)κγ−1e−δκ

Tiene una forma estandar difıcil de trabajar con el muestreador de Gibbs, ası quese recurre al Metropolis o Hastings.

Un MCMC facilmente implementable como:

alterne entre ρ y κ

proponga un nuevo valor de una distribucion simetrica alrededor del valoractual.

rechacelo si esta por fuera del rango,

aceptelo con probabilidad mın 1, ξ (ρ′|κ) /ξ (ρ|κ)

14.5. Algoritmo E − M

Esta es una tecnica para obtener los estimadores de maxima verosimilitud, de-sarrollada originalmente en el contextod edatos faltantes. Defina

Q(θ(t), θ

)=

∫ln (p (θ|Yobs, Yperd)) f

(Yper|Yobs, θ(t)

)dYperd

donde

ln (p (θ|Yobs, Yperd)) es la log-verosimilitud o la log-posterior de losdatos completos.

f(Yper|Yobs, θ(t)

)es la densidad predictiva de Yperd, dados los datos

observados y el valor actual de los parametros.

La integracion es sobre el espacio muestral de Yperd.

PASO E: Utilice las estimadas de los parametros en la presenteiteracion para generar las imputaciones, lo que nos permite calcularla esperanza de la log-verosimilitud de los datos completos.

PASO M : Maximice la funcion Q con respecto a θ, produciendo unaactualizacion de los parametros estimados θ(t+1), tal que

Q(θ(t+1), θ(t)

)≥ Q

(θ(t), θ(t)

)

Page 158: 14172970 bayesilibro

14.5. ALGORITMO E −M 151

14.5.1. Modelo Probit para Datos Binarios

Considere un modelo probit para un resultado binario, yi ∈ 0, 1 para i =1, · · · , n. Relacionamos el resultado binario a las covariables via la funcion deregresion latente

y∗i = x′iβ + ǫi

donde

xi es un vector de k covariables asociadas con el sujeto i.

β es un vector de parametros a ser estimados.

y∗i ∈ R es una variable dependiente latente, observada solo en termi-nos de su signo, esto es,

yi =

0, si y∗i < 01, si y∗i ≥ 0

ǫi ∼ N(0, 1), para i = 1, · · · , n

Los y∗ son tratados como datos perdidos. La estimacion se puede realizar me-diante el algoritmo E −M :

a) PASO E: Utilice la estimacion actual de β y otros supuestos delmodelo para imputar cada yi.

b) PASO M : Condicionado en los y∗i escoja β tal que maximice la log-verosimilitud para datos completos, actualizando la estimada de β.

La funcion Q para el modelo probit es

Q(β,β(t)

)=

y∗

ln (p (β|X,y,y∗)) p(y∗|β(t),X,y

)dy∗

o el valor esperado de la logverosimilitud de los datos completos, donde la es-peranza es con respectoa la variable dependiente latente y∗, condicional en elvalor actual de β, digamos β(t), y los datos observados X y y.

La funcion log-verosimililitud de los datos completos es

ln (p (β|X,y,y∗)) = −n2

ln(2π) − 1

2

n∑

i=1

(y∗i − x′iβ)

2

dado que σ2 = 1, por supuesto. Sustituyendo esto en Q

Q(β,β(t)

)= −n

2ln(2π) − 1

2

n∑

i=1

(E[(y∗i − x′

iβ) |yi,X,β(t)])2

Page 159: 14172970 bayesilibro

152 CAPITULO 14. METODOS COMPUTACIONALES

= −n2

ln(2π)−1

2

n∑

i=1

(V ar

[(y∗i − x′

iβ) |yi,X,β(t)]

+ E[(y∗i − x′

iβ) |yi,X,β(t)]2)

= −n2

ln(2π) − 1

2

n∑

i=1

(V ar

[y∗i |yi,X,β(t)

]+[E (y∗i ) |yi,X,β(t)

)− x′

iβ]2

La estimacion actual de β, β(t+1), se encuentra maximizando Q(β,β(t)

)con

respecto a β. Los terminos varianza y la esperanza no involucran a β, y por lotanto

β(t+1) = mınβ

1

2

n∑

i=1

[E(y∗i |yi,X,β(t)

)− x′

iβ]2

= (X ′X)−1X ′E(y∗|y,X,β(t)

)

La estimacion actualizada de β se obtiene corriendo regresiones por mınimoscuadrados de los valores imputados y∗ sobre las covariables X.

La imputacion para y∗ es

E(y∗i |yi,xi,β(t)

)= y

∗(t)i = E

[(x′iβ = ǫi) |yi,xi,β(t)

]= x′

iβ +Mi

donde

Mi = Eβ(t)

(ǫi|yi,xi,β(t)

)=

−φi/Φi si yi = 0φi/(1 − Φi) si yi = 1

donde φi = φ(−x′iβ

(t)) es la funcion densidad de probabilidad normal, y Φi =

Φ(−x′iβ

(t)) es la funcion de probabilidad acumulada de la distribucion normal

evaluada en −x′iβ

(t).

14.6. Diagnosticos de los Muestreadores MCMC

Recordando que estamos trabajando con una cadena markoviana, donde el pun-to de inicio de la cadena es arbitrario y los valores que toma estan correlaciona-dos, ademas se desea obtener muestras es de la distribucion estacionaria, losprimeros valores generados deben descartarse (burning), denotemos este numeropor nB , el cual se toma por muchos como 1000 o 5000. Existen algunas reglas quenos permiten establecer el numero a quemar pero es un topico que no tiene unaunica solucion. Despues de descartar los primeros valores nos queda la muestra

Page 160: 14172970 bayesilibro

14.6. DIAGNOSTICOS DE LOS MUESTREADORES MCMC 153

definitiva que la llamamos muestra a monitorear, su tamano lo denotamos pornM .

Si queremos que la estimada θ tenga una alta probabilidad, digamos 1−ǫ0,95, deno estar a mas de d = 0,1, por ejemplo, del verdadero valor medio µ = E(θ|y),o sea

P(∣∣θ − µ

∣∣ ≤ d)

= 1 − ǫ

Bajo el supuesto de un AR1(ρ)

nM =σ2(1 + ρ)

[Φ−1 (1 − ǫ/2)

]2

d2(1 − ρ)

donde σ es la desviacion estandar de un θt y Φ es la funcion de distribucionacumulada de una N(0, 1).

Como un ejemplo de lo anterior asumamos que ρ = 0,89, una cadena que no semezcla muy bien, σ = 3,3, entonces nM ≈ 79500. Si nB = 5000 debemos generarentonces aproximadamente 85000 muestras para un solo parametro. Si se tienenmuchos parametros a monitorear, como es lo usual en un problema aplicado,puede realmente ser muy restrictivo a nivel de hardware los requerimientos dealmacenamiento.

Una de las tareas mas difıciles es establecer cuando podemos decidir que unacadena ha llegado a la distribucion lımite o de equilibrio, esto puede vislumbrarsea traves de pruebas de estacionaridad de los ultimos valores generados de la serie,aunque aun teniendo estacionaridad no hay garantıa de estar obteniendo valoresde la distribucion deseada.

Una faceta indeseable en un muestreo MCMC es de no obtener valores bienmezclados, lo cual significa que los valores consecutivos estan altamente cor-relacionados, lo cual podrıa probarse mediante la correlacion de primer orden(correlacion serial) de la serie. Una buena cadena tendrıa un ρ cercano a cero.

14.6.1. Monitoreo y Convergencia de una MCMC

Cuatro Graficos MCMC

Se recomienda como paso inicial generar cuatro graficos para cada parametroconsiderado:

a) Un grafico de los valores de la cadena en forma de serie temporal.

b) Un grafico de la densidad estimada a partir de estos valores.

c) Un grafico con las autocorrelaciones.

d) Un grafico con las autocorrelaciones parciales.

Page 161: 14172970 bayesilibro

154 CAPITULO 14. METODOS COMPUTACIONALES

Diagnosticos CODA

La librerıa del R CODA posee varios diagnosticos utiles para analizar los resul-tados de una cadena, entre ellos:

Autocorrelaciones

Prueba de Geweke. Es una prueba de igualdad de medias uti-lizando el Z − score. Si |Z − score| > 2 se considera que los nivelesson diferentes.

Prueba de Heidelberger y Welch. Esta prueba usa el estadısticoCramer-von Mises para estacionalidad. Funciona ası: Si falla la prue-ba se descarta el 10 % de las observaciones (las primeras), y ası hastadescartar el 50 %.

Prueba de Raftery y Lewis. Este es un diagnostico de la longitudde la corrida basada en el criterio de la exactitud de la estimaciondel cuantil q. Pretende usar una cadena de Markov piloto (corta). Secalcula el numero de iteraciones requeridas para estimar el cuantil qdentro de una exactitud de ±r con probabilidad p.

Prueba de Gelman y Rubin. Esta es una prueba en la que dos omas cadenas paralelas corren con valores iniciales que son sobredis-persos con respecto a la distribucion posterior. La convergencia sediagnostica cuando las cadenas han “olvidado” sus valores inicialesy las salidas de todas las cadenas son indistinguibles. La pruebaesta basada en una comparacion de las varianzas dentro y entre lascadenas y es similar al analisis de varianza clasico. Hay dos formas deestimar la varianza de una distribucion estacionaria: la media de lavarianza empırica dentro de cada cadena, W , y la varianza empıricade todas las cadenas combinadas, que puede expresarse como

σ2 = (n− 1)B/n+W/n

donde B es la varianza empırica entre las cadenas.

Si las cadenas han convergido, entonces ambas estimadas son inses-gadas. De otra manera el primer metodo subestima la varianza, yaque las cadenas individuales no han tenido tiempo de llegar a la dis-tribucion estacionaria y el segundo metodo sobreestima la varianza,ya que los valores iniciales fueron seleccionados sobredispersos.

El diagnostico de convergencia esta basado en el supuesto que la dis-tribucion objetivo es normal. Un intervalo bayesiano de credibilidadpuede construirse usando una distribucion t con media

µ = Media muestral de todas las cadenas combinadas

Page 162: 14172970 bayesilibro

14.6. DIAGNOSTICOS DE LOS MUESTREADORES MCMC 155

y varianza

V = σ2 +B/(mn)

donde m es el numero de cadenas, y los grados de libertad son esti-mado poel metodo de los momentos

d = 2V

V ar(V )

El uso de la distribucion t tiene en cuenta el hecho que la media yla varianza de la distribucion posterior son estimados.

El diagnostico de convergencia es

R =

√(d+ 3)V /((d+ 1)W )

Valores sustancialmente arriba de 1 indican falta de convergencia.

#

# Chained data augmentation - Example from Casella and George

#

nr <- 50

m <- 500

k <- 10

n <- 16

alpha <- 2.0

beta <- 4.0

lambda <- 16.0

maxn <- 24

betabinomial <- function(x,n,alpha,beta)

y <- log(choose(n,x))

y <- y + lgamma(alpha + beta) - lgamma(alpha) - lgamma(beta)

y <- y + lgamma(x + alpha) + lgamma(n - x + beta) -

lgamma(alpha + beta + n)

y <- exp(y)

return(y)

cat("\n")

cat("Based on ’Explaining the Gibbs sampler’, C. Casella \n")

cat("and E.I. George, Amer. Statist. 46 (3) (1992), 167-174. \n")

h <- rep(0,n+1)

fe <- rep(0,n+1)

for (i in 1:m)

Page 163: 14172970 bayesilibro

156 CAPITULO 14. METODOS COMPUTACIONALES

y <- runif(1);

for (j in 1:k)

x <- rbinom(1,n,y)

newalpha <- x + alpha

newbeta <- n - x + beta

y <- rbeta(1,newalpha,newbeta)

for (t in 0:n)

if (t == x)

h[t+1] <- h[t+1] + 1

term <- choose(n,t)*exp(t*log(y)+(n-t)*log(1-y))

fe[t+1] <- fe[t+1] + term

cat("\n")

cat("Histogram (cf. Fig. 1)) \n")

cat(" t Obs Exp Diff Ratio Comp of X2 \n")

cat("\n")

x2h <- 0

bbe <- rep(0,n+1)

bb <- rep(0,n+1)

for (t in 0:n)

bbe[t+1] <- m*betabinomial(t,n,alpha,beta)

bb[t+1] <- round(bbe[t+1])

diff <- h[t+1] - bb[t+1]

ratio <- h[t+1]/bbe[t+1]

compx2 <- (h[t+1]-bbe[t+1])*(h[t+1]-bbe[t+1])/bbe[t+1]

x2h <- x2h + compx2

if (t < 10) cat(" ")

cat(" ",t," ")

if (h[t+1] < 10) cat(" ")

cat(h[t+1]," ")

if (bb[t+1]<10) cat(" ")

cat(bb[t+1]," ")

if (diff >= 0) cat(" ")

if (abs(diff) < 10) cat(" ")

cat(diff," ",ratio," ",compx2,"\n")

cat("\n")

cat("Chi-squared equals",x2h,"on",n,"degrees of freedom \n")

cat("\n")

cat("Estimated densities (cf. Fig. 3) \n")

cat("\n")

Page 164: 14172970 bayesilibro

14.6. DIAGNOSTICOS DE LOS MUESTREADORES MCMC 157

cat(" t Obs Exp Diff Ratio Comp of X2 \n")

cat("\n")

x2f <- 0

f <- rep(0,n)

for (t in 1:n)

f[t+1] <- round(fe[t+1])

diff <- f[t+1] - bb[t+1]

ratio <- f[t+1]/bbe[t+1]

compx2 <- (f[t+1]-bbe[t+1])*(f[t+1]-bbe[t+1])/bbe[t+1]

x2f <- x2f + compx2

if (t < 10) cat(" ")

cat(" ",t," ")

if (f[t+1] < 10) cat(" ")

cat(f[t+1]," ")

if (bb[t+1]<10) cat(" ")

cat(bb[t+1]," ")

if (diff >= 0) cat(" ")

if (abs(diff) < 10) cat(" ")

cat(diff," ",ratio," ",compx2,"\n")

cat("\n")

cat("Chi-squared equals",x2f,"on",n,"degrees of freedom. \n")

hp <- rep(0,(maxn+1))

fep <- rep(0,(maxn+1))

for (i in 1:m)

y <- 0.5

nn <- (1-y)*lambda;

for (j in 1:k)

x <- rbinom(1,nn,y)

newalpha <- x + alpha

newbeta <- nn - x + beta

y <- rbeta(1,newalpha,newbeta)

nn <- x + rpois(1,(1-y)*lambda)

for (t in 0:maxn)

if (t == x)

hp[t+1] <- hp[t+1] + 1

if (t <= nn)

term <- choose(nn,t)*exp(t*log(y)+

(nn-t)*log(1-y))

fep[t+1] <- fep[t+1] + term

Page 165: 14172970 bayesilibro

158 CAPITULO 14. METODOS COMPUTACIONALES

cat("\n\n")

cat("Histogram (n random) \n")

cat("\n")

cat(" t Obs Histogram \n")

cat("\n")

practmaxn <- 4*n/3

for (t in 0:(practmaxn+1))

if (t < 10) cat(" ")

cat(t," ")

if (hp[t+1] < 10) cat(" ")

cat(hp[t+1]," ")

if (hp[t+1] > 0)

for (j in 1:hp[t+1]) cat("*")

cat("\n")

cat("\n")

cat("Estimated densities (n random; cf. Fig. 5) \n")

cat("\n")

cat(" t Obs Estimate \n")

cat("\n")

x2f <- 0

fp <- rep(0,practmaxn)

for (t in 1:practmaxn)

fp[t+1] <- round(fep[t+1])

if (t < 10) cat(" ")

cat(t)

cat(" ")

if (fp[t+1] < 10) cat(" ")

cat(fp[t+1]," ")

if (fp[t+1] > 0)

for (j in 1:fp[t+1]) cat("*")

cat("\n")

#

# Change-point analysis of coal disaster data

#

Page 166: 14172970 bayesilibro

14.6. DIAGNOSTICOS DE LOS MUESTREADORES MCMC 159

x11(record=T)

m <- 2 # Number of replications

t <- 15 # Number of iterations

startyear <- 1851 # First year for which data is available

daytab <- c(0, 31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31)

leaptab <- c(0, 31, 29, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31)

# Functions day.of.year, month.of.day and this.month adapted from

# B W Kernighan and D M Ritchie, The C Programming Language,

# Englewood Cloffs, NJ: Prentice-Hall 1978, 1988, Section 5.7.

# day.of.year: set day of year from month & day

day.of.year <- function(year,month,day)

leap <- year%%4 == 0 && year%%100 != 0 || year%%400 == 0

if (leap)

tab <- leaptab else

tab <- daytab

yearday <- day

for (i in 1:month)

yearday <- yearday + tab[i];

return(yearday)

# month.of.day: set month, day from day of year

day.of.month <- function(year,yearday)

leap <- year%%4 == 0 && year%%100 != 0 || year%%400 == 0

if (leap)

tab <- leaptab else

tab <- daytab

i <- 1

while (yearday > tab[i])

yearday <- yearday - tab[i]

i <- i + 1

return(yearday)

this.month <- function(year,yearday)

leap <- year%%4 == 0 && year%%100 != 0 || year%%400 == 0

if (leap)

tab <- leaptab else

tab <- daytab

Page 167: 14172970 bayesilibro

160 CAPITULO 14. METODOS COMPUTACIONALES

i <- 1

while (yearday > tab[i])

yearday <- yearday - tab[i]

i <- i + 1

return(i-1)

# Data from B P Carlin, A E Gelfand and A F M Smith, Hierachical

# Bayesian Analysis of Changepoint Problems, Appl. Statist. 41 (1992),

# 389-405.

Y <- c(

4,5,4,1,0,4,3,4,0,6,3,3,4,0,2,6,3,3,5,4,5,3,1,4,4,

1,5,5,3,4,2,5,2,2,3,4,2,1,3,2,1,1,1,1,1,3,0,0,1,0,

1,1,0,0,3,1,0,3,2,2,0,1,1,1,0,1,0,1,0,0,0,2,1,0,0,

0,1,1,0,2,2,3,1,1,2,1,1,1,1,2,4,2,0,0,0,1,4,0,0,0,

1,0,0,0,0,0,1,0,0,1,0,0)

n <- length(Y) # Number of years of data available

endyear <- startyear+n-1 # First year for which data is available

a1 <- 0.5

a2 <- 0.5

d1 <- 1

d2 <- 1

plot(startyear:endyear,cumsum(Y))

cat("\n")

pp <- rep(0,n)

L <- rep(0,n)

pp <- rep(0,n)

for (j in 1:m) # Replicate m times

k <- 1+floor(n*runif(1)) # Initialize k randomly in [1,n]

b1 <- 1

b2 <- 1 # Initialize b1=b2=1

for (s in 1:t) # Iterate t times

# Sample theta | Y,lambda,b1,b2,k

theta <- rgamma(1,a1+cumsum(Y)[k])/(k+(1/b1));

# Sample lambda | Y,theta,b1,b2,k

lambda <- rgamma(1,a2+sum(Y)-cumsum(Y)[k])/(n-k+(1/b2));

# Sample b1 | Y,theta,lambda,b2,k

b1 <- (theta+(1/d1))/rgamma(1,a1);

# Sample b2 | Y,theta,lambda,b1,k

b2 <- (lambda+(1/d2))/rgamma(1,a2);

# Find L(Y;k,theta,lambda) for k = 0 to n-1

for (k in 1:n)

Page 168: 14172970 bayesilibro

14.6. DIAGNOSTICOS DE LOS MUESTREADORES MCMC 161

L[k] <- exp((lambda-theta)*k+

(log(theta)-log(lambda))*cumsum(Y)[k])

# Find p(k | Y,theta,lambda,b1,b2) and cumulation thereof

p <- L/sum(L)

cumprob <- cumsum(p)

# Pick U at random between 0 and 1

U <- runif(1)

# Sample k | Y,theta,lambda,b1,b2

for (i in 1:n)

if ((cumprob[i] < U)&&(U <= cumprob[i+1])) k <- i

# End iteration

pp <- pp + p/m

# End replication

# Find posterior density and mean of k

year <- startyear:endyear

meandate <- sum((year+0.5)*pp)

# Print out results

for (i in 30:50) cat(startyear+i," ",pp[i],"\n")

cat("\n")

for (i in 30:50)

cat(startyear+i," ")

for (j in 1:80)

if (100*pp[i] > j) cat("*")

cat("\n")

cat("\n")

meanyear <- floor(meandate)

fracyear <- meandate - floor(meandate)

leap <- meanyear%%4 == 0 && meanyear%%100 != 0 || meanyear%%400 == 0

if (leap)

tab <- leaptab else

tab <- daytab

daysinyear <- if (leap) 366 else 365

remnant <- fracyear*(daysinyear)-cumsum(tab)

monthspast <- remnant[remnant>0]

meanmonth <- length(monthspast)

if (meanmonth==1) monthname <- "Jan"

if (meanmonth==2) monthname <- "Feb"

if (meanmonth==3) monthname <- "Mar"

if (meanmonth==4) monthname <- "Apr"

if (meanmonth==5) monthname <- "May"

if (meanmonth==6) monthname <- "Jun"

if (meanmonth==7) monthname <- "Jul"

Page 169: 14172970 bayesilibro

162 CAPITULO 14. METODOS COMPUTACIONALES

if (meanmonth==8) monthname <- "Aug"

if (meanmonth==9) monthname <- "Sep"

if (meanmonth==10) monthname <- "Oct"

if (meanmonth==11) monthname <- "Nov"

if (meanmonth==12) monthname <- "Dec"

floatday <- fracyear*(daysinyear)-cumsum(tab)[meanmonth]

meanday <- floor(floatday)

cat("Mean is",meanday,monthname,meanyear,", i.e. ")

cat(meanyear,"+",fracyear,"\n")

cat("\n")

#

# Hierachical normal model in Chapter 9, Exercise 6

#

niter <- 25

r <- 4

n <- c(4,4,4,4)

dat <- c(

98,97,99,96,

91,90,93,92,

96,95,97,95,

95,96,99,98)

x <- matrix(dat,max(n),r)

cat("\n")

cat("Data quoted in P.M. Lee, Bayesian Statistics: An Introduction \n")

cat("(2nd edn), London: Arnold 1997, Chapter 9, Exercise 6. \n")

cat("\n")

N <- sum(n)

xidot <- rep(0,r)

ssi <- rep(0,r)

for (i in 1:r)

xidot[i] <- sum(x[1:n[i],i])/n[i]

ssi[i] <- (n[i]-1)*var(x[1:n[i],i])

xdotdot <- sum(x)/N

ssw <- sum(ssi)

ssb <- (r-1)*var(xidot)

mu <- xdotdot

phi <- ssw/(N-1)

psi <- ssb/(r-1)

muold <- mu

phiold <- phi

Page 170: 14172970 bayesilibro

14.6. DIAGNOSTICOS DE LOS MUESTREADORES MCMC 163

psiold <- psi

for (t in 1:niter)

muold <- mu

phiold <- phi

psiold <- psi

mu <- 0

phi <- 0

psi <- 0

v <- 1/(1/psiold + n/phiold)

theta <- v*(muold/psiold + n*xidot/phiold)

mu <- mean(theta)

for (i in 1:r)

for (j in 1:n[i])

phi <- phi + (v[i]+(x[j,i]-theta[i])^2)/(N+2)

psi <- sum(v + (mu-theta)^2)/r

for (i in 1:r)

cat("Theta[",i,"] = ",theta[i],"\n")

cat("\n")

cat("mu = ",mu,"\n")

cat("phi = ",phi,"\n")

cat("psi = ",psi,"\n")

cat("\n")

#

#/* Hierachical normal model at end of Section 9.2

#

niter <- 25

r <- 4

n <- c(4,6,6,8)

dat <- c(62,60,63,59,NA,NA,NA,NA,

63,67,71,64,65,66,NA,NA,

68,66,71,67,68,68,NA,NA,

56,62,60,61,63,64,63,59)

x <- matrix(dat,max(n),r)

cat("\n")

cat("Based on A. Gelman, J.B. Carlin, H.S. Stern and D.B. Rubin \n")

cat("Bayesian Data Analysis, London: Chapman & Hall 1995, Sec. 9.8 \n")

cat("\n")

N <- sum(n)

xidot <- rep(0,r)

ssi <- rep(0,r)

Page 171: 14172970 bayesilibro

164 CAPITULO 14. METODOS COMPUTACIONALES

for (i in 1:r)

xidot[i] <- sum(x[,i],na.rm=TRUE)/n[i]

ssi[i] <- (n[i]-1)*var(x[,i],na.rm=TRUE)

xdotdot <- sum(x,na.rm=TRUE)/N

ssw <- sum(ssi)

ssb <- (r-1)*var(xidot)

mu <- xdotdot

phi <- ssw/(N-1)

psi <- ssb/(r-1)

muold <- mu

phiold <- phi

psiold <- psi

for (t in 1:niter)

muold <- mu

phiold <- phi

psiold <- psi

mu <- 0

phi <- 0

psi <- 0

v <- 1/(1/psiold + n/phiold)

theta <- v*(muold/psiold + n*xidot/phiold)

mu <- mean(theta)

for (i in 1:r)

for (j in 1:n[i])

phi <- phi + (v[i]+(x[j,i]-theta[i])^2)/(N+2)

psi <- sum(v + (mu-theta)^2)/r

for (i in 1:r)

cat("Theta[",i,"] =",theta[i],"\n")

cat("\n")

cat("mu =",mu,"\n")

cat("phi =",phi,"\n")

cat("psi =",psi,"\n")

cat("\n")

#

# Crude Monte Carlo - Chapter 9, Exercise 1

#

niter <- 10

n <- 10

integral <- rep(0,niter)

Page 172: 14172970 bayesilibro

14.6. DIAGNOSTICOS DE LOS MUESTREADORES MCMC 165

cat(" Values computed: ")

for (i in 1:niter)

integral[i] <- sum(exp(runif(n)))/n

cat(integral[i])

if (i==n)

cat(".")

else

cat(", ")

if (i==n/2)

cat("\n ")

cat("\n")

cat(" Mean is",mean(integral),"and standard deviation is",sd(integral),".")

cat("\n")

#

# Semi-conjugate prior with normal likelihood (Section 9.4)

#

iter <- 10 # Number of iterations of the EM algorithm

m <- 500 # Number of replications

t <- 10 # Number of iterations

n <- 100

xbar <- 89

sxx <- 2970

s0 <- 175

nu0 <- 4

n0 <- 1

theta0 <- 85

phi0 <- s0/(n0*(nu0-2))

thetabar <- 0

phibar <- 0

thetass <- 0

phiss <- 0

cat("\n")

cat("Data quoted in P M Lee, ‘Bayesian Statistics: An Introduction’, \n")

cat("Arnold 1989, Section 2.13. Taking n=12, xbar=139, S=13,045 and \n")

cat("prior for theta ~ N(theta0,S0/n0(nu0-2)), that is, N(",

theta0,",",phi0,"),\n")

cat("and for phi independent and such that phi ~ S0 chi_nu0^-2, \n")

cat("that is, phi/",s0," is a chi-squared variate on",nu0,"d.f. \n")

cat("\n")

cat("Iterations of the EM algorithm give the following values for theta \n")

# # EM algorithm

theta <- theta0; # Initialize

Page 173: 14172970 bayesilibro

166 CAPITULO 14. METODOS COMPUTACIONALES

n1 <- nu0 + n

for (j in 1:iter) # Iterate iter times

if (j-1 == 5*floor((j-1)/5)) cat("\n")

s1 <- s0+sxx+n*(xbar-theta)*(xbar-theta)

theta1 <- (theta0/phi0+n*xbar/(s1/n1))/(1/phi0+n/(s1/n1))

theta <- theta1

cat(theta," ")

cat("\n")

# # Gibbs sampler

phi <- sxx/(n-1) # Initialize

thetafinal <- rep(0,m)

phifinal <- rep(0,m)

for (j in 1:m) # Replicate m times

for (s in 1:t) # Iterate t times

phi1 <- 1/((1/phi0)+(n/phi))

theta1 <- phi1*((theta0/phi0)+(n*xbar/phi))

# theta | phi ~ N(theta1,phi1

theta <- theta1+sqrt(phi1)*rnorm(1)

# s1=s0+sum(x(i)-theta)^2

s1 <- s0+sxx+n*(xbar-theta)*(xbar-theta)

# phi | theta ~ s1*\chi_\nu1^-2

phi <- s1/rchisq(1,nu0+n)

thetafinal[j] <- theta

phifinal[j] <- phi

thetabar <- mean(thetafinal)

phibar <- mean(phifinal)

thetavar <- var(thetafinal)

phivar <- var(phifinal)

cat("\n")

cat("The Gibbs sampler gives rise to the following conclusions: \n")

cat("We deduce posterior for theta has mean",thetabar,"and variance",

thetavar,"\n")

cat("and that posterior for phi has mean",phibar,"and variance",phivar,"\n")

cat("\n")

#

# Example of rejection sampling (Section 9.5)

#

n <- 1000

Page 174: 14172970 bayesilibro

14.6. DIAGNOSTICOS DE LOS MUESTREADORES MCMC 167

alpha <- 2

beta <- 4

cc <- exp((alpha-1)*log(alpha-1)+(beta-1)*log(beta-1)-

(alpha+beta-2)*log(alpha+beta-2))

theormean <- alpha/(alpha+beta)

theorvar <- alpha*beta/

((alpha+beta)*(alpha+beta)*(alpha+beta+2))

mean <- 0

ss <- 0

for (i in 1:n)

cont <- TRUE

while (cont)

y <- runif(1)

u <- runif(1)

if (u <= exp((alpha-1)*log(y)+(beta-1)*log(1-y)))

x <- y

mean <- mean + x/n

ss <- ss + x*x

cont <- FALSE

var <- (ss-n*mean*mean)/(n-1)

cat("\n")

cat(" Alpha =",alpha,"Beta =",beta,"; Mean =",mean,"Variance =",var,"\n")

cat(" Theoretical values ",theormean,"and ",theorvar,"\n")

cat(" Ratios ",mean/theormean,"and ",var/theorvar)

cat("\n\n")

1 151 199 246 283 320

2 145 199 249 293 354

3 147 214 263 312 328

4 155 200 237 272 297

5 135 188 230 280 323

6 159 210 252 298 331

7 141 189 231 275 305

8 159 201 248 297 338

9 177 236 285 340 376

10 134 182 220 260 296

11 134 182 220 260 296

Page 175: 14172970 bayesilibro

168 CAPITULO 14. METODOS COMPUTACIONALES

12 143 188 220 273 314

13 154 200 244 289 325

14 171 221 270 326 358

15 163 216 242 281 312

16 160 207 248 288 324

17 142 187 234 280 316

18 156 203 243 283 317

19 157 212 259 307 336

20 152 203 246 286 321

21 154 205 253 298 334

22 139 190 225 267 302

23 146 191 229 272 302

24 157 211 250 285 323

25 132 185 237 286 331

26 160 207 257 303 345

27 169 216 261 295 333

28 157 205 248 289 316

29 137 180 219 258 291

30 153 200 244 286 324

#

# Rat data in Chapter 9, Exercise 11

#

# Remember to load the file wishart.r first

#

p <- P <- 2

m <- 500

k <- 30

ni <- 5

epsilon <- 0.001

x <- c(8, 15, 22, 29, 36)

dat <- read.table("rats.dat")

y <- dat[,2:(ni+1)]

alpha0 <- 0.0

beta0 <- 0.0

a <- aalpha <- abeta <- epsilon # B P Carlin and T A Louis p. 169

b <- balpha <- bbeta <- 1/epsilon # B P Carlin and T A Louis p. 170

sigma2 <- 1.0 # Initially sigma2 is IG(a,b)

sigmaa2 <- 100 # A E Gelfand et al. p. 979 col.1

sigmab2 <- 0.1 # A E Gelfand et al. p. 979 col.1

# Thus R = (100 0 )

Page 176: 14172970 bayesilibro

14.6. DIAGNOSTICOS DE LOS MUESTREADORES MCMC 169

# ( 0 0.1)

#

# Take values for alpha[i] and beta[i] given

# alpha0, beta0, sigmaa2, sigmab2 and sigma2

alphabar <- 0.0

betabar <- 0.0

alpha <- rep(0,k)

beta <- rep(0,k)

for (i in 1:k)

vara <- ni/sigma2 + 1/sigmaa2

suma <- sum(y[i,])

meana <- (suma/sigma2 + alpha0/sigmaa2)/vara

# alpha[i] ~ N(meana,vara)

alpha[i] <- meana+sqrt(vara)*rnorm(1)

alphabar <- alpha[i]/k

varb <- var(x)/sigma2 + 1/sigmab2

sumb <- sum((x-mean(x))*unlist(y[i,]))

meanb <- (sumb/sigma2 + 1/sigmab2)/varb

# beta[i] ~ N(meanb,varb)

beta[i] <- meanb+sqrt(varb)*rnorm(1)

betabar <- betabar + beta[i]/k

# Initialize var (capital sigma)

v <- matrix(c(sigmaa2,0,0,sigmab2),P,P)

# Take values for alpha0 and beta0 given

# alpha[i], beta[i], sigmaa2, sigmab2 and sigma2

wish(p,k,var)

# alpha0 ~ N(alphabar,sigmaa2/k)

alpha0 <- alphabar+sqrt(sigmaa2/k)*rnorm(1)

# beta0 ~ N(betabar,sigmab2/k)

beta0 <- betabar+sqrt(sigmab2/k)*rnorm(1)

# See last displayed formula on p. 168 of

# B P Carlin and T A Louis

# simplified by taking C^-1 = 0

#

# Take values for sigmaa2 and sigmab2 given

# alpha[i], beta[i], alpha0, beta0 and sigma2

# sigmaa2 ~ IG(alpha0,beta0)

sigmaa2 <- 1/(beta0*rgamma(1,alpha0))

# sigmab2 ~ IG(alpha)

sigmab2 <- 1/(beta0*rgamma(1,alpha0))

#

# Take value for sigma2 given

# alpha[i], beta[i], alpha0, beta0, sigmaa2 and sigmab2

# sigma2 ~ IG(alpha0,beta0)

Page 177: 14172970 bayesilibro

170 CAPITULO 14. METODOS COMPUTACIONALES

sigma2 <- 1/(beta0*rgamma(1,alpha0))

Ejemplo 14.8 Precio de oferta del Sprint usado

Consideremos los datos referentes a los precios de oferta de carros ChevroletSprint aparecidos en el periodico El Colombiano Abril 14 del 2002.

Ano Precio(en millones)

87 7.088 8.092 10.494 94

list(x = c(87,88,92,94), Y = c(7.0,8.0,10.4,12.5), N = 4)

list(alpha = 0, beta = 0, tau = 1)

Los resultados son:

node mean sd MC error 2.5 % median 97.5 % start samplealpha 9.472 0.5299 0.008244 8.532 9.474 10.35 2001 2000beta 0.7396 0.1976 0.003458 0.3973 0.7416 1.076 2001 2000sigma 0.6849 0.9945 0.04225 0.1831 0.4194 2.657 2001 2000

Si no consideramos la aproximacion bayesiana y trabajamos directamente conel modelo clasico tenemos los siguientes resultados

Call: lm(formula = precio ano)

Residuals: 1 2 3 4 -0.06107 0.19618 -0.37481 0.23969

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept)

9.47500 0.17326 54.69 0.000334 *** ano 0.74275 0.06055 12.27 0.006581

** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1

‘ ’ 1

Residual standard error: 0.3465 on 2 degrees of freedom Multiple

R-Squared: 0.9869, Adjusted R-squared: 0.9803 F-statistic: 150.5

on 1 and 2 DF, p-value: 0.006581

>

Si utilizamos informacion previa sobre el mismo problema, por ejemplo los pre-cios de oferta del mismo tipo de carro que aparecieron en El Colombiano enDiciembre 16 del 2002, en el cual aparecieron los siguientes datos

Page 178: 14172970 bayesilibro

14.6. DIAGNOSTICOS DE LOS MUESTREADORES MCMC 171

Ano Precio(en millones)

88 7.890 8.895 11.895 12.394 12.095 8.8

list(x = c(95,95,94,95,88,90), Y = c(11.8,12.5,12.0,12.3,7.8,8.8),

N = 6)

list(alpha = 0, beta = 0, tau = 1)

node mean sd MC error 2.5 % median 97.5 % start samplealpha 10.86 0.1887 0.004687 10.5 10.86 11.24 3001 2000beta 0.6522 0.06663 0.001457 0.5118 0.6508 0.7817 3001 2000tau 8.48 5.888 0.193 1.197 7.019 23.54 3001 2000

model for(i in 1:N) Y[i] dnorm(mu[i], tau) mu[i] <- alpha +

beta * (x[i] - mean(x[])) sigma <- 1/sqrt(tau) alpha dnorm(10.86,

28.08382) beta dnorm(0.6522, 225.2477) tau dgamma(1.0E-3, 1.0E-3)

list(x = c(87,88,92,94), Y = c(7.0,8.0,10.4,12.5), N = 4)

list(alpha = 10.86, beta = 0.6522, tau = 8.48)

node mean sd MC error 2.5 % median 97.5 % start samplealpha 10.76 0.1925 0.003257 10.38 10.75 11.14 3001 4000beta 0.6581 0.06308 9.926E-4 0.5339 0.6572 0.7838 3001 4000tau 0.5937 0.4655 0.007512 0.06085 0.4749 1.825 3001 4000

Page 179: 14172970 bayesilibro

172 CAPITULO 14. METODOS COMPUTACIONALES

Page 180: 14172970 bayesilibro

Capıtulo 15Modelos Jerarquicos

Los modelos jerarquicos surgen en muchas situaciones (Draper, 2000; Stangl,2001)donde los datos son recogidos en forma jerarquica. Por ejemplo, un estudiode salud puede recoger informacion de pacientes dentro de diversos hospitales.Un estudio sobre educacion puede generar informacion recogida entre estudi-antes de diversas instituciones educativas. Los modelos jerarquicos permiten quelugares con tamanos muestrales pequenos “presten fortalezas” de otros lugares,de tal forma que la varianza entre sitios a ser estimada sea pequena (DuMouchely Waternaux, 1995).

La metodologıa de estos modelos se puede llevar a otras situaciones mas tradi-cionales, donde la modelacion puede ser complicada, por ejemplo en el caso dela regresion, cuando la varianza residual cambia con las variables explicativas,se puede considerar meter el modelo de variacion constante en una familia demodelos que generen diferentes supuestos acerca de la varianza residual. En estecaso, en lugar de escoger un solo modelo y arriesgarnos a tener una seleccionequivocada, podemos trabajar con muchos modelos a la vez, ponderandolos deacuerdo a la concordancia con los datos.

En el estudio de modelos jerarquicos surgen dos cuestiones tecnicas:

los calculos bayesianos requieren el uso de simulacion tales como losbasados en MCMC y

asuntos sobre diagnosticos para el modelo.

Definicion 15.1 (Intercambiabilidad) de Finetti (1930, 1964) dice que vari-ables con la siguiente propiedad son intercambiables Yi, i = 1, · · · , n son inter-cambiables si las distribuciones de (Y1, · · · , Yn) y (Yπ(1), · · · , Yπ(n)) son las mis-mas para todas las permutaciones (π(1), · · · , π(n))

173

Page 181: 14172970 bayesilibro

174 CAPITULO 15. MODELOS JERARQUICOS

Intercambiabilidad e IID no son lo mismo: IID implica intercambibilidad, yvariables intecambiables Yi tienen identicas distribuciones marginales, pero ellasno son necesariamente independientes.

15.1. Meta-analisis

La idea basica del meta-analisis es combinar informacion provenientes de difer-entes estudios pero realizados esencialmente sobre el mismo fenomeno, con elproposito de tener unas inferencias y predicciones mas exactas que las que setengan de cualquier estudio individual. Aquı tenemos sujetos dentro de estudiosy habra predictores a la vez de los sujetos y de los estudios.

Stangl (2001) presenta el siguiente caso donde se realizo un analisis de los efectosde la droga antidepresiva S-adenosylometionina (SAMe). Participaron nuevelugares en el ensayo. Cada sitio tenıa caracterısticas propias que afectaba losresultados de los estudios. El resultado de interes era la tasa de exito observadacon la SAMe. Los datos estan presentados en la siguiente tabla:

Sitio si ni si/ni1 20 20 1.002 4 10 0.403 11 16 0.694 10 19 0.535 5 14 0.366 36 46 0.787 9 10 0.908 7 9 0.789 4 6 0.67Total 106 150 0.71

Asumimos que la tabla anterior proviene de un estudio con 150 pacientes y nue-stro objetivo es estimar la tasa de exito, digamos π, del tratamiento. Asumamosque la distribucion apriori de π es una Beta (α, β). Los datos son generados deuna distribucion binomial con tamano muestral n y tasa de exito π.

Una formulacion multinivel, o jerarquica o de efectos aleatorios evita el supuestode homogenidad modelando un efecto aleatorio, π para el estudio i. Cada πise asume sacado de la distribucion de los efectos de estudio. Aquı se usa laBeta (α, β) para los efectos de estudio. La respuesta del estudio i es

si ∼ Binomial (ni, πi)

y los efectos individuales son intercambiables. Condicionados en α y β, los πison sacados independientemente de una distribucion Beta:

Page 182: 14172970 bayesilibro

15.1. META-ANALISIS 175

πi ∼ Beta (α, β)

La funcion de verosimilitud de los πi’s es:

I∏

i=1

πsi

i (1 − πi)ni−si

En el ultimo nivel de jerarquıa, una distribucion apriori es colocada sobre α yβ. La dejamos sin especificar por el momento, y simplemente la denotamos por

ξ(α, β)

La distribucion posterior conjunta de todos los parametros es:

ξ (π, α, β|s) ∝ f (s|π, α, β) ξ (π|α, β) ξ(α, β)

∝I∏

i=1

πsi

i (1 − πi)ni−si

I∏

i=1

Γ(α+ β)

Γ(α)Γ(β)πα−1i (1 − πi)

β−1ξ(α, β)

Dados α y β, cada uno de los πi tiene una distribucion beta independiente. Sudensidad conjunta sera:

ξ (π|α, β, s) ∝I∏

i=1

Γ(α+ β + ni)

Γ(α+ si)Γ(β + ni − si)πα+si−1i (1 − πi)

β+ni−si−1

La marginal posterior de (α, β) es

ξ (α, β|s) ∝ ξ(α, β)

I∏

i=1

Γ(α+ β)

Γ(α)Γ(β)

Γ(α+ si)Γ(β + ni − si)

Γ(α+ β + ni)

Page 183: 14172970 bayesilibro

176 CAPITULO 15. MODELOS JERARQUICOS

Page 184: 14172970 bayesilibro

Capıtulo 16Datos

16.1. Apellidos

Una muestra tomada al azar de los apellidos de suscriptores telefonicos tomadadel directorio de paginas blancas produjo los siguientes resultados:

acevedo acosta agudelo aguirre alvarez alzate

6 2 7 2 12 8

andrade angel arango arbelaez arboleda arcila

1 3 7 5 2 2

ardila areiza arenas arias aristizabal arredondo

2 3 3 4 4 1

arroyave avendano ayala balbin ballesteros baron

2 1 1 1 1 1

barrera barrientos bedoya bejarano bello beltran

1 1 6 1 1 1

benitez bermudez bernal berrio betancur betancurt

1 1 1 2 12 1

bilbao bohorquez botero bouhot bravo buitrago

1 1 5 1 2 1

buritica bustamante cadavid caicedo cajamarca calad

1 7 2 1 1 1

calle campillo campo canas cano canola

2 1 1 2 6 1

cardenas cardiba cardona carmona carvajal casas

1 1 22 2 3 2

castaneda castano castillo castrillon castro catano

3 8 1 6 6 1

ceballos cespedes chanci chavarria cordoba corrales

177

Page 185: 14172970 bayesilibro

178 CAPITULO 16. DATOS

2 1 1 1 2 1

correa cortes cossio cuartas cuellar cuervo

7 1 1 1 1 3

david delosrios diaz duarte duque durango

1 1 2 1 10 1

ebratt echavarria echeverri echeverry escobar escudero

1 7 2 3 3 1

espinal estrada fernandez florez foronda franco

2 1 5 2 2 3

galeano gallego gamboa garces garcia garro

2 6 1 1 16 1

gaviria gil giraldo gomez gonzalez gragales

5 4 12 28 10 1

granada granados guayiboy guerra guiral gutierrez

1 1 1 1 2 11

guzman henao hernandez herrera hidalgo higuita

2 6 8 2 1 3

hincapie hoyos hurtado idarraga isaza jaramillo

4 2 2 1 2 21

jimenez laiseca legarda leyva llano londono

4 1 1 1 1 8

lopera lopez lora loreto machado macia

2 13 1 1 1 1

maldonado manco manjarres manrique marin marquez

2 3 1 1 4 1

martinez marulanda maya mazo medina mejia

7 1 2 3 5 10

merino mesa misas molina mona moncada

1 8 1 4 1 2

monsalve montes montoya mora morales moreno

3 1 19 1 8 5

mosquera munera muneton munoz murillo naranjo

3 4 1 12 2 3

narino norena obando ocampo ochoa orozco

1 4 1 2 6 5

ortega ortiz osorio osorno ospina pabon

5 9 9 1 6 1

palacio palacios palomino paniagua parra patino

5 3 1 2 3 7

pelaez pena penagos perez piedrahita pineda

3 2 2 11 5 4

pino posada preciado presiga puerta pulgarin

1 7 1 1 1 4

pulido quiceno quijano quintero quiros ramirez

1 1 1 6 1 28

rangel rave rendon rengifo restrepo reyes

2 3 5 1 32 1

ricaurte rico rios rivera rodas rodriguez

1 2 6 6 2 5

rojas roldan roman romero royero rueda

Page 186: 14172970 bayesilibro

16.2. MORDEDURAS 179

1 2 1 2 1 2

ruge ruiz saenz salazar salgado salinas

1 5 1 6 1 2

sanchez santa santamaria saraza sepulveda serna

21 1 1 1 6 4

sierra sosa soto suarez suaza tabares

2 2 2 5 2 4

tabera taborda tamayo tangarife tapias tejada

1 2 2 1 2 1

tilano tobon tocora toro torres trejos

1 6 1 6 3 1

trujillo uribe urrego usuga valencia vallejo

1 5 2 3 8 1

vanegas vargas vasquez velasquez velez vera

4 3 9 6 14 1

vergara vidales villa villada villegas vitola

1 1 5 1 3 1

yepes zapata zea zuleta zuluaga

1 13 1 2 9

1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 19 21 22 28 32

114 52 23 14 16 17 8 7 4 3 2 4 2 1 1 1 2 1 2 1

Se hallaron 275 apellidos diferentes.

16.2. Mordeduras

El siguiente modelo permite estimar el numero de mordeduras promedio paracada municipio y construir un intervalo de probabilidad para este valor.

Los comandos en WinBUGS seran

model

for (i in 1 : N)

theta[i] ~ dgamma(alpha, beta)

lambda[i] <- theta[i] * Pobtotal[i]

Mordeduras[i] ~ dpois(lambda[i])

alpha ~ dexp(1)

beta ~ dgamma(0.1, 1.0)

list(N=124, Mordeduras=c(53,7,3,0,0,9,0,1,5,0,19,30,15,6,9,12,

Page 187: 14172970 bayesilibro

180 CAPITULO 16. DATOS

Municipio Mordeduras Hectareas Altura Habitantes TemperaturaMedellın 53 23 1550 1933177 22Barbosa 7 63 1300 36307 22Bello 3 47 1450 316397 22Caldas 0 222 1750 60170 19Copacabana 0 4 1425 51760 22Envigado 9 44 1575 132414 21Girardota 0 5 1425 33050 22Itagui 1 0 1550 209030 21La Estrella 5 5 1775 44464 20Sabaneta 0 160 1550 32339 20Caceres 19 112 100 22854 28Caucasia 30 0 50 57235 28El Bagre 15 108 50 48422 28Nechi 6 0 30 10906 28Taraza 9 169 125 25771 28Zaragoza 12 182 50 26816 28Caracolı 6 4 625 7023 26Maceo 2 36 950 9036 23PuertoBerrio 18 48 125 36514 27Puerto Nare 4 18 125 13388 27PuertoTriunf 4 104 150 11836 27Yondo 5 1522 75 11698 28Amalfi 9 33 1550 20387 22Anorı 6 7 1535 14690 21Cisneros 5 0 1050 10518 24Remedios 4 20 700 18825 25SanRoque 6 31 1475 21313 21SantoDomingo 0 37 1975 13549 19Segovia 4 33 650 35006 24Vegachı 10 40 980 15818 23Yalı 5 10 1250 9249 23Yolombo 7 61 1450 16594 21Angostura 0 71 1675 15119 21Belmira 0 28 2550 5650 14Briceno 0 9 1200 10070 23Campamento 0 15 1700 11453 20Carolina 0 43 1800 4635 19Donmatias 0 41 2200 14250 16Entrerıos 0 54 2300 7697 16GomezPlata 0 80 1800 9975 20Guadalupe 1 21 1875 6675 20Ituango 0 22 1550 37118 21SanAndres 0 15 1475 9887 22San Jose 0 0 2550 3558 13San Pedro 0 20 2475 19346 14Santa Rosa 1 361 2550 27651 13Toledo 0 0 1850 9638 19Valdivia 3 3 1165 12968 21Yarumal 14 126 2300 36907 14

Page 188: 14172970 bayesilibro

16.2. MORDEDURAS 181

Municipio Mordeduras Hectareas Altura Habitantes TemperaturaAbriaquı 0 52 1920 3870 18Anza 1 49 625 8103 25Armenia 1 33 1800 7068 19Buritica 0 3 1625 8217 21CanasGordas 0 152 1300 22685 21Dabeiba 4 754 450 28445 26Ebejico 1 135 1150 16061 23Frontino 4 177 1350 26240 21Giraldo 1 52 1925 4946 17Heliconia 1 10 1440 8104 21Liborina 0 1 700 11071 24Olaya 0 22 500 2868 26Peque 0 45 1200 9512 22Sabanalarga 0 33 850 9006 25SanJeronimo 0 20 780 11313 25SantaFe 1 65 550 22626 27Sopetran 0 0 750 12969 25Uramita 0 191 650 9223 25Abejorral 4 134 2125 79874 17Alejandrıa 1 265 2125 26689 17Argelia 0 98 1650 5715 20Carmen 0 44 1750 12944 20Cocorna 0 130 1300 23105 23Concepcion 1 32 1875 6530 19El Penol 0 79 2150 40300 17El Retiro 0 19 2000 17078 18El Santuario 0 123 2175 15809 16Granada 0 13 2150 28940 17Guarne 0 64 2050 18422 18Guatape 1 76 2150 31092 17La Ceja 0 90 1925 7241 19La Union 1 38 2200 41166 16Marinilla 1 12 2500 17657 13Narino 0 61 2120 38980 17Rionegro 1 192 1650 15957 20San Carlos 9 54 1000 23517 23SanFrancisco 3 18 1250 9062 23San Luis 6 128 1050 15896 24San Rafael 8 33 1000 20434 23San Vicente 0 18 2150 24492 17Sonson 3 1057 2475 45482 13Amaga 1 75 1400 26111 21Andes 20 30 1350 41310 22Angelopolis 1 42 1900 6598 18Betania 4 19 1550 12113 22Betulia 1 74 1600 17200 20Caicedo 0 3 1800 7684 19Caramanta 1 142 2050 8285 17CiudadBoliva 15 39 1200 30377 22Concordia 9 26 2000 24651 19Fredonia 3 51 1800 24357 20Hispania 0 167 1000 4776 21

Page 189: 14172970 bayesilibro

182 CAPITULO 16. DATOS

Municipio Mordeduras Hectareas Altura Habitantes TemperaturaJardın 1 72 1750 16225 19Jerico 1 11 2000 17733 18Montebello 1 6 2350 10121 15Pueblorico 2 57 1800 10668 19Salgar 1 94 1250 19102 23Santabarbara 3 4 1800 24626 19Tamesis 3 55 1600 18705 21Tarso 0 17 1325 7498 22Titiribı 4 11 1550 12039 21Urrao 2 36 1800 38054 20Valparaiso 2 46 1375 7744 21Venecia 0 22 1350 14123 21Apartado 92 645 25 86941 28Arboletes 9 89 4 23836 28Carepa 10 263 28 32960 28Chigorodo 23 281 34 46264 28Murindo 3 257 25 3241 28Mutata 14 156 75 13300 28Necoclı 16 249 8 36002 28SanJuandeU 20 112 2 19984 28SanPedrodeU 21 211 200 28915 27Turbo 14 785 2 106305 28VigiadelFuer 12 1253 18 10150 28

Page 190: 14172970 bayesilibro

16.2. MORDEDURAS 183

6,2,18,4,4,5,9,6,5,4,6,0,4,10,5,7,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,3,

14,0,1,1,0,0,4,1,4,1,1,0,0,0,0,0,1,0,0,4,1,0,0,0,1,0,0,0,0,0,1,0,1,

1,0,1,9,3,6,8,0,3,1,20,1,4,1,0,1,15,9,3,0,1,1,1,2,1,3,3,0,4,2,2,0,

92,9,10,23,3,14,16,20,21,14,12),

Pobtotal=c(1933177,36307,316397,60170,51760,132414,33050,

209030,44464,32339,22854,57235,48422,10906,25771,26816,

7023,9036,36514,13388,11836,11698,20387,14690,10518,18825,

21313,13549,35006,15818,9249,16594,15119,5650,10070,11453,

4635,14250,7697,9975,6675,37118,9887,3558,19346,27651,9638,

12968,36907,3870,8103,7068,8217,22685,28445,16061,26240,4946,

8104,11071,2868,9512,9006,11313,22626,12969,9223,79874,26689,

5715,12944,23105,6530,40300,17078,15809,28940,18422,31092,7241,

41166,17657,38980,15957,23517,9062,15896,20434,24492,45482,26111,

41310,6598,12113,17200,7684,8285,30377,24651,24357,4776,16225,

17733,10121,10668,19102,24626,18705,7498,12039,38054,7744,14123,

86941,23836,32960,46264,3241,13300,36002,19984,28915,106305,10150))

list(N=124, Mordeduras=c(53,7,3,0,0,9,0,1,5,0,19,30,15,6,9,12,6,2,18,4,4,5,9,6,5,4,6,0,

4,10,5,7,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,3,14,0,1,1,0,0,4,1,4,1,1,0,0,0,0,

0,1,0,0,4,1,0,0,0,1,0,0,0,0,0,1,0,1,1,0,1,9,3,6,8,0,3,1,20,1,4,1,0,1,15,

9,3,0,1,1,1,2,1,3,3,0,4,2,2,0,92,9,10,23,3,14,16,20,21,14,12),

Altmar=c(1550,1300,1450,1750,1425,1575,1425,1550,1775,1550,100,

50,50,30,125,50,625,950,125,125,150,75,1550,1535,1050,700,1475,

1975,650,980,1250,1450,1675,2550,1200,1700,1800,2200,2300,1800,

1875,1550,1475,2550,2475,2550,1850,1165,2300,1920,625,1800,1625,

1300,450,1150,1350,1925,1440,700,500,1200,850,780,550,750,650,

2125,2125,1650,1750,1300,1875,2150,2000,2175,2150,2050,2150,1925,

2200,2500,2120,1650,1000,1250,1050,1000,2150,2475,1400,1350,1900,

1550,1600,1800,2050,1200,2000,1800,1000,1750,2000,2350,1800,1250,

1800,1600,1325,1550,1800,1375,1350,25,4,28,34,25,75,8,2,200,2,18),

Pobtotal=c(1933177,36307,316397,60170,51760,132414,33050,209030,

44464,32339,22854,57235,48422,10906,25771,26816,7023,9036,36514,

13388,11836,11698,20387,14690,10518,18825,21313,13549,35006,15818,

9249,16594,15119,5650,10070,11453,4635,14250,7697,9975,6675,37118,

9887,3558,19346,27651,9638,12968,36907,3870,8103,7068,8217,22685,

28445,16061,26240,4946,8104,11071,2868,9512,9006,11313,22626,12969,

9223,79874,26689,5715,12944,23105,6530,40300,17078,15809,28940,18422,

31092,7241,41166,17657,38980,15957,23517,9062,15896,20434,24492,45482,

26111,41310,6598,12113,17200,7684,8285,30377,24651,24357,4776,16225,

17733,10121,10668,19102,24626,18705,7498,12039,38054,7744,14123,86941,

23836,32960,46264,3241,13300,36002,19984,28915,106305,10150))

Page 191: 14172970 bayesilibro

184 CAPITULO 16. DATOS

Nodo Media sd Error MC 2.5 % Mediana 97.5 %Medellın lambda1 53.17 7.25 0.12 39.98 52.86 68.15Barbosa lambda2 7.11 2.68 0.03 2.84 6.79 13.16Bello lambda3 3.11 1.74 0.02 0.71 2.78 7.33Caldas lambda4 0.11 0.35 0.01 0.00 0.00 1.15Copacabana lambda5 0.11 0.33 0.01 0.00 0.00 1.04Envigado lambda6 9.14 3.08 0.04 4.11 8.80 16.23Girardota lambda7 0.10 0.30 0.00 0.00 0.00 1.02Itaguı lambda8 1.13 1.08 0.02 0.04 0.81 4.00La Estrella lambda9 5.09 2.30 0.03 1.70 4.74 10.58Sabaneta lambda10 0.11 0.33 0.01 0.00 0.00 1.07Caceres lambda11 19.19 4.37 0.07 11.84 18.85 28.94Caucasia lambda12 30.14 5.42 0.07 20.16 29.87 41.34El Bagre lambda13 15.04 3.82 0.05 8.62 14.75 23.31Nechı lambda14 6.07 2.43 0.04 2.31 5.77 11.81Taraza lambda15 9.11 2.99 0.04 4.24 8.77 15.90Zaragoza lambda16 12.09 3.49 0.05 6.28 11.78 19.73Caracolı lambda17 6.13 2.46 0.04 2.36 5.79 11.78Maceo lambda18 2.12 1.46 0.02 0.27 1.80 5.75PuertoBerrio lambda19 18.17 4.26 0.06 10.94 17.87 27.45PuertoNare lambda20 4.13 2.03 0.03 1.21 3.81 9.08PuertoTriunf lambda21 4.10 2.01 0.03 1.09 3.77 8.86Yondo lambda22 5.13 2.26 0.03 1.70 4.82 10.44Amalfi lambda23 9.16 3.03 0.04 4.24 8.83 16.01Anorı lambda24 6.12 2.46 0.03 2.32 5.84 11.80Cisneros lambda25 5.10 2.22 0.03 1.76 4.78 10.32Remedios lambda26 4.12 2.05 0.03 1.11 3.78 9.01SanRoque lambda27 6.09 2.49 0.03 2.16 5.79 11.95SantoDomingo lambda28 0.12 0.37 0.00 0.00 0.00 1.15Segovia lambda29 4.12 2.01 0.03 1.15 3.79 8.70Vegachı lambda30 10.06 3.18 0.04 4.76 9.71 17.13Yalı lambda31 5.15 2.29 0.03 1.68 4.78 10.46Yolombo lambda32 7.12 2.67 0.04 2.93 6.76 13.36Angostura lambda33 0.11 0.33 0.00 0.00 0.00 0.98Belmira lambda34 0.11 0.34 0.00 0.00 0.00 1.02Briceno lambda35 0.11 0.35 0.00 0.00 0.00 1.01Campamento lambda36 0.11 0.33 0.01 0.00 0.00 0.98Carolina lambda37 0.11 0.33 0.01 0.00 0.00 1.01Don Matias lambda38 0.11 0.36 0.00 0.00 0.00 1.02Entrerıos lambda39 0.11 0.32 0.00 0.00 0.00 1.02GomezPlata lambda40 0.10 0.33 0.00 0.00 0.00 0.95Guadalupe lambda41 1.09 1.01 0.01 0.04 0.81 3.69Ituango lambda42 0.11 0.34 0.00 0.00 0.00 1.02San Andres lambda43 0.12 0.35 0.00 0.00 0.00 1.16San Jose lambda44 0.10 0.30 0.00 0.00 0.00 0.94San Pedro lambda45 0.10 0.31 0.00 0.00 0.00 1.01Santa Rosa lambda46 1.12 1.06 0.01 0.04 0.80 3.98

Page 192: 14172970 bayesilibro

16.2. MORDEDURAS 185

Nodo Media sd Error MC 2.5 % Mediana 97.5 %Toledo lambda47 0.11 0.35 0.01 0.00 0.00 1.12Valdivia lambda48 3.08 1.75 0.02 0.68 2.73 7.36Yarumal lambda49 13.99 3.75 0.05 7.81 13.60 22.37Abriaquı lambda50 0.10 0.31 0.00 0.00 0.00 0.95Anza lambda51 1.10 1.06 0.02 0.03 0.80 3.80Armenia lambda52 1.11 1.07 0.02 0.04 0.81 4.04Buritica lambda53 0.11 0.33 0.01 0.00 0.00 1.03CanasGordas lambda54 0.10 0.32 0.00 0.00 0.00 1.02Dabeiba lambda55 4.10 2.00 0.03 1.17 3.76 8.77Ebejico lambda56 1.10 1.06 0.01 0.03 0.77 3.93Frontino lambda57 4.15 2.05 0.03 1.16 3.80 9.13Giraldo lambda58 1.06 1.03 0.01 0.04 0.77 3.83Heliconia lambda59 1.09 1.05 0.02 0.03 0.78 3.90Liborina lambda60 0.11 0.37 0.01 0.00 0.00 1.11Olaya lambda61 0.11 0.32 0.00 0.00 0.00 1.02Peque lambda62 0.10 0.31 0.00 0.00 0.00 0.95Sabanalarga lambda63 0.11 0.31 0.00 0.00 0.00 1.04SanJeronimo lambda64 0.11 0.33 0.00 0.00 0.00 1.06SantaFe lambda65 1.10 1.05 0.01 0.04 0.80 3.98Sopetran lambda66 0.11 0.35 0.01 0.00 0.00 1.07Uramita lambda67 0.11 0.32 0.00 0.00 0.00 1.08Abejorral lambda68 4.11 2.02 0.03 1.14 3.76 8.88Alejandrıa lambda69 1.13 1.09 0.02 0.04 0.82 4.10Argelia lambda70 0.11 0.33 0.00 0.00 0.00 1.04Carmen lambda71 0.10 0.31 0.01 0.00 0.00 1.01Cocorna lambda72 0.11 0.34 0.00 0.00 0.00 1.08Concepcion lambda73 1.09 1.05 0.01 0.04 0.76 3.91El Penol lambda74 0.11 0.33 0.00 0.00 0.00 1.05El Retiro lambda75 0.11 0.32 0.00 0.00 0.00 1.03El Santuario lambda76 0.10 0.33 0.00 0.00 0.00 1.01Granada lambda77 0.10 0.30 0.00 0.00 0.00 0.97Guarne lambda78 0.11 0.34 0.01 0.00 0.00 1.14Guatape lambda79 1.10 1.04 0.01 0.04 0.80 3.81La Ceja lambda80 0.10 0.33 0.01 0.00 0.00 1.02La Union lambda81 1.10 1.05 0.02 0.04 0.77 3.88Marinilla lambda82 1.10 1.02 0.01 0.04 0.80 3.74Narino lambda83 0.11 0.32 0.00 0.00 0.00 0.96Rionegro lambda84 1.11 1.07 0.01 0.04 0.79 4.00San Carlos lambda85 9.13 3.01 0.04 4.20 8.81 15.79SanFrancisco lambda86 3.10 1.77 0.02 0.65 2.76 7.44San Luis lambda87 6.09 2.44 0.03 2.23 5.78 11.65San Rafael lambda88 8.13 2.79 0.04 3.53 7.82 14.29San Vicente lambda89 0.10 0.30 0.00 0.00 0.00 0.96Sonson lambda90 3.14 1.75 0.03 0.69 2.81 7.42

Page 193: 14172970 bayesilibro

186 CAPITULO 16. DATOS

Nodo Media sd Error MC 2.5 % Mediana 97.5 %Amaga lambda91 1.11 1.05 0.01 0.04 0.81 3.95Andes lambda92 20.10 4.50 0.06 12.26 19.73 29.91Angelopolis lambda93 1.11 1.07 0.02 0.04 0.79 3.94Betania lambda94 4.06 2.02 0.03 1.15 3.73 8.97Betulia lambda95 1.12 1.08 0.02 0.04 0.79 4.02Caicedo lambda96 0.11 0.33 0.00 0.00 0.00 1.08Caramanta lambda97 1.10 1.02 0.01 0.04 0.79 3.81CiudadBoliva lambda98 14.97 3.86 0.05 8.41 14.56 23.72Concordia lambda99 9.08 3.02 0.04 4.15 8.71 15.90Fredonia lambda100 3.15 1.80 0.02 0.70 2.83 7.59Hispania lambda101 0.10 0.31 0.00 0.00 0.00 1.04Jardın lambda102 1.11 1.05 0.02 0.04 0.80 3.90Jerico lambda103 1.11 1.08 0.02 0.03 0.79 3.98Montebello lambda104 1.11 1.05 0.01 0.04 0.80 3.91Pueblorico lambda105 2.13 1.47 0.02 0.28 1.79 5.90Salgar lambda106 1.12 1.06 0.01 0.04 0.80 3.98Santabarbara lambda107 3.10 1.77 0.02 0.65 2.78 7.51Tamesis lambda108 3.09 1.75 0.02 0.67 2.76 7.37Tarso lambda109 0.11 0.32 0.00 0.00 0.00 1.05Titiribı lambda110 4.09 2.01 0.03 1.18 3.80 8.81Urrao lambda111 2.12 1.47 0.02 0.28 1.80 5.89Valparaiso lambda112 2.11 1.46 0.02 0.29 1.77 5.84Venecia lambda113 0.10 0.31 0.00 0.00 0.00 0.99Apartado lambda114 92.02 9.54 0.14 74.17 91.59 112.00Arboletes lambda115 9.13 3.02 0.04 4.20 8.80 15.87Carepa lambda116 10.19 3.16 0.04 5.02 9.83 17.34Chigorodo lambda117 23.11 4.82 0.07 14.81 22.72 33.81Murindo lambda118 3.14 1.77 0.03 0.66 2.81 7.44Mutata lambda119 14.15 3.87 0.05 7.66 13.77 22.50Necoclı lambda120 16.06 4.11 0.05 9.08 15.78 25.07SanJuandeU lambda121 20.05 4.50 0.07 12.32 19.71 29.88SanPedrodeU lambda122 21.17 4.58 0.07 13.15 20.82 31.20Turbo lambda123 14.04 3.77 0.05 7.66 13.70 22.36VigiadelFuer lambda124 12.16 3.48 0.04 6.25 11.88 19.79

Page 194: 14172970 bayesilibro

16.2. MORDEDURAS 187

model

for (i in 1 : N)

theta[i] ~ dgamma(alpha, beta)

lambda[i] <- theta[i] * Pobtotal[i]*(Altmar[i]/100)

Mordeduras[i] ~ dpois(lambda[i])

teta[i]<-theta[i]*100000

alpha ~ dexp(1)

beta ~ dgamma(0.1, 1.0)

node mean sd MC error 2.5% median 97.5% start sample

lambda[1] 53.03 7.241 0.09261 39.91 52.69 68.13 1 5000

lambda[2] 7.052 2.665 0.04464 2.849 6.716 13.28 1 5000

lambda[3] 3.094 1.777 0.02617 0.6535 2.741 7.383 1 5000

lambda[4] 0.07402 0.2759 0.004382 9.608E-24 6.094E-5 0.8044 1

5000

lambda[5] 0.08192 0.3079 0.0043 3.432E-21 7.282E-5 0.8738 1 5000

lambda[6] 9.107 2.994 0.04055 4.152 8.762 15.9 1 5000

lambda[7] 0.08353 0.2893 0.003992 1.857E-22 7.136E-5 0.8809 1

5000

lambda[8] 1.069 1.05 0.01658 0.02902 0.7583 3.936 1 5000

lambda[9] 5.074 2.234 0.0295 1.661 4.764 10.18 1 5000

lambda[10] 0.06699 0.2495 0.003299 1.771E-21 6.889E-5 0.7058 1

5000

lambda[11] 19.12 4.435 0.05866 11.25 18.83 28.52 1 5000

lambda[12] 30.19 5.598 0.08223 20.3 29.8 42.2 1 5000

lambda[13] 15.03 3.833 0.04774 8.426 14.77 23.49 1 5000

lambda[14] 6.075 2.495 0.0309 2.28 5.666 11.86 1 5000

lambda[15] 9.032 2.939 0.04386 4.197 8.692 15.64 1 5000

lambda[16] 12.09 3.512 0.05112 6.324 11.71 19.95 1 5000

lambda[17] 6.047 2.42 0.03264 2.271 5.705 11.71 1 5000

lambda[18] 2.068 1.454 0.018 0.2716 1.731 5.608 1 5000

lambda[19] 18.12 4.269 0.0568 10.69 17.73 27.32 1 5000

lambda[20] 4.093 2.045 0.03054 1.162 3.746 9.056 1 5000

lambda[21] 4.079 2.011 0.02591 1.137 3.762 8.733 1 5000

lambda[22] 5.097 2.304 0.03559 1.705 4.72 10.52 1 5000

lambda[23] 9.071 3.02 0.03732 4.103 8.78 15.88 1 5000

lambda[24] 6.08 2.435 0.04095 2.333 5.757 11.72 1 5000

lambda[25] 5.077 2.284 0.0332 1.642 4.773 10.38 1 5000

lambda[26] 4.077 2.017 0.02748 1.1 3.745 8.931 1 5000

Page 195: 14172970 bayesilibro

188 CAPITULO 16. DATOS

lambda[27] 6.116 2.443 0.03142 2.336 5.791 11.73 1 5000

lambda[28] 0.0789 0.2883 0.004118 7.216E-22 8.602E-5 0.7831 1

5000

lambda[29] 4.117 2.041 0.02373 1.154 3.756 8.95 1 5000

lambda[30] 10.02 3.121 0.04378 4.844 9.675 16.96 1 5000

lambda[31] 5.145 2.321 0.03423 1.616 4.807 10.31 1 5000

lambda[32] 7.107 2.724 0.04073 2.818 6.753 13.34 1 5000

lambda[33] 0.07554 0.2875 0.004205 8.838E-22 6.443E-5 0.754 1

5000

lambda[34] 0.0789 0.2817 0.003871 8.547E-23 4.837E-5 0.8684 1

5000

lambda[35] 0.07877 0.2864 0.004999 2.178E-22 8.402E-5 0.8483 1

5000

lambda[36] 0.0758 0.2822 0.00392 1.811E-21 7.411E-5 0.7938 1 5000

lambda[37] 0.08195 0.2958 0.003544 7.509E-23 5.694E-5 0.8381 1

5000

lambda[38] 0.0784 0.2692 0.003774 5.428E-22 5.641E-5 0.874 1 5000

lambda[39] 0.08153 0.2897 0.004601 1.758E-22 7.56E-5 0.856 1 5000

lambda[40] 0.07734 0.2704 0.003584 7.124E-22 7.285E-5 0.8078 1

5000

lambda[41] 1.085 1.057 0.01576 0.03266 0.7706 3.914 1 5000

lambda[42] 0.07694 0.2726 0.003719 1.257E-22 5.391E-5 0.8538 1

5000

lambda[43] 0.07124 0.2622 0.003987 1.399E-21 6.008E-5 0.768 1

5000

lambda[44] 0.0782 0.2748 0.003923 2.125E-22 6.923E-5 0.8279 1

5000

lambda[45] 0.08277 0.3061 0.003693 2.017E-22 7.229E-5 0.8465 1

5000

lambda[46] 1.083 1.059 0.01376 0.03416 0.7698 3.913 1 5000

lambda[47] 0.08648 0.3097 0.004438 1.709E-21 9.223E-5 0.9128 1

5000

lambda[48] 3.058 1.759 0.02469 0.612 2.735 7.415 1 5000

lambda[49] 14.01 3.737 0.05099 7.678 13.63 22.24 1 5000

lambda[50] 0.08037 0.2856 0.004087 4.47E-22 7.323E-5 0.8229 1

5000

lambda[51] 1.095 1.029 0.0151 0.03307 0.7896 3.815 1 5000

lambda[52] 1.079 1.039 0.01499 0.03386 0.769 3.926 1 5000

lambda[53] 0.0762 0.2742 0.003709 4.095E-23 8.479E-5 0.8269 1

5000

lambda[54] 0.07597 0.2809 0.00423 3.3E-22 5.897E-5 0.799 1 5000

lambda[55] 4.129 2.077 0.0295 1.074 3.787 9.077 1 5000

lambda[56] 1.093 1.087 0.01427 0.03438 0.7534 4.058 1 5000

lambda[57] 4.114 1.987 0.02958 1.135 3.818 9.022 1 5000

lambda[58] 1.079 1.021 0.01519 0.03359 0.7803 3.775 1 5000

lambda[59] 1.064 1.018 0.01496 0.03462 0.758 3.899 1 5000

Page 196: 14172970 bayesilibro

16.2. MORDEDURAS 189

lambda[60] 0.08235 0.3011 0.003619 3.601E-23 6.842E-5 0.8848 1

5000

lambda[61] 0.0775 0.2853 0.004069 1.487E-21 7.352E-5 0.7855 1

5000

lambda[62] 0.08216 0.2873 0.003806 5.827E-22 6.571E-5 0.9228 1

5000

lambda[63] 0.08205 0.2959 0.004378 4.16E-23 8.182E-5 0.8801 1

5000

lambda[64] 0.07201 0.2526 0.003375 1.901E-22 4.899E-5 0.7652 1

5000

lambda[65] 1.105 1.051 0.01229 0.03788 0.8012 3.822 1 5000

lambda[66] 0.07128 0.2464 0.003885 3.167E-21 7.952E-5 0.7239 1

5000

lambda[67] 0.0768 0.2689 0.003468 4.271E-22 6.449E-5 0.8381 1

5000

lambda[68] 4.085 2.028 0.03023 1.076 3.718 9.03 1 5000

lambda[69] 1.113 1.055 0.01753 0.0358 0.7935 3.947 1 5000

lambda[70] 0.0768 0.2712 0.004029 1.164E-22 7.004E-5 0.8518 1

5000

lambda[71] 0.07867 0.2861 0.003637 1.911E-22 6.057E-5 0.8364 1

5000

lambda[72] 0.07617 0.2941 0.004111 1.302E-23 6.724E-5 0.818 1

5000

lambda[73] 1.079 1.034 0.01453 0.03872 0.7678 3.835 1 5000

lambda[74] 0.07988 0.2934 0.004182 2.523E-22 6.411E-5 0.7765 1

5000

lambda[75] 0.07835 0.272 0.004159 1.38E-21 5.284E-5 0.8198 1 5000

lambda[76] 0.08152 0.2935 0.004115 7.421E-22 7.738E-5 0.8421 1

5000

lambda[77] 0.0806 0.2857 0.003497 1.009E-21 6.956E-5 0.895 1 5000

lambda[78] 0.07667 0.2949 0.004757 5.751E-22 7.048E-5 0.7752 1

5000

lambda[79] 1.08 1.016 0.0147 0.03593 0.7874 3.828 1 5000

lambda[80] 0.07716 0.2821 0.004974 2.373E-22 4.993E-5 0.8431 1

5000

lambda[81] 1.082 1.041 0.01501 0.03768 0.7619 3.866 1 5000

lambda[82] 1.068 1.025 0.01446 0.0322 0.7748 3.812 1 5000

lambda[83] 0.07511 0.2648 0.003769 5.871E-22 7.259E-5 0.7795 1

5000

lambda[84] 1.089 1.045 0.01522 0.03101 0.771 3.867 1 5000

lambda[85] 9.044 3.032 0.04301 4.149 8.708 15.72 1 5000

lambda[86] 3.049 1.721 0.0224 0.5996 2.763 7.175 1 5000

lambda[87] 6.098 2.486 0.03787 2.229 5.762 11.94 1 5000

lambda[88] 8.075 2.84 0.03865 3.608 7.744 14.52 1 5000

lambda[89] 0.08425 0.2936 0.00355 4.506E-22 7.203E-5 0.9182 1

5000

Page 197: 14172970 bayesilibro

190 CAPITULO 16. DATOS

lambda[90] 3.06 1.73 0.02409 0.6606 2.75 7.187 1 5000

lambda[91] 1.053 1.012 0.01277 0.03698 0.7564 3.758 1 5000

lambda[92] 20.2 4.405 0.06343 12.64 19.9 29.65 1 5000

lambda[93] 1.077 1.067 0.01605 0.03322 0.7641 4.054 1 5000

lambda[94] 4.089 2.067 0.02901 1.143 3.755 9.122 1 5000

lambda[95] 1.065 1.047 0.0138 0.03252 0.759 3.794 1 5000

lambda[96] 0.07711 0.2641 0.004211 2.438E-22 7.472E-5 0.8265 1

5000

lambda[97] 1.048 0.9955 0.01642 0.03126 0.764 3.665 1 5000

lambda[98] 15.15 3.897 0.04886 8.598 14.83 23.71 1 5000

lambda[99] 9.091 3.035 0.03871 4.173 8.744 15.92 1 5000

lambda[100] 3.104 1.747 0.02434 0.674 2.766 7.297 1 5000

lambda[101] 0.07939 0.2735 0.003878 3.799E-22 6.593E-5 0.8455

1 5000

lambda[102] 1.082 1.042 0.01299 0.03363 0.7693 3.912 1 5000

lambda[103] 1.08 1.061 0.01311 0.03771 0.7678 3.807 1 5000

lambda[104] 1.081 1.033 0.01733 0.03428 0.7604 3.915 1 5000

lambda[105] 2.075 1.433 0.01971 0.2586 1.76 5.689 1 5000

lambda[106] 1.061 1.031 0.01384 0.03161 0.7486 3.79 1 5000

lambda[107] 3.081 1.748 0.02439 0.6572 2.761 7.348 1 5000

lambda[108] 3.076 1.729 0.02423 0.6516 2.773 7.313 1 5000

lambda[109] 0.08055 0.2973 0.004679 5.583E-21 5.813E-5 0.8773

1 5000

lambda[110] 4.094 2.042 0.02423 1.113 3.76 8.983 1 5000

lambda[111] 2.078 1.44 0.01807 0.2793 1.756 5.752 1 5000

lambda[112] 2.08 1.458 0.02329 0.2699 1.732 5.815 1 5000

lambda[113] 0.07155 0.2618 0.003964 8.995E-22 6.65E-5 0.7333 1

5000

lambda[114] 92.05 9.575 0.1342 74.13 91.85 111.5 1 5000

lambda[115] 9.089 3.056 0.04152 4.127 8.739 16.05 1 5000

lambda[116] 10.05 3.166 0.04356 4.968 9.713 17.17 1 5000

lambda[117] 23.06 4.823 0.07329 14.8 22.64 33.43 1 5000

lambda[118] 3.013 1.739 0.02421 0.6613 2.714 7.306 1 5000

lambda[119] 14.12 3.772 0.0579 7.755 13.78 22.47 1 5000

lambda[120] 15.99 4.049 0.05373 9.127 15.61 25.05 1 5000

lambda[121] 19.71 4.414 0.05738 12.01 19.46 29.11 1 5000

lambda[122] 21.11 4.552 0.07237 13.1 20.77 30.94 1 5000

lambda[123] 14.06 3.827 0.05345 7.607 13.76 22.55 1 5000

lambda[124] 12.08 3.453 0.05161 6.169 11.81 19.82 1 5000

Page 198: 14172970 bayesilibro

Capıtulo 17Probabilidad Subjetiva:

Fundamentos

17.1. Verosimilitud Relativa

Consideremos un espacio muestral S asociado con con un σ-campo1 de eventosA, y suponga que deseamos asignar una probabilidad a cada evento en A. Unconcepto fundamental es un evento es al menos tan posible de ocurrir como otroevento.

Definicion 17.1 Cuando dos eventos A y B son comparados podemos decir:

Que A sea mas posible de ocurrir que B, denotado por A ≻ B.

Que A sea igualmente posible de ocurrir que B, denotado por A ∼ B.

Que A sea menos posible de ocurrir que B, denotado por A ≺ B.

Que A sea a lo mas tan posible de ocurrir como B, denotado por A≺∼ B.

Que A sea a lo menos tan posible de ocurrir como B, denotado por A≻∼ B.

Ya que la probabilidad de un evento es una medida numerica de la verosimilitudde que un evento ocurra, cualquier distribucion de probabilidad P que se asignea los eventos en el σ-campo de eventos A debe tener la propiedad siguiente:

P (A) ≤ P (B) si y solo si A≺∼ B. Una distribucion P que tiene esta propiedad

se dice que concuerda con la relacion≺∼.

1Un σ-campo, o σ-algebra, es una clase no vacıa de subconjuntos de S que es cerrada bajola formacion de uniones contables y el complemento y ademas contiene el ∅

191

Page 199: 14172970 bayesilibro

192 CAPITULO 17. PROBABILIDAD SUBJETIVA: FUNDAMENTOS

Supuesto 1 Para dos eventos cualesquiera A y B, exactamente una de lassiguientes relaciones debe cumplirse:

A ≻ B,

A ≺ B, o

A ∼ B.

Supuesto 2 Si A1, A2, B1 y B2 son cuatro eventos tales que A1

⋂A2 =

B1

⋂B2 = ∅ y Ai

≺∼ Bi para i = 1, 2, entonces A1

⋃A2

≺∼ B1

⋃B2. Si en

adicion, A1 ≻ B1 o A2 ≻ B2, entonces A1

⋃A2 ≺ B1

⋃B2.

Resultado 1 Suponga que A, B y D son eventos tales que A⋂D = B

⋂D = ∅.

Entonces A≺∼ B si y solo si A

⋃D

≺∼ B⋃D.

Prueba: Suponga que A≺∼ B. Entonces el resultado sigue del supuesto 2.

Contrariamente, suponga que A ≻ B. Entonces, de nuevo por el supuesto 2,A⋃D ≺ B

⋃D.

Teorema 17.1 Si A, B y D son eventos tales que A≺∼ B y B

≺∼ D, entonces

A≺∼ D

Prueba: Es facil ver que A⋃B⋃D se puede expresar como

(A⋂B⋂D)⋃(

A⋂BC

⋂DC)⋃(

AC⋂B⋂DC)⋃(

AC⋂BC

⋂D)

⋃(A⋂B⋂DC)⋃ (

A⋂BC

⋂D)⋃ (

AC⋂B⋂D)

Ya que A≺∼ B, sigue del Resultado 1 que

(A⋂BC

⋂DC)⋃(

A⋂BC

⋂D)

≺∼(AC

⋂B⋂DC)⋃(

AC⋂B⋂D)

Similarmente, ya que B≺∼ D, sigue del Resultado 1 que

(A⋂B⋂DC)⋃(

AC⋂B⋂DC)

≺∼(A⋂BC

⋂D)⋃(

AC⋂BC

⋂D).

Ya que los lados izquierdos de las dos ultimas expresiones son disjuntas y loslados derechos tambien son disjuntos, se sigue del supuesto 2 que

(A⋂BC

⋂DC)⋃(

A⋂BC

⋂D)⋃(

A⋂B⋂DC)⋃(

AC⋂B⋂DC)

≺∼(AC

⋂B⋂DC)⋃(

AC⋂B⋂D)⋃(

A⋂BC

⋂D)⋃(

AC⋂BC

⋂D)

Page 200: 14172970 bayesilibro

17.2. EL EXPERIMENTO AUXILIAR 193

Si el evento comun(A⋂BC

⋂D)⋃ (

AC⋂BC

⋂D)

es eliminado de amboslados de esta relacion, se sigue del resultado 1 que(A⋂BC

⋂DC)⋃(

A⋂B⋂DC)

≺∼(AC

⋂B⋂D)⋃(

AC⋂BC

⋂D)

De donde A≺∼ D.

Del teorema anterior y del supuesto 1 vemos que la relacion≺∼ produce una

ordenacion completa de los eventos en A.

Teorema 17.2 Si A1, · · · , An son n eventos disjuntos y B1, · · · , Bn tambien son

n eventos disjuntos tales que Ai≺∼ Bi, para i = 1, · · · , n, entonces

⋃ni=1Ai

≺∼⋃ni=1Bi. Si en adicion Ai ≺ Bi, para algun i = 1, · · · , n, entonces

⋃ni=1Ai ≺⋃n

i=1Bi.

Teorema 17.3 Para cualquier par de eventos A y B, A≺∼ B si y solo si AC

≻∼BC

Supuesto 3 Si A es cualquier evento, entonces ∅ ≺∼ A. Ademas, ∅ ≺∼ S.

Teorema 17.4 Si A y B son eventos tales que A ⊂ B, entonces A≺∼ B. En

particular, si A es un evento cualquiera, entonces ∅ ≺∼ A≺∼ S.

Supuesto 4 Si A1 ⊃ A2 ⊃ · · · es una sucesion decreciente de eventos y B es

algun evento fijo tal que Ai≻∼ B para i = 1, 2, · · ·, entonces

⋂∞i=1Ai

≻∼ B

Teorema 17.5 Si A1 ⊂ A2 ⊂ · · · es una sucesion creciente de eventos y B es

algun evento fijo tal que Ai≺∼ B para i = 1, 2, · · ·, entonces

⋃∞i=1Ai

≺∼ B

Teorema 17.6 Si A1, A2, · · · es una sucesion de eventos infinita y B1, B2, · · ·es otra sucesion de eventos infinita tal que Ai

≺∼ B para i = 1, 2, · · ·, entonces⋃∞i=1Ai

≺∼ ⋃∞i=1Bi. Si en adicion, Ai ≺ B para algun i = 1, 2, · · ·, entonces⋃∞

i=1Ai ≺⋃∞i=1Bi.

17.2. El Experimento Auxiliar

Asumimos que existe una clase B de eventos que tienen las siguientes dospropiedades:

a) Cada evento en la clase B tiene una probabilidad conocida, y

b) para cualquier numero p (0 ≤ p ≤ 1), existe un evento B ∈ B cuyaprobabilidad es p.

Si es estadıstico esta interesado en asignar una probabilidad a un evento A enel cual esta interesado, simplemente busca un evento B ∈ B tal que A ∼ B y leasigna a A la misma probabilidad que a B.

Page 201: 14172970 bayesilibro

194 CAPITULO 17. PROBABILIDAD SUBJETIVA: FUNDAMENTOS

Page 202: 14172970 bayesilibro

Capıtulo 18Referencias

Albert, J. (1997) MATLAB as an Enviroment for Bayesian Compu-tation. Dept. of Math. and Statistics. Bowling Green State Univer-sity

Albert, J. y Chib, S, (1994) Bayesian Residual Analysis for BinaryResponse Regression Models. Dept. of Math. and Statistics. BowlingGreen State University

Berger, J. O. (1999) Bayesian Analysis: A Look at Today and Thoughtsof Tomorrow. Technical Report, Duke University.

Berger, J. O., Liseo, B. y Wolpert, R. L. (1998) Integrated LikelihoodMethods for Eliminating Nuisance Parameters. Purdue Univ. Dept.of Statistics Technical Report No. 96-7C Revised 1998.

Bracken, J. (1966) Percentage Points of the Beta Distribution for theUse in Bayesian Analysis of Bernoulli Processes. Technometrics, Vol.8, No. 4, pp. 687-694

Brooks, S. P., Catchpole, E. A. y Morgan, B. J. T. (199*) BayesianAnimal Survival Estimation. School of Mathematics, University ofBristol.

Casella, G. (1985) An Introduction to Empirical Bayes Data Anal-ysis. The American Statistician, Vol. 39, No. 2, pp. 83-87

Casella, G. y George, E. I. (1992) Explaining the Gibbs Sampler.The American Statistician, Vol. 46, No.3, pp. 167-174

Casella, G., Lavine, M. y Robert, C. P. (2001) Explaining the PerfectSampler. The American Statistician, Vol. 55, No.4, pp. 299-305

195

Page 203: 14172970 bayesilibro

196 CAPITULO 18. REFERENCIAS

D’Agostini, G. (2000) Role and Meaning of Subjective Probabili-ty: Some Comments on Common Misconceptions. XX InternationalWorkshop on Bayesian Inference and Maximum Entropy Methodsin Science and Engineering, Gif sur Yvette, Francia.

Dawid, A. P. (2004) Probability, Causality and the Empirical World:A Bayes-de Finetti-Popper-Borel Sythesis. Statistical Science, Vol.19, No. 1, pp. 44-57

DeGroot, M. H. (1970) Optimal Statistical Decisions. McGraw Hill,In.: New York

De Santis, F. y Spezzaferri, F. (1999) Methods for Default and robustBayesian Model Comparison: the Fractional Bayes Factor Approach.International Statistical Review, Vol. 67, No. 3, pp. 267-286

Dellaportas, P. y Smith, A. F. M. (1993) Bayesian Inference for Gen-eralized Linear and Proportional Hazards Models via Gibbs Sam-pling. Applied Statistics, Vol. 42, No. 3, pp. 443-459

Dimakos, X. K. (2001) A Guide to Exact Simulation. InternationalStatistical Review, Vol. 69, No. 1, pp. 27-48

Draper, D. (2000) Bayesian Hierarchical Modeling. Tutorial 1: ISBA2000, Crete.

DuMouchel, W. y Waternaux, C. (1995) Hierarchical Bayesian Lin-ear Models Assessing the Effect of Extreme Cold Weather on SchizophrenicBirths. Bayesian Biostatistics (D. Berry y D. Stangl, Eds.) MarcelDekker: New York

Elfessi, A. y Reineke, D. M. (2001) A Bayesian Look at ClassicalEstimation: The Exponential Distribution. Journal of Statistics Ed-ucation, Vol. 9, No. 1

Green, P. (1998) Tutorial Lectures on Markov Chain Monte Carlo.WRASS Tutorial and Workshop, Warwick.

Greenland, S. (2001) Putting Background Information About Rela-tive Risks into Conjugate Prior Distributions. Biometrics, Vol. 57,No. 3, pp. 663-670

Gupta, P. L., Gupta, R. C. y Tripathi, R. C. (1996) Analysis of Zero-Adjusted Count Data. Computational Statistics & Data Analysis,Vol. 23, pp. 207-218

Gustafson, P. y Walker, L. J. (200*) An Estension of the DirichletPrior for the Analysis of Longitudinal Multinomial Data. TechnicalReport, Dept. of Statistics, University of British Columbia

Page 204: 14172970 bayesilibro

197

Harrel Jr., F. E. (1998) An Introduction to Bayesian Methods withClinical Applications. Dept. of Health Evaluation Sciences. Schoolof Medicine, University of Virginia, Charlottesville.

Harrel Jr., F. E. (2000) Practical Bayesian Data Analysis from aFormer Frequentist. Henry Stewart Conference Studies

Hoadley, B. (1970) A Bayesian Look at Inverse Linear Regression.Journal of the American Statistical Association, Vol. 65, No. 329,pp. 356-369

Horowitz, I. 81968) Introduccion al Analisis Cuantitativo de los Ne-gocios. Ediciones del Castillo: Madrid

Ishwaran, H. (1997) Applications of Hybrid Monte Carlo to BayesianGeneralized Linear Models: Quasicomplete Separation and NeuralNetworks. Dept. of Biostatistics and Epidemiology, The ClevelandClinic Foundation

Jackman, S. (199*) Bayesian Modelin in the Social Sciences: an In-troduction to Markov-Chain Monte Carlo. Technical Report, Dept.of Political Science, Stanford University.

Jaynes, E. T. (1996) Probability Theory: The Logic of Science. Edi-cion fragmentaria.

Jefferys, W. H. y Berger, J. O. (1992) Ockham’s Razor and BayesianAnalysis. American Scientist, Vol. 80, pp. 64-72

Joseph, L., du Berger, R. y Belisle, P. (1999) Bayesian and MixedBayesian/Likelihood Criteria for Sample Size Determination. Tech.Report, Dept. of Epidemiology and Biostatistics, McGill University

Kass, R. E. y Wasserman, L. (1994) Formal Rules for Selecting Pri-or Distributions: A Review and Annotated Bibliography. ReporteTecnico. Carnegie Mellon University.

King, R. y Brooks, S. P. (2000) Prior Induction in Log-Linear Mod-els for General Contingency Table Analysis. Statistical Laborato-ry,CMS, University of Cambridge.

Koop, G. (1999) Review of: Bayesian Analysis, Computation andCommunication Software. Techinical Report, Dept. of Economics,University of Edinburgh.

Loredo, T. (199*) Bayesian Inference: A Practical Primer.Dept. ofAstronomy,Cornell University

Martz, H. F. y Waller, R. A. (1982) Bayesian Reliability Analysis.Wiley: New York

Page 205: 14172970 bayesilibro

198 CAPITULO 18. REFERENCIAS

Miller, R. B. (1980) Bayesian Analysis of the Two-Parameter Gam-ma Distribution. Technometrics, Vol. 22, No. 1, pp. 65-69

Miller, R. W. (1989) Parametric Empirical Bayes Tolerance Inter-vals. Technometrics, Vol. 31, No. 4, pp. 449-459

Oakley, J. y O’Hagan, A. (2002) Uncertainty in Prior Elicitations.Department of Probability and Statistics, University of Sheffield.

Raftery, A. E. (1994) Bayesian Model Selection in Social Research(with Discussion by Andrew Gelman & Donald B. Rubin, and RobertM. Hauser, and a Rejoinder). Technical Report, Dept. of Sociology,Universityof Washington

Raftery, A. E. y Lewis, S. (1991) How Many Iterations in the GibbsSampler? Technical Report, Dept. of Statistics, University of Wash-ington

Raiffa, H. (1970). Decision Analysis: Introductory Lectures on ChoiceUnder Uncertainty. Addison-Wesley: Reading, Masschusetts

Ramoni, M. y Sebastiani, P. (1998) Bayesian Methods for IntelligentData Analysis. KMi Technical Report KMi-TR-67

Ritter, C. y Tanner, M. (1991) The Griddy Gibbs Sampler. ReporteTecnico No. 878, Departament of Statistics, University of Wisconsin

Rossman, A. J., Short, T. H. y Parks, M. T. (1998) Bayes Esti-mators for Continuous Uniform Distribution. Journal of StatisticsEducation, Vol. 6, No. 3

Sahu, S. K. (2000) Bayesian Statistics. Lecture Notes, Faculty ofMathematical Studies, University of Southhampton.

Smith, R. (1997) Predictive Inference, Rare Events and HierarchicalModels. Technical Report, Dept. of. Statistics, University of NorthCarolina, Chapel Hill

Smith, R. L. (1998) Bayesian and Frequentist Approaches to Para-metric Predictive Inference. Bayesian Statistics, Vol. 6

Stangl, D. K. (2001) A Primer On Hierarchical Models. Stats, 32Fall, pp. 3-9

Tebaldi, C. y West, M. (1998) Reconstruction of Contingency TablesWith Missing Data. ISDS, Duke University

Troendle, J. F. y Frank, J. (2001) Unbiased Confidence Intervals forthe Odds Ratio of Two Independent Binomial Samples with Appli-cation to Case-Control Data. Biometrics, Vol. 57, No. 2, pp. 484-489

Page 206: 14172970 bayesilibro

199

Varbanov, A. (1996) Bayesian Approach to Outlier Detection in Mul-tivariate Normal Samples and Linear Models. Technical Report No.614, School of Statistics, University of Minnesota

Winkler, R. L. (1967a) The Assessment of Prior Distributions inBayesian Analysis. Journal of the American Statistical Association,Vol. 62, No. 319, pp. 776-800

Winkler, R. L. (1967b) The Quantification of Judgement: SomeMethodological Suggestions. Journal of the American Statistical As-sociation, Vol. 62, No. 320, pp. 1105-1120

Yang, R. y Berger, J. O. (1998) A Catalog of Noninformative Priors.Technical Report, Duke University.

Bromaghin, J.F. (1993) Sample Size Determination for Interval Es-timation of Multinomial Probabilities. The American Statistician,Vol. 47, No. 3, pp. 203-206

Johnson, N.L. y Kotz, S. (1969) Discrete Distributions. John Wiley& Sons: New York

Jovanovic, B.D. y Levy, P.S. (1997) A Look at the Rule of Three.The American Statistician. Vol. 51, No. 2, pp. 137-139

May, W.L. y Johnson, W.D. (2000) Constructing Two-Sided Simul-taneous Confidence Intervals for Multinomial Proportions for SmallCounts in a Large Number of Cells. Journal of Statistical Software,Vol. 5

Sison, C.P. y Glaz, J. (1995) Simultaneous Confidence Intervals andsample Size Determination for Multinomial Proportions. Journal ofthe American Statistical Association, Vol. 90, No. 429, pp. 366-369

Kalbfleish, J.G. (1985). Probability and Statistical Inference. Vol. 2.Segunda edicion. Springer-Verlag: New York

Leemis, L.M. y Trivedi, K.S. (1996) A Comparison of ApproximateInterval Estimators for the Binomial Parameter. The American Statis-tician. Vol. 50, No. 1, pp. 63-68

Schader, M. y Schmid, F. (1989). Two Rules of Thumb for the Ap-proximation of the Binomial Distribution by the Normal Distribu-tion. The American Statistician. Vol. 43, No. 1, pp. 23-24

Wardell, D.G. (1997) Small-Sample Interval Estimation of Bernoulliand Poisson Parameters. The American Statistician. Vol. 51, No. 4,pp. 321-325

Canavos, G. (1988).Probabilidad y Estadıstica: Aplicaciones y Meto-dos. McGraw Hill: Madrid

Page 207: 14172970 bayesilibro

200 CAPITULO 18. REFERENCIAS

Hogg, R.V. y Craig, A.T. (1978). Introduction to Mathematical Statis-tics. Cuarta Edicion. Collier MacMillan International:New York

Kalbfleish, J.G. (1985). Probability and Statistical Inference. Vol. 2.Segunda edicion. Springer-Verlag: New York

Larson, H.J. (1983). Introduccion a la Teorıa de Probabilidades eInferencia Estadıstica. Editorial Limusa: Mexico

Leemis, L.M. y Trivedi, K.S. (1996) A Comparison of ApproximateInterval Estimators for the Binomial Parameter. The American Statis-tician. Vol. 50, No. 1, pp. 63-68

Meyer, P.L. (1986). Probabilidad y aplicaciones estadısticas. SegundaEdicion. Addison Wesley Iberoamericana: Mexico.

Mood , A.M, Graybill, F.A. y Boes, D.C. (1974). Introduction to theTheory of Statistics. Third Edition. McGraw-Hill Kogasakua, Ltd:Tokyo.

Roussas, G.G. (1973). A First Course in Mathematical Statistics.Addison-Wesley Publishing Company: Reading, Massachusetts

Schader, M. y Schmid, F. (1989). Two Rules of Thumb for the Ap-proximation of the Binomial Distribution by the Normal Distribu-tion. The American Statistician. Vol. 43, No. 1, pp. 23-24

Snedecor, G.W. y Cochran, W.G. (1980). Statistical Methods. Septi-ma Edicion. The Iowa State University Press:Ames

Walpole, R.E. y Myers, R.H. (1992). Probabilidad y Estadıstica.Cuarta Edicion. MaGraw Hill: Mexico

Wardell, D.G. (1997) Small-Sample Interval Estimation of Bernoulliand Poisson Parameters. The American Statistician. Vol. 51, No. 4,pp. 321-325

Wonnacott, T.H. y Wonnacott, R.J. (1979). Fundamentos de Es-tadıstica para Administracion y Economıa. Editorial Limusa: Mexico