Algoritmo Em Martes

12
Algoritmo EM Esperanza – Maximización

Transcript of Algoritmo Em Martes

Page 1: Algoritmo Em Martes

Algoritmo EM

Esperanza – Maximización

Page 2: Algoritmo Em Martes

El algoritmo EM fue expuesto por Dempster, Laird y Rubín de la Royal Statistical Society en una publicación de 1977.

El algoritmo EM es una técnica iterativa para encontrar estimadores de máxima verosimilitud (EMV) de parámetros en modelos probabilísticos que dependen de variables no observables.

Se aplica en las áreas de medicina, biología, farmacología, agronomía y las ciencias humanas en general.

Introducción:

Page 3: Algoritmo Em Martes

Explicitas: Data Faltante. Distribuciones Truncadas. Observaciones Agrupadas.

Implícitas Efectos aleatorio. Mixturas. Convoluciones. Modelos Log – Lineales. Clases Latentes. Estructuras de Variables

Latentes.

¿Cuando se usa el algoritmo EM?

Page 4: Algoritmo Em Martes

Variables: : Vector con datos observados. : Vector de datos no observados. : Datos completos. La función de densidad de esta dado

por:

El logaritmo de la función verosimilitud de la data observada

Descripción del Algoritmo:

X

Page 5: Algoritmo Em Martes

Se trata de maximizar , pero como es desconocida, se estima con la esperanza matemática con respecto a los datos conocidos fijando valores iniciales para los parámetros.

Descripción del Algoritmo:

Page 6: Algoritmo Em Martes

Algoritmo Iniciar los parámetros en . Paso E: Calcula . Paso M: Encontrar del espacio tal que

maximiza . Repetir el paso E y M hasta alcanzar la

convergencia.

Descripción del Algoritmo:

Page 7: Algoritmo Em Martes

La distribución de probabilidad para una mescla es:

Donde es la función de la j-ésima mescla, es la probabilidad a priori, y c es el número de grupos o mesclas.

Y es una mescla de Por principio de verosimilitud, el mejor

modelo de datos es aquel que maximiza ,pero esta función no es fácil de maximizar numéricamente porque incluye el logaritmo de la suma, por ello

Aplicación: Mescla Gaussiana

1

( / ) ( , ), 1,2,3,...c

j j i jj

f Y f y i n

( ) :jf y

i1

1c

jj

.c Gaussianas multivariadas

( / )l Y

Page 8: Algoritmo Em Martes

La data completa estará dada por Maximizar es más sencillo que . Hallamos el logaritmo de la verosimilitud. Hallamos la estimación del valor esperado de las

variables ocultas a partir de los datos observados y la estimación de los parámetros.

Por lo tanto, la probabilidad de que la observación provenga del grupo j y se calcula por:

 

( / , )l Y Z ( / )l Y

Y

iy

1

( ; , )..........................................( )

( ; , )

i j i iij c

i j i ij

f x uI

f x u

{ , }X Y Z

Page 9: Algoritmo Em Martes

A partir del valor esperado de ,el nuevo conjunto de parámetros puede ser expresado por

El procedimiento para realizar el código en matlab:

1.- Determinar el número de grupos  o componente.2.- Determinar valores iniciales para los parámetros de cada

grupo. Es decir las probabilidades a priori, los vectores de medias y matrices de covarianza para cada una de las densidades normales.

Z

1

1

1

1

1.................................................( )

( )( ) '1

n

i ijj

nij j

ij i

nij j i j i

ij i

n

yu II

n

y u y u

n

Page 10: Algoritmo Em Martes

3.- Para cada datos , calcular la probabilidad, utilizando la ecuación dada en I.

4.- Se actualiza los coeficientes, las medias y las matrices de covarianza para las componentes individuales, con las ecuaciones dadas en II .

5.- Repita los pasos 3 y 4 hasta que la convergencia de las estimaciones.

Normalmente, el paso 5 se aplica al continuar la iteración, hasta que los cambios en las estimaciones en cada iteración son menos del límite de tolerancia prefijada. Tenga en cuenta que con el algoritmo iterativo EM, tenemos que utilizar el conjunto completo de datos para actualizar simultáneamente los parámetros estimados. Esto impone una alta carga computacional cuando se trata de conjuntos de datos masivos.

jx

Page 11: Algoritmo Em Martes

El algoritmo EM es una herramienta muy útil en problemas de estimación estadística, teniendo más ventajas que desventajas.

Es numéricamente estable con cada iteración EM, es decir, en cada iteración aumenta la verosimilitud (excepto llegados al punto de convergencia).

El algoritmo EM, a menudo, siempre alcanza la convergencia, en la mayoría de los casos en un máximo local, sin importar el valor inicial .

El algoritmo EM requiere poco espacio de almacenamiento y puede generalmente llevarse a cabo en un ordenador sencillo. Por ejemplo, no tiene que almacenar la matriz de información ni su inversa en ninguna iteración.

Conclusiones:

Page 12: Algoritmo Em Martes

El trabajo analítico requerido es mucho más simple que con otros métodos, puesto que solamente necesita ser maximizada la esperanza condicional del logaritmo de la función de verosimilitud para el problema de datos completo.

El coste por iteración es generalmente bajo, lo que puede compensar el mayor número de iteraciones necesitadas por el algoritmo EM comparado con otros procedimientos.

Desventajas: No tiene un procedimiento incluido para proporcionar una

estimación de la matriz de covarianza de las estimaciones de los parámetros.

Puede converger de forma desesperadamente lenta en problemas donde hay demasiada información incompleta.

Como los métodos tipo Newton, no garantiza convergencia al máximo global cuando hay múltiples máximos.

En algunos problemas, el paso-E puede ser analíticamente intratable, aunque en estas situaciones aún nos queda la posibilidad de efectuarlo mediante el método Monte Carlo

Conclusiones: