Tema 4 – Redes Bayesianas Introducción También Llamadas: –

8/14/2019 Tema 4 Redes Bayesianas Introduccin Tambin Llamadas:

1/35

Tema 4 Redes bayesianas

Introduccin

Tambin llamadas:

Redes de creencia

Redesprobabilsticas

Redes causales

Mapas deconocimiento


2/35

Introduccin

Estructura de datos para representacin de

conocimiento incierto Representa la dependencia entre

variables, y especifica en forma concisa ladistribucin de probabilidad conjunta

Representacin grfica

Introduccin

Generalmente es fcil para un experto deldominio especificar qu relaciones dedependencia condicional se dan

Determinar la topologa de la red Especificar las probabilidades condicionales

de los nodos con dependencia directas

Calcular cualquier otro valor de probabilidad


3/35

Introduccin

Cada nodo de la red representa una

variable aleatoria Un arco del nodo X al nodo Y, significaque la variable X tiene una influenciasobre Y

Cada nodo X tiene una tabla deprobabilidad condicional que cuantifica elefecto que los padres de X tienen sobre X.

Es un grafo dirigido acclico (GDA)

Introduccin

N Nacimientos

N habitantes

N Iglesias

N Cigueas

Relacin entre causalidad y correlacin ?Ej.: un estudio demostr que hay una fuerte correlacin entre elnmero de cigeas de una localidad y el nmero de nacimientos


4/35

Introduccin

Relacin entre causalidad ycorrelacin ?

Causalidad Correlacin

Introduccin

Sexo

Edad

Color Ojos

Estatura

Independencia

El sentido de la flecha indica Influencia causal

Dependencia causal (correlacin)


5/35

Introduccin

Ingresos Estatura

Dependencia entre un nodo padre y 2 hijos

Edad

Edad Estatura N Calzado

Dependencia causal de 3 nodos en cadena

Introduccin

Sexo

Dependencia entre 2 padres y 1 hijo

Edad

Estatura

Separacin direccional

(D-Separacin)


6/35

Semntica

Dos puntos de vista sobre una RB:

Como representacin de la distribucin deprobabilidad conjunta (DPC) til para entender cmo construir redes

Como representacin de un conjunto deaseveraciones de independenciacondicional til para disear procedimientos de inferencia

Ambos puntos de vista son equivalentes

Probabilidad condicional

X Y

P(X) P(Y |X)

P(y|x) + P(y|x) = 1

P( y|x) + P(y| x) = 1

0.3

0.99

0.7

0.01

V

F

P(y|X)P(y|X)X

P(y) = P(y|x)P(x) + P(y|x)P(x)

P(y) = P(y|x)P(x) + P(y|x)P(x)


7/35

Grafo conexos y polirboles

Grafo conexo: entre cualquier par de nodos hay

al menos un camino (una ruta no dirigida) A veces se distingue entre camino abierto y cerrado,

que corresponde a ciclos y bucles)

Grafo simplemente conexo o polirbol: entrecualquier par de nodos hay un nico camino

Grafo mltiplemente conexo: contiene bucles ociclos

rbol: polirbol en el que cada nodo tiene unsolo padre, menos el nodo raz que no tiene

Bucles y ciclos

A

D

CB

A

D

CB

A

D

CB

Bucle Bucle

Ciclo


8/35

Definiciones formales

Separacin direccional: Dado un GDA conexo

(V,E) y una distribucin de probabilidad sobresus variables, P, hay separacin direccional si: Dado XV, el conjunto de sus padres, pa(X), separa

condicionalmente a X de cualquier otro conjunto denodos Y que no tenga descendientes de X, de(X):

P(X|padres(X),Y) = P(X|padres(X))

XV, YV- {X U pa(X) U de(X)}

Definiciones formales

Red Bayesiana: (V,E,P) GDA ms distribucinde probabilidad sobre V, que cumple lapropiedad de separacin condicional

Ejemplo:

A

B C

P(a1,b1,c1)=0.084 P(a1,b1,c2)=0.036

P(a1,b2,c1)=0.126 P(a1,b2,c2)=0.054

P(a2,b1,c1)=0.084 P(a2,b1,c2)=0.336

P(a2,b2,c1)=0.056 P(a2,b2,c2)=0.224


9/35

Ejemplo

Temblor

Juan Llama

Robo

Alarma

Maria Llama

V

V

F

F

R

0.95

0.95

0.29

.001

V

F

V

F

P(A|R,T)T

P(T)=0.001 P(R)=0.002

0.900.05

VF

P(J)A

0.70

0.001

V

F

P(M)A

Probabilidades conjuntas

Una RB proporciona una descripcin completa deldominio

Cualquier elemento de P(X1,..Xn) de la DPC se

puede calcular a partir de la red

))x(Padres|x(P),..,xP(xn..1i

iin1 =

=


10/35

Construccin

P(x1,...,xn) = P(xn|xn-1,...,x1)P(xn-1,...,x1)

P(x1,...,x

n) = P(x

n|x

n-1,...,x

1)P(x

n-1|x

n-2,...,x

1)P(x

2|x

1)P(x

1)

P(Xi | Xi-1,...,X1) = P(Xi | Padres(Xi)),si Padres(Xi) { xi-1,...,x1}

Para satisfacer esa condicin Etiquetar los nodos deforma consistente con el orden parcial implcito en la RB.

=

=ni

iin ,..,xxxP),..,xP(x..1

111 )|(

Probabilidades conjuntas

Ejemplo: Probabilidad de que la Alarma suene, nohaya Robo ni Terremoto, y Juan y Maria llamen

P(A,R, T,J,M) ?

P(A| R, T)P( R) P(T) P(J|A)P(M|A) =

0.90 x 0.70 x 0.001 x 0.999 x 0.998=0.00062

P(R|J, M,T) ?

))x(Padres|x(P),..,xP(xn..1i

iin1 =

=


11/35

Propiedades de independenciacondicional

Una RB es representacin correcta del dominiosi cada nodo es cond. independiente respecto

de antepasados de sus padresEscoger a los padres de manera que se

satisfaga la condicin anterior En el ejemplo, no hay relacin directa entre el

hecho de que Maria o Juan llamen y el que seproduzca un terremoto o un robo, relacinmediada por el hecho de que suene la alarma P(M | J,A,T,R) = P(M | A) P(J | J,A,T,R) = P(J | A)

Compactacin

Una RB es ms compacta que la distribucin deprobabilidad conjunta correspondiente permite manejar muchas evidencias sin elproblema del crecimiento exponencial

Sistema localmente estructurado (sparse system). crecimiento lineal (en vez de exponencial)

Si las variables de una RB reciben influencias directasde un promedio de kvariables, y hay un total de Nvariables booleanas, entonces la RB quedaespecificada por N2k probabilidades


12/35

Metodologa de Construccin

1. Escoger conjunto de variables2. Definir un orden parcial para el conjunto de variables;

primero los nodos causales y luego los nodos efecto3. Mientras queden variables

a) Escoger siguiente variable Xi y aadir nodo a la RBb) Asigne Padres(Xi) a un conjunto mnimo de nodos presente en

la red, de manera que sea satisfecha la propiedad deindependencia condicional

c) Elaborar la tabla de probabilidad condicional de Xi Este mtodo garantiza la obtencin de redes acclicas Evita la redundancia en la definicin de probabilidades

Evita que se violen los axiomas de probabilidad

Elegir bien el orden !

Temblor

Juan Llama

Robo

Alarma

Maria Llama

INCORRECTO


13/35

Elegir bien la topologa !

alarma

Juan Llama

Robo

Temblor

Maria Llama

MALAORDENACIN

Tipos de Inferencia Usando el ejemplo de la alarma Modelo diagnstico: efectos (sntomas)

causas (diagnstico) P(R|J), P(R|J,M)

Modelo causal: Causas efectos P(J|R), P(M,R) Inferencias intercausales: entre las causas de

un efecto comn P(R|A,T)

Inferencias mixtas: combinacin de lasanteriores P(A|J,T), P(R|J,T)


14/35


15/35

Nodos lineales

Sin ninguna informacin adicional L y R sondependientes Evidencia 1: T R y L son independientes dado T

La evidencia puede ser transmitida a travs de un nodolineal a menos que est instanciado

En un nodo lineal T los nodos vecinos soncondicionalmente independientes respecto a T, es decir,

son dependientes si T no est instanciado y viceversa.

Lluvia Trfico Retraso

Nodos divergentes

Sin ninguna informacin adicional J y M sondependientes Evidencia 1: H J y M son independientes dado H

La evidencia puede ser transmitida a travs de un nododivergente a menos que est instanciado

En un nodo divergente H sus hijos son condicionalmenteindependientes respecto a H, es decir, son dependientessi H no est instanciado y viceversa.

Juan choca Maria choca

Hielo


16/35

Nodos convergentes

Sin ninguna informacin adicional L y A sonindependientes Evidencia 1: H L y A son dependientes dado H

La evidencia puede ser transmitida a travs de un nodoconvergente si no est instanciado.

En un nodo convergente H no instanciado, sus padresson independientes, pero son condicionalmentedependientes dado H

Lluvia Aspersor

Humedad

Explaining away

C es un nodo convergente para L y A L es divergente para T y C

Evidencia 1: C L y A son dependientes dado C Evidencia 2: T Explaining away: Aceptamos L y descartamos A

Tejado hmedo

Lluvia Aspersor

Csped hmedo


17/35

Resumen de las propiedades deindependencia condicional

1. Independencia a priori de los nodos queno tienen ningn antepasado comn2. Independencia condicional de los nodos

hermanos con respecto a su padre3. Independencia condicional entre un nodo

y los antepasados de sus padres

Independencia condicional

Hemos visto como una RB expresa laindependencia entre un nodo y susantepasados .

Es posible saber si un conjunto de nodosX es independiente de otro conjunto Y conbase en el conjunto de los nodos deevidencia E?


18/35

Ejemplo

Batera

Radio CombustibleEncendido

Arranque

Movimiento

D-Separacin

Un conjunto de nodos E d-separa dos conjuntosde nodos X y Y si cualquier trayectoria no-dirigida de un nodo en X a un nodo en Y es

bloqueada en funcin de E Si la ruta no-dirigida (independiente de ladireccin de las flechas) de un nodo X a unnodo Y est d-separada por E, entonces X y Yson condicionalmente independientes dada E


19/35

D-Separacin

Una ruta es bloqueada en funcin de un

conjunto de nodos E si existe un nodo Z en laruta que cumple una de las condicionessiguientes:1. Z est en E, y Z tiene un arco saliente y otro

entrante en esa ruta (nodo lineal)

2. Z est en E y Z tiene ambas arcos salientes en esaruta (nodo divergente)

3. Ni Z ni sus descendientes est en E, y los dos arcos

de la ruta son entrantes (nodo convergente)

X E Y

D-Separacin

Z1

Z2

Z3


20/35

Separabilidad

Si A y B son d-separadas, entonces

cambios en la probabilidad de A no tienenefecto en la probabilidad de B Si A y B son d-separadas dada la

evidencia e, entonces A y B soncondicionalmente independientes dado e:

P(A | B, e) = P(A | e)

Si A y B no son d-separadas, entonces

son d-conectadas

Ejemplo

F est d-separada del resto de las variablesno-instanciadas A, E y G

A

C

F

D

G

B e

e

E

e A, E, G, F?


21/35

Ejemplo

A y L estn d-separadas

A B C

D

H

E

I

F

J

K

M

L

G

e

A y L?

Ejemplo

A y L estn d-conectadas

A B C

D

H

E

I

F

J

K

M

L

G

e

e

A y L?


22/35

Sbana de Markov

Sbana (manto) de Markov de X: padres de X,hijos de X y cnyuges de X (comparten hijos) Si se instancian todas, X queda d-separada

del resto de la red

P1P2

C1

H1

X

H2

C2

Inferencia en RB

Inferencia o propagacin deprobabilidades: efectos de la evidenciapropoagados por la red para saber

probabilidades a posteriori Propagacin: dar valores a ciertas

variables (evidencia), y obtener laprobabilidad posterior de las demsvariables


23/35

Inferencia en RB

Mtodo ms general:

Mtodo no eficiente (N-p completo)

RB almacena de forma eficiente la TCP

Inferencia eficiente? Slo en casos particulares: rboles y

extensiones

)E,Z(P

)E,Z,X(P

)E(P

)E,X(P)E|X(P

}E{X},X{Z

}XE{X},X{Z

i

ii

jj

ijj

=

===

Redes conectadas en forma sencilla:rboles Polirboles

Redes multiconectadas:

Tipos de Estructuras


24/35

Propagacin en rboles

Cada nodo corresponde a una variable discreta, B{B 1, B 2,, B n) consu respectiva matriz de probabilidad condicional, P(B|A)=P(Bj| Ai):

A

D

C

F G

B

E

H

I

Propagacin en rboles (II)

Dada cierta evidencia E (representada por la instanciacin de ciertasvariables) la probabilidad posterior de cualquier variable B, por elteorema de Bayes:

P( Bi | E)=P( Bi ) P(E | Bi) / P( E )

B


25/35

Propagacin en rboles (III)

A

D

C

FG

B

E

H

I

E = {I,F,E}

Propagacin en rboles (IV)

Ya que la estructura de lared es un rbol, el Nodo B lasepara en dos subrboles,por lo que podemos dividir laevidencia en dos grupos:1) E-: Datos en el rbol

que cuya raz es B.2) E+: Datos en el resto del

rbol

A

D

C

F G

B

E

H

I

E+

E-


26/35

Propagacin en rboles (V)

Entonces:

P( Bi | E ) = P ( Bi ) P ( E-,E+ | Bi ) / P(E)

Pero dado que ambos son independientes y aplicando nuevamente Bayes:

P( Bi | E ) = P ( Bi | E+) P(E-| Bi) = (Bi) (Bi)

Donde es una constante de normalizacin

Propagacin en rboles (VI)

Al instanciarse ciertos nodos, stos envanmensajes a sus padres e hijos, y se propaganhasta a llegar a la raz u hojas, o hasta encontrarun nodo instanciado.

As que la propagacin se hace en un solo paso enun tiempo proporcional al dimetro de la red.


27/35

Propagacin

A

D

C

F G

B

E

H

I

(H)

E(B)

G(D)F(D)

C(A)

D(B)

B(A)

A(H

)

Propagacin

A

D

C

F G

B

E

H

I

(I)

B(E)

D(G)D(F)

A(C)

B(D)

A(B)

H(A)


28/35

Condiciones iniciales

Nodos hoja no conocidos:

(Bi) = [1,1, ]

Nodos asignados (conocidos):

(Bi) = [0,0, ..1, 0, , 0] (1 para valor asignado) (Bi) = [0,0, ..1, 0, , 0] (1 para valor asignado)

Nodo raz:

(A) = P(A), (probabilidad marginal inicial)

Clculo de -mensajes

Si B es un hijo de A, B tiene k valores posibles y A mvalores posibles, entonces j=1,2,m, el -mensaje de B aA viene dado por:

A B

Ecuacin 1


29/35

Clculo de -mensajes

Si B es hijo de A y A tiene m valores posibles, entonces

para j=1,2,...,m, el -mensaje de A a B viene dado por:

donde s(A) denota al conjunto de hijos de A.

A B

Ecuacin 2

Clculo de -valores

Si B tiene k valores posibles y s(B) es el conjunto de loshijos de B, entonces para i=1,2,...,k, el -valor de B vienedado por

A B

Ecuacin 3


30/35

Clculo de -valores

Si A es padre de B, B tiene k valores posibles y A tiene m

valores posibles, entonces para i=1,2,...,k, el -valor de Bviene dado por:

A B

Ecuacin 4

Clculo de probabilidad a posteriori

Si B es una variable con k posibles valores, entonces para i= 1,2,...,k la probabilidad a posteriori basada en lasvariables instanciadas se calcula como:

A B

Ecuacin 5


31/35

Algoritmo. Fase 1 - Inicializacin

A. Inicializar todos los -mensajes y -valores a 1.

B. Si la raz A tiene m posibles valores, entonces para j =1,...,m, sea:

C. Para todos los hijos B de la raz A, hacerEnviar un nuevo -mensaje a B usando la ecuacin 2.(En ese momento comenzar un flujo de propagacindebido al procedimiento de actualizacin C).

Algoritmo. Fase 2 Actualizacin (I)

Cuando una variable se instancia o una variable recibe un o -mensaje, se usa uno de los siguientes procedimientosde actualizacin: (A, B C)

Procedimiento A


32/35

Algoritmo. Fase 2 Actualizacin (II)Procedimiento B

Procedimiento C

Supongamos que un seor piensa que su esposa le est siendo infiel. La red bayesianaque se construye para evaluar esta posibilidad es la siguiente:

donde la variable A se refiere a si la esposa est engaando al marido o no, la variable Bse refiere a si la esposa cena con otro hombre o no, la variable C se refiere a si la esposaes vista cenando con otro hombre o no, y la variable D se refiere a si en el domicilio sereciben llamadas telefnicas sospechosas o no. Supondremos que la letra minscula conel subndice uno representa a la afirmacin del hecho, y la minscula con el subndice 2, ala negacin.

Ejemplo


33/35


34/35

Ejemplo (IV)

2. Supongamos ahora que nos informan de que la esposa ha cenado conotro, es decir, conocemos ahora con certeza que B = b1.

Esta informacin se ir transmitiendo por la red, haciendo que lasprobabilidades a priori de los nodos, P(X) cambien a las probabilidades aposteriori, P*(X) = P(X/B = b1). En este caso, al ser la evidencia aportada

a favor de la hiptesis que queremos probar, lo lgico ser que todasestas probabilidades aumenten. En el momento que una variable seactualiza, comienza un flujo de propagacin por la red, que en este casoes el siguiente: B informa a su padre mediante un -mensaje. B informa a su hijo mediante un -mensaje. A su vez, A va a informar a su hijo, D, mediante un -mensaje.

Ejemplo (V)


35/35

2. Supongamos ahora que tenemos la informacin de que no se hanrecibido llamadas telefnicas extraas en el domicilio, es decir, quesabemos que D ha tomado el valor d2.

Nuevamente se iniciar el algoritmo que propagar esta informacin porla red: D enviar un -mensaje a su padre, A, A enviar un -mensaje a su hijo, B.Pero ahora, al estar B inicializada, el algoritmo se parar ah, puesto queP(B) = (1, 0), y no podemos permitir que nada cambie ya estos valores.As, en la ejecucin del algoritmo, las variables que ya han sidoinicializadas son extremos muertos, donde la propagacin se para (en elcaso de la propagacin en rboles).

Ejemplo (VI)

Tema 4 – Redes Bayesianas Introducción También Llamadas: –

Documents

Transcript of Tema 4 – Redes Bayesianas Introducción También Llamadas: –