Tema 6: Espacio de versiones - cs.us.es · PDF fileDpto. de Ciencias de la Computaci´on...

download Tema 6: Espacio de versiones - cs.us.es · PDF fileDpto. de Ciencias de la Computaci´on e Inteligencia Artificial Universidad de Sevilla IIC 2004–05 CcIa Espacio de versiones 6.1.

If you can't read please download the document

Transcript of Tema 6: Espacio de versiones - cs.us.es · PDF fileDpto. de Ciencias de la Computaci´on...

  • Introduccion a la Ingeniera del Conocimiento Curso 20042005

    Tema 6: Espacio de versiones

    Miguel A. Gutierrez Naranjo

    Dpto. de Ciencias de la Computacion e Inteligencia Artificial

    Universidad de Sevilla

    IIC 200405 CcIa Espacio de versiones 6.1

  • Ejemplo

    B Seguimos con el ejemplo del tema anterior

    Cielo Temperatura Humedad Viento Agua Prevision Hacer DeporteSoleado Templada Normal Fuerte Templada Sigue igual SSoleado Templada Alta Fuerte Templada Siguel igual SLluvioso Fra Alta Fuerte Templada Cambio NoSoleado Templada Alta Fuerte Fra Cambio S

    B Cuando hacemos deporte?

    IIC 200405 CcIa Espacio de versiones 6.2

  • Aprendizaje como busqueda

    B Numero de instancias del conjunto X = 3 2 2 2 2 2 = 96(Cielo puede tomar tres posibles valores, el resto de los atributos dos.)

    B Numero de hipotesis sintacticamente distintas = 544444 = 5120(En cada atributo podemos considerar ademas los valores ? y)

    B Numero de hipotesis semanticamente distintas = 1+(433333) =973 (Basta con que aparezca una vez en la hipotesis para que ningunejemplo sea positivo.)

    IIC 200405 CcIa Espacio de versiones 6.3

  • Instancias, hipotesis y ordenes

    IIC 200405 CcIa Espacio de versiones 6.4

  • El algoritmo Find-S

    1. Inializa h como la hipotesis mas especfica de H(Si (, , , , , ) H , entonces h = (, , , , , ))

    2. Para cada ejemplo positivo (x, 1) del conjunto de entrenamiento:

    Si h(x) = 1

    Entonces no hacer nada

    En otro caso, reemplazar h por la menor generalizacion de h, h, talque h(x) = 1

    3. Salida: La hipotesis h

    IIC 200405 CcIa Espacio de versiones 6.5

  • Busqueda en el espacio de hipotesis con Find-S

    Instancias X Hipotesis H

    Especifico

    General

    1x 2x

    x 3

    x4

    h0h1

    h2,3

    h4

    + +

    +

    x = , +4

    x = , +1x = , +2x = , -3

    h = 1h = 2

    h = 4

    h = 3

    0h =

    -

    IIC 200405 CcIa Espacio de versiones 6.6

  • Comentarios a Find-S

    B Hay convergencia hacia el concepto objetivo?

    B Como podemos saber si hay otras hipotesis consistentes?

    B Por que elegimos la hipotesis mas especfica?

    B Es la hipotesis consistente con los ejemplos negativos?

    B Dependiendo de H, puede haber varias hipotesis especficas maxima-les, que ocurre entonces?

    IIC 200405 CcIa Espacio de versiones 6.7

  • Estructura de retculo (I)

    B Definicion 1: Una relacion R es un orden parcial sobre un conjuntoX si se satisfacen las siguientes condiciones:

    u x X xRx (Reflexiva)u x, y X (xRy yRx) x = y Antisimetricau x, y, z X (xRy yRz) xRz Transitiva

    B Definicion 2: Sea S un conjunto con un orden parcial R y T un sub-conjunto de S. En tonces, se dice que a S es un cota superior de T sipara todo x T se tiene xRa. Analogamente se dice que b S es unacota inferior de T si para tod x T se tiene que bRx.

    IIC 200405 CcIa Espacio de versiones 6.8

  • Estructura de retculo (II)

    B Definicion 3: Sea S un conjunto con un orden parcial R y T un sub-conjunto de S. Entonces, se dice que a S es el supremo de T , sup(T )si a es una cota superior, y para cualquier otra cota superior a, setiene que aRa. De manera analoga, se dice que b S es el nfimo deT , inf (T ) si b es una cota inferior, y para cualquier otra cota inferiorb, se tiene que bRb.

    B Definicion 4: Sea S un conjunto con un orden parcial R. Decimos queel par (S, R) es un retculo si para cualquier subconjunto finito T de S,existen inf(T ) y sup(T )

    IIC 200405 CcIa Espacio de versiones 6.9

  • Espacios de versiones

    B El espacio de versiones V SH,D correspondiente al espacio de hipotesisH y el vector de entrenamiento D es el subconjunto de H consistentecon el conjunto de entrenamiento D.

    V SH,D {h H|Consistente(h,D)}

    B El espacio de versiones es el conjunto de todas las posibles solucionesal problema de aprendizaje.

    IIC 200405 CcIa Espacio de versiones 6.10

  • Ejemplo

    Cielo Temperatura Humedad Viento Agua Prevision Hacer DeporteSoleado Templada Normal Fuerte Templada Sigue igual SSoleado Templada Alta Fuerte Templada Siguel igual SLluvioso Fra Alta Fuerte Templada Cambio NoSoleado Templada Alta Fuerte Fra Cambio S

    Espacio de versiones:

    (Soleado, Templada, ?, Fuerte, ?,?) (Soleado, ?, ?, Fuerte, ?,?)(Soleado, Templada, ?, ?, ?,?) (?, Templada, ?, Fuerte, ?,?)(Soleado, ?, ?, ?, ?,?) (?, Templada, ?, ?, ?,?)

    IIC 200405 CcIa Espacio de versiones 6.11

  • El algoritmo Enumerayelimina

    Algoritmo para encontrar el espacio de versiones de unproblema de aprendizaje

    1. Inializa Espaciodeversiones como una lista conteniendo todas lashipotesis de H .

    2. Para cada ejemplo de entrenamiento (x, c(x))

    Elimina de Espaciodeversiones todas las hipotesis h para las queh(x) 6= c(x)

    3. Salida: Espaciodeversiones

    IIC 200405 CcIa Espacio de versiones 6.12

  • Representacion

    Sea H un conjunto de hipotesis y el orden de generalidad.

    Se dice que g H es un elemento de maxima generalidad de H sig H (g < g)

    Se dice que s H es un elemento de maxima especificidad de H sis H (s < s)

    IIC 200405 CcIa Espacio de versiones 6.13

  • Representacion

    La Cota General, G, de un espacio de hipotesis H respecto de unconjunto de entrenamiento D es el conjunto de los elementos de maximageneralidad de H consistentes con D

    G = {g H|consistente(g, D) (g H)[(g > g) Consistenete(g, D)]}La Cota Especfica, S, de un espacio de hipotesis H respecto de unconjunto de entrenamiento D es el conjunto de los elementos de maximaespecificidad de H consistentes con D

    S = {s H|consistente(s,D) (s H)[(s > s) Consistenete(s, D)]}

    IIC 200405 CcIa Espacio de versiones 6.14

  • Teorema

    Teorema de representacion del espacio de versiones:

    Sea X un conjunto arbitrario de instancias y sea H un conjunto de hipo-tesis de valores booleanos definido sobre X . Sea c : X {0, 1} unafuncion de clasificacion definida sobre X y D = {(xi, c(xi)}iI un con-junto de entrenamiento. Sean G y S las cotas general y especfica resp.del espacio de hipotesis H respecto de un conjunto de entrenamiento D.Entonces

    V SH,D = {h H|(s S)(g G)(g h s)}

    IIC 200405 CcIa Espacio de versiones 6.15

  • Ejemplo de espacio de versiones

    S:

    { }

    G: , { }

    IIC 200405 CcIa Espacio de versiones 6.16

  • Generalizacion y especializacion

    Sea H un espacio de versiones y h Hh H es una generalizacion minimal de h verificando la propiedadP si

    h > h, h verifica la propiedad P y no existe h H verificando lapropiedad P cumpliendo h < h < h

    h H es una especializacion minimal de h verificando la propiedadP si

    h > h, h verifica la propiedad P y no existe h H verificando lapropiedad P cumpliendo h < h < h

    IIC 200405 CcIa Espacio de versiones 6.17

  • Algoritmo Eliminaciondecandidatos

    Inicio: Dados H y D

    G El conjunto de elementos de maxima generalidad de H S El conjunto de elementos de maxima especificidad de H

    Para cada ejemplo d del conjunto de entrenamiento D,

    Si d es un ejemplo positivo Elimina de G cualquier hipotesis inconsistente con d Para cada hipotesis s de S que no sea consistente con d Elimina s de S Anade a S todas las generalizaciones minimales h de s tales que

    IIC 200405 CcIa Espacio de versiones 6.18

  • Algoritmo Eliminaciondecandidatos

    1. h sea consistente con d

    2. Algun elemento de G es mas general que h

    Elimina de S cualquier hipotesis mas general que otra hipotesis de S Si d es un ejemplo negativo Elimina de S cualquier hipotesis inconsistente con d Para cada hipotesis g de G que no sea consistente con d Elimina g de G Anade a G todas las especializaciones minimales h de g tales que1. h sea consistente con d

    2. Algun elemento de S es mas especfico que h

    Elimina de G cualquier hipotesis menos general que otra hipotesis de G

    IIC 200405 CcIa Espacio de versiones 6.19

  • Ejemplo (I)

    Ejemplos:

    . , Deporte = Si1

    . , Deporte = Si2

    S 1 : { }

    S2 : { }

    1 20 G , G :G , { }

    S0 : { }, , , , , < >

    IIC 200405 CcIa Espacio de versiones 6.20

  • Ejemplo (II)

    G 3:

    , Deporte = No

    Ejemplo:

    3.

    S2 , S 3 : { }

    { }

    IIC 200405 CcIa Espacio de versiones 6.21

  • Ejemplo (III)

    Ejemplo:

    Deporte = Si,4.

    S 3: { }

    S 4: { }

    G 4: { }

    G3:

  • Convergencia del algoritmo

    B Si el conjunto de entrenamiento es suficientemtente grande, Podemosgarantizar que el espacio de versiones contiene como unico elementola funcion de clasificacion? S si se verifica:

    No hay errores en la clasificacion de los ejemplos de entrenamiento

    La hipotesis correcta esta en el espacio de hipotesis

    IIC 200405 CcIa Espacio de versiones 6.23

  • Eleccion de ejemplos (I)

    B Supongamos que nuestro sistema puede elegir que ejemplo del con-junto de entrenamiento considera a continuacion. Que ejemplo delconjunto de entrenamiento debera elegir?

    u El ejemplo elegido debera discriminar entre las hipotesis del espacio de ver-

    siones considerado en ese momento.

    u Estrategia optima: Generar ejemplos satisfechos exactamente por la mitad de

    las hipotesis del actual espacio de versiones.

    u Con la estrategia optima el algoritmos converge tras Ent(log2|V S|)

    IIC 200405 CcIa Espacio de versiones 6.24

  • Eleccion de ejemplos (II)

    B En nuestro ejemplo, tras los 4 primeros ejem