1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas...

65
1. M ´ aquinas de Aprendizaje ector Allende Universidad T´ ecnica Federico Santa Mar´ ıa Febrero 2006 ector Allende (UTFSM) 1. M´ aquinas de Aprendizaje Febrero 2006 1 / 65

Transcript of 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas...

Page 1: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

1. Maquinas de Aprendizaje

Hector Allende

Universidad Tecnica Federico Santa Marıa

Febrero 2006

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 1 / 65

Page 2: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Agenda

1 Modelo Estadıstico del Problema

2 Generalizacion y Teorıa VC

3 Regularizacion

4 Temas Pendientes

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 2 / 65

Page 3: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Problema General

Materia Prima. Datos, observaciones, mediciones.

Objetivo. Obtener descripciones de alto nivel de esos datos,relaciones, modelos, patrones.

Problema de Induccion. ¿Cual es el alcance de estas descripciones?¿Son validas mas alla de los datos que permitieron construirlas?

Supuesto: Existe una regularidad subyacente a las observaciones:Sistema Generador.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 3 / 65

Page 4: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Problema General

Identificar al Sistema: White-Box Models

Imitar al Sistema: Black-Box Models

¿Identificar o imitar al sistema?

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 4 / 65

Page 5: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Modelo Estadıstico del Problema

Espacio de Observaciones Z = X × Y ( ... con una medida P queimplementa el supuesto de “regularidad” subyacente a lasobservaciones)

Espacio de Hipotesis H: Coleccion de todos los modelosseleccionables para explicar los datos

Funcion de Perdida Q(f (x), y): ¿Cual es el costo de responder f (x) auna entrada x si el sistema responde con y?

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 5 / 65

Page 6: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Modelo Estadıstico del Problema

Aprendizaje: Elegir F ∈ Ω para minimizar el Riesgo asociado almodelo

E [Q(F (x), y)] =

∫Q(F (x), y)dP(x , y) (1)

No conocemos P!!, ¿Como elegir una hipotesis de H si no podemoscomputar (1)?

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 6 / 65

Page 7: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Principios de Induccion

No conocemos P, pero sı un conjunto de ejemplosD = (x1, y1), . . . , (xm, ym) que supondremos obtenidos i.i.d. de P.

Funcional de Induccion: Criterio para elegir f solo en base a lamuestra D.

R : H × Zn → R(f ,D) 7→ R(f ,D)

(2)

Eleccion Clasica: Funcional de Riesgo Empırico

Rm(f ,D) =m∑

i=1

Q(f (xi ), yi ) (3)

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 7 / 65

Page 8: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Principios de Induccion

Se obtiene al reemplazar P por

P =m∑

i=1

δ(x − xi )δ(y − yi ) (4)

Alternativas a este principio basico se pueden obtener al considerarotros estimadores de P, por ejemplo

P =m∑

i=1

k(x − xi , y − yi ) (5)

con k(·, ·) un kernel centrado en (0, 0).

Obtenemos el denominado Vicinal Risk

R(f ,D) =m∑

i=1

Q(f (xi ), yi )k(x − xi , y − yi ) (6)

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 8 / 65

Page 9: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Principios de Induccion

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 9 / 65

Page 10: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regresion

¿Que principio de induccion es mejor?

Antes de responder esta pregunta veamos como el modelo estadısticodel aprendizaje puede servir para responder a problemas clasicos enestadıstica.

Regresion: La relacion entre X e Y es estocastica, i.e., dado un xexiste un conjunto probable de respuestas y . Nos interesa estimar

r(x) =

∫ydP(y |x) (7)

denominada funcion de regresion

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 10 / 65

Page 11: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regresion

Consideremos el funcional de riesgo asociado a la funcion de perdidacuadratica,

R(f ) =

∫(y − f (x))2dP(x , y) (8)

Entonces es posible mostrar que

R(f ) =

∫(y − r(x))2 dP(x , y) +

∫(f (x)− r(x))2 dP(x)

La primera parte cuantifica la varianza de y y la segunda la diferenciaentre el modelo f y la curva de regresion r(x).

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 11 / 65

Page 12: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regresion

De esta forma, si∫y2dP(x , y) < ∞

∫r2(x)dP(x , y) < ∞

el mınimo de R(f ) es la curva de regresion cuando r(x) ∈ H.

Si r(x) /∈ H, entonces f es funcion de H que resulta mas cercana ar(x) bajo la metrica L2(P).

Ademas, si f es tal que R(f )− R(f ) < ε, entonces la distancia entref y f es menor que

√ε.

De esta forma, el problema de regresion (clasico) es un problema deaprendizaje con la funcion de perdida cuadratica.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 12 / 65

Page 13: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Clasificacion

Consideremos ahora el problema de distinguir entre un conjunto decategorıas w1,w2, . . . ,wp.

Dado un conjunto de caracterısticas x , supongamos que nuestromodelo f clasifica a x en la clase wi .

La probabilidad de error es entonces

e(f |x) = 1− P(y = wi |x) =∑k 6=i

P(y = wk |x) (9)

Definamos la funcion

L(y , f (x)) =

0 y = f (x)1 y 6= f (x)

(10)

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 13 / 65

Page 14: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Clasificacion

Entonces la suma anterior es equivalente a

e(f |x) =∑

k

L(y , f (x))P(y |x) (11)

El error de clasificacion esperado se obtiene integrando en el espaciode las caracterısticas,

e(f ) =

∫X

∑k

L(y , φ)P(y |x)P(x)dx

=

∫X

∑k

L(y , φ)P(y , x)dx

=

∫X×Y

L(y , φ)dP(x , y)

Esta expresion es exactamente el riesgo asociado a la funcion deperdida Q = L denominada Misclassification Loss Function.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 14 / 65

Page 15: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Estimacion de densidades

Consideremos ahora el problema de estimar una funcion de densidadde probabilidad p0 desde un conjunto H.

La entropıa para una funcion p ∈ H se define como

R(p) = −∫

p0(x) log p(x)dx = −∫

log p(x)dP(x) (12)

Es decir, el riesgo asociado a la funcion de perdida

Q(p) = − log p(x) (13)

El mınimo del funcional anterior es el mismo que obtendrıamos sisumamos a R una constante como R(p0),

R(p) = −∫

p0(x) (log p(x)− log p0(x)) dx = −∫

p0(x) logp(x)

p0(x)dx

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 15 / 65

Page 16: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Estimacion de densidades

La minimizacion del funcional anterior es la base para la estimacionde densidades en el approach estadıstico clasico.

Si aplicamos la desigualdad de Jensen y un poco de algebraobtenemos la siguiente desigualdad para R(p)

R(p) ≤ log

(1−

(1

2

∫|p(x)− p0(x)|dx

)2)

Esta inecuacion nos permite ver que el mınimo del funcional de riesgose alcanza cuando p(x) es la distribucion verdadera p0(x).

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 16 / 65

Page 17: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Generalizacion

Hemos visto que problemas clasicos pueden analizarse comoproblemas de minimizacion del funcional de riesgo.

Como este funcional no puede ser computado en la practicanecesitamos un funcional empırico basado en los datos.

Sin embargo necesitamos que el funcional permita elegir funcionesque se comporten bien mas alla de los ejemplos particulares que seutilizan para evaluarlo.

El funcional debe permitir generalizar, i.e. el riesgo alcanzado con lahipotesis seleccionada debiera ser similar al riesgo mınimo que se puedeobtenerEl valor del funcional debe ser indicativo del riesgo real, i.e., el valor delfuncional empırico obtenido debiera ser tambien similar al mınimo quese puede obtener.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 17 / 65

Page 18: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Generalizacion y Consistencia

Para formalizar esta idea, sea fm la hipotesis que minimiza R en unamuestra de tamano m y f0 la hipotesis que minimiza el riesgo real R.

Consistencia (Debil)

Diremos que el principio de induccion R : Ω → R es consistente si y solo sise satisfacen las siguientes condiciones

R(fm)P−→m

R(f0) (14)

R(fm)P−→m

R(f0) (15)

Hablaremos de “consistencia universal” si R es consistenteindependiente de la distribucion P(x , y) de los ejemplos.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 18 / 65

Page 19: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Generalizacion y Consistencia

Supongamos que en el espacio Ω existe una funcion φ tal que ∀(x , y),Q(y , φ(x)) < Q(y , f (x)), ∀f ∈ Ω.

Es evidente que cualquier principio de induccion R basado encualquier muestra D encontrara φ(x) como solucion al problema.

Esto nos indica que la nocion de consistencia es demasiado debil ynecesita un poco de precision.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 19 / 65

Page 20: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Consistencia Fuerte

Consistencia (Estricta)

Diremos que un principio de induccion R es estrictamente consistente enH si en cualquier λ(c) 6= ∅

λ(c) := g ∈ H : R(g) ≥ c (16)

se satisfaceR(f c

m)P−→m

R(f c0 ) (17)

donde f cm es la funcion que minimiza R en el subconjunto λ(c) y f c

0 es lafuncion que minimiza R en el mismo subconjunto.

Notemos que claramente la consistencia estricta implica laconsistencia debil

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 20 / 65

Page 21: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Teorema Clave de la Teorıa VC

Uno de los resultados claves de la Teorıa Estadıstica del Aprendizajees el que relaciona la consistencia del principio del riesgo empırico conel estudio de un proceso empırico del “peor caso”.

Proceso Empırico de una Cola

Se define como la secuencia (ξm+ )m, m ∈ N donde

ξm+ = sup

f ∈H

(R(f )− Rm(f )

)y Rm = 1/m

∑mi=1 Q(f (xi ), yi )

Hablamos del “peor caso” pues para cada tamano muestral mtomamos el supremo de las diferencias entre R y Rm.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 21 / 65

Page 22: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Teorema Clave de la Teorıa VC

Y ahora el resultado clave ...

Teorema de Equivalencia (Vapnik, Chervonenkis)

Sea R(f ) absolutamente acotado en H. Entonces las siguientescondiciones son equivalentes:

1 Rm es estrictamente consistente en H.

2 El proceso empırico de una cola converge a cero en probabilidad, esdecir

P(ξm+ > ε

)−→

m→∞0 (18)

Si una de las condiciones es valida independiente de la distribucionP(x , y) de los ejemplos, la otra tambien es universal.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 22 / 65

Page 23: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Teorema Clave de la Teorıa VC

¿Bajo que condiciones el proceso de una cola converge a cero?.Consideremos un caso simple en que Q toma valores en 0, 1(clasificacion) y H es finito.

La desigualdad de Chernoff puede aplicarse sobre cada funcion de Hpara concluir que

P(ξm+ > ε

)≤ 2Ne−2ε2m

≤ 2e( ln Nl−2ε2)m

Esto sugiere que si

lnN

m−→

m→∞0

el proceso de una cola convergera a cero en probabilidad.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 23 / 65

Page 24: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Capacidad y Dilema Bias-Varianza

El resultado anterior sugiere que el tamano del espacio de solucionesH debe mantenerse bajo control para obtener consistencia y unabuena generalizacion.

Conceptualmente esta idea es la misma que expresa el clasico dilemaSesgo-Varianza en estadıstica.

El Sesgo de un estimador fm que se obtiene de una muestra deejemplos D se define como

Bias2(fm) = EP (ET [fm(x)]− f0(x))2

donde T es la distribucion conjunta de los ejemplos.

La varianza del estimador se define como

Var(fm) = EPET (fm(x)− ET [fm(x)])2

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 24 / 65

Page 25: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Capacidad y Dilema Bias-Varianza

A medida que aumentamos el tamano del espacio de soluciones esmas probable encontrar una funcion que modele perfectamente elconjunto de ejemplos.

Por otro lado, si tenemos muchas soluciones, pequenos cambios en elconjunto de ejemplos daran origen a una solucion diferente. Es decir,la varianza esperada tiende a aumentar si el espacio se hace masgrande.

Intuitivamente estimadores inestables tienden a no generalizaradecuadamente i.e. sobreajustan.

Al modificar la complejidad estructural del espacio de soluciones existe uncompromiso entre sesgo y varianza o bien entre ajuste y generalizacion.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 25 / 65

Page 26: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Capacidad y Dilema Bias-Varianza

Consideremos el siguiente ejemplo:

¿Que aproximacion es preferible?

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 26 / 65

Page 27: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Capacidad y Dilema Bias-Varianza

Un ejemplo de control de capacidad se da en la interpolacion consplines cubicos. En este caso se favorecen los modelos “simples”utilizando un termino inversamente proporcional a la segundaderivada del estimador,

R(f ) =m∑

i=1

(yi − f (xi ))2 + λ

∫ [f ′′(x)

]2dx

Otro ejemplo clasico son las medidas para seleccion de modelosdenominadas BIC o AIK (Criterio de Akaike) que son inversamenteproporcionales a la varianza muestral.

El tema es como medir adecuadamente la “capacidad” del espacio desoluciones. Claramente la cardinalidad no es suficiente pues engeneral trabajaremos con espacios infinitos.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 27 / 65

Page 28: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Medidas de Capacidad

El funcional de riesgo empırico generico no toma en cuenta ningunamedida estructural. Por lo tanto su capacidad para generalizar debedepender de caracterısticas del espacio de hipotesis H.

El tema es como medir adecuadamente la “capacidad” del espacio desoluciones. Claramente la cardinalidad no es suficiente pues engeneral trabajaremos con espacios infinito-dimensionales.

Observacion Clave: No interesa directamente el tamano del espaciosino las diferentes configuraciones que se alcanzan.

Dos funciones que siempre reportan el mismo riesgo son identicasaunque parametricamente no lo sean.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 28 / 65

Page 29: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Medidas de Capacidad

La observacion anterior, motiva la definicion de una medida decapacidad que tome en cuenta los valores que puede tomar la funcionQ(f (x), y) en el espacio H.

Dado un conjunto de ejemplos Dm = (xi , yi ), i = 1, . . . ,m y unafuncion f ∈ H definamos,

q(f ) = (Q(f (x1), y1), . . . ,Q(f (xm), ym))

De esta forma, q(H) = q(f ), f ∈ H.En el caso mas simple en que Q toma valores en 0, 1, #q(H) esfinita (≤ 2m) y parece una medida apropiada de capacidad.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 29 / 65

Page 30: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Medidas de Capacidad

Graficamente #q(H) es el numero de vertices diferentes que seinducen sobre el hipercubo q(H) que se forma tomando en cada ejeun ejemplo zi = (xi , yi ).

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 30 / 65

Page 31: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Entropıa

Sobre #q(H) podemos introducir las siguientes definiciones decapacidad.

Entropıa de un Espacio de Hipotesis

Sea P(x , y) la distribucion del conjunto de ejemplos D. La entropıaaleatoria de un espacio de hipotesis H se define como

EH(D) = ln (#q(H)) (19)

Se define ademas la Entropıa de H

EH(m) = EP

(EH(D)

)(20)

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 31 / 65

Page 32: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Capacidad versus Generalizacion

Teorema

Para que el proceso de una cola asociado a un funcional de induccion Rconverja en probabilidad a cero es suficiente que se verifique

EH(m)

m−→

m→∞0 (21)

Este teorema relaciona la habilidad de generalizacion de una maquinade aprendizaje -que implemente el riesgo empırico- con una medidaespecıfica de capacidad.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 32 / 65

Page 33: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Generalizacion de las Medidas

La busqueda de condiciones que sean ademas de suficientes seannecesarias y que sean validas para funciones Q con valores en R nosllevan a explorar otros conceptos de capacidad.

ε-net y Numero de Cubrimiento

Sea A un conjunto dotado de una metrica ρ. Una ε-net de A es unconjunto Λ tal que ∀f ∈ A, existe f ∈ Λ que satisface

ρ(f , f ) < ε

Denominamos ε-net minimal a aquella ε-net Λ tal que Λ ⊂ Λ para todaε-net Λ. Llamaremos numero de cubrimiento (covering number) N (ε,A, ρ)a la cardinalidad de este conjunto minimal.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 33 / 65

Page 34: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

ε-Entropıa

Consideremos el conjunto q(H) formado por los vectoresq(f ) = (Q(f (x1), y1), . . . ,Q(f (xm), ym)), ∀f ∈ H.

ε-entropıa

Sea P(x , y) la distribucion del conjunto de ejemplos D. La ε-entropıaaleatoria de un espacio de hipotesis H se define como

EH(ε,D) = ln (N (ε, q(H), l∞)) (22)

donde l∞ es la metrica del supremo. Se define ademas la ε-entropıa de H

EH(ε,m) = EP

(EH(ε,D)

)(23)

El siguiente teorema cierra el problema de consistencia del riesgoempırico utilizando las medidas introducidas.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 34 / 65

Page 35: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Consistencia versus Generalizacion

Teorema de Consistencia del Riesgo Empırico

Para que obtener convergencia en probabilidad del proceso de una colaasociado a un funcional de induccion R es suficiente y necesario que paratodo ε, δ, σ exista un σ-cubrimiento Θ de H tal que

limm→∞

EΘ(ε,m)

m< δ (24)

Θ es un σ-cubrimiento de H si ∀f ∈ H∃f ∈ Co tal que

Q(f (x), y) ≥ Q(f (x), y)

R(f )− R(f ) < σ

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 35 / 65

Page 36: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Consistencia Universalmente Valida

La nocion de entropıa depende de la distribucion de probabilidadP(x , y) asociada a los ejemplos en D.

Para asegurar la consistencia del riesgo empırico de maneraindependiente de la medida de probabilidad es necesario introduciruna cota para la entropıa, que denominaremos funcion de crecimiento(growth function) del espacio de hipotesis H,

G(ε,H,m) = ln supDN (ε, q(H), l∞)

Para hacer universales los teoremas de consistencia es suficientereemplazar la entropıa EH(ε,m) por G(ε,H,m).

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 36 / 65

Page 37: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Dimension VC

Teorema

Supongamos que q(H) esta formada por funciones que toman valores en0, 1. Entonces

G(H,m) = m lnm

o bien existe un h ∈ N tal que

G(H,m)

= m lnm m ≤ h≤ h

(1 + ln m

h

)l > h

Si ocurre el primer caso diremos que h es infinita.

El numero h se conoce como Dimension VC

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 37 / 65

Page 38: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Dimension VC

Recordemos que el principio del riesgo empırico es universalmenteconsistente en el conjunto de indicatrices H si se verifica

limm→∞

G(H,m)

m= 0

Notemos que si H tiene dimension VC finita h, entonces tenemos,

limm→∞

G(H,m)

m< lim

m→∞

h(1 + ln m

h

)m

= 0

Si el espacio de hipotesis tiene dimension VC finita se verifica universalmente laconsistencia del riesgo empırico. Sin embargo no se trata de una condicionnecesaria.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 38 / 65

Page 39: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Cotas VC Universales

Teorema: Cota Aditiva para el Riesgo Empırico

Supongamos que la dimension VC h asociada a un espacio de hipotesis Hes finita. Entonces,independiente de la distribucion de los ejemplos,

P

(supf ∈H

∣∣∣R(f )− Rm(f )∣∣∣ > ε

)< 4 exp

(h (1 + ln(2m/h))

m− (ε− 1/m)2

)m

Equivalente podemos decir, que con probabilidad 1− η

R(fm) < Rm(fm) +√L(m) +

1

m

donde fm es el mınimo del riesgo empırico Rm

L(m) = 4h (ln(2m/h) + 1)− ln η/4

m

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 39 / 65

Page 40: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Cotas VC Universales

Teorema: Cota Relativa para el Riesgo Empırico

Supongamos que la dimension VC h asociada a un espacio de hipotesis Hes finita. Entonces,

P

(supf ∈H

R(f )− Rm(f )√R(f )

> ε

)< 4 exp

(h (1 + ln(2m/h))

m− ε2

4

)m

Equivalente podemos decir, que con probabilidad 1− η

R(fm) < Rm(fm) +L(m)

2

1 +

√1 +

4Rm(fm)

L(m)

donde fm es el mınimo del riesgo empırico Rm.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 40 / 65

Page 41: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Dimension VC para funciones reales

La dimension VC para el caso de un espacio q(H) toma valores realesse puede definir introduciendo un conjunto auxiliar Θ(H) de funcionesque tomen valores en 0, 1.

Θ(H) = θ(Q(f (x), y)− β), f ∈ H, β ∈ R

donde θ es una indicatriz centrada en 0.

La funcion de crecimiento de H se define en este caso como en elcaso de funciones valuadas en 0, 1 pero sobre el conjunto Θ(H). Lomismo con la dimension VC.

Este truco permite extender todos los teoremas al caso general defunciones Q reales.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 41 / 65

Page 42: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Observaciones acerca de la teorıa VC

Si bien el truco anterior permite obtener resultados elegantes paraexplicar las condiciones en que el riesgo empırico es consistente, esteno incorpora ninguna informacion acerca de las escala de lasobservaciones.

En el caso de clasificacion dicha informacion de escala no esimportante pues los valores que toman las hipotesis f (x) son solo unareferencia para distinguir entre clases.

En el caso de regresion sin embargo la perdida de la informacion deescala hace que los resultados de la teorıa VC no sean utiles en lapractica. Por ejemplo, las cotas para el riesgo empırico suelen ser muypoco tight como para ser informativas.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 42 / 65

Page 43: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regularizacion y Control de Capacidad

Los resultados de la teorıa VC afirman la idea de que una maquina deaprendizaje que generaliza, debe mantener controlada la capacidaddel espacio de soluciones H.

Las cotas para el riesgo obtenidas de la teorıa VC tienen la forma generica

R(f ) ≤ Rm(f ) + Λ(H)

donde Rm es el riesgo empırico y Λ(H) es una medida de la complejidadestructural del espacio de soluciones.

Λ(H) es una medida global en el espacio de soluciones. No dependede una hipotesis candidata en particular. Mas aun es independientede los datos.

El desarrollo de un principio adaptivo de aprendizaje a partir de estosresultados es difıcil.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 43 / 65

Page 44: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regularizacion y Control de Capacidad

La idea clave en regularizacion es la restriccion del espacio desoluciones mediante la incorporacion de un funcional Ω(f ) quepenalize hipotesis complejas.

El funcional de riesgo empırico regularizado tiene la forma

R reg (f ) = Rm(f ) + λΩ(f ) (25)

donde Ω(·) se denomina regularizador y el correspondiente λparametro de regularizacion.

El parametro λ controla el tradeoff entre ajuste a los datos (Rm(f )) ycomplejidad estructural (Ω(f )).

Hipotesis complejas son admisibles siempre que los datos lo requieran.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 44 / 65

Page 45: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regularizacion y Control de Capacidad

Un ejemplo clasico (en estadıstica bayesiana) consiste en considerarun regularizador proporcional a la norma de la primera derivada

R reg (f ) = Rm(f ) + λ‖δx f ‖2

De entre dos funciones con el mismo riesgo empırico, se prefiere laque sea mas suave.

Otro ejemplo se da en redes neuronales (weight decay neuralnetworks)

R reg (f ) = Rm(f ) + λ‖w‖2

En este caso w es el vector de pesos de la red. ‖w‖2 intenta restringirla norma de la hipotesis ‖f ‖2.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 45 / 65

Page 46: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Problemas Inversos

Consideremos dos espacios de funciones M y N y un operadorA : M → N que asigna a cada f ∈ M un unico F ∈ N.

Supongamos que queremos estimar f , pero solo podemos observar F .Si conocemos A, el problema se reduce a resolver la ecuacion,

Af = F (26)

Denominaremos este tipo de problemas Problemas Inversos.

Por ejemplo, la estimacion de densidades f (t) a partir de un conjuntode ejemplos es un problema inverso∫ x

−∞f (t)dt = F (x)

donde F (x) es la distribucion de los ejemplos.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 46 / 65

Page 47: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Problemas Inversos

Para que el proceso se estimacion tenga sentido, nos interesa que dossoluciones proximas en el espacio observable N tengan preimagenescercanas en el espacio de las soluciones M.

Esta idea se captura tecnicamente en la nocion de continuidad la cualrequiere que M y N sean espacios metricos. El operador A es continuo

Continuidad de Operadores

Sean (X , ρ1) y (Y , ρ2) dos espacios metricos y C : X → Y un operador.C se dice continuo si y solo si ∀ε,∀x ∈ A∃σ > 0 tal que

CBρ1(x , σ) ⊂ Bρ2(Ax , ε)

donde Bρ1(x , σ) es la bola (abierta) de radio σ en la metrica ρ1 yanalogamente Bρ2(Ax , ε).

Claramente nos interesa la continuidad del operador inverso A−1.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 47 / 65

Page 48: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Aprendizaje como Problema Inverso

El problema de estimar una funcion desde un conjunto de ejemplospuede verse como un problema inverso.

El operador A es en este caso un funcional de induccion R que mapeacada funcion de un espacio de hipotesis H a un valor unico R(f ) en R.

Nos interesa que si dos hipotesis tienen valores similares en el funcional deinduccion, estas esten proximas en el espacio de hipotesis pues esto garantizaque las funciones son similares mas alla de los ejemplos particulares.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 48 / 65

Page 49: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Aprendizaje como Problema Inverso

Una vision alternativa se obtiene al considerar A como el operadorque toma una funcion f del espacio de hipotesis y genera una muestrade ejemplos D(f ) = (xi , f (xi ), i = 1, . . . ,m).En este caso Xm = xi ; i = 1, . . . ,m es un parametro del operadorA, encargado de evaluar f en Xm.

El problema es estimar f desde una muestra particular.

Nos interesa que dos conjuntos de ejemplos similares generen hipotesissimilares. El operador A−1 que mapea un conjunto de ejemplos a unafuncion en el espacio de soluciones es nuestro algoritmo. Nos interesa que elalgoritmo sea estable.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 49 / 65

Page 50: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Buen y Mal Condicionamiento

Buen Condicionamiento en el sentido de Hadamard

Un problema inverso Af = F con f ∈ M y F ∈ N se dice biencondicionado en el sentido de Hadamard (well-posed) ssi

1 Para todo F , f existe y es unica

2 El problema es estable, i.e., A−1 es continuo

Buen Condicionamiento en el sentido de Tikhonov

Un problema inverso Af = F con f ∈ M y F ∈ N se dice biencondicionado en el sentido de Tikhonov ssi ∃M ′ ⊂ M tal que

1 Para todo F ∈ N ′ = AM ′, f existe, es unica y esta en el espacio decorrectitud M ′

2 El problema es estable, i.e., A−1 es continuo en M ′ y N ′.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 50 / 65

Page 51: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Buen y Mal Condicionamiento

Notemos que si el problema esta bien condicionado, entonces paracualquier secuencia F1,F2, . . . ,Fm convergente a F la secuencia de laspreimagenes f1, f2, . . . , fm, fi = A−1F converge a f = A−1F .

Condiciones suficientes bajo las cuales tenemos un problema biencondicionado son las siguientes:

Teorema Clave de Regularizacion

Sea M ′ ⊂ M un espacio metrico compacto y A : M → N un operadorcontinuo. Entonces A−1 : N ′ → M ′ es continuo en N ′ = AM ′.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 51 / 65

Page 52: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Metodo de Regularizacion

Introducido por Tikhonov hacia 1963 para resolver el problemainverso Af0 = F0, f0 ∈ M,F0 ∈ N.

La idea consiste en restringir las soluciones candidatas f a unsubespacio compacto de M.

Para ello se considera un funcional semicontinuo W : M → Rdenominado regularizador.

Regularizador

W : M → R se denomina regularizador si es semicontinuo y satisface laspropiedades:

1 W esta definido para f0.

2 En su dominio de definicion, W (f ) ≥ 0

3 Los conjuntosMc := f ∈ M : W (f ) ≤ c

son todos compactos.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 52 / 65

Page 53: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Metodo de Regularizacion

Para resolver el problema inverso, lo tradicional es minimizar en elespacio M, la norma de la diferencia

R(f ,F0) = ρ2(Af − F0)

donde ρ2 es la norma del espacio observable N.

El problema es que si en vez de observar F0 observamos Fδ muycercano a F0, digamos

ρ2(Fδ − F ) ≤ δ

la solucion fδ que minimiza R(f ,Fδ) no resulta cercana a f0, a menosque el problema sea bien condicionado.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 53 / 65

Page 54: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Metodo de Regularizacion

Tikhonov introduce en cambio el funcional

R regλ (f ,F0) = ρ2

2(Af − F0) + γW (f )

con γ > 0.

Si minimizamos ahora, R regλ (f ,Fδ) ¿La solucion que se obtiene f γ

δ , escercana a f0?

Mas aun, supongamos que tenemos secuencias Fδ convergentes a F0

¿Las correspondientes secuencias f γδ son convergentes a f0?

La respuesta dependera de que tan cercano sea Fδ a F0 y de como seelija el parametro γ.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 54 / 65

Page 55: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Metodo de Regularizacion

Teorema

Sean (M, ρ1),(N, ρ2) espacios metricos. Supongamos que en vez de F0

observamos aproximaciones Fδ ∈ N tal que ρ2(F0 − Fδ) ≤ δ. Supongamosque el parametro de regularizacion es tal que

γ(δ) −→δ→0

0

y ademas,

limδ→0

δ2

γ(δ)≤ r < ∞

Entonces, los elementos fγ(δ)δ que minimizan los funcionales Rγ(δ)(f ,Fδ)

convergen a la solucion exacta f0 = A−1F0 a medida que δ → 0.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 55 / 65

Page 56: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Metodo de Regularizacion

La demostracion del teorema anterior se basa (en parte) en lasiguiente desigualdad

W (fγ(δ)δ ) ≥ W (f ) +

δ2

γ(δ)

Como los conjuntos W (f ) ≤ c son compactos ∀c , la minimizacion de

R regγ considerando un Fδ cercano a F0 genera f

γ(δ)δ cercanos a f0.

Las condiciones impuestas sobre γ(δ) permiten concluir el resultadomas fuerte de que secuencias de Fδ’s convergentes en N generan

secuencias fγ(δ)δ ’s convergentes en M.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 56 / 65

Page 57: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Metodo de Regularizacion

Supongamos que M es un espacio de Hilbert (e.g., en metodos dekernel). Una eleccion tıpica es en este caso

W H(f ) = ‖f ‖2 = 〈f , f 〉

¿Es W H un regularizador valido?. La respuesta es negativa dado quelos conjuntos Mc = f ,W H(f ) ≤ c son solo debilmente compactos.

Sin embargo las propiedades de un espacio de Hilbert permitenestablecer

Teorema

Sea M un espacio de Hilbert y W (f ) = 〈f , f 〉. Entonces si γ0 satisface las

condiciones del teorema anterior con r = 0, los elementos fγ(δ)δ convergen

a f0.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 57 / 65

Page 58: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regularizacion y Metodos Bayesianos

Desde el punto de vista bayesiano (McKay, 1996) el problema deaprendizaje se entiende como la estimacion de la distribuciona-posteriori de las hipotesis p(h|(X ,Y )) dado un conjunto deobservaciones u ejemplos (X ,Y ) = (x1, y1), i = 1, . . . ,m.Usando la regla de Bayes podemos encontrar que

p(h|X ,Y ) =p(X ,Y |h)p(h)

p(Y |X )

La caracterıstica central de la estimacion bayesiana es que asumecierto conocimiento previo de los datos y del tipo de relacionesfuncionales que podemos encontrar.

Este conocimiento previo se recoge imponiendo una estructuraparticular a p(h) y a p(X ,Y |h).

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 58 / 65

Page 59: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regularizacion y Metodos Bayesianos

Desde el punto de vista bayesiano (McKay, 1996) el problema deaprendizaje se entiende como la estimacion de la distribuciona-posteriori de las hipotesis p(h|(X ,Y )) dado un conjunto deobservaciones u ejemplos (X ,Y ) = (x1, y1), i = 1, . . . ,m.Usando la regla de Bayes podemos encontrar que

p(h|X ,Y ) =p(X ,Y |h)p(h)

p(Y |X )

La caracterıstica central de la estimacion bayesiana es que asumecierto conocimiento previo de los datos y del tipo de relacionesfuncionales que podemos encontrar.

Este conocimiento previo se recoge imponiendo una estructura particular a p(h),denominado a-priori y a p(X ,Y |h) denominada verosimilitud.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 59 / 65

Page 60: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regularizacion y Metodos Bayesianos

El a-posteriori puede verse como una correccion del a-prioridistribucional tomando en cuenta la informacion que nos entregan lasobservaciones.

Supongamos que los datos se generan segun

yi = f (xi ) + ξi ⇔ y − f (xi ) = ξi

En este caso, es razonable suponer que

p(xi , yi ) = p(yi − f (xi )) = p(ξi )

Si el conjunto de datos se genera de manera independiente eidenticamente distribuida, obtenemos que

p(X ,Y |h) =m∏

i=1

p(ξi )

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 60 / 65

Page 61: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regularizacion y Metodos Bayesianos

Dado el a-posteriori p(h|X ,Y ) y una determinada entrada x laprediccion de y corresponde a estimar

p(y |X ,Y , x) =

∫H

p(y |h, x)p(h|X ,Y )dh

Aproximacion MAP (Maximum a Posteriori). Muchas vecesaproximacion de este tipo de integrales es intratable. Unaaproximacion razonable consiste en elegir la hipotesis de H quemaximiza p(h|X ,Y ) y utilizar esta hipotesis para generar la saliday = f (x).

Maximizar p(h|X ,Y ) es equivalente a minimizar − ln p(h|X ,Y ), quea su vez resulta equivalente a minimizar

Rbay (h) = − ln p(X ,Y |h)− ln p(h) =m∑

i=1

− ln p(y − h(xi ))− ln p(h)

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 61 / 65

Page 62: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regularizacion y Metodos Bayesianos

Notemos la similitud de la funcion objetivo anterior y el riesgoempırico regularizado

Rbay (h) ∝ Remp(h) + λΩ(h)

Consideremos el siguiente a-priori gaussiano sobre H con parametrode escala σh

p(h) =1

Khe− ‖h‖2

σh

Supongamos ademas que el ruido asociado al modelo es gaussianocon parametro de escala σξ,

p(ξ) =1

Kξe− ξ2

σξ

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 62 / 65

Page 63: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regularizacion y Metodos Bayesianos

Entonces Rbay (h) tiene la forma,

Rbay (h) =m∑

i=1

− ln p(y − h(xi ))− ln p(h)

=m∑

i=1

1

σξ(yi − f (xi ))

2 +1

σh‖h‖2

∝ 1

m

m∑i=1

(yi − f (xi ))2 +

σξ

mσh‖h‖2

Notemos que Rbay (h) coincide con el riesgo regularizado R regγ si

γ =σξ

mσh.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 63 / 65

Page 64: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Regularizacion y Metodos Bayesianos

El a-priori p(h) sobre el espacio de las soluciones tiene el rol deregularizar la informacion acerca del error que aportan lasobservaciones.

Seleccionar un regularizador es equivalente a seleccionar un a-priorisobre H.

Esta “vision bayesiana” tambien nos previene de que el termino deerror depende del modelo de ruido que estemos asumiendo, quizaimplıcitamente.

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 64 / 65

Page 65: 1. Máquinas de Aprendizaje€¦ · del aprendizaje puede servir para responder a problemas cl´asicos en estad´ıstica. Regresi´on: La relaci´on entre X e Y es estoc´astica,

Temas Pendientes

Teorıa Algorıtmica del Aprendizaje

Generalizacion, Estabilidad y Robustez

Funciones de Perdida y Modelos de Ruido

Hector Allende (UTFSM) 1. Maquinas de Aprendizaje Febrero 2006 65 / 65