Árboles de Decisión

17
Á D A R-F I C D (A ) ..

Transcript of Árboles de Decisión

Page 1: Árboles de Decisión

Árboles de DecisiónAlan Reyes-FigueroaIntroducción a la Ciencia de Datos (Aula 30) 03.mayo.2021

Page 2: Árboles de Decisión

Árboles de DecisiónOrigen: Fisher (1936). 1a generación: AID (Morgan y Sonquist, 1963), THAID(Messenger y Mandell, 1972), CHAID (Kass, 1980). 2a generación: CART (LeoBreiman et al., 1984), ID3, (John Quinlan, 1986), y otros modelos más.

Un clasificador es una función:y : x→ y(x).

• Nos limitamos a funciones con forma particular y ∈ F .• Construimos una función de costo C() para evaluar la calidad de unay usando {(xi, yi)}.

• Optimizamos C sobre F• Evaluamos e interpretamos la solución encontrada.

Árboles de decisión | Alan Reyes-Figueroa Page 1

Page 3: Árboles de Decisión

Árboles de Decisión

Un árbol de decisión define cierto tipo de función aditiva basada en unapartición del espacio:

y(x) =∑i

ci 1(x ∈ Ri),

Árboles de decisión | Alan Reyes-Figueroa Page 2

Page 4: Árboles de Decisión

Árboles de Decisióndonde ci ∈ R son ciertas constantes, y Ri ⊆ Rd son regiones queconforman una partición del espacio de los datos.

El caso más popular: partición binaria basada en preguntas dicotómicas¿xj = c? ó ¿xj < s?

Terminología propia: raíz, hojas, nodos, profundidad.Árboles de decisión | Alan Reyes-Figueroa Page 3

Page 5: Árboles de Decisión

Árboles de Decisión

Ejemplo de árbol de decisión para clasificación de datos IRIS (Fisher, 1936).

Árboles de decisión | Alan Reyes-Figueroa Page 4

Page 6: Árboles de Decisión

Árboles de Decisión

Ejemplo de árbol de decisión para regresión de datos unidimensionales.

Árboles de decisión | Alan Reyes-Figueroa Page 5

Page 7: Árboles de Decisión

Árboles de Decisión

Mecanismo de construcción de las regiones de decisión en un árbol en R2.

Árboles de decisión | Alan Reyes-Figueroa Page 6

Page 8: Árboles de Decisión

Árboles de Decisión¿Cuáles ventajas o desventajas ven?

Desventajas:• función no tan simple (en contraste, e.g. regresión lineal),• frontera de clasificación difícil,• no es único (árboles diferentes pueden producir igual clasificador),• no es robusto (sensible a cambios pequeños).

Ventajas:• interpretable (sabemos qué hace el clasificador),• sabemos cuáles variables son importantes,• funciona bien en cualquier dimensión Rd,• efectivo al comunicar resultados mediante un grafo.

Árboles de decisión | Alan Reyes-Figueroa Page 7

Page 9: Árboles de Decisión

Árboles de DecisiónObs!• Dos árboles diferentes pueden definir la misma partición.• Un pequeño cambio en datos puede modificar drásticamente el árbol.

Árboles de decisión | Alan Reyes-Figueroa Page 8

Page 10: Árboles de Decisión

Árboles de DecisiónConstrucción: Punto de partida: una medida de impureza.

Supongamos que a las observacciones en una región R ⊆ Rd lesasignamos el valor c.

1. En regresión:I(R) = 1

|R|∑i: xi∈R

(yi − c)2.

2. En clasificación binaria:I(R) =

1|R|

∑i: xi∈R

1(yi 6= c). (error de clasificación).

I(R) = −p log p− (1− p) log(1− p), p = |{i: yi=1}||R| . (entropía)

I(R) = 1− p2 − (1− p)2 = 2p(1− p). (impureza de Gini)

Árboles de decisión | Alan Reyes-Figueroa Page 9

Page 11: Árboles de Decisión

Árboles de Decisión

La idea aquí es aprovechar la recursividad de un árbol: un árbol es untronco y dos sub-árboles.

Si dividimos R en R1 y R2, maximizamos

I(R)−(β1 I(R1) + β2 I(R2)

), con βi = % de datos de R en Ri.

En regresión, si la partición es en base de ¿xj < s?, lo anterior se reduce a:

argminj,s

(argminc1

∑i: xi∈R1

(yi − c1)2 + argminc2

∑i: xi∈R2

(yi − c2)2).

Obs! Vemos que ci debe ser el promedio de los yi en Ri.

Árboles de decisión | Alan Reyes-Figueroa Page 10

Page 12: Árboles de Decisión

Árboles de DecisiónEjemplo:

Árboles de decisión | Alan Reyes-Figueroa Page 11

Page 13: Árboles de Decisión

Árboles de Decisión

Árboles de decisión | Alan Reyes-Figueroa Page 12

Page 14: Árboles de Decisión

Árboles de DecisiónEjemplo: Clasificador de correo spam.

Árboles de decisión | Alan Reyes-Figueroa Page 13

Page 15: Árboles de Decisión

Árboles de DecisiónEjemplos: Visualizaciones de árboles.

Árboles de decisión | Alan Reyes-Figueroa Page 14

Page 16: Árboles de Decisión

Árboles de DecisiónEjemplos: Visualizaciones de árboles.

Árboles de decisión | Alan Reyes-Figueroa Page 15

Page 17: Árboles de Decisión

Árboles de DecisiónPregunta: ¿Dónde detenemos la construcción del árbol?• Entre mayor profundidad, mejor ajuste a los datos de

entrenamiento...• ...pero no necesariamente mejor ajuste al conjunto de prueba.

Típicamente se usa un parámetro de profundidad máxima max_depth. Además, se utilizaun valor de tolerancia I(Ri) > ε para decidir si una región Ri se sigue subdividiendo.

Árboles de decisión | Alan Reyes-Figueroa Page 16