Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

52
Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica

Transcript of Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Page 1: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 1

Árboles de decisión

Tema 9

Parte teórica

Page 2: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 2

Árboles de decisión

Conjunto de reglas representadas en forma de una estructura de árbol

Page 3: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 3

Árboles de decisión

Son muy útiles cuando hay más de una manera para convertirse en miembro de una clase meta Modelo para encontrar tarjeta habientes rentables

puede identificar tres tipos de clientes: Tarjeta habientes que mantienen saldos altos Tarjeta habientes que compran mucho Tarjeta habientes que ocasionalmente hacen compras

grandes y pagan sus balances a tiempo Cada uno de estos representa un paso diferente a través del

árbol.

Page 4: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 4

Árboles de decisión

El paso a través del árbol de decisión explica la clasificación

Envía hijosa escuela

pública

Page 5: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 5

Árboles de decisión

Cada hoja contiene información sobre el número de observaciones que caen en ella y la proporción para cada clase

La clase más densa se selecciona como la clasificación para el nodo

Page 6: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 6

Árboles de decisión

Se utilizan para Asignar “scores” a los datosExplorar datosHacer clasificaciones y prediccionesComprender que variables son más

importantes

Page 7: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 7

Árboles de decisión y “scoring”

Se puede asignar un “score” a los datos de acuerdo a la hoja a la que fueron clasificados

Page 8: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 8

Árboles de decisión y “scoring”

Page 9: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 9

Árboles de decisión y “scoring”

ProblemasUsualmente hay muy pocas hojas por lo que

hay pocos valores de “scoring”

Page 10: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 10

Árboles de decisión y exploración

Árboles de decisión son útiles para explorar un conjunto de datos y entender cómo ciertas variables (“input”) inciden sobre otra (“target”)

Page 11: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 11

Árboles de decisión y exploración

Ciudadesproducto noestá bien

Ciudadesproductoestá bien

Penetración de unproducto en ciudades

Page 12: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 12

Árboles de decisión y clasificaciones/predicciones Aplicación más común

Page 13: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 13

Árboles de decisión y clasificaciones/predicciones

Predecirclientes quepondríanórdenes sise les envíacatálogo deNavidad, basado en aquellosque pusieron órdenes el año pasado

Page 14: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 14

Árboles de decisión y variables más importantes Ayuda a eliminar variables para otros

modelos, por ejemplo regresión

Page 15: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 15

Árboles de decisión y variables más importantes

Page 16: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 16

Proceso para crear un árbol de decisión Se utiliza un conjunto de datos de

entrenamiento (“training”) para crear el árbol

Se utiliza un conjunto de datos de validación para reducir la complejidad del árbol y generalizarlo (proceso de poda o “pruning”)Eliminar el problema del “overfitting”

Page 17: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 17

Proceso para crear un árbol de decisión Tres conjuntos de datos obtenidos de

particionar el conjunto de datos originalEntrenamiento: 40%Validación: 30%Prueba: 30%

Page 18: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 18

Algoritmos más comunes para árboles de decisión CART (“classification and regression

trees”) C4.5 CHAID (“chi square automatic induction”)

Varían en Medida de pureza utilizada para los grupos Forma de poda

Page 19: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 19

Creación de árboles de decisión

Proceso recursivo Se inicia con todos los datos del conjunto de adiestramiento en

la raíz Para cada variable “input” se decide la mejor forma para separar

los valores de la variable “target” Se selecciona la variable “input” y criterio de mejor separación

mediante ésta para los valores de la variable “target” Se divide el nodo en cuestión en dos o más hijos de acuerdo

con aquella variable que “mejor divide” la variable “target” Se repite proceso con los otros nodos hasta que no sea posible

más divisiones

Page 20: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 20

Divisiones

Page 21: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 21

Divisiones

Medida para evaluar la calidad de una división en un árbol de decisión se denomina pureza

Page 22: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 22

Medidas de pureza

Depende de la variable “target” no de las variables “input” Variable “target” categórica

Gini (diversidad de población) Entropía (ganancia de información) Radio de ganancia de información Prueba chi cuadrado

Variable “target” intervalo o radio Reducción en varianza Prueba F

Page 23: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 23

Pureza

Índice de Gini Utilizado en las ciencias sociales y la economía Probabilidad de que dos cosas escogidas al azar de

una población sean la misma Una población pura tiene un índice de Gini de 1 Si hay dos grupos igualmente representados en una

población el índice de Gini es 0.5 El índice de Gini es la suma de los cuadrados de las

proporciones de las poblaciones p1

2+ p22

El objetivo es maximizar el índice de Gini

Page 24: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 24

Gini

Page 25: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 25

Gini

Page 26: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 26

Gini

Page 27: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 27

Pureza

Entropía Utilizada en la teoría de la información para medir la

cantidad de información almacenada en un número de bits

Una población pura tiene una entropía de 0 Si existen dos grupos igualmente representados la

entropía es 1 Cálculo de entropía

-(p1 log p1 + p2 log p2) El objetivo es minimizar entropía

Page 28: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 28

Entropía

Page 29: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 29

Entropía

Page 30: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 30

Entropía

Page 31: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 31

Gini versus entropía

Entropía tiene preferencia por grupos más pequeños y puros

Gini tiene preferencia por grupos similares en tamaño

Page 32: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 32

Pureza Chi cuadrado

Prueba importante en estadística para medir la probabilidad de que la frecuencia observada de una muestra sea debida sólo a la variación de la muestra

Es relativa a la proporción en la población original (nodo padre)

Si las proporciones en los hijos son las mismas que en el padre entonces el valor de chi cuadrado es 0

Si los hijos son puros, el valor de chi cuadrado es alto Para una población dividida 50%-50%, el valor es

igual al tamaño de la población

Page 33: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 33

Pureza Chi cuadrado

Cálculo para el chi cuadrado para cada hijo: (observado (c1) – esperado (c1))2 / esperado (c1) +

(observado (c2) –esperado (c2))2/ esperado (c2) ci número de instancias de clase i en el hijo obsevado (ci ): número de instancias observadas de

clase i en el hijo esperado (ci ): número de instancias esperadas de clase

i en el hijo tamaño del hijo multiplicado por la proporción de la

clase en el padre

El objetivo es maximizar chi cuadrado

Page 34: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 34

Chi cuadrado

Page 35: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 35

Chi cuadrado

Coincidenen este caso

Page 36: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 36

Algoritmos y pureza

CART: Gini C4.5: entropía CHAID: chi cuadrado

Page 37: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 37

Valores perdidos

Tratamiento Ignorar registros con valores perdidos (puede

introducir sesgo)Tratar los valores perdidos como legítimos y

asignarlos a un nodo del árbol

Page 38: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 38

Error en un árbol de decisión

Para una hoja:1-probabilidad de clase dominante para la

hoja Para un árbol:

Suma ponderada de error de hoja i multiplicada por probabilidad de que un registro pertenezca a esta hoja

Page 39: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 39

Poda de árboles de decisión

Incrementa la estabilidad del modelo al reducir su complejidad

Page 40: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 40

Poda

Page 41: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 41

Poda

Con el conjunto de entrenamiento, cada división del árbol reduce el error Pero al aumentar el número de hojas, éstas

contienen menos registros o tuples y se reduce la posibilidad de que la distribución de resultados en una hoja sea similar de un conjunto de datos a otros (“overfitting”)

Los datos de prueba son utilizados para encontrar el punto donde la complejidad adicional empieza a dañar en lugar de ayudar

Page 42: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 42

Poda

Page 43: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 43

Algoritmo típico de poda

Identificar sub-árboles candidatos para poda Tasa de error ajustada:

AE(T) = E(T) + α leaf_count (T) Se inicia considerando todos los subárboles que

contienen la raíz α se incrementa

Si AE(Ti) <= E(T completo), Ti es un árbol candidato para conservar y aquellas ramas que no pertenecen a él son podadas

El proceso se repite de nuevo para los subárboles en Ti

Page 44: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 44

Poda

Varía de acuerdo con los diferentes algoritmosCARTC4.5CHAID

Page 45: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Resultados clasificación

Minería de datosDr. Francisco J. Mata 45

Page 46: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Resultados clasificación

Minería de datosDr. Francisco J. Mata 46

.. Es clasificada como Mala Buena Total Solicitud es realmente

Mala 313 140 453 Buena 122 1809 1931

Total 435 1949 2384

Error clasificar solicitud como buena siendo mala: 140/453= 31%Error clasificar solicitud como mala siendo buena: 122/1931= 6%Error de mala clasificación: (140+122)/2384=11%

Page 47: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Resultados clasificación

Clasificado 1 Clasificado 0

Realmente 1 Verdadero positivo Falso negativo

Realmente 0 Falso positivo Verdadero negativo

Minería de datosDr. Francisco J. Mata 47

Page 48: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Resultados clasificación

Minería de datosDr. Francisco J. Mata 48

Page 49: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Resultados de clasificación

Minería de datosDr. Francisco J. Mata 49

Variable Adiestramiento Validaciónrespuesta

1=malo0=bueno

Page 50: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Resultado clasificación

Regla:IF 492238.5 <= VALUE

AND DEBTINC < 45.43897

THEN

NODE : 5

N : 12

1 : 83.3%

0 : 16.7%

Interpretación:

Minería de datosDr. Francisco J. Mata 50

Condición Resultado esperado

Probabilidad (Error de

clasificación}*

N*

492238.5 <= VALUE AND DEBTINC < 45.43897

Solicitud mala 83% (17%)

12 (0.50%)

Page 51: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 51

Ventajas de los árboles de decisiones Fácil de entender Resultados se adaptan bien a reglas de

negocios No se requieren suposiciones acerca de

los datos Variables “input” pueden ser continuas y

categóricas

Page 52: Minería de datos Dr. Francisco J. Mata 1 Árboles de decisión Tema 9 Parte teórica.

Minería de datosDr. Francisco J. Mata 52

Desventajas de los árboles de decisiones Algunos algoritmos sólo pueden tratar variables

“target” binarias Otros algoritmos pueden tratar variables “target”

con más de dos valores pero no funcionan bien cuando el número de casos de entrenamiento es pequeño por clase

Son costosos en términos computacionales