Tratamiento de Valores Faltantes en Newton...
Transcript of Tratamiento de Valores Faltantes en Newton...
![Page 1: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/1.jpg)
Tratamiento de
Valores
Faltantes en
Newton Trees
Vicent Estruch
Cèsar Ferri Ramirez
José Hernández Orallo
Fernando Martínez Plumed
María José Ramírez Quintana
TAMIDA 2010Valencia, España
1
![Page 2: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/2.jpg)
ÍNDICE
1. Introducción
2. Newton Trees
3. Valores Faltantes
4. Experimentación
5. Conclusiones y Trabajo Futuro
2
![Page 3: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/3.jpg)
Introducción
1.1 Problema
1.2 Árboles de Decisión
1.3 PET´s
1.4 DBDT
1
3
![Page 4: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/4.jpg)
1.1 Resumen
Presentación de nuestro método deinducción de árboles de decisión másreciente, los Newton Trees.
Problema a resolver:
Tratamiento de instancias con valoresfaltantes en las fases de construcción, usoy representación de este tipo de árboles.
Introducción4
![Page 5: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/5.jpg)
1.2 Árboles de Decisión
Los árboles de decisión son una de las técnicasmás populares y potentes en KDD.
Se basan en la idea de particionarrecursivamente el conjunto de entrenamientoen conjuntos cada vez más pequeños hasta queel conjunto es puro.
Nodos Condiciones (atributo seleccionado).
ID3 , C4.5 o C5.0 [Quinlan], CART [Breiman].
Buenos resultados en Accuracy.
Introducción5
![Page 6: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/6.jpg)
1.3 PETs Variación de los árboles de decisión clásicos
donde la salida proporcionada es unaprobabilidad.
No modifican la manera de construir losárboles: usan criterios, particiones y métodosde poda diseñados para otras tareas o medidas.
Buenos resultados en términos del AUC (AreaUnder the Curve) y MSE (Mean Squared Error).
Aunque los PETs retornan probabilidades, noson probabilísticos en términos de cómo se usael árbol y si los ejemplos descienden por unarama o varias ramas a la vez.
Introducción7
![Page 7: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/7.jpg)
1.4 DBDT“Distance-Based Decision Trees”
Uso de distancias y funciones de similitudpara diseñar árboles de decisión másflexibles.
Permite tratar cualquier tipo de datos en elque se puedan definir distancias.
Devuelve un árbol de prototipos de clase(nodos en el árbol).
Un ejemplo caerá en un nodo dadodependiendo de su proximidad al prototipode clase.
Introducción8
![Page 8: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/8.jpg)
1.4 DBDT
Introducción
dnum(x,y) diferencia absolutadnom(x,y) función identidad
9
![Page 9: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/9.jpg)
Newton Trees
2.1 Newton Trees
2.2 Particiones Gravitacionales
2.3 Generación del Árbol
2.4 Cálculo Estocástico de la Probabilidad
2.5 Comprensibilidad
2
10
![Page 10: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/10.jpg)
Newton Trees Particiones
Gravitacionales Árboles de Estimación Estocástica de Probabilidades.
Tratamiento homogéneo de cualquier tipo de datos.
Construcción, uso y representación del árbol basadosen el principio de atracción. Las probabilidades sederivan también a partir de dicho principio.
Árbol de prototipos.
Representación gráfica del árbol sencilla deinterpretar.
Los árboles son univariantes, pero sus particiones noson necesariamente paralelas a los ejes.
2.1 Newton Trees
Newton Trees11
![Page 11: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/11.jpg)
Newton Trees Particiones
Gravitacionales Particiones nodo/cluster por clase.
Cada nodo/cluster es caracterizado por unprototipo (medioide).
A partir de los medioides calculados losdatos se distribuyen de acuerdo a lasiguiente función de atracción:
2.2 Particiones Gravitacionales
Newton Trees12
![Page 12: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/12.jpg)
Newton Trees Particiones
Gravitacionales1. Para cada atributo Xr y cada clase i, se
calcula un prototipo πr,i.
2. Seleccionar el atributo que maximicealgún criterio de partición (Gain Ratio).
3. Se asocia cada instancia deentrenamiento a su prototipo máspróximo.
4. Si la partición es impura ir a 1, si noFin.
2.3 Generación del árbol
Newton Trees13
![Page 13: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/13.jpg)
Newton Trees Particiones
Gravitacionales1. Computar, desde la raíz a las hojas, la
probabilidad de caer en cada nodo.
2. Calcular el vector de probabilidad encada hoja.
2.4 Cálculo estocástico de la probabilidad
Newton Trees14
![Page 14: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/14.jpg)
Newton Trees Particiones
Gravitacionales3. Propagar hacia arriba este vector para
obtener en la raíz el vector total de
probabilidad p(root,e)
2.4 Cálculo estocástico de la probabilidad
Newton Trees15
![Page 15: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/15.jpg)
Instancia a clasificar:
(FEMALE,NO)
Newton Trees
2.4
16
![Page 16: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/16.jpg)
ValoresFaltantes
3.1 Valores Faltantes
3.2 Valores Faltantes en C4.5
3.3 Valores Faltantes en Newton Trees
3.4 Ejemplo
3
17
![Page 17: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/17.jpg)
¿Qué pasa cuando parte de los datos estánincompletos como ocurre generalmente concualquier conjunto de datos de la vida real?
Descartar una proporción importante de los datos por incompletos y declarar algunos casos como inclasificables.
Adaptar los algoritmos para poder trabajar con atributos con valores faltantes.
Valores Faltantes
3.1 Valores Faltantes
18
![Page 18: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/18.jpg)
Quinlan mostró que la combinación de todos losposibles resultados con un valor faltante en elejemplo de test en la fase de clasificaciónproporciona una mejor precisión general queotros enfoques.
Para clasificar un ejemplo e, éste se propagapor todas las ramas para calcular suprobabilidad de forma proporcional al númerode instancias de entrenamiento (con valoresconocidos para el atributo de partición).
El algoritmo C4.5 adopta esta aproximación.
Valores Faltantes
3.2 Valores Faltantes en C4.5
19
![Page 19: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/19.jpg)
Aproximación en Newton Trees: paraatributos con valores faltantes se asume quela distancia a cualquier prototipo es igual,tal que:
Se ignoran los valores faltantes en la fase deaprendizaje .
Se establece constante (igual a 1) el valor dela distancia a cualquier.
Valores Faltantes
3.3 Valores Faltantes en Newton Trees
20
![Page 20: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/20.jpg)
Instancia de Test:
(FEMALE,?)
Valores Faltantes
3.4 Ejemplo
21
![Page 21: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/21.jpg)
Experimentación
4.1 Configuración
4.2 Resultados
4
22
![Page 22: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/22.jpg)
Newton Trees vs J48 (sin poda y con suavizado de Laplace en las hojas) implementado en WEKA.
Gain Ratio.
30 Datasets extraídos del repositorio UCI.
20 repeticiones x 5 folds Cross Validation.
Métricas de evaluación: Accuracy, AUC y MSE.
4.1 Configuración
Experimentación23
![Page 23: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/23.jpg)
Tabla 1. Comparativa
(30 Datasets)
Newton TreesUnpruned Laplace
J48
Acc. AUC MSE Acc. AUC MSE
Media 81,7 0,86 0,1 80,6 0,83 0,11
Media (No Faltantes)
81,1 0,86 0,1 79,7 0,82 0,11
Media (Faltantes)
83,9 0,87 0,09 83,6 0,86 0,1
4.2 Resultados
24
![Page 24: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/24.jpg)
Conclusiones y Trabajo Futuro
5.1 Conclusiones
5.2 Trabajo futuro
5
25
![Page 25: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/25.jpg)
Se ha analizado el comportamiento delalgoritmo de clasificación, los Newton Trees,ante conjuntos de datos con valoresfaltantes obtenidos del repositorio UCI.
Los Newton Trees pueden tratar todas lasinstancias uniformemente (sean con valoresfaltantes o no) de la misma manera que elC4.5 trata los valores faltantes, es decir,estocásticamente.
Conclusiones
5.1 Conclusiones
26
![Page 26: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/26.jpg)
Esta caracterización ha proporcionado los resultados esperados (en concordancia con los Newton Trees originales).
Se cumplen nuestras expectativas en cuanto a homogeneidad (en el tratamiento de los tipos de datos), transparencia (tratamiento de los datos inteligible), eficiencia (con un coste bajo) y eficacia (con resultados equiparables a los que los Newton Trees han demostrado para datasets sin valores faltantes).
Conclusiones
5.1 Conclusiones
27
![Page 27: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/27.jpg)
Debido al limitado número de datasets con valores faltantes utilizados (7), es necesaria una experimentación más amplia y exhaustiva del problema para certificar los buenos resultados obtenidos.
Experimentación con tipos de datos estructurados.
Conclusiones
5.2 Trabajo Futuro
28
![Page 28: Tratamiento de Valores Faltantes en Newton Treesusers.dsic.upv.es/~fmartinez/papers/Tamida_2010pres.pdf · el árbol y si los ejemplos descienden por una ... conocidos para el atributo](https://reader031.fdocuments.mx/reader031/viewer/2022030409/5a918b2b7f8b9af27f8e50d9/html5/thumbnails/28.jpg)
¡Gracias!
30