Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela...
-
Upload
ana-maria-ana-belen-saez-rey -
Category
Documents
-
view
215 -
download
0
Transcript of Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela...
![Page 1: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/1.jpg)
Técnicas de Minería de
Datos
Centro Universitario Valle de México
Maestría en Ciencias de la Computación
Minería de Datos
Dra. Maricela Quintana LópezElaborado por:
![Page 2: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/2.jpg)
![Page 3: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/3.jpg)
Unidad de competencia III: Proceso de Análisis SupervisadoTécnicas de Minería de Datos
Objetivo: Presentar los algoritmos de análisis
supervisado, específicamente de clasificación.
Conocimientos: One rule, Inductive Decision Tree ID3,
índice Gini.
![Page 4: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/4.jpg)
Árboles de decisión◦ 1-Rule◦ ID3◦ GINI
Reglas de Clasificación◦ 1-Rule◦ Naive Bayes◦ PRISM
CLASIFICACIÓN
![Page 5: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/5.jpg)
“Las ideas sencillas, frecuentemente funcionan bien”
Un atributo hace todoTodos los atributos contribuyenEstructura lógica capturada en un árbol de decisión
Reglas independientesetc...
Algoritmos de Minería
![Page 6: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/6.jpg)
El método más simple es llamado “1-rule” Genera un árbol de decisión de un nivel Conjunto de reglas que prueban un atributo
en particular Cada rama corresponde a un valor distinto
del atributo
Inferencia de Reglas
![Page 7: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/7.jpg)
La asignación de la clase para la rama será la más frecuente en el conjunto de entrenamiento (clase mayoritaria)
La tasa de error se calcula contando las instancias que no tienen la clase mayoritaria
Cada atributo genera un conjunto distinto de reglas, una regla por cada valor del atributo
Es necesario calcular la tasa de error para elegir el mejor conjunto de reglas
Método 1-Rule
![Page 8: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/8.jpg)
Para cada atributoPara cada valor del atributo:
Calcular la frecuencia de cada claseDeterminar la clase mayoritaria CMConstruye el árbol ó la regla:
si valor de atributo entonces CM Calcular la tasa de error de las reglas
Escoger las reglas con la menor tasa de error
Método 1-Rule
![Page 9: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/9.jpg)
outlook temperature humidity windy Playovercast hot high false Playrain mild high false Playrain cool normal false Playovercast cool normal true Playsunny cool normal false Playrain mild normal false Playsunny mild normal true Playovercast mild high true Playovercast hot normal false Playsunny hot high false Don't Playsunny hot high true Don't Playrain cool normal true Don't Playsunny mild high false Don't Playrain mild high true Don't Play
![Page 10: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/10.jpg)
1-Rule para el Golf
¿Error total?
4 0
3 2
2 3
Play
Play
Don’t Play
![Page 11: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/11.jpg)
1-Rule para el Golf
¿Error total?
![Page 12: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/12.jpg)
Ejercicio
![Page 13: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/13.jpg)
Conjunto attribute rules errors total errors1 outlook sunny --> no 2/5 4/14
overcast --> yes 0/4rainy --> yes 2/5
2 temperature hot --> no 2/4 5/14mild --> yes 2/6cool --> yes 1/4
3 humidity high --> no 3/7 4/14normal --> yes 1/7
4 windy false --> yes 2/8 5/14true --> no 3/6
Elegir el mejor atributo
1-Rule para el Golf
![Page 14: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/14.jpg)
Árboles de decisión
Reglas
Resultado
if (outlook == sunny) then don’t playif (outlook == rainy) then playif (outlook == overcast) then play
Outlook
Don’t Play
Play Play
sunny overcastrainy
![Page 15: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/15.jpg)
Valores faltantes◦ Es tratado como otro valor del atributo
if outlook = missing then yes
Atributos numéricos◦ Convertirlos
Valores faltantes y atributos numéricos
![Page 16: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/16.jpg)
Golf con valores numéricosoutlook temperature humidity windy play
overcast 64 65 true yesrainy 65 70 true no rainy 68 80 false yessunny 69 70 false yesrainy 70 96 false yesrainy 71 91 true nosunny 72 95 false noovercast 72 90 true yesrainy 75 80 false yessunny 75 70 true yessunny 80 90 true noovercast 81 75 false yesovercast 83 86 false yessunny 85 85 false no
![Page 17: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/17.jpg)
Particiónoutlook Temp play play play play
overcast 64 yes 64.5 yes yes yesrainy 65 no 66.5 no no no rainy 68 yes yes yes yessunny 69 yes yes yes yesrainy 70 yes 70.5 yes yes yesrainy 71 no no no nosunny 72 no 72 no no noovercast 72 yes yes yes yesrainy 75 yes yes yes yessunny 75 yes 77.5 yes yes yessunny 80 no 80.5 no no noovercast 81 yes yes yes yesovercast 83 yes 84 yes yes yessunny 85 no no no no
If temperature <=77.5 then Play=yeselse Play = No
![Page 18: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/18.jpg)
Ejercicio
![Page 19: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/19.jpg)
Solución
If (humidity <=82.5) or (humidity>95.5) then play else don’t play
![Page 20: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/20.jpg)
Utiliza la técnica de Divide y Conquista
Procedimiento inductivo
La salida es un árbol de decisión
Top-Down induction of decision trees
Desarrollada y refinada por Ross Quinlan de la universidad de Sydney, Australia
Conocido como ID3
Árboles de Decisión
![Page 21: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/21.jpg)
Clasifica patrones con atributos no numéricos
Mejorado con el uso del radio de ganancia
Variaciones ◦C4.5, ◦C5
ID3 (Inductive Decision Tree)
![Page 22: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/22.jpg)
Puede expresarse recursivamente1. Seleccionar un atributo2. Colocar una rama para cada valor
del atributo3. Dividir las instancias en
subconjuntos uno por cada valor4. Repetir el proceso para cada rama
utilizando el subconjunto apropiado5. Si las instancias de una rama son de
la misma clase, el proceso termina para esa rama.
Árboles de Decisión
![Page 23: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/23.jpg)
1. Seleccionar un atributo
Estatura Cabello Ojos Clasealto negro azul abajo negro azul aalto rubio azul oalto rojo azul oalto rubio café abajo rubio azul obajo rubio café aalto negro café a
![Page 24: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/24.jpg)
Por atributo
Estatura Clase Cabello Clase Ojos Clasealto a negro a azul aalto a negro a azul aalto a negro a azul oalto o rojo o azul oalto o rubio a azul obajo a rubio a café abajo a rubio o café abajo o rubio o café a
![Page 25: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/25.jpg)
Intuitivamente, cualquier hoja con instancias de solo una clase no tendrá que dividirse después
Se desea que quede un árbol pequeño
Medida de la pureza de cada nodo Escoger el atributo que produzca los nodos hijos mas puros
¿Cuál es el mejor atributo?
![Page 26: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/26.jpg)
Información Se mide en fracciones de bit, y frecuentemente es menor a 1
Se asocia a cada nodo y se calcula con base al número de instancias de cada clase en él
Representa la cantidad de información esperada que sería necesaria para clasificar una instancia dada
Medida de Pureza
![Page 27: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/27.jpg)
Propiedades esperadas◦Cuando queda una sola clase, la
información debe ser cero◦Cuando el número de instancias de cada
clase es igual, la información alcanza su máximo valor
La función que satisface estas propiedades es conocida como entropía
Información
![Page 28: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/28.jpg)
Entropía
n
iiin pppppEntropía
1221 log,,,
Pi proporción de elementos en la clase Información del Sistema Información del atributo Información de cada rama Ganancia del atributo Se busca el atributo que provee la mayor
ganancia en información.
![Page 29: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/29.jpg)
1. Seleccionar un atributo
Estatura Cabello Ojos Clasealto negro azul abajo negro azul aalto rubio azul oalto rojo azul oalto rubio café abajo rubio azul obajo rubio café aalto negro café a
![Page 30: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/30.jpg)
Información del sistema
La entropía del sistema es:
0.4237949407 + 0.5306390622
954.083log8
38
5log85
22
)log()log(, 22212121 ppppppEntropía
![Page 31: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/31.jpg)
Información de CabelloEjemplo
01log1
33log3
3
2
2
01log1
11log1
1
2
2
12
121212102
12
2log1log2122
1log212
42log4
24
2log42
222
22
![Page 32: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/32.jpg)
Entropía sistema: 0.954 Entropía de la rama negro: 0 Entropía de la rama rojo: 0 Entropía de la rama rubio:1 Entropía de cabello:
Ganancia de cabello: Entropía del sistema – Entropía de Cabello G(cabello) = 0.954 -0.5 = 0.454
5.0184
081
083
![Page 33: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/33.jpg)
Ganancia al evaluar ojos
Ejemplo
9709505945.0
4421793565.0528771238.05
3log53
52log5
222
![Page 34: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/34.jpg)
Entropía sistema: 0.954 Entropía de la rama café: 0 Entropía de la rama azul: 0.971 Entropía de ojos:
Ganancia de ojos:
0.954 -0.607 = 0.347
607.0083
971.085
![Page 35: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/35.jpg)
Estatura Clasealto aalto aalto aalto oalto obajo abajo abajo o
9709505945.0
4421793565.0528771238.05
3log53
52log5
222
9182958341.0
5283208336.03899750005.03
1log31
32log3
222
![Page 36: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/36.jpg)
Entropía sistema: 0.954 bit Entropía de la rama bajo: 0.9183 Entropía de la rama alto: 0.971 Entropía de estatura:
Ganancia de estatura:
0.954 -0.9512 = 0.0028
9512375.09183.083
971.085
![Page 37: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/37.jpg)
Cabello Clase Estatura Cabello Clase Ojos
negro a alto negro a azul
negro a alto negro a azul
negro a bajo negro a café
rojo o alto rojo o azul
rubio a alto rubio o azul
rubio o alto rubio o azul
rubio a bajo rubio a café
rubio o bajo rubio a café
![Page 38: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/38.jpg)
![Page 39: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/39.jpg)
outlook temperature humidity windy Playovercast hot high false Playrain mild high false Playrain cool normal false Playovercast cool normal true Playsunny cool normal false Playrain mild normal false Playsunny mild normal true Playovercast mild high true Playovercast hot normal false Playsunny hot high false Don't Playsunny hot high true Don't Playrain cool normal true Don't Playsunny mild high false Don't Playrain mild high true Don't Play
![Page 40: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/40.jpg)
rainy
outlook
yesyesnonono
yesyesyesnono
yesyesyesyes
sunny overcast
temperature
yesyesnono
yes yesyesno
yesyesyesyesnono
hot mild cool
![Page 41: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/41.jpg)
humidity
yesyesyesnononono
yesyesyesyesyesyesno
highnormal
windy
yesyesyesyesyesyesnono
yesyesyesnonono
false true
![Page 42: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/42.jpg)
No se considera ningún atributo.
IS([9,5]) = -(9/14) lg (9/14) - (5/14) lg (5/14) = 0.4097 + 0.5305
= 0.940
Información del sistema
![Page 43: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/43.jpg)
De cada rama◦ ISunny ([2,3]) = 0.5287 + 0.4421 0.971◦ IOvercast ([4,0]) = 0◦ IRainy ([3,2]) = 0.4421 + 0.5287 0.971
Del atributo◦ IOutlook =
Información
693.0
971.0145
0144
971.0145
![Page 44: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/44.jpg)
GOutlook = IS - IOutlook= 0.940 - 0.693 = 0.247
GTemperature = IS - ITemperature= 0.940 - 0.911 = 0.029
GHumidity = IS - IHumidity= 0.940 - 0.788 = 0.152
GWindy = IS - IWindy= 0.940 - 0.892 = 0.048
Ganancia
![Page 45: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/45.jpg)
outlook
temperature
nono
yesno
yes
hot mild cool
... ...
sunny
humidity
nonono
yesyes
high normal
... ...
outlook
sunny
... ...
outlook
sunny
windy
yesyesnono
yesno
false true
![Page 46: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/46.jpg)
ISOutlook = 0.971 ITemperature = 0.4 GTemperature = 0.571 IHumidity = 0 GHumidity = 0.971 IWindy = 0.95098 GWindy = 0.020
Outlook - Sunny
![Page 47: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/47.jpg)
ISOutlook = 0.971 ITemperature = 0.95098 GTemperature = 0.20 IHumidity = 0.95098 GHumidity = 0.20 IWindy = 0 GWindy = 0.971
Outlook - Rainy
![Page 48: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/48.jpg)
outlook
windyhumidity yes
no yes yes no
sunnyovercast
rainy
high normalfalse true
![Page 49: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/49.jpg)
Atributos altamente ramificados Atributo identificador = información 0
No es bueno para predecir la clase de instancias desconocidas
La medida de ganancia de información tiende a preferir atributos con dominios grandes
Radio de Ganancia
![Page 50: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/50.jpg)
ID code
no no yes yes no
a b mn
c ...
![Page 51: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/51.jpg)
Se obtiene considerando el número y tamaño de los nodos hijos en los cuales el atributo divide al conjunto sin tomar en cuenta cualquier información acerca de la clase
Se realiza la información de la partición
Radio de Ganancia
![Page 52: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/52.jpg)
outlook temperatureinfo: 0.693 info: 0.911gain: 0.940- 0.693 0.247 gain: 0.940-0.911 0.029split info:info ( [ 5, 4, 5 ] ) 1.577 split info: info ( [ 4,6,4 ] ) 1.362gain ratio; 0.247/ 1.577 0.156 0.029/ 1.362 0.021
humidity windyinfo: 0.788 info: 0.892gain: 0.940- 0.788 0.152 gain: 0.940-0.892 0.048split info:info ( [ 7, 7 ] ) 1 split info: info ( [ 8, 6 ] ) 0.985gain ratio: 0.152 0.152 gain ratio: 0.048/ 0.985 0.049
577406283.15163871206.05305095811.02
144log14
414
5log1452 22
![Page 53: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/53.jpg)
El índice Gini es una medida para determinar el grado al que una población comparte un recurso.
El índice Gini básicamente nos indica la equidad en la distribución de un recurso.
Los valores del índice Gini van de 0 a 1, siendo 0 la mayor equidad en la distribución y 1 representa el mayor grado de desigualdad posible.
El Índice Gini
![Page 54: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/54.jpg)
Para calcular el índice Gini se utiliza la siguiente fórmula:
Nota: p(j|t) es la frecuencia relativa de la clase j en el nodo t.
La medida de información en un nodo es máximo 1-1/nc que es cuando existe una distribución uniforme y esto realmente no nos resulta interesante. El caso es interesante cuando el resultado es 0 ya que todos los registros pertenecen a una misma clase.
El Índice Gini
![Page 55: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/55.jpg)
Un ejemplo de esta medida es:
Para poder hacer una separación, necesitamos del índice Gini de separación:
Esto se calcula cuando dividimos un nodo p en k particiones o hijos.
Donde ni es el número de registros en el hijo i y n es el número de registros en el nodo que se esta investigando.
El Índice Gini Como Separador
![Page 56: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/56.jpg)
Basados en el criterio anterior, calculamos el índice Gini de separación para todas las posibles particiones y la que tenga el valor menor será la elegida para dividir el nodo.
Este criterio es utilizado en software como CART, SLIQ y SPRINT.
El Índice Gini Como Separador
![Page 57: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/57.jpg)
Para hacer algunos experimentos y comprobar resultados, pueden acudir a la siguiente dirección:
http://www.cs.ualberta.ca/~aixplore/learning/DecisionTrees/Applet/DecisionTreeApplet.html
Applet De Prueba
![Page 58: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/58.jpg)
Referencias
Witten I, & Frank E. Data Mining: Practical Machine Learning Tools and Technical with Java implementations. Morgan Kaufmann 2005.
Orallo Hernández J; Ramírez Quintana M; Ferri Ramírez C. Introducción a la Minería de Datos. Pearson 2008.
![Page 59: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/59.jpg)
Referencias
Pawet Cichosz; Data Mining Algorithms explained using R. Wiley 2015.
Richard J. Roiger and Michael W. Geatz. Data Mining: A tutorial – based primer. Addison Wesley 2003.
![Page 60: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/60.jpg)
Guion Explicativo
Este Material sirve para:◦ Explicar en qué consiste el aprendizaje
supervisado, particularmente la tarea de clasificación.
◦ Se presentan 3 algoritmos: One-Rule ID3 ID3 con Radio de Ganancia Índice GINI
![Page 61: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/61.jpg)
Guion Explicativo
Las diapositivas deben verse en orden, y deben revisarse aproximadamente en 6 horas.
A continuación se presenta una tabla para relacionar las dispositivas con los contenidos del curso.
![Page 62: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:](https://reader031.fdocuments.mx/reader031/viewer/2022013101/56a188a21a28abe545956656/html5/thumbnails/62.jpg)
Guion Explicativo
Nombre del Material: Técnicas de Minería de DatosObjetivo: Presentar al alumno el aprendizaje supervizado, especificamente, algoritmos
de clasificación.
Diapositivas Explicación1 - 3 Se utilizan para ubicar el material dentro de la unidad de aprendizaje.4-5 Se presentan el tema de clasificación6-19 Se muestra el algoritmo One-Rule con valores nominales y numéricos,
ejemplos y ejercicios20-48 Árboles de Decisión, Algoritmo ID3 de Ross Quinlan49-52 Se muestra como mejorar el resultado del ID3 utilizando el Radio de Ganancia
53-57 Se presenta el índice GINI utilizado en el algoritmo CART58-59 Fuentes de Información Consultadas