Sesión 9 [Modo de...

33
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Transcript of Sesión 9 [Modo de...

Page 1: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Fundamentos y Aplicaciones Prácticas

del Descubrimiento de Conocimiento

en Bases de Datos

- Sesión 9 -

Juan Alfonso Lara Torralbo1

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 2: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Índice de contenidos• Actividad. Qué es un modelo de Data Mining

• Qué es un modelo de Data Mining

• Actividad. Modelos de clasificación

• Modelos de clasificación

• Actividad. Modelos de clustering

• Modelos de clustering

• Actividad. Modelos de asociación

• Modelos de asociación

• Modelos de Data Mining 2

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 3: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Actividad. ¿Qué es un modelo de Data Mining?

Pensar, en grupo y sin Internet, qué es un modelo de data mining y dar una definición concisa y correcta

Poner en común

3

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 4: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

¿Qué es un modelo de Data Mining? (I)

• Modelo: Representación simbólica de una realidad

• En este caso, ¿cuál es esa realidad?

• Los datos de los que partimos

• Modelo de Data Mining : Representación simbólica obtenida a partir de un conjunto de datos y que representa a éstos

4

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 5: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

¿Qué es un modelo de Data Mining? (II)

• Con DM resolvemos diferentes tipos de problemas, llamados tareas

• Para ello, se aplican técnicas/algoritmos/métodos

• De cada uno de ellos, se obtienen diferentes tipos de modelos

• Esos modelos ayudan a resolver los diferentes tipos de problemas (tareas)

5

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 6: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

¿Qué es un modelo de Data Mining? (III)

• Los modelos deben ayudar a resolver problemas no triviales

• “Obtener la calificación media de los estudiantes de una universidad” ??

• DM no es pura estadística, aunque se apoye en ella

• Antes de utilizarlos, es necesario …

• VALIDARLOS6

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 7: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Actividad. Modelos de clasificación

Con lo visto hasta ahora, pensar en grupo (sin Internet) en un ejemplo de modelo de clasificación

Poner en común

7

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 8: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clasificación (I)• Tarea predictiva de data mining cuyo objetivo

es predecir el valor, desconocido, de un atributo para un determinado ejemplo

• Dicho atributo, que ha de ser de tipo cualitativo, se conoce con el nombre de atributo de clase .

• Para dicha predicción, se utilizan datos históricos de otros ejemplos en los que sí se conoce el valor de la clase.

• Para ello, por supuesto, es necesario aplicar alguna de las múltiples técnicas existentes. 8

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 9: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clasificación (II)

ÁRBOLES DE DECISIÓN

• Se construyen estructuras arborescentes que se pueden aplicar para decidir la clase de un ejemplo sin clasificar.

• Dichas estructuras se conocen con el nombre de árboles de decisión

• Se construyen analizando la capacidad clasificatoria de cada atributo

9

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 10: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clasificación (III)

ÁRBOLES DE DECISIÓN

10

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 11: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clasificación (IV)

REGLAS DE DECISIÓN

• Son equivalentes a los árboles

SI cielo = lluvioso Y viento = débil � jugar = Sí

SI cielo = cubierto � jugar = Sí

SI cielo = soleado Y humedad = normal � jugar = Sí

EN OTRO CASO � jugar = No

11

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 12: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clasificación (V)

TÉCNICAS BAYESIANAS

• Basadas en el Teorema de Bayes

• Se aplica para calcular probabilidades condicionadas de pertenencia del objeto a clasificar dentro de las diferentes clases.

• Naive Bayes es uno de los algoritmos bayesianos más conocidos para clasificación.

12

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 13: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clasificación (VI)

REDES DE NEURONAS ARTIFICIALES

• Estructuras de aprendizaje que se inspiran en el modo de funcionamiento del sistema nervioso de los animales

• Constan de una serie de nodos (neuronas) interconectados formando una red que colabora para producir una determinada salida.

• Dicha salida es la clase del objeto a clasificar.

13

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 14: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clasificación (VII)

REDES DE NEURONAS ARTIFICIALES

• Para llegar a producir dicha salida, la red neuronal ha de ser entrenada con un conjunto suficiente de casos de entrenamiento.

• Una de las redes neuronales más ampliamente utilizada en data mining para realizar clasificación es el Perceptrón Multicapa

14

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 15: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clasificación (VIII)

TÉCNICAS BASADAS EN CASOS

• Se compara el nuevo ejemplo a clasificar con los ejemplos existentes de los que se conoce su clase, buscando aquellos ejemplos más similares al ejemplo a clasificar.

• El algoritmo de los k vecinos más próximos (k-nearest-neighbors) es un ejemplo de este tipo de técnicas.

• El ejemplo a clasificar se compara con sus k vecinos más próximos, eligiendo como clase del nuevo ejemplo la clase mayoritaria de entre esos k vecinos 15

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 16: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Actividad. Modelos de clustering

Con lo visto hasta ahora, pensar en grupo (sin Internet) en un ejemplo de modelo de clustering

Poner en común

16

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 17: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clustering (I)

• Clustering (también llamada segmentación o agrupamiento ): dividir una población heterogénea en grupos homogéneos de objetos similares entre sí (cluster ).

• Para poder establecer los diferentes grupos de objetos similares entre sí, es necesario contar con un mecanismo que permita comparar cada par de objetos.

• En otras palabras, se requiere una medida de distancia o similaridad entre dichos objetos 17

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 18: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clustering (II)CLUTERING PARTICIONAL

• buscar una división del conjunto de datos en subconjuntos con intersección vacía.

• realizan una asignación de los objetos a los diferentes clusters en función de la proximidad de dichos objetos a un representante elegido para cada cluster.

• El número de clusters se indica inicialmente y, tras una serie de iteraciones, se alcanza una partición óptima de los datos.

• El algoritmo K-means (K-medias ) es el representante más conocido de esta categoría 18

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 19: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clustering (III)

CLUTERING JERÁRQUICO

• también llamado clustering basado en jerarquías

• se basan en la generación de sucesiones ordenadas (jerarquías) de clusters

• La estructura jerárquica se representa en forma de árbol y se llama dendograma

• AGNES (AGlomerative NESting) y DIANA (DIvisiveANAlysis) son dos de los algoritmos de clusteringjerárquico más conocidos

19

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 20: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clustering (IV)

CLUTERING BASADO EN DENSIDAD

• basados en el concepto de densidad de un punto

• Mide el número de puntos que son alcanzables desde él considerando un determinado radio.

• El algoritmo más conocido de clustering basado en densidad es DBSCAN

20

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 21: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clustering (V)CLUTERING BASADO EN GRID

• se basan en una división del espacio en un número finito de celdas que constituyen una estructura en forma de rejilla en la que se llevan a cabo las operaciones de clustering.

• Los objetos que se encuentran en cada celda son representados por un conjunto de atributos estadísticos de dicha celda. El agrupamiento se lleva a cabo utilizando la información estadística de cada celda, en vez de usar todo el conjunto de datos.

• STING es un ejemplo de algoritmo de clusteringbasado en grid 21

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 22: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de clustering (VI)

• EJEMPLO CON 3 CLUSTERS

Identificador de cluster Edad Salario Hijos Sexo Consumo

1 28 1200 0 H 38,9

2 47 1775 ≥1 H 99,1

3 33 1250 1 M 54,8

22

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 23: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Actividad. Modelos de asociación

Con lo visto hasta ahora, pensar en grupo (sin Internet) en un ejemplo de modelo de asociación

Poner en común

23

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 24: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de asociación (I)• Consiste en la identificación de reglas que relacionan

las diferentes variables en un conjunto de datos

• Dichas reglas se conocen con el nombre de reglas de asociación

• Se basan en la obtención previa de conjuntos de ítems frecuentes (denominados itemsets) y un análisis posterior de los mismos.

• Esos ítems frecuentes, pueden ser, por ejemplo, los productos que habitualmente compran juntos por los clientes de un supermercado

24

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 25: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de asociación (II)

• EJEMPLO DE REGLAS DE ASOCIACIÓN

Regla 1: Pan � Azúcar

Regla 2: Pan, Azúcar � Leche

Regla 3: Leche, Azúcar � Sal

Regla 4: Pan, Sal, Mantequilla � Leche

25

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 26: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de Data Mining (I)

• Los diferentes tipos de problemas de DM se conocen con el nombre de tareas

• Para resolver cada tarea, se aplican técnicas/métodos/algoritmos, que generan modelos de data mining

• Hay métodos asociados a tareas específicas

• Otros, son aplicables a varias tareas

• Lo iremos viendo …26

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 27: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de Data Mining (II)• Todos los modelos de data mining, se

construyen a partir de información histórica que se encuentra almacenada con anterioridad.

• Analizando dicha información se intenta encontrar conocimiento.

• En cualquier caso, el conocimiento se construye a partir de la información de que se dispone.

• A este tipo de planteamiento se le conoce con el nombre de?

• Aprendizaje inductivo 27

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 28: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de Data Mining (III)

• Los modelos de minería de datos se han de construir, en la medida de lo posible, con técnicas y algoritmos eficientes.

• En la mayoría de los casos, los modelos se construyen a partir de enormes volúmenes de datos que, en ocasiones, son difíciles de computar.

• Contar con algoritmos eficientes capaces de construir dichos modelos

28

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 29: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de Data Mining (IV)

• Expresividad de los modelos: grado de ajuste de los modelos a los datos a partir de los cuales se construyen

• El sobreajuste (overfitting): los modelos se ajustan a los datos de forma excesiva, con una expresividad exagerada.

• El subajuste (underfitting) es, precisamente, el problema contrario. En este caso, el modelo es tan genérico que apenas posee aplicabilidad.

29

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 30: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de Data Mining (V)

• Ejemplo de sobreajuste:

Un caso extremo de sobreajuste puede ser, por ejemplo, un árbol de decisión que tenga tantas ramas como objetos se hayan usado para construirlo. En ese caso, el árbol representa muy bien los datos de entrenamiento pero pierde generalidad y eficacia a la hora de ser aplicado a nuevos ejemplos.

30

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 31: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de Data Mining (VI)

• Ejemplo de subajuste:

Por ejemplo, si se quiere aplicar regresión sobre un conjunto de datos que manifiesta una naturaleza de tipo exponencial (se ajusta bien a una función exponencial), el uso de una técnica de regresión lineal no será adecuado para representar la tendencia de los datos, ya que causaría un mal ajuste del modelo a dichos datos.

31

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 32: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de Data Mining (VII)• ¿Todos los métodos generan modelos como tal?

• Se podría decir que NO

• Hay métodos que no crean modelos, sino que, en el momento que se solicita, hacen cómputos y generan un resultado

• Por ejemplo, clasificación bayesiana

• Ante un nuevo ejemplo a clasificar, se hacen cálculos probabilísticos y se obtiene la clase

• Método retardados, perezosos ( lazy) 32

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 33: Sesión 9 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/9/Sesión_09.pdf · 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Modelos de clasificación

Modelos de Data Mining (VIII)• Otros métodos sí que generan modelo antes de

ser aplicados

• De hecho, dicho modelo puede ser almacenado, enviado, compartido, etc., antes de ser utilizado

• Ejemplo: Árbol de decisión que se construye con un conjunto de datos de entrenamiento y se guarda para utilizarlo cuando llegue un nuevo elemento sin clasificar

• Métodos impacientes, anticipativos ( eager)33

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.