OpenAnalytics - Evolución y novedades de Pentaho 513/02/2014
OpenAnalytics - Minería de datos por Diego García (Unican)
-
Upload
openanalytics-spain -
Category
Technology
-
view
1.866 -
download
1
description
Transcript of OpenAnalytics - Minería de datos por Diego García (Unican)
![Page 1: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/1.jpg)
Introducción a la Minería de DatosDiego García Saiz
Grupo de Lenguajes y Sistemas InformáticosDepartamento de Matemáticas, Estadística y ComputaciónUniversidad de Cantabria
![Page 2: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/2.jpg)
Estructura de la presentación• Una pequeña introducción al contexto.
• Qué es Minería de Datos…
– … y qué no es Minería de Datos.
• No sólo se trata de modelar: CRISP-DM.
• Los 3 grandes pilares: ejemplos en el mundo real.
– Agrupación (clustering).
– Reglas de Asociación.
– Predicción: clasificación.
• Herramientas de uso libre: Weka, RapidMiner y Knime.
![Page 3: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/3.jpg)
Introducción al contexto• Gran cantidad de datos almacenados.
– Por parte de empresas: marketing, hipermercados, servicios, banca, etc.
– Redes Sociales: Facebook, Twitter, Tuenti, LinkedIn y otras muchas.
– Y en muchos otros ámbitos: educativo (cursos online), institucional (gobierno), médico, etc.
• ¿Qué hacer con todos esos datos?.
– Podríamos utilizarlos para extraer información relevante con el objeto de ayudar a la toma de decisiones en el negocio, el gobierno, la sanidad, la educación, las ventas, etc.
– Para esto tenemos la Minería de Datos.
![Page 4: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/4.jpg)
¿Minería de datos?. Definición formal
• El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explotar grandes cantidades de datos, de forma automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
Más simple: La minería de datos es un proceso consistente en entender y extraer información relevante para el desarrollo del negocio, que no podría extraerse de otra forma.
![Page 5: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/5.jpg)
Qué es y qué no es Minería de Datos
• Extracción de los datos de una Base de Datos.
• Preparación de los datos para extraer información.
• Generación de gráficos estadísticos de los datos.
• Extracción del conocimiento “oculto” en los datos.
![Page 6: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/6.jpg)
No sólo de extraer patrones viven los “datamineros”: CRIPS-DM
![Page 7: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/7.jpg)
Los 3 grandes pilares
• Reglas de asociación.
• Agrupamiento (clustering).
• Predicción: clasificación.
![Page 8: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/8.jpg)
Reglas de asociación
• Conjunto de técnicas que retornan todos los patrones encontrados en el conjunto de datos que cumplan los parámetros de entrada.
• Usado cuando no se tiene un objetivo específico sobre la información que se busca.
• Algunos de los algoritmos más conocidos:
• Apriori
• PredictiveApriori
• Tertitus
• Yacaree
![Page 9: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/9.jpg)
Reglas de asociación: Ejemplo
• Cesta de la compra (problema típico de marketing y ventas): ¿qué productos se compran usualmente juntos?.
• El conjunto de datos contiene, por cada compra de un cliente, que productos adquirió y cual fue el precio final de su compra.
• Ejemplo de productos:
• Comestibles (pan, agua, fruta…)
• Consumibles electrónicos (tóners, baterías…)
• Electrodomésticos (lavadoras, laptops, reproductores…)
• …
![Page 10: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/10.jpg)
Reglas de asociación: Ejemplo
• Resultado parcial de aplicar el algoritmo Apriori con una restricción de las reglas de un 70% en confianza.
• baking needs & biscuits & cheese & fruit & vegetables ==> bread and cake confianza: 90%
• fruit & potatoes ==> vegetables confianza: 89%
• milk-cream & beef & vegetables ==> fruit confianza: 78%
![Page 11: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/11.jpg)
• Conjunto de técnicas de Minería de Datos que determinan y asignan a los individuos a grupos de similares características.
• Ejemplo: Perfil de los alumnos en un curso online según la actividad que desarrollan.
• Como datos, tenemos su actividad en el curso medida en:
• Tiempo dedicado
• Número de sesiones
• Mensajes leídos y escritos en el foro
• Etc.
Agrupamiento (clustering)
![Page 12: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/12.jpg)
Agrupamiento: Ejemplo
• Resultado de aplicar el algoritmo Kmeans:
…
Attribute Full Data (resumen)
Cluster (Grupo) 1
Cluster (Grupo) 2
Cluster (Grupo) 3
Nº of students 67 21 31 15Age 22 22 23 19Gender Man Man Woman ManTotal Time 1138 1394 104 2917Number of Sessions 74 94 8 180
![Page 13: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/13.jpg)
Predicción: Clasificación
• Consiste en la clasificación de individuos en una determinada clase según sus características, para poder inferir predicciones en un futuro.
• Ejemplos: conocer si…
• … un cliente realizará una hipoteca con el banco.
• … las acciones de una empresa subirán o bajarán en un momento determinado.
• … un fruto del bosque o una seta es comestible o venenosa.
• … un alumno aprobará o suspenderá una asignatura.
• … un paciente tiene una enfermedad concreta según sus síntomas y datos personales.
• … una campaña de marketing tendrá éxito.
![Page 14: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/14.jpg)
Clasificación: Ejemplo 1
• Doctor, ¿tengo hipertiroidismo?
• Conjunto de datos: contiene la información de pacientes reales con sus síntomas, niveles de hormonas y diagnóstico.
• Resultados (algoritmo Jrip):
(tumor = t) and (T3level >= 2.9) and (TT4level <= 147) => class=goitre
(T3level >= 3.3) and (age >= 54) and (TT4level <= 142) and (age <= 63) and (T4Ulevel >= 0.95) => class=t3toxic
(FTIlevel >= 168) and (T3level >= 3.5) => class=hyperthyroid
…
(FTIlevel >= 209) and (age <= 41) => class=hyperthyroid
=> class=negative
![Page 15: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/15.jpg)
Clasificación: Ejemplo 2
• Campaña de marketing telefónico de un banco portugués para atraer clientes de depósitos
• Conjunto de datos: contiene información personal de los clientes, incluida información bancaria.
• Estado civil (soltero, casado, viudo)
• Sexo
• Edad
• Mes de la llamada
• Hipotecas del cliente en el banco
• Créditos del cliente en el banco
• Y muchos otros…
![Page 16: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/16.jpg)
• Resultados (algoritmo C4.5)
Duration
Age
Married
Credit
<= 211
> 211 and <=645
Clasificación: Ejemplo 2 (2)
> 645
> 60
yes
yesno
no
…
…
…
NO
YESNO
![Page 17: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/17.jpg)
Herramientas libres
• Weka
• Pionera en su género.
• Multitud de algoritmos.
• http://www.cs.waikato.ac.nz/ml/weka/
• RapidMiner
• Interfaz Gráfica sencilla de utilizar.
• Hace uso de todos los algoritmos ofrecidos por Weka y de los suyos propios.
• http://rapid-i.com/content/view/181/190/
• KNIME
• Herramienta joven. Interfaz Gráfico de uso sencillo.
• Implementada como plugin en Eclipse. Fácil de extender con nuevos algoritmos “ad hoc”.
• http://www.knime.org/
![Page 18: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/18.jpg)
Weka: un caso de uso
![Page 19: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/19.jpg)
Weka: un caso de uso
![Page 20: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/20.jpg)
Weka: Tratamiento de datos
![Page 21: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/21.jpg)
Weka: Técnicas de tratamiento
![Page 22: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/22.jpg)
Weka: Clasificación
![Page 23: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/23.jpg)
Weka: Clustering
![Page 24: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/24.jpg)
Weka: Reglas de asociación
![Page 25: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/25.jpg)
Weka: Visualización
![Page 26: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/26.jpg)
Weka: ejemplo de clasificación
![Page 27: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/27.jpg)
Weka: escogiendo la técnica
![Page 28: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/28.jpg)
Weka: clasificación con J48
![Page 29: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/29.jpg)
Weka: resumen de resultados
![Page 30: OpenAnalytics - Minería de datos por Diego García (Unican)](https://reader033.fdocuments.mx/reader033/viewer/2022052905/55869b0bd8b42aab558b4729/html5/thumbnails/30.jpg)
Las preguntas no son nunca indiscretas. Las respuestas, a veces sí. Oscar Wilde