Mineria de datos
-
Upload
elsemieni -
Category
Technology
-
view
871 -
download
1
description
Transcript of Mineria de datos
Trabajo de InvestigaciónICI344- Bases de datos.
Minería de datos.
Enzo Barbaguelatta D.Fernando Püschel A.
Nicolas Zárate G.
Bases de datos
• Mundo actual muy dependiente de la información.
• Generación de datos en masa.• Rápidas consultas de rápida
respuesta.• Empleo de bases de datos.
Pero…
• Éstas consultas son superficiales.• Principalmente no se ve mas allá de
los datos en “crudo”.• Datos podrían aprovecharse aun mas
de lo que ya se esta aprovechando actualmente.
Introducción a la minería de Datos.
Definición general
Minería de datos
Muchas definiciones.• Un mecanismo de explotación
consistente en la búsqueda de información valiosa en grandes volúmenes de datos.
• Análisis de bitácoras y archivos, buscando relaciones, patrones, reglas, las cuales pueden ser útiles para la toma de decisiones.
• Y mas…
(Data mining).
En el entorno comercial
• Una de las etapas de descubrimiento de la extracción de conocimiento en la información.
KDD
Extracción del conocimiento de la información.
Historia de la minería de datos
KDDKnowledge Discovery in Databases
• Los datos son la materia prima bruta.
• En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información.
• Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación de la información y ese modelo representen un valor agregado, entonces nos referimos al conocimiento.
• El proceso de KDD consiste en usar métodos de minería de datos (algoritmos) para extraer (identificar) lo que se considera como conocimiento.
• Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15% - 20% del esfuerzo total.
KDDKnowledge Discovery in Databases
Pasos del KDD
• Determinar las fuentes de información: Que pueden ser útiles y dónde conseguirlas.
• Diseñar el esquema de un almacén de datos (Data Warehouse): Que consiga unificar de manera operativa toda la información recogida.
Implantación del almacén de datos.
• Permitir la visualización de datos para discernir cuales estudiar.
Selección, limpieza y transformación de los datos que se van a analizar.
• La limpieza y pre-procesamiento de datos se logra diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, casos extremos (si es necesario), etc.
Pasos del KDD
• Seleccionar y aplicar el método de minería de datos apropiado: Se selecciona lo que se desea buscar, utilizando algoritmos y técnicas apropiadas para ello.
Búsqueda de patrones y su representación en modelos(dependiendo del algoritmo de minería).Pasos del KDD
• Evaluación, interpretación, transformación y representación de los patrones extraídos.
• Interpretar los resultados y posiblemente regresar a los pasos anteriores.
• Involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias.
• Requiere tener conocimiento del dominio.• La interpretación puede beneficiarse de
procesos de visualización, y sirve también para borrar patrones redundantes o irrelevantes.Pasos del KDD
• Difusión y uso del nuevo conocimiento.
• Incorporar el conocimiento
descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente. Pasos del KDD
Funcionamiento de la minería de datos.
Tipos, técnicas, algoritmos.
2 tipos esenciales
• Minería de datos predictiva (MDP).
Emplea uso de técnicas estadísticas.
• Minería de datos para el descubrimiento de la información (MMDC).
Uso de diversas técnicas de inteligencia artificial para obtener datos.
Funcionamiento
• Emplean técnicas de diversas ciencias para lograr su trabajo.
• Muchas veces se mezclan éstas para reforzar las técnicas.
• Han estado en constante evolución.
Sub-procesos data mining
• Extracción de datos.• Interpretación de éstos.
• Generación de nuevo conocimiento.
• La interpretación de los datos generalmente es apoyado por herramientas y personas no profesionales en los
campos.• Todo este proceso está basado en el método científico.
Procesos y Técnicas
• Técnicas de Visualización: Se utiliza para determinar calidad en los datos.
• Reglas de Asociación: Permite realizar asociaciones entre perfiles de los clientes.
• Descripción: Análisis preliminar de los datos, para aumentar el conocimiento posterior.
Extensiones de la MD
• WEB Mining: Aplicación de las técnicas de la MD a documentos y servicios webs.
• Text Mining: Examinación de las colecciones de documentos con el fin de encontrar información no contenida en ningún documento individual.
Resultados
• La minería de datos añade a la situación inicial nuevo conocimiento de calidad.
• Permite tener visión global de los datos, inclusive ocultos.
• Ayuda a una mejor toma de decisiones, y a hacer pronósticos de tendencias.
• Todo lo anterior puede trabajarse en masas grandes de datos, automáticamente.
• No necesariamente requiere de equipamiento especializado.
Pero también…
• Altos costos, tanto infraestructura como implementación.
• Personal especializado.• Puesta en marcha de largo plazo.
Difícil.• No existen estandarizaciones respecto
a la minería de datos.
Minería de datos en la actualidad.Casos de uso, presente y futuro
Aplicaciones de la MD
• FBI. Trata de buscar a potenciales terroristas, con antelación antes de que puedan cometer un atentado.
• Tiendas Comerciales. Busca conocer los hábitos de los clientes con respecto a los productos que compran.
• Deportes. La NBA utiliza la MD para apoyar a su cuerpo técnico en la toma de decisiones en las futuras tácticas.
• Televisión: Se puede estimar el rating de los programas.
• Entrevistas de trabajo: Se ocupa la MD para identificar las características de los empleados.
• Y más…
Aplicaciones de la MD
Futuro de la minería de datos.
• Muy bien aprovechado en el presente.• Tecnología aún emergente, aún falta más
investigación.• No hay estandarización.
• Nuevas técnicas emergentes.
Trabajo de InvestigaciónICI344- Bases de datos.
Minería de datos.