Mineria de datos

Post on 23-Jun-2015

871 views 1 download

description

Es aquí donde se introduce la minería de datos. Ésta, una tecnología cuyo objetivo es mirar los datos más allá de consultarlos; se analizan, se emplean variadas técnicas para ver que comportamientos tienen un subgrupo de éstos, grandes o pequeños, y se descubre nueva información, generando así nuevo conocimiento el cual puede ser de vital utilidad para el negocio y para sus tomas de decisiones.

Transcript of Mineria de datos

Trabajo de InvestigaciónICI344- Bases de datos.

Minería de datos.

Enzo Barbaguelatta D.Fernando Püschel A.

Nicolas Zárate G.

Bases de datos

• Mundo actual muy dependiente de la información.

• Generación de datos en masa.• Rápidas consultas de rápida

respuesta.• Empleo de bases de datos.

Pero…

• Éstas consultas son superficiales.• Principalmente no se ve mas allá de

los datos en “crudo”.• Datos podrían aprovecharse aun mas

de lo que ya se esta aprovechando actualmente.

Introducción a la minería de Datos.

Definición general

Minería de datos

Muchas definiciones.• Un mecanismo de explotación

consistente en la búsqueda de información valiosa en grandes volúmenes de datos.

• Análisis de bitácoras y archivos, buscando relaciones, patrones, reglas, las cuales pueden ser útiles para la toma de decisiones.

• Y mas…

(Data mining).

En el entorno comercial

• Una de las etapas de descubrimiento de la extracción de conocimiento en la información.

KDD

Extracción del conocimiento de la información.

Historia de la minería de datos

KDDKnowledge Discovery in Databases

• Los datos son la materia prima bruta.

• En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información.

• Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación de la información y ese modelo representen un valor agregado, entonces nos referimos al conocimiento.

• El proceso de KDD consiste en usar métodos de minería de datos (algoritmos) para extraer (identificar) lo que se considera como conocimiento.

• Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15% - 20% del esfuerzo total.

KDDKnowledge Discovery in Databases

Pasos del KDD

• Determinar las fuentes de información: Que pueden ser útiles y dónde conseguirlas.

• Diseñar el esquema de un almacén de datos (Data Warehouse): Que consiga unificar de manera operativa toda la información recogida.

Implantación del almacén de datos.

• Permitir la visualización de datos para discernir cuales estudiar.

Selección, limpieza y transformación de los datos que se van a analizar.

• La limpieza y pre-procesamiento de datos se logra diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, casos extremos (si es necesario), etc.

Pasos del KDD

• Seleccionar y aplicar el método de minería de datos apropiado: Se selecciona lo que se desea buscar, utilizando algoritmos y técnicas apropiadas para ello.

Búsqueda de patrones y su representación en modelos(dependiendo del algoritmo de minería).Pasos del KDD

• Evaluación, interpretación, transformación y representación de los patrones extraídos.

• Interpretar los resultados y posiblemente regresar a los pasos anteriores.

• Involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias.

• Requiere tener conocimiento del dominio.• La interpretación puede beneficiarse de

procesos de visualización, y sirve también para borrar patrones redundantes o irrelevantes.Pasos del KDD

• Difusión y uso del nuevo conocimiento.

• Incorporar el conocimiento

descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente. Pasos del KDD

Funcionamiento de la minería de datos.

Tipos, técnicas, algoritmos.

2 tipos esenciales

• Minería de datos predictiva (MDP).

Emplea uso de técnicas estadísticas.

• Minería de datos para el descubrimiento de la información (MMDC).

Uso de diversas técnicas de inteligencia artificial para obtener datos.

Funcionamiento

• Emplean técnicas de diversas ciencias para lograr su trabajo.

• Muchas veces se mezclan éstas para reforzar las técnicas.

• Han estado en constante evolución.

Sub-procesos data mining

• Extracción de datos.• Interpretación de éstos.

• Generación de nuevo conocimiento.

• La interpretación de los datos generalmente es apoyado por herramientas y personas no profesionales en los

campos.• Todo este proceso está basado en el método científico.

Procesos y Técnicas

• Técnicas de Visualización: Se utiliza para determinar calidad en los datos.

• Reglas de Asociación: Permite realizar asociaciones entre perfiles de los clientes.

• Descripción: Análisis preliminar de los datos, para aumentar el conocimiento posterior.

Extensiones de la MD

• WEB Mining: Aplicación de las técnicas de la MD a documentos y servicios webs.

• Text Mining: Examinación de las colecciones de documentos con el fin de encontrar información no contenida en ningún documento individual.

Resultados

• La minería de datos añade a la situación inicial nuevo conocimiento de calidad.

• Permite tener visión global de los datos, inclusive ocultos.

• Ayuda a una mejor toma de decisiones, y a hacer pronósticos de tendencias.

• Todo lo anterior puede trabajarse en masas grandes de datos, automáticamente.

• No necesariamente requiere de equipamiento especializado.

Pero también…

• Altos costos, tanto infraestructura como implementación.

• Personal especializado.• Puesta en marcha de largo plazo.

Difícil.• No existen estandarizaciones respecto

a la minería de datos.

Minería de datos en la actualidad.Casos de uso, presente y futuro

Aplicaciones de la MD

• FBI. Trata de buscar a potenciales terroristas, con antelación antes de que puedan cometer un atentado.

• Tiendas Comerciales. Busca conocer los hábitos de los clientes con respecto a los productos que compran.

• Deportes. La NBA utiliza la MD para apoyar a su cuerpo técnico en la toma de decisiones en las futuras tácticas.

• Televisión: Se puede estimar el rating de los programas.

• Entrevistas de trabajo: Se ocupa la MD para identificar las características de los empleados.

• Y más…

Aplicaciones de la MD

Futuro de la minería de datos.

• Muy bien aprovechado en el presente.• Tecnología aún emergente, aún falta más

investigación.• No hay estandarización.

• Nuevas técnicas emergentes.

Trabajo de InvestigaciónICI344- Bases de datos.

Minería de datos.