Mineria de datos - disi.unal.edu.codisi.unal.edu.co/~lctorress/iartificial/IAc009.pdf ·...
Transcript of Mineria de datos - disi.unal.edu.codisi.unal.edu.co/~lctorress/iartificial/IAc009.pdf ·...
Inteligencia artificial
Inte
ligen
cia
Art
ifici
al
Minería de datos
Inte
ligen
cia
Art
ifici
al
Contenido
Tendencias de crecimiento Habilitadores tecnológicos ¿Qué es Minería de Datos? Datos, información y conocimiento Hipótesis de Minería de datos
Inte
ligen
cia
Art
ifici
al
Generación de datos
Inte
ligen
cia
Art
ifici
al
NegociosCompañía telefónica
Tarjetas Débito/CréditoPréstamos (Banco)
CorreoEducación
Compras-VentasProducción
Generación de datos
Inte
ligen
cia
Art
ifici
al
El caos de datos
Muchas empresas tienen un gran volumen de datosacumulado históricamente.Se estima que el volumen de datos se duplica cadaaño.La rapidez y el volumen en la generación de datos seincrementa exponencialmente haciendo difícil su usoracional.Existen diversas aplicaciones con modelos de datospropios, pero falta un modelo de datos integrado.
Inte
ligen
cia
Art
ifici
al
El caos de datos
Causas:Las personas no entienden los datos que poseen.Alta redundancia de datos.
Desarrollo de sistemas de informaciónindependientes para resolver necesidades urgentes.
Datos heterogéneos (SMBD, SO, plataformas HW).Falta de METADATOS en las empresas.
Ausencia de un modelo de datos común.
Inte
ligen
cia
Art
ifici
al
El caos de datos
Adicional a esto se tiene:Incremento en capacidad de almacenamiento ⇒registro histórico en línea (de años o meses).Incremento en capacidad de procesamiento decomputadores ⇒ posibilidad de procesamiento delregistro histórico.Detener la generación de datos heterogéneos y crearun recurso de datos integrado que cumpla losrequerimientos actuales y futuros de información dela empresa.
Inte
ligen
cia
Art
ifici
al
El gran reto
Este recurso de datos integrado es denominadoBODEGA DE DATOS o Datawarehouse.
Un Data Warehouse (DW) es un almacén deinformación integrada, proveniente de sistemas deinformación transaccionales, con el objetivo deproveer datos para el análisis y la toma de decisiones.
Un DW provee los datos para los Data Marts quecorresponden a divisiones de una empresa.
Inte
ligen
cia
Art
ifici
al
El gran reto
Inte
ligen
cia
Art
ifici
al
Crecimiento exponencial
Libros en bibliotecas (red): 17 millonesEspacio por libro: 1 Mega
Espacio requerido: 17 terabytesTamaño de la base de datos de UPS para
registro de envíos: 17 terabytes
Inte
ligen
cia
Art
ifici
al
Crecimiento exponencial
Elemento 1950 2000 % crecim.
Población 16 millones 42 millones 2.8
Velocidad terrerste 100 millas/hr 400 millas/hr 4
Distancia 25000 millas 475000 millas 1,500
Velocidad aérea 200 millas/hr 25,000 millas/hr 12,500
Datos 10s Mega bytes 10s Tera bytes 100,000
Inte
ligen
cia
Art
ifici
al
Contenido
Tendencias de crecimiento Habilitadores tecnológicos
¿Qué es Minería de Datos? Datos, información y conocimiento Hipótesis de Minería de Datos
Inte
ligen
cia
Art
ifici
al
Habilitador tecnológico
Costo por megabyte en disco 1995: ≈ $50.00 USD
Costo por megabyte en disco 2005: ≈ $0.07 USD
Costo de un terabyte: $4,000 USD
Inte
ligen
cia
Art
ifici
al
Habilitador tecnológico
Velocidad de procesamientoComputador Alaska a 1.35 Gigaherts a $1,200 USDMemoria RAMPC con memoria RAM de 128M a 1 GigaPC con memoria 10 Giga
Inte
ligen
cia
Art
ifici
al
Paradoja
Ahogados en datos.
No se genera conocimiento.
Sufriendo por falta de información.
Inte
ligen
cia
Art
ifici
al
Contenido
Tendencias de crecimiento Habilitadores tecnológicos ¿Qué es Minería de Datos? Datos, información y conocimiento Hipótesis de Minería de Datos
Inte
ligen
cia
Art
ifici
al
Proceso
Herramientas
Mineros
ResultadosMetas
¿Qué es minería de datos?
Proceso para la extracciónde patrones significativosen grandes volumenes dedatos.
Inte
ligen
cia
Art
ifici
al
Minería de datos (MD)
Analogía entre búsqueda de una pepita de oro enuna mina y búsqueda de un dato relevante en una"mina de datos".
MD es la búsqueda de información valiosa y ocultaen grandes volúmenes de datos.
Inte
ligen
cia
Art
ifici
al
Minería de datos -Data Mining-
Minería de datos (Data Mining), la extracción deinformación oculta y predecible de grandes bases dedatos.Es una poderosa tecnología nueva con gran potencialpara ayudar a las compañías a concentrarse en lainformación más importante de sus bases de datos(Data Warehouse).La llegada del Data Mining se considera como laúltima etapa de la introducción de métodoscuantitativos, científicos en el mundo del comercio,industria y negocios.
Inte
ligen
cia
Art
ifici
al
Minería de datos (MD)
La minería de datos está muy ligada a las bodegas dedatos que proporcionan la información históricapara poder operar.
Inte
ligen
cia
Art
ifici
al
La MD puede ser dividida en:– Minería de Datos Predictiva (MDP) y Minería
de Datos para Descubrimiento deConocimiento (MDDC)
MDP usa primordialmente técnicas estadísticas.MDDC usa principalmente técnicas de IA.
Minería de datos (MD)
Inte
ligen
cia
Art
ifici
al
Estadística y Data Mining conducen al mismoobjetivo, el de efectuar "modelos" compactos ycomprensibles que rindan cuenta de las relacionesestablecidas entre la descripción de una situación yun resultado (o un juicio) relacionado con dichadescripción.
Data Mining y Estadística
Los no estadísticos -es decir el 99,5% de nosotros-pueden construir modelos exactos de algunas de susactividades, para estudiarlas mejor, comprenderlas ymejorarlas.
Inte
ligen
cia
Art
ifici
al
La diferencia reside en que las técnicas de DataMining construyen el modelo de manera automáticamientras que las técnicas estadísticas "clásicas"necesitan ser manejadas y orientadas por unprofesional.Las herramientas de Data Mining pueden respondera preguntas de negocios que tradicionalmenteconsumen demasiado tiempo para poder ser resueltasy a los cuales los usuarios de esta información casi noestán dispuestos a aceptar.
Inte
ligen
cia
Art
ifici
al
Análisis prospectivos
Las herramientas exploran las bases de datos enbusca de patrones ocultos, encontrando informaciónpredecible que un experto no puede llegar aencontrar porque se encuentra fuera de susexpectativas.Los análisis prospectivos automatizados ofrecidos porun producto así van más allá de los eventos pasadosprovistos por herramientas retrospectivas típicas desistemas de soporte de decisión.
Inte
ligen
cia
Art
ifici
al
Las herramientas de Data Mining predicen futurastendencias y comportamientos, permitiendo en losnegocios tomar decisiones proactivas y conducidaspor un conocimiento acabado de la información(knowledge-driven).Data Mining automatiza el proceso de encontrarinformación predecible en grandes bases de datos.Preguntas que tradicionalmente requerían un intensoanálisis manual, ahora pueden ser contestadasdirecta y rápidamente desde los datos.
Inte
ligen
cia
Art
ifici
al
Alcance de Minería de datos
Otros problemas predecibles incluyen pronósticos deproblemas financieros futuros y otras formas deincumplimiento, e identificar segmentos de poblaciónque probablemente respondan similarmente aeventos dados.
Data Mining usa datos en mailing promocionalesanteriores para identificar posibles objetivos paramaximizar los resultados de la inversión en futurosmailing.
Inte
ligen
cia
Art
ifici
al
¿Para qué se usa la minería de datos?
tarea
síntesis análisis
especifcar diseñar assemble
planear configurar modificar
predecir identificar controlar
clasificar diagnosticar monitorear
Inte
ligen
cia
Art
ifici
al
Tipos de tareas
Predicción y Clasificación
• Identificar (categoría)• Estimar (variables numéricas)• Pronosticar (series de tiempo)• Agrupar (clustering)• Asociar (reglas de afinidad)• Visualizar
Inte
ligen
cia
Art
ifici
al
Origen de la minería de datos
Data mining and Knowledge Discovery Data: KDD
Inteligencia Artificial: Machine Learning
Estadística
Arboles de decisión
Inducción de reglas
Redes neuronales
Redes bayesianas
Algoritmos genéticos
Lógica difusa
Análisis de Regresión
Cluster Analysis
Análisis discriminante
Muestreo
Inte
ligen
cia
Art
ifici
al
Supuestos de KDD
• El pasado es un buen predictor del futuro.
• Hay datos disponibles.
• Los datos contienen lo que queremos predecir.
Inte
ligen
cia
Art
ifici
al
Tipos de KDD
Directa o supervisada
Indirecta ó no-supervisada
Inte
ligen
cia
Art
ifici
al
Soportada por:– Recurso de datos integrado– Sistemas de información– Mecanismos de explotación de los datos.
Ingeniería de información
Inte
ligen
cia
Art
ifici
al
Contenido
Tendencias de crecimiento Habilitadores tecnológicos ¿Qué es Minería de Datos? Datos, información y conocimiento
Hipótesis de Minería de Datos
Inte
ligen
cia
Art
ifici
al
Crisis informática
Estrategias de negocio
Tecnologías de información
Inte
ligen
cia
Art
ifici
al
DSS y Tecnologías delconocimiento
DSS y KT
Estrategias de negocio
Tecnologías de información
Inte
ligen
cia
Art
ifici
al
Jerarquía de información
Símbolos
Datos Información Conocimiento
Expertise
Competencia
Inte
ligen
cia
Art
ifici
al
Elementos de competitividad
Negocios
Inteligencia de Negocios
Aprendizaje organizacional
Minería de datos
RDB, DWH, DMOLTP
SentidosOLAP
Memoria Razonamiento
Aprendizaje
Inte
ligen
cia
Art
ifici
al
Edos financ
BD Anunciantes
Demográficos
Perfiles genéricos
Cola de anuncios
Anuncios
Blackboard
Perfil de anunciantes
Tiendas
MineríaDe datos
AgentesPersonales
Clien tes
An un cia n tes
Experto enM erca d otecn i
a
Gen era d ores d econ ten id o
Uso de la Minería de datos
Inte
ligen
cia
Art
ifici
al
Metodología de Minería de datos
Definición del problema y establecimiento de metas
Obtención y preparaciónde datos
Construir modelo
Herramientasy técnicas
ResultadosUsar modelo
Evaluar resultados
Inte
ligen
cia
Art
ifici
al
Metas de negocio concretas
Incrementar en un 5% el volumen deventas del producto A en la región 5en los siguientes 3 meses.
Identificación de problemas
Inte
ligen
cia
Art
ifici
al
Metas de negocio concretas
Reducir en un 10% el desperdicio demateria prima en la producción delproducto Y en la línea de ensamble 3durante el mes de Octubre.
Identificación de problemas
Inte
ligen
cia
Art
ifici
al
Metas de negocio concretas
Encontrar las características demográficasde la población que comprará el producto Zen la zona norte durante el próximo año.
Identificación de problemas
Inte
ligen
cia
Art
ifici
al
Preparar los datos
Datamarts
Archivo
RDBMS
Datawarehouse
HojaExcel
Preparar datos
Tabla de datamining
Diversas fuentes de datos
Acces
Inte
ligen
cia
Art
ifici
al
Entender datos
Se debe entender no solo el contenido sino elsignificado (SEMÁNTICA) de los datos.
Desarrollo de metadatos para soportar elentendimiento completo de los datos.
Creación de modelo de datos común.
Inte
ligen
cia
Art
ifici
al
Integración de datosTransformación de todos los datos importantes ycríticos en un recurso de datos integrado.
Agregar datos
Almacenamiento de los datos operacionales parapermitir el análisis de tendencias, patrones yproyecciones que permitan aprovechar lasalternativas de negocio actuales y futuras.
Inte
ligen
cia
Art
ifici
al
Desplegar datos
Desplegado del recurso de datos, en contenido ysemántica en toda la empresa.El recurso global = Datawarehouse.El recurso local = Datamart.Metadatos Global = Clearing HousePrincipio Guía: ECOLÓGICO: PIENSAGLOBALMENTE ACTUA LOCALMENTE.
Inte
ligen
cia
Art
ifici
al
Ingeniería de información
El recurso de datos común puede ser construidousando la Ingeniería de Información: Disciplinapara identificar necesidades de información en lasorganizaciones y ofrecer mecanismos de explotaciónracional de información que permitan tomardecisiones oportunas y eficientes.
Inte
ligen
cia
Art
ifici
al
– Los datos sean correctos– Los reciban las personas correctas– En el lugar correcto– En el tiempo correcto– En la forma correcta– Al costo correcto
Para tomar las decisiones correctas y lasacciones correctas.
Ingeniería de información
Inte
ligen
cia
Art
ifici
al
Modelación
Conjuntode
pruebaModeloprobado
Construirmodelo
Modelodepurado
Conjuntode
depuración
Datos realesPrediccionesUsar
modelo
Conjuntode
entrenamientoModeloinicial
Inte
ligen
cia
Art
ifici
al
Modelado de datos
Modelado de procesos (DFD’s, BP’s)Modelado conceptual (E-R)Modelado lógico (Normalización, distribución dedatos)Modelado físicoModelado multidimensional
Inte
ligen
cia
Art
ifici
al
Modelado multidimensional
En el modelado dimensional se necesita laidentificación de tablas de dimensiones y de tablasde hechos.Las tablas de dimensiones permiten la ubicación(temporal, espacial, etc.) de los eventos que sondefinidos en las tablas de hechos.Consideremos una cadena de tiendas decomodidad.Con tres dimensiones: Geográfica, Temporal y deProductos, y la tabla de hechos sería la compra deun producto.
Inte
ligen
cia
Art
ifici
al
La dimensión geográfica permite localizar unatienda en particular. Los niveles de la geografíason: Calle, colonia, municipio, estado, país (5niveles de detalle).La dimensión temporal permite ubicar un eventode venta en los niveles: Hora, día, semana,quincena, mes, año (6 niveles de detalle)
Modelado multidimensional
Inte
ligen
cia
Art
ifici
al
La dimensión Producto, permite identificar elproducto que es vendido, los niveles de productoson: Producto, subfamilia, familia (3 niveles dedetalle).En este sentido se tiene un mapa tridimensional,que ubica una venta de un producto, a una horaparticular y en una tienda específica.
Modelado multidimensional
Inte
ligen
cia
Art
ifici
al
Este modelo multidimensional permite ladefinición de niveles de detalle en cada dimensión.Se tiene la posibilidad de definir: 5 x 6 x 3= 90Combinaciones de Niveles de Detalle.Adicionalmente es posible dejar FIJO una o lastres dimensiones (dando un total de 8combinaciones).Se tiene entonces 8 x 90= 720 diferentes reportes.
Modelado multidimensional
Inte
ligen
cia
Art
ifici
al
Esto da una idea de que el número posible dereportes a obtener podría ser gigantesco, por loque surge el concepto de REPORTES BAJODEMANDA.Es decir, que el usuario configure dinámicamenteel reporte que necesita.
Modelado multidimensional
Inte
ligen
cia
Art
ifici
al
Mecanismos de explotación
Lenguajes de consulta (SQL, QBE, etc.)DSSOLAP(Bases de datos multidimensionales)MINERÍA DE DATOS (Agrupamiento, Análisisestadístico, Redes neuronales, Algoritmosgenéticos, etc.)
Inte
ligen
cia
Art
ifici
al
Clementine SPSSEnterprise Miner SASMine Set SGIIntelligent Miner IBMCART Salford SystemsSee5BonsáiProspect
Arboles de decisiónEntropíaGini
Redes BayesianasClasificador Bayesiano
Redes neuronalesRetropropagaciónMapas autoorganizados
Técnicas y herramientas
Inte
ligen
cia
Art
ifici
al
Técnicas MD
Algoritmos genéticos– Inspirados en el principio de la supervivencia
de los más aptos.– La recombinación de soluciones buenas en
promedio produce mejores soluciones.– Analogía con la evolución natural.
Sistemas clasificadores.
Inte
ligen
cia
Art
ifici
al
Programación genética. Se basan en laevolución de programas de computo quepermitan explicar o predecir con mínimo errorun determinado fenómeno.Redes bayesianas. Buscan determinarrelaciones causales que expliquen unfenómeno en base a los datos contenidosen una base de datos. Se han usadoprincipalmente para realizar predicción.
Técnicas MD
Inte
ligen
cia
Art
ifici
al
Arboles de decisión
Inte
ligen
cia
Art
ifici
al
Reg Color Resid EdoCiv Ing Edad EquipoR1 amar Iba sol $$ jov TolR2 rojo Cali cas $ adu AmeR3 amar Cali sol $$ nin CaliR4 amar Med cas $$$ adu EnvR5 amar Med sol $$ jov NacR6 rojo Nei sol $$ jov HuiR7 rojo Med cas $$ jov MedR8 amar Bar sol $ adu JunR9 rojo Pas cas $$ jov PasR10 rojo Cuc sol $$$ adu CucR11 amar Buc sol $ jov BucR12 rojo Per cas $ adu PerR13 rojo Arm sol $$ jov Qui
Arboles de decisión
Inte
ligen
cia
Art
ifici
al
Casos de estudio
Empresas comerciales Bancos Televisoras Estaciones de radio Industrias (del papel, plástico, …) Otros casos
Inte
ligen
cia
Art
ifici
al
Aplicaciones MD
Afinidad de productos.Segmentación de mercado (Clustering)Fidelidad de clientesDeterminar montos de créditoProbabilidad de respuesta satisfactoria atratamiento médicoDetección de fraudes en tarjetas de crédito
Inte
ligen
cia
Art
ifici
al
Detección de evasión fiscalDeterminación de niveles de audiencia deprogramas televisivos.Normalización automática de BDDeterminación de bonos por desempeñoDeterminación de la Estrategia de juego.
Aplicaciones MD
Inte
ligen
cia
Art
ifici
al
TV
Telereport
BD
Pronósticos
Presentación deresultados
Ratings porprograma por
canal
Aplicación de Minería de datos
Preparaciónde datos
Tabla deDM
Programación
Uso delModelo
ConstrucciónModelo
KB
Inte
ligen
cia
Art
ifici
al
Share por Canaly
EncendidosTotales
Share OtrosCanales
Pronósticosde Ratings
Aplicación de Minería de datos
CalculaEncendidos
y
Calcularatings por canal
y
Inte
ligen
cia
Art
ifici
al
Aplicación de Minería de datos
Si se dota el cajero con pocosfondos, se quedará sin dinero ydará un mal servicio al cliente.
Si se dota el cajero con muchodinero, habrá un costofinanciero asociado con el dineroimproductivo.
Definición del problema
Pronóstico de efectivo encajeros automáticos
Inte
ligen
cia
Art
ifici
al
Aplicación de Minería de datos
Meta de negocio:Actualmente: 3 pesos por
cada peso entregado, y5% de cajeros sin dinero
Meta: 2 pesos por cadapeso entregado y 2.5% decajeros sin dinero.
Inte
ligen
cia
Art
ifici
al Presentación deresultados
Pronóstico porCajero y por
día
Pronósticos
Sistemacajeros
Aplicación de Minería de datos
Tabla deDM
Preparaciónde datosBD
Programación
Uso de la RN
Construcción RNde Kohonen
KB
Inte
ligen
cia
Art
ifici
al
Contenido
Tendencias de crecimiento Habilitadores tecnológicos ¿Qué es Minería de Datos? Datos, información y conocimiento Hipótesis de Minería de Datos
Inte
ligen
cia
Art
ifici
al
Múltiples áreas deoportunidad
Necesidad de recursoshumanos capacitados en el
uso tecnologíasinteligentes
Inte
ligen
cia
Art
ifici
al
Matemática
Minería deDatos
Robótica
Ingeniería delConocimiento
Logística yDSS
Cibernética yTeoría deInformación
Ciencias de lo artificial:
Inteligencia Artificial
Lógica
HCI
Diseño
Computabilidad
Ingeniero en Sistemas
Inteligentes
Inte
ligen
cia
Art
ifici
al
Conclusiones
Es fundamental la construcción de un recurso dedatos integrado que soporte las necesidades deinformación.Las bodegas de datos proporcionan el recurso dedatos integrado con el cuál los algoritmos deminería de datos proporcionan informaciónnecesaria para la toma de decisiones.
Inte
ligen
cia
Art
ifici
al
Se deben construir herramientas y estrategiaspara gestionar conocimiento a partir de los datosexistentes.Hay que eliminar la creación de sistemas deinformación particulares en organizaciones.Crear un modelo global: MetadatosDeben definirse nuevas herramientas paraprocesar los datos en busca de información.
Inte
ligen
cia
Art
ifici
al
Bibliografía
Building the Data Warehouse. W.H. Inmon, JohnWiley and Sons, 1996, 2o. Edición.Data Warehouses Performance. W.H. Inmon, JohnWiley and Sons, 1997.The Data Model Resource Book. Len Silverson,W.H. Inmon, Kent Graziano, John Wiley andSons.The Data Warehouse Toolkit: Practical Techniquesfor Building Dimensional Data Warehouses. RalphKimball, John Wiley and Sons, 1996.
Inte
ligen
cia
Art
ifici
al
The Data Warehouse Lifecycle. Ralph Kimball, JohnWiley and Sons, 1997.OLAP Solutions: Building MultidimentionalInformation Sysmens. Eric Thompsen, John Wileyand Sons, 1997.Data Warehousing, Data Mining and OLAP. AlexBerson, Stephen J. Smith, McGraw Hill, 1997.Data Warehousing for Dummies. Alan Simon, IDGBooks, 1997.90 Days to the Data Marts. Alan Simon, John Wileyand Sons, 1997.
Bibliografía
Inte
ligen
cia
Art
ifici
al