299775.2011

190
  METODOLOGÍA PARA EL DESARROLLO DE UN SISTEMA DE INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO EDWAR JAVIER HERRERA OSORIO Universidad Nacional de Colombia Facultad de ingeniería, Departamento de ingeniería de sistemas e industrial Bogotá, Colombia 2011

Transcript of 299775.2011

METODOLOGA PARA EL DESARROLLO DE UN SISTEMA DE INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO

EDWAR JAVIER HERRERA OSORIO

Universidad Nacional de Colombia Facultad de ingeniera, Departamento de ingeniera de sistemas e industrial Bogot, Colombia 2011

METODOLOGA PARA EL DESARROLLO DE UN SISTEMA DE INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO

EDWAR JAVIER HERRERA OSORIO

Tesis o trabajo de investigacin presentada(o) como requisito parcial para optar al ttulo de: Magster en Ingeniera de sistemas y Computacin

Directora: Elizabeth Len Guzmn Ph. D. en Ciencias de la Computacin

Lnea de Investigacin: Sistemas de informacin Grupo de Investigacin: MIDAS: Grupo de Investigacin en Minera de Datos

Universidad Nacional de Colombia Facultad de ingeniera, Departamento de ingeniera de sistemas e industrial Bogot, Colombia Ao

Agradecimientos a Dios, a mi esposa y a mi familia en especial a mi madre y hermano. Tambin a la Universidad Nacional de Colombia y a la Universidad Antonio Nario por su apoyo para el desarrollo y exposicin de esta metodologa a nivel nacional e internacional. A la profesora Elizabeth Len por su dedicacin y motivacin permanente para desarrollo de esta tesis.

Resumen y Abstract

VII

ResumenTodo sistema de inteligencia de negocios se compone por dos procesos [13], la integracin (bodega de datos) y el anlisis de los datos (OLAP o tcnicas de minera de datos).

En la integracin de datos se desarrolla el modelo conceptual, lgico y fsico de la bodega de datos. Estos se logran siguiendo varias metodologas [1, 5, 7, 44 y 45]. Una de estas es el proceso de ingeniera para la bodega de datos [24] (en ingls: Data Warehouse Engineering Process DWEP), la cual se basa en el proceso unificado de desarrollo de software, su objetivo es acometer el diseo de todas las fases y aspectos relevantes de la bodega de datos, incluyendo el anlisis de las fuentes de datos, los procesos ETL y sus propios esquemas.

Dado que la bodega de datos es un repositorio de datos histricos libre de errores, la idea es realizar su anlisis. Esto permite proponer una metodologa para el desarrollo de los sistemas de inteligencia de negocios denominada BIEP (en ingles Business Intelligence Engineering Process).

Como parte del proceso de control y verificacin de los resultados, se desarroll un prototipo de software CASE basado en la metodologa BIEP. Su entorno de desarrollo fue Eclipse Galileo 2010 por medio de perfiles UML y de sus paquetes de modelamiento: Eclipse Modeling Framework (EMF) y Graphical Modeling Framework (GMF), que permite disear de manera integrada la bodega y el anlisis de datos.

Para la validacin de la metodologa se llev a cabo un caso de estudio en el prstamo de libros de la biblioteca central de la universidad Antonio Nario.

Palabras clave: Proceso unificado, Bodega de datos, Minera de datos, inteligencia de negocios, Proceso de ingeniera en inteligencia de negocios, perfiles UML.

VIII

Ttulo de la tesis o trabajo de investigacin

AbstractA business intelligence system is composed of two process [13], integration (data warehouse) and analysis of data (OLAP or data mining technique (DM)).

In the data integration model is developed conceptual, logical and physical data warehouse. These are achieved by following various methodologies [1, 5, 7, 44 and 45]. One of these is data warehouse engineering process (DWEP) [24], which is based on the unified process for software development, its objective is to undertake the design of all phases and relevant aspects of the data warehouse, including analysis of the data sources, ETL processes and their own schemes.

Since the data warehouse is a repository of historical data free of errors, the idea is to perform analysis. This allows us to propose a methodology development of business intelligence process engineering (BIEP).

As part of process control and verification of the results, we developed a software prototype based on the methodology BIEP. This development environment was Eclipse Galileo 2010 through UML profiles and their modeling packages: Eclipse Modeling Framework (EMF) and Graphical Modeling Framework (GMF), which allows an integrated design the winery and the data analysis. In addition, implement the profile data warehouse conceptual scheme (DWCS) in the software "Visual Paradigm for UML 8.1 Enterprise Edition", validating that this can be used on tools that support MOF.

To validate the methodology, development a case study in the loan books of the central library of the University Antonio Nario.

Keywords: unified process (UP), data warehouse (DW), data mining (DM), business intelligence (BI), Data Warehouse Engineering Process (DWEP), Business Intelligence Engineering Process (BIEP), UML profile.

Contenido

IX

ContenidoPg. Resumen ........................................................................................................................ VII Lista de figuras .............................................................................................................. XII Lista de tablas .............................................................................................................. XV Introduccin .................................................................................................................... 1 1. Captulo 1 (Estado del Arte) ..................................................................................... 7 1.1 Proceso de Inteligencia de Negocios ............................................................... 7 1.1.1 Integracin de fuentes de datos. ........................................................... 9 1.1.2 Anlisis de datos. ................................................................................ 11 1.1.3 Problemas en el proceso de inteligencia de negocios ......................... 14 1.2 Lenguaje de Modelado Unificado U.M.L. ....................................................... 16 1.3 Metodologas para el modelamiento de bodegas de datos basada en el proceso unificado. .................................................................................................... 17 1.3.1 Fases de la metodologa DWEP y UP. ................................................ 19 1.3.2 Flujos de trabajo aplicados al proceso DWEP ..................................... 20 1.3.3 Impacto del DWEP. ............................................................................. 22 1.4 Metodologas para el proceso de anlisis de datos. ....................................... 23 1.4.1 Metodologa aplicada a OLAP ............................................................. 23 1.4.2 Metodologa para la aplicacin en Minera de Datos ........................... 24 1.5 Minera de datos sobre DW basada en UML ................................................. 25 1.5.1 Reglas de Asociacin .......................................................................... 26 1.5.2 Clasificacin ........................................................................................ 27 1.5.3 Agrupamiento ...................................................................................... 28 1.5.4 Anlisis de Tiempo .............................................................................. 29 1.6 2.6 RESUMEN DEL CAPITULO .................................................................... 30

2. Captulo 2 (Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP))............................................................................................................ 31 2.1 Elementos de una metodologa de inteligencia negocios. .............................. 32 2.2 Desarrollo de la metodologa ......................................................................... 33 2.2.1 Fases y flujos de trabajo de BIEP........................................................ 34 2.2.2 Modelos de BIEP ................................................................................ 35 2.2.3 Diagramas de BIEP ............................................................................. 37 2.2.4 Perfiles de UML aplicados a la metodologa BIEP ............................... 38 2.2.5 Pasos para aplicar BIEP ..................................................................... 38 2.3 Perfiles de UML aplicados a BIEP ................................................................. 40

X

Ttulo de la tesis o trabajo de investigacin 2.3.1 Perfil UML para la bodega de datos .....................................................40 2.3.2 Perfil UML para el proceso ETL ...........................................................42 2.3.3 Perfil UML despliegue ..........................................................................43 2.3.4 Perfil UML para el proceso de anlisis, seleccin y transformacin de datos. 44 2.3.5 Perfil UML de reglas de asociacin ......................................................45 2.3.6 Perfil UML de Clasificacin ..................................................................46 2.3.7 Perfil UML para Agrupamiento .............................................................48 2.3.8 Perfil UML de Serie de Tiempo ............................................................49 2.3.9 Perfil UML de Caso de uso ..................................................................50 2.3.10 Perfil UML Cubo Dimensional ..............................................................50 2.4 Flujos de trabajo de BIEP ...............................................................................51 2.4.1 Requerimientos....................................................................................53 2.4.2 Anlisis ................................................................................................55 2.4.3 Diseo .................................................................................................60 2.4.4 Implementacin ...................................................................................65 2.4.5 Preparacin, Modelado y evaluacin ...................................................71 2.4.6 Despliegue...........................................................................................79 2.4.7 Pruebas ...............................................................................................81 2.4.8 Mantenimiento .....................................................................................82 2.4.9 Revisin post-desarrollo ......................................................................82 2.5 VENTAJAS DE BIEP ......................................................................................83 2.6 RESUMEN DEL CAPITULO ...........................................................................83

3.

Captulo 3 (APLICACIN Y VALIDACIN DE LA METODOLOGA BIEP) .........85 3.1 Prototipo de Software CASE BIEP .................................................................85 3.1.1 Implementacin de los Perfiles ............................................................86 3.1.2 Generacin del Modelo de Objetos ......................................................88 3.1.3 Elementos bsicos para aplicar diagramas de BIEP ............................89 3.2 Caso de estudio: Biblioteca central de la universidad Antonio Nario U.A.N. 89 3.2.1 Descripcin de la Universidad Antonio Nario y de la Biblioteca ..........89 3.2.2 Flujos de trabajo ..................................................................................90 3.2.2.1 Requerimiento ...............................................................................................90 3.2.2.2 Anlisis .........................................................................................................92 3.2.2.3 Diseo...........................................................................................................95 3.2.2.4 Implementacin .............................................................................................99 3.2.2.5 Preparacin, modelado, evaluacin y despliegue........................................102 3.2.2.5.1 Modelo OLAP ...........................................................................................103 3.2.2.5.2 Preparacin de los datos para el proceso de minera de datos ................105 3.2.2.5.3 Regla de Asociacin.................................................................................106 3.2.1.5.4 Clasificacin .............................................................................................109 4.2.2.5.3 Agrupamiento ...........................................................................................114 3.2.1.6 Pruebas ......................................................................................................118 3.2.1.7 Mantenimiento ............................................................................................120 3.3 Implementacin de BIEP en otras herramientas UML ..................................120 3.4 Resumen Captulo ........................................................................................122 Conclusiones y recomendaciones ......................................................................125 4.1 Conclusiones ................................................................................................125 4.2 Recomendaciones........................................................................................126

4.

Contenido

XI

Anexo A: Casos de uso en formato extendido del caso de estudio ........................ 129 A1. Casos de Uso .................................................................................................. 129 A2. Documento visin ............................................................................................ 137 Anexo B: Manual de usuario del prototipo de SW BIEP ........................................... 147 B.1 Proceso General .............................................................................................. 147 B2. Diagrama de casos de uso............................................................................... 151 B3. Diagrama: SCS Y SLS ..................................................................................... 151 B4.Diagramas: SLOS y DWOS .............................................................................. 152 B5. Diagramas: SPS y DWSP ................................................................................ 153 B6. Diagramas: DWCS y DWLS ............................................................................. 154 B7.Diagrama DATA MAPING ................................................................................. 154 B8. Diagrama de anlisis, seleccin y transformacin de datos en el proceso de minera de datos .................................................................................................... 155 B9. Diagrama de agrupamiento en el proceso de minera de datos ....................... 156 B10. Diagrama de reglas de asociacin en el proceso de minera de datos ........... 156 B11. Diagrama de clasificacin en el proceso de minera de datos ........................ 157 B12. Diagrama DWAS ............................................................................................ 158 B13. Diagrama ETL ................................................................................................ 159 B14. IMPLEMENTACION DEL PROTOTIPO DE SW BIEP .................................... 160 B15. Perfil de tcnica de minera de datos de reglas de asociacin (MDRA).......... 160 B16. Perfil de tcnica de minera de datos de clasificacin (MDCL) ....................... 162 B17. Perfil de anlisis, seleccin y transformacin de datos para minera de datos (DMSEL) ................................................................................................................ 162 B18. Perfil de tcnica de minera de datos de agrupamiento (DMCLUS) ................ 163 B19. Perfil para tcnica OLAP (OLAPACT) ............................................................ 164 B20. Perfil proceso ETL (ETLPROCESS) .............................................................. 165 B21. Perfil secuencia en la bodega de datos (DWSS) ............................................ 165 B22. Perfil modelo conceptual y lgico de la bodega de datos (DWCS) ................. 166 B23. Perfil diseo del cubo dimensional (DATACUBE) .......................................... 167 B24. Perfil diseo fsico de la bodega de datos (SPS_DWPS) ............................... 167 B25. Perfil diseo de los casos de uso (DWEPCASEUSE) .................................... 168 Bibliografa .................................................................................................................. 169

Contenido

XII

Lista de figurasFigura 1-1: Figura 1-2: Figura 1-3: Figura 1-4: Figura 1-5: Figura 1-6: Figura 1-7: Figura 1-8: Figura 1-9: Figura 1-10: Figura 1-11: Figura 1-12: Figura 1-13: Figura 2-1: Pg. Crecimiento e inversiones en herramientas de BI..................................... 8 Proceso de inteligencia de Negocios ........................................................ 9 Proceso de inteligencia de Negocios ...................................................... 13 Proceso descubrimiento de conocimiento en BD ................................... 14 Diagrama de UML 2.3 ............................................................................ 17 (a) Proceso Unificado y (b) DWEP ........................................................ 18 Sistema OLAP........................................................................................ 23 Metodologa para minera de datos a) CRISP-DM b)SEMMA ................ 25 Modelos CWM para el proceso de Minera de Datos. ............................. 26 Modelos CWM para reglas de asociacin.............................................. 27 Metamodelo CWM para reglas de Clasificacin .................................... 28 Metamodelo CWM para Agrupamiento.................................................. 28 Perfil UML serie de tiempo ..................................................................... 29 Elementos para el desarrollo de un sistema de inteligencia de

negocios. ....................................................................................................... 32 Figura 2-2: Figura 2-3: Figura 2-4: Figura 2-5: Figura 2-6: Figura 2-7: Figura 2-8: Figura 2-9: Figura 2-10: Figura 2-11: Figura 2-12: Figura 2-13: Fases y flujos de trabajo de la metodologa propuesta (BIEP) ............... 34 Modelos (BIEP) ...................................................................................... 37 Diagrama de actividades con los principales pasos de BIEP .................. 39 Perfil UML DW ....................................................................................... 41 Perfil UML ETL ....................................................................................... 42 Perfil UML despliegue ........................................................................... 43 Perfil UML proceso de anlisis, seleccin y transformacin de datos. ... 45 Perfil UML Regla de Asociacin ............................................................ 46 Perfil UML Clasificacin......................................................................... 47 Perfil UML agrupamiento ....................................................................... 48 Perfil UML anlisis de serie temporales.................................................. 49 Perfil UML caso de usos........................................................................ 50

Contenido Figura 2-14: Figura 2-15: Figura 2-16: Figura 2-17: Figura 2-18: Figura 2-19: Figura 2-20: Figura 2-21: Figura 2-22:

XIII Perfil UML cubo dimensional ................................................................. 51 Diagramas de casos de Uso DWEP ...................................................... 55 Diagramas Esquema conceptual de fuente............................................ 56 Esquema conceptual de objetos en origen de datos .............................. 57 Esquema Lgico de fuente de datos ...................................................... 58 Esquema Lgico de comunicacin de la fuente de datos...................... 59 Esquema fsico de las fuentes de datos................................................. 60 Niveles del esquema conceptual de la bodega de datos ....................... 61 Esquema de mapeo nivel 3 ................................................................... 63

Figura 2-23. Esquema de estados de mquina en la bodega de datos ......................... 64 Figura 2-24: Figura 2-25: Figura 2-26: Figura 2-27: Figura 2-28: Figura 2-29: Figura 2-30: Figura 2-31: Figura 2-32: Figura 2-33: Esquema de actividades de la bodega de datos .................................... 65 Esquema lgico de la bodega de datos ................................................. 66 Esquema lgico de objeto de la bodega de datos .................................. 66 Esquema fsico de la bodega de datos .................................................. 67 Proceso ETL .......................................................................................... 68 Esquema de secuencia de la bodega de datos ...................................... 69 Diagrama de transporte de integracin .................................................. 70 Diagrama de transporte de optimizado .................................................. 70 Diagrama del Cubo OLAP ..................................................................... 71 Esquema de paquetes de anlisis, seleccin y transformacin............. 72

Figura 2-34. Esquema de minera de datos con reglas de asociacin ........................... 75 Figura 2-35: Figura 2-36: Figura 2-37: Figura 2-38: Figura 3-1: Figura 3-2: Figura 3-3: Figura 3-4: Figura 3-5: Figura 3-6: Figura 3-7: Esquema de minera de datos con clasificacin .................................... 76 Esquema de minera de datos por agrupamiento .................................. 78 Esquema de minera de datos por series de tiempo .............................. 79 Esquema fsico del cliente ..................................................................... 81 Modelo de objetos ................................................................................. 88 Modelo de Casos de Uso del prstamo de la biblioteca ............................ 92 SCS del prstamo de la biblioteca............................................................. 93 SCOS del prstamo de la biblioteca .......................................................... 93 SLS del prstamo de la biblioteca ............................................................. 94 Esquema fsico del servidor para el prstamo de la biblioteca .................. 94 Esquema conceptual de la bodega de datos del prstamo de la biblioteca 95 Diagrama de Mapeo del prstamo de la biblioteca ............................. 96

lustracin 3-8:

XIV Figura 3-9:

Ttulo de la tesis o trabajo de investigacin Esquema de secuencia de la bodega de datos para el prstamo de la

biblioteca....98 Figura 3-10: Figura 3-11: Figura 3-12: Figura 3-13: Figura 3-14: Figura 3-15: Figura 3-16: DWSMS del prstamo de la biblioteca ................................................... 98 DWAS del prstamo de la biblioteca ...................................................... 99 Esquema lgico de la DW para el prstamo de libro ............................ 100 DWLOS del prstamo de la biblioteca .................................................. 101 Esquema fsico de la bodega de datos. ................................................ 101 Proceso ETL ........................................................................................ 102 Servicio de integracin de SQL SERVER 2005 aplicado a la

biblioteca ..................................................................................................... 103 Figura 3-17: Figura 3-18: Figura 3-19: Servicio de anlisis de SQL SERVER 2005 aplicado a la biblioteca. .... 103 Indicadores claves de gestin dados al proceso de prstamo de libros 104 Diseo de los reportes basada en cada KPI al proceso de prstamo de

libros..104 Figura 3-20: libros Figura 3-21: Despliegue Reportes basada en cada KPI al proceso de prstamo de 105 Esquema de paquetes de anlisis, seleccin y transformacin aplicados

al proceso de prstamo de libros. ................................................................................. 106 Figura 3-22: Figura 3-23: Figura 3-24: Figura 3-25: Figura 3-26: Figura 3-27: DMRA del prstamo de la biblioteca .................................................... 107 DMCLS del prstamo de la biblioteca................................................... 110 DMCLU del prstamo de la biblioteca .................................................. 114 Grfico de codo .................................................................................... 115 Perfil UML para bodega de datos en Visual Paradigm ....................... 121 Diagrama DWCS del caso de estudio de la biblioteca en Visual

Paradigm ................................................................................................ 121

Contenido

XV

Lista de tablasPg. Tabla 1-1: Modelos Multidimensionales. ......................................................................... 11 Tabla 1-2: Tabla 2-1: Tabla 2-2: Diagramas empleados en DWEP ............................................................. 20 Diagramas empleados en BIEP ............................................................... 52 Estereotipos proceso ETL ......................................................................... 68

Tabla 2-3: Estereotipos de atributos para el anlisis, seleccin transformacin de datos 73 Tabla 2-4: Tabla 2-5: Tabla 2-6: Tabla 2-7: Tabla 3-1: Tabla 3-2: Tabla 3-3: Tabla 3-4: Tabla 3-5: Tabla 3-6: Tabla 3-7: Tabla 3-8: Tabla 3-9: Estereotipos de atributos reglas de asociacin.......................................... 74 Estereotipos de atributos clasificacin ...................................................... 76 Estereotipos de atributos por agrupamiento .............................................. 77 Formato de pruebas BIEP ......................................................................... 82 Matriz de confucin ..................................................................................110 Matriz de confusin por las salas Generales ............................................111 Matriz de confusin por las salas Especializadas .....................................111 Matriz de confusin por das de prstamo con rboles. ............................112 Matriz de confusin Naive Bayes sala general y especializada. ...............112 Matriz de confusin Naive Bayes por sala general ...................................112 Matriz de confusin Naive Bayes por sala especializada .........................113 Matriz de confusin Naive Bayes por das prestados ...............................113 Agrupamiento por medio del algoritmo K medoids ...................................115

Tabla 3-10: Cluster por medio de asociacin de atributos ...........................................118 Tabla 3-11: asos de pruebas biblioteca central uan .................................................119

IntroduccinUn sistema de inteligencia de negocios se compone por dos elementos [28], la integracin y el anlisis de los datos. El anlisis se puede dar por dos procedimientos diferentes, el primero, conformados por medio de consultas simples y reportes, caracterizados por informes predefinidos y anlisis de informacin mediante tcnicas procesamiento analtico en lnea (en ingls: Online Analytical Processing OLAP) y, el segundo, mediante tcnicas de minera de datos (en ingls: Data Mining) que permiten encontrar comportamientos en conjuntos de datos analizados, para realizar

clasificaciones o predicciones, generar informacin para los EIS (Executive Information Systems), DSS (Decision Support Systems, Sistemas de ayuda a la toma de decisiones) BSC (cuadro de mandos integral).

Los problemas ms frecuente donde fallan los proyectos de inteligencia de negocios son: la recoleccin de requerimientos, el anlisis y diseo [34], debido a que no se encuentra una metodologa estndar para su desarrollo.

Se ha realizado una metodologa denominada proceso de ingeniera para la bodega de datos (DWEP) basada en el proceso unificado (UP) [24], la cual abarca los flujos de trabajo de requerimientos, anlisis, diseo, pruebas, mantenimiento y revisiones posteriores al desarrollo, para la integracin de datos. En el componente del proceso de minera de datos la comunidad europea ha propuesto el desarrollo del modelo CrossIndustry Standard Process for Data Mining CRISP-DM [11], el cual da un conjunto de fases, pero no se especifica los diagramas para su modelamiento.

El objetivo principal de este trabajo de investigacin es la construccin de una metodologa para el desarrollo de sistemas de inteligencia de negocios basada en el proceso unificado, la cual se denominar: Proceso de Ingeniera a la Inteligencia de Negocios (en ingls: Business Intelligence Engineering Process BIEP).

2

Introduccin

BIEP ser una metodologa de diseo global que integra todas las fases de diseo en un sistema de inteligencia de negocios, inicia en el anlisis de las fuentes de datos operacionales hasta la implementacin, incluyendo la definicin de los procesos ETL, los requisitos de usuario y el anlisis de datos por medio de tcnicas de minera de datos y OLAP.

MOTIVACIN

Dada la importancia de los sistemas de inteligencia de negocios, se han creado diversas soluciones a los problemas de recoleccin, anlisis, diseo y construccin. En el proceso de integracin de datos se han desarrollado diversos modelos [1, 5, 7, 20, 24, 44 y 45], que presentan un gran nivel de expresividad (estructural, dinmico y grfico), sin embargo, en la gran mayora no se realizan el anlisis de datos [44]. La metodologa DWEP [24 y 44] es uno de los trabajos que presentan la integracin de datos por medio de proceso unificado, dando un estndar para el desarrollo de la bodega de datos y el anlisis de datos por medio de OLAP.

De otro lado, encontramos otros trabajos de investigacin que han propuesto otras metodologas para el anlisis de datos basadas en: OLAP [19 y 36], CRISP-DM [11 y 39] y SEMMA [37], no obstante, ests no toman en cuenta la integracin de datos, dejando los sistemas de inteligencia de negocios fragmentados en diversas soluciones. Recientemente se desarroll un trabajo doctoral titulado Un conjunto de perfiles de UML para el modelado conceptual de tcnicas de minera de datos sobre almacenes de datos [47] que rene el modelado conceptual de las siguientes tcnicas de minera: clasificacin, agrupamiento, reglas de asociacin y series de tiempo. Dando una aproximacin al desarrollo de un sistema de inteligencia de negocios.

Considerando los anteriores problemas y consciente de la importancia de los sistemas de inteligencia de negocios, en el presente trabajo de investigacin se defini: disear una metodologa que abarque el desarrollo de los sistemas de inteligencia de negocios, comenzando con la integracin de datos y termina con el anlisis de datos por medio de OLAP y minera de datos basada en el proceso unificado de software.

Introduccin

3

OBJETIVO GENERAL Y OBJETIVOS ESPECFICOS

Objetivo General:

Desarrollar una metodologa para el desarrollo de un proceso de negocios basada en el proceso unificado. Objetivos especficos:

inteligencia de

Actualizar la metodologa DWEP a la versin ms reciente del UML.

Crear y/o adaptar una metodologa para el proceso de ingeniera en la aplicacin de minera de datos y extender la de OLAP dada en el DWEP.

Integrar la metodologa del proceso de ingeniera para la bodega de datos, OLAP y minera de datos en un prototipo de software.

Validar la metodologa del proceso de ingeniera de inteligencia de negocios a un caso real.

METODOLOGA

La propuesta metodolgica para el desarrollo de esta tesis esta soportada en la realizacin de cuatro etapas que sern ejecutadas en estricto orden.

En la primera etapa se realizar la actualizacin del DWEP a la versin UML 2.1.1, la segunda etapa se crear y/o adaptar una metodologa para el proceso de minera de datos (DMEP), en la tercera etapa se har la unin de la DWEP y DMEP para generar la metodologa del proceso de inteligencia de negocios (BIEP). Finalmente en la cuarta etapa se encuentra la validacin de la metodologa BIEP.

4

Introduccin

Etapa 1: Actualizacin de DWEP a versin UML 2.1.1: DWEP se basa en el proceso unificado y en UML versin 1.4. La versin UML 2.3 ha proporcionado una mayor cantidad de artefactos para un mejor modelamiento, los cuales resultan tiles para una mejor funcionalidad de DWEP. En esta etapa se har una inspeccin al estndar UML versin 2.3 donde se planea la actualizacin de los diagramas de clases, casos de uso y de despliegue, y la utilizacin de los diagrama de estados, componentes, interactivos, acciones y composicin de estructura.

Etapa 2: Generacin y/o adaptacin de una metodologa para el proceso de anlisis minera de datos (DMEP) en versin UML 2.3: Dado que se ha planteado la metodologa CRISP-DM [14 - 15] como un estndar para el proceso de minera de datos en esta etapa se planea la adaptacin de esta metodologa al proceso unificado, generando los artefactos necesarios basados en UML versin 2.3.

Etapa 3: Integracin de la metodologa DWEP y DMEP: Para cumplir esta integracin se debe realizar previamente la etapa 1 y 2, pues el resultado de cada una de ellas permitir contar con la generacin de la metodologa DWEP y DMEP, las cuales deben cumplir las misma fases y flujos de trabajo, bajo el supuesto basado en el proceso unificado, con lo cual podrn integrarse en una nica metodologa basada en el proceso de inteligencia de negocios (BIEP).

Etapa 4: Validacin del BIEP: Una vez obtenida la metodologa BIEP se pretende validar por medio de un caso de la vida real, para esta etapa, se realizar, tomando el prstamo de libros en la biblioteca central de la universidad Antonio Nario.

APORTES

Se han obtenido avances parciales en desarrollo de esta tesis, los cuales fueron presentados en las siguientes conferencias: (i) DWEP with UML 2.1.1, Encuentro Nacional de investigadores de Postgrado ENIP 2009, Universidad Nacional de Colombia, Bogot (Colombia), ISBN 978958-719-374-9.

Introduccin

5

(ii) Data Warehouse Engineering Process (DWEP) with UML 2.1.1. A Case Study: Central library of UAN, The 5th Conference of the Euro-American Association on Telematics and Information Systems EATIS 2010. Artculo invitado. Ciudad de Panam (Panam), ISBN 978-958-44-7280-9.

ORGANIZACIN DEL DOCUMENTO

El presente documento aborda de manera inicial en el captulo I los antecedentes y conceptos bsicos sobre los que se basaron las presentes investigaciones; de manera subsiguiente en el captulo II se hablar sobre la metodologa para el desarrollo de sistemas de inteligencia de negocios (BIEP) y finalmente en el captulo III se demostrar la validacin del de la metodologa BIEP con un caso de estudio aplicado a la biblioteca central de la universidad Antonio Nario.

1. Captulo 1 (Estado del Arte)Este captulo presenta el estado actual en el desarrollo de los sistemas de inteligencia de negocios. Se describe que es un sistema de inteligencia de negocios, su crecimiento desde 1993 al 2007, los componentes del sistema de inteligencia de negocios: integracin de las fuentes y anlisis de datos mediante tcnicas OLAP y de minera de datos, y se revisan los principales problemas en la ejecucin en el desarrollo de los sistemas de inteligencia de negocios.

Se revisan las metodologas propuestas actualmente para cada unos de los componentes. Iniciando por el UML como lenguaje de unificado de modelamiento, un lenguaje grfico para construir, documentar, visualizar y especificar un sistema de software. Luego se estudia la metodologa para el desarrollo de la integracin de las fuentes de datos basada en el proceso unificado DWEP. Se analizan sus fases, flujos de trabajo e impacto. Adems se examinan las metodologas para OLAP y minera de datos basadas en el proceso unificado, las que se destacan una extensin del DWEP para los cubos dimensionales y los diagramas de tcnicas de minera de datos basadas en el Common Warehouse Metamodel (CWM). Por ltimo se presenta el resumen del captulo.

1.1 Proceso de Inteligencia de NegociosEl trmino inteligencia de negocios (en ingls Business Intelligence B.I.) segn Howard Dresner, en el ao de 1989, la defini como: un conjunto de conceptos y mtodos para mejorar el proceso de decisin utilizando un sistema de soporte basado en hechos...1

[13], Por ende describe un grupo de procesos orientados a la toma de

decisiones ms acertadas y estratgicas para el desarrollo de un negocio, partiendo para ello del anlisis de la informacin que se produce al interior del ente econmico.

1

DRESNER, Howard. Gartner Group, Howard Dresner Biography. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.gartner.com/ research/fellows/asset_79427_1175.jsp).

8

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

En este contexto, la inteligencia de negocios se define como el proceso de anlisis de los bienes o datos acumulados en la empresa, con el fin de extraer cierta inteligencia o conocimiento de estos. Segn Data Warehouse Institute, la inteligencia de negocios es la combinacin de tecnologa, herramientas y procesos que me permiten transformar mis datos almacenados en informacin, esta informacin en conocimiento y este conocimiento dirigido a un plan o una estrategia comercial. La inteligencia de negocios debe ser parte de la estrategia empresarial, esta le permite optimizar la utilizacin de recursos, monitorear el cumplimiento de los objetivos de la empresa y la capacidad de tomar buenas decisiones para as obtener mejores resultados... 2 [12].

Las herramientas de inteligencia de negocios crecen a una tasa anual del 11.5%, y gastos de inversin a ms de 7 billones de dlares [26, 34]. En la figura 1-1, se observa el crecimiento e inversin en herramientas de inteligencia de negocios, lo que evidencia su potencialidad y el papel que est asumiendo en el desarrollo econmico en las organizaciones, De all la importancia de profundizar en su estudio ya sea desde la academia misma o directamente por los industriales. Figura 1-1: Crecimiento e inversiones en herramientas de BI

Fuente Nigel Pendse: The dramatic consolidation in 2007 makes market shares much harder to 3 calculate

2

Data Warehousing Institute. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.tdwi.org/. 2002). 3 PENDSE, Nigel, The dramatic consolidation in 2007 makes market shares much harder to calculate. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.olapreport.com/market.htm).

Captulo 1

9

La implementacin de un sistema de inteligencia de negocios requiere de dos (2) procesos: integracin de fuentes de datos y anlisis de datos [12, 23, 28 y 38]. En la figura 1-2, se pueden observar estos procesos y sus componentes.

Figura 1-2:

Proceso de inteligencia de Negocios

Fuente. Ralph Kimball y Margy RossNigel Pendse. The Data Warehouse Toolkit

4

1.1.1 Integracin de fuentes de datos.Es el proceso donde se pretende realizar la combinacin de las diferentes fuentes de datos de una organizacin por medio del proceso de extraccin, transformacin y carga (ETL) [23], cuyo resultado es una bodega de datos (en ingls: Data Warehouse DW). Cuando la bodega es especfica de un departamento o dependencia de la organizacin, se denomina Data Mart [23]. Para Kimball [23], el proceso de integracin de fuentes de datos es sinnimo a todos los componentes que conforman una bodega de datos.

Bodegas de datos: Bill Inmon defini bodega de datos como: una coleccin de datos integrados orientados a temas, integrados, no-voltiles y variables en el tiempo, organizados para soportar necesidades empresariales5 [21] y para Ralph Kimball: ...una coleccin de datos en forma de una base de datos que guarda y ordena

4

KIMBALL, Ralf y ROSS, Margy. Kimball and M. Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 2002. ISBN: 978-0-471-20024-6. Pag 7. 5 INMON, William Harvey, Building the data warehouse. Wiley, quinta edicin, 2005., paginas 576. ISBN: 978-0-7645-9944-6 Pag. 15

10

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

informacin que se extrae directamente de los sistemas operacionales (ventas, produccin, finanzas, marketing, etc.) y de datos externos6 [23].

La bodega de datos se puede interpretar como una base de datos que organiza y almacena una coleccin de informacin derivada directamente de los sistemas operacionales y de algunos datos externos [23]. Esta informacin se estructura siguiendo el paradigma multidimensional (MD) [23]: hechos y dimensiones. Un hecho representa medidas interesantes del proceso de negocio que se pretende analizar, mientras que las dimensiones representan un contexto para analizar dichas medidas.

Modelos multidimensionales.

En la actualidad, se han presentado varios modelos multidimensionales. Por su amplio uso se destaca los modelos: Kimball [23], Multidimensional/ER (Sapia) [5], Estrella/ER (Tryfona) [7], GOLD (Trujillo) [24, 44 y 45], Husemann [20] y YAM2 [1].

Los modelos multidimensionales de la bodega de datos [20] al igual que en el desarrollo de bases de datos [4], se estructura en una serie de pasos que incluyen los tres niveles: conceptual, lgico y fsico.

Nivel Conceptual: Se representa las interacciones entre las entidades y relaciones o por medio del lenguaje de definicin de objetos (en ingls: Object Definition Language ODL). Este nivel est ms cerca de los problemas del mundo real que a la solucin, en este es donde el usuario representa sus ideas.

Nivel Lgico: Es este nivel se utiliza el modelo relacional para el diseo de las tablas de hechos, dimensiones y su interaccin, definicin del proceso extraccin, transformacin y carga (E.T.L) y el proceso de mapeo entre la fuente de datos y la bodega de datos.

6

KIMBALL, Ralf y ROSS, Margy. Kimball and M. Ross, The Data Warehouse Toolkit: The complete Guide to Dimensional Modeling. Wiley, 2002. ISBN: 978-0-471-20024-6 pag. 28

Captulo 1

11

Nivel Fsico: En este modelo se escribe el cdigo para la generacin de las tablas de hechos, dimensiones, definicin de las reglas de integridad y consultas Modelo Dimensional [23].

Para realizar una comparacin de los modelos multidimensionales se tuvo en cuenta los siguientes niveles: (i) Nivel general: donde se revisa si el modelo es conceptual (C), lgico (L) y/o fsico (F). (ii) Nivel estructura: donde se revisa el comportamiento detallado de las dimensiones y las tablas de hecho. (iii) Nivel dinmico: donde se revisa la facilidad de realizar de la generacin de los requerimientos de usuario, operaciones OLAP y el modelado del sistema. Y (iv) Nivel de notacin grafica: donde se aprecia si se implementacin sobre herramientas comerciales. Como se observa en la tabla 1-1. Tabla 1-1: Modelos Multidimensionales.

1.1.2 Anlisis de datos.Es el proceso que permite habilitar componentes, administrar consultas, monitorear procesos, clculos, mtricas, entre otros. Se realiza por medio de dos procesos

12

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

diferentes: (i) el primero, conformado por consultas simples y reportes, las cuales se caracterizan porque presentan informes predefinidos y anlisis de informacin mediante tcnicas OLAP (en ingls Online Analytical Processing) y, (ii) el segundo, mediante tcnicas de minera de datos (DM en ingls Data Mining) que permiten encontrar comportamientos en conjuntos de datos analizados, para realizar clasificaciones o predicciones, o generar informacin para los EIS (Executive Information Systems), DSS (Decision Support Systems, Sistemas de ayuda a la toma de decisiones) el BSC (cuadro de mandos integral). Procesamiento analtico en lnea OLAP Codd [9] 1993, defini: OLAP es un tipo de procesamiento de datos que se caracteriza, entre otras cosas, por permitir el anlisis multidimensional de datos7. Dicho anlisis se basa en modelar la informacin en forma de medidas, hechos y dimensiones [2]. Las medidas son los valores de un dato en particular, las dimensiones son las descripciones de las caractersticas que definen dicho dato y los hechos son la definicin de una o ms medidas para una combinacin particular de dimensiones [2 y 8]. El modelo se representa vectorialmente: los hechos se ubican lgicamente en una celda que queda en la interseccin de ciertas coordenadas segn el modelo de coordenadas (x, y, z,...), donde cada una de las coordenadas de la celda representa una dimensin. Esto es conocido como anlisis multidimensional y para materializarlo en una base de datos, se usa la correspondencia entre los elementos del modelo (hechos y coordenadas) en la bodega de datos (tabla de hechos y las dimensiones).

En la figura 1-3, se observa un cubo dimensional, donde las dimensiones se representan por medio de coordenadas. El cruce de las uniones de estas dimensiones simboliza los hechos y cada hechos est compuesto por medidas. Para poder realizar OLAP, se hace necesario realizar las siguientes funcionalidades: declaracin de dimensiones y jerarquas, ptima indexacin de los datos y definicin de operaciones predefinidas de navegacin en las dimensiones y de agrupacin de medidas.

7

CODD, Edgar et al. Providing OLAP to user-analysts: An IT mandate. E.F. Codd and Associates, 1993. . {En lnea}, {8 de marzo de 2009} disponible en: (http://www.minet.uni-jena.de/dbis/lehre/ ss2005/sem_dwh/lit/Cod93.pdf).

Captulo 1

13

Las principales operaciones definidas en OLAP son: slice, dice, rotation, drill-down, drillup, roll-up, drill-across y drill-through[20].

Figura 1-3:

Proceso de inteligencia de Negocios

Minera de datos:

La minera de datos (en Ingls: data mining DM) es un proceso que consigue conocimiento partiendo de un conjunto amplio de datos, a los cuales se le aplica mtodos para obtener patrones o tendencia nuevas, generando nuevos conocimientos. DM rene varias reas: estadstica, inteligencia artificial, computacin grfica, bases de datos, y el procesamiento masivo. Fayyad [16] defini minera de datos como: un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos8.

La Minera de Datos es un proceso completo de descubrimiento de conocimiento que involucra varios pasos [27]. En la figura 1-4, se observa las diferentes tareas: (i) Entendimiento del dominio de aplicacin, el conocimiento relevante a utilizar y las metas del usuario. (ii) Seleccin de un conjunto de datos en donde realizar el proceso de descubrimiento. (iii) Limpieza y reprocesamiento y limpieza de los datos, diseando una estrategia adecuada para manejar ruido, valores incompletos, valores fuera de rango y

8

FAYYAD, Usama, PIATESTSKY-SHAPIRO, Gregory, y SMYTH Padhraic, From Data Mining to Knowledge Discovery in Databases, American Association for Artificial Intelligence pag 37 -54. 1996. Pag. 38

14

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

valores inconsistentes. (iv) Seleccin de la tarea de descubrimiento a realizar: clasificacin, agrupamiento, reglas de asociacin, entre otras. Adems la seleccin de algoritmos a aplicar. (v) Transformacin de los datos al formato requerido por el algoritmo especifico de explotacin de datos (vi) Encontrar patrones y modelos interesantes. (vii) Evaluacin de los patrones descubiertos y presentacin de los mismos mediante tcnicas de visualizacin. (viii) Utilizacin del conocimiento descubierto, ya sea incorporndolo dentro de un sistema o simplemente para almacenarlo y reportarlo a las personas interesadas. Figura 1-4: Proceso descubrimiento de conocimiento en BD

Fuente. Morales, Eduardo, Descubrimiento de Conocimiento en Bases de Datos

9

1.1.3 Problemas en el proceso de inteligencia de negocios

En diversos informes indican [25, 35] que entre el 40% y el 50% de los procesos de inteligencia de negocios fallan o son abandonados. Segn lo observado por parte de Larry Poole [35] esta situacin se presenta por:

9

MORALES, Eduardo, Descubrimiento de Conocimiento en Bases de Datos. {En lnea}, {9 de junio de 2008} disponible en: (http://dns1.mor.itesm.mx/ ~emorales/Cursos/KDD03/principal.html).

Captulo 1

15

(i) Carencia de un lder que entienda el valor del proyecto y est dispuesto a apoyarlo asignando los recursos apropiados y a enfocarse de modo que tenga xito.

(ii) Los requisitos son pobres ya que no se involucran a los usuarios en las discusiones para asegurar que se est planeando construir realmente algo que se necesita y que va a utilizar.

(iii) Los diseos son pobres debido a que los requisitos son deficientes y el tiempo de modelado es limitado.

(iv) Carencia del entrenamiento a usuarios finales para el uso adecuado de la solucin para llevar a buen trmino la implantacin del proyecto.

(v) En las organizaciones se cree a menudo que con la solucin inicial se termina el proyecto descuidando su mantenimiento o crecimiento, ya que ella puede involucrar ms partes de la organizacin, y esto se puede hacer por medio de diversos data mart hasta generar una nica bodega de datos [23].

(vi) Otro de los problemas escoger inadecuadamente la herramientas a utilizar, en el mercado hay un gran nmero de ellas y sus caractersticas y precios varan, lo que hace necesario realizar una adecuada valoracin para saber escoger cul se ajusta ms en la implementacin. Es importante entender las necesidades de usuarios y seleccionar la herramienta que faciliten el desarrollo de las aplicaciones previstas10 [10].

(vii) Muchos proyectos arrancan pensando en una solucin final pero sin saber la cantidad de tiempo y trabajo que requieran, o si su solucin es compleja.

10

Custer consortiwn, 41% HAVE EXPERIENCED DATA WAREHOUSE PROJECT FAILURES. {En lnea}, {8 de marzo de 2009} disponible en: (http://www.cutter.com/research/2003/ edge030218.html)

16

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Despus de la utilizacin de la solucin por parte de los usuarios, puede ocurrir que la solucin no cumple con sus objetivos y se deje de usar o puede cumplir las expectativas y querer que sus funcionalidades aumente. En ambos casos, se necesita de constante revisiones de los logros, realizando las modificaciones y mejoras necesarias de modo que todos sus usuarios quieran utilizarlo.

1.2 Lenguaje de Modelado Unificado U.M.L.UML es un lenguaje grfico para construir, documentar, visualizar y especificar un sistema de software. En la actualidad la versin ms reciente del UML es 2.3 [30] publicada en mayo de 2010. UML 2.3 est dividido en dos especificaciones: Seccinestructura y Superestructura. La especificacin de la Seccinestructura define el lenguaje de construcciones bsicas (core y profile), y se complementa con la superestructura, esta es la definicin formal de los elementos del UML, es utilizada por los desarrolladores de aplicacin.

UML 2.3 posee dos grupos de diagramas: diagrama de estructura y diagramas de comportamiento.

Diagramas de estructura: Muestran la estructura esttica del sistema, sus partes de abstraccin y los diferentes niveles de implementacin, adems la interrelacin entre s. Los elementos de un diagrama de la estructura representan los conceptos significativos de un sistema, y pueden incluir niveles de abstraccin del mundo real y los conceptos de aplicacin. Los diagramas propuestos son: Diagrama de clases, diagramas de objetos, diagramas de paquetes, diagramas de componentes, diagrama de estructuras compuestas, diagrama de perfiles y diagrama de despliegue.

Diagramas de comportamiento: En estos diagramas se observa el comportamiento dinmico de los objetos en un sistema, que puede ser descrito como una serie de cambios en el sistema a lo largo de la lnea de tiempo. Los diagramas propuestos son: Diagrama de casos de uso, diagrama de actividad, diagrama de estados de mquina, y diagramas de interaccin.

Captulo 1

17

En la figura 1-5 se observan todos los diagramas de estructura y de comportamiento aplicados al UML 2.3 Figura 1-5: Diagrama de UML 2.3

1.3 Metodologas para el modelamiento de bodegas de datos basada en el proceso unificado.Lujan en su tesis doctoral [24] presenta un proceso de ingeniera para el desarrollo de bodegas de datos (en ingls: Data Warehouse Engineering Process DWEP). DWEP es una metodologa que permite modelar todos los aspectos fundamentales en los modelos de datos (lgico conceptual y fsico) de las DW. DWEP est basado en el proceso unificado (en ingls: Unified Process UP).

18

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

El proceso unificado [22] es un estndar aceptado en el mbito cientfico e industrial para el desarrollo de software y sus principales caractersticas son:

Es iterativo e incremental, Se basa en cuatro fases de desarrollo y cinco flujos de trabajo.

Est basado en componentes.

Utiliza el UML para expresar grficamente todos los esquemas de un sistema software [3, 6 y 30].

Est dirigido por casos de uso, es centrado en la arquitectura.

El DWEP mantiene las cuatro fases del proceso unificado (UP) [22, 24 y 44]: Inicio, elaboracin, construccin y transicin. En la figura 1-6, se presentan grficamente la relacin existente entre los flujos de trabajo y las fases tanto del UP y del DWEP. Figura 1-6: (a) Proceso Unificado y (b) DWEP

Captulo 1

19

Fuente. Jacobson, Ivar; Booch, Grady; Rumbaugh, James. El proceso unificado de desarrollo de 11 12 software. / S. Lujan, Data WareHouse Desig with UML, PHD. Thesis .

1.3.1 Fases de la metodologa DWEP y UP.

Fase de inicio: El objetivo de esta fase es desarrollar el anlisis del proyecto para justificar su puesta en marcha. Para lograrlo se realiza una descripcin general del proyecto, una planeacin basada en interacciones de las fases subsiguientes, en la que se detectan los riesgos crticos y se establece la funcionalidad bsica del software con una descripcin de la arquitectura propuesta.

Fase de elaboracin: Una vez finalizada la fase de inicio, se forma una arquitectura slida para la construccin del software, para lo cual se establece la base lgica de la aplicacin con los casos de uso definitivos y los artefactos del sistema que lo componen, mitigando el riesgo tecnolgico de la exploracin del lenguaje de programacin en cuanto a interfaz de usuario se refiere. Para esto, se efecta la primera iteracin con un prototipo funcional para la realizacin de pruebas de software y la definicin del modelo para la implementacin de la interfaz de usuario.

Fase de construccin: Se inicia a partir de la lnea base de arquitectura que se especific en la fase de elaboracin, y su finalidad es desarrollar un producto listo para la operacin inicial en el entorno del usuario final.

Fase de transicin: Una vez que el proyecto entra en la fase de transicin, el sistema ha alcanzado la capacidad operativa inicial. En la fase de transicin se busca implantar el producto en su entorno de operacin.

11

JACOBSON, Ivan; BOOCH, Grady; RUMBAUGH, James. El proceso unificado de desarrollo de software., Addison Wesley. Madrid, ES. 2000. 438 p. Pag 43 12 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag 37

20

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

1.3.2 Flujos de trabajo aplicados al proceso DWEPEn trminos generales para el UP y el DWEP un flujo de trabajo es un conjunto de actividades realizadas en un rea determinada cuyo resultado es la construccin de artefactos (un texto, un diagrama, una pgina Web, cdigo en lenguaje de programacin, etc.). En el caso de DWEP, como se ve en la tabla 1-2, se emplean 15 artefactos basados en los diagrama de casos de uso, diagrama de clases, diagrama de componentes, y diagrama de despliegue.

Tabla 1-2:

Diagramas empleados en DWEP

Fuente.S. Lujan, Data WareHouse Desig with UML, PHD. Thesis

13

Requerimiento: Durante este flujo de trabajo, los usuarios finales especifican las medidas y agregaciones ms interesantes, el anlisis dimensional, consultas usadas para la generacin de reportes peridicos y frecuencia de la actualizacin de los datos. El DWEP plantea la utilizacin del modelo de casos de uso.

Anlisis: El objetivo de este flujo de trabajo es mejorar la estructura y los requisitos obtenidos en la etapa de requerimientos. En esta etapa se documentan los sistemas operaciones preexistentes que alimentan la bodega de datos. DWEP propone el uso esquema conceptual de orgenes de datos (en ingls Source Conceptual Schema SCS), esquema lgico de orgenes de datos (en ingls Source Logical Schema SLS), y el esquema fsico de orgenes de datos (en ingls Source Physical Schema SPS).

13

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag 35

Captulo 1

21

Diseo: Al final de este flujo de trabajo, se define la estructura de la bodega de datos, esto es, su modelo conceptual. DWEP propone el uso de los diagramas Esquema conceptual de la bodega de datos (en ingls Data Warehouse Conceptual Schema DWCS), El esquema cliente conceptual (en ingls Client Conceptual Schema CCS), y el mapeo de datos (en ingls Data Mapping DM). El DM muestra la relacin entre SCS y DWCS adems entre DWCS y el CCS. Implementacin: Durante este flujo de trabajo, la bodega de datos se construye: Se desarrolla su estructura fsica, empieza el proceso de recepcin de datos por parte de los sistemas de operaciones, se afina para un funcionamiento optimizado, entre otras tareas. El DWEP utiliza los siguientes artefactos: El esquema lgico de la bodega de datos (en ingls Data Warehouse Logical Schema DWLS), el esquema fsico de la bodega de datos (en ingls Data Warehouse Physical Schema DWPS), el esquema lgico del cliente (en ingls Client Logical Schema CLS), el esquema fsico del cliente (en ingls Client Physical Schema CPS), y el proceso extraccin, transformacin y carga de datos (ETL). Pruebas: El objetivo de este trabajo es verificar que la aplicacin funcione correctamente. Concretamente, los efectos de las pruebas son los siguientes: Planificar las pruebas necesarias, disear y aplicar las pruebas mediante la creacin de casos de prueba y realizar las pruebas y analizar los resultados de cada prueba. Mantenimiento: A diferencia de la mayora de los sistemas, la bodega de datos es un proceso que se retroalimenta constantemente. El objetivo de este flujo de trabajo es definir la actualizacin y carga de los procesos necesarios para mantener la bodega de datos. Este flujo de trabajo comienza cuando se construye la bodega de datos y es entregada a los usuarios finales, pero no tiene una fecha de finalizacin. Durante este trabajo, los usuarios finales pueden tener nuevas necesidades, lo que desencadena el comienzo de una nueva iteracin con los requisitos de flujo de trabajo.

Revisiones post desarrollo: Esto no es un flujo de trabajo de las actividades de desarrollo, sino un proceso de revisin para la mejora de proyectos a futuro. Si hacemos un seguimiento del tiempo y esfuerzo invertido en cada fase es til en la estimacin de tiempo y en las necesidades para generar desarrollos futuros.

22

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

1.3.3 Impacto del DWEP.El DWEP se implement como un mecanismo para resolver el siguiente problema: Se requiere construir un DW en el sistema de venta al por menor de una empresa. Se consider una pequea parte de la DW, donde el objetivo tabla de hechos debe contener slo las ventas trimestrales de los productos pertenecientes a la categora de equipo, mientras que el resto de los productos que se descartan...14 [24]. Al aplicar esta metodologa se encontraron las siguientes ventajas:

Integridad del diseo de la bodega de datos, al abarcar una serie de modelos basados en los paquetes de UML.

Trazabilidad del diseo de la bodega de datos, desde el modelo conceptual hasta el fsico.

El aprendizaje se simplifica gracias al empleo de un lenguaje de modelado estndar como es UML.

Reduccin de los costos de desarrollo, abordando en fases inciales aspectos de la implementacin que pueden incurrir en un aumento de los costos del proyecto de bodegas de datos si se modifican en fases posteriores.

Diferentes niveles de abstraccin, al proporcionar varios niveles de detalles sobre el mismo diagrama.

Se puede analizar que las ventajas obtenidas de aplicar el DWEP subsanan algunas problemticas en la construccin de la bodega de datos como las presentadas en la seccin 2.1.3, en el proceso de integracin de datos.

14

LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag. 101.

Captulo 1

23

1.4 Metodologas para el proceso de anlisis de datos.El proceso de anlisis de datos se puede realizar por medio de procesos OLAP y/o minera de datos. En la actualidad la mayora de organizaciones finalizan su proceso en OLAP debido al tiempo, consecucin de expertos para el anlisis de datos y los costos que generan el proceso de minera de datos.

1.4.1 Metodologa aplicada a OLAP

Los sistemas OLAP se divide en tres mdulos operacionales [36]: interface grfica de usuario (GUI), procesamiento lgico analtico y procesamiento lgico del dato. En la figura 1-7 se observa que bodega de datos es independiente al sistema OLAP.

De lo anterior se colige que los sistemas OLAP son un modelo para el desarrollo de software que cumplen con las fases de anlisis, diseo, construccin e implementacin.

Figura 1-7:

Sistema OLAP

Fuente. Coronel Crockett Rob, Database Systems, Cengage Learning EMEA.

15

15

ROB, Peter y CORONEL, Carlos, Database Systems: Design, Implementation and Management, Cengage Learning EMEA, 2008. Quinta edicin, ISBN: 0-169-06269-x. Pag 18.

24

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

En la etapa de anlisis se definen las necesidades del usuario para la generacin de los diversos reportes basado en el cubo dimensional. En la etapa de diseo se realiza la transformacin y consolidacin de los datos para la generacin del reporte. En la etapa de construccin se genera el cdigo fuente del reporte por medio del lenguaje SQL o en su extensin (MDX). En la etapa de implementacin; el programa se ejecuta en un ambiente de un servidor OLAP para la generacin del reporte.

1.4.2 Metodologa para la aplicacin en Minera de Datos

La minera de datos constituye un paso ms en el anlisis de los datos de la organizacin para apoyar la toma de decisiones. No se trata de una tcnica que sustituya el anlisis OLAP sino que lo complementa, permitiendo realizar estudios ms avanzados de los datos y extraer ms informacin de ellos.

La metodologa ms utilizada en la minera de datos es la propuesta por la comunidad europea Cross-Industry Standard Process for Data Mining (CRISP-DM) [11 y 39], cuyo objetivo es fomentar la interoperabilidad de las herramientas utilizadas en el proceso de minera de datos para reducir sus costos, tiempo y aprendizaje.

En la figura 1-8 a, se observa este proceso el cual se desarrolla en forma cclica con retroalimentaciones en seis (6) fases: comprensin del negocio, comprensin de los datos, preparacin de datos, modelamiento, evaluacin y despliegue.

Otra metodologa que ha tenido gran aceptacin en el proceso de minera de datos es SEMMA desarrollada por SAS Institute [37], siendo definida como el proceso de seleccin, exploracin y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos. En figura 1-8b se observa las cinco (5) fases de esta metodologa: muestreo, exploracin, modificacin, modelizacin y estimacin.

Captulo 1

25

Figura 1-8:

Metodologa para minera de datos a) CRISP-DM b)SEMMA

Fuente. P. Chapman et al., CRISP-DM 1.0: Step-by-step data mining guide / SAS Enterprise Miner.

1.5 Minera de datos sobre DW basada en UMLZubcoff en el 2009 [47] en su tesis doctoral presenta cmo se pueden desarrollar perfiles de UML [17 y 18] al proceso de bodega de datos basado en el Common Warehouse Metamodel (CWM) [29].

La especificacin del Common Warehouse Metamodel (CWM) [29] contiene las directivas necesarias para poder almacenar la meta-informacin de cualquier modelo

multidimensional y OLAP mediante un formato estndar y fcilmente intercambiable. CWM fue concebido por la OMG como un estndar demasiado general que asegura un amplio consenso para su utilizacin por la comunidad cientfica e industrial. Por lo tanto todos los elementos representados adolecen algunas caractersticas bsicas en el modelado multidimensional.

Cualquier extensin del CWM se puede representar mediante el XMI Metadata Interchange (XMI) [32] para obtener finalmente documentos XML. As, dichas extensiones nos permitirn asegurar la interoperabilidad con el resto de soluciones informticas.

26

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

CWM [29] ofrece adems un meta modelo para el proceso de minera de datos el cual brinda cinco meta modelos aplicados a las diversas tcnicas de minera de datos: Reglas de asociacin, agrupamiento, importancia del atributo, clasificacin y aproximacin, en la figura 1-9 observamos el core de minera de datos y las asociaciones con los paquetes de reglas de asociacin, agrupamiento, clasificacin, atributo importante y aproximacin. Figura 1-9: Modelos CWM para el proceso de Minera de Datos.

Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, 2003.16

1.5.1 Reglas de AsociacinEste paquete contiene el meta modelo que representa las construcciones para los conjuntos de tems frecuentes, reglas de asociacin y los algoritmos de secuencia. Este meta modelo se observa en la figura 1-10 la clase FrequentItemSetFunction-Settings donde se coloca el soporte mnimo y el tamao mximo del conjunto, en la clase AssociationRulesFunctionsSetting se afina el modelo donde se puede ajustar la confianza mnima y la longitud mxima de la regla. La clase MiningFunctionSettings se especializa en el anlisis de los datos.

16

Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).

Captulo 1

27

Figura 1-10: Modelos CWM para reglas de asociacin.

Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, 2003.17

1.5.2 ClasificacinEl CWM se ofrece un conjunto de estndares para este modelo, donde se representa la funcin de clasificacin, modelos y configuraciones. En la figura 1-11 se puede ver una clase principal (ClassificationFunctionSettings) con un nico atributo definido como costMatrix (matriz de coste) que permite almacenar los valores de significacin y probabilidad para dicha matriz. CWM no define especficamente ningn otro atributo para modelar parmetros de minera con clasificacin. La propuesta CWM est enfocada al modelado de los resultados de la tarea de clasificacin dado que la matriz de costo hace referencia solo a resultados de clasificacin.

17

Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).

28

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Figura

1-11:

Metamodelo CWM para reglas de Clasificacin

Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, 2003.18

1.5.3 AgrupamientoRespecto a las tcnicas de agrupamiento, CWM propone un meta modelo con ms nivel de detalle que en el resto de la norma tcnicas. En la figura 1-12 se pueden observar las clases que definen los ajustes para realizar el agrupamiento el cual se basa de funciones de agregacin y el atributo de agrupamiento.

Figura 1-12: Metamodelo CWM para Agrupamiento

18

Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En lnea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).

Captulo 1

29

Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, 2003.19

1.5.4 Anlisis de TiempoCWM no propone ninguna herramienta para modelar el anlisis de series temporales especficamente. Zubcoff en el 2009 [47] propuso un modelo el cual incluye los siguientes parmetros para evaluarla: perodo, nmero de perodos, ventana bajo anlisis, soporte mnimo, tratamiento de valores ausentes y restriccin de valores. En la figura 1-13 el perfil UML aplicado a las series de tiempo. Figura 1-13: Perfil UML serie de tiempo

Fuente. Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009.20

19 20

Ibid., ZUBCOFF, Jos. Un conjunto de perfiles de UML para el Modelado conceptual de tcnicas de minera de datos sobre almacenes de datos, 2009, pginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informticos. Pag 126.

30

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

1.6 2.6 RESUMEN DEL CAPITULOEn este captulo se present el estado actual de los sistemas de inteligencia de negocios. Estos se componen de dos elementos: la integracin de datos y el anlisis de datos. En el componente de integracin de datos se construye la bodega de datos o los data mart y para el anlisis de datos se realizan por medio de tcnica de minera de datos y OLAP.

Se encuentran una cantidad de metodologas de para el diseo conceptual de la bodega de datos como son: modelo Multidimensional/ER (Sapia) [5], modelo Estrella/ER (Tryfona) [7], modelo GOLD (Trujillo) [45], modelo Husemann [20], modelo YAM2 [1] y DWEP [24 y 44].

De estas se destaca el DWEP ya que es una metodologa basada en el proceso unificado y en lenguaje unificado de modelamiento (UML). DWEP aplica las cuatro (4) las fases del proceso unificado y siete (7) flujos del trabajo. Cada flujo de trabajo tiene un modelo de artefactos asociados (diagramas del UML). Por ende esta metodologa ofrece quince (15) diagramas para el anlisis, diseo, construccin, implementacin, pruebas y anlisis de post desarrollo de la bodega de datos.

En el componente de anlisis de datos por medio de OLAP se divide en tres mdulos operacionales [36]: interface grafica de usuario (GUI), procesamiento lgico analtico y procesamiento lgico del dato.

Por ltimo en las tcnicas de minera de datos se destacan: Cross-Industry Standard Process for Data Mining (CRISP-DM) [11 y 39], proceso de minera de datos es SEMMA desarrollada por SAS Institute [37] y por ltimo encontramos una propuesta dada por el doctor Zubcoff en el 2009 [47] en donde se presenta como se pueden desarrollar perfiles de UML al proceso de bodega de datos basado en el Common Warehouse Metamodel (CWM).

2. Captulo 2 (Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP))En este captulo se propone una metodologa para el desarrollo de un sistema de inteligencia de negocios en el que confluya la integracin y el anlisis de datos. Esta metodologa llamada proceso de ingeniera de inteligencia de negocios (en ingls: Business Intelligence Engineering Process - BIEP -) est compuesta por dos elementos: (i) fases y (ii) flujos de trabajo, transversales a los elementos que componen un sistema de inteligencia de negocios.

BIEP se basa en el proceso unificado, en la metodologa DWEP [24 y 44], en el diagrama de cubo dimensional [33] y en los diagramas propuestos de Zubcoff [47] sobre el proceso de descubrimiento (o extraccin) de conocimiento en bases de datos (en ingls: Knowledge Discovery in Databases KDD)[16] en modelos multidimensionales y bodegas de datos

El presente captulo se aborda de manera inicial los elementos de una metodologa de inteligencia de negocios ( Seccin 2.1.); de manera subsiguiente se expondr la metodologa de inteligencia de negocios basada en el proceso unificado, la cual se componen por flujos de trabajo y fases, modelos, diagramas y perfiles de UML ( Seccin 2.2.); luego se discutir todos los perfiles UML asociados al BIEP ( Seccin 2.3.); en seguida se presentarn los flujos de trabajo del BIEP ( Seccin 2.4.); por ltimo se efectuar un resumen del captulo ( Seccin 2.5.).

32

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2.1 Elementos de una metodologa negocios.

de inteligencia

A travs de la presente metodologa se busca el desarrollo un sistema de inteligencia de negocios basada en el proceso unificado de software (UP) denominada: proceso de ingeniera de inteligencia de negocio (BIEP). Esta nueva metodologa tiene un enfoque estructurado para el desarrollo de cada uno de los elementos de integracin, anlisis y despliegue de datos, cuyo propsito ser facilitar la produccin de sistemas de inteligencia de negocios, incluyendo: modelo del sistema, notaciones, reglas de sugerencia de diseo y guas de proceso. Estos elementos se presentan en la figura 2-1.

Figura 2-1: negocios.

Elementos para el desarrollo de un sistema de inteligencia de

En el elemento de integracin de los datos se desarrollan los modelos conceptual, lgico y fsico de la bodega de datos. Para estos fines, BIEP toma como base la metodologa de proceso de ingeniera para el desarrollo de bodegas de datos (en ingls: Data Warehouse Engineering Process DWEP) [24 y 44] la cual se basa en el proceso unificado (UP) [22], considerando que se trata de unos de los ms modernos e importantes desarrollos en la materia.

Captulo 2

33

El anlisis de datos se realiza por medio de tcnicas OLAP y/o de minera de datos (en ingls: data mining DM). Respecto a OLAP, en orden a modelar los cubos dimensionales, se utilizar una metodologa extendida del DWEP, [33] basada en perfiles de UML. Para la tcnica de minera de datos se adicionaron dos flujos de trabajo basados en la metodologa CRISP-DM 1.0 [11 y 39] y se incorporan los diagramas conceptuales propuestos de Zubcoff [47].

El despliegue se basa en los diagramas CCS, CLS y CPS de DWEP, los cuales, tambin son perfiles de UML basados en los diagramas de clases y de despliegue. Es de advertir que este componente depende del entorno final de uso del sistema de inteligencia de negocios, razn por la cual, los diagramas estn ntimamente vinculados con la herramienta de despliegue que se utilice en cada caso.

2.2 Desarrollo de la metodologaPara el desarrollo de un sistema de inteligencia de negocios su metodologa puede ser considerada una instancia del proceso unificado (UP), como la metodologa DWEP es para la bodega de datos. Por esta razn, BIEP se basa en el proceso unificado, heredando de ste las siguientes caractersticas: se basa en casos de usos, su arquitectura es centralizada, y sus procesos son iterativos e incrementales.

El proceso unificado (UP) [22] es un estndar en la industria en el procesos de ingeniera de software, el cual se componen de fases y flujos de trabajo. Cada flujo de trabajo referencia uno o varios modelos y cada modelo proviene de un diagrama UML. Este rasgo tambin ser heredado por BIEP, contando con cuatro (4) fases, nueve (9) flujos de trabajo, diez (10) modelos y veintisiete (27) diagramas, los cuales se basan en nueve (9) perfiles de UML, como se explicar a continuacin.

34

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2.2.1 Fases y flujos de trabajo de BIEP

Las fases de BIEP parten del inicio del proceso de desarrollo del sistema de inteligencia de negocios y concluye con la transaccin, esto es, la entrega de dicho sistema. A su vez, los flujos de trabajos buscan describir las actividades a desarrollar para alcanzar el citado desarrollo. En la figura 2-2, se presenta las fases y flujos de trabajo de la metodologa BIEP. En la parte superior se observa las cuatros (4) fases y en la parte izquierda se observan los nueve (9) flujos de trabajo.

Figura 2-2:

Fases y flujos de trabajo de la metodologa propuesta (BIEP)

Se tiene, entonces, que BIEP sigue las mismas fases desarrolladas en el proceso unificado [28] y en DWEP [24 y 44], a saber:

Fase de Inicio: se define cules sern los lmites y alcances del proyecto de inteligencia de negocios y se desarrolla el caso del negocio. Su finalidad es la generacin de una visin global del proyecto.

Fase de elaboracin: se pretende realizar el plan del proyecto, el rasgo especfico y la lnea base de arquitectura, cuya suma dar lugar a la arquitectura base.

Fase de construccin: se desarrolla el proyecto y su meta es dar un producto inicial.

Captulo 2

35

Fase de transicin: busca implantar el proyecto en su entorno de operacin con todos los usuarios y su propsito es entregar la versin final a los usuarios.

BIEP contiene nueve (9) flujos de trabajo, cinco (5) provienen del proceso unificado: requerimiento, anlisis, diseo, implementacin y pruebas. Dos (2) del DWEP [23 y 44]: mantenimiento y revisiones post desarrollo. Adicionalmente, se proponen dos (2) nuevos flujos de trabajo basados en la metodologa CRISP-DM: Preparacin modelado y evaluacin y despliegue. Cada uno de esto flujos de trabajo se estudiarn en la seccin 2.4.

2.2.2 Modelos de BIEP

BIEP aplica diez (10) modelos, cada uno basado en flujos de trabajo, los cuales son:

Modelos de casos de uso: describe la funcionalidad propuesta del nuevo sistema de inteligencia de negocios. Un caso de uso representa una unidad discreta de interaccin entre un usuario (humano o mquina) y el sistema, siendo una unidad de trabajo significativo.

Modelo de anlisis: consiste en una jerarqua de paquetes, que son abstracciones de subsistemas o capas de diseo. Los paquetes contienen clases del anlisis de las fuentes de datos que poblarn las tablas en la bodega de datos y realizaciones de casos de uso.

Modelo de diseo: describe como los casos de uso influyen en el sistema de inteligencia de negocios. Se realiza el modelo conceptual de la bodega de datos. Cada parte de la bodega representa una abstraccin con una correspondencia en la implementacin.

Modelo de implementacin: realiza los modelos lgicos y fsicos de la bodega de datos y la organizacin de los componentes. Se compone de un sistema de implementacin (constelaciones), el que a su vez consta de varios subsistemas

36

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

(estrellas o copos de nieve). Cada sistema o subsistema consta de tablas de hechos y dimensiones. Modelo OLAP: permite el anlisis multidimensional de la bodega de datos y, a travs de ellos, se revisan los requerimientos del usuario para la generacin de los reportes que sean requeridos. Modelo de minera de datos: describe el anlisis de los datos almacenados en la bodega. Para estos fines, a los datos se les aplica una seleccin y se transforman de acuerdo a las necesidades de las tcnicas de minera de datos a aplicar. Modelo de despliegue: describe como se reparte la funcionalidad entre los nodos fsicos. Los nodos pueden ser de dos clases: (i) procesadores o recursos de hardware, o (ii) de comunicacin, cuya finalidad es permitir la relacin entre los primeros y describir la configuracin de la red (intranet, bus, entre otros). La funcionalidad de un nodo depende de los componentes que en l estn. Modelo de pruebas: especfica cmo son las pruebas de integracin y de sistema para los elementos desplegados. Pueden probarse tambin componentes como manuales de usuario o tcnicos. Modelo de mantenimiento: define la periodicidad de actualizacin de la tabla de hecho y dimensiones de la bodega de datos. As mismo, realiza el anlisis de los informes obtenidos en el modelo OLAP y de minera de datos. Modelo de revisin post desarrollo: sirve para establecer la revisin del proyecto para implementaciones o ampliaciones del sistema de inteligencia de negocios.

En la figura 2-3, se presenta los modelos de la metodologa BIEP con respecto a las fases y flujos de trabajo. La ubicacin de cada modelo indica la fase y el flujo de trabajo donde se desarrolla.

Captulo 2

37

Figura 2-3:

Modelos (BIEP)Fases / Flujos de trabajo Requerimientos Inicio Modelos de casos de uso Modelos de anlisis Modelos de diseo Modelos de implementacin Modelos OLAP Modelo de minera de datos Modelos de despliegue Modelos de prueba Modelos de mantenimiento Modelos post desarrollo Elaboracin Construccin Transicin

Anlisis

Diseo

Implementacin Preparacion, modelado y evaluacion Despliegue

Pruebas

Manteniento Revisin post Desarrollo

2.2.3 Diagramas de BIEPLos modelos de BIEP son asociados a veintisiete (27) diagramas distribuidos de la siguiente forma:

Integracin: Doce (12) diagramas provenientes de la metodologa de DWEP.

Seis (6) nuevos diagramas generados por la ltima versin del UML 2.3.

Anlisis de datos:

Un (1) diagrama para el modelamiento del cubo.

Un (1) diagrama para la preparacin, seleccin y transformacin de datos del proceso de minera de datos.

Cuatro (4) diagramas conceptuales para las tcnicas de minera de datos: reglas de asociacin, clasificacin, agrupamiento y series de tiempo.

38

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Despliegue: Tres (3) diagramas de despliegue de datos provenientes de DWEP.

Cada uno de estos diagramas se explican en detalle en la seccin: 2.4.

2.2.4 Perfiles de UML aplicados a la metodologa BIEP

La semntica de UML 2.x viene descrita por su meta-modelo, que es expresado en MOF [42]. Para disear los diagramas de la metodologa BIEP no se quiere modificar la semntica de UML, sino particularizar algunos de sus conceptos. De hecho, UML incluye un mecanismo de extensin en el propio lenguaje que permite definir lenguajes de modelado que son derivados de UML.

De forma ms precisa, el paquete de profile de UML 2.x define una serie de mecanismos para extender y adaptar las meta-clases de otro metamodelo a las necesidades concretas de dominio del proyecto. En la siguiente seccin profundizamos sobre los perfiles que se desarrollan en BIEP.

2.2.5 Pasos para aplicar BIEP

Los principales pasos de la metodologa BIEP se pueden observar por medio un diagrama de actividades de UML 2.3. En la figura 2-4, se observa que el diagrama se ha dividido verticalmente en dos partes (swimlanes) de acuerdo a quin gua las actividades descritas:

Usuarios finales del BIEP (los usuarios finales orientan el trabajo de los diseadores y administradores del proceso de inteligencia de negocios).

Captulo 2

39

Figura 2-4:

Diagrama de actividades con los principales pasos de BIEPDiseadores y administradores

Usuarios Finales

Definir los objetivos del Negocio

Definir los objectivos de Minera de datos

Determinar los requerimientos iniciales (Casos de Uso)

Requerimiento

Identificacin de las fuente de datos(SCS, SCOS )

AnlisisRevisin del esquema lgico de las fuentes de datos (SLS y SLCS)

Mapeo de datos Diseo conceptual de la bodega de datos (DWCS y DWOCS)

Diseo secuencias de la bodega de datos (DWSS)

Proceso ETL

Diseo

Diseo estado de maquinas de la bodega de datos (DWSMS)

Diseo actividades de la bodega de datos (DWAS)

Diseo logico de la bodega de datos (DWLS)

Desarollo fsico de la bodega de datos (DWPS)

ImplementacinGeneracin reporte OLAP Anlisis, seleccin y transformacin de datos

Preparado, modelado y evaluacinTcnica de Minera de datos (DMAR, DWCLS, DMCS, DMTSS)

Informes de despliegue conceptuales (CCS)

Proceso de exportacion (Exporting)

DespliegueDiseo lgico del despliegue(CLS)

Despliegue del informe (CPS)

40

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

Diseadores y administradores del BIEP (no necesitan de la participacin de los usuarios finales, ya que disponen de toda la informacin necesaria para realizar su labor).

Las actividades se han dividido en seis (6) grupos, considerando el flujo de trabajo del BIEP: requerimiento, anlisis, diseo, implementacin, modelado y despliegue. Cada actividad se explica en detalle la seccin 3.4.

Por ltimo, las transiciones de cada grupo definen el orden secuencial de las actividades a considerar en el desarrollo de un sistema de inteligencia de negocios y tambin indican el empleo de informacin procedente de otra.

2.3 Perfiles de UML aplicados a BIEPComo se mencion en la seccin 3.2.4, los perfiles de UML nos ayudan a particularizar algunos de sus conceptos de acuerdo a las necesidades concretas del dominio del proyecto.

Los diagramas de BIEP provienen de particularizar los diagramas de clases, despliegue, objetos, casos de uso, secuencia, comunicacin y estados de mquinas de la versin del UML 2.3.

2.3.1 Perfil UML para la bodega de datosEste perfil sirve para el modelo conceptual y lgico de la bodega de datos. En la figura 25 se ve el modelo1 es importado de la metaclase paquetes y de l se extienden los elementos del diagrama estrella y copo de nieve. En el modelo2 es importado de la metaclase class y de l se extienden las dimensiones, las tablas de hechos y la base de todos los atributos de todas las tablas.

Captulo 2

41

La metaclase Association es importado de la metaclase Association y en ella se extiende el estereotipo Rollup. El Property es importado de la metaclase Property y de l se extienden las propiedades de los atributos: medida, descriptor, estereotipo, elemento de una tabla de hechos o elemento de las dimensiones.

Figura 2-5:

Perfil UML DW

42

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2.3.2 Perfil UML para el proceso ETL

Este perfil sirve al desarrollo del proceso de carga, extraccin y transformacin de datos entre la bodega de datos y las fuentes de datos. Este perfil, se realiza mediante metaclase ETLProcess la cual es importada de la metaclase Class y de ste se extienden los elementos del proceso ETL: carga, enlace (JOIN), datos incorrectos, filtros, conversiones, tablas de hecho, bases de datos, archivos, dimensiones, espacios temporales y envolturas.

La figura 2-6 representa el mapeo al lenguaje UML de los elementos del proceso de extraccin, transformacin y carga desde las fuentes de datos hasta la bodega de datos.

Figura 2-6:

Perfil UML ETL

Captulo 2

43

2.3.3 Perfil UML despliegue

Este perfil se utiliza para el despliegue fsico de la bodega de datos y de las fuentes de datos, as como para el proceso de transporte de informacin entre ambos. Se realiza mediante la metaclase device la cual es importada de la metaclase device, a partir de ella, se extiende al estereotipo del tipo fsico de equipo: servidor, cliente y discos duros.

En el servidor encontramos los atributos de: sistema operativo, software, unidad central de procesamiento (CPU), memoria y en el tamao de los discos duros. Adems en el cliente de los datos del servidor se adiciona el navegador. Mediante la metaclase artifact la cual se importa de la metaclase artifact, de esta se extiende los estereotipos que posee un equipo como son sistema operativo, espacio de tabla y si es servidor de base de datos.

En la figura 2-7, representa el mapeo al lenguaje UML de los elementos del dominio descritos en el despliegue para las bases de datos y bodegas de datos con todos sus elementos. Figura 2-7: Perfil UML despliegue

44

Metodologa para el desarrollo de un sistema de inteligencia de negocios (BIEP)

2.3.4 Perfil UML para el proceso de anlisis, seleccin y transformacin de datos.Este perfil se utiliza para desarrollar todos los procesos de anlisis, seleccin y transformacin de atributos previos a realizar el modelo de minera de datos. Se realiza mediante la metaclase Property importado de la metaclase property, de la metaclase se extiende los siguientes elementos: anlisis y exploracin, seleccin y transformacin de datos.

Cada uno de estos elementos tiene un conjunto de estereotipos heredados para realizar su realiza su tarea as:

El anlisis y exploracin de datos tienen: histogramas, dispersin y grficos de bloques.

En la seleccin se encuentran datos con: ruido, completos, incompleto e inconsistentes.

En la transformacin se encuentran: normalizacin (minmax, decimal, z-score) y reduccin de datos (agrupamiento y discretizacin).