4.- OLAP.ppt

88
OLAP

Transcript of 4.- OLAP.ppt

  • OLAP

  • INTRODUCCINLos sistemas OLTP no sirven para proporcionar business intelligence por varios motivos:No estn diseados para calcular agregados. El clculo de estas medidas perjudica el rendimiento y la gestin de las tareas diarias. Adems el tiempo de respuesta a una peticin de este tipo es demasiado alto.No permite el anlisis histrico.No es una herramienta para el anlisis de tendencias ni permite extrapolaciones tipo data mining.Trabajar con OLTP requiere conocimientos tcnicos: los nombres de los campos y tablas son crpticos y las relaciones entre tablas (claves externas) son complejas.

  • Data MartUn data mart no se disea igual que un sistema OLTPSu propsito principal: optimizar la velocidad de acceso, por lo que no se crean segn las normas de normalizacin. Hay datos repetidos (desnormalizados) para conseguir velocidades de respuesta a las consultas ms elevadas. Sigue siendo una base de datos relacional, pero se construye para evitar combinaciones de registros al generar informes y anlisis.

  • Data MartLas reglas de normalizacin se sustituyen por un mtodo de diseo que gira alrededor de los hechosEsquemas en estrella y en copo de nieve son la base del diseo de los data martsLas cargas de datos pueden ser mensuales, semanales o diarias, dependiendo de los requisitos de BI que tenga la empresa, pero el data mart debe estar lo suficientemente actualizado como para permitir una toma de decisiones efectiva.Las cargas de datos se deben hacer con una frecuencia tal que no suponga un estrs innecesario en el sistema OLTP

  • Data MartLos datos que se utilizan en un data mart pueden ser clasificados en cuatro categoras:MedidasDimensionesAtributosJerarquas Medidas. Una medida es un nmero que expresa un aspecto del rendimiento de la empresa. Se utiliza para apoyar y evaluar la toma de decisiones. Se le puede llamar hecho. Las tablas que contienen las medidas se llaman tablas de hechos.

  • Data MartDimensiones. Una dimensin es una clasificacin utilizada para expandir una medida agregada y ver las partes que la constituyen.Ejemplo: Medida agregada o resumida: total de ventas 435.786 Dimensin: tiempo en aos; Miembros de la dimensin: 2004, 2005, 2006, 2007

  • Data MartLa medida resumida se puede expandirSe pueden obtener hechos a diferentes niveles de agregacinSi se aade la dimensin producto, podra visualizarse as:

  • Data MartSe puede seguir expandiendo la medida aadiendo ms dimensiones como por ejemplo la regin de las ventas o la edad del cliente. Medidas con 3 dimensiones forman cubos, pero el nombre se extiende a cualquier nmero de dimensiones.

  • Data MartAtributos. Un atributo es informacin adicional que pertenece a un miembro de una dimensin pero que no es el identificador nico o la descripcin del miembro. Suele ser informacin que probablemente los usuarios quieran consultar como parte de su anlisis. Se almacenan en columnas extra de las tablas de dimensiones.

  • Data MartJerarquas. En muchos casos la dimensin forma parte de una estructura ms amplia con varios niveles. Esta estructura se llama jerarqua. En el ejemplo, las dimensiones de ao y regin de ventas forman parte de su propia jerarqua. La dimensin Ao contiene trimestres y los trimestres meses. La dimensin Regin contiene provincias. Las jerarquas permiten al usuario navegar entre diferentes niveles de detalle dentro de las medidas del data mart. Un usuario puede ver las ventas de Pistachos en una determinada ciudad para el segundo trimestre de 2006.

  • EjemploAlmacnAlmacnCiudadReginTipoDimensiones (puntos de vista) desde los que se puede analizar la actividad.

  • Jerarquas del EjemplodepartamentoalmacnciudadregintipodamesaoProductoAlmacnTiemponro. productocategoratrimestresemana

  • Data MartLas medidas, dimensiones, atributos y jerarquas se guardan en un data mart con una cierta estructura relacional. Existen dos estructuras ampliamente utilizadas que se dibujan como los diagramas mencionados antes: diagrama en estrella diagrama en copo de nieve.

  • Diagrama en EstrellaEste esquema utiliza dos tipos de tablas de datos: la tabla de hechos y la tabla de dimensiones. El centro de la estrella lo forma la tabla de hechos (puede haber ms de una). La tabla de hechos tiene una columna para la medida y una columna para cada dimensin que contenga una clave externa para el miembro de esta dimensin.La clave primaria de esta tabla es una clave compuesta, se crea concatenando todos los campos con clave externa.Las dimensiones se almacenan en tablas de dimensiones, con una columna para el identificador nico del miembro de la dimensin y otra para describirlo. PERSONALtiempoequipo

  • Ejemplo:Esquema en estrella con una tabla de hechos para ventas y cinco dimensiones: producto, ao, regin, edad, y campaa de marketing.

  • Diagrama de Copo de NieveCada nivel en la jerarqua se almacena como una tabla dimensional diferente. Como en el diagrama en estrella, las claves externas en la tabla de hechos en el centro del esquema apuntan al nivel ms bajo de cada jerarqua. Adems, la tabla de hechos de este esquema contiene una sola fila para cada combinacin nica de los miembros a nivel ms bajo de cada jerarqua. Las medidas para niveles superiores se tienen que calcular como agregados.El esquema en copo de nieve tiene todas las ventajas de un buen diseo relacional. No tiene datos duplicados y, por lo tanto, su mantenimiento es menos costoso. VENTAStiempoproductolugar

  • Diagrama de Copo de NieveLa desventaja de este diseo es que requiere combinaciones de registros para las jerarquas altas de las tablas dimensionales. En data marts grandes o que respondan a muchas consultas pueden haber problemas de rendimiento.En ambos tipos de esquema se calculan agregados cuando el usuario lo pide, esto es, on the fly.En un esquema con muchas dimensiones o con dimensiones con muchos miembros, esto puede llevar mucho tiempo. El propsito principal de BI es que la velocidad de respuesta sea lo ms alta posible para que la informacin est dispuesta en el momento justo para aquellos que deban tomar las decisiones.

  • Diagrama de Copo de Nieve

  • Ejemplo 2 (ESTRELLA)

  • Ejemplo 2: Copo de nieve

  • Comparacin bsicaLa ventaja del modelo copo de nieve es eliminar la redundancia de datos y por lo tanto ocupar menos espacio en disco.En el modelo estrella las dimensiones no se normalizan. Con ello se logra minimizar el nmero de uniones y, por consiguiente, incrementar el rendimiento de las consultas (una tabla de hechos est relacionada con numerosas tablas de dimensiones)

  • Relacin Data Mart - DWSe puede recopilar toda la informacin necesaria en un nico esquema estrella o copo de nieve?

    NO : necesidad de varios esquemas.

    Cada uno de estos esquemas se denomina datamart.DW formado por 4 datamarts.

  • Data MartEl almacn de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales.Data martse definen para satisfacer las necesidades de un departamento o seccin de la organizacin.contiene menos informacin de detalle y ms informacin agregada.subconjunto de un almacn de datos, generalmente en forma de estrella o copo de nieve.

  • Sistemas OLAPCon la informacin organizada en favor de la velocidad de acceso y de clculo en el data mart, es necesario desarrollar una interfaz o un sistema que sea capaz de ofrecer la informacin resumida o agregada. El sistema que en ltima instancia es capaz de realizar esto y de generar informes propios de BI es el OLAP.

  • Herramientas OLAPLas herramientas de OLAP presentan al usuario una visin multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de anlisis.El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema fsico) del almacn de datos.La herramienta OLAP genera la correspondiente consulta y la enva al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).

  • Cubos OLAPComo en el clculo de un valor agregado intervienen varias dimensiones o jerarquas inferiores, lo habitual es que el sistema OLAP calcule y almacene algunos de estos valores (sino todos) gracias a procesos en segundo plano (background). As se consigue que los tiempos de clculo no afecten a los usuarios. Los agregados se almacenan en una base de datos (relacional o multidimensional segn la arquitectura empleada).

  • Herramientas OLAPuna consulta a un almacn de datos consiste generalmente en la obtencin de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones Importe total de las ventas durante este ao de los productos del departamento Bebidas, por trimestre y por categora ?.Restricciones: productos del departamento Bebidas, ventas durante este aomedidahechoParmetros de la consulta: por categora de producto y por trimestre

  • Herramientas OLAPProductoTiempoAlmacnDepartamentoNro_productoCategoraMarcaTipoDaMesDa de la semanaAlmacnCiudadReginTipoAoImporte total de ventas en este ao, del departamento de Bebidas, por categora y trimestreTrimestre

  • Herramientas OLAPINFORME

  • Herramientas OLAPPresentacin tabular (relacional) de los datos seleccionadosCategoraTrimestreVentasT4T2T3T1T320000003000000150000024000008000000T11000000T4T21000000RefrescosRefrescosRefrescosRefrescosZumosZumosZumosZumos2000000Se asumen dos categoras en el departamento de Bebidas: Refrescos y Zumos.

  • Herramientas OLAPT4T3T2T1ZumosRefrescoscategoratrimestrePresentacin matricial (multidimensional) de los datos seleccionadosLos parmetros de la consulta (por trimestre y por categora) determinan los criterios de agrupacin de los datos seleccionados (ventas de productos del departamento Bebidas durante este ao). La agrupacin se realiza sobre dos dimensiones (Producto, Tiempo). 20000001000000300000020000001000000150000080000002400000

  • Herramientas OLAPLo interesante no es poder realizar consultas que, en cierto modo, se pueden hacer con selecciones, proyecciones, concatenaciones y agrupamientos tradicionales.

    Lo realmente interesante de las herramientas OLAP son sus operadores de refinamiento o manipulacin de consultas.DRILLROLLSLICE & DICEPIVOT

  • Herramientas OLAPEl carcter agregado de las consultas en el Anlisis de Datos, aconseja la definicin de nuevos operadores que faciliten la agregacin (consolidacin) y la disgregacin (divisin) de los datos:agregacin (roll): permite eliminar un criterio de agrupacin en el anlisis, agregando los grupos actuales.disgregacin (drill): permite introducir un nuevo criterio de agrupacin en el anlisis, disgregando los grupos actuales.

  • Herramientas OLAPSi se desea introducir la dimensin Almacn en el anlisis anterior e incluir un nuevo criterio de agrupacin sobre la ciudad del almacn: Importe total de las ventas durante este ao de los productos del departamento Bebidas, por trimestre, por categoras y por ciudad del almacn ?.Restricciones: productos del departamento Bebidas, ventas durante este aoParmetros de la consulta: por categora de producto, por trimestre y por ciudad del almacn.

  • Herramientas OLAPProductoTiempoAlmacnDepartamentoNro_productoCategoraMarcaTipoDaMesDa de la semanaAlmacnCiudadReginTipoAoImporte total de ventas en este ao, del departamento de Bebidas, por categora, trimestre y ciudadTrimestreel usuario no necesita disear este nuevo informe

  • Herramientas OLAPDRILL ACROSS Almacn (Ciudad)Informe mas detallado la operacin de DRILL se realiza sobre el informe original !

  • Herramientas OLAPCategoraTrimestreVentasCiudadT2T1400000T2700000RefrescosT1Valenciadrill-acrossCategoraTrimestreVentasT4T2T3T1T320000003000000150000024000008000000T11000000T4T21000000RefrescosRefrescosRefrescosRefrescosZumosZumosZumosZumos2000000LenRefrescosRefrescosRefrescosValenciaLen10000001000000* Se asumen dos ciudades: Valencia y Len.Cada grupo (categora-trimestre) de la consulta original se disgrega en dos nuevos grupos (categora-trimestre-ciudad) para las ciudades de Len y Valencia.

  • Herramientas OLAPT1T2T3T4ValenciaZumosRefrescosLen10000003000004000005000001000002000005000002000000Presentacin matricial de los datos seleccionados.

  • Herramientas OLAPSi se desea eliminar el criterio de agrupacin sobre la dimensin Tiempo en la consulta original: Importe total de las ventas durante este ao de los productos del departamento Bebidas, por categoras ?

  • Herramientas OLAPProductoTiempoAlmacnDepartamentoNro_productoCategoraMarcaTipoDaMesDa de la semanaAlmacnCiudadReginTipoAoImporte total de ventas en este ao, del departamento de Bebidas, por categorasTrimestreel usuario no necesita disear este nuevo informe

  • Herramientas OLAPROLL ACROSS Tiempo (Trimestre)Informe mas agregado la operacin de ROLL se realiza sobre el informe original !

  • Herramientas OLAPCategoraVentasRefrescos8000000Zumos12900000roll-acrossCategoraTrimestreVentasT4T2T3T1T320000003000000150000024000008000000T11000000T4T21000000RefrescosRefrescosRefrescosRefrescosZumosZumosZumosZumos2000000

  • Herramientas OLAPLas operaciones de agregacin (ROLL) y disgregacin (DRILL) se pueden hacer sobre:atributos de una dimensin sobre los que se ha definido una jerarqua: DRILL-DOWN, ROLL-UPdepartamento categora - producto (Producto)ao - trimestre mes - da (Tiempo)sobre dimensiones independientes: DRILL-ACROSS, ROLL-ACROSSProducto Almacn -Tiempo

  • Herramientas OLAPDRILL DOWN Tiempo (mes) la operacin de DRILL se realiza sobre el informe original !Importe total de ventas en este ao, del departamento de Bebidas, por categora y mes

  • Herramientas OLAPCategoraTrimestreVentasMesT1T1500000RefrescosT1Enerodrill-downCategoraTrimestreVentasT4T2T3T1T320000003000000150000024000008000000T11000000T4T21000000RefrescosRefrescosRefrescosRefrescosZumosZumosZumosZumos2000000FebreroRefrescosRefrescosMarzo1000000500000Cada grupo (categora-trimestre) de la consulta original se disgrega en dos nuevos grupos (categora-trimestre-mes).

  • Ejemplo 2 - Drill

  • Herramientas OLAPOtras operaciones de OLAP:

    PIVOT: reorientacin de las dimensiones en el informe.SLICE & DICE: seleccionar y proyectar datos en el informe.

  • Herramientas OLAPVentasElectronics Toys Clothing CosmeticsQ1$5,2 $1,9 $2,3 $1,1Electronics Toys Clothing CosmeticsQ2$8,9 $0,75 $4,6 $1,5ProductosStore1Store2$5,6 $1,4 $2,6 $1,1$7,2 $0,4 $4,6 $0,5VentasElectronics Toys Clothing CosmeticsStore 1$5,2 $1,9 $2,3 $1,1Electronics Toys Clothing CosmeticsStore 2$5,6 $1,4 $2,6 $1,1ProductosQ1Q2$8,9 $0,75 $4,6 $1,5$7,2 $0,4 $4,6 $0,5PIVOT

  • Herramientas OLAPVentasElectronics Toys Clothing CosmeticsQ1$5,2 $1,9 $2,3 $1,1Electronics Toys Clothing CosmeticsQ2$8,9 $0,75 $4,6 $1,5ProductosStore1Store2$5,6 $1,4 $2,6 $1,1$7,2 $0,4 $4,6 $0,5VentasElectronics ToysQ1$5,2 $1,9ProductosStore1Electronics ToysQ2$8,9 $0,75SLICE & DICE

  • Ejemplo 2 - Dice

  • Ejemplo 2 DiceAgregando la dimensin rea al filtro, especficamente el rea Recepcin

  • Herramientas OLAPLas herramientas de OLAP se caracterizan por:ofrecer una visin multidimensional de los datos (matricial).no imponer restricciones sobre el nmero de dimensiones.permitir definir de forma flexible (sin limitaciones) sobre las dimensiones: restricciones, agregaciones y jerarquas entre ellas.ofrecer operadores intuitivos de manipulacin: drill-down, roll-up, slice-and-dice, pivot.ser transparentes al tipo de tecnologa que soporta el almacn de datos (ROLAP o MOLAP).

  • Recordemos Tipos de OLAP

  • Diseo de un Almacn de Datos OLAPDiseo fsicoDiseo lgico especficoImplementacinDiseo conceptualRecogida y anlisis derequisitos

  • Diseo de un Almacn de DatosDiseo fsicoDiseo lgicoImplementacinDiseo conceptualRecogida y anlisis derequisitosAnlisisDiscernimiento de las fuentes necesarias del sistema de informacin de la organizacin (OLTP) y externasRequisitos de usuario (consultas de anlisis necesarias, nivel de agregacin, )p.ej. Entidad-RelacinDiseo Conceptual

  • Diseo de un Almacn de DatosDiseo fsicoDiseo lgicoImplementacinDiseo conceptualRecogida y anlisis derequisitosDiseo LgicoModelado multidimensional (MR)Esquemas

  • Diseo de un Almacn de DatosDiseo fsicoDiseo lgicoImplementacinDiseo conceptualRecogida y anlisis derequisitosDefinicin del esquema ROLAP o MOLAP

    Diseo FsicoDiseo del ETL

  • Diseo de un Almacn de DatosDiseo fsicoDiseo lgicoImplementacinDiseo conceptualRecogida y anlisis derequisitosImplementacinCarga del AD (ETL)Preparacin de las vistas de usuario (herramienta OLAP)

  • Diseo de un Almacn de DatosDetallemos el Diseo Lgico... La visin multidimensional seguida por las herramientas de explotacin de almacenes de datos (OLAP) ha inspirado los modelos y metodologas de diseo de este tipo de sistemas.En la literatura se habla de Bases de Datos Multidimensionales y de Diseo MultidimensionalDiseo fsicoDiseo lgicoImplementacinDiseo conceptualRecogida y anlisis derequisitos

  • Diseo de un Almacn de DatosModelado multidimensional:en un esquema multidimensional se representa una actividad que es objeto de anlisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).la informacin relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).la informacin descriptiva de cada dimensin se representa por un conjunto de atributos (atributos de dimensin).

  • Diseo de un Almacn de DatosPasos en el diseo del almacn de datos:Paso 1. Elegir un proceso de la organizacin para modelar.Paso 2. Decidir el grnulo (nivel de detalle) de representacin del proceso.Paso 3. Identificar las dimensiones que caracterizan el proceso.Paso 4. Decidir la informacin a almacenar sobre el proceso.

  • Diseo de un Almacn de DatosPaso 1. Elegir un proceso de la organizacin para modelar.Proceso: actividad de la organizacin soportada por un OLTP del cual se puede extraer informacin con el propsito de construir el almacn de datos.Pedidos (de clientes)Compras (a proveedores)FacturacinEnvosVentasInventario

  • Diseo de un Almacn de DatosEjemplo: Cadena de supermercados.Cadena de supermercados con 300 almacenes en la que se expenden unos 30.000 productos distintos.

    Actividad: Ventas.La actividad a modelar son las ventas de productos en los almacenes de la cadena.

  • Diseo de un Almacn de DatosPaso 2. Decidir el grnulo (nivel de detalle) de representacin.El grnulo define el nivel atmico de datos en el almacn de datos.El grnulo determina el significado de las tuplas de la tabla de hechos.El grnulo determina las dimensiones bsicas del esquema transaccin en el OLTP informacin diaria informacin semanal informacin mensual. ....

  • Diseo de un Almacn de Datosid_dim1id_dim2id_dim3...id_dim n....(hechos)

    Dim3Dim2Dim1tabla de hechostabla Dimensin 3tabla Dimensin 1tabla Dimensin 2

    tabla Dimensin nDimn

  • Diseo de un Almacn de DatosEjemplo: Cadena de supermercados.Grnulo: se desea almacenar informacin sobre las ventas diarias de cada producto en cada almacn de la cadena.Grnulo: define el significado de las tuplas de la tabla de hechos.determina las dimensiones bsicas del esquema.productodaalmacnventas

    tiempoalmacnproducto

  • Diseo de un Almacn de DatosGrnulo inferior: no se almacena informacin a nivel de lnea de ticket porque no se puede identificar siempre al cliente de la venta lo que permitira hacer anlisis del comportamiento (hbitos de compra) del cliente.Grnulo superior: no se almacena informacin a nivel semanal o mensual porque se perderan opciones de anlisis interesantes: ventas en das previos a vacaciones, ventas en fin de semana, ventas en fin de mes, ....En un almacn de datos se almacena informacin a un nivel de detalle (grnulo) fino no porque se vaya a interrogar el almacn siempre a ese nivel sino porque ello permite clasificar y estudiar (analizar) la informacin desde muchos puntos de vista.

  • Diseo de un Almacn de Datosproductodaalmacnventas

    tiempoalmacnproductoid_productoid_fechaid_almacn................tabla de hechosla clave primaria* est formada por los identificadores de las dimensiones bsicas.datos (medidas) sobre las ventas diarias de un producto en un almacn.* pueden existir excepciones a esta regla general

  • Diseo de un Almacn de DatosPaso 3. Identificar las dimensiones que caracterizan el proceso.Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (grnulo) que se ha elegido. Ej:Tiempo (dimensin temporal: cundo se produce la actividad?)Producto (dimensin cul es el objeto de la actividad?)Almacn (dimensin geogrfica: dnde se produce la actividad?)Cliente (dimensin quin es el destinatario de la actividad?)De cada dimensin se debe decidir los atributos (propiedades) relevantes para el anlisis de la actividad.Entre los atributos de una dimensin existen jerarquas naturales que deben ser identificadas (da-mes-ao)

  • Diseo de un Almacn de Datosid_dim1....

    tabla Dimensin 1(atributos)

  • Diseo de un Almacn de DatosEjemplo: Cadena de supermercados.definicin de grnulodimensiones bsicastiempoproductoalmacnNota: En las aplicaciones reales el nmero de dimensiones suele variar entre 3 y 15 dimensiones.

  • Diseo de un Almacn de DatosDimensin Tiempo:dimensin presente en todo AD porque el AD contiene informacin histrica sobre la organizacin.aunque el lenguaje SQL ofrece funciones de tipo DATE, una dimensin Tiempo permite representar otros atributos temporales no calculables en SQL.atributos frecuentes: nro. de da, nro. de semana, nro. de ao: valores absolutos del calendario que permiten hacer ciertos clculos aritmticos. da de la semana (lunes, martes, mircoles,...): permite hacer anlisis sobre das de la semana concretos (ej. ventas en sbado, ventas en lunes,..).

  • Diseo de un Almacn de DatosDimensin Tiempo: atributos frecuentes: da del mes (1..31): permite hacer comparaciones sobre el mismo da en meses distintos (ventas el 1 de mes).marca de fin de mes, marca de fin de semana : permite hacer comparaciones sobre el ltimo da del mes o das de fin de semana en distintos meses.trimestre del ao (1..4): permite hacer anlisis sobre un trimestre concreto en distintos aos.marca de da festivo: permite hacer anlisis sobre los das previos y posteriores a un da festivo.estacin (primavera, verano..)evento especial: permite marcar das de eventos especiales (final de campeonato de futbol, elecciones, paro estudiantil...) jerarqua natural: da - mes - trimestre -ao

  • Diseo de un Almacn de DatosDimensin Producto:la dimensin Producto se define a partir del archivo (tabla) maestro de productos del sistema OLTP.las actualizaciones del archivo maestro de productos deben reflejarse en la dimensin Producto.la dimensin Producto debe contener el mayor nmero posible de atributos descriptivos que permitan un anlisis flexible. Un nmero frecuente es de 50 atributos.atributos frecuentes: identificador (cdigo estndar), descripcin, tamao del envase, marca, categora, departamento, tipo de envase, producto diettico, peso, unidades por envase, frmula, ...Jerarqua natural: producto-categora-departamento

  • Diseo de un Almacn de DatosDimensin Almacn (store) :la dimensin Almacn representa la informacin geogrfica bsica.esta dimensin suele ser creada explcitamente recopilando informacin externa que slo tiene sentido en el A.D y que no la tiene en un OLTP (nmero de habitantes de la ciudad del establecimiento, caracterizacin del tipo de poblacin de la comuna, ...) atributos frecuentes: identificador (cdigo interno), nombre, direccin, regin, ciudad, pas, gerente, telfono, fax, tipo de almacn, superficie, fecha de apertura, fecha de la ltima remodelacin, superficie para congelados, superficie para productos frescos, datos de la poblacin del distrito, zona de ventas, ...Jerarquas naturales: establecimiento - ciudad - regin - pas (jerarqua geogrfica)establecimiento - zona_ventas - regin_ventas (jerarqua de ventas)

  • Diseo de un Almacn de Datosid_establecnro_establecnombredireccinreginciudadpastlfnofaxsuperficietipo_almacn...Establecimientoid_fechadasemanamesaoda_semanada_mestrimestrefestivo....Tiempoid_productonro_productodescripcinmarcasubcategoracategoradepartamentopesounidades_pesotipo_envasediettico...Producto

  • Diseo de un Almacn de Datosid_fechaid_productoid_establec.........Ventasid_establecnro_establecnombredireccinreginciudadpastlfnofaxsuperficietipo_almacn...id_productonro_productodescripcinmarcasubcategoracategoradepartamentopesounidades_pesotipo_envasediettico...EstablecimientoProductoid_fechadasemanamesaoda_semanada_mestrimestrefestivo....Tiempo

  • Diseo de un Almacn de DatosPaso 4. Decidir la informacin a almacenar sobre el proceso.Hechos: informacin (sobre la actividad) que se desea almacenar en cada tupla de la tabla de hechos y que ser el objeto del anlisis.PrecioUnidadesImporte....Nota: algunos datos que en el OLTP coincidiran con valores de atributos de dimensiones, en el almacn de datos pueden representar hechos. (Ejemplo: el precio de venta de un producto).

  • Diseo de un Almacn de DatosEjemplo: Cadena de supermercados.Grnulo: se desea almacenar informacin sobre las ventas diarias de cada producto en cada establecimiento de la cadena.importe total de las ventas del producto en el danmero total de unidades vendidas del producto en el danmero total de clientes distintos que han comprado el producto en el da.

  • Diseo de un Almacn de Datosid_fechaid_productoid_establecimporteunidadesnro_clientesVentasid_establecnro_establecnombredireccinreginciudadpastlfnofaxsuperficietipo_almacn...id_productonro_productodescripcinmarcasubcategoracategoradepartamentopesounidades_pesotipo_envasediettico...EstablecimientoProductoid_fechadasemanamesaoda_semanada_mestrimestrefestivo....Tiempo

  • Diseo de un Almacn de DatosOtras orientaciones de diseo:uso de claves sin significado.en un almacn de datos debe evitarse el uso de las claves del sistema operacional.las claves de las dimensiones deben ser generadas artificialmente: claves de tipo entero (4 bytes) son suficiente para dimensiones de cualquier tamao (232 valores distintos).la dimensin TIEMPO debe tener tambin una clave artificial.Inconvenientes del uso de las claves del sistema operacional:en el OLTP se puede decidir reutilizar valores de la clave no utilizados actualmente.en el OLTP se puede decidir cambiar la codificacin de las claves.

  • Diseo de un Almacn de DatosOtras Orientaciones de diseo:evitar normalizar.Si se define una tabla de dimensin para cada dimensin identificada en el anlisis, es frecuente que entre el conjunto de atributos de la tabla aparezcan dependencias funcionales que hacen que la tabla no est en 3 F.N.Evitar normalizar: el ahorro de espacio no es significativose multiplican los JOIN durante las consultas.

  • Diseo de un Almacn de DatosEn un almacn de Datos muchas consultas son restringidas y parametrizadas por criterios relativos a periodos de tiempo (ltimo mes, este ao, ...).Otras Orientaciones de diseo:siempre introducir la dimensin Tiempo.

  • Diseo de un Almacn de DatosOtras orientaciones de diseo:dimensiones que cambian.Ejemplo: En un A.D existe la dimensin CLIENTE. En la tabla correspondiente un registro representa la informacin sobre el cliente Mara Garca cuyo estado civil cambia el 14-02-2012 de soltera a casada. El estado civil del cliente es utilizado con frecuencia en el anlisis de la informacin.Se considera relevante el caso en que, en el mundo real, para un valor de una dimensin, cambia el valor de un atributo que es significativo para el anlisis sin cambiar el valor de su clave.Existen tres estrategias para el tratamiento de los cambios en las dimensiones:Tipo 1: Realizar la modificacin.Tipo 2: Crear un nuevo registro.Tipo 3: Crear un nuevo atributo.

  • Diseo de un Almacn de DatosOtras orientaciones de diseo:definicin de agregados.En un almacn de datos es usual consultar informacin agregadaEl almacenamiento de datos agregados por distintos criterios de agregacin en la tabla de hechos mejora la eficiencia del AD.Estrategias de almacenamiento de datos agregados:Estrategia 1: definir nuevas tablas de hechos (resp. de dimensiones) para almacenar la informacin agregada .Estrategia 2: insertar en la tabla de hechos (resp. dimensiones) tuplas que representan la informacin agregada (resp. niveles de agregacin).

  • Desventajas de sistemas OLAPRequiere de conocimientos y experiencia elevados para crear y gestionar las herramientas, y eso repercute en el costo. La definicin de medidas, dimensiones y jerarquas, la creacin del cubo y de la herramienta OLAP requieren conocer profundamente los procesos y estructuras empresariales as como las tcnicas de desarrollo para data mart y bases de datos.En la mayora de casos OLAP funciona a partir de un data mart con un esquema determinado, y los datos deben ser limpiados, transformados y extrados de OLTP como tareas programadas.

  • Desventajas de sistemas OLAPUn cambio del sistema OLTP supone redisear el proceso ETL. El proceso ETL no funciona continuamente, esto aade latencia al sistema, en OLAP no tenemos los datos actualizados al segundo.No es posible analizar escenarios hipotticos, porque OLAP es solo de lectura. Estas situaciones hipotticas, aunque no puedan ser simuladas en OLAP, pueden ser estimadas a travs de algoritmos de prediccin, clasificacin y agrupacin. Estos algoritmos son los algoritmos de data mining.

  • Trabajo Evaluacin 2Implementar un modelo OLAP (Estrella) usando SQLServer, usando la metodologa explicadaEstacionamientos subterrneosDisqueraIPTelecomunicaciones Call centerPeaje

    Generar informeExponer