Post on 15-Jul-2018
Caracas, Abril 2016
Dirección General de Estudios de Postgrado
Área de Ingeniería
Programa: Maestría Sistemas de Información
Integrantes:
Areiza, Elvis
Pérez, Dalila
Rivas, Juan
Puntos a tratar:
1.- Almacén de Datos (Data Warehouse)
2.- Preparación del almacén de datos
3.- Bases de datos multidimensionales (BDM).
4.- Procesamiento y análisis en línea (OLAP).
5.- Mercados de datos (Data Mart).
6.- Minería de datos (Data mining).
1. Almacén de Datos (Data Warehouse)
•Almacén:
•«Edificio o local donde se depositan géneros de cualquier especie, generalmente mercancías.»
•Datos: «Documento, testimonio, fundamento.»
•«Información dispuesta de una manera adecuada para su tratamiento por una computadora.»
Según la RAE
2. Preparación del Almacén de Datos
Sistema de Ayuda Toma de Decisión
A la hora de construir un Almacén de datos:
Perspectiva
SG. Colas
Distribución de Pedidos
Enfoque, Objetivo
SATD: • Ordenar • Preparar datos
Arquitectura de Inteligencia de Negocios
1
2 Analítico
Data Warehousing
¿ETL?
Vista Detalla Data warehousing
ETL: Extracción, Transformación y Carga.
Los Datos deben ser extraídos de diversas fuentes, Depurados, transformados y consolidados .
Fase de extracción:
Fuentes de extracción:
• Producción (SBD Transacciones):
IMS, DB2, Oracle, Sap.
• Archivos Planos: Texto o binario
• Internas o Externas.
Programas en C, Cobol, Pl/Sql Gateways .
Captura de Datos Análisis de entrada y/o salidas de Datos
Técnicas de Extracción
Fase de Transformación
• Involucra la división o la combinación de registros fuente • Verificación de corrección de errores • Importante al mezclar varias fuentes de datos
Los operadores o transformaciones
• Generador de Claves:
• Conversión:
• Filtrado:
• Unión:
Fase de Carga
Carga de los Datos en el Almacén
Pasos para el proceso de Carga:
• Requisitos del usuario (Tareas Procesos)
• Proceso de transporte: (técnicas)
• Ventana de Carga: (Tiempo)
Para la eficiencia de las operaciones de carga considerar:
• Movimiento de datos: Carga de esquemas semejantes al destino
• Verificación de integridad: Criterios de unicidad
• Construcción de índices: Eliminación de índices.
.
Caso Práctico: Análisis de Estadísticas Web
Conexión BD Entorno de
Trabajo
Ventana de Consulta
Parámetros
Base de datos multidimensional (MDB)
Una base de datos multidimensional (MDB) es un tipo de base de datos que almacena datos en varias dimensiones, guardan datos que adquieren valor diferente dependiendo de la dimensión que tengan con respecto a diversos atributos.
En las base de datos
multidimensionales la
información se representa
como cubos y matrices, cada
uno de los cuadros se les
llama matrices y es donde
están almacenadas la
información.
Versatilidad de las bases de datos multidimensionales
Las BDMD se caracterizan por una
mayor versatilidad que las bases
de datos relacionales a la hora de
realizar consultas. A menudo éstas
se crean a partir de entradas de las
bases de datos relacionales,
facilitando un tipo de análisis muy
útil para el negocio, que permite
extraer datos de forma selectiva y
realizar consultas de distinto tipo.
Son muy ventajosos en cuanto a
rapidez y procesamiento.
Para hacer comparaciones
entre distintas consultas y
cuestiones similares con el fin
de resumir operaciones o
descubrir tendencias de
negocios.
Es habitual su utilización para
conocer las ventas en un
determinado contexto.
Cada atributo de los datos
se considera por separado
y, a su vez, puede dividirse
en sub atributos.
Características:
Dimensiones Medidas
Simplifica consultas Datos ordenados por
jerarquía
Ventajas de las bases de datos
multidimensionales
• Accesos a grandes cantidades de información.
• Analiza relaciones entre muchos tipos de elementos.
• Presenta los datos en diferentes perspectivas.
• Involucra cálculos complejos entre elementos de datos.
• Aseguran un buen tiempo de respuesta a las necesidades del usuario.
Beneficios que trae a una organización la utilización de una BDMD
• Facilidad de acceso y Uso. • Flexibilidad. • Los datos organizados en
diferentes dimensiones. • Ahorro por productividad de
personas altamente profesionales.
• Permite encontrar con facilidad el historial de datos.
• Genera ventajas competitivas.
OLAP(Proceso analítico en línea)
Es una solución utilizada en el campo de la llamada
inteligencia empresarial cuyo objetivo es agilizar la
consulta de grandes cantidades de datos. Para ello utiliza
estructuras multidimensionales (o cubos OLAP) que
contienen datos resumidos de grandes bases de datos.
Acciones Básicas del
Proceso Analítico en Línea
Segmenta
Filtra
Profundiza Sintetiza
Rota
Características:
• Visión multidimensional.
• Arquitectura cliente / servidor.
• Multiusuario.
• Permite navegar fácilmente por la información
• Ofrece filtros adecuados, fáciles y dinámicos para el acceso a la información.
• Capacidad de análisis.
• Interfaces gráficas.
• Diferencia entre valor vacío y valor cero.
Ventajas de OLAP:
• Acceso a grandes cantidades de datos.
• Analizan las relaciones entre muchos tipos de elementos empresariales.
• Facilitan la toma de decisiones.
• Involucran datos agregados.
• Comparan datos agregados a través de periodos jerárquicos.
• Respuesta rápida a las consultas de usuarios.
• Presenta datos en diferentes dimensiones.
• Guarda histórico de datos.
Arquitecturas para los sistemas
OLAP
• MOLAP
• ROLAP
• HOLAP
• DOLAP
ROLAP ROLAP es una implementación
OLAP que almacena los datos en
un motor relacional. La
arquitectura está compuesta por
un servidor de banco de datos
relacional y el motor OLAP se
encuentra en un servidor
dedicado.
MOLAP La arquitectura MOLAP usa
unas bases de datos multidimensionales para proporcionar análisis, su principal premisa es que el OLAP está mejor implantado almacenando los datos multidimensionalmente.
HOLAP (Hybrid OLAP)
Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional, es una combinación de varias técnicas de almacenamiento. Las agregaciones se realizan en cache, pero el drill-down a través de la base de datos relacional. Algunos fabricantes son: Microdsoft Analysis Servises, SAS OLAP, Oracle Hyperion Essbase
DOLAP (Desktop OLAP). Es un OLAP orientado a equipos de escritorio (Desktop
OLAP). Trae toda la información que necesita analizar
desde la base de datos relacional y la guarda en el
escritorio. Desde ese momento, todas las consultas y
análisis son hechas contra los datos guardados en el
escritorio.
5.- Mercado de Datos (Data Mart)
Data Mart
Departamentales
Línea de Negocio
¿Qué razones tengo para crea un Data Mart?
Acceso a la Información
• Vista • Potencial
TR
Costo
Beneficios
• Decisiones estratégicas. • Acelera consultas. • Estructura de datos. • El costo. • Perspectivas macros y micro
que ahorra Tiempo.
Desventajas
Diferencias entre un Data Mart y Data Warehouse.
Aspectos Datawarehouse Datamart
Alcance Corporativo Línea de Negocio
Temas Múltiples Un único tema
Tamaño 100 GB-TB+ Menor 100 GB
Tiempo de
Implementación
De meses a años Varios meses
Motivo de la Creación Satisfacer las necesidades de una
corporación
Satisfacer las necesidades
especificas de un departamento
Tipos de Datos Datos con un nivel de detalle amplio Datos agregados y resumidos
Rol de usuarios Exploradores Recolectores
Data Marts Dependientes Data Marts Independientes Data Mart Híbrida
Herramientas de Base de datos que permiten trabajar con Data Marts: Microsoft SQLServer PostgreSql Oracle MySql
Arquitectura Descentralizada Arquitectura Integrada
6. Minería de Datos (Data Mining)
6. Minería de Datos (Data Mining)
6. Minería de Datos (Data Mining)
6. Minería de Datos (Data Mining)