Post on 22-Jun-2015
description
Etapas de construcción de un datawarehouse
Captura o exhibición de los datos de las fuentes seleccionadas Se utilizan herramientas de extracción que soportan múltiples formatos de almacenamiento, para luego incorporarlos en el datawarehouse.
Tratamiento, conversión y transformación de los datosDetectar y corregir errores
Eliminar duplicadosDetectar y eliminar datos sin sentidos
Analizar la consistencia en el uso de los valoresCodificar sexoUtilizar mismas unidades de medidasFormatos de fechasDirecciones
Añadir la referencia temporal a los datos capturados
Tratamiento de la ausencia de los valoresAsignar valores por defecto a determinados campos
Eliminar campos no significativosReestructurar y añadir nuevos campos
Enriquecer los datos con mas información fundamental
Incorporar datos estadísticos de institucionesCualificar la base de datos por variables socio-
demográficos o información adicional sobre empresas.
Normalizar determinados camposNormalización de nombre de clientesNormalización de nombre de ciudades,
países, etc.Codificar campos para facilitar su
tratamiento estadísticoConvertir direcciones en códigos de areaTraducir fechas de nacimiento en intervalos
de edadesCodificar al actividad empresarial o
profesional de los clientes
Calculo de campos derivadosCalculo de subtotales y datos contables
Filtrado y depuración de registrosDepurar a clientes y clientes potenciales de
acuerdo con la relación que tienen ante la empresa
Carga en el sistema gestor de datos del Datawarehouse
Administración
- Código de pedido.- Código de cliente.- Fecha.- referencias de productos, cantidades y precios.- Importe total.
Marketing
- Identificador del cliente.- Perfil del cliente.- Historial de quejas y reclamaciones. - Solicitudes de información.
Producción
-Referencia de producto.- Stock.- Unidades producidas.- Unidades demandadas.- Coste.- Precio de venta.
Data Warehouse
Clientes. Productos. Ventas. Inventarios. Precio.
Extracción, transformació
n y carga
Sistema Gestor de Datos en un Datawarehouse
Capacidad para recibir o enviar datos.Capacidad para gestionar varios
volúmenes de datos.Registro de metadatos que faciliten la
explotación del sistema.Registro de datos con varios niveles de
detalle.
Utilización eficaz de gran cantidad de índices.
Optimización del espacio de almacenamiento disponible.
Interfaz con multitud de herramientas y lenguajes de consulta.
Tipos de sistemas de gestión de base de datos.
Base de datos relacional tradicional.
Base de datos relacional con un diseño en estrella.
Base de datos multidimensional.
Base de Datos Relacional tradicional.
Se usa para construir Datawarehouse de tamaño relativamente pequeño.
Limitación al numero de índices creados en la base de datos.
Datos no volátiles. No es posible optimizar el
almacenamiento físico de los datos.
Base de datos relacional con un diseño en estrella.
Consiste básicamente en utilizar estructuras de datos no normalizadas.
Esto ayuda a agilizar consultas y operaciones.
Base de Datos MultidimensionalSe almacenan los datos en cubos
multidimensionales.Ocupan gran espacio.
Explotación del DatawarehouseHerramientas de generación de consultas
(“Queries and Reporting”)
Análisis Multidimensional (OLAP: On Line Analytical Processing)
Herramientas de Datamining
Herramientas de generación de consultas (“Queries and Reporting”)
Son las clásicas herramientas de generación de consultas e informes de los sistemas de base de datos.
Análisis Multidimensional (OLAP: On Line Analytical Processing)
Son herramientas que facilitan el análisis de los datos a través de dimensiones y de jerarquías.
Herramientas de Datamining
Son técnicas avanzadas que permiten detectar y modelizar relaciones entre datos y obtener información no evidente.
Tecnología necesarias para los sistemas de Datawarehousing
Requieren equipos de altas prestaciones para poder manejar grandes volúmenes de datos con rapidez y eficacia.
Existen 2 tipos de arquitecturas de servidores:
SMP (Symmetric Multiprocessing)MPP (Massively Parallel)
Arquitectura SMP ( Symmetric Multiprocessing)
Arquitectura MPP (Massively Parallel)
Herramientas de análisis de datos OLAP
Dimensiones: grupos conceptuales que permiten analizar o consolidad datos.
Medidas o indicadores: valores numéricos que se guardan en la base da datos.
Jerarquía de dimensiones: distintos niveles de agregación.
Herramientas de DataminingConstituyen métodos avanzados para
explorar y modelizar relaciones en grandes volúmenes de datos.
Muestreo.Exploración.Modificación.Modelización del comportamiento.Evaluación.Presentación grafica de los resultados.
Herramientas estadisticas Calculo de distintos parámetros
estadísticos. Técnicas bayesianas.Hipótesis. Técnicas de regresión lineal.Análisis multivariante.
Análisis cluster: agrupación de datos para poder llevar a cabo la segmentación de clientes.
Técnicas de inteligencia artificial Algoritmos genéticos.
Redes neuronales.
Herramientas simbólicasArboles de decisión.Reglas de asociación.Identificación de patrones secuenciales.