Servicios de Calidad de Datos Empresariales con Data Quality Services
"Denali"
José RedondoChapter Leader – SQL PASS Venezuelawww.sqlpass.org.veCorreo: [email protected]: @redondoj
AGENDA
• Introducción• Características• Arquitectura• Instalación y Configuración• Base de conocimiento ‘Knowledge Base’• Proyecto de Calidad de Datos ‘Data Quality
Project’• Demos• Preguntas
INTRODUCCIÓN
• ¿Qué es Calidad de Datos?– El grado en que los datos de una entidad están aptos para usos
comerciales.– Se pueden definir, medir y administrar a través de varias
Dimensiones y Métricas.• Precisión• Consistencia• Integridad• Duplicados• Puntualidad
– Personas + Tecnología + Procesos.
• ¿Porqué es importante la Calidad de Datos?– Es el fundamento de todo negocio.– La deficiencia tiene un impacto negativo y significativo
en las iniciativas empresariales mas estratégicas del negocio.
– Mala información = (Tiempo extra * (Perdida de credibilidad + Insatisfacción de los clientes)) / Problemas de incumplimiento + Malos ingresos.
INTRODUCCIÓN
¿Problemas comunes de Calidad de Datos?Calidad de
Datos Problemática Ejemplo
Estandarización Son elementos de datos coherentemente definidos y entendidos?
Tipo Sexo: • M, F, I en un sistema.• 0, 1, 2 en otro sistema.
Formateo Qué normativa estándar llevan los siguientes datos?
Número de teléfono pueden aparecer como:• 02129999999• (212)-9999999• +58 212 9999999
Consistentes Los valores representan el mismo significado?
Los montos se presentan en Bolívares Fuertes así como en Euros o en Dólares?
Afinamiento Es necesario mostrar todos los datos? • 20% de los apellidos de los clientes están en blanco.• 50% de los códigos postales son 999999.
Exactitud Los datos se muestran con exactitud real o proviene de una fuente verificable?
Un proveedor esta en el sistema como “Activo” pero dejo de estar operativo desde hacen 6 años.
Validación Qué significan los valores que se encuentran dentro de rangos aceptables?
Los montos salariales deben rondar entre BsF. 26,000 a BsF. 35,000.
Unicidad Los datos son repetidos? Tanto Alba Rivero como Alma Rivero aparecen en el sistema. ¿Son la misma persona?
INTRODUCCIÓN
Requerimientos de una solución de Calidad de Datos.
Limpieza
Coincidencia
Perfilamiento
Monitoreo
LimpiezaModificar, eliminar y enriquecer los datos incorrectos o incompletos. Esto incluye la corrección, la estandarización y enriquecimiento de los datos.
CoincidenciaIdentificando, enlazando y combinando las entradas relacionadas dentro o a través de los conjuntos de datos..
MonitoreoSeguimiento y monitoreo del estados de las actividades de Calidad de Datos.
PerfilamientoAnálisis de la fuente de datos para dar una idea del estado de los datos y ayudar a identificar problemas de Calidad de Datos..
INTRODUCCIÓN
• ¿Qué es Data Quality Services “DQS”?– Es una solución enfocada:• Conocimiento.• Data Quality Knowledge Base - "DQKB“.
– Limpieza de datos.– Coincidentes.
– El concepto principal:• Rápido.• Fácil de implementar.• Fácil de usar.
INTRODUCCIÓN
• ¿Qué es Data Quality Knowledge Base “DQKB”?– Es el núcleo de DQS.– Almacena todos los conocimientos.
• Tipo específico de orígenes.• Fuentes de datos.
– Componentes:• Orígenes de datos.• Dominios de datos.
– Almacena:• Términos identificados.• Errores de ortografía.• Reglas de validación y de negocios.• Datos de referencia.
INTRODUCCIÓN
CARACTERÍSTICAS
• Gestión del conocimiento.• Proyectos.• Administración.
• Gestión del conocimiento.– Descubrir el conocimiento.– Administración de dominios.– Políticas de combinación.– Servicios de referencias.
CARACTERÍSTICAS
• Proyectos de calidad de datos.– Limpieza y depuración.– Coincidencias y deduplicación.– Perfiles y notificaciones.
CARACTERÍSTICAS
• Administración de la calidad de los datos.– Administración.– Seguridad.
CARACTERÍSTICAS
Hacer accesible datos de calidad para todos.– Mejorar la calidad de los datos con DQS.• Limpiar los datos y mantenerlos limpios.• Fomentar la confianza en los datos de la empresa.• Compartir la responsabilidad de la calidad de los
datos.– Eliminar las barreras para la calidad de los datos.• Diseñado para su facilidad de uso.• Capacitar a los usuarios de negocio.• Ver los resultados en minutos en lugar de meses.
CARACTERÍSTICAS
Procesos de DQS
Crea
ción
Use
Proyecto de Calidad de Datos
Administración del conocimiento
Coincidencia y
DeduplicaciónLim
pieza &
Estandariz
ación
Administrar
conocimiento
Descubrir / Explorar datos / Conectar
Datos empresariales
Datos de referencia
Servicio de la nube
Perfi
lam
ient
o
NotificacionesProgresosEstatus
Base de Conocimiento
CARACTERÍSTICAS
DQS se conforma por los siguientes componentes:– Servidor DQS.– Cliente DQS.
Servicios externos:– Servicios de la nube de DQS.– Servicios de terceros.
ARQUITECTURA
COMPONENTES
ARQUITECTURA
Servidor DQS
ARQUITECTURA
Coincidencias
Datos Referenciados
Servidor DQ
Almacén de Proyectos DQ Almacén Común de Conocimiento Almacén de Base de Conocimiento
Motor DQ
Proyectos Activos DQDominios de
Datos MSDominio de
Datos Locales
Base de Conocimiento
Publicada
Descubriendo el Conocimiento
Perfilamiento de Datos &
Exploración
Limpieza
API de Referencia de Datos (Browse, Get, Update…)
API de Servicios RD(Browse, Set, Validate…)
Cliente DQS
ARQUITECTURA
Cliente DQ
Interfaz gráfica DQS
ComponenteDQ SSIS
Descubriendo y Administrando el
Conocimiento
Proyecto DQ Interactivo
Exploración de Datos
Clientes futuros: MS Office Excel,
MS SharePoint, etc.
SERVICIOS EXTERNOS
ARQUITECTURA
Servicios de la nube de DQS
ARQUITECTURA
Almacén de Dominios de MS DQ
MS Windows Azure Marketplace DataMarket
Referencias de Datos Categorizados
Servicio de Referencias de Datos Categorizados
Servicios de terceros
ARQUITECTURA
3rd Party
Reference Data Services
Reference Data Sets
INSTALACIÓN Y CONFIGURACIÓN
• Prerrequisitos.• Instalación.• Tareas Post Instalación.
• Prerrequisitos– Servidor DQS.– Cliente DQS.– Componente DQS para SSIS.
INSTALACIÓN Y CONFIGURACIÓN
• Prerrequisitos
INSTALACIÓN Y CONFIGURACIÓN
• Instalación– .NET 4.0– IE 6.0 SP1 o superior.
INSTALACIÓN Y CONFIGURACIÓN
• Instalación
INSTALACIÓN Y CONFIGURACIÓN
• Instalación
INSTALACIÓN Y CONFIGURACIÓN
• Instalación
INSTALACIÓN Y CONFIGURACIÓN
• Tareas Post Instalación– Habilitar el rol de usuario DQS.– Habilitar permisos en la base de datos
Origen / Destino.– Habilitar el protocolo TCP-IP para acceso
remoto.
INSTALACIÓN Y CONFIGURACIÓN
• Habilitar el rol de usuario DQS.
INSTALACIÓN Y CONFIGURACIÓN
• Habilitar el rol de usuario DQS.
INSTALACIÓN Y CONFIGURACIÓN
• Habilitar permisos en la base de datos Origen / Destino.
INSTALACIÓN Y CONFIGURACIÓN
• Habilitar permisos en la base de datos Origen / Destino.
INSTALACIÓN Y CONFIGURACIÓN
• Habilitar el protocolo TCP-IP para acceso remoto.
INSTALACIÓN Y CONFIGURACIÓN
INSTALACIÓN Y CONFIGURACIÓN
INSTALACIÓN Y CONFIGURACIÓN
INSTALACIÓN Y CONFIGURACIÓN
BASE DE CONOCIMIENTO
Representación de Dominios de
los tipos de datos
Valores
Reglas &
Relaciones
Datos de Referencias
de 3ras partes
Base de Conocimiento
Composición de Dominios
Políticas de Coincidencias
Dominios
PROYECTO DE CALIDAD DE DATOS
• Limpieza de datos.• Componente SSIS.• Coincidencia de datos.
DEMO
RESUMEN
• Enfocado a la referencialidad de los datos basados en la nube.
• Creado por usuarios de conocimiento.
• Integración con SSIS
Basado en el Conocimiento
Abierto & Extensible
Facil de usar
• Enfocado a la productividad y experiencia del usuario.
• Diseñado para usuarios empresariales.
• Externo a un criterio de conocimiento.
• Base de Conocimiento enriquecida.
• Continua mejoras y adquisición de conocimiento.
• Una vez creada, se incrementa su uso.
PREGUNTASY
RESPUESTAS
Recursos para Profesionales IT
http://microsoft.com/technet
SQL PASS Global
http://www.sqlpass.org
Recursos para Desarrolladores
SQL PASS Latam
http://www.sqlpass-latam.org
SQL PASS Venezuela
http://www.sqlpass.org.ve
http://microsoft.com/msdn
MUCHAS GRACIASJosé Redondohttp://redondoj.wordpress.com/[email protected]: @redondoj
Top Related