Gest ión de Calidad de Datos

63
1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López [email protected] Universitario Autónomo del Sur - 2005 Universitario Autónomo del Sur - 2005 Monitoreo, seguimiento y mejora del proceso Viene de: Métodos de Control Estadístico

description

Gest ión de Calidad de Datos. Monitoreo, seguimiento y mejora del proceso. Carlos López [email protected]. Viene de : Métodos de Control Estadístico. Universitario Autónomo del Sur - 2005. El Ciclo de Gestión de Procesos. Establecer un Propietario del Proceso. - PowerPoint PPT Presentation

Transcript of Gest ión de Calidad de Datos

Page 1: Gest ión de Calidad de Datos

1

UA

S C

arlo

s L

ópez

Váz

quez

Gestión de Calidad de Datos

Carlos Ló[email protected]

Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005

Monitoreo, seguimiento y mejora del proceso

Viene de:

Métodos de Control Estadístico

Page 2: Gest ión de Calidad de Datos

2

UA

S C

arlo

s L

ópez

Váz

quez

El Ciclo de Gestión de Procesos

Establecer un Propietario del Proceso

Describir el Proceso Establecer Necesidades

del Cliente

Establecer Sistema de Medición

Identificar Oportunidades de Mejora

Instalar SQC; verificar Conformidad

Seleccionar Oportunidades

Hacer y Sostener las Mejoras

Page 3: Gest ión de Calidad de Datos

3

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

Page 4: Gest ión de Calidad de Datos

4

UA

S C

arlo

s L

ópez

Váz

quez

Introducción

Hay varias maneras de medir desempeño– Conteo de datos erróneos

» Reglas de Negocio no cumplidas» Seguimiento de Datos (Data tracking)» Ingreso duplicado

– Tamaño de datos erróneos» Efecto Godzilla

– Efecto de datos erróneos» Número de Quejas de Clientes

Page 5: Gest ión de Calidad de Datos

5

UA

S C

arlo

s L

ópez

Váz

quez

Reglas del Negocio

Def: Relaciones que tienen que cumplir los datos válidos– Sustanciales: Fecha Nacimiento < Fecha

Casamiento– Formales: Nro. Hijos ≥0

Surgen de:– Expertos en el tema– Análisis estadístico de datos

Son esencialmente especificaciones de

los datos

Page 6: Gest ión de Calidad de Datos

6

UA

S C

arlo

s L

ópez

Váz

quez

Reglas de Expertos

Son personales Son incompletas Son de difícil actualización (¡Hay que matar al experto!)

¡No requieren datos! Suelen redundar Hay software específico

Page 7: Gest ión de Calidad de Datos

7

UA

S C

arlo

s L

ópez

Váz

quez

Análisis Estadístico

Hoy conocido como “Minería de Datos” Busca relaciones predictivas empíricas

– No verificadas¿erróneos? Busca describir clases

– No clasificados¿erróneos? Registros individuales conclusiones

globales

100100101001001100100100100010001000100001001000100001000011111110010

Page 8: Gest ión de Calidad de Datos

8

UA

S C

arlo

s L

ópez

Váz

quez

Modelos predictivos

Modelos de regresión– Vol. Compra=f(ingreso, edad, nro. de hijos)

Típicamente vinculan datos cuantitativos Se analiza y=|Compra-f(x)|

– Si y<=y0 ok– Si y>y0¡sospechoso!

Para corregir se requiere acceso al “verdadero valor”

Page 9: Gest ión de Calidad de Datos

9

UA

S C

arlo

s L

ópez

Váz

quez

Clasificación

Buscan patrones en los datos– Cerveza+pañales+pizza– Perfume+bombones-leña

– Mañana de domingo+chorizos

Vinculan datos categóricos y cuantitativos Si alguien compra Leña y Perfume … Para corregir se requiere acceso al “verdadero

valor”

Page 10: Gest ión de Calidad de Datos

10

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

Page 11: Gest ión de Calidad de Datos

11

UA

S C

arlo

s L

ópez

Váz

quez

Sistemas de Medición

Tema muy importante Las Métricas definen el comportamiento Peligros

– Métricas inapropiadas – Administrar Métricas y no el proceso

Ejemplos

Page 12: Gest ión de Calidad de Datos

12

UA

S C

arlo

s L

ópez

Váz

quez

El caso de la Industria siderúrgica

Produce chapas, perfiles, varillas, etc. en serie Objetivo: producción bruta en Ton/mes Cambios ~8 hs. Grandes stocks Demora en cumplir pedidos

Resultado:

Ton/mes cumplidas, y clientes insatisfechos

Page 13: Gest ión de Calidad de Datos

13

UA

S C

arlo

s L

ópez

Váz

quez

Administrar la métrica

VW nombra CEO español Año 1: récord de ganancias Año 2: récord de ganancias Año 3: ¡CEO despedido!

Corto plazo vs. Largo plazo

Page 14: Gest ión de Calidad de Datos

14

UA

S C

arlo

s L

ópez

Váz

quez

Medir vs. no Medir

Lo esencial es invisible a los ojos Medir mal es peligroso

Page 15: Gest ión de Calidad de Datos

15

UA

S C

arlo

s L

ópez

Váz

quez

Cadenas de información

Cuentan con cuatro componentes: Requerimientos de Desempeño Definición de “qué medir” Dispositivo de medida y protocolos Resúmenes de Desempeño Serán los tópicos a tratar

Page 16: Gest ión de Calidad de Datos

16

UA

S C

arlo

s L

ópez

Váz

quez

En general…

Mejor poco y bueno, que mucho y malo… +medidas+complejidad+difícil y caro Sinergias

Medidas Ideas y oportunidades

Más tecnología

Más

Page 17: Gest ión de Calidad de Datos

17

UA

S C

arlo

s L

ópez

Váz

quez

En lo que sigue…

Se discutirán las cuatro componentes Se trabajará un ejemplo simple

– 5 procesos– 2 bases de datos

Objetivos a medir/mejorar/controlar:– Correctitud datos en DB A– Consistencia entre DB A y DB B– Tiempo para llegar a DB A

Page 18: Gest ión de Calidad de Datos

18

UA

S C

arlo

s L

ópez

Váz

quez

Esquema del ejemplo

Page 19: Gest ión de Calidad de Datos

19

UA

S C

arlo

s L

ópez

Váz

quez

Descripción del Ejemplo

campo 1 2 3 4 5 DB A DB B a c

b c c c

d c e c

f c

g c c

h c

Proceso

Page 20: Gest ión de Calidad de Datos

20

UA

S C

arlo

s L

ópez

Váz

quez

Cadenas de información

Requerimientos de Desempeño Definición de “qué medir” Dispositivo de medida y protocolos Resúmenes de Desempeño

Page 21: Gest ión de Calidad de Datos

21

UA

S C

arlo

s L

ópez

Váz

quez

Requerimientos de Desempeño

Diseño del SM debe admitir cosas del tipo de “La cadena debe”. Por ejemplo:

estar y mantenerse bajo Control producir no más de <x> defectos ser susceptible de mejora continua ser susceptible de cumplir requerimientos

futuros

Page 22: Gest ión de Calidad de Datos

22

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

Page 23: Gest ión de Calidad de Datos

23

UA

S C

arlo

s L

ópez

Váz

quez

¿Qué medir?

Cadenas suelen ser complejas– Muchos campos– Muchos cruces de cadenas

Desafíos– Qué procesos medir– Qué campos incluir – Qué números son relevantes

Page 24: Gest ión de Calidad de Datos

24

UA

S C

arlo

s L

ópez

Váz

quez

“Dispositivo” de medida

Contraste con “la realidad”

Data tracking– Más apropiado para datos– Más barato– Implementable en el sistema

– Muestreo– Encuesta

Digitación duplicada– “Database Bashing”

Ejércitos de digitadores Pérdida de tiempo Imagen empresa ¡Costo!

Page 25: Gest ión de Calidad de Datos

25

UA

S C

arlo

s L

ópez

Váz

quez

Método tradicional

Producto final

Page 26: Gest ión de Calidad de Datos

26

UA

S C

arlo

s L

ópez

Váz

quez

Para datos…

Métricas pueden ser:– Binarias: Correcto/incorrecto– Cuantitativas

Difícil declarar “Incorrecto” – Sólo si no cumple reglas– Sólo si hay errores de formato

Más difícil declarar “Correcto” Difícil acceso al “verdadero valor”

Page 27: Gest ión de Calidad de Datos

27

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

Page 28: Gest ión de Calidad de Datos

28

UA

S C

arlo

s L

ópez

Váz

quez

Data Tracking

Se marcan datos Se analizan cambios Se guarda fecha/hora

Page 29: Gest ión de Calidad de Datos

29

UA

S C

arlo

s L

ópez

Váz

quez

Los pasos claves son…

Muestrear al azar a la entrada, y marcar Seguir los registros marcados

– Al entrar a un proceso

– Al salir del proceso

Identificar dónde ocurren defectos/errores Identificar demoras Generar resúmenes cada tanto

Page 30: Gest ión de Calidad de Datos

30

UA

S C

arlo

s L

ópez

Váz

quez

Muestrear al azar

Aplicable a cadenas “continuas” o por lotes Eliminan sesgos:

– Pedidos consecutivos correlacionados– Preferencia del inspector por pedidos “grandes”

Procedimientos bien estudiados– Descritos en Manuales– Especificados en Estándares (MIL Std.)

Page 31: Gest ión de Calidad de Datos

31

UA

S C

arlo

s L

ópez

Váz

quez

r=1100% del total; r=0 no muestrear Otros requerimientos:

– Tamaño del lote

– Frecuencia de muestreo

– Tasa de ingreso al sistema

Muestrear al azar(2)

– Generar al azar

– Si aceptar el registro; si no, rechazarlo

1,0ix

rxi

1

1

Pasos: Especificar r Para cada registro:

Page 32: Gest ión de Calidad de Datos

32

UA

S C

arlo

s L

ópez

Váz

quez

Seguir los registros marcados

Usar un identificador único ya existente– No requiere cambio del modelo de datos

Agregar una etiqueta específica– Hay que modificar modelo

Invisibilidad… Ejemplo:

Page 33: Gest ión de Calidad de Datos

33

UA

S C

arlo

s L

ópez

Váz

quez

Ejemplo

1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC-

b 408727 408727 408831 408831 408831 408831 408831 c SRBEX A A A A A

d DEC DEC DEC DEC DEC

e H23A F17B H23A F17B H23A

f $23.25 $23.25

g N Y N Y

h bf bf

Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30

Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00

Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00

Page 34: Gest ión de Calidad de Datos

34

UA

S C

arlo

s L

ópez

Váz

quez

Tres tipos de cambios

Normalización Traducción Espúreos

– Corrección de errores– Creación de errores

Page 35: Gest ión de Calidad de Datos

35

UA

S C

arlo

s L

ópez

Váz

quez

Ejemplo

1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC-

b 408727 408727 408831 408831 408831 408831 408831 c SRBEX A A A A A

d DEC DEC DEC DEC DEC

e H23A F17B H23A F17B H23A

f $23.25 $23.25

g N Y N Y

h bf bf

Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30

Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00

Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00

Page 36: Gest ión de Calidad de Datos

36

UA

S C

arlo

s L

ópez

Váz

quez

Tiempos de ciclos

Tres tipos de análisis– Tiempo de proceso (Ci-Si)

– Puntualidad (Ci-Di)

– Tiempo en cola (Si-Ci-1)

Siendo:Si fecha/hora de comienzo del proceso i

Ci fecha/hora de culminación del proceso i

Di fecha/hora comprometida del proceso i

Page 37: Gest ión de Calidad de Datos

37

UA

S C

arlo

s L

ópez

Váz

quez

Ejemplo

1 2 3 4 5 DB A DB B a -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC- -DHBC-

b 408727 408727 408831 408831 408831 408831 408831 c SRBEX A A A A A

d DEC DEC DEC DEC DEC

e H23A F17B H23A F17B H23A

f $23.25 $23.25

g N Y N Y

h bf bf

Ingreso 2/24 10:00 2/24 12:15 3/1 12:00 3/5 08:00 3/10 08:00 3/6 0:13 3/12 0:30

Salida 2/24 10:45 2/24 17:00 3/2 12:00 3/5 10:15 3/10 17:00

Esperado 2/24 17:00 3/1 17:00 3/5 17:00 3/9 17:00 3/6 8:00 3/10 8:00

Page 38: Gest ión de Calidad de Datos

38

UA

S C

arlo

s L

ópez

Váz

quez

0 2 4 6 8 10 12 14 16 18 20

Cam

bios

por

reg

istr

o

Nro. de muestra

EspúreosNormalizaciónTraducción

Resumir resultados

Para Correctitud y Consistencia

Tres niveles:– Métrica

– Dónde

– Control

Un ejemplo de Métrica

Situación conocida Quizá poco preocupante Quizá legada ¡Seguro que no aporta valor!

Page 39: Gest ión de Calidad de Datos

39

UA

S C

arlo

s L

ópez

Váz

quez

b e d g a c0

5

10

15

20

25

30

35

40

45

50

Campo

Pro

porc

ión

de c

asos

)

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Los casos graves…

¿Qué es un gráfico de Pareto?

Page 40: Gest ión de Calidad de Datos

40

UA

S C

arlo

s L

ópez

Váz

quez

Otras gráficas útiles/posibles

Rastreando el campo “b”

3->4 4->DB A 2->3 1->2 In->1 0

5

10

15

20

25

30

35

40

45

50

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Puede usarse más de una representación

Page 41: Gest ión de Calidad de Datos

41

UA

S C

arlo

s L

ópez

Váz

quez

2 4 6 8 10 12 14 16 18 20 220

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4P

ropo

rcio

n de

def

ecto

s

Muestra

UCL

CL

LCL

Para el control…

Dado el campo “b”, y el proceso “3”…

Hay puntos fuera de rango Deben buscarse las causas

Page 42: Gest ión de Calidad de Datos

42

UA

S C

arlo

s L

ópez

Váz

quez

Algunos detalles…

Las muestras pueden demorar más o menos– La secuencia de entrada difiere de la de salida

Sólo incluir muestras ya completas

Page 43: Gest ión de Calidad de Datos

43

UA

S C

arlo

s L

ópez

Váz

quez

Detectando inconsistencias

La métrica es binaria: “consistente/inconsistente” En principio es similar a la correctitud Aislemos los espúreos…

0 2 4 6 8 10 12 14 16 18 20

Cam

bios

por

reg

istr

o

Nro. de muestra

EspúreosNormalizaciónTraducción

Page 44: Gest ión de Calidad de Datos

44

UA

S C

arlo

s L

ópez

Váz

quez

e g a c d0

5

10

15

20

25

30

34

Cas

os

0%

15%

29%

44%

59%

74%

88%

100%

Pro

porc

ión

de in

cons

iste

ncia

s

Analizando el ejemplo

Focalizando en los espúreos Casos más problemáticos: campos “e” y “g”

Page 45: Gest ión de Calidad de Datos

45

UA

S C

arlo

s L

ópez

Váz

quez

Rastreando el campo “e”

Mayoría entre 3 y 4 “e” tenía problemas de correctitud No es por tanto problema de inconsistencia

Page 46: Gest ión de Calidad de Datos

46

UA

S C

arlo

s L

ópez

Váz

quez

Rastreando el campo “g”

No está tan claro Errores altos, pero bajo control

2 4 6 8 10 12 14 16 18 20 220

0.05

0.1

0.15

0.2

0.25

Muestra

Pro

porc

ión

UCL

CL

LCL

Page 47: Gest ión de Calidad de Datos

47

UA

S C

arlo

s L

ópez

Váz

quez

Rastreando el campo “g” (2)

Hay que mirar más de cerca El campo “g” se genera ¡independientemente!

Page 48: Gest ión de Calidad de Datos

48

UA

S C

arlo

s L

ópez

Váz

quez

Un detalle…

Métodos y gráficos para Correctitud ≈ Consistencia– ¿Dónde están las diferencias?

Correctitud– Controla <realidad> vs. <DB A>

Consistencia– <DB A> vs. <DB B>– ¡<realidad> no entra!

Page 49: Gest ión de Calidad de Datos

49

UA

S C

arlo

s L

ópez

Váz

quez

Tiempos…

Hay que ser especialmente cuidadoso

Ilustremos la nomenclatura

tiempo

P3 terminadoP3 prometido

Comienza P3P2 terminado

P3 está retrasado en este lapso

Page 50: Gest ión de Calidad de Datos

50

UA

S C

arlo

s L

ópez

Váz

quez

Otras hipótesis…

Entrar en DB A implica la entrega de algo– Def. DA=Instante prometido de entrega

– Def. CA=Instante efectivo de entrega

– Def. TA = CA – DA (TA > 0 implica retraso)

DA depende de D1, D2, D3 y D4

El cliente siempre puede cancelar o cambiar antes de DA

Page 51: Gest ión de Calidad de Datos

51

UA

S C

arlo

s L

ópez

Váz

quez

Primer análisis: TA

UCL debería ser negativo Se debe/puede analizar el gráfico X, u otro Bajo control, pero 37% se entregan tarde

2 4 6 8 10 12 14 16 18 20 22-250

-200

-150

-100

-50

0

50

UCL

CL

LCL

Min

utos

Muestra

X-chart: TA

-500 -400 -300 -200 -100 0 100 200 3000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

Promedio=-100

Temprano Tarde

Área=37%

Page 52: Gest ión de Calidad de Datos

52

UA

S C

arlo

s L

ópez

Váz

quez

Si el servicio llega tarde…

Causas: Uno o más procesos tienen problemas El sistema (o algún proceso) no es capaz Clientes cambian la orden demasiado

frecuentemente ¿Cómo detectarlo, identificarlo y corregirlo?

– Repita análisis para T1, T2, T3 y T4 por separado

– Estime tiempo promedio <Ti>, y súmelo

Page 53: Gest ión de Calidad de Datos

53

UA

S C

arlo

s L

ópez

Váz

quez

Tiempos acumulados de 4 procesos

0 0.5 1 1.5 2 2.5 30

1

2

3

4

5

Dias

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.50

0.5

1

1.5

2

Dias

L2 (=1/2 dia,

=2 horas)

L4 (=1 dia,

=3 horas)

L1 (=1 dia,

=4 horas)

Distribucion de la suma L1+L2+L3+L4

(=4.5 dias, =42+22+32+22 horas)

L3 (=2 dias,

=2 horas)

Percentil 99%

Se asumen independientes

También llamada Capacidad del

Proceso

Page 54: Gest ión de Calidad de Datos

54

UA

S C

arlo

s L

ópez

Váz

quez

“Otra vez los clientes…”

Tienen derechos (¡!) Podría pensarse:

– “Avisan tarde, y el trabajo está casi hecho” Típicamente es lo contrario Tiempo en cola >> Tiempo en proceso Ideas “Just In Time”

Page 55: Gest ión de Calidad de Datos

55

UA

S C

arlo

s L

ópez

Váz

quez

Unos comentarios…

Podría prometerse un DA menor

No todo es espera– Tiempo de transmisión no considerado– Buffers (para manejar picos de trabajo)

Buffers suelen ocultar defectos

Page 56: Gest ión de Calidad de Datos

56

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

Page 57: Gest ión de Calidad de Datos

57

UA

S C

arlo

s L

ópez

Váz

quez

Cómo implementar Data Tracking

Será necesario implementar varios módulos Ilustraremos una arquitectura: DCI Es aplicable cuando:

– Pueden ponerse etiquetas– Los procesos están computarizados

La tendencia es hacia esto Veamos un esquema

Page 58: Gest ión de Calidad de Datos

58

UA

S C

arlo

s L

ópez

Váz

quez

Un posible esquema de DCI

Filtros

Muestreo/etiquetado

PostProcesamiento

Análisis/Reportes

Comunicaciones

Page 59: Gest ión de Calidad de Datos

59

UA

S C

arlo

s L

ópez

Váz

quez

Detalles…

Tan próximo como se pueda– Muestreo DENTRO del 1er. Proceso– Filtros DENTRO de cada proceso– BD secundaria CERCA del “dueño” del proceso

Fácil de implementar en una reingeniería Más difícil como cambios a un sistema ya

operativo

Page 60: Gest ión de Calidad de Datos

60

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Sistemas de Medición ¿Qué medir? Data Tracking Implementación Resumen

Page 61: Gest ión de Calidad de Datos

61

UA

S C

arlo

s L

ópez

Váz

quez

En Resumen

Concepto de Sistema de Medida– Cuatro componentes:

» Requerimientos» Ítems o características a medir» Instrumento y reglas para medir» Resúmenes apropiados

Requerimientos: la voz del cliente Requerimientos Qué medir Instrumento: Data Tracking Requerimientos Resúmenes apropiados

Page 62: Gest ión de Calidad de Datos

62

UA

S C

arlo

s L

ópez

Váz

quez

Resumen de Data Tracking

Es UN posible instrumento; hay otros Explota redundancia entre procesos y datos Objetivo:

– Controlar operación y mejorar» Correctitud» Consistencia» Tiempos de procesamiento

Uso extensivo de SQC

Page 63: Gest ión de Calidad de Datos

63

UA

S C

arlo

s L

ópez

Váz

quez

Gestión de Calidad de Datos

Carlos Ló[email protected]

Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005

Monitoreo, seguimiento y mejora del proceso

Viene de:

Métodos de Control Estadístico