Aplicaciones de minería de datos en la industria...
Transcript of Aplicaciones de minería de datos en la industria...
1
Aplicaciones de minería de datos en la industria financiera
Ing. María del Rosario BrueraNoviembre 20, 2008
Modelos de Minería de Datos para la Industria Financiera
2
Agenda
Ideas centrales
• Minería de Datos HOY
• Data Governance
• Predictive Analytics
• Modelos de scoring
• Soluciones de información
• Integración de plataformas analíticas
• Espacio para preguntas
3
Equifax en el Mundo
Equifax, Inc.
– 12 Empresas de Información• En la Argentina administra la
base de datos VERAZ
– 108 años de experiencia– Mas de 300 productos– Mas de 300.000 clientes– Enfoque en la satisfacción del
cliente y la privacidad de los datos del consumidor
CanadaUSA
Central AmericaBrazilPeruArgentinaUruguayChileEcuador
United KingdomSpainPortugual
Headquarters: Atlanta, Georgia
Líder Mundial en Información, Modelos Estadísticos y Tecnología de Automatización de Decisiones
4
• El objetivo de la minería de datos (predictive analytics) ha cambiado – De: Reemplazar al estadístico – A: Mejores modelos, más ordenados, reutilizables y fáciles de utilizar
• Incorporación de stándares– XML , PMML, etc– Web services
• Integración– Entre aplicaciones – Entre bases de datos y aplicaciones
Tendencias actuales
El foco está ahora en el VALOR AGREGADO DEL MODELO más que en la TASA DE ERROR DE PREDICCIÓN
5
Data Mining en el mundo real
More than Algorithms, Data Mining in the Real World, Kurt Threaling
Por qué ???
6
La crisis de los datos
• La palabra CRISIS proviene del verbo griego krino que significa separar o decidir. Crisis es algo que se rompe y porque se rompe hay que analizarlo. De allí el término crítica que es el análisis de algo para emitir un juicio y criterio que se utiliza para indicar un razonamiento adecuado.
•Porqué estamos en crisis con los datos:
Preguntas de negocio tales como : ¿cuál es el valor de mis clientes? son respondidas a partir de los datos de la propia compañía (antes que con investigaciones de mercado)
Grandes volúmenes de datos están fácilmente accesibles
Poderosas herramientas de acceso a los datos y de modelización los disponibilizan a usuarios no técnicos y generan predicciones y pronósticos a partir de ellos
•Pero:
Los incidentes referidos a calidad de datos aumentan cada día
La organizaciones no son totalmente “informationliterate”
7
Una definición de Calidad de Datos
• Los datos tienen CALIDAD cuando satisfacen los REQUERIMIENTOS de los CONSUMIDORES DE DATOS (DATA CONSUMERS)
• Existe un problema de calidad de datos cuando se identifica cualquier dificultad que invalida el uso del dato por parte del consumidor
• Un programa de aseguramiento de la calidad es una combinación EXPLICITA de procesos, metodologías y actividades que existen con el propósito de sostener altos niveles de calidad en los datos
8
El “Ecosistema” de los datos
KNOWLEDGE
WHAT WHYHOW
DATA COLLECTOR
DATA CUSTODIAN
DATA CONSUMER
ROLE 1 ROLE 2 ROLE 3
DATA COLLECTION
DATA STORAGE AND
MAINTENANCE
DATA UTILIZATION
PROCESS 1 PROCESS 2 PROCESS 3
DATA QUALITY DIMENSIONS
FIDELITYCOMPLETENESS
COMPLETENESSACCESIBILITYTEMPORALITY
RELEVANCE
KNOWLEDGE No se espera contar con datos CERO DEFECTO
Lo que interesa es que el dato cumpla con los requerimientos (necesidades) de quien lo utiliza
Diferentes “consumidores” exigen diferentes niveles de calidad en los datos
Beauty (Data Quality) is in the eye of the beholder
9
From “computer-literate” to “information-literate”
“Executives have become computerliterate. The younger ones, especially, know more about the way the computer works than they know about the mechanics of the automobile or the telephone. But not many executives are informationliterate. They know how to get data. But most still have to learn how to use data.
– PETER F. DRUCKER: "Be Data LiterateKnow What to Know" The Wall Street Journal 1 Dec 1992
La “crisis” nos obliga a analizar el comportamiento del “ecosistema” de los datos y a desarrollar nuevas competencias de análisis para la toma de decisiones certeras
10
Un antecedente : la crisis del software
The major cause of the software crisis is] that the machines have become several orders of magnitude more powerful! To put it quite bluntly: as long as there were no machines, programming was no problem at all; when we had a few weak computers, programming became a mild problem, and now we have gigantic computers, programming has become an equally gigantic problem. Edsger Dijkstra, The Humble Programmer, 1972
Soluciones
11
Data Governance
• DATA GOVERNANCE: es el desarrollo e implementación de un conjunto de reglas, políticas y stándares para manejar los datos corporativos
• Se implanta a partir de un equipo de management (formado por personas de Tecnología y de las áreas de negocio) unificados en una única misión que es asegurar que los datos corporativos:
– Sean lo que deben ser (DATA QUALITY)– Estén en el contexto adecuado (DATA INTEGRITY)– Tengan su metadata correcta y accesible (DATA USABILITY)– Estén en un “ecosistema” gerenciado por una arquitectura sustentable
(MDM)
12
Las 4 “Ps” de DATA GOVERNANCE
Data Governances Strategies. Helping your Organization to Comply, Transform & IntegrateBy Phillip Russon, TWI Reports
13
Pilares de Data Governance
Data Governances Strategies. Helping your Organization to Comply, Transform & IntegrateBy Phillip Russon, TWI Reports
14
La base Veraz: Información Publica y Privada
• Fuente :• Pública
- Boletines Oficiales de todo el país. - Juzgados Civ. y Com. de las principales plazas del país.
- Administración Federal de Ingresos Públicos.- Banco Central de la República Argentina.
• Privada
- Nuestros Clientes aportando: Clearing de deudores. (Abierta –Cerrada) Credit Bureau. Telco Exchange. (Cerrada)
-Titular del dato Call Center
15
VOLUMEN DE INFORMACION
• 5K Registros Mensuales
- Boletines oficiales.
• 13K Registros Mensuales
- Juzg. Civ. y Com. principales plazas de todo el país.
• 750K Registros Mensuales
-Administración Federal de Ingresos Públicos.
• 3MM Registros Mensuales (Altas y Actualizaciones)
- Banco Central de la República Argentina
Información de Fuente Pública
16
Información de Fuente Privada
• 60 K Registros mensuales
- Clearing de Deudores (Base Abierta)Mora Financiera
Mora No Financiera
Mora No comercial
• 2.0 MM Registros mensuales
- Clearing de Deudores (Base Cerrada)
• 1MM Nuevos registros mensuales
– Veraz Credit Bureau
• 3.6MM Registros semanales
– Telco Exchange
La base Veraz (producción) tiene un tamaño de 4.2 terabytes
17
Predictive Analytics
Predictive Analytics. Extending the value of your Data Warehousing Investment, Wayne Eckerson, TWDI Reports
18
EscalableCombinable con otroFlexible DurableFácil de interpretar y utilizarStandard (reproducible)Evolutivo
Un buen modelo analítico es …
20
Son el “caballito de batalla” de las plataformas analíticas de la industria financiera
El Score es un número que permite ordenar las cuentas de acuerdo al nivel de riesgo de las mismas
Muy Buenas !
Muy Malas
1
200
400
600
800
999
Sco
re Buenas
Malas
Modelos de Scoring
21
Observaciones:Cantidad, tipo, y
antigüedad
Bureau:Cantidad, tipo, y
antigüedad de los productos Bureau:
Historia de pagos
Datos Demográficos
SCORE
El modelo evalúa todas las variables que permiten inferir el comportamiento futuro de una persona en forma combinada
Bcra:Historia de
pagos
Consultas:Cantidad, tipo, y
antigüedad
Credit Scoring – Fuentes de Datos
22
• Ecuación derivada estadísticamente mediante un modelo de regresión logística binaria
• Hipótesis: se puede predecir el comportamiento futuro a partir del perfil crediticio histórico
• No existe garantía de cuál será el comportamiento de un consumidor individual
• Los métodos analíticos permiten predecir el comportamiento futuro de un segmento de consumidores
• Los modelos son eficaces cuando hay volumen significativo de clientes
• La escala de calificación va de 1 a 999• Mientras más alta la calificación, mayor la probabilidad de
un buen prospecto
Credit Scoring – Características
23
• Score Equifax consta de múltiples Tarjetas de Calificación (Scorecards) que han sido alineadas para obtener el modelo final
• El esquema de segmentación utilizado para crear las Tarjetas de Calificación se basó en el estado de mora y fuentes de datos; y asimismo, fue derivado analíticamente de la base de datos Veraz
Segmentación
24
Las cuentas de pago dudoso (cuentas malas) están definidas como cuentas que han estado sobrevencidas:
• Más de 90 días en el BCRA (clasificación de 3 o mayor)
• Sobrevencidas más de 90 días en el Veraz Credit Bureau (clasificación de 4 o mayor)
• Tienen un ítem negativo informado en la base de Observaciones de Veraz, durante el período de comportamiento de 12 meses
Definición de GOOD / BAD
25
Período de Observación Período de comportamiento
01/06/01 01/01/02
01/06/06 01/01/07
01/06/06 01/01/07
01/06/07 01/01/08
5 años 12 meses
Punto de observación
Analizar a los consumidores durante los períodos• De observación, para ordenarlos en base a su
comportamiento respecto de las características claves• De comportamiento, para identificar “buenos” y “malos”
Ciclo de desarrollo
26
El test “KS” permite medir cuan “bueno” es un modelo. Calcula la diferencia entre las distribuciones acumuladas
0 = NO HAY SEPARACION100 = SEPARACION PERFECTA
Grafico KS
100%
80%
60%
40%
20%
0%
0% 100%80%60%40%20%
93.4%47.2%
KS= 47.2
% Score
Pob
laci
ó n ac
umul
ada
Malas
Buenas
• Para modelos de calificación crediticia genéricos entre 15 y 25 bueno
entre 25 y 35 muy bueno
mayor de 35 excelente
Capacidad de discriminación
27
• La Tabla de Performance del Mercado se envía a los clientes con una periodicidad semestral.
• El objetivo de la Tabla de Performance es analizar la bondad de ajuste del modelo para separar entre cuentas buenas y malas.
• Para la validación, se obtiene el Score de las personas físicas al momento de la consulta por parte de la entidad y se evalúa a un año posterior si este cliente fue bueno o malo.
• La definición de malo es:• Calificación 3 o más en BCRA (90 días de atraso).
• Calificación 4 o más en Veraz Bureau (90 días de atraso)
• Item Negativo en la Base de Observaciones de Veraz Bureau
• La división entre tablas HIT y THIN depende a la Población a la que pertenecía al momento del cálculo del Score.
Definiciones Tabla de Performance
28
• Población HIT:
Población con algún producto de crédito, sea este un préstamo, una tarjeta de crédito y/o una cuenta corriente en la Base de Veraz Bureau; algún producto informado en BCRA y/o alguna Observación en la Base de Veraz Bureau; en el lapso de los últimos 5 años.
• Población THIN:
Población que no cuenta con productos crediticios ni en la Base de Veraz Bureau ni en BCRA y no cuenta con Observaciones en la Base de Veraz Bureau; en el lapso de los últimos 5 años. Esta población solo cuenta con datos demográficos y/o consultas.
• Población ALL:
Población que contempla a los HIT y a los THIN.
Definiciones : Poblacion
29
Segmento: ALL Período: entre 01/01/2007 y 31/01/2007
Totales 46,2Score Score % ˉ de % de % ˉ de % de % ˉ de % de / de / ˉ de KS
Intervalo Mínimo Máximo Total Total Buenos Buenos Malos Malos Malos Malos
20 951 999 2,4 100,0 2,8 100,0 0,3 100,0 1,6 1,6 2,519 901 950 13,9 97,6 15,8 97,2 2,2 99,7 2,5 2,3 13,618 851 900 23,8 86,1 27,1 84,2 4,6 97,8 3,4 2,8 22,517 801 850 33,0 76,2 37,2 72,9 8,0 95,4 5,4 3,5 29,216 751 800 40,8 67,0 45,7 62,8 12,3 92,0 7,9 4,3 33,415 701 750 51,1 59,2 56,6 54,3 18,7 87,7 9,0 5,3 37,914 651 700 59,8 48,9 65,6 43,4 25,1 81,3 10,6 6,1 40,513 601 650 69,6 40,2 75,9 34,4 31,9 74,9 10,0 6,6 44,112 551 600 76,9 30,4 83,5 24,1 37,4 68,1 11,0 7,0 46,111 501 550 80,1 23,1 86,7 16,5 41,4 62,6 17,4 7,5 45,310 451 500 86,7 19,9 93,4 13,3 47,2 58,6 12,7 7,9 46,2
9 401 450 90,0 13,3 96,4 6,6 51,9 52,8 21,1 8,3 44,58 351 400 91,4 10,0 97,5 3,6 55,0 48,1 31,7 8,7 42,57 301 350 92,6 8,6 98,5 2,5 58,0 45,0 33,8 9,0 40,56 251 300 93,3 7,4 98,9 1,5 60,3 42,0 50,6 9,3 38,55 201 250 94,1 6,7 99,2 1,1 63,7 39,7 63,0 9,8 35,54 151 200 95,2 5,9 99,6 0,8 68,8 36,3 69,7 10,4 30,83 101 150 96,1 4,8 99,8 0,4 74,0 31,2 83,1 11,1 25,72 51 100 97,9 3,9 99,9 0,2 85,9 26,0 91,7 12,7 14,11 1 50 100,0 2,1 100,0 0,1 100,0 14,1 97,8 14,4 0,0
Tabla de performance (Enero 2007) ALL
30
10% 20% 30%36.3 42.0
% de Malos en el Peor
26.0
91.7 83.1
% de Morosidad (14.4% Total)
97.81 Bucket 2 Bucket 3 Bucket
Tabla de performance (Enero 2007) ALL
31
Area Std. Error Asymptotic
Sig.Lower Bound
Upper Bound
0,809 0,002 0,000 0,805 0,812
Area Under the CurveAsymptotic 95% Confidence Interval
• Sensibilidad: Es la probabilidad de que a un individuo bueno la prueba le dé resultado positivo.
• Especificidad: Es la probabilidad de que a un individuo malo la prueba le dé resultado negativo.
• AUC: probabilidad de que el score rankee un caso bueno aleatoriamente elegido más arriba que a un caso malo aleatoriamente elegido.
Curva ROC (Enero 2007) ALL
32
Positive if Greater Than or
Equal To (a) Sensitivity Specificity Suma0,0 1,0000 0,0000 1,00001,5 1,0000 0,0150 1,01502,5 1,0000 0,0190 1,01903,5 1,0000 0,0240 1,02404,5 1,0000 0,0310 1,03105,5 1,0000 0,0340 1,03406,5 1,0000 0,0380 1,0380
461,5 0,9260 0,5390 1,4650462,5 0,9240 0,5410 1,4650463,5 0,9240 0,5420 1,4660464,5 0,9230 0,5420 1,4650465,5 0,9220 0,5440 1,4660466,5 0,9220 0,5440 1,4660467,5 0,9210 0,5450 1,4660468,5 0,9200 0,5460 1,4660469,5 0,9180 0,5470 1,4650470,5 0,9140 0,5490 1,4630976,0 0,0030 1,0000 1,0030978,0 0,0010 1,0000 1,0010980,5 0,0010 1,0000 1,0010983,0 0,0010 1,0000 1,0010985,5 0,0000 1,0000 1,0000988,0 0,0000 1,0000 1,0000990,5 0,0000 1,0000 1,0000993,0 0,0000 1,0000 1,0000
Coordinates of the CurveALL Enero 2007
Curva ROC (Enero 2007) ALL
33
Source: Equifax-Veraz
ROC curves, "All", "Hits" and "Thins", Jan2007
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Specificity
Sen
sitiv
ity ALLHITSTHINS
35
• Para obtener un nivel de aceptación dado• Para obtener una morosidad dada• Para alguna combinación intermedia• En función de la relación buenos a malos
Calibración del Punto de Corte
• Punto de Corte Óptimo: Criterio según Curvas ROC: Max (Especificidad + Sensibilidad)
Criterio según KS: Max (KS)
• Población ALL: Según Curvas ROC: 465 (Sensitividad: 0,922; Especificidad: 0,5440)
Según KS: 451500
37
Ejemplos y casos
• Los “bloques” (productos):
– Geomarketing– Environment Index– Consumer Index– Risc Score– RFM Telcos– Experto
• Las soluciones:
– Estrategia de penetración de una compañía de Crédito al Consumo– Modelo de respuesta de una campaña de retail– Lifestyles– Automatización de la decisión de crédito
38
Objetivo
Incorporar la dimensión geográfica a los modelos analíticos
Información Utilizada
Crediticia positiva y negativa
Sociodemográfica
Provista por el cliente
Relevamientos públicos y privados
Resultados / Entregables
Indicadores, capas GIS, reglas de negocio
Geomarketing : El producto
39
El problema
Definir en términos geográficos la estrategia de crecimiento 2009
Información Utilizada
Demográfico
De comportamiento
Transaccionales in company
Transaccionales en el mercado
Análisis de la competencia
Geomarketing : La Solución
EL Cliente
Se trata de una compañía de crédito al consumo
40
1 Hogares Target: C3, D1, D2
Tamaño Medio del HogarTotal Hogares Cantidad de Hogares Target
Geomarketing : La Solución
Descriptores demográficos
42
Objetivo
Definir las reglas de soporte para campañas de marketing
Información Utilizada
Crediticia positiva y negativa
Sociodemográfica
Relevamientos públicos y privados
Datos propios del cliente
Resultados Esperados
Modelo de respuesta (reglas de negocio para la extracción de prospectos)
Modelos de respuesta : el producto
43
Objetivo del Estudio
Optimizar el diseño de las campañas de databasemarketing para promover el uso de préstamos personales de consumo
Información Utilizada
Provista por el cliente
Información crediticia positiva y negativa
Modelos de respuesta : La Solución
El Cliente
Retailer (venta de electrodomésticos)
44
58,1
3,8
9,7
28,4
Modelos de respuesta : La Solución
En la campaña anterior el 9% de las ventas se hicieron con créditos personales
46
REGLAS DE MAXIMIZACION DE RESPUESTA
Límite máximo en TC hasta $1974
Promedio de límites en TC inferior a $ 715
Riesgo Score inferior a 600 puntos (pero superior al punto de corte del modelo de riesgo de 450 puntos)
Modelos de respuesta : La Solución
47
Descripción
Estilo de vida es la síntesis del comportamiento de un consumidor que nace a partir de necesidades, percepciones, actitudes, intereses y opiniones individuales
Equifax Lifestyles es un conjunto de indicadores que caracterizan a un individuo de acuerdo a su contexto sociodemográfico , su consumo y su capacidad de pago
Información Utilizada
Crediticia positiva y negativa
Información social, económica y demográfica de fuente pública
Información geográfica de las áreas urbanas
Lifestyles : el Producto
48
EXPERIENCIA LIFESTYLES
Contexto: Caracteriza el perfil sociodemográfico del área geográfica en la cual habita el individuo. La importancia de esta dimensión reside en la influencia que tiene el contexto en la manera en que se construyen las diferentes percepciones y patrones de comportamiento
Consumo: Sintetiza la relación entre el mundo del crédito y los ingresos (supuestos) del individuo
Riesgo: Describe al individuo de acuerdo al nivel de riesgo esperado en el pago de sus compromisos
Lifestyles : Componentes
49
EXPERIENCIA LIFESTYLES
90 segmentos
Environment
index
Consumer
index
Risk Score
Lifestyles : Componentes
50
EXPERIENCIA LIFESTYLES
Environment indexCaracterísticas de los hogares
Características de la vivienda Comunicación
Educación SaludTrabajo
Satisfacción de necesidades básicas
Risk Score
Rangos de score
Lifestyles : Componentes
51
Consumer index Población HIT
Predicción de ingresos
Indicadores de uso del crédito
Consumer index Población THIN
Consultas realizadas en los últimos 24 meses
Predicción de ingresos
Lifestyles : Componentes
53
Lifestyles : Un ejemplo
Juan tiene 37 años, NSE Alto, 2 tarjetas de crédito, con un saldo total de $4.147 y un límite de $22.100. Su compromiso mensual es de $1.191. Usa el 20% de su límite de crédito. No tiene préstamos personales. Tiene un score de 921puntos. Vive en Palermo. Juan es TA1 (hit)
54
EXPERIENCIA LIFESTYLES
Eduardo tiene 28 años, es de Parque Patricios. En los últimos dos años sólo ha buscado crédito en una Telco. Su NSE es D1 y su score asciende a 711puntos. Eduardo es LMB2 (thin)
Lifestyles : Otro ejemplo
55
Automatización de decisiones: Veraz Experto
• Herramienta automática para la evaluación de informes crediticios.
• Los métodos tradicionales de evaluación de solicitudes de crédito tienen alto costo operativo y baja eficiencia. Son muy inflexibles ante la necesidad de introducir cambios. Generan decisiones inconsistentes (una sucursal rechaza la que otra aprueba). Aumentan la morosidad al aceptarse solicitudes que deberían ser rechazadas. Y muchas veces generan pérdidas de negocios al rechazarse solicitudes que deberían ser aceptadas.
• Veraz Experto automatiza y objetiva el proceso de evaluación de solicitudes de crédito mediante una herramienta que utiliza tecnología de última generación y combina las ventajas de los métodos de reglas y scoring.
57
SOLUCIÓN EXPERTO
Variables Internas: Base Veraz Variables Externas informadas por el cliente
VARIABLES DE ENTRADA
Cheques Rechazados • Juicios• Concursos y Quiebras• Morosidad• Status Financiero Bureau• Status Financiero BCRA• Consultas
VARIABLES INTERNAS BASE VERAZ
58
SOLUCIÓN EXPERTO
Cheques Rechazados • Juicios• Concursos y Quiebras• Morosidad• Status Financiero Bureau• Status Financiero BCRA• Consultas
VARIABLES INTERNAS BASE VERAZ
59
SOLUCIÓN EXPERTO
Definidas por el Cliente Propias con datos de Base Veraz
FORMULAS, INDICADORES
REGLAS = Variables + Fórmulas
REGLAS
60
SOLUCIÓN EXPERTO
SALIDA
Categoría de la Inferencia
Explicación de la categoría
• Variables definidas
63
SOLUCIÓN EXPERTO
VENTAJAS CLAVES:
• Uniformidad de criterios
• Flexibilidad para la implementación de nuevas políticas de crédito o productos
• Reducción de los plazos de evaluación
• Disminución de costos de análisis
64
SOLUCIÓN EXPERTO
INCONVENIENTES DEL METODO MANUAL:
• Criterios subjetivos
• Mas tiempo consumido
• Mayor morosidad
• Mas solicitudes rechazadas, oportunidades de negocios que se pierden
• Mayores costos
• Baja eficiencia
65
Integrated Data Analytics: A Financial Business CaseSuvendu SamantarayDM Direct, May 2, 2008
Integración de Predictive Analytics
Los modelos analíticos se deben integrar ARMONICAMENTE con las políticas de gobernabilidad de los datos, el riesgo y las normativas legales (Governance Risk & Compliance) y con los requerimientos y restricciones de las áreas de producto, comerciales y tecnología.
66
• Data integration: Amalgamation of quality data across the organization to produce excellent analytics for the mentioned processes.
• Standardization of data: Different business lines could have varied expectations on same process attributes. Bringing them all to a consensus would be important.
• Analytics model: In order to bring predictive analytics to certain processes, a robust and industryaccepted model should be in place, and the organization needs to invest resources to bring those to the forefront.
• Program management: For disciplined implementation of this program, it is expected that a global program management system be in place, and that it should be active from initiation of engagement until the infrastructure is in a steady state. This is extremely challenging, and equal representation from business and technology in the program management office is required to make this a success.
• Executive sponsorship: For the overall success of this program, executive and boardlevel sponsorship will boost the importance and priority of execution.
Integración de Predictive Analytics : Desafíos
Integrated Data Analytics: A Financial Business CaseSuvendu SamantarayDM Direct, May 2, 2008