PROFESOR: LUIS E. NIETO BARAJAS
55 Maestría: Administración de riesgos Análisis multivariado para riesgos
5. Análisis de clasificación (discriminante)
Ø Los objetivos del análisis de clasificación y discriminación son:
1) Discriminar: describir gráfica o algebraicamente las características que
hacen diferentes a objetos de distintas poblaciones (i.e., “separar”).
2) Clasificar: asignar objetos a una de varias clases. Derivar una regla de
asignación “óptima”.
Ø En la búsqueda de resolver alguno de los dos objetivos anteriores se
pueden resolver ambos simultáneamente.
5.1 Clasificación de dos poblaciones
Ø Sean Π1 y Π2 dos poblaciones. La idea es separar o clasificar con base en
una m.a. X1,...,Xn de ambas poblaciones p-variadas Π1 y Π2.
Ø Ejemplos:
o Clasificar a un nuevo cliente como acreditado o no acreditado con base
en su historial crediticio, nivel socioeconómico, edad, variables
socioeconómicas, etc.
o Clasificar a una compañía aseguradora como solvente o no solvente
(quiebra) con base en sus activos, valor de sus acciones, valor de
mercado de sus bonos, monto de primas recibidas, montos de
reclamaciones pagadas, etc.
PROFESOR: LUIS E. NIETO BARAJAS
56 Maestría: Administración de riesgos Análisis multivariado para riesgos
o Predecir si un nuevo estudiante que entra al ITAM terminará
satisfactoriamente su carrera / maestría con base en sus calificaciones de
preparatoria / universidad, examen de admisión, etc.
Ø Consideraciones:
o Las reglas de clasificación se basan en una muestra de “aprendizaje”,
i.e., individuos previamente clasificados.
o El conjunto de todos los posibles resultados de la muestra se divide en
dos regiones R1 y R2 tal que si un nuevo individuo cae en R1 se asigna a
Π1 y si cae en R2 se asigna a Π2.
o Las reglas de clasificación no están libres de cometer errores, sobretodo
en el caso de que no exista una clara diferencia entre las poblaciones.
o Es necesario considerar la composición de las poblaciones iniciales. Por
ejemplo, se sabe que hay más empresas sanas que en banca rota, así que
una nueva empresa se clasificará como sana a menos que los datos
favorezcan abrumadoramente la banca rota.
o Hay que tomar en cuenta el costo de mala clasificación que puede ser
distinto en las dos poblaciones, en términos de gravedad del error.
Ø Sean Π1 y Π2 dos poblaciones con funciones de densidad f1(x) y f2(x)
respectivamente, donde x∈ℜp, i.e., cada individuo se caracteriza por p
mediciones.
Un nuevo individuo X=x debe ser clasificado en Π1 y Π2.
Sea Ω el espacio muestral (Ω⊂ℜp) y
d(⋅) una regla de clasificación, entonces
PROFESOR: LUIS E. NIETO BARAJAS
57 Maestría: Administración de riesgos Análisis multivariado para riesgos
( ) 11 xd:xR Π=Ω∈=
( ) 122 Rxd:xR −Ω=Π=Ω∈=
o Las probabilidades condicionales de mala clasificación son:
( ) ( ) ( )∫=Π∈=2R
112 dxxf|RXP1|2P
que es la probabilidad de clasificar un individuo como Π2 cuando en
realidad es de Π1.
( ) ( ) ( )∫=Π∈=1R
221 dxxf|RXP2|1P
que es la probabilidad de clasificar un individuo como Π1 cuando en
realidad es de Π2.
(Ver gráfica...)
o Sean p1 y p2 las probabilidades iniciales de pertenencia a Π1 y Π2 resp.
(p1 + p2=1). Entonces, las probabilidades de buena y mala clasificación
son:
( )( ) ( ) ( ) ( ) 11111 p1|1PP|RXPntecorrectameXdP =ΠΠ∈=Π=
( )( ) ( ) ( ) ( ) 22211 p2|1PP|RXPmenteincorrectaXdP =ΠΠ∈=Π=
( )( ) ( ) ( ) ( ) 22222 p2|2PP|RXPntecorrectameXdP =ΠΠ∈=Π=
( )( ) ( ) ( ) ( ) 11122 p1|2PP|RXPmenteincorrectaXdP =ΠΠ∈=Π=
o Si además los costos de mala clasificación son:
( )( ) 02|1c|
1|2c0|Verdadera.Pob
iónClasificac
2
1
21
ΠΠ
ΠΠ
Entonces, para cualquier regla de clasificación, el costo esperado de mala
clasificación (CEM) es:
PROFESOR: LUIS E. NIETO BARAJAS
58 Maestría: Administración de riesgos Análisis multivariado para riesgos
( ) ( ) ( ) ( ) 21 p2|1P2|1cp1|2P1|2cCEM +=
Lo “ideal” sería tener una regla de clasificación d(⋅) que tuviera su CEM
tan pequeño como sea posible.
Ø Resultado 5.1. La regla de clasificación d*(⋅) con regiones R1* y R2
* que
minimizan el CEM se definen como:
( )( )
( )( )
≥=1
2
2
1*1 p1|2c
p2|1cxfxf
:xR
( )( )
( )( )
<=1
2
2
1*2 p1|2c
p2|1cxfxf
:xR
DEM.
Ø Un caso particular del Resultado 5.1 es cuando c(1|2)=c(2|1) y p1=p2, en
este caso
( )( )
≥= 1xfxf
:xR2
1*1 y
( )( )
<= 1xfxf
:xR2
1*2
Ø Nota 1: Otro criterio distinto a CEM puede ser usado para derivar reglas de
decisión “óptimas”, por ejemplo la probabilidad total de mala clasificación
(PTM), la cual se define como:
PTM = P( clasificar erróneamente a una observación de Π1 o de Π2 )
( ) ( )∫∫ +=12 R
22R
11 dxxfpdxxfpPTM
Podemos notar que PTM=CEM cuando c(1|2)=c(2|1).
PROFESOR: LUIS E. NIETO BARAJAS
59 Maestría: Administración de riesgos Análisis multivariado para riesgos
Ø Nota 2: Otra alternativa para obtener una regla de clasificación óptima
sería usar probabilidades posteriores, i.e., si X=x0
( ) ( ) ( )( )
( )( ) ( ) 202101
101
0
11001 pxfpxf
pxfxP
P|xPx|P
+=
ΠΠ=Π , y
( ) ( ) ( )( ) ( ) 202101
2020102 pxfpxf
pxfx|P1x|P
+=Π−=Π
La regla de clasificación sería ( ) 10xd Π= si ( ) ( )0201 x|Px|P Π>Π .
Se puede demostrar que esta regla de clasificación es equivalente a la que
se obtendría al maximizar PTM.
Ø CLASIFICACIÓN CON DOS POBLACIONES NORMALES:
Supongamos que ( ) ( )11p1 ,|xNxf Σµ= y ( ) ( )22p2 ,|xNxf Σµ= .
o Si Σ=Σ=Σ 21 , las regiones óptimas que minimizan CEM son:
( ) ( ) ( ) ( )( )
≥µ+µΣµ−µ−Σµ−µ= −−
1
221
1'21
1'211 p1|2c
p2|1clog
21
x:xR
( ) ( ) ( ) ( )( )
<µ+µΣµ−µ−Σµ−µ= −−
1
221
1'21
1'212 p1|2c
p2|1clog
21
x:xR
A esta regla de decisión se le conoce como discriminante lineal.
o En la práctica, los parámetros µ1, µ2 y Σ son desconocidos. Una opción es
estimarlos mediante información muestral, i.e., si
( )
=×
'X
'X'X
X
1
1
n1
12
11
pn1 M y ( )
=×
'X
'X'X
X
2
2
n2
22
21
pn2 M
PROFESOR: LUIS E. NIETO BARAJAS
60 Maestría: Administración de riesgos Análisis multivariado para riesgos
son las matrices de datos de las poblaciones Π1 y Π2 tal que
p2nn 21 ≥−+ , entonces las medias y varianzas muestrales son:
( ) ∑=
× =1n
1ii1
1
1p1 Xn1
X , ( ) ( )( )∑=
× −−−
=1n
1i
'1i11i1
1pp1 XXXX
1n1
S
( ) ∑=
× =2n
1ii2
2
1p2 Xn1
X , ( ) ( )( )∑=
× −−−
=2n
1i
'2i22i2
2pp2 XXXX
1n1
S
Como Σ=Σ=Σ 21 entonces S1 y S2 son ambos estimadores de Σ, por lo
que un estimador combinado es:
221
21
21
1c S
2nn1n
S2nn
1nS
−+
−+
−+
−=
es un estimador insesgado de Σ.
Finalmente, la regla de clasificación óptima muestral que minimiza el
CEM es:
( ) 10xd Π= si ( ) ( ) ( ) ( )( )
≥+−−− −−
1
221
1c
'210
1c
'21
p1|2cp2|1c
logXXSXX21xSXX
( ) 20xd Π= e.o.c.
o En particular, si c(1|2)=c(2|1) y p1=p2, entonces la regla de decisión
anterior es equivalente a:
( )( )( )
+<Π
+≥Π=
2/YYy si ,
2/YYy si ,xd
2102
21010 ,
donde 00 x'ay = , 11 X'aY = , 22 X'aY = , con ( ) 1c
'21 SXX'a −−= . La función
X'aY = es llamada función discriminante lineal muestral.
o Si Σ1≠Σ2 (con el mismo supuesto de normalidad), las regiones óptimas que
minimizan CEM son:
PROFESOR: LUIS E. NIETO BARAJAS
61 Maestría: Administración de riesgos Análisis multivariado para riesgos
( ) ( ) ( )( )
≥−Σµ−Σµ+Σ−Σ−= −−−−
1
2122
111
12
111 p1|2c
p2|1clogkx''x'x
21
:xR
( ) ( ) ( )( )
<−Σµ−Σµ+Σ−Σ−= −−−−
1
2122
111
12
112 p1|2c
p2|1clogkx''x'x
21
:xR
donde ( )21
2211
112
1 ''21
log21
k µΣµ−µΣµ+
ΣΣ
= −− .
En este caso, las regiones de clasificación están definidas por una función
discriminante cuadrática.
o En el caso de que no se conozcan los parámetros poblacionales, se pueden
aproximar mediante los correspondientes estimadores muestrales
2121 S,S,X,X .
o Nota: La regla de decisión cuadrática es muy sensible a violaciones del
supuesto de normalidad. En caso de que no se tenga normalidad es
conveniente transformar.
Ø ¿Cómo evaluar una función de clasificación (discriminante)?.
Con su probabilidad total de mala clasificación (PTM), i.e.,
( ) ( )∫∫ +=12 R
22R
11 dxxfpdxxfpPTM .
En el caso de que no se conozcan f1(x) y f2(x) es necesario estimar PTM
por algún otro camino.
Ø ESTIMADORES DE PTM.
1) Estimador de resustitución: Se define como la fracción de las
observaciones en la muestra de entrenamiento que son mal clasificadas
por la regla de clasificación, i.e.,
PROFESOR: LUIS E. NIETO BARAJAS
62 Maestría: Administración de riesgos Análisis multivariado para riesgos
21
M2M11 nn
nnPTM++= ,
donde n1M=número de individuos de Π1 mal clasificados como Π2 y
n2M=número de individuos de Π2 mal clasificados como Π1.
2) Estimador con una muestra de entrenamiento y una muestra de
validación: Si la muestra es suficientemente grande, parte de ella se
puede utilizar para construir la regla de clasificación y la otra parte para
validar (estimar) la probabilidad de mala clasificación, i.e.,
*2
*1
*M2
*M1
2 nnnn
PTM++
= ,
donde n1 y n2 son los tamaños de muestra de Π1 y Π2 utilizados para
construir la regla de clasificación
n1*=tamaño de muestra de validación de Π1
n2*=tamaño de muestra de validación de Π2
n1M*=número de individuos de Π1 (n1
*) mal clasificados como Π2
n2M*=número de individuos de Π2 (n2
*) mal clasificados como Π1
3) Estimador de validación cruzada: se construye al dejar fuera una por
una de las observaciones, construyendo una regla de clasificación con
las restantes y clasificando a la observación que se quedó fuera y
finalmente contando el número de observaciones mal clasificadas, i.e.,
21
)H(M2
)H(M1
3 nnnn
PTM++
= ,
donde n1M(H)=número de individuos de Π1 mal clasificados como Π2 al
quedarse fuera
PROFESOR: LUIS E. NIETO BARAJAS
63 Maestría: Administración de riesgos Análisis multivariado para riesgos
n2M(H)=número de individuos de Π2 mal clasificados como Π1 al
quedarse fuera
5.2 Análisis discriminante de Fisher
Ø Fisher propuso un método cuyo objetivo principal es el de discriminar
(separar) entre varias poblaciones, sin embargo también puede ser usado
para clasificar.
Ø La idea es obtener una representación razonable de la población mediante
algunas pocas combinaciones lineales a1’X, a2’X, a3’X, ...
Ø Sean Π1,Π2,...,Πg poblaciones caracterizadas por medias µ1,µ2,...,µg y
varianzas Σ1,Σ2,...,Σg respectivamente, tal que Σ1=Σ2=⋅⋅⋅=Σg=Σ de rango
completo. Sean
∑=
µ=µg
1jjg
1=vector de medias de la población combinada, y
( )( )∑=
µ−µµ−µ=g
1j
'jjB =matriz de suma de productos cruzados entre
grupos (medida de varianza entre grupos)
Considera la siguiente combinación lineal
X'aY =
tal que
( ) ( ) jjjYj 'a|XE'a|YE µ=Π=Π=µ para la población Πj, y
( ) ( ) a'aa|XVar'a|YVar jj2Yj Σ=Π=Π=σ para todas las poblaciones.
Entonces, la media general de las Y’s es:
PROFESOR: LUIS E. NIETO BARAJAS
64 Maestría: Administración de riesgos Análisis multivariado para riesgos
µ=
µ=µ=µ=µ ∑∑∑
==='a
g1
'a'ag1
g1 g
1jj
g
1jj
g
1jYjY .
Formemos el siguiente cociente,
( ) ( ) ( )( )
a'aBa'a
a'a
a'a
a'a
'a'ag
1j
'jj
g
1j
2j
2Y
g
1j
2YYj
Σ=
Σ
µ−µµ−µ
=Σ
µ−µ=
σ
µ−µ ∑∑∑=== ⋅⋅⋅ (1)
que representa una medida de la variabilidad entre grupos relativa a la
variabilidad común dentro de cada grupo (en los valores de Y).
El vector “a” que maximice el cociente anterior será aquella dirección de
mayor discriminación entre grupos.
Ø Resultado 5.2. Sean m21 λ≥≥λ≥λ L los m ≤ min(g−1,p) eigenvalores
distintos de cero de la matriz Σ-1B y e1,...,em los correspondientes
eigenvectores tal que e’Σe=1. Entonces, el vector a que maximiza el
cociente (1) está dado por a1=e1. La combinación lineal X'aY 11 = es
llamada “primer vector discriminante”. El vector a2=e2 maximiza el
cociente (1) s.a. ( ) 0X'a,X'aCov 21 = . La combinación lineal X'aY 22 = es
llamada segundo vector discriminante. Continuando, ak=ek maximiza el
cociente (1) s.a. ( ) 0X'a,X'aCov jk = para todo j<k, y X'aY kk = es
llamado el k-ésimo vector discriminante. Además, ( ) 1X'aVar j = para
j=1,...,m.
DEM.
PROFESOR: LUIS E. NIETO BARAJAS
65 Maestría: Administración de riesgos Análisis multivariado para riesgos
Ø Generalmente, Σ y µ j, j=1,...,g son desconocidos, pero con base en una
muestra de entrenamiento de individuos correctamente clasificados se
pueden estimar:
Sean )pn(j jX × matrices de la población j, j=1,...,g. Entonces,
∑=
=jn
1iji
jj X
n1
X = vector de medias muestral de la pob. j
donde Xji=vector de observaciones del individuo i de la población j,
( )( )∑=
−−−
=jn
1i
'jjijji
jj XXXX
1n1
S =matriz de var-cov muestral de la pob. j
⇒
∑
∑
=
===µ g
1jj
g
1jjj
n
XnXˆ =vector de medias común
⇒ ( )( )∑=
−−=g
1j
'jjj XXXXnB =matriz de varianzas entre grupos
⇒ ( ) ( )( )∑∑∑
∑∑ = =
=
=
=
−−−
=−−
==Σg
1j
n
1i
'jjijjig
1jj
g
1jjjg
1jj
c
j
XXXXgn
1S1n
gn
1Sˆ
=estimador combinado de la varianza.
Ø ¿Cómo clasificar nuevos individuos?
Sea X'aY kk = = k-ésima función discriminante, k=1,...,m. Entonces,
( )m1 Y,...,Y'Y = es un vector de funciones discriminantes tal que
( ) Yjj|YE µ=Π (bajo la población Πj), y
( ) IYVar = (para todas las poblaciones).
PROFESOR: LUIS E. NIETO BARAJAS
66 Maestría: Administración de riesgos Análisis multivariado para riesgos
Una medida de la distancia de Y=y a su media µYj es:
( ) ( ) ( )∑=
µ−=µ−µ−m
1k
2YjkkYj
'Yj yyy
entonces una regla de clasificación razonable sería asignar “y” a Πj si el
cuadrado de las distancias de “y” a µYj es menor que el cuadrado de las
distancias de “y” a µYk para k≠j.
Ø Nota: Por lo general se utiliza la primer función discriminante o las
primeras dos funciones discriminantes para clasificar a un nuevo individuo.
Ø Resultado 5.3. La regla de clasificación dada por el discriminante de Fisher
coincide con la regla de clasificación óptima que minimiza la PTM cuando
las poblaciones son normales y las probabilidades iniciales satisfacen
g1
ppp g21 ==== L .
v R: discr, discrim
5.3 Modelo logístico
Ø Sea Y la variable (respuesta) que indica la pertenencia de un individuo a
una de dos poblaciones, i.e. Y=1 si el individuo pertenece a Π1 y, Y=0 si el
individuo pertenece a Π2.
Sean
( )1YP ii ==α =probabilidad de que el individuo i ∈Π1 y
( )0YP1 ii ==α− =probabilidad de que el individuo i ∈Π2
PROFESOR: LUIS E. NIETO BARAJAS
67 Maestría: Administración de riesgos Análisis multivariado para riesgos
⇒ ( )ii BerY α∼
Ø El objetivo es predecir el valor de YF para un nuevo individuo con base en
las mediciones de p variables (explicativas) X1,...,Xp. Supondremos que la
relación entre α y (X1,...,Xp) ocurre a través de una combinación lineal,
∑=
β=ηp
1jjjX ,
donde βj’s son coeficientes desconocidos.
Ø Como ( )∞∞−∈η , necesitamos transformar el intervalo [0,1], en donde
toma valores α, en ℜ, i.e.,
( ) ∑=
β=η=αp
1jijjii Xg , i=1,...,n.
La función g(⋅) es llamada función liga y puede ser de la forma:
1) Logit o logística:
( )
α−α
=α1
logg
2) Probit o función de distribución normal inversa:
( ) ( )αΦ=α −1g
3) Complementaria log−log:
( ) ( ) α−−=α 1loglogg
Nosotros nos concentraremos en la función liga logística.
(Ver diagrama)
PROFESOR: LUIS E. NIETO BARAJAS
68 Maestría: Administración de riesgos Análisis multivariado para riesgos
Gráfica de distintas funciones liga
Ø En el caso de la liga logística tenemos
∑=
β=η=
α−α p
1jjjX1
log
⇔
β+
β
=+
=α
∑
∑
=
=η
η
p
1jjj
p
1jjj
Xexp1
Xexp
e1e
Ø ESTIMACIÓN de los parámetros βj’s por máxima verosimilitud:
Sean Y1,..,Yn una muestra de variables aleatorias independientes tal que
( )ii BerY α∼ , donde i
i
e1e
i η
η
+=α , con β=β=η ∑
='XX i
p
1jijji y ( )p1,...,' ββ=β
⇒ ( ) ( ) ( )∏∏==
−
α−
α−
α=α−α=β
n
1ii
y
i
in
1i
y1i
yi 1
11y|L
i
ii
PROFESOR: LUIS E. NIETO BARAJAS
69 Maestría: Administración de riesgos Análisis multivariado para riesgos
⇒ ( ) ( )∑∑==
α−+
α−
α=β
n
1ii
n
1i i
ii 1log
1logyy|Llog
como ( ) ( ) 1ii 'Xexp11 −β+=α− entonces
( ) ( ) ∑∑==
β+−β=βn
1ii
n
1iii 'Xexp1log'Xyy|Llog
∑ ∑ ∑∑= = ==
β+−β=
n
1i
n
1i
p
1jjij
p
1jjiji Xexp1logXy
derivando con respecto a βj tenemos
( )( )( ) ( )∑∑∑
===α−=
β+
β−=β
β∂∂ n
1iiiij
n
1i i
iijn
1iiji
j
yX'Xexp1
'XexpXXyy|Llog
igualando a cero observamos que no es posible despejar βj analíticamente,
por lo que es necesario recurrir a métodos numéricos (como Newton-
Raphson) para maximizar la función de verosimilitud.
Ø Sea β el estimador máximo verosímil encontrado numéricamente, es
posible demostrar que asintóticamente,
( ) β=βE y ( ) ( ) 11XV'XˆVar−−=β
donde ( ) ii1 1diagV α−α=− .
Ø El valor ajustado del modelos de regresión logística es:
( )( )β+
β=+
=α= η
η
ˆ'Xexp1
ˆ'Xexpe1
eˆY
i
iˆ
ˆ
ii i
i
Ø Finalmente, una regla de decisión formada por el modelo de regresión
logística sería:
PROFESOR: LUIS E. NIETO BARAJAS
70 Maestría: Administración de riesgos Análisis multivariado para riesgos
( )
<Π≥Π
=21y si ,21y si ,
xd02
010
v R: glm
5.4 Árboles de clasificación (CART)
Ø De manera general, el método de árboles de clasificación se basa en
biparticiones del conjunto total de individuos, con base en las
características (numéricas o categóricas) de los individuos, bipartiendo
cada grupo (nodo) resultante hasta llegar a cierto tope. Lo que se busca es
que los subgrupos (nodos hijos) sean cada vez más “puros” en el sentido de
que contengan individuos de una sola clase.
Ø Las variables explicativas con las que se determina la regla de decisión, a
diferencia de los dos métodos anteriores, pueden ser numéricas o
categóricas. El número de poblaciones (clases) puede ser cualquier número
finito g≥2.
Ø La construcción de un árbol está determinada por 3 elementos:
1) La selección de las particiones.
2) Las decisiones para declarar a un nodo como terminal o seguir
partiendo.
3) La asignación de una clase a cada nodo terminal.
PROFESOR: LUIS E. NIETO BARAJAS
71 Maestría: Administración de riesgos Análisis multivariado para riesgos
Ø La idea fundamental para seleccionar una partición está basada en la idea
de que una partición descendiente debe ser más pura que una partición
ascendiente.
La selección de las particiones se basa en preguntas del tipo:
¿X∈A? o ¿ AXap
1jjj ∈∑
=?
La idea es seleccionar la partición (pregunta) que maximice la pureza de la
partición resultante.
Ø Sean g21 p,...,p,p las probabilidades iniciales de pertenencia en cada clase,
entonces
( )( )
jj
j pN
tNt,jp =
es la probabilidad de que un individuo sea de la clase j y esté en el nodo t,
donde ( )tN j =número de individuos de la clase j en el nodo t
Nj=número de individuos de la clase j en la población total
( ) ( )∑=
=g
1jt,jptp =prob. de que un individuo caiga en el nodo t
( ) ( )( )tp
t,jpt|jp = =prob. de que un individuo sea de la clase j dado que cayóo
en el nodo t.
PROFESOR: LUIS E. NIETO BARAJAS
72 Maestría: Administración de riesgos Análisis multivariado para riesgos
Ø Existen dos funciones de impureza propuestas:
1) Función de entropía:
( ) ( ) ( ) ∑=
−=g
1jt|jplogt|jptI
2) Índice de Gini:
( ) ( ) ( )∑≠
=kj
t|kpt|jptI
Ø Sea “s” una partición del nodo “t”, tal que pD es la proporción de casos en
el brazo derecho y pI la proporción de casos en el brazo izquierdo, entonces
( ) ( ) ( ) ( )IIDD tIptIptIt,sI −−=∆ .
Por lo tanto una forma simple de declarar un nodo como terminal es si
( ) β<∆∈
t,smaxSs
para β una constante pequeña.
Ø Una forma de estimar la probabilidad de mala clasificación en cada nodo t
es
( ) ( )∑≠
=)t(jj
t|jptPM ,
donde j(t) es la clase asignada al nodo t.
Finalmente, el valor de j(t) que minimiza PM(t) es j(t)=j* si
( ) ( )t|jpmaxt|jpj
* = .
v R: tree
PROFESOR: LUIS E. NIETO BARAJAS
73 Maestría: Administración de riesgos Análisis multivariado para riesgos
5.5 Redes neuronales
Ø Una red neuronal es un algoritmo computacionalmente intensivo que
transforma entradas en salidas mediante el uso de redes altamente
conectadas de unidades de procesamiento relativamente simples (neuronas
o nodos).
Ø Una red neuronal trata de reconstruir la actividad neuronal en el cerebro
humano.
Ø Hay tres características esenciales que describen una red neuronal:
1) Las unidades básicas (neuronas o nodos).
2) La arquitectura de la red que describe las conexiones entre las unidades
básicas.
3) Algoritmo de aprendizaje o entrenamiento que sirve para determinar los
parámetros (pesos) de la red para realizar una tarea en particular.
Ø En estadística, las unidades básicas están organizadas en capas, de tal
manera que unidades en distintas capas están conectadas entre sí, pero
unidades en la misma capa no están conectadas.
Ø Hay 3 tipos de capas: la capa de entrada, la capa de salida y la o las capas
escondidas.
(Ver diagrama).
PROFESOR: LUIS E. NIETO BARAJAS
74 Maestría: Administración de riesgos Análisis multivariado para riesgos
Ø En un análisis de clasificación, las variables de entrada son las variables
explicativas que caracterizan a los individuos en distintos grupos y la
variable de salida es una variable categórica que indica la clase a la que
pertenece.
Ø Cada unidad (nodo) uj genera una salida o activación que puede ser
continua o discreta.
Si uj está conectada a ui ⇒ ( )ii sfu = ,
donde ∑=j
jiji uws y f(⋅) es llamada función de activación.
PROFESOR: LUIS E. NIETO BARAJAS
75 Maestría: Administración de riesgos Análisis multivariado para riesgos
Ø La idea es determinar el valor de los parámetros o pesos wij que minimicen
una medida de error (por lo general se usa el error cuadrático medio).
Ø Es posible diseñar una red neuronal que produzca una función
discriminante de tipo lineal, i.e.,
X'wwY 0 +=
de tal manera que los pesos “w” sean encontrados mediante la
minimización de un error cuadrático medio.
PROFESOR: LUIS E. NIETO BARAJAS
76 Maestría: Administración de riesgos Análisis multivariado para riesgos
q ¿CÓMO SABER SI REALMENTE Π1 ≠ Π2?
211210 :H vs.:H µ≠µµ=µ
Bajo el supuesto de que ( )Σµ∼ ,NX 1p1 y ( )Σµ∼ ,NX 2p2 con matrices de
var-cov iguales,
( ) α−−+>= ),1pnn,p( 21FxF:xRR
donde, ( )( )
( ) ( )211
c'
2121
21
21
21 XXSXXnn
nnp2nn1pnn
XF −−
+
−+
−−+= − .
PROFESOR: LUIS E. NIETO BARAJAS
77 Maestría: Administración de riesgos Análisis multivariado para riesgos
6. Análisis de cúmulos
Ø El análisis de cúmulos proporciona una representación de un conjunto de
datos basada en ciertas medidas de distancia y algoritmos para agrupar
individuos (o variables).
Ø El análisis de cúmulos busca en un conjunto de datos una “estructura
natural” de agrupamiento. Sirve además para identificar observaciones
extremas.
Ø Análisis de cúmulos ≠ análisis de clasificación. En el segundo método se
cuenta con una agrupación previa y el objetivo es asignar un nuevo
individuo a uno de los grupos, en cambio en el primer método el objetivo
es buscar y crear una agrupación sin saber cuantos grupos hay en la
población.
Ø El ingrediente básico de un análisis de cúmulos es una medida de
similaridad o disimilaridad (distancias).
6.1 Medidas de similaridad
Ø Para el agrupamiento de individuos, proximidad es medida mediante una
distancia, en cambio variables son usualmente agrupadas en términos de
coeficientes de correlación o medidas de asociación.
PROFESOR: LUIS E. NIETO BARAJAS
78 Maestría: Administración de riesgos Análisis multivariado para riesgos
Ø DISTANCIAS Y COEFICIENTES DE SIMILARIDAD:
q Distancias para individuos con variables numéricas: Sean ( )p1 x,...,x'x = ,
( )p1 y,...,y'y = dos individuos representados por p mediciones,
o Distancia euclidiana:
( ) ( ) ( )yxyxy,xd ' −−=
o Distancia estadística o de Mahalanobis:
( ) ( ) ( )yxAyxy,xd ' −−= ,
con A=S-1 (generalmente).
o Métrica de Minkowski:
( )m/1p
1j
mjj yxy,xd
−= ∑=
,
con m un entero positivo. Si m=2 ⇒ d(x,y) es la distancia euclidiana
o Métrica de Canberra:
( ) ( )∑= +
−=
p
1j jj
jj
yx
yxy,xd
o Coeficiente de Czekanowski:
( )( )
( )∑
∑
=
=
+−= p
1jjj
p
1jjj
yx
y,xmin21y,xd
q Distancias para individuos con variables dicotómicas: Las variables
dicotómicas por lo general se asocian a mediciones de presencia (1) o
ausencia (0) de cierta característica.
PROFESOR: LUIS E. NIETO BARAJAS
79 Maestría: Administración de riesgos Análisis multivariado para riesgos
o La distancia euclidiana en estos casos mide el número de discordancias
(0-1,1-0). Para evitar ponderar los empates (1-1,0-0) de igual manera, se
ha propuesto lo siguiente:
ind j \ ind k 1 0 Total
1 a b a+b
0 c d c+d
Total a+c b+d p=a+b+c+d
donde a=# empates 1-1, d=# empates 0-0,
b=# discordancias 1-0, c=# discordancias 0-1
Coeficientes de concordancia propuestos:
1) Igual peso a 1-1 y 0-0:
pda +
2) No se considera el 0-0 en el numerador:
pa
3) No se considera el 0-0 en el numerador ni en el denominador:
cbaa
++
q Distancias para variables:
o Si X1 y X2 son variables numéricas:
( )21 X,X21 1X,Xd ρ−=
PROFESOR: LUIS E. NIETO BARAJAS
80 Maestría: Administración de riesgos Análisis multivariado para riesgos
o Si X1 y X2 son variables dicotómicas:
X1\ X2 1 0 Total
1 a b a+b
0 c d c+d
Total a+c b+d n=a+b+c+d
( )( )( )( )( )dbcadcba
bcadX,Xcr 21 ++++−==
6.2 Métodos jerárquicos
Ø Los métodos jerárquicos se basan en uniones o divisiones sucesivas:
1) Métodos aglomerativos: inicialmente hay tantos cúmulos como
individuos. Los cúmulos más similares se unen terminando
eventualmente todos los individuos en un solo cúmulo.
2) Métodos divisivos: se inician con un solo cúmulo formado por todos
los individuos. Este cúmulo es dividido en dos cúmulos lo más
disimilares posible, continuando con divisiones hasta que cada
individuo forma un solo cúmulo.
Ø El resultado de los métodos jerárquicos se muestra en un diagrama llamado
“dendrograma”, el cual muestra las distancias a las que las uniones o
divisiones se fueron dando junto con los individuos. (Ver diagrama anexo).
PROFESOR: LUIS E. NIETO BARAJAS
81 Maestría: Administración de riesgos Análisis multivariado para riesgos
Ø Nos concentraremos en los métodos aglomerativos por ser los más usados
en la práctica y en particular en los métodos de liga.
Ø La liga es una manera de definir distancias entre cúmulos. Existen 3 tipos
de liga: Sean (UV) y W dos cúmulos formados por los individuos U y V y
W respectivamente.
o Liga sencilla (vecino más cercano):
( )VWUWW)UV( d,dmind =
o Liga completa (vecino más lejano):
( )VWUWW)UV( d,dmaxd =
o Liga promedio (vecino promedio):
( )VWUWW)UV( dd21
d +=
PROFESOR: LUIS E. NIETO BARAJAS
82 Maestría: Administración de riesgos Análisis multivariado para riesgos
Ø Independientemente de cómo se definan las distancias entre cúmulos (liga),
el algoritmo para formar una agrupación por el método aglomerativo es:
Suponga que se tienen N individuos o variables,
1) Empezar con N cúmulos, cada uno con un solo individuo (o variable).
2) Buscar los cúmulos cuya distancia sea la menor, digamos U y V.
3) Unir los cúmulos U y V en uno solo, renombrándolo como (UV) y
calcular las nuevas distancias.
4) Repetir los pasos (2) y (3) un total de N−1 veces, hasta que todos los
individuos (o variables) estén en un solo cúmulo.
Ø Ejemplos: Acetatos...
Ø MÉTODO JERÁRQUICO DE WARD: Este método se basa en minimizar la
pérdida de información de unir dos cúmulos.
Pérdida de información = incremento en un error (suma de cuadrados)
ESC = error suma de cuadrados = ∑=
m
1kkESC ,
donde m=número de cúmulos. Tenemos varios casos:
• Si cada individuo forma un cúmulo, i.e.,
ESCk=0, k=1,...,N ⇒ ESC=0
• Si todos los individuos están en un solo cúmulo, i.e.,
( ) ( )∑=
−−=N
1ii
'i xxxxESC
Este método se basa en la idea de que los cúmulos de dos observaciones
multivariadas se espera que tengan forma elíptica. El resultado de este
método se representa también mediante un dendrograma.
PROFESOR: LUIS E. NIETO BARAJAS
83 Maestría: Administración de riesgos Análisis multivariado para riesgos
Ø Es recomendable intentar formar agrupaciones con varios métodos para
encontrar la agrupación que más satisfaga nuestras necesidades. Una
agrupación puede ser validada con métodos gráficos como caras de
Chernoff, diagramas de estrella y curvas de Andrews.
6.3 Métodos no jerárquicos
Ø Los métodos no jerárquicos están basados en agrupar individuos y no es
posible agrupar variables.
Ø El número de cúmulos que se desean formar k debe ser especificado de
antemano y en algunos casos puede ser determinado como parte del
algoritmo.
Ø La matriz de distancias entre cúmulos no tiene que ser calculada en cada
paso ni los grupos deben ser almacenados como en el caso de los métodos
jerárquicos, es por esto que los métodos no jerárquicos pueden ser
aplicados a bases de datos grandes.
Ø MÉTODO DE K−MEDIAS: es uno de los métodos no jerárquicos más
populares. Este método asigna cada individuo al cúmulo cuyo centroide
(media) sea el más cercano posible. Los pasos del algoritmo son:
1) Particiona a los individuos en k cúmulos iniciales.
2) Calcula el centroide de cada cúmulo y reasigna cada individuo al
cúmulo cuyo centroide sea el más cercano.
3) Repite el paso (2) hasta que ningún individuo cambie de cúmulo.
PROFESOR: LUIS E. NIETO BARAJAS
84 Maestría: Administración de riesgos Análisis multivariado para riesgos
o En lugar de iniciar con una partición de los individuos en k cúmulos en el
paso (1), es posible especificar k centroides iniciales y pasar al paso (2).
o La agrupación final será, de alguna manera, dependiente de la partición
inicial o de la selección inicial de centroides.
Ø Ejemplos: Acetatos...
Ø Comentarios: Hay razones fuertes para no fijar el número de cúmulos k de
antemano:
o Si dos o más centroides inadvertidamente caen dentro de un mismo
“cúmulo natural”, los cúmulos resultantes no estarán muy diferenciados.
o Si hay observaciones extremas, producirán al menos un grupo con
individuos muy dispersos.
o Aún cuando se sepa que la población tiene k cúmulos, el método de
muestreo que produjo los datos puede haber dejado sin representación a
uno de los grupos raros (pequeños). En este caso, forzar a los datos a
tener k grupos puede resultar en cúmulos sin sentido.
o Es recomendable entonces correr el algoritmo con distintos valores de
k.
Top Related