Download - 5. Análisis de clasificación (discriminante)allman.rhon.itam.mx/~lnieto/index_archivos/NotasAMR4.pdfejemplo, se sabe que hay más empresas sanas que en banca rota, así que una nueva

PROFESOR: LUIS E. NIETO BARAJAS

55 Maestría: Administración de riesgos Análisis multivariado para riesgos

5. Análisis de clasificación (discriminante)

Ø Los objetivos del análisis de clasificación y discriminación son:

1) Discriminar: describir gráfica o algebraicamente las características que

hacen diferentes a objetos de distintas poblaciones (i.e., “separar”).

2) Clasificar: asignar objetos a una de varias clases. Derivar una regla de

asignación “óptima”.

Ø En la búsqueda de resolver alguno de los dos objetivos anteriores se

pueden resolver ambos simultáneamente.

5.1 Clasificación de dos poblaciones

Ø Sean Π1 y Π2 dos poblaciones. La idea es separar o clasificar con base en

una m.a. X1,...,Xn de ambas poblaciones p-variadas Π1 y Π2.

Ø Ejemplos:

o Clasificar a un nuevo cliente como acreditado o no acreditado con base

en su historial crediticio, nivel socioeconómico, edad, variables

socioeconómicas, etc.

o Clasificar a una compañía aseguradora como solvente o no solvente

(quiebra) con base en sus activos, valor de sus acciones, valor de

mercado de sus bonos, monto de primas recibidas, montos de

reclamaciones pagadas, etc.



o Predecir si un nuevo estudiante que entra al ITAM terminará

satisfactoriamente su carrera / maestría con base en sus calificaciones de

preparatoria / universidad, examen de admisión, etc.

Ø Consideraciones:

o Las reglas de clasificación se basan en una muestra de “aprendizaje”,

i.e., individuos previamente clasificados.

o El conjunto de todos los posibles resultados de la muestra se divide en

dos regiones R1 y R2 tal que si un nuevo individuo cae en R1 se asigna a

Π1 y si cae en R2 se asigna a Π2.

o Las reglas de clasificación no están libres de cometer errores, sobretodo

en el caso de que no exista una clara diferencia entre las poblaciones.

o Es necesario considerar la composición de las poblaciones iniciales. Por

ejemplo, se sabe que hay más empresas sanas que en banca rota, así que

una nueva empresa se clasificará como sana a menos que los datos

favorezcan abrumadoramente la banca rota.

o Hay que tomar en cuenta el costo de mala clasificación que puede ser

distinto en las dos poblaciones, en términos de gravedad del error.

Ø Sean Π1 y Π2 dos poblaciones con funciones de densidad f1(x) y f2(x)

respectivamente, donde x∈ℜp, i.e., cada individuo se caracteriza por p

mediciones.

Un nuevo individuo X=x debe ser clasificado en Π1 y Π2.

Sea Ω el espacio muestral (Ω⊂ℜp) y

d(⋅) una regla de clasificación, entonces



( ) 11 xd:xR Π=Ω∈=

( ) 122 Rxd:xR −Ω=Π=Ω∈=

o Las probabilidades condicionales de mala clasificación son:

( ) ( ) ( )∫=Π∈=2R

112 dxxf|RXP1|2P

que es la probabilidad de clasificar un individuo como Π2 cuando en

realidad es de Π1.

( ) ( ) ( )∫=Π∈=1R

221 dxxf|RXP2|1P

que es la probabilidad de clasificar un individuo como Π1 cuando en

realidad es de Π2.

(Ver gráfica...)

o Sean p1 y p2 las probabilidades iniciales de pertenencia a Π1 y Π2 resp.

(p1 + p2=1). Entonces, las probabilidades de buena y mala clasificación

son:

( )( ) ( ) ( ) ( ) 11111 p1|1PP|RXPntecorrectameXdP =ΠΠ∈=Π=

( )( ) ( ) ( ) ( ) 22211 p2|1PP|RXPmenteincorrectaXdP =ΠΠ∈=Π=

( )( ) ( ) ( ) ( ) 22222 p2|2PP|RXPntecorrectameXdP =ΠΠ∈=Π=

( )( ) ( ) ( ) ( ) 11122 p1|2PP|RXPmenteincorrectaXdP =ΠΠ∈=Π=

o Si además los costos de mala clasificación son:

( )( ) 02|1c|

1|2c0|Verdadera.Pob

iónClasificac

2

1

21

ΠΠ

ΠΠ

Entonces, para cualquier regla de clasificación, el costo esperado de mala

clasificación (CEM) es:



( ) ( ) ( ) ( ) 21 p2|1P2|1cp1|2P1|2cCEM +=

Lo “ideal” sería tener una regla de clasificación d(⋅) que tuviera su CEM

tan pequeño como sea posible.

Ø Resultado 5.1. La regla de clasificación d*(⋅) con regiones R1* y R2

* que

minimizan el CEM se definen como:

( )( )

( )( )

≥=1

2

2

1*1 p1|2c

p2|1cxfxf

:xR

( )( )

( )( )

<=1

2

2

1*2 p1|2c

p2|1cxfxf

:xR

DEM.

Ø Un caso particular del Resultado 5.1 es cuando c(1|2)=c(2|1) y p1=p2, en

este caso

( )( )

≥= 1xfxf

:xR2

1*1 y

( )( )

<= 1xfxf

:xR2

1*2

Ø Nota 1: Otro criterio distinto a CEM puede ser usado para derivar reglas de

decisión “óptimas”, por ejemplo la probabilidad total de mala clasificación

(PTM), la cual se define como:

PTM = P( clasificar erróneamente a una observación de Π1 o de Π2 )

( ) ( )∫∫ +=12 R

22R

11 dxxfpdxxfpPTM

Podemos notar que PTM=CEM cuando c(1|2)=c(2|1).



Ø Nota 2: Otra alternativa para obtener una regla de clasificación óptima

sería usar probabilidades posteriores, i.e., si X=x0

( ) ( ) ( )( )

( )( ) ( ) 202101

101

0

11001 pxfpxf

pxfxP

P|xPx|P

+=

ΠΠ=Π , y

( ) ( ) ( )( ) ( ) 202101

2020102 pxfpxf

pxfx|P1x|P

+=Π−=Π

La regla de clasificación sería ( ) 10xd Π= si ( ) ( )0201 x|Px|P Π>Π .

Se puede demostrar que esta regla de clasificación es equivalente a la que

se obtendría al maximizar PTM.

Ø CLASIFICACIÓN CON DOS POBLACIONES NORMALES:

Supongamos que ( ) ( )11p1 ,|xNxf Σµ= y ( ) ( )22p2 ,|xNxf Σµ= .

o Si Σ=Σ=Σ 21 , las regiones óptimas que minimizan CEM son:

( ) ( ) ( ) ( )( )

≥µ+µΣµ−µ−Σµ−µ= −−

1

221

1'21

1'211 p1|2c

p2|1clog

21

x:xR

( ) ( ) ( ) ( )( )

<µ+µΣµ−µ−Σµ−µ= −−

1

221

1'21

1'212 p1|2c

p2|1clog

21

x:xR

A esta regla de decisión se le conoce como discriminante lineal.

o En la práctica, los parámetros µ1, µ2 y Σ son desconocidos. Una opción es

estimarlos mediante información muestral, i.e., si

( )

=×

'X

'X'X

X

1

1

n1

12

11

pn1 M y ( )

=×

'X

'X'X

X

2

2

n2

22

21

pn2 M



son las matrices de datos de las poblaciones Π1 y Π2 tal que

p2nn 21 ≥−+ , entonces las medias y varianzas muestrales son:

( ) ∑=

× =1n

1ii1

1

1p1 Xn1

X , ( ) ( )( )∑=

× −−−

=1n

1i

'1i11i1

1pp1 XXXX

1n1

S

( ) ∑=

× =2n

1ii2

2

1p2 Xn1

X , ( ) ( )( )∑=

× −−−

=2n

1i

'2i22i2

2pp2 XXXX

1n1

S

Como Σ=Σ=Σ 21 entonces S1 y S2 son ambos estimadores de Σ, por lo

que un estimador combinado es:

221

21

21

1c S

2nn1n

S2nn

1nS

−+

−+

−+

−=

es un estimador insesgado de Σ.

Finalmente, la regla de clasificación óptima muestral que minimiza el

CEM es:

( ) 10xd Π= si ( ) ( ) ( ) ( )( )

≥+−−− −−

1

221

1c

'210

1c

'21

p1|2cp2|1c

logXXSXX21xSXX

( ) 20xd Π= e.o.c.

o En particular, si c(1|2)=c(2|1) y p1=p2, entonces la regla de decisión

anterior es equivalente a:

( )( )( )

+<Π

+≥Π=

2/YYy si ,

2/YYy si ,xd

2102

21010 ,

donde 00 x'ay = , 11 X'aY = , 22 X'aY = , con ( ) 1c

'21 SXX'a −−= . La función

X'aY = es llamada función discriminante lineal muestral.

o Si Σ1≠Σ2 (con el mismo supuesto de normalidad), las regiones óptimas que

minimizan CEM son:



( ) ( ) ( )( )

≥−Σµ−Σµ+Σ−Σ−= −−−−

1

2122

111

12

111 p1|2c

p2|1clogkx''x'x

21

:xR

( ) ( ) ( )( )

<−Σµ−Σµ+Σ−Σ−= −−−−

1

2122

111

12

112 p1|2c

p2|1clogkx''x'x

21

:xR

donde ( )21

2211

112

1 ''21

log21

k µΣµ−µΣµ+

ΣΣ

= −− .

En este caso, las regiones de clasificación están definidas por una función

discriminante cuadrática.

o En el caso de que no se conozcan los parámetros poblacionales, se pueden

aproximar mediante los correspondientes estimadores muestrales

2121 S,S,X,X .

o Nota: La regla de decisión cuadrática es muy sensible a violaciones del

supuesto de normalidad. En caso de que no se tenga normalidad es

conveniente transformar.

Ø ¿Cómo evaluar una función de clasificación (discriminante)?.

Con su probabilidad total de mala clasificación (PTM), i.e.,

( ) ( )∫∫ +=12 R

22R

11 dxxfpdxxfpPTM .

En el caso de que no se conozcan f1(x) y f2(x) es necesario estimar PTM

por algún otro camino.

Ø ESTIMADORES DE PTM.

1) Estimador de resustitución: Se define como la fracción de las

observaciones en la muestra de entrenamiento que son mal clasificadas

por la regla de clasificación, i.e.,



21

M2M11 nn

nnPTM++= ,

donde n1M=número de individuos de Π1 mal clasificados como Π2 y

n2M=número de individuos de Π2 mal clasificados como Π1.

2) Estimador con una muestra de entrenamiento y una muestra de

validación: Si la muestra es suficientemente grande, parte de ella se

puede utilizar para construir la regla de clasificación y la otra parte para

validar (estimar) la probabilidad de mala clasificación, i.e.,

*2

*1

*M2

*M1

2 nnnn

PTM++

= ,

donde n1 y n2 son los tamaños de muestra de Π1 y Π2 utilizados para

construir la regla de clasificación

n1*=tamaño de muestra de validación de Π1

n2*=tamaño de muestra de validación de Π2

n1M*=número de individuos de Π1 (n1

*) mal clasificados como Π2

n2M*=número de individuos de Π2 (n2

*) mal clasificados como Π1

3) Estimador de validación cruzada: se construye al dejar fuera una por

una de las observaciones, construyendo una regla de clasificación con

las restantes y clasificando a la observación que se quedó fuera y

finalmente contando el número de observaciones mal clasificadas, i.e.,

21

)H(M2

)H(M1

3 nnnn

PTM++

= ,

donde n1M(H)=número de individuos de Π1 mal clasificados como Π2 al

quedarse fuera



n2M(H)=número de individuos de Π2 mal clasificados como Π1 al

quedarse fuera

5.2 Análisis discriminante de Fisher

Ø Fisher propuso un método cuyo objetivo principal es el de discriminar

(separar) entre varias poblaciones, sin embargo también puede ser usado

para clasificar.

Ø La idea es obtener una representación razonable de la población mediante

algunas pocas combinaciones lineales a1’X, a2’X, a3’X, ...

Ø Sean Π1,Π2,...,Πg poblaciones caracterizadas por medias µ1,µ2,...,µg y

varianzas Σ1,Σ2,...,Σg respectivamente, tal que Σ1=Σ2=⋅⋅⋅=Σg=Σ de rango

completo. Sean

∑=

µ=µg

1jjg

1=vector de medias de la población combinada, y

( )( )∑=

µ−µµ−µ=g

1j

'jjB =matriz de suma de productos cruzados entre

grupos (medida de varianza entre grupos)

Considera la siguiente combinación lineal

X'aY =

tal que

( ) ( ) jjjYj 'a|XE'a|YE µ=Π=Π=µ para la población Πj, y

( ) ( ) a'aa|XVar'a|YVar jj2Yj Σ=Π=Π=σ para todas las poblaciones.

Entonces, la media general de las Y’s es:



µ=

µ=µ=µ=µ ∑∑∑

==='a

g1

'a'ag1

g1 g

1jj

g

1jj

g

1jYjY .

Formemos el siguiente cociente,

( ) ( ) ( )( )

a'aBa'a

a'a

a'a

a'a

'a'ag

1j

'jj

g

1j

2j

2Y

g

1j

2YYj

Σ=

Σ

µ−µµ−µ

=Σ

µ−µ=

σ

µ−µ ∑∑∑=== ⋅⋅⋅ (1)

que representa una medida de la variabilidad entre grupos relativa a la

variabilidad común dentro de cada grupo (en los valores de Y).

El vector “a” que maximice el cociente anterior será aquella dirección de

mayor discriminación entre grupos.

Ø Resultado 5.2. Sean m21 λ≥≥λ≥λ L los m ≤ min(g−1,p) eigenvalores

distintos de cero de la matriz Σ-1B y e1,...,em los correspondientes

eigenvectores tal que e’Σe=1. Entonces, el vector a que maximiza el

cociente (1) está dado por a1=e1. La combinación lineal X'aY 11 = es

llamada “primer vector discriminante”. El vector a2=e2 maximiza el

cociente (1) s.a. ( ) 0X'a,X'aCov 21 = . La combinación lineal X'aY 22 = es

llamada segundo vector discriminante. Continuando, ak=ek maximiza el

cociente (1) s.a. ( ) 0X'a,X'aCov jk = para todo j<k, y X'aY kk = es

llamado el k-ésimo vector discriminante. Además, ( ) 1X'aVar j = para

j=1,...,m.

DEM.



Ø Generalmente, Σ y µ j, j=1,...,g son desconocidos, pero con base en una

muestra de entrenamiento de individuos correctamente clasificados se

pueden estimar:

Sean )pn(j jX × matrices de la población j, j=1,...,g. Entonces,

∑=

=jn

1iji

jj X

n1

X = vector de medias muestral de la pob. j

donde Xji=vector de observaciones del individuo i de la población j,

( )( )∑=

−−−

=jn

1i

'jjijji

jj XXXX

1n1

S =matriz de var-cov muestral de la pob. j

⇒

∑

∑

=

===µ g

1jj

g

1jjj

n

XnXˆ =vector de medias común

⇒ ( )( )∑=

−−=g

1j

'jjj XXXXnB =matriz de varianzas entre grupos

⇒ ( ) ( )( )∑∑∑

∑∑ = =

=

=

=

−−−

=−−

==Σg

1j

n

1i

'jjijjig

1jj

g

1jjjg

1jj

c

j

XXXXgn

1S1n

gn

1Sˆ

=estimador combinado de la varianza.

Ø ¿Cómo clasificar nuevos individuos?

Sea X'aY kk = = k-ésima función discriminante, k=1,...,m. Entonces,

( )m1 Y,...,Y'Y = es un vector de funciones discriminantes tal que

( ) Yjj|YE µ=Π (bajo la población Πj), y

( ) IYVar = (para todas las poblaciones).



Una medida de la distancia de Y=y a su media µYj es:

( ) ( ) ( )∑=

µ−=µ−µ−m

1k

2YjkkYj

'Yj yyy

entonces una regla de clasificación razonable sería asignar “y” a Πj si el

cuadrado de las distancias de “y” a µYj es menor que el cuadrado de las

distancias de “y” a µYk para k≠j.

Ø Nota: Por lo general se utiliza la primer función discriminante o las

primeras dos funciones discriminantes para clasificar a un nuevo individuo.

Ø Resultado 5.3. La regla de clasificación dada por el discriminante de Fisher

coincide con la regla de clasificación óptima que minimiza la PTM cuando

las poblaciones son normales y las probabilidades iniciales satisfacen

g1

ppp g21 ==== L .

v R: discr, discrim

5.3 Modelo logístico

Ø Sea Y la variable (respuesta) que indica la pertenencia de un individuo a

una de dos poblaciones, i.e. Y=1 si el individuo pertenece a Π1 y, Y=0 si el

individuo pertenece a Π2.

Sean

( )1YP ii ==α =probabilidad de que el individuo i ∈Π1 y

( )0YP1 ii ==α− =probabilidad de que el individuo i ∈Π2



⇒ ( )ii BerY α∼

Ø El objetivo es predecir el valor de YF para un nuevo individuo con base en

las mediciones de p variables (explicativas) X1,...,Xp. Supondremos que la

relación entre α y (X1,...,Xp) ocurre a través de una combinación lineal,

∑=

β=ηp

1jjjX ,

donde βj’s son coeficientes desconocidos.

Ø Como ( )∞∞−∈η , necesitamos transformar el intervalo [0,1], en donde

toma valores α, en ℜ, i.e.,

( ) ∑=

β=η=αp

1jijjii Xg , i=1,...,n.

La función g(⋅) es llamada función liga y puede ser de la forma:

1) Logit o logística:

( )

α−α

=α1

logg

2) Probit o función de distribución normal inversa:

( ) ( )αΦ=α −1g

3) Complementaria log−log:

( ) ( ) α−−=α 1loglogg

Nosotros nos concentraremos en la función liga logística.

(Ver diagrama)



Gráfica de distintas funciones liga

Ø En el caso de la liga logística tenemos

∑=

β=η=

α−α p

1jjjX1

log

⇔

β+

β

=+

=α

∑

∑

=

=η

η

p

1jjj

p

1jjj

Xexp1

Xexp

e1e

Ø ESTIMACIÓN de los parámetros βj’s por máxima verosimilitud:

Sean Y1,..,Yn una muestra de variables aleatorias independientes tal que

( )ii BerY α∼ , donde i

i

e1e

i η

η

+=α , con β=β=η ∑

='XX i

p

1jijji y ( )p1,...,' ββ=β

⇒ ( ) ( ) ( )∏∏==

−

α−

α−

α=α−α=β

n

1ii

y

i

in

1i

y1i

yi 1

11y|L

i

ii



⇒ ( ) ( )∑∑==

α−+

α−

α=β

n

1ii

n

1i i

ii 1log

1logyy|Llog

como ( ) ( ) 1ii 'Xexp11 −β+=α− entonces

( ) ( ) ∑∑==

β+−β=βn

1ii

n

1iii 'Xexp1log'Xyy|Llog

∑ ∑ ∑∑= = ==

β+−β=

n

1i

n

1i

p

1jjij

p

1jjiji Xexp1logXy

derivando con respecto a βj tenemos

( )( )( ) ( )∑∑∑

===α−=

β+

β−=β

β∂∂ n

1iiiij

n

1i i

iijn

1iiji

j

yX'Xexp1

'XexpXXyy|Llog

igualando a cero observamos que no es posible despejar βj analíticamente,

por lo que es necesario recurrir a métodos numéricos (como Newton-

Raphson) para maximizar la función de verosimilitud.

Ø Sea β el estimador máximo verosímil encontrado numéricamente, es

posible demostrar que asintóticamente,

( ) β=βE y ( ) ( ) 11XV'XˆVar−−=β

donde ( ) ii1 1diagV α−α=− .

Ø El valor ajustado del modelos de regresión logística es:

( )( )β+

β=+

=α= η

η

ˆ'Xexp1

ˆ'Xexpe1

eˆY

i

iˆ

ˆ

ii i

i

Ø Finalmente, una regla de decisión formada por el modelo de regresión

logística sería:



( )

<Π≥Π

=21y si ,21y si ,

xd02

010

v R: glm

5.4 Árboles de clasificación (CART)

Ø De manera general, el método de árboles de clasificación se basa en

biparticiones del conjunto total de individuos, con base en las

características (numéricas o categóricas) de los individuos, bipartiendo

cada grupo (nodo) resultante hasta llegar a cierto tope. Lo que se busca es

que los subgrupos (nodos hijos) sean cada vez más “puros” en el sentido de

que contengan individuos de una sola clase.

Ø Las variables explicativas con las que se determina la regla de decisión, a

diferencia de los dos métodos anteriores, pueden ser numéricas o

categóricas. El número de poblaciones (clases) puede ser cualquier número

finito g≥2.

Ø La construcción de un árbol está determinada por 3 elementos:

1) La selección de las particiones.

2) Las decisiones para declarar a un nodo como terminal o seguir

partiendo.

3) La asignación de una clase a cada nodo terminal.



Ø La idea fundamental para seleccionar una partición está basada en la idea

de que una partición descendiente debe ser más pura que una partición

ascendiente.

La selección de las particiones se basa en preguntas del tipo:

¿X∈A? o ¿ AXap

1jjj ∈∑

=?

La idea es seleccionar la partición (pregunta) que maximice la pureza de la

partición resultante.

Ø Sean g21 p,...,p,p las probabilidades iniciales de pertenencia en cada clase,

entonces

( )( )

jj

j pN

tNt,jp =

es la probabilidad de que un individuo sea de la clase j y esté en el nodo t,

donde ( )tN j =número de individuos de la clase j en el nodo t

Nj=número de individuos de la clase j en la población total

( ) ( )∑=

=g

1jt,jptp =prob. de que un individuo caiga en el nodo t

( ) ( )( )tp

t,jpt|jp = =prob. de que un individuo sea de la clase j dado que cayóo

en el nodo t.



Ø Existen dos funciones de impureza propuestas:

1) Función de entropía:

( ) ( ) ( ) ∑=

−=g

1jt|jplogt|jptI

2) Índice de Gini:

( ) ( ) ( )∑≠

=kj

t|kpt|jptI

Ø Sea “s” una partición del nodo “t”, tal que pD es la proporción de casos en

el brazo derecho y pI la proporción de casos en el brazo izquierdo, entonces

( ) ( ) ( ) ( )IIDD tIptIptIt,sI −−=∆ .

Por lo tanto una forma simple de declarar un nodo como terminal es si

( ) β<∆∈

t,smaxSs

para β una constante pequeña.

Ø Una forma de estimar la probabilidad de mala clasificación en cada nodo t

es

( ) ( )∑≠

=)t(jj

t|jptPM ,

donde j(t) es la clase asignada al nodo t.

Finalmente, el valor de j(t) que minimiza PM(t) es j(t)=j* si

( ) ( )t|jpmaxt|jpj

* = .

v R: tree



5.5 Redes neuronales

Ø Una red neuronal es un algoritmo computacionalmente intensivo que

transforma entradas en salidas mediante el uso de redes altamente

conectadas de unidades de procesamiento relativamente simples (neuronas

o nodos).

Ø Una red neuronal trata de reconstruir la actividad neuronal en el cerebro

humano.

Ø Hay tres características esenciales que describen una red neuronal:

1) Las unidades básicas (neuronas o nodos).

2) La arquitectura de la red que describe las conexiones entre las unidades

básicas.

3) Algoritmo de aprendizaje o entrenamiento que sirve para determinar los

parámetros (pesos) de la red para realizar una tarea en particular.

Ø En estadística, las unidades básicas están organizadas en capas, de tal

manera que unidades en distintas capas están conectadas entre sí, pero

unidades en la misma capa no están conectadas.

Ø Hay 3 tipos de capas: la capa de entrada, la capa de salida y la o las capas

escondidas.

(Ver diagrama).



Ø En un análisis de clasificación, las variables de entrada son las variables

explicativas que caracterizan a los individuos en distintos grupos y la

variable de salida es una variable categórica que indica la clase a la que

pertenece.

Ø Cada unidad (nodo) uj genera una salida o activación que puede ser

continua o discreta.

Si uj está conectada a ui ⇒ ( )ii sfu = ,

donde ∑=j

jiji uws y f(⋅) es llamada función de activación.



Ø La idea es determinar el valor de los parámetros o pesos wij que minimicen

una medida de error (por lo general se usa el error cuadrático medio).

Ø Es posible diseñar una red neuronal que produzca una función

discriminante de tipo lineal, i.e.,

X'wwY 0 +=

de tal manera que los pesos “w” sean encontrados mediante la

minimización de un error cuadrático medio.



q ¿CÓMO SABER SI REALMENTE Π1 ≠ Π2?

211210 :H vs.:H µ≠µµ=µ

Bajo el supuesto de que ( )Σµ∼ ,NX 1p1 y ( )Σµ∼ ,NX 2p2 con matrices de

var-cov iguales,

( ) α−−+>= ),1pnn,p( 21FxF:xRR

donde, ( )( )

( ) ( )211

c'

2121

21

21

21 XXSXXnn

nnp2nn1pnn

XF −−

+

−+

−−+= − .



6. Análisis de cúmulos

Ø El análisis de cúmulos proporciona una representación de un conjunto de

datos basada en ciertas medidas de distancia y algoritmos para agrupar

individuos (o variables).

Ø El análisis de cúmulos busca en un conjunto de datos una “estructura

natural” de agrupamiento. Sirve además para identificar observaciones

extremas.

Ø Análisis de cúmulos ≠ análisis de clasificación. En el segundo método se

cuenta con una agrupación previa y el objetivo es asignar un nuevo

individuo a uno de los grupos, en cambio en el primer método el objetivo

es buscar y crear una agrupación sin saber cuantos grupos hay en la

población.

Ø El ingrediente básico de un análisis de cúmulos es una medida de

similaridad o disimilaridad (distancias).

6.1 Medidas de similaridad

Ø Para el agrupamiento de individuos, proximidad es medida mediante una

distancia, en cambio variables son usualmente agrupadas en términos de

coeficientes de correlación o medidas de asociación.



Ø DISTANCIAS Y COEFICIENTES DE SIMILARIDAD:

q Distancias para individuos con variables numéricas: Sean ( )p1 x,...,x'x = ,

( )p1 y,...,y'y = dos individuos representados por p mediciones,

o Distancia euclidiana:

( ) ( ) ( )yxyxy,xd ' −−=

o Distancia estadística o de Mahalanobis:

( ) ( ) ( )yxAyxy,xd ' −−= ,

con A=S-1 (generalmente).

o Métrica de Minkowski:

( )m/1p

1j

mjj yxy,xd

−= ∑=

,

con m un entero positivo. Si m=2 ⇒ d(x,y) es la distancia euclidiana

o Métrica de Canberra:

( ) ( )∑= +

−=

p

1j jj

jj

yx

yxy,xd

o Coeficiente de Czekanowski:

( )( )

( )∑

∑

=

=

+−= p

1jjj

p

1jjj

yx

y,xmin21y,xd

q Distancias para individuos con variables dicotómicas: Las variables

dicotómicas por lo general se asocian a mediciones de presencia (1) o

ausencia (0) de cierta característica.



o La distancia euclidiana en estos casos mide el número de discordancias

(0-1,1-0). Para evitar ponderar los empates (1-1,0-0) de igual manera, se

ha propuesto lo siguiente:

ind j \ ind k 1 0 Total

1 a b a+b

0 c d c+d

Total a+c b+d p=a+b+c+d

donde a=# empates 1-1, d=# empates 0-0,

b=# discordancias 1-0, c=# discordancias 0-1

Coeficientes de concordancia propuestos:

1) Igual peso a 1-1 y 0-0:

pda +

2) No se considera el 0-0 en el numerador:

pa

3) No se considera el 0-0 en el numerador ni en el denominador:

cbaa

++

q Distancias para variables:

o Si X1 y X2 son variables numéricas:

( )21 X,X21 1X,Xd ρ−=



o Si X1 y X2 son variables dicotómicas:

X1\ X2 1 0 Total

1 a b a+b

0 c d c+d

Total a+c b+d n=a+b+c+d

( )( )( )( )( )dbcadcba

bcadX,Xcr 21 ++++−==

6.2 Métodos jerárquicos

Ø Los métodos jerárquicos se basan en uniones o divisiones sucesivas:

1) Métodos aglomerativos: inicialmente hay tantos cúmulos como

individuos. Los cúmulos más similares se unen terminando

eventualmente todos los individuos en un solo cúmulo.

2) Métodos divisivos: se inician con un solo cúmulo formado por todos

los individuos. Este cúmulo es dividido en dos cúmulos lo más

disimilares posible, continuando con divisiones hasta que cada

individuo forma un solo cúmulo.

Ø El resultado de los métodos jerárquicos se muestra en un diagrama llamado

“dendrograma”, el cual muestra las distancias a las que las uniones o

divisiones se fueron dando junto con los individuos. (Ver diagrama anexo).



Ø Nos concentraremos en los métodos aglomerativos por ser los más usados

en la práctica y en particular en los métodos de liga.

Ø La liga es una manera de definir distancias entre cúmulos. Existen 3 tipos

de liga: Sean (UV) y W dos cúmulos formados por los individuos U y V y

W respectivamente.

o Liga sencilla (vecino más cercano):

( )VWUWW)UV( d,dmind =

o Liga completa (vecino más lejano):

( )VWUWW)UV( d,dmaxd =

o Liga promedio (vecino promedio):

( )VWUWW)UV( dd21

d +=



Ø Independientemente de cómo se definan las distancias entre cúmulos (liga),

el algoritmo para formar una agrupación por el método aglomerativo es:

Suponga que se tienen N individuos o variables,

1) Empezar con N cúmulos, cada uno con un solo individuo (o variable).

2) Buscar los cúmulos cuya distancia sea la menor, digamos U y V.

3) Unir los cúmulos U y V en uno solo, renombrándolo como (UV) y

calcular las nuevas distancias.

4) Repetir los pasos (2) y (3) un total de N−1 veces, hasta que todos los

individuos (o variables) estén en un solo cúmulo.

Ø Ejemplos: Acetatos...

Ø MÉTODO JERÁRQUICO DE WARD: Este método se basa en minimizar la

pérdida de información de unir dos cúmulos.

Pérdida de información = incremento en un error (suma de cuadrados)

ESC = error suma de cuadrados = ∑=

m

1kkESC ,

donde m=número de cúmulos. Tenemos varios casos:

• Si cada individuo forma un cúmulo, i.e.,

ESCk=0, k=1,...,N ⇒ ESC=0

• Si todos los individuos están en un solo cúmulo, i.e.,

( ) ( )∑=

−−=N

1ii

'i xxxxESC

Este método se basa en la idea de que los cúmulos de dos observaciones

multivariadas se espera que tengan forma elíptica. El resultado de este

método se representa también mediante un dendrograma.



Ø Es recomendable intentar formar agrupaciones con varios métodos para

encontrar la agrupación que más satisfaga nuestras necesidades. Una

agrupación puede ser validada con métodos gráficos como caras de

Chernoff, diagramas de estrella y curvas de Andrews.

6.3 Métodos no jerárquicos

Ø Los métodos no jerárquicos están basados en agrupar individuos y no es

posible agrupar variables.

Ø El número de cúmulos que se desean formar k debe ser especificado de

antemano y en algunos casos puede ser determinado como parte del

algoritmo.

Ø La matriz de distancias entre cúmulos no tiene que ser calculada en cada

paso ni los grupos deben ser almacenados como en el caso de los métodos

jerárquicos, es por esto que los métodos no jerárquicos pueden ser

aplicados a bases de datos grandes.

Ø MÉTODO DE K−MEDIAS: es uno de los métodos no jerárquicos más

populares. Este método asigna cada individuo al cúmulo cuyo centroide

(media) sea el más cercano posible. Los pasos del algoritmo son:

1) Particiona a los individuos en k cúmulos iniciales.

2) Calcula el centroide de cada cúmulo y reasigna cada individuo al

cúmulo cuyo centroide sea el más cercano.

3) Repite el paso (2) hasta que ningún individuo cambie de cúmulo.



o En lugar de iniciar con una partición de los individuos en k cúmulos en el

paso (1), es posible especificar k centroides iniciales y pasar al paso (2).

o La agrupación final será, de alguna manera, dependiente de la partición

inicial o de la selección inicial de centroides.

Ø Ejemplos: Acetatos...

Ø Comentarios: Hay razones fuertes para no fijar el número de cúmulos k de

antemano:

o Si dos o más centroides inadvertidamente caen dentro de un mismo

“cúmulo natural”, los cúmulos resultantes no estarán muy diferenciados.

o Si hay observaciones extremas, producirán al menos un grupo con

individuos muy dispersos.

o Aún cuando se sepa que la población tiene k cúmulos, el método de

muestreo que produjo los datos puede haber dejado sin representación a

uno de los grupos raros (pequeños). En este caso, forzar a los datos a

tener k grupos puede resultar en cúmulos sin sentido.

o Es recomendable entonces correr el algoritmo con distintos valores de

k.