ANALISIS CLUSTER
ANALISIS CLUSTER.OBJETIVOS:
El anlisis cluster es una tcnica multivariada no explicativa cuyo objetivo fundamental es identificar grupos de individuos sin que a priori se conozca criterio de agrupamiento alguno.
Ejemplo. Si se aplica una encuesta a los docentes de la UNIVERSIDAD NACIONAL HERMILIO VALDIZAN sobre el TLC y se quiere identificar a las personas que comparten criterios sobre dicho tema, significa que se tiene que comparar unos encuestados con otros y colocaramos en el mismo grupo, CLUSTER o conglomerado, a los docentes cuyas respuestas sean similares.
METODOS DE AGRUPAMIENTO
Hay muchos mtodos de agrupamiento, sin embargo como una forma de poder ingresar a este mundo del anlisis multivariado solamente se usara el mtodo jerrquico de aglomeracin, pues este mtodo es un proceso iterativo que mediante un grafico llamado DENDOGRAMA nos permitir visualizar con rapidez el nmero de cluster a utilizar.
DENDOGRAMA:
Es un rbol lgico que indica visualmente la secuencia en que sem han ido formando los CLUSTERS.Una de las ventajas del DENDOGRAMA es que permite tomar una decisin clara respecto del nmero de CLUSTERS que es posible formar.
Este rbol lgico esta en estrecha relacin con el mtodo WARD.
METOD WARD:
La caracterstica de este mtodo es que trata de hacer mnima la variabilidad intracluster, es decir trata de hacer que cada cluster sea lo mas homogneo posible.
Ejemplo.
El Departamento de recursos humanos de una empresa quiere realizar un estudio sobre la motivacin de sus ejecutivos. Los veinte ejecutivos responden a 12 cuestiones en las que tienen que indicar en una escala de 1 a 10 su grado de acuerdo (1=desacuerdo total, 10= acuerdo total).
Los datos aparecen en la tabla que sigue: Realice el CLUSTER de sujetos mediante la vinculacin del vecino mas prximo.Cuantos CLUSTERS cree que debera tener?
SUJ I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I121 743746457764
2 533464344676
3 444555334674
4 766637776333
5 334737437763
6 477373674447
7 677736677333
8 533565345675
9 355647557654
10 776364773347
11 367637667433
12 344736667553
13 656747556544
14 744474334767
15 765646667633
16 576363773377
17 477544665355
18 367473773467
19 555474554576
20 676586643687
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
2 2 8 8 3 3 14 14 19 19 20 20 6 6 18 18 16 16 10 10 17 17 4 4 7 7 11 11 9 9 12 12 5 5 13 13 15 15 1 1 La sintaxis para LA TABLA y el DENDOGRAMA esta dado por:
ANALIZE
CLASSIFY
HIERARCHICAL CLUSTER
VARIABLE(S)
I1
I2
.
.
LABEL CASES BY
SUJETO.
STATISTIC
PLOTS
AGGLOMERATION SCHEDULE
DENDOGRAMA
NONE
CLUSTER METHOD
WARDS
OK.
Si observamos la tabla vemos que el mayor salto se presenta en el sujeto 17 y 18 por tanto a partir de eso determinamos los valores, transformndolos a escala del dendograma del modo siguiente:Si 538.150..........25
217.889...........X1Luego: X1= 10.122De la misma manera:
Si 538.150.........25
333.556.X2
Con lo que se obtiene:
X2= 15.495
Estos dos valores los ubicamos en el dendograma para determinar visualmente el nmero de CLUSTERS.Si se toma el mnimo valor se tiene 3 clusters y si se toma el valor mximo se tiene 2 clusters sin embargo mientras mayor sea el numero de clusters la aglomeracin es mas homognea, por tanto es recomendable tomar la mayor cantidad de clusters.
En nuestro caso se tiene que el cluster N 1 tiene 6 elementos, el cluster N 2 tiene 5 elementos y el cluster N 3 tiene 9 elementos.
CLUSTER 1
CLUSTER 2
CLUSTER 3
2
6
4
8
18
7
3
16
11
14
10
9
19
17
12
20
5
13
15
01
Top Related