Tema 1 Análisis exploratorio de datos multivariantes
Transcript of Tema 1 Análisis exploratorio de datos multivariantes
![Page 1: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/1.jpg)
Tema 1Analisis exploratorio de datos multivariantes
Jose R. Berrendero
Departamento de MatematicasUniversidad Autonoma de Madrid
![Page 2: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/2.jpg)
Gorriones
I Tras una fuerte tormenta en febrero de 1898, un grupo degorriones moribundos fueron llevados a la Universidad Brown(Rhode Island).
I Alrededor de la mitad de los gorriones murieron. Se considerola situacion como una oportunidad de estudiar el efecto de laseleccion natural sobre los pajaros.
I Se tomaron diversas medidas morfologicas, de las que seincluyen 5 en el fichero.
![Page 3: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/3.jpg)
Variables
Nombre variable Descripcion
TOT Longitud totalALA Extension de las alasCAB Longitud del pico y la cabezaHUM Longitud del humeroEST Longitud del esternon
Observaciones:
I Todas las variables se miden en mm.
I El fichero contiene datos de 49 gorriones.
I Los 21 primeros gorriones fueron los supervivientes.
![Page 4: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/4.jpg)
![Page 5: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/5.jpg)
Problemas de interes relacionados con estos datos
I ¿Estan las variables relacionadas? Al aumentar una, ¿tiendena aumentar los valores de las otras?
I ¿Hay diferencias significativas entre las observacionescorrespondientes a los supervivientes y a los que nosobrevivieron?
I Si la respuesta es afirmativa, ¿es posible construir una funcionde las variables que separe bien los dos grupos?
I ¿Es posible reducir la dimension de los datos sin perder muchainformacion?
![Page 6: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/6.jpg)
Temario
I Analisis exploratorio de datos multivariantesI Descripcion numericaI Descripcion grafica
I Tecnicas de analisis discriminanteI Discriminacion lineal de Fisher
I Tecnicas de agrupacionI Metodos jerarquicosI Metodos por division
I Tecnicas de reduccion de la dimensionI Analisis de componentes principalesI Analisis factorial
![Page 7: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/7.jpg)
Bibliografıa basica
I Johnson, R.A. y Wichern, D.W. (1992). Applied MultivariateStatistical Analysis. Prentice–Hall.
I Lattin, J.M., Carroll, J.D. y Green, P.E. (2003). Analyzingmultivariate data. Thomson Brooks/Cole.
I Pena, D. (2002). Analisis de datos multivariantes. McGrawHill.
Una bibliografıa mas amplia puede encontrarse en el programa dela pagina web de la asignatura
![Page 8: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/8.jpg)
Lirios
Codigo DescripcionCLASS Especie
SL Longitud del sepaloSW Anchura del sepaloPL Longitud del petaloPW Anchura del petalo
CLASS PL PW SL SWsetosa 5.1 3.5 1.4 0.2
versicolor 7 3.2 4.7 1.4virginica 6.3 3.3 6 2.5
En total hay 50 lirios de cada especie (es decir, la matriz de datoses 150× 4, si no tenemos en cuenta la variable que indica elnombre de la especie)
![Page 9: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/9.jpg)
Problemas de interes relacionados con estos datos
I ¿Estan las variables relacionadas? Al aumentar una, ¿tiendena aumentar los valores de las otras?
I ¿Hay diferencias significativas entre las observacionescorrespondientes a cada una de las especies?
I Si la respuesta es afirmativa, ¿es posible construir una funcionde las variables que separe bien los tres grupos?
I ¿Es posible reducir la dimension de los datos sin perder muchainformacion?
![Page 10: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/10.jpg)
Liga espanola de futbol 2005-2006Text2 1 / 1
May 26, 2006 Crimson Editor
Equipo G P GF GCBarcelona 25 6 80 35
RMadrid 20 8 70 40Valencia 19 7 58 33Osasuna 21 12 49 43Sevilla 20 10 54 39
Celta 20 14 45 33Villarreal 14 9 50 39Deportivo 15 13 47 45
Getafe 15 14 54 49AtMadrid 13 12 45 37Zaragoza 10 12 46 51
AthBilbao 11 15 40 46Mallorca 10 15 37 51
Betis 10 16 34 51Espanyol 10 17 36 56
RSociedad 11 20 48 65Racing 9 16 36 49Alavés 9 17 35 54Cádiz 8 18 36 52
Málaga 5 24 36 68
![Page 11: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/11.jpg)
Variables
Nombre variable Descripcion
Equipo Nombre del equipoG Numero de partidos ganadosP Numero de partidos perdidosGF Goles a favorGC Goles en contra
Observaciones:
I El numero de partidos empatados y el numero de puntos sehan omitido puesto que son variables redundantes.
![Page 12: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/12.jpg)
Problemas de interes relacionados con estos datos
I ¿Estan las variables relacionadas? Al variar una, ¿como varıanlos valores de las otras?
I ¿Existen datos atıpicos?
I ¿Es razonable suponer un modelo normal multivariante?
I ¿Es posible reducir la dimension de los datos sin perder muchainformacion?
I ¿Se pueden establecer grupos homogeneos de equipos?
![Page 13: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/13.jpg)
Descripcion univariante: longitud del sepalo
Frecuencias
Estadísticos
SL
1500
5,8435,800,8281,6857
4,37,9
5,1005,8006,400
VálidosPerdidos
N
MediaMedianaDesv. típ.VarianzaMínimoMáximo
255075
Percentiles
Página 1
Gráfico
8,07,06,05,04,0
sl
25
20
15
10
5
0
Frecuencia
Media =5,843Desviación típica=0,8281N =150
&[PageTitle]
Página 1
![Page 14: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/14.jpg)
Descripcion univariante: anchura del sepalo
Estadísticos
SW
1500
3,0543,000,4336,1880
2,04,4
2,8003,0003,300
VálidosPerdidos
N
MediaMedianaDesv. típ.VarianzaMínimoMáximo
255075
Percentiles
Página 1
4,54,03,53,02,52,0
sw
40
30
20
10
0
Frecuencia
Media =3,054Desviación típica=0,4336N =150
&[PageTitle]
Página 1
![Page 15: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/15.jpg)
Interpretacion de la covarianza
![Page 16: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/16.jpg)
Dimensiones del sepalo: covarianza y correlacion
Covarianzas
Longitud del sepalo Anchura del sepaloLongitud del sepalo 0.68569351 -0.04243400Anchura del sepalo -0.04243400 0.18997942
Correlaciones
Longitud del sepalo Anchura del sepaloLongitud del sepalo 1.0000000 -0.1175698Anchura del sepalo -0.1175698 1.0000000
![Page 17: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/17.jpg)
Dimensiones del sepalo: diagrama de dispersionGráfico
4,54,03,53,02,52,0
sw
8,0
7,0
6,0
5,0
4,0
sl
&[PageTitle]
Página 1
![Page 18: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/18.jpg)
Diagrama de cajas
4. Distancia de Mahalanobis: D2(x, x) = (x − x)′S−1(x − x). Se utiliza como herramientade clasificacion y para detectar observaciones atıpicas. Puede considerarse como una version“modificada” de la distancia euclıdea (x− x)′(x− x) que incorpora la informacion que da S.
5. Muestra y poblacion. La distribucion normal: En muchos casos es razonable suponer quelos datos son el resultado de extraer una muestra de una poblacion infinita o, expresado en otrosterminos, constituyen una muestra de observaciones independientes de una variable aleatoria(v.a.) x. Recordemos algunas propiedades de las v.a. p-dimensionales: Si a ∈ Rp entoncesE(a′x) = a′µ, V (a′x) = a′Σa, donde E(.) y V (.) denotan, respectivamente, la media y varianza“poblacionales” y µ y Σ representan el vector de medias y la matriz de covarianza poblacionalesde x. Analogamente, si A es una matriz m × p, el vector de medias (poblacionales) de Ax esAµ y la matriz de covarianzas poblacional de Ax es AΣA′.
Para motivar mejor algunas tecnicas de analisis de datos, y tambien para deducir muchaspropiedades teoricas interesantes, se supone frecuentemente que la variable x tiene distribucionnormal. Esta distribucion queda totalmente especificada por los valores de µ y Σ.
Diagrama de cajas Diagrama de estrellas
6. Algunos graficos: • Diagrama de cajas: Ver figura. • Diagrama de estrellas: Paracada dato p-variante se dibuja una estrella de p puntas o brazos. La longitud de cada brazode la estrella se determina a partir del valor, previamente “reescalado” de la correspondientevariable. Por ejemplo, se puede reescalar cada variable de manera que su valor maximo sobrelos n individuos sea 1 y el mınimo sea 0.
• Diagrama de dispersion: “Matriz de diagramas” obtenida al representar los datos comopuntos en el plano, considerando solo dos variables (para todos los posibles pares de variables).
2
![Page 19: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/19.jpg)
Dimensiones del sepalo: diagrama de cajas
setosa versicolor virginica
4.5
6.0
7.5
Longitud del sepalo por especies
setosa versicolor virginica
2.0
3.0
4.0
Ancho del sepalo por especies
![Page 20: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/20.jpg)
Dimensiones del sepalo de la especie setosa
2.5 3.0 3.5 4.0
4.5
5.0
5.5
Especie "Setosa"
Ancho del sepalo
Long
itud
del s
epal
o
![Page 21: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/21.jpg)
Lirios: matriz de diagramas de dispersion
Longitud.Sepalo
2.0 3.0 4.0 0.5 1.5 2.5
4.5
5.5
6.5
7.5
2.0
3.0
4.0
Ancho.Sepalo
Longitud.Petalo
12
34
56
7
4.5 5.5 6.5 7.5
0.5
1.5
2.5
1 2 3 4 5 6 7
Ancho.Petalo
![Page 22: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/22.jpg)
Lirios: matriz de diagramas de dispersion
longitud del sepalo
2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5
4.5
5.5
6.5
7.5
2.0
3.0
4.0 anchura del sepalo
longitud del petalo
12
34
56
7
4.5 5.5 6.5 7.5
0.5
1.5
2.5
1 2 3 4 5 6 7
anchura del petalo
![Page 23: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/23.jpg)
Lirios: grafico de estrellas
AS
LS
AP
LP
![Page 24: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/24.jpg)
Lirios: matrices de covarianzas y de correlaciones
Longitud.Sepalo Ancho.Sepalo Longitud.Petalo Ancho.Petalo
Longitud.Sepalo 0.68569351 -0.04243400 1.2743154 0.5162707
Ancho.Sepalo -0.04243400 0.18997942 -0.3296564 -0.1216394
Longitud.Petalo 1.27431544 -0.32965638 3.1162779 1.2956094
Ancho.Petalo 0.51627069 -0.12163937 1.2956094 0.5810063
Longitud.Sepalo Ancho.Sepalo Longitud.Petalo Ancho.Petalo
Longitud.Sepalo 1.0000000 -0.1175698 0.8717538 0.8179411
Ancho.Sepalo -0.1175698 1.0000000 -0.4284401 -0.3661259
Longitud.Petalo 0.8717538 -0.4284401 1.0000000 0.9628654
Ancho.Petalo 0.8179411 -0.3661259 0.9628654 1.0000000
![Page 25: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/25.jpg)
Futbol: Matriz de diagramas de dispersion
G
10 15 20
●
●●
●● ●
●●●
●
●●●●●
●
●●●
●
●
●●
●●●
●● ●
●
●●
●●●●
●●●
●
35 45 55 65
510
1520
25●
●●
●●●
●● ●
●
●●
●● ●●
● ●●
●
1015
20
●
●●
●
●
●
●
●●
●●
●●●●
●
●●
●
●
P
●
●●
●
●
●
●
●●
●●
●●●
●
●
●●●
●
●
●●
●
●
●
●
●●
● ●
● ●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●●●●
●
●●●●
●
●
●
●
●
●
●●
●
●●
●●
●●
●
●●● ●
GF
4050
6070
80●
●
●
●
●
●
●●
●
● ●
●●●
●
●
● ●● ●
5 10 15 20 25
3545
5565
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
40 50 60 70 80
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
GC
![Page 26: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/26.jpg)
Futbol: Graficos de estrellas
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
17 18 19 20
G
P
GF
GC
![Page 27: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/27.jpg)
Futbol: Medidas descriptivas numericas
Estadísticos descriptivos
13,750 5,3986 2013,750 4,4824 2046,800 12,1508 2046,800 9,7581 20
GPGFGC
MediaDesviación
típica N
Correlaciones
1 -,812 ,839 -,793. ,000 ,000 ,000
20 20 20 20-,812 1 -,776 ,878,000 . ,000 ,000
20 20 20 20,839 -,776 1 -,577,000 ,000 . ,008
20 20 20 20-,793 ,878 -,577 1,000 ,000 ,008 .
20 20 20 20
Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)N
G
P
GF
GC
G P GF GC
Página 1
![Page 28: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/28.jpg)
Lirios: distancias de Mahalanobis
Distancias de Mahalanobis
Frec
uenc
ias
0 2 4 6 8 10 12 14
0.00
0.10
0.20
0 2 4 6 8 10 12
![Page 29: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/29.jpg)
Normal univariante: densidad
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
x
y2
¿Cual de las tres corresponde a la normal estandar?
![Page 30: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/30.jpg)
Normal multivariante: densidad
−2
−1
0
1
2
−2
−1
0
1
20
1
2
3
4
5
6
![Page 31: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/31.jpg)
Densidad de la normal multivariante
µ = (0, 0)′ y Σ =
(1 00 1
)
−2
−1
0
1
2
−2
−1
0
1
20
1
2
3
4
5
6
7
![Page 32: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/32.jpg)
µ = (0, 0)′ y Σ =
(1 0.8
0.8 1
)
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−2
−1
0
1
20
0.5
1
1.5
2
2.5
3
3.5
4
![Page 33: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/33.jpg)
µ = (0, 0)′ y Σ =
(1 −0.8−0.8 1
)
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−2
−1
0
1
20
0.5
1
1.5
2
2.5
3
3.5
4
![Page 34: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/34.jpg)
Ejemplos de datos normales bidimensionales
−5 0 5
−6
−2
02
4
−4 −2 0 2 4
−4
−2
02
4
−4 −2 0 2 4
−3
−1
01
23
−2 −1 0 1 2
−2
−1
01
Σ =
(1 00 1
)Σ =
(1 0.7
0.7 1
)Σ =
(10 00 1
)Σ =
(5 00 1
)
![Page 35: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/35.jpg)
Distancias de Mahalanobis para datos normales
−2 −1 0 1 2
−2−1
01
0 2 4 6 8
0.00
0.10
0.20
0.30
−2 −1 0 1 2
−3−1
01
23
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
![Page 36: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/36.jpg)
Distancias de Mahalanobis para datos normales
Estadısticos descriptivos para D2i en el segundo ejemplo:
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.007255 0.565100 1.314000 1.980000 2.710000 9.735000
Desviacion tipica: 1.920563
Comparacion con la densidad χ2:
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
![Page 37: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/37.jpg)
Futbol: distancias de Mahalanobis
Hist. MahalanobisFr
eque
ncy
0 2 4 6 8 10 12
02
46
0 2 4 6 8 10
Cajas Mahalanobis
![Page 38: Tema 1 Análisis exploratorio de datos multivariantes](https://reader034.fdocuments.mx/reader034/viewer/2022051008/588da5af1a28abee208ba7a0/html5/thumbnails/38.jpg)
I La forma del histograma coincide con lo que se espera bajonormalidad (distribucion χ2)
I La distancia de Mahalanobis media es 3.8 y la varianza de lasdistancias es 9.03
I La mayor distancia es 10.90 y corresponde al Celta.
I La menor distancia es 0.22 y corresponde al Deportivo