Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de...

14
Trabajo de Análisis de Datos Alumnos: Alves de Oliveira, Moisés Valladolid, Junio 2013

Transcript of Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de...

Page 1: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

Trabajo de Análisis de Datos

Alumnos: Alves de Oliveira, Moisés

Valladolid, Junio 2013

Page 2: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

Sumario

1. Dados……..…………………………………………………………………………..1

2. Análisis de Componentes principales (ACP)...………...………………….……….…2

3. Valores Propios.....……………..……………………………………………………..2

4. Correlaciones entre las Variables………………………...…………………………...3

5. Visión General………...………………………………………………………………4

6. Interpretación de la ACP…………………………...…………………………………4

7. Proyecciones..………………………………………………………………...……….6

8. Elementos Atípicos……………………………………………………………………7

9. Clasificación…….………………...…………………………………………………..8

10. Informe no Técnico………………………………………………………………...12

10.1 Datos…………………………………………………………………….……12

10.2 Interpretación de las CP……………………………………………………...13

10.3 Grupos………………………………………………………………………..13

Page 3: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

1

1.Dados

O conjunto de dados que acompanha este trabalho são a criminalidade

relacionada com as estatísticas demográficas e de 47 estados dos EUA, em 1960. Os

dados foram coletadas do Relatório Uniform Crime do FBI e outro governo.

M: Porcentual de hombre con edades entre 14-24.

So: Variable indicadora de un estado do Sul.

Ed.: Media de anos de escolaridad.

Po1: Despesas policía en 1960.

Po2: Despesas policía en 1959.

LF: Tasa de actividad.

M.F: Número de himen por 1000 mulleres.

Pop: Populación do Estado.

NW: Número de no blancos por 1000 personas.

U1: Tasa de desempego dos hombre urbanos 14-24.

U2: Tasa de desempego dos himen urbanos 35-39.

PIB-GDP: O producto interno bruto per cápita.

Ineq: Desigualdad de renda.

Prob: Probabilidad de prisión.

Time: Tempo medio servido en prisões estatuáis.

Y: Tasa de crimen en una determinada categoría per cápita da populación.

Page 4: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

2

Tabla 1 : Descripción de los datos.

2.Análisis de Componentes Principales normado

Utilizaremos un ACP para estudiar estos datos. Disponemos de 16 variables

cuantitativas x 47 individuos, con una variable categórica So (Indicadora de un estado do Sul)

con dos niveles. Utilizaremos datos normados porque tenemos variables que tienes escalas de

mediciones diferente de las demás, un ejemplo la variable de Prob (Probabilidad de prisión), que

tienes una escala entre 0 y 1, entonces la varianza entre las variables de estudio se queda muy

distinta, y para una mejor interpretación, nos ponemos a normalizar todas las variables.

El objetivo consiste en definir índices de delitos del país, y a través de las variables destacadas

ver se la administración gubernamentales pode actual de alguna forma para solucionar el

problema de estos estados. Vamos tratar los datos sin distinción de región, y emplearemos esta

variable So únicamente como ilustrativa.

3.Valores propios

Tabla 2 : A presentación de los ejes

El primer eje factorial recoge 37,77% de la información y el primer plano, el 56,49. Con el

tercer eje alcanzaríamos el 79.02%.

Los dos primer ejes recogen más inercia que si hubieran sido elegido al a caso sin

ninguno otro criterio. Pues no obstante, y tampoco será demasiado complicado manejar

información del tercer factor. E si pode nos resultar una interpretación más aceptable.

Page 5: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

3

Figura – 1: Representación dos Valores Propios

Tomamos a elección del ejes de acuerdo con la porcentaje que nos tragan de

información e según el criterio dos valores propios, entonces fue decidido una elección que no

nos trazan demasiadas complicaciones y los ejes de valores propios más altos, el criterio de los

valores propios nos indica que el factor que tienes un valor mayor que uno son aceptables para

elección del eje, más para no tenernos muchas complicaciones elegimos tres ejes que nos tras

próximo a 80% de información.

4. Correlaciones entre las variables

Tabla 3 : Correlación de las variables

Tenemos correlaciones positivas y negativas entre las 15 variables. En destaque la más

alta aparece entre Po1-Po2(0,99), GDP-Po1(0,79) y GDP-Po2(0,79), para las correlaciones

positivas, y siendo que las variables Po1 y Po2 son muy correladas, entonces otra variable que é

correlada con Po1 también será con Po2, siendo o que acontece con a variable GDP.

0

1

2

3

4

5

6

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Val

or

Pro

pio

VALOR PROPIO

Page 6: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

4

5.Visión general

Visualizamos toda esta estructura de correlaciones de una manera general y más

rápidamente mediante un gráfico de puntos variable en el plano 1-2 que se obtiene en un ACP

Normado, pues las correlaciones entre variables normadas son las mismas que entre las

variables originales.

Figura -2: Representación de las correlaciones entre las variables con datos normados.

Page 7: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

5

6. Interpretación de las CP (componentes principales)

Tabla 4: Descripción de las CP

Primer eje:

-0.30M + 0.33Ed + 0.36Po1 + 0.36Po2 + 0,16LF + 10M.F + 0.15Pop – 0.26NW +

0.03U1 + 0.04U2 +0.40GDP – 0.36Ineq -0.27Prob – 0.0Time + 0.23y

_____________________________Eje1_____________________________________

M

NW

Ineq

Prob

Ed

Po1

Pol2

GDP

La primera CP está altamente correlada con las variables Ed(0,79), Po1(0,85), Po2(0,85)

y GDP(0,96), y inversamente corelada con las variables M(-0,71), NW(-0,62),

Ineq(-0,86) y Prob(-0,65).

Los estado que gastan con más seguridad e presenta una renda mayor y que las

persona tienes una escolaridad mejor, están con índices de crimen menor, y acontece el

contrario con los estados que tienes un número de personas no blancos, desigualdad de

renda, porcentaje de hombre con edad entre 14-24 años y con una probabilidad de

prisión mayor.

Segundo eje:

0.02M - 0.27Ed + 0.22Po1 + 0.21Po2 - 0,32LF - 39M.F + 0.44Pop + 0.29NW –

0.03U1 + 0.27U2 +0.0GDP + 0.36Ineq -0.27Prob – 0.0Time + 0.23y

_______________________________Eje2___________________________________

Ed

LF

MF

Pop

NW

U2

Time

Page 8: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

6

La según CP las variables tienes una correlación más baja, tanto las

correlaciones positivas cuanto las negativas, Pop(0,74), NW(0,49), U2(0,45) y

Time(0,66), y inversamente corelada con las variables Ed(-0,46), LF(-0,62) y MF(-

0,65).

Los estados que tienes una mayor populación, números de personas no blancas,

con una tasa de desempleo dos hombres urbanos 35-39 años y un tiempo medio servido

en prisiones estaduales, los mismo toman valores bajos en media de años de

escolaridad, tasa de actividad y numero de hombre por 1000 mulleres.

Tercer eje:

0.21M + 0.07Ed + 0.04Po1 + 0.04Po2 + 0,29LF – 0.16M.F + 0.05Pop + 0.10NW –

0.65U1 - 0.58U2 - 0.01GDP + 0.03Ineq - 0.10Prob + 0.20Time + 0.10y

________________________________Ej3__________________________________ U1

U2

M

LF

Time

En la tercer CP, tenemos los valore dos variables que toman valores muy altos

negativamente siendo las variables U1 y U2 con valores (-0,93) y (-0,82)

respectivamente, cuanto las variables que tienes correlaciones positivas no toman valore

muy altos, M(0,29), LF(0,41) y Time(0,29),observando que los estado que puntúan alto

en esas variables de correlaciones positivas, puntúan bajo en las variables con

correlaciones negativa, ou sea, estados que tienes un mayor porcentual de hombres con

edad entre 14-24 años, tasa de actividad y tiempo de medio servido en prisiones

estaduales, toman menores valores de tasa de desempleo de hombres de edad 14-24 y

35-39.

7.Proyecciones

Figura -2: Proyecciones de los individuos atípicos eje 1-2.

Page 9: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

7

Figura -3: Proyecciones de individuos atípicos eje 1-3.

Con una análisis grafica de las Figuras 2 y 3, vemos que lo puntos llenan de forma

bastante dispersas en todo el rango de medidas y no aparecen grupos nítidamente aislados.La

calidad de la representación en los planos 1-2 y 1-3 es alta para la gran mayoría.

La variable categórica en esto datos es la variable So (indicadora del estado del Sul,

si=1 y no=0), vemos que los pontos de representación de los datos están muy dispersos,

entonces para identificar los estados que son del Sul do país, pintamos los mismos con las

colores verde para os que son, y azul para los estados que no son do Sul del país. Así siendo

podemos ver que pode ser formado dos grupos, un con estados que son do Sul e otro con

estados que no so del Sul.

Los estados del Sul están a izquierda de Figura 2 y e tienes una mejor puntuación no eje

2 do que en lo eje 1, pues los puntos son mas ajuntados en la parte positiva del grafico, y las

correlaciones das variables M, NW, Ineq y Prob, están apuntando para ellas, o sea, los estado

del Sul do país la desigualdad de renda, o numero de no blancos, probabilidad de prisión y la

porcentaje de hombres con edad entre 14-41 son mas predominante en esta región del

país.Vemos en la Figura 3, los estados representados no eje 3, son mas dispersos, no tiendo

una, así también con los estados que no son del Sul, pues la representación de los puntos están

muy dispersos para lo eje 1 y eje 2.

Como presumimos los estados que no son del Sul do país que son presentados en la

derecha del grafico 2 y 3 las representación de ellos están muy disperso, no vemos alguna nube

de puntos muy acerca un do otro. También vemos las correlaciones de las variables Po1, Po2,

Pop y GDP están apuntando para los estados que nos son del Sul, o sea, los estado que no son

del Sul tienes una mejor seguridad, una mayor renda, una tasa de escolaridad mejor y una

populación mayor.

Podemos ver que las variables U1, U2 y Time, son inversamente correladas, e atreves

de los Gráficos 3 vemos más claro estas variables son incorrelados con las demás, o sea, no

presenta valores distintos para estados del Sul e estados que no son del Sul.

Page 10: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

8

8. Elementos atípicos

Tabla 5: Valores presentados discrepantes de los datos.

individuo 04 22 26 29 37 45

dist02 35,33 37,83 39,91 39,17 30,68 26,01

Figura – 4: Representación de los datos con valores discrepantes marcados.

En la Figura 4 vemos la representación de los datos general, y marcados los

valores que se distancian de la nube, pues a principio hemos hecho una análisis con los

datos general con software Sas, para detectar puntos atípicos en la análisis, por suerte ha

sido encontrado solo un punto que se consideraba atípico, mas no fue retirado del banco

de dato, porque no influencia no resultado de esta análisis, y el puntos destacados,

tampoco es atípico pues, la nube general es un poco dispersas e estos puntos solo está

un poco alejados, mas no de forma que sea significativa la tu distancia para dar

diferencia en lo resultado.

Por lo tanto, los estados que tienes una mejor escolaridad, mas investimento en

la seguridad, mas populación y una mayor renda, se diferencia con los estados que

tienes una desigualdad de renda, probabilidad de prisión y porcentual de hombres con

edad entre 14-24 años, en relación al los número de delitos criminales.

9. Clasificación

Para una mejor comprensión de los datos que temus, técnicas para analízalos en

grupos, la técnica presentada aquí, llamamos de análisis de Cluster, como notros datos

contiene una variable que categórica que indica los estado que son do Sul o no, vamos

de principio decidir en trabajar con solo dos grupos, siendo elles d estados que son do

Sul y otro que no son.

Page 11: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

9

Tabla -6: Descripción del Grupo 1/2.

Vemos que este grupo las variables que están con un p-valore no significativos,

no fueran usado para construir el grupo analizado, y tenemos que las variables con T-

valores positivos son inversamente correladas con las variables que toman valor do T-

valor negativo. Siendo estas variables que toman el T-valores positivos, son las

variables que puntúan alto en los estados del Sul.

Tabla -7: Descripción del Grupo 1/2

En segundo grupo que son los estados que no son del Sul, tenemos que los

valores son justamente el contrario de la Tabla 6, por supuesto las variables son

incorreladas, e aquellas que no tienen los p-valores significativos son las mismas de la

Tabla 6, que no incorporan en la formación del grupo, y os T-valores positivos son de

las variables que puntúan alto para estado que no son del Sul.

Page 12: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

10

Figura – 5: Representación de los dos grupos (Cluster).

Como de principio hemos decididos trabajar solo con dos grupos, conforme el

Grafico 5, siendo un grupo con estado del Sul (verde) y estados que no son del Sul

(azul), e amarillo los grupos formados, entonces vemos que las variables destacadas en

las Tablas 6 y 7 con p-valores no significativos para formación del grupos

correspondientes, vemos que son la variables muy incorreladas con las demás, y las

variables que obtendrán T-valores positivos en la Tabla 6 y 7, sus vectores propios

siguen los respectivos grupos.

Figura – 6: Dendograma de los dos grupos (Cluster).

Para visualizar el agrupamiento de individuos en sus respectivos grupos, hemos

hecho un Dendograma con una clasificación Hireraquica. Vemos que en los grupos, el

grupo de estado que son del Sul, toman 26% de las observaciones, en cuanto el grupo de

estados que no son del Sul, toman 74%, vemos la formación de los grupos no presenta

ninguno comportamiento distinto, como afeito “bola de nieve “, así el Grafico esta con

una representación buena de los grupos formados.

Por lo tanto, los estados del Sul presenta una fragilidad en relación números de

Crimen, y o aumento de Seguridad, investimento en la escolaridad que son variables

que puntúan alto en los estados que no son del Sul, podría ser una boa solución para el

gobernó tomar como con estos estados, para que disminuya el índices de criminalidad,

así como otros factores observados.

Page 13: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

11

10. Informe no Técnico

10.1 Descrición de los Dados

O conjunto de dados que acompanha este trabalho são a criminalidade

relacionada com as estatísticas demográficas e de 47 estados dos EUA, em 1960. Os

dados foram coletadas do Relatório Uniform Crime do FBI e outro governo

correspodente a seguridad.

M: Porcentual de hombre con edades entre 14-24.

So: Variable indicadora de un estado do Sul.

Ed.: Media de anos de escolaridad.

Po1: Despesas policía en 1960.

Po2: Despesas policía en 1959.

LF: Tasa de actividad.

M.F: Número de himen por 1000 mulleres.

Pop: Populación do Estado.

NW: Número de no blancos por 1000 personas.

U1: Tasa de desempego dos hombre urbanos 14-24.

U2: Tasa de desempego dos himen urbanos 35-39.

PIB-GDP: O producto interno bruto per cápita.

Ineq: Desigualdad de renda.

Prob: Probabilidad de prisión.

Time: Tempo medio servido en prisões estatuáis.

Y: Tasa de crimen en una determinada categoría per cápita da populación.

El objetivo consiste en definir índices de delitos del país, y a través de las variables

destacadas ver se la administración gubernamentales pode actual de alguna forma para

solucionar el problema de estos estados. Vamos tratar los datos sin distinción de región, y

emplearemos esta variable So únicamente como ilustrativa.

Tabla 1 : Descripción de los datos.

Page 14: Trabajo de Análisis de Datosvalentin/ad3g/2013/TFA/Moises... · Figura – 4: Representación de los datos con valores discrepantes marcados. En la Figura 4 vemos la representación

12

Los dos primer ejes recogen más inercia que si hubieran sido elegido al a caso sin

ninguno otro criterio. Pues no obstante, y tampoco será demasiado complicado manejar

información del tercer factor. E si pode nos resultar una interpretación más aceptable.

10.2 Interpretación de las CP (componentes principales)

Conforme el primer eje los estado que gastan con más seguridad e presenta una

renda mayor y que las persona tienes una escolaridad mejor, están con índices de crimen

menor, y acontece el contrario con los estados que tienes un número de personas no

blancos, desigualdad de renda, porcentaje de hombre con edad entre 14-24 años y con

una probabilidad de prisión mayor.

Tenemos en lo según eje que en los estados que tienes una mayor populación,

números de personas no blancas, con una tasa de desempleo dos hombres urbanos 35-39

años y un tiempo medio servido en prisiones estaduales, los mismo toman valores bajos

en media de años de escolaridad, tasa de actividad y numero de hombre por 1000

mulleres. Y en tercer eje los estados que tienes un mayor porcentual de hombres con

edad entre 14-24 años, tasa de actividad y tiempo de medio servido en prisiones

estaduales, toman menores valores de tasa de desempleo de hombres de edad 14-24 y

35-39.

10.3 Grupos

Vemos que en los grupos, el grupo de estado que no son del Sul, toman 26% de

las observaciones, en cuanto el grupo de estados que no son del Sul, toman 74%, vemos

la formación de los grupos no presenta ninguno comportamiento distinto, como afeito

“bola de nieve “, así el Grafico esta con una representación buena de los grupos

formados.

Por lo tanto, los estados del Sul presenta una fragilidad en relación números de

Crimen, y o aumento de Seguridad, investimento en la escolaridad que son variables

que puntúan alto en los estados que no son del Sul, podría ser una boa solución para el

gobernó tomar como con estos estados, para que disminuya el índices de criminalidad,

así como otros factores observados.