Dr. Francisco J. Mata 2
Objetivos
Presentar la importancia de la exploración de los datos
Discutir la necesidad de preparar los datos
Dr. Francisco J. Mata 3
Explorar
Obtener estadísticas básicas Valores extremos Valores perdidos
Distribuciones Histogramas
Comparar valores con descripciones ¿Aparecen todos los códigos para una variable categórica? ¿Distribución de valores es esperada para variables
categóricas? ¿Valores mínimos y máximos para una variable son
razonables?Relaciones entre variables
Dr. Francisco J. Mata 4
Explorar
Haga lista de asuntos sorprendentes o que no estén claros
Pregunte al proveedor de los datos
Explorar
ObservarNúmero de registros (observaciones)Número de variables (columnas)
Dr. Francisco J. Mata 5
Dr. Francisco J. Mata 10
Estadísticas descriptivas para variables continuas
Variable Label Mean Std Dev Range x1 age 38.582 13.640 73.000 x5 education-num 10.081 2.573 15.000 x11 capital-gain 1077.650 7385.290 99999.000 x12 capital-loss 87.304 402.960 4356.000 x13 hour-per-week 40.437 12.347 98.000
Minería de datosDr. Francisco J. Mata
11
Age
AGE
88.0084.00
80.0076.00
72.0068.00
64.0060.00
56.0052.00
48.0044.00
40.0036.00
32.0028.00
24.0020.00
Missing
Co
un
t1000
800
600
400
200
0
Minería de datosDr. Francisco J. Mata
12
Education-number
EDUCN
16.00
15.00
14.00
13.00
12.00
11.00
10.00
9.00
8.00
7.00
6.00
5.00
4.00
3.00
2.00
1.00
Missing
Co
un
t
12000
10000
8000
6000
4000
2000
0
Minería de datosDr. Francisco J. Mata
13
Gain
GAIN
25124.00
15020.00
10566.00
7896.00
6767.00
6097.00
5013.00
4650.00
3942.00
3471.00
3325.00
2964.00
2653.00
2414.00
2290.00
2062.00
1797.00
1409.00
991.00
Missing
Co
un
t40000
30000
20000
10000
0
Minería de datosDr. Francisco J. Mata
14
Loss
LOSS
3770.00
2603.00
2467.00
2377.00
2258.00
2205.00
2149.00
2042.00
1974.00
1848.00
1755.00
1721.00
1651.00
1594.00
1539.00
1380.00
974.00
419.00
Missing
Co
un
t40000
30000
20000
10000
0
Minería de datosDr. Francisco J. Mata
15
Hours
HOURS
95.0089.00
84.0077.00
72.0065.00
60.0055.00
50.0045.00
40.0035.00
30.0025.00
20.0015.00
10.005.00
Missing
Co
un
t20000
10000
0
Dr. Francisco J. Mata 16
Estadísticas Descriptivas para Variables Discretas
Workclass Cumulative Cumulative x2 Frequency Percent Frequency Percent
Federal-gov 960 3.12 960 3.12 Local-gov 2093 6.81 3053 9.94 Never-worked 7 0.02 3060 9.96 Private 22696 73.87 25756 83.83 Self-emp-inc 1116 3.63 26872 87.46 Self-emp-not-inc 2541 8.27 29413 95.73 State-gov 1298 4.22 30711 99.95 Without-pay 14 0.05 30725 100.00
Frequency Missing = 1836 Chi-Square 107220.7383 DF 7 Pr > ChiSq <.0001
Dr. Francisco J. Mata
17
Estadísticas Descriptivas para Variables Discretas
Education Cumulative Cumulative x4 Frequency Percent Frequency Percent
10th 933 2.87 933 2.87 11th 1175 3.61 2108 6.47 12th 433 1.33 2541 7.80 1st-4th 168 0.52 2709 8.32 5th-6th 333 1.02 3042 9.34 7th-8th 646 1.98 3688 11.33 9th 514 1.58 4202 12.91 Assoc-acdm 1067 3.28 5269 16.18 Assoc-voc 1382 4.24 6651 20.43 Bachelors 5355 16.45 12006 36.87 Doctorate 413 1.27 12419 38.14 HS-grad 10501 32.25 22920 70.39 Masters 1723 5.29 24643 75.68 Preschool 51 0.16 24694 75.84 Prof-school 576 1.77 25270 77.61 Some-college 7291 22.39 32561 100.00
Chi-Square 66643.3355 DF 15 Pr > ChiSq <.0001
Dr. Francisco J. Mata 20
Estadísticas Descriptivas para Variables Discretas
Race
Cumulative Cumulative x9 Frequency Percent Frequency Percent
Amer-Indian-Eskimo 311 0.96 311 0.96 Asian-Pac-Islander 1039 3.19 1350 4.15 Black 3124 9.59 4474 13.74 Other 271 0.83 4745 14.57 White 27816 85.43 32561 100.00
Chi-Square 87941.8892 DF 4 Pr > ChiSq <.0001
Dr. Francisco J. Mata 21
Estadísticas Descriptivas para Variables Discretas
Sex
Cumulative Cumulative x10 Frequency Percent Frequency Percent
Female 10771 33.08 10771 33.08 Male 21790 66.92 32561 100.00
Chi-Square 3728.9506 DF 1 Pr > ChiSq <.0001
Dr. Francisco J. Mata 22
Estadísticas Descriptivas para Variables Discretas
Native-country Cumulative Cumulative
x14 Frequency Percent Frequency Percent Cambodia 19 0.06 19 0.06 Canada 121 0.38 140 0.44 China 75 0.23 215 0.67 Columbia 59 0.18 274 0.86 Cuba 95 0.30 369 1.15 Dominican-Republic 70 0.22 439 1.37 Ecuador 28 0.09 467 1.46 El-Salvador 106 0.33 573 1.79 England 90 0.28 663 2.07 France 29 0.09 692 2.16 Germany 137 0.43 829 2.59 Greece 29 0.09 858 2.68 Guatemala 64 0.20 922 2.88 Haiti 44 0.14 966 3.02 Holand-Netherlands 1 0.00 967 3.02 Honduras 13 0.04 980 3.06
Dr. Francisco J. Mata23
Estadísticas Descriptivas para Variables Discretas
Native-country Cumulative Cumulative
x14 Frequency Percent Frequency Percent Hong 20 0.06 1000 3.13 Hungary 13 0.04 1013 3.17 India 100 0.31 1113 3.48 Iran 43 0.13 1156 3.61 Ireland 24 0.08 1180 3.69 Italy 73 0.23 1253 3.92 Jamaica 81 0.25 1334 4.17 Japan 62 0.19 1396 4.37 Laos 18 0.06 1414 4.42 Mexico 643 2.01 2057 6.43 Nicaragua 34 0.11 2091 6.54 Outlying-US(Guam-USVI-etc) 14 0.04 2105 6.58 Peru 31 0.10 2136 6.68 Philippines 198 0.62 2334 7.30 Poland 60 0.19 2394 7.49 Portugal 37 0.12 2431 7.60 Puerto-Rico 114 0.36 2545 7.96 Scotland 12 0.04 2557 8.00
Dr. Francisco J. Mata 24
Estadísticas Descriptivas para Variables Discretas
Native-country
Cumulative Cumulative x14 Frequency Percent Frequency Percent Scotland 12 0.04 2557 8.00 South 80 0.25 2637 8.25 Taiwan 51 0.16 2688 8.41 Thailand 18 0.06 2706 8.46 Trinadad&Tobago 19 0.06 2725 8.52 United-States 29170 91.22 31895 99.74 Vietnam 67 0.21 31962 99.95 Yugoslavia 16 0.05 31978 100.00 Frequency Missing = 583 Chi-Square 1059744.4599 DF 40 Pr > ChiSq <.0001
Dr. Francisco J. Mata 25
Preparación de datos
Datos pueden serIncompletos: valores para una variable
perdidosRuidosos: contienen errores o valores
extremosInconsistentes: esquemas de codificación
diferentes
Dr. Francisco J. Mata 26
Preparación de datos
ActividadesLimpieza de datosIntegración de datosTransformación de datosReducción de datos
Dr. Francisco J. Mata 27
Limpieza de datos
Dar valores a datos perdidosSuavizar el ruido en los datos
identificando valores extremosCorregir inconsistencias
Dr. Francisco J. Mata 29
Valores perdidos
OpcionesEliminar registros con valores perdidos: puede sesgar la
muestraReemplazar valores perdidos por un valor especial -
999.99: modelos no pueden distinguir este valor de uno perdido
Utilizar la media, mediana o moda: puede cambiar la distribución de los datos
Generar un valor aleatoriamente: puede ser difícil conocer la distribución de los valores particularmente si existe un patrón en los valores perdidos
Dr. Francisco J. Mata 30
Valores perdidos
OpcionesPredecir el valor utilizando árboles de decisión
o redes neuronalesParticionar los registros y construir varios
modelos: posible cuando se puede conocer la causa de la falta de registro de los datos
Utilizar procedimientos que puedan manipular datos perdidos
Dr. Francisco J. Mata 31
Suavizar el ruido en los datos identificando valores extremos
Utilizar las distribuciones de valores para identificar valores extremos
Utilizar técnicas automáticas de detección de grupos (“clustering”)
Utilizar métodos de regresión
Minería de datosDr. Francisco J. Mata
32
Distribuciones para identificar valores extremos
AGE
88.0084.00
80.0076.00
72.0068.00
64.0060.00
56.0052.00
48.0044.00
40.0036.00
32.0028.00
24.0020.00
Missing
Co
un
t1000
800
600
400
200
0
Valor extremo
Dr. Francisco J. Mata 35
Corregir inconsistencias
Inconsistencias pueden existir debido a la forma en que fueron registrados lo datos
CorrecciónErrores de entrada de datos pueden ser
corregidos buscando los registros originalesUso de dependencias funcionales
Dr. Francisco J. Mata 36
Integración de datos
Combinación de datos de múltiples fuentes para crear nuevos registros
Problemas Identificación de entidades
Claves para hacer unionesRedundancia
Valores que pueden ser derivados de otras variables o atributos
• Algunas redundancias se pueden detectar mediante análisis de correlación o tablas de contingencia
Duplicación de registros o tuplesDetección y corrección de conflictos en valores de
datosPesos en kilos y libras
Dr. Francisco J. Mata 39
Transformación de datos
Datos son transformados o consolidados en formas apropiadas para minería de datos
MétodosDiscretizaciónGeneralizaciónNormalizaciónConstrucción de atributos o variables
Dr. Francisco J. Mata 40
Discretización
Tomar un valor continúo y representarlo en valores discretos
Ejemplo: transformar edad enJovenEdad medioAdulto mayor
Dr. Francisco J. Mata41
Generalización
Tomar un valor más detallado y generalizarlo de acuerdo con una jerarquía
País
Provincia o estado
Ciudad
Calle674,339 valores
3,567 valores
365 valores
15 valores
Dr. Francisco J. Mata 42
Normalización
Valores de una variable o atributo se convierten para que caigan en un intervalo pequeño -1.0 a 1.0 0.0 a 1.0
o tengan cierta media y desviación estándard
Dr. Francisco J. Mata 44
Normalización
Normalización min-maxv´ = ((v – minA) / (maxA-minA)) (new_maxA-
new_minA) + new_minA
Ejemplo:Mínimo y máximo para ingreso es $12,000 y
$98,000, respectivamenteSe quiere transformar ingreso al intervalo [0.0,1.0]El valor 73,600 se convierte en
• ((73,600-12,000) / (98,000-12,000)) (1.0-0) + 0 = 0.716
Dr. Francisco J. Mata 45
Normalización
Normalización “z-score”v´ = (v – media_A) / dev_est_AEjemplo:
Media y desviación estándar para ingreso es $54,000 y $16,000, respectivamente
El valor 73,600 se convierte en• (73,600-54,000) / 16,000 = 1.225
Dr. Francisco J. Mata 46
Construcción de atributos
Nuevos atributos son construidos a partir de atributos existentesEjemplo: venta = cantidad * precio
Dr. Francisco J. Mata 47
Reducción de datos
Obtener una representación reducida del conjunto de datos que es mucho más pequeña en volumen pero mantiene la integridad de los datos originales
Dr. Francisco J. Mata 49
Reducción de datos
MuestreoSeleccionar un subconjunto de registros o
tuples pequeño pero representativo de la población
Existen técnicas estadísticas para seleccionar muestras representativas
Dr. Francisco J. Mata 50
Reducción de datos
AgregaciónSumarizar información usualmente sobre
períodos de tiempoEjemplo: sumar las ventas por trimestre para
obtener ventas anuales
Asociado con cubos OLAP
Dr. Francisco J. Mata 51
Reducción de datos
Reducción de dimensiónEliminar atributos o variables irrelevantes o
redundantes o reducir el número de estos mediante rotación de ejes
Técnicas“Decision tree induction”Análisis de componentes principales
Dr. Francisco J. Mata 52
Análisis de componentes principales
Medir tresespecies X1 (S1),X2 (S2) y X3 (S3)en diferentes puntosespaciales
Tomado de http://ordination.okstate.edu/PCA.htm
Dr. Francisco J. Mata 53
Análisis de componentes principales
Se estandarizan los datos:se resta la media y divide pordesviación estándar
Dr. Francisco J. Mata 54
Análisis de componentes principales
Se rotan los ejes ortogonal-mente de acuerdo con los valores principales
Valor Varianza principal explicada
1 1.8907 63%2 0.9951 33%3 0.1142 4%
Total 3.0063 100%
Dr. Francisco J. Mata55
Análisis de componentes principales
Representación del96 % de varianzaen dos dimensiones
Dr. Francisco J. Mata 56
Análisis de componentes principales
Factores de carga
Especie PCA1 PCA2 PCA3
X1-S1 0.9688 0.0664 -0.2387
X2-S2 0.9701 0.0408 0.2391
X3-S3 -0.1045 0.9945 0.0061
Top Related