ANÁLISIS EXPLORATORIO DE DATOS_3.doc

16
ANÁLISIS EXPLORATORIO DE DATOS Ana Lucia Moreno Cortéz y Francisco J. P. Zimmermann Ingenieros, investigadores, administradores, entre otros profesionales, frecuentemente trabajan con datos obtenidos en procesos productivos, en control de calidad, en ventas, en bodegas y en muchas otras situaciones. La recolección de las medidas de todos los elementos de un universo de productos, procesos o servicios es llamada de población, sobre la cual se desea obtener conclusiones o tomar decisiones. Los valores de una población pueden ser una medición numérica, como por ejemplo, 25,4mm o 25,8mm al referirse al diámetro de un tornillo y entonces estos datos se denominan variables o datos numéricos. Por otro lado, pueden referirse a ciertas tipos de calidades o requisitos y entonces la población es constituida de datos de atributo. En la mayoría de los casos los datos disponibles son apenas parte de una población de información y que llamamos de muestra de la población. En la grade mayoría de los casos el volumen de datos disponible es de una magnitud tal que puede tornar imposible sacar informaciones útiles a partir de una simple inspección de estos datos. Hay entonces la necesidad de utilización de herramientas que permitan hacer un resumen de toda la información contenida en esta colección de datos además de permitir una mejor visualización de ellos. Estas herramientas pueden ser divididas en dos grupos: estudios numéricos o estadísticos y elaboración de gráficos, siendo que en estos últimos hay posibilidad de unión con las informaciones estadísticas. 1. ESTUDIOS NUMÉRICOS O ESTADÍSTICOS Para la representación numérica de la información contenida en los datos las estadísticas empleadas son aquellas de posición, localización o de tendencia central y aquellas de variabilidad o de dispersión de los valores que serán estudiados a seguir. Primero representamos cada medida por x i , de forma que la colección de n valores es dada por x 1 , x 2 ,…, x n . 1.1 Medidas de posición. Forma de cálculo e interpretación. 1

Transcript of ANÁLISIS EXPLORATORIO DE DATOS_3.doc

ANLISIS EXPLORATORIA DE DADOS

ANLISIS EXPLORATORIO DE DATOSAna Lucia Moreno Cortz y Francisco J. P. Zimmermann

Ingenieros, investigadores, administradores, entre otros profesionales, frecuentemente trabajan con datos obtenidos en procesos productivos, en control de calidad, en ventas, en bodegas y en muchas otras situaciones. La recoleccin de las medidas de todos los elementos de un universo de productos, procesos o servicios es llamada de poblacin, sobre la cual se desea obtener conclusiones o tomar decisiones. Los valores de una poblacin pueden ser una medicin numrica, como por ejemplo, 25,4mm o 25,8mm al referirse al dimetro de un tornillo y entonces estos datos se denominan variables o datos numricos. Por otro lado, pueden referirse a ciertas tipos de calidades o requisitos y entonces la poblacin es constituida de datos de atributo.

En la mayora de los casos los datos disponibles son apenas parte de una poblacin de informacin y que llamamos de muestra de la poblacin. En la grade mayora de los casos el volumen de datos disponible es de una magnitud tal que puede tornar imposible sacar informaciones tiles a partir de una simple inspeccin de estos datos. Hay entonces la necesidad de utilizacin de herramientas que permitan hacer un resumen de toda la informacin contenida en esta coleccin de datos adems de permitir una mejor visualizacin de ellos. Estas herramientas pueden ser divididas en dos grupos: estudios numricos o estadsticos y elaboracin de grficos, siendo que en estos ltimos hay posibilidad de unin con las informaciones estadsticas.1. ESTUDIOS NUMRICOS O ESTADSTICOSPara la representacin numrica de la informacin contenida en los datos las estadsticas empleadas son aquellas de posicin, localizacin o de tendencia central y aquellas de variabilidad o de dispersin de los valores que sern estudiados a seguir. Primero representamos cada medida por xi, de forma que la coleccin de n valores es dada por x1, x2,, xn.1.1 Medidas de posicin. Forma de clculo e interpretacin.Varios mtodos pueden ser usados para describir el centro de un conjunto de datos, o sea su localizacin.

1.1.1 Media.Si las mediciones de una muestra compuesta por n elementos son x1, x2,, xn, definimos la media muestral como

El valor de la media muestral es ms preciso que la precisin asociada a cada observacin individual lo que sugiere que su valor numrico tenga un digito ms que los utilizados en cada medida.

Es posible tambin pensar en media poblacional, que es entonces representada por la letra griega (mu). Si la poblacin es finita, con por ejemplo N individuos o elementos, la media poblacional es

1.1.2 Moda.La moda de un conjunto de datos es definida como aquello valor con mayor frecuencia. Si dos valores presentan el mismo nmero de observaciones y ningn otro presenta frecuencia mayor entonces se dice que los datos son bimodales.1.1.3 Mediana. La tercera medida de localizacin o de tendencia central es la mediana, representada por . Representa el punto donde la muestra, ordenada, se divide en dos partes iguales. La muestra ordenada en orden creciente de valores es representada por x(1), x(2),, x(n) donde x(1) es la observacin ms pequea, x(2) la segunda medida ms pequea, , y x(n) denota la observacin ms grande. Entonces, definimos la mediana como la [(n+1)/2]-sima observacin si n es impar, o el promedio entre la (n/2)-sima y la [(n/2)+1]-sima observaciones si n es par, o sea

De estas tres medidas de posicin es posible afirmar que la media es la medida de menor varianza, pero es afectada por valores extremos presentes en la muestra, en cuanto la mediana, a pesar de tener una mayor varianza que la media es ms estable y no es afectada por los valores extremos. Si los datos son simtricos, entonces la media y la mediana son coincidentes. Adems, si los datos tienen solo una moda, por lo tanto, unimodales, la media, la mediana y la moda coinciden. 1.1.4 Cuantiles.Vimos arriba la mediana, estadstica que representa el punto central, o el 50% de la distribucin de los datos en una muestra o poblacin. As como ella otros puntos de localizacin que representan puntos cuantitativos importantes pueden ser considerados, cuartiles, deciles y percentiles, que sern estudiados a seguir.1.1.4.1 Cuartiles

Con los cuartiles representamos los puntos que dividen la serie de valores en cuatro partes iguales, o sea, cuartil 1 o 25%, cuartil 2 o 50% (mediana) y cuartil 3 o 75%. El cuartil 2, la mediana, divide el conjunto de datos en 2 partes conteniendo cada una el 50% de los valores como se vio en 1.1.3. Los cuartiles 1 y 3 pueden ser considerados como las medianas del 50% inferior y del 50% superior de los dados y as deben ser calculados.1.1.4.2 Deciles

Los deciles dividen el conjunto de valores de la muestra en 10 partes iguales, y son designados como decil 1, decil 2, hasta decil 9, que representan los 10%, 20% y as sucesivamente hasta 90%.

1.1.4.3 Percentiles.

Los percentiles por su vez dividen el conjunto de datos en 100 partes iguales, siendo considerados los ms importantes los percentiles 1, 5, 10, 25, 50, 75, 90, 95 y 99 que representan los valore correspondientes a 1%, 5%, 10%, etc.

1.1.4.4 Otros

Otros valores que cuantifican una muestra y que sirven tambin como medidas de posicin son los valores mnimo y mximo que, lgicamente, representan los valores ms pequeo y ms grande de la serie de datos. Algunas veces ellos son tambin llamados de cuartil o y cuartil 4, o de decl 0 y decl 10, as como de percentil 0 y percentil 100.

1.2 Medidas de dispersin. Forma de clculo e interpretacinLas medidas de dispersin representan la variabilidad de los valores en una muestra o sea, indican como se encuentran concentrados o distribuidos estos valores en relacin a su valor central o media. Las medidas ms importantes se encuentran a seguir.1.2.1 Varianza y desviacin estndar La varianza es definida como la medida de la distancia de los valores de una muestra en relacin a su media. Matemticamente se define la varianza como:

Como en esta formula hay la necesidad de conocerse la media de la muestra, otra manera, mucho ms sencilla de encontrar la varianza es dada por:

En estas dos formulas aparece el divisor n-1, tambin conocido como grados de libertad de la muestra, pues como la suma de las desviaciones de cada valor con respeto a la media deben sumar 0 (cero), basta conocerse n-1 valores de estas desviaciones que la ultima es automticamente determinada.

Como en ambas formulas los valores son siempre tomados al cuadrado la varianza tiene su medida como el cuadrado de la medida original de los dados. As, si se miden los dimetros de tornillos en mm, la varianza estar dada por mm2. Una medida alternativa de dispersin de los dados, y que mantiene la medida original de los dados es la desviacin estndar (s) que es igual a la raz cuadrada de la varianza.

1.2.2 Error tpico

El error tpico, tambin llamado de error estndar de la media (eem), es igual a la raz cuadrada del cociente entre la varianza de la muestra y el nmero de valores existentes en la muestra (n), o sea:

1.2.3 Coeficiente de variacin (CV)El coeficiente de variacin expresa la variacin como una fraccin de la media, y es una medida adimensional. Calculase el CV como:

El coeficiente de variacin es til para compararse la variabilidad de dos o ms conjuntos de datos que difieren considerablemente en magnitud de los datos muestrales. Adems, cuanto ms pequeo el CV ms precisas las mediciones o menor la variabilidad de los datos.1.2.4 Rango y distancia intercuartlica

Rango es la diferencia entre el valor mximo y el valor mnimo de la muestra y representa la amplitud de variacin de los datos, en cuanto la distancia intercuartlica (DI) es la diferencia entre el cuartil 3 y el cuartil 1, y representa la amplitud de datos que contiene el 50% de los valores de la muestra. Valores pequeos para el rango indican pequea dispersin de los datos en cuanto pequeos valores para la distancia intercuartlica indican alta concentracin de los datos alrededor de su centro (media o mediana)1.2.5 AsimetraAsimetra o coeficiente de asimetra (CA) es la estadstica que indica la forma de distribucin de los datos con respeto a la media. Dados igualmente distribuidos a ambos lados de la media tienen alta asimetra y el valor del coeficiente de asimetra es cero o cerca de cero en cuanto series de dados con valores diferentes de cero indican valores ms concentrados a la izquierda de la media con valores del coeficiente de asimetra positiva (asimtricos a derecha) o valores mas concentrados a derecha de la media (asimtricos a izquierda) y por lo tanto con asimetra negativa. La frmula de obtencin de asimetra es:

1.2.6 CurtosisLa curtosis representa el achatamiento o la elevacin de la curva de los datos cuando comparada con una distribucin normal. Curvas muy elevadas presentan curtosis positiva y curvas achatadas curtosis negativa.

1.3 Herramientas y Funciones en ExcelEl software Excel de la compaa Microsoft presenta una serie de funciones matemticas y estadsticas que facilitan a su usuario calcular las estadsticas de posicin y de dispersin. Adems en Herramientas presenta opcin que calcula las estadsticas ms importantes de un conjunto de datos. Existen tambin algunos programas opcionales que pueden ser agregados a Excel por medio de la opcin COMPLEMENTOS, como por ejemplo STAT PLUS. 1.3.1 Funciones

Media promedio(celda inicial:celda final)Moda - moda(celda inicial:celda final). Si el conjunto de datos no presenta moda, Excel retorna la informacin #N/A (moda no existente). Si los datos presentan ms de un valor como moda, Excel retorna el valor correspondiente a menor de las modas.Mediana mediana(celda inicial:celda final)Cuartiles cuartil(celda inicial:celda final;cuartil) el valor de cuartil en la formula es: 0 para el valor mnimo, 1 para el primer cuartil, 2 para el segn cuartil o mediana, 3 para el tercer cuartil y 4 para el valor mximo.

Deciles y percentiles percentil(celda inicial:celda final;k) k es un valor entre 0 y 1, inclusive que representa el percentil. Para obtener los deciles los valores de k son 0; 0,1; 0,2;;1. Aqu tambin 0 y 1 representan los valores mnimo y mximo, respectivamente.Mnimo min(celda inicial:celda final). El mnimo puede ser obtenido con el uso de la funcin cuartil o con la funcin percentil, como visto antes. Mximo max(celda inicial:celda final). As como el mnimo, el valor mximo puede ser estimado con el uso de las funciones cuartil y percentil.

Varianza var(celda inicial:celda final)

Desviacin estndar desvest(celda inicial:celda final)

Asimetra coeficiente.asimetria(celda inicial:celda final)Curtosis curtosis(celda inicial:celda final)Coeficiente de variacin, rango y distancia intercuartlica estas medidas de dispersin no aparecen en funciones de Excel pero pueden ser fcilmente calculadas a partir de las frmulas presentadas con la aplicacin de las funciones descritas anteriormente, o sea, desvest, promedio, max, min y cuartil.CV: desvest(celda inicial:celda final)/promedio(celda inicial:celda final)*100

Rango: max(celda inicial:celda final)-min(celda inicial:celda final)DI: cuartil(celda inicial:celda final;1)-cuartil(celda inicial:celda final;3)1.3.2 Herramientas

En Herramientas de Excel existe la opcin Anlisis de datos y en ella la funcin Estadstica descriptiva con las siguientes informaciones de entrada y salida segn la figura abajo.}Opciones de entrada

Rango de entrada define las celdas inicial y final que contiene los datos

Agrupado por: - marcar columnas o filas segn la disposicin de los datos en la hoja de trabajo

Rtulos en la primera fila marcar la cuadricula si hay rtulo para los datos.

Opciones de salida

Las opciones de salida son:

a) salida de informacin en la misma hoja en que se encuentran los datos, en esto caso marcar la opcin e identificar por lo menos una celda a donde debe empezar la tabla de resultados; b) en una hora nueva (salida estndar) e identificar celda inicial si no se desea salida a partir de la primera celda de la nueva hoja, c) en libro nuevo.

El resumen de estadsticas debe ser siempre marcado, en cuanto las otras tres opciones deben ser marcadas cuando se desea precisin diferente de 95% (indicar la precisin deseada), o cuando se quiere conocer otros valores grandes o pequeos diferentes del mximo o mnimo (indicar que valores se desea).

1.3.3 Herramientas disponibles en StatPlusLa herramienta StatPlus, presente en la barra del men de Excel tiene la opcin univariate statistics y que cuando marcada abre una ventanita como abajo:

Primero, marque la opcin deseada en Show, despus informe si desea los resultados, en la hoja de clculo, en lneas (Rows) o columnas (Columns). Usted ac puede tambin cambiar el titulo de la tabla de resultados en Table title. En Input informe la o las variables que desea analizar indicando su nombre (Use range names) o las celdas adonde se encuentran (Use range referentes); en Output usted puede indicar se desea la salida en la misma hoja, indicando la celda inicial de salida, o en nueva hoja o en nuevo libro de trabajo adems de indicar si desea la salida dinmica (valores de salida cambian al cambiar cualquier valor de la serie de datos) o esttica. Si los datos pueden o deben ser agrupados para alguna variable de calificacin indique esto en BY.

Aqu (Summary) se indican si se desean todas las estadsticas de resumen o apenas unas pocas seleccionadas (marcar la opcin deseada).

En esta pantalla es posible seleccionar todas o algunas de las estadsticas de variabilidad. De la misma forma como en las pantallas anteriores en las dos que se siguen el usuario puede definir sus opciones de estadsticas de distribucin (algunos percentiles o deciles y los cuartiles) en Distribution o las pruebas de hiptesis para la media o mediana en Analysis.

1.4 Herramientas y Funciones en SPSS2. GRFICOS Y DIAGRAMASLa representacin de los datos de una muestra en grficos o diagramas permite una visualizacin rpida y eficiente de la informacin en ellos contenida. Tres tipos de grficos o diagramas deben ser considerados: histograma, tallos y hojas y caja y bigotes. El primero y el segundo tipos son usados para mostrar las frecuencias de valores, pero que presentan reglas distintas de construccin, en cuanto el tercer, caja y bigotes, hecho en asociacin con el diagrama de tallos y hojas, para su construccin requiere informacin de algunas medidas de posicin y dispersin, como veremos a seguir.

2.1 Histograma

El histograma es un grfico de barras, horizontales o verticales, que representan la frecuencia, frecuencia acumulada, frecuencia relativa o frecuencia relativa acumulada correspondientes a los valores existentes en una muestra.

Si los datos son del tipo discreto, conteos o notas de valor entero, tambin llamados de valores indicativos, o si se tratan de variables cualitativas, las barras son definidas por cada un dos valores, si no son en nmero demasiado. Si el nmero de clases es demasiado alto, que conlleve a un grafico con nmero excesivo de barras, los valores pueden ser agrupados en clases de valores. Para esto tipo de datos el nmero mnimo de barras puede ser tan pequeo cuanto 2 (dos), cuando se tratan de variables tipo Bernoulli, de suceso o fracaso, daado o no daado, por ejemplo.

Si los datos son de naturaleza continua, como por ejemplo, peso, altura, rea, volumen, dimetro u otros de este tipo, cada barra ser asociada a un intervalo de valores. El numero de barras es definido pela raz cuadrada del nmero total de valores (). Como el valor del nmero de clases as definido es, muy comnmente, un nmero no entero se debe tomar el entero superior. Hay tambin de cuidar de que el nmero de barras no sea ni muy pequeo ni muy grande. La amplitud de valores en cada una de las clases es obtenida dividindose el rango de los datos por el nmero de clases definidas. Los valores superiores de cada clase son obtenidos sumndose sucesivamente al valor mnimo de los datos la amplitud de clase. 2.2 Tallos y hojas

El diagrama de tallos y hojas es otra forma de representacin visual de una serie de valores, conformados por lo menos de dos dgitos. Para su construccin los nmeros se dividen en dos partes, una llamada de tallo, formada por uno o ms dgitos principales y la otra la hoja, que contiene el resto de los dgitos. El nmero de tallos es relativamente pequeo cuando comparado con el nmero total de observaciones, para permitir una representacin interesante de los datos. Este nmero, en general, est entre 5 y 20.

El diagrama presenta por lo tanto dos columnas de informacin una, a la izquierda que corresponde a los tallos y la otra, a derecha, que representa las hojas. Es tambin muy comn que se adicione una tercera columna, ms a derecha, que contiene el valor de las frecuencias en cada tallo. Es recomendable indicar en alguna parte del diagrama la orden de grandeza de los tallos y hojas. Algunas veces es recomendable aumentar el nmero de tallos. Para duplicarlos, por ejemplo, al hacer la divisin de cada tallo, en un de ellos se ponen las hojas cuyos valores, tengan como primer dgito, valor 4 o menor, y en el otro valores 5 o mayor. 2.3 Caja y bigotes

El diagrama de caja y bigotes adems de una visualizacin de los datos de la muestra representa tambin algunas de las estadsticas de posicin y dispersin y permite identificar algunos valores como valores atpicos y/o valores atpicos extremos. La caja o rectngulo central tiene como lados extremos los valores de los cuartiles 3 y 1 y una lnea central para el cuartil 2. Dentro de esto rectngulo el smbolo + representa la posicin de la media. Los bigotes, diseados como lneas perpendiculares al rectngulo tiene un largo igual a 1,5 veces la distancia intercuartlica. Los valores situados entre el final de los puntos extremos del bigote hasta una distancia igual a 3 veces la distancia intercuartlica son considerados valores atpicos y aquellos ms all de estos puntos son llamados de atpicos extremos. 2.4 Herramientas en Excel Excel tiene disponible una nica opcin para representacin grfica de una serie de datos que es el Histograma. Para el diagrama de tallos y hojas e el grfico de caja y bigotes se debe utilizar el software complementario StatPlus.

2.4.1 Herramientas

La opcin para dibujar el Histograma esta disponible en herramientas anlisis de datos. Al ser empleada presenta la siguiente ventana.

Para entrada son definidas las celdas que contienen los datos en rango de entrada e aquellas con los valores lmites (superiores) de cada clase excepto el de la clase ms alta. Para salida se debe identificar la celda inicial adonde se quiere el diagrama (cuando en la misma hoja (rango de salida), o la identificacin de una nueva hoja o de un nuevo libro. La opcin crear grfico debe ser tachada.

2.4.2 Herramientas disponibles en StatPlus La herramienta StatPlus, presente en la barra del men de Excel tiene la opcin single variable charts y las sub-opciones para tallos y hojas (Stem and leaf) y para caja y bigotes (Boxplots).

2.4.3.1 Tallos y hojasCuando los datos tienen dos o ms categoras de calificacin marque Use column o cateegory leves, si no Values in separate columns. En el primer caso deben ser informadas las localizaciones de los datos y de las categoras, en el segn caso apenas la localizacin de los datos. En output indicase adonde se quiere el diagrama de tallos y hojas, en cuanto las dems opciones solo son empleadas con categoras o con ms de una variable.

2.4.2.2 Caja y bigotes

As como tallo y hojas cuando los datos tienen dos o ms categoras de calificacin marque Use column o cateegory leves, si no Values in separate columns. En el primer caso deben ser informadas las localizaciones de los datos y de las categoras, en el segn caso apenas la localizacin de los datos. Para la forma de mostrar el diagrama, marque siempre en Boxplot appearance: Display sample mean lines y Connect medians between boxes, en cuanto para las opciones del diagrama en Chart options es posible indicar ttulo para el diagrama y identificar los ejes, as como solicitar marcaciones de lneas dentro del diagrama. La opcin de salida (Output) indicase adonde se quiere el diagrama de caja y bigotes, bien como el ancho y el largo de la figura generada, adems se la quiere esttica o dinmica..

2.5 Herramientas y Funciones en SPSSPAGE 11

_1194437213.unknown

_1194685997.unknown

_1194686644.unknown

_1194693771.unknown

_1194700216.unknown

_1194693487.unknown

_1194686252.unknown

_1194685358.unknown

_1194420535.unknown

_1194422238.unknown

_1194419939.unknown