ESTADISTICA DESCRIPTIVA

12
Apuntes de Estadística Profesor Aldo Vergara Cubillos Capitulo 1.- ESTADISTICA DESCRIPTIVA 1.1. Introducción. Definición de Estadística, variables, Población, muestreo. ¿Qué es la Estadística? Aunque es virtualmente imposible obtener un consenso general de la definición de Estadística, podemos decir que la Estadística es el estudio de los fenómenos aleatorios. Es factible diferenciar dos definiciones: La Estadística es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación resumida, y que han sido recopilados a través de varias observaciones, o a partir de otros datos numéricos. La Estadística puede ser considerada como un método para tratar datos numéricos; es un instrumento que se orienta a la recolección, organización y análisis de datos numéricos o de observaciones. Deben diferenciarse dos funciones del método estadístico: Técnicas de Estadística descriptiva y Técnicas de Inferencia Estadística o Estadística inductiva. El propósito central de la Estadística Descriptiva es presentar información en forma conveniente, útil y comprensible. La Inferencia Estadística, se ocupa de generalizar esta información, o más específicamente, hace inferencias acerca de poblaciones a partir de las muestras extraídas de estas poblaciones. La Estadística Descriptiva son sencillas desde el punto de vista matemático, pero a pesar de eso, son valiosas en casos donde se encuentras disponible la población completa y no existe incertidumbre, o cuando se tiene a mano grandes conjuntos de datos que pueden o no considerarse como muestras aleatorias. Si un conjunto grande se considera como una muestra aleatoria de una población, la estadística descriptiva puede ir tan lejos como la distribución general de valores, al dar una evidencia empírica y otras características de la población. Esta evidencia tiene un apreciable valor puesto que afirma ciertas suposiciones que deben formularse en la aplicación de la inferencia estadística. Algunos términos útiles de considerar: Variable. Característica o fenómeno que puede tomar diferentes valores. Así, peso, coeficiente intelectual, y sexo, son variables por cuanto pueden tomar distintos valores cuando se observan en diferentes individuos. Datos. Número o medidas que han sido recopilados como resultados de observaciones. Pueden ser recuentos (datos de frecuencia) tales como el número de individuos que prefiere a determinado candidato a Diputado, o pueden ser calificaciones como en el caso de una prueba psicológica o educativa. Población o universo. Conjunto completo de individuos, objetos, o medidas que poseen alguna característica común observable. Ej. todos los alumnos, todos los ciudadanos de un país, etc. Muestra. Un subconjunto de la población o universo. A la técnica que nos permite construir muestras de tamaño y calidad apropiada para el análisis estadístico se le conoce como Muestro. Parámetro. Cualquier característica de una población que sea medible, por ejemplo el promedio de notas de alumnos. Se acostumbra a denotar los parámetros de las poblaciones usando letras griegas (Ej. µ, σ). Cuando estos valores se calculan a partir de muestras, se considera que son estimadores de los parámetros poblacionales y se designan usando letras del alfabeto (Ej. , s) x 1/12

Transcript of ESTADISTICA DESCRIPTIVA

Page 1: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

Capitulo 1.- ESTADISTICA DESCRIPTIVA 1.1. Introducción. Definición de Estadística, variables, Población, muestreo.

¿Qué es la Estadística? Aunque es virtualmente imposible obtener un consenso general de la definición de Estadística, podemos decir que la Estadística es el estudio de los fenómenos aleatorios. Es factible diferenciar dos definiciones:

• La Estadística es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación resumida, y que han sido recopilados a través de varias observaciones, o a partir de otros datos numéricos.

• La Estadística puede ser considerada como un método para tratar datos numéricos; es un instrumento que se orienta a la recolección, organización y análisis de datos numéricos o de observaciones.

Deben diferenciarse dos funciones del método estadístico: Técnicas de Estadística descriptiva y Técnicas de Inferencia Estadística o Estadística inductiva. El propósito central de la Estadística Descriptiva es presentar información en forma conveniente, útil y comprensible. La Inferencia Estadística, se ocupa de generalizar esta información, o más específicamente, hace inferencias acerca de poblaciones a partir de las muestras extraídas de estas poblaciones. La Estadística Descriptiva son sencillas desde el punto de vista matemático, pero a pesar de eso, son valiosas en casos donde se encuentras disponible la población completa y no existe incertidumbre, o cuando se tiene a mano grandes conjuntos de datos que pueden o no considerarse como muestras aleatorias. Si un conjunto grande se considera como una muestra aleatoria de una población, la estadística descriptiva puede ir tan lejos como la distribución general de valores, al dar una evidencia empírica y otras características de la población. Esta evidencia tiene un apreciable valor puesto que afirma ciertas suposiciones que deben formularse en la aplicación de la inferencia estadística. Algunos términos útiles de considerar:

• Variable. Característica o fenómeno que puede tomar diferentes valores. Así, peso, coeficiente intelectual, y sexo, son variables por cuanto pueden tomar distintos valores cuando se observan en diferentes individuos.

• Datos. Número o medidas que han sido recopilados como resultados de observaciones. Pueden ser recuentos (datos de frecuencia) tales como el número de individuos que prefiere a determinado candidato a Diputado, o pueden ser calificaciones como en el caso de una prueba psicológica o educativa.

• Población o universo. Conjunto completo de individuos, objetos, o medidas que poseen alguna característica común observable. Ej. todos los alumnos, todos los ciudadanos de un país, etc.

• Muestra. Un subconjunto de la población o universo. A la técnica que nos permite construir muestras de tamaño y calidad apropiada para el análisis estadístico se le conoce como Muestro.

• Parámetro. Cualquier característica de una población que sea medible, por ejemplo el promedio de notas de alumnos. Se acostumbra a denotar los parámetros de las poblaciones usando letras griegas (Ej. µ, σ). Cuando estos valores se calculan a partir de muestras, se considera que son estimadores de los parámetros poblacionales y se designan usando letras del alfabeto (Ej. , s) x

1/12

Page 2: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

Que operaciones considera la Estadística Descriptiva, si consideramos un conjunto de observaciones: 1. Reorganizarlas y agruparlas de varias formas, para obtener una visión global de todo el conjunto de

datos (Distribución de Frecuencias). 2. Construir tablas, gráficas y figuras que permitan visualizar los resultados (Técnicas de

Representación gráfica) 3. Se pueden convertir los resultados originales a forma que sean más útiles para propósitos

específicos, tales como, percentiles, y otros. 4. Podremos calcular promedios, y otras medidas para aprender algo del comportamiento específico de

sus problemas. (Medidas de Tendencia Central). 5. Empleando el promedio como punto de referencia podremos describir la dispersión de con respecto

a un punto central. (Medida de dispersión). 6. Podremos obtener una relación entre dos diferentes instrumentos de medida, usando el coeficiente

de correlación. El conocimiento de esta relación permitirá predecir el comportamiento de una variable en función de otra (Regresión y Correlación)

1.2. Estadística Descriptiva Unidimensional. Variables, Tabulación de datos, Representación Gráfica.

Medidas estadísticas

Los datos obtenidos se pueden referir a características cuantitativas (variable discreta o continua) o cualitativas (atributos). Se denominan atributos a las propiedades de los fenómenos que se pueden describir cualitativamente, Ej. Profesión (ingeniero, médico) o color de pelo (rubio, negro, trigueño). Las variables son las expresiones cuantitativas de algunas propiedades de los fenómenos (Ej. Peso, estatura, numero de hijos), en algunos casos es posible considerar a los atributos como variable 0-1, según que la característica falte o se presente en la observación. En las variables se distingue entre discretas y continuas. Se consideran discretas, desde el punto de vista estadístico, aquellas que pueden tomar solo ciertos valores en el intervalo considerado y no admiten valores intermedios. Generalmente se trata de números enteros y positivos. Ej. Una familia puede tener 0, 1, 2,... hijos, pero no algún valor intermedio. Variables continuas son aquellas que pueden tomar cualquier valor en el intervalo (peso, estatura, salarios). En la estadística puede interesar una sola variable o atributo, se habla así de un caso unidimensional (alumnos del curso clasificados por estatura); pero también pueden considerarse simultáneamente dos o más variables, se trata entonces de un caso bidimensional (empleados clasificados por departamento y sueldos) o de un caso multidimensional (clasificación de alumnos por edad, sexo y peso).

• Tabulación de datos. Uno de las ideas más básicas es agrupar los datos, anotando el número de veces en que éste está presente en la muestra, esto es, su frecuencia (fi) (absoluta). Obviamente que este esquema podría ser de alguna utilidad cuando se trata de variables discretas, pero tiene la gran dificultad que se debe describir todos los valores, aún cuando tenga “frecuencia 0”. Es por esto que es preferible agrupar las observaciones en un número relativamente pequeño de intervalos de clases (Ii) que no se superpongan entre sí, para obtener una Distribución de frecuencias. En esta tabla, además de la frecuencia de clase, se agregan los siguientes elementos:

o Punto medio del intervalo de clase, que es el promedio aritmético entre los límites superior e inferior de la clase, se llama también marca de clase (Xi).

o Frecuencia acumulada de clase (Fi), corresponde a la acumulación de las frecuencias desde el primer intervalo de clase, hasta la clase actual.

o Frecuencia relativa de clase (hi), es el cociente de una frecuencia de clase y el número total de observaciones.

2/12

Page 3: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

o Frecuencia relativa acumulada (Hi), corresponde a la acumulación de las frecuencias relativas de clase.

Ejemplo: consideremos una muestra de 110 estudiantes de los que se dispone su CI para propósitos de análisis. Resultados de C.I. de 110 estudiantes universitarios seleccionados al azar.

154 131 122 100 113 119 121 128 112 93 133 119 115 117 110 104 125 85 120 135 116 103 103 121 109 147 103 113 107 98 128 93 90 105 118 134 89 143 108 142 85 108 108 136 115 117 110 80 111 127

100 100 114 123 126 119 122 102 100 106 105 111 127 108 106 91 123 132 97 110 150 130 87 89 108 137 124 96 111 101 118 104 127 94 115 101 125 129 131 110 97 135 108 139 133 107 115 83 109 116

110 113 112 82 114 112 113 142 145 123 No existe una norma general que permita decidir respecto al numero de intervalos de clase que se debe considerar; por una parte, no deben ser muy pocos puesto que toda la información inherente a los valores originales se pierde; por otra parte, no deben ser tan pequeños que se desvirtúe el objetivo que se busca con la agrupación. Parece bastante razonable confiar en la experiencia del investigador. Sin embargo, podemos considerar la fórmula propuesta por Sturges para determinar el número de intervalos: y entonces, sería conveniente considerar también una amplitud igual para cada intervalo.

nk log31= 10322.+

El procedimiento para construir los intervalos, es:

ka minmax−

=

• k = 1 + 3.322 * log 10 110 = 1 + 3.322 * 2,0414 = 1 + 6,7815308 = 7,78, y consideraremos 8

intervalos. • Determinamos ahora la amplitud de cada uno de ellos, a = (154 – 80)/8 = 9,25 ≈ 9, es posible

simplemente redondear al entero más cercano, los resultados finales no varían. Es recomendable utiliza un entero impar para mayor comodidad de las marcas de clase.

• Consideremos el más bajo de los datos originales como limite inferior del primer intervalo de clases

(es posible también partir unos puntos antes para repartir mejor los datos). Agreguémosle a – 1 para obtener el limite superior del primer intervalo de clase, este es : [78 - 86] (también es conveniente trabajar con los Límites reales [78.5 – 86.5])

• El límite inferior del intervalo de clase siguiente, será el entero consecutivo del límite superior del

intervalo de clase anterior: [87 - 95] ([86.5 – 95.5]).

• Usando este mismo procedimiento se construye el resto de los intervalos de clase.

3/12

Page 4: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

La Tabla de Frecuencia que se genera para el ejemplo anterior, teniendo en cuenta las consideraciones anteriores es:

Intervalo Límites Marca Frecuencia Frecuencia Frec. Absoluta FREC. Relativa De Clase Reales de clase Absoluta Acumulada Relativa Acumulada Ii Ir Xi fi Fi hi Hi 1 78 - 86 78.5 – 86.5 82 5 5 0,045 0,045 2 87 - 95 86.5 – 95.5 91 8 13 0,073 0,118 3 96 - 104 95.5 – 104.5 100 16 29 0,145 0,264 4 105 - 113 104.5 – 113.5 109 29 58 0,264 0,527 5 114 - 122 113.5 – 122.5 118 20 78 0,182 0,709 6 123 - 131 122.5 – 131.5 127 16 94 0,145 0,855 7 132 - 140 131.5 – 140.5 136 9 103 0,082 0,936 8 141 - 149 140.5 – 149.5 145 5 108 0,045 0,982 9 150 - 158 |49.5 – 158.5 154 2 110 0,018 1,000

• Representación Gráfica. El primer paso en al análisis de datos es construir la Tabla de frecuencias.

Generalmente el paso siguiente consiste en elaborar gráficos que proporcionan visualmente un resumen de la información que interesa destacar y recordar. En un buen gráfico se pueden apreciar la tendencia, variaciones, y anomalías del fenómeno representado. compararlos con otras si uno lo desea.

• Escala de variables nominales. Para este tipo de variables se puede construir un gráfico de barras

como el de la figura.

N ú m ero d e Alu m n o s p o r F acu ltad

0

500

1000

1500

2000

2500

3000

Ingen ie ría Educación Ag ronomía Med icina

F a cu lta d

Nº a

lum

nos

Este tipo de gráfico también sirve para variables de tipo ordinal. Para cada categoría se traza una barra vertical en que la altura de la barra representa el número de miembros de esa clase; de esta forma, el área total de todas las barras es N.

4/12

Page 5: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

• Escala de variables ordinales. En este caso los valores implican un ordenamiento que es expresable en

términos algebraicos de desigualdades (mayor que, menor que). Tal como se mencionó es posible usar el tipo de gráfico descrito anteriormente. Para ambos tipos de variables, si el número de elementos observados no es muy grande, podemos usar en gráfico Tipo Circular (torta).

Nº alumnos por Facultades

33%

27%

14%

26%Ingeniería

Educación

Agronomía

Medicina

• Escala de variables de intervalos.

o Histograma. Podemos usar como punto representativo de la clase, la Marca de clase Xi, y se considera la frecuencia absoluta di para graficar (podemos usar la frecuencia absoluta relativa, esto produce solo un cambio de escala.

Histograma

0

5

10

15

20

25

30

83 90 97 104 111 118 125 132 139 146

Marca de clase

frec

uenc

ia

• Polígono de Frecuencias. podemos transformar el Histograma en otra forma muy empleada llamada Polígono de Frecuencias mediante la unión de los puntos medios de las barras (Marcas de Clase) con segmentos de rectas. Naturalmente no es necesario construir el histograma antes de elaborar el polígono de frecuencias.

5/12

Page 6: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

Polígono de Frecuencias

0

5

10

15

20

25

30

83 90 97 104 111 118 125 132 139 146

Marca de clase

Frec

uenc

ia

Cuantíles. Se define un cuantíl como el valor bajo el cual se encuentra una determinada proporción de los valores de la distribución. Se construyen varios tipos de cuantíles, entre los más comunes están:

• percentil: que corresponde al análisis del porcentaje de la distribución, de modo que q20 es el percentil bajo el cual se encuentra el 20% de los valores de la distribución.

• Decíl: considera la distribución dividida en 10 porciones. • Cuartíl, que considera la distribución dividida en 4 partes.

Si queremos representar gráficamente los percentiles, es preciso recurrir a la gráfica de la distribución de frecuencia acumulada. A partir de allí, el valor del percentil se lee en el eje horizontal proyectando sobre el eje vertical el porcentaje asociado al percentil. En el gráfico de ejemplo podemos apreciar que el percentil 67 (eje vertical), corresponde al valor aproximadamente a 118 (eje horizontal), q70 ≈ 118. Distribución Frecuencias Relativa Acumulada

0.4

0.6

0.8

1Hi

Esto snecesi

0,7

0

0.2

83 90 97 104 111 118 125 132 139 146Xi

ignifica que el 67% de los C.I. esta bajo el valor 118. Obviamente podemos obtener el rango percentil sin dad de recurrir al gráfico, en este caso consideramos

Rango percentil = [ Frec.Acumulada (Fi) / N ] * 100 = Frec.Relativa Acumulada (Hi)

6/12

Page 7: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

Naturalmente que corresponde al intervalo de clase (Ii), representado por la marca de clase (Xi). Para el valor exacto, necesitamos recurrir a una interpolación, consideremos el mismo ejemplo anterior y calculemos cual es el rango percentil asociado al valor C.I. de 118:

• 118 ∈ [115 - 121], dado que se trata de una distribución continua los valores reales del intervalo son [114.5 - 121.5], y entonces determinamos la distancia que está el 118 del límite inferior del intervalo real 118 – 114.5 = 3.5.

• ahora determinamos que proporción del intervalo le corresponde estas 3.5 unidades. Recordemos que para el ejemplo que estamos analizando, la amplitud que consideramos es de 7, por lo tanto la proporción es 3,5/7 = 0,5.

• La frecuencia absoluta del intervalo analizado es de 16, entonces la frecuencia proporcional correspondiente para el 118 es 0,5 * 16 = 8.

• Ahora si le sumamos la frecuencia acumulada hasta el intervalo anterior, (8 + 60 = 68), tenemos que la frecuencia acumulada correspondiente a un C.I. de 118 es 68 lo que nos dan un rango percentil de 62%.

El mismo tratamiento y significado para el caso del los Decíles.

7/12

Page 8: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

Medidas de Tendencia Central. Hemos visto como organizar los datos en forma útil, ya sea a través de la Tabla de Distribución de Frecuencias, como las distintas representaciones gráficas. Sin embargo, necesitamos establecer proposiciones cuantitativas que nos permitan describir la distribución o comparar dos o más distribuciones. Hay dos características que se presentan en múltiples distribuciones de frecuencia para los cuales se han desarrollado métodos cuantitativos de descripción: (1) con frecuencia los datos se acumulan alrededor de una valor central entre los dos extremos de la variable que se estudia, y (2) los datos pueden dispersarse o distribuirse alrededor de un valor central, en forma que esta tendencia puede ser especificada cuantitativamente. La capacidad de localizar un punto de tendencia central, particularmente cuando al mismo tiempo existe una descripción de la dispersión de calificaciones con respecto a ese punto, puede ser muy útil para el análisis. Podremos reducir una masa de datos a un par de simples valores cuantitativos que pueden ser comprendidos y comunicados a otros especialistas.

• La Media Aritmética. ( x cuando es referido a la muestra, y µ cuando estamos hablando de la población) Es el

estadígrafo más conocido, el “promedio” de notas (suma de todas las notas, divididas por la cantidad de ellas), es una Media Aritmética. Expresado esto en forma algebraica:

La última expresión se considera cuando se trata de datos tabulados.

[ ]N

Xf

N

X

NXXXXXM

N

iii

N

ii

N∑∑

== ==+++

== 1121 ..

Si consideramos intervalos de clase, entonces X i corresponde a las marca de clase. Propiedades:

1) M[a + k] = a M[ ] + k, donde a y k son constantes. X X2) M[X – ] = 0; esto es, la media aritmética de los desvíos de los datos con respecto a su media, es cero. Esto

significa que la media es un estadígrafo que equilibra todos los puntajes ubicados a uno y otro lado de ella. De aquí se desprende que la media es muy sensible frente a valores extremos de la variable

X

3) La suma de los cuadrados de las desviaciones con respecto a la media aritmética es menor que la suma de los cuadrados de las desviaciones con respecto a cualquier otro puntaje.

• La Mediana. La media aritmética no proporciona una adecuada idea de posición cuando existen valores

extremos que pueden pesar demasiado en su determinación. Por ejemplo, cuado queremos determinar el promedio de una asignatura debemos sacar del cálculo aquellos alumnos que no tienen calificación (se asume un 1). Por este motivo es preferible emplear la Mediana como estadígrafo de posición. Se llama Mediana o valor mediano, una vez ordenado los valores en orden creciente (o decreciente), a todo valor Me de la variable que supere, a lo sumo, a la mitad de las observaciones, y que, al mismo tiempo, sea superado por a lo más la mitad de las observaciones. 1) datos sin tabular: se presentan dos casos distintos. Una vez que los datos se ordenan creciente o decreciente

(este proceso se hace engorroso si los datos son muchos, pero obviamente debemos recurrir a un programa computacional),

a. número impar de observaciones, la determinación es inmediata pues se toma el valor del medio,

ejemplo: 14 – 19 – 22 – 17 y 16, al ordenarlos se tiene 14 – 16 – 17 – 19 - 22, y entonces Me = 17

8/12

Page 9: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

b. número par de observaciones, se considera el promedio aritmético de los dos valores medios, ejemplo: 18 – 14 – 16 – 17 – 19 – 22, al ordenarlos se tiene:

14 – 16 – 17 – 18 – 19 – 22, y entonces Me = 17.5

2) datos tabulados: en este caso solo podemos encontrar el intervalo donde se encuentra el valor de la Mediana, para esto se determina la menor de las frecuencias absolutas acumuladas que supera la mitad de las observaciones

F j > n/2 Referenciando por j el intervalo de la mediana (j – 1 en intervalo anterior), la fórmula para la mediana es: donde: L j–1 es el límite inferior del intervalo mediano jf

jjje

FnaLM 1

1

2 −−

−+=

a j es la amplitud del intervalo mediano F j–1 es la frecuencia acumulada del intervalo anterior al mediano f j es la frecuencia absoluta del intervalo mediano Notas: • podemos observar que esto es aplicable aún si los intervalos son de amplitud distinta. • Notar que la Mediana es equivalente a q50 (cuartíl 50) y d5 (5to decil) • Este procedimiento es igualmente aplicable para obtener los cuantiles, solo basta con considerar la

muestra en cuartos, (n/4, 2n/4, 3n/4). El mismo procedimiento para deciles, percentiles. 3) Moda (Mo). Es un estadígrafo de posición que puede definirse como el valor más frecuente, es decir el que

se presenta con mayor frecuencia. En términos matemáticos es el valor de la variable al que corresponde un máximo relativo. Se le emplea por sobre los otros estadígrafos cuando se desea señalar el valor más común o más típico. Al igual que la mediana, presenta una gran inestabilidad en el muestreo y tampoco permite un tratamiento algebraico. La moda es aún menos importante que la Mediana debido a su ambigüedad, pero es de fácil comprensión al igual que la Mediana y tampoco es sensible a valores extremos. • datos tabulados: en este caso solo podemos encontrar el intervalo donde se encuentra el valor de la

Moda, para esto consideramos el intervalo de mayor frecuencia absoluta. Las dos fórmulas más usadas para el cálculo de la moda son:

)()( 11

11

11

11

−−

−−

+−

+− −+−

−+=

++

jjjj

jjjj

jj

jjj ffff

ffaL

fff

a=o LM

donde: L j–1 es el límite inferior del intervalo modal a j es la amplitud del intervalo modal f j es la frecuencia absoluta del intervalo modal f j–1 es la frecuencia absoluta del intervalo anterior al modal f j+1 es la frecuencia absoluta del intervalo siguiente al modal

4) Media geométrica (Mg). Se usa especialmente en casos donde existe una tasa de crecimiento

relativamente constante, o simplemente cuando se desean un porcentaje medio de crecimiento o de baja, según corresponda. También se usa de preferencia cuando es conveniente dar importancia a valores pequeños.

n

ng xxxM ...21= , y para datos agrupados n fm

ffg

mxxxM ...2121=

9/12

Page 10: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

para datos agrupados, la operación se simplifica utilizando logaritmos, log M g = M log y i

5) Media Armónica (Mh). Se usa para obtener un valor representativo de un conjunto de datos expresados en forma de tasas, esto es, tantas unidades de un tipo por cada unidad de otra especie.

∑=

=

=

n

i iih xf

nxMM

1

111

10/12

Page 11: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

Medidas de Dispersión.

Tal como se indicó al comienzo, la idea de dispersión se relaciona con la mayor o menor concentración de los datos en torno a un valor central, generalmente la media aritmética.

• Varianza. (S2 cuando se trata de una muestra, σ2 cuando estamos refiriéndonos a la población). La Varianza de una distribución unidimensional de frecuencias es la media aritmética de los cuadrados de las diferencias entre los valores de la distribución y su media aritmética.

[ ]n

xxfXVS

n

iii∑

=

−== 1

2

2)(

Obviamente, si los datos no están agrupados la frecuencia es uno. El valor numérico de la varianza cuantifica el grado de dispersión de los valores de una distribución de frecuencias respecto de su media aritmética. Mientras mayor es la dispersión, mayor es la magnitud de sus desviaciones respecto a la media aritmética y por ende, más alto el valor numérico de la varianza.

Propiedades:

1) En algunos casos, la varianza se calcula con n – 1 como divisor, (cuando se usa como estimador del valor poblacional).

2) Es preferible usar formula abreviada para cálculos

S2 = V[ X ] = M[ X 2 ] – ( M[X] ) 2 , esto es, la media de los cuadrados menos el cuadrado de la

media. 3) V[a X +k] = a2 V[x], donde a y k son constantes.

• Desviación estándar o típica (s). Un problema de la varianza es que no se expresa en las mismas unidades de las variables originales; esto es, si las variables miden centímetros, entonces la varianza se expresa en centímetros cuadrados. Por eso se prefiere usar como estadígrafo la Desviación típica o estándar, que se define como la raíz cuadrada positiva de la varianza.

s = + √ S2

Como la desviación típica se expresa en las mismas unidades que la variable, permite una comparación más adecuada con los valores originales.

• El rango, es la más sencilla y directa medida de dispersión corresponde a la distancia escalar entre la mayor y la menor de las observaciones. Es poco usada, especialmente por su inestabilidad puesto que solo compara los dos valores más extremos.

• El rango intercuartil, permite superar la inestabilidad del rango como estadígrafo, se calcula simplemente

restando al tercer cuartil (Q3 = q75) el valor del primer cuartil (Q1 = q25). • La desviación media (Dm), este estadígrafo también usa la media como la medida de tendencia central, pero

para contrapesar los desvíos, define el valor absoluto de ellos.

11/12

Page 12: ESTADISTICA DESCRIPTIVA

Apuntes de Estadística Profesor Aldo Vergara Cubillos

12/12

n

XXfD

n

iii

m

∑=

−= 1

Como base para la comparación de la dispersión existente en varias distribuciones, la desviación media es bastante práctica. Así por ejemplo, cuanto mayor es la desviación media tanto mayor es la dispersión de las observaciones. Sin embargo, para la interpretación de las observaciones en una distribución, la desviación media es menos útil puesto que no existe una relación matemática precisa entre la desviación media, y la situación de las observaciones dentro de la distribución.