Unidad Temática 1
-
Upload
alejandra-belen-argueta-lopez -
Category
Documents
-
view
231 -
download
0
description
Transcript of Unidad Temática 1
ARGUETA LÓPEZ ALEJANDRA BELEN
UNIDAD TEMÁTICA 1: ESTADÍSTICA DESCRIPTIVA
1.1 Recopilación de datos
Uso de técnicas y herramientas que pueden ser utilizadas para desarrollar sistemas de
información, los cuales pueden ser la entrevistas, la encuesta, el cuestionario, la
observación, el diagrama de flujo y el diccionario de datos.
1.1.1 Datos no agrupados
Es el conjunto de datos obtenidos en una recopilación que no han sido clasificados en
clases o categorías, pues no es necesario clasificar dichos datos. Cuando la muestra
contiene pocos elementos los datos pueden ser analizados sin necesidad de formar
clases con ellos; a esto se le denomina “tratamiento de datos no agrupados”.
Es aquella distribución que indica las frecuencias con que aparecen los datos
estadísticos, desde el menor de ellos hasta el mayor de ese conjunto sin que se haya
hecho ninguna modificación al tamaño de las unidades originales. En estas
distribuciones cada dato mantiene su propia identidad después que la distribución de
frecuencia se ha elaborado. En estas distribuciones los valores de cada variable han
sido solamente reagrupados, siguiendo un orden lógico con sus respectivas
frecuencias.
EJEMPLO 1.1
Datos agrupados
Es el conjunto de datos obtenidos en una recopilación que han sido organizados en
varias clases o categorías. El fin de agruparlos es resumir la información adquirida;
generalmente, los elementos son de gran tamaño, por lo cual requieren ser agrupados,
1
ARGUETA LÓPEZ ALEJANDRA BELEN
esto implica: ordenar, clasificar y expresarlos en una tabla de frecuencias; para que los
datos puedan clasificarse se debe de verificar que éstos sean significativos, esto es,
que la información sea “repetitiva” y una vez hecha dicha clasificación verificar que
tenga coherencia y lógica.
Es aquella distribución en la que la disposición tabular de los datos estadísticos se
encuentra ordenados en clases y con la frecuencia de clase; es decir, los datos
originales de varios valores adyacentes del conjunto se combinan para formar un
intervalo de clase. No existen normas establecidas para determinar cuándo es
apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que
cuando el número total de datos (N) es igual o superior a 50 y además el rango o
recorrido de la serie de datos es mayor de 20, entonces, se utilizara la distribución de
frecuencia para datos agrupados, también se utilizara este tipo de distribución cuando
se requiera elaborar gráficos lineales como el histograma, el polígono de frecuencia o la
gráfica ojiva.
La razón fundamental para utilizar la distribución de frecuencia de clases es
proporcionar mejor comunicación acerca del patrón establecido en los datos y facilitar la
manipulación de los mismos. Los datos se agrupan en clases con el fin de sintetizar,
resumir, condensar o hacer que la información obtenida de una investigación sea
manejable con mayor facilidad.
Los datos agrupados se refieren al hecho de que estén ordenados, clasificados y
contados.
EJEMPLO 1.1.1
2
ARGUETA LÓPEZ ALEJANDRA BELEN
1.2 Ordenación y clasificación
Cuando los datos contienen una gran cantidad de elementos, para facilitar los cálculos
es necesario agruparlos.
1.2.1 N° de intervalos de clase
Número de Intervalos de Clase (ni).- No debe ser menor de 5 y mayor de 12, ya que un
número mayor o menor de clases podría oscurecer el comportamiento de los datos.
Para calcular el número de intervalos se aplica la regla de Sturges:
Siendo n el tamaño de la muestra.
1.2.2 Tamaño de intervalo
El Ancho del Intervalo (i).- Se obtiene dividiendo el Rango para el número de intervalos
Cuando el valor de i no es exacto, se debe redondear al valor superior más cercano.
Esto altera el valor de rango por lo que es necesario efectuar un ajuste.
EJEMPLO 1.2
3
ARGUETA LÓPEZ ALEJANDRA BELEN
1.2.3 Distribución de frecuencias
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma
de tabla de los datos estadísticos, asignando a cada dato su frecuencia
correspondiente.
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un determinado valor en un
estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número total de datos, que se
representa por N.
4
ARGUETA LÓPEZ ALEJANDRA BELEN
Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula)
que se lee suma o sumatoria.
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado
valor y el número total de datos.
Se puede expresar en tantos por ciento y se representa por fr.
fr=fiN
La suma de las frecuencias relativas es igual a 1.
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores
inferiores o iguales al valor considerado.
Se representa por fa.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un
determinado valor y el número total de datos. Se puede expresar en tantos por ciento.
Este tipo de tablas de frecuencias se utiliza con variables discretas.
EJEMPLO 1.2.1
5
ARGUETA LÓPEZ ALEJANDRA BELEN
Distribución de frecuencias agrupadas
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si
las variables toman un número grande de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma
amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente.
Límites de la clase
Cada clase está delimitada por el límite inferior de la clase y el límite superior de la
clase.
Amplitud de la clase
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.
Marca de clase
La marca de clase es el punto medio de cada intervalo y es el valor que representa a
todo el intervalo para el cálculo de algunos parámetros.
M .C= Ls+Li2
6
ARGUETA LÓPEZ ALEJANDRA BELEN
EJEMPLO 1.2.2
1.3 Estudio descriptivo
Un estudio descriptivo es un tipo de metodología a aplicar para deducir un bien o
circunstancia que se esté presentando; se aplica describiendo todas sus dimensiones,
en este caso se describe el órgano u objeto a estudiar. Los estudios descriptivos se
centran en recolectar datos que describan la situación tal y como es.
1.3.1 Medidas de tendencia central. Media, Moda, Mediana, Media ponderada.
Nos indican en torno a qué valor (centro) se distribuyen los datos.
Las medidas de centralización son:
Media aritmética
La media aritmética es el valor promedio de la distribución.
EJEMPLO 1.3
7
ARGUETA LÓPEZ ALEJANDRA BELEN
Para datos agrupados:
Mediana
La mediana es la puntación de la escala que separa la mitad superior de la distribución
y la inferior, es decir divide la serie de datos en dos partes iguales.
EJEMPLO 1.3.1
La serie ordenada de 9 datos es:
1, 3. 7. 14, 16. 30, 99. 120, 2,000.
La mediana es el quinto dato ordenado que divide a la serie en 2 grupos de 4 datos
cada uno. Esto es. Me — 16.
8
ARGUETA LÓPEZ ALEJANDRA BELEN
Para datos agrupados:
Moda
El dato que más veces se repite.
La moda no siempre existe y si existe, no siempre es única.
En matemática, la moda es el valor de la variable en el que existe un máximo absoluto
(o dos o más máximos relativos iguales).
La moda es una medida promedio que se usa cuando se quiere señalar el valor más
común de una serie de datos. Por ejemplo, los comerciantes se estoquean con
productos que están de moda.
La moda es el promedio menos importante debido a su ambigüedad.
9
ARGUETA LÓPEZ ALEJANDRA BELEN
EJEMPLO 1.3.2
La moda de los datos:
a) 7, 9, 7, 8, 7, 4, 7, 13, 7 es igual a 7. Esta serie de dalos es unimodal.
b) 5, 3, 4, 5, 7, 3, 5, 6 3 es igual tanto a 3, como a 5. Esta serie de dalos es
bimodal.
c) 31, 11, 12, 19 no existe. (También vale decir que cada uno de los datos es una
moda).
Para datos agrupados:
Media ponderada
La media ponderada es una medida de tendencia central, que es apropiada cuando en
un conjunto de datos cada uno de ellos tiene una importancia relativa (o peso) respecto
de los demás datos. Se obtiene multiplicando cada uno de los datos por su ponderación
10
ARGUETA LÓPEZ ALEJANDRA BELEN
(peso) para luego sumarlos, obteniendo así una suma ponderada; después se divide
esta entre la suma de los pesos, dando como resultado la media ponderada.
EJEMPLO 1.3.3
1.3.2 Medidas de dispersión. Rango, Desviación, Media Absoluta, Varianza, Desviación
Estándar, Coeficiente de variación
Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores
de la distribución.
Las medidas de dispersión son:
Rango o recorrido
11
ARGUETA LÓPEZ ALEJANDRA BELEN
El rango de variación o recorrido, R, de una serie de datos, es la diferencia entre sus
valores máximo y mínimo. Esto es: R= Xmax-Xmin, siendo x max el valor máximo y x
min el valor mínimo.
El rango es una medida de dispersión muy fácilmente calculable, pero es muy inestable,
ya que depende únicamente de los dos valores extremos. Su valor puede cambiar
grandemente si se añade o elimina un sólo dato. Por tanto su uso es muy limitado.
EJEMPLO 1.3.4
Dadas las dos series de datos
a) 1, 4, 4, 5, 5, 5, 5, 6, 6, 9
b) 1, 2, 3, 4, 5, 6, 7, 8, 9
Ambas series tienen la misma media, 5, y el mismo rango, 8, pero las dos series no
tienen la misma dispersión, ya que la segunda tiene mayor variabilidad.
El empleo del rango como medida de comparación de variación puede estar justificado
cuando se precise rápidamente de una medida de dispersión y no haya tiempo de
calcular algunas de las otras.
Desviación media absoluta
La desviación media es la media aritmética de los valores absolutos de
las desviaciones respecto a la media.
Varianza
La varianza, es una medida que cuantifica el grado de dispersión o de variación de los
valores de una variable cuantitativa con respecto a su media aritmética. Si los valores
tienden a concentrarse alrededor de su media, la varianza será pequeña. Si los valores
tienden a distribuirse lejos de la media, la varianza será grande.
12
ARGUETA LÓPEZ ALEJANDRA BELEN
Para datos no agrupados:
13
ARGUETA LÓPEZ ALEJANDRA BELEN
Para datos agrupados:
Coeficiente de Variación
Su fórmula expresa la desviación estándar como porcentaje de la media aritmética,
mostrando una mejor interpretación porcentual del grado de variabilidad que la
desviación típica o estándar. Por otro lado presenta problemas ya que a diferencia de
la desviación típica este coeficiente es variable ante cambios de origen. Por ello es
importante que todos los valores sean positivos y su media dé, por tanto, un valor
positivo. A mayor valor del coeficiente de variación mayor heterogeneidad de los
valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la
variable. Suele representarse por medio de las siglas C.V.
Se calcula:
Desviación Estándar
14
ARGUETA LÓPEZ ALEJANDRA BELEN
La desviación típica o desviación estándar (denotada con el símbolo σ o s, dependiendo
de la procedencia del conjunto de datos) es una medida de dispersión para variables de
razón (variables cuantitativas o cantidades racionales) y de intervalo. Se define como la
raíz cuadrada de la varianza de la variable.
EJEMPLO 1.3.5
1.3.3 Medidas de sesgo y curtosis. Coeficiente de asimetría de Pearson y el momento
tres. Curtosis momento cuatro o por percentiles.
Coeficiente de asimetría de Pearson
El coeficiente de asimetría de Pearson CAP mide la diferencia entre la media y
la moda respecto a la dispersión del conjunto X=(x1, x2,…, xN).
Este procedimiento, menos usado, lo emplearemos solamente en distribuciones
unimodales y poco asimétricas.
15
ARGUETA LÓPEZ ALEJANDRA BELEN
Si CAP<0: la distribución tiene una asimetría negativa, puesto que la media es menor
que la moda.
Si CAP=0: la distribución es simétrica.
Si CAP>0: la distribución tiene una asimetría positiva, ya que la media es mayor que
la moda.
EJEMPLO 1.3.6
EJEMPLO 1.3.7
16
ARGUETA LÓPEZ ALEJANDRA BELEN
Curtosis momento cuatro
Permite medir el grado de la agudeza de una distribución, es decir, para saber cuán
agudo o plano es un polígono de frecuencias.
Observemos los tipos de curtosis, en las siguientes
gráficas:
En la figura A se observa que ambas curvas son simétricas y tienen la misma
media, mientras que una de las curvas es más cúrtica. La figura B se le denomina
mesocúrtica (intermedio con punta). La figura C se le denomina leptocúrtica (delgada
con punta) y la figura D se le denomina platicúrtica (aplanado con punta).
El coeficiente de curtosis de un grupo de datos, es una medida del
apuntamiento o aplastamiento de su polígono de frecuencias, se define como:
En donde C75 es el percentil 75, etc.
Cuando el coeficiente de curtosis tiende a 0,5; esto es, si las diferencias C75–C25 y
C90-C10, son aproximadamente iguales, la curva se llama leptocúrtica.
Si el coeficiente de curtosis tiende a 0, esto es, cuando la diferencia C75–C25 es
pequeña, respecto de C90-C10, la curva se llama platicúrtica.
Si el coeficiente de curtosis es aproximadamente 0,25; esto es, si C90-C10
es aproximadamente el doble de C75–C25 , la curva se llama mesocúrtica.
17
ARGUETA LÓPEZ ALEJANDRA BELEN
1.4 Graficas.
Un gráfico o representación gráfica es un tipo de representación de datos,
generalmente numéricos, mediante recursos
gráficos (líneas, vectores, superficies o símbolos), para que se manifieste visualmente
la relación matemática o correlación estadística que guardan entre sí.
Para datos no agrupados:
Escalonada: Altamente utilizados en distribuciones para variable con frecuencia discreta. Este tipo de diagramas presentan un perfil escalonado, produciéndose un salto en cada uno de los valores definidos de la variable aleatoria. Es continua por la derecha, pero no por la izquierda. La cuantía de cada salto es precisamente la probabilidad en ese punto, la función de cuantía.
De líneas:
Para datos agrupados:
1.4.1 Histograma
18
ARGUETA LÓPEZ ALEJANDRA BELEN
Está formado por rectángulos cuya base es la amplitud del intervalo y tiene la
característica que la superficie que corresponde a las barras es representativa de la
cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases
que tienen el mismo tamaño o diferente (intervalo variable). La utilización de los
intervalos de amplitud variable se recomienda cuando en alguno de los intervalos, de
amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos
de los intervalos sean mucho mayor que la de los demás, logrando así que las
observaciones se hallen mejor repartidas dentro del intervalo.
EJEMPLO 1.4
1.4.2 Polígono de Frecuencias
Se puede obtener uniendo cada punto medio (marca de clase) de los rectángulos del
histograma con líneas rectas, teniendo cuidado de agregar al inicio y al final marcas de
clase adicionales, con el objeto de asegurar la igualdad del áreas.
EJEMPLO 1.4.1
19
ARGUETA LÓPEZ ALEJANDRA BELEN
1.4.3 Ojivas
Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos
diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es
necesario tener una base estándar, la frecuencia relativa. La ojiva representa
gráficamente la forma en que se acumulan los datos y permiten ver cuantas
observaciones se hallan por arriba o debajo de ciertos valores. Es útil para obtener una
medida de los cuartiles, deciles, percentiles.
EJMPLO 1.4.2
1.4.4 Pastel
En los gráficos de sectores, también conocidos como diagramas de "tartas", se divide
un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase
le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Un
ejemplo se muestra en la gráfica. Como se puede observar, la información que se debe
mostrar en cada sector hace referencia al número de casos dentro de cada categoría y
al porcentaje del total que estos representan. Si el número de categorías es
excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo
suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres
categorías. En este caso se pueden apreciar con claridad dichos subgrupos.
20
ARGUETA LÓPEZ ALEJANDRA BELEN
EJEMPLO 1.4.3
REFERENCIAS BIBLIOGRÁFICASBehar, R., & Yepez, M. (2007). Estadítica. Un enfoque descriptivo. Cali: Universidad del
Valle. Pags 151-181
Zamora, M. C. (2003). Estadítica descriptiva e inferencial. Lima: Moshera. Pags 52-85
REFERENCIAS ELECTRÓNICASDitutor. (10 de 09 de 15). Obtenido de
http://www.ditutor.com/estadistica/estadistica.html
http://colposfesz.galeon.com/est501/probabi/teo/cap402/cap402.htm
21