Post on 03-Feb-2016
ESTADÍSTICA APLICADA
Fundamentos Aplicaciones Prácticas
1. TERMINOLOGIA BÁSICA POBLACION ESTUDIO: Conjunto de todos los
elementos que serán observados, estudiados y seleccionados como muestra para la investigación.
En la Población estudio se reconocen los siguientes factores:
Elemento Unidad Muestral Alcance Tiempo Variable Marco Muestral
ELEMENTO: Es quien se observa , se mide o a quien corresponde la información.
Ej: Detergente marca Ariel
Presentaciones: Granulado , Barra, Liquido
UNIDAD MUESTRAL: Colección de elementos con características homogéneas.
Ej: Supermercados, Bodegas, Despensas, Tiendas, Fabricas, Hogares.
ALCANCE: Área o espacio geográfico que abarca la investigación.
Ej: Bucaramanga, Área Metropolitana de B/manga, Departamento, Barrio, etc.
TIEMPO: Época o fecha en la que se realiza la investigación.
Ej: Mayo de 2010
VARIABLE: Lo que se va a estudiar del elemento.
Ej: Ventas (Unidades, Pesos, Gramos).
MARCO MUESTRAL: Listado de unidades muestrales que conforman la población estudio.
Ej: Listado de Supermercados de Bucaramanga y su Área Metropolitana.
¡¡¡ EN RESUMEN !!!
POBLACION ESTUDIO: Monitorear las ventas del detergente marca Ariel, presentación granulada con suavizante de 500 gramos en los supermercados de Bucaramanga durante el mes de Mayo de 2010.
TÉCNICAS DE
MUESTREO
TÉCNICAS DE MUESTREO
Son utilizadas para seleccionar una muestra representativa de la Población Estudio. Una vez elegida la muestra se procede a aplicar el respectivo estudio, por ejemplo:
Ventas en gramos del detergente Ariel.
Tipos de religión que profesan y practican los estudiantes de Tecnología en Administración Empresarial.
Se estudiarán tres tipos de Muestreo:
Muestreo Aleatorio Simple (MAS) Muestreo Sistemático Muestreo Estratificado
Para ejemplificar cada uno de ellos se tomará una población de 39 estudiantes con sus respectivos nombres, que se supondrán en este caso.
MUESTREO ALEATORIO SIMPLE (MAS)
1. Identificar la Población Estudio: N = 39 2. Determinar el tamaño de la muestra: n =
5 3. Efectuar una selección aleatoria de la
muestra con Números Randómicos. Randómico en la
calculadora:
SHIFT / Ran # / =
4. Tomar cada uno de los 5 Randómicos y multiplicarlos por N para obtener los estudiantes que conformarán la muestra.
Ej: (N) * ( Ran #) = Posición del Estudiante en la lista.
(39) * (0,257) = 10,023 = 10 Adrian
(39) * (0,928) = 36,192 = 36 Jorge
(39) * (0,342) = 13,338 = 13 Clara
(39) * (0,944) = 36,816 = 37 Patricia
(39) * (0,731) = 28,5 = 29 Andrés
De esta forma ya hemos obtenido la muestra representativa para realizar el estudio y corresponde a los alumnos con códigos 10,36,13, 37 y 29 en la lista.
MUESTREO SISTEMÁTICO
1. Identificar la Población Estudio: N = 39 2. Determinar el tamaño de la Muestra: n
= 5 3. Determinar la Constante Sistemática de
Selección K mediante la formula:
K ≤ N/n
K ≤ 39 /5 ≤ 7,8 ≤ 7
K = 7
4. Determinar el primer elemento multiplicando un numero randómico por K, es decir:
(0,618) * (7) = 4, 326 = 4 Juliana
5. Determinar los otros cuatro elementos tomando el inicial y sumándole la
constante:
4 + 7 = 11 Pedro 11 + 7 = 18 Lucia
18 + 7 = 25 Rafael 25 + 7 = 32 Catalina
MUESTREO ESTRATIFICADO
1. Identificar la Población Estudio: N = 39 2. Identificar los estratos Ni y el tamaño de c/u.
Ej: Nm = Mujer = 28 en el salón Nh = Hombre = 11 en el salón
3. Determinar el tamaño de la Muestra: n = 5 4.Establecer la asignación proporcional o determinar los ni mediante la expresión:
ni = n (Ni / N)
nm = 5 (28 / 39) = 3,58 = 4 nh = 5 (11 / 39) = 1,41 = 1
39 en total
De esta forma se sabe que deben seleccionarse 4 mujeres y 1 hombre, para completar la muestra representativa. Pueden ser elegidos aleatoriamente o mediante MAS.
N = 39
Nm = 28
Nh = 11
nm = 4
nh = 1
ÁRBOL DE RESULTADOS
MEDIDAS DE
TENDENCIA CENTRAL
Categ
oría
1
Categ
oría
2
Categ
oría
3
Categ
oría
40
1
2
3
4
5
6
Serie 1Serie 2Serie 3
EJERCICIO PRÁCTICO
Se tiene una muestra de 15 estudiantes de Tecnología en
Administración Empresarial del SENA con sus
respectivos pesos (kg). Los datos se
muestran en la siguiente tabla.
NUMERO PESO (Kg)
1 56
2 86
3 75
4 48
5 58
6 90
7 78
8 55
9 48
10 62
11 62
12 48
13 86
14 74
15 48
MEDIA: Es un valor comprendido entre el dato mayor y el dato menor.
X = media∑ = sumatoria de cada uno de los elementosXi = observaciones o elementos n = número de observaciones o elementos
En promedio, los estudiantes del curso pesan 64,93 kg (aproximadamente 65 kg).
X=(56+86+75+48+58+90+78+55+48+62+62+48+86+74+48)
15
X = 64,93 Kg
De este modo tenemos:
MEDIANA (Me): Es el valor de la variable estudio que divide en dos partes proporcionalmente iguales a la distribución de los datos, ordenados de mayor a menor o viceversa.
Procedimiento:
1. Ordenar los datos de menor a mayor o viceversa.
48 48 48 48 55 56 58 62 62 74 75 78 86 86 90
2. Identificar el valor de n donde:
a. Si n es impar la mediana corresponde al valor de la variable que ocupa la posición dada por:
(n+1) /2
En nuestro caso se tiene n impar con valor de
15, por tanto la mediana será el valor que se
encuentre en la posición:
(15+1) /2 = 16/2 = 8
En la lista de datos ordenados observamos que
esta posición corresponde a 62 kg:
48 48 48 48 55 56 58 62 62 74 75 78 86 86 90
Esto indica que aproximadamente el 50 % delos datos se consideran menores o iguales adicho valor y el otro 50% mayores al mismo.
b. Si n es par, la mediana corresponde al promedio de las observaciones que ocupan las posiciones (n/2) y (n/2 +1).
48 48 48 48 55 56 58 62 62 74 75 78 86 86
Me = (58 + 62) / 2 = 60 kg
MODA (Mo): Es la observación o el dato que presenta la mayor frecuencia (el que mas se repite).
48 48 48 48 55 56 58 62 62 74 75 78 86 86 90
En nuestro caso la moda es 48kg .
TIPOS DE DISTRIBUCIÓ
N DE LOS DATOS
0
1
2
3
4
5
6
TIPOS DE DISTRIBUCIÓN DE LOS DATOS
DISTRIBUCIÓN DE FRECUENCIAS
Es un agrupamiento de datos en categorías, que muestra el número de observaciones en cada una de ellas. Usualmente se presenta en forma de Histogramas, Polígonos de Frecuencias, Gráfica de Pastel y Gráficos de líneas.
• HISTOGRAMA: Gráfica en la que las categorías se indican en el eje horizontal y las frecuencias de las categorías en el eje vertical. Las frecuencia se representa por la atura de las barras.
Ej: Se tiene el siguiente grupo de datos que corresponde a las edades de los 37 funcionarios de un banco. Construir un Histograma para visualizar las categorías y la frecuencia de cada una de ellas.
22, 24, 45, 55, 57, 33, 35, 36, 20, 21, 30, 41, 45, 47, 28, 39, 56, 50, 56, 41, 32, 33, 21, 29, 29, 46, 49, 40, 23, 23, 26, 28, 53, 34, 30, 25, 60.
Se observa que las edades de los funcionarios del Banco se encuentran entre los 20 y los 60 años. Por lo tanto podemos construir las siguientes categorías e identificar la frecuencia de las observaciones en cada una de ellas.
EDAD DE LOS FUNCIONARIOS DE UN BANCO
CATEGORIA FRECUENCIA
Entre 20 y 30 años 15
Entre 31 y 40 años 8
Entre 41 y 50 años 8
Entre 51 y 60 años 6
TOTAL 37
El histograma se obtiene graficando las categorías en el eje horizontal y las frecuencias en el eje vertical, manualmente o con la ayuda de programas como Excel.
Entre 20 y 30 años
Entre 31 y 40 años
Entre 41 y 50 años
Entre 51 y 60 años
0
2
4
6
8
10
12
14
16
Series1
41%
22%
22%
16%
FRECUENCIA
Entre 20 y 30 añosEntre 31 y 40 añosEntre 41 y 50 añosEntre 51 y 60 años
Con el diagrama de pastel se puede visualizar la distribución en forma de porcentajes.
Otra forma de presentar la distribución de frecuencias es mediante las Campanas de Gauss.
Con el uso de las medidas de tendencia central (media, mediana y moda) obtenemos los siguientes tipos de gráficos bajo ciertos parámetros:
DISTRIBUCIÓN ASIMÉTRICA POSITIVA O SESGADA A LA DERECHA
Se presenta cuando: Media › Mediana › Moda
X › Me › Mo
CATEGORIAFRECUENCIA
1 2
2 3
3 5
4 6
5 2
6 1
7 11 2 3 4 5 6 70
1
2
3
4
5
6
7
FRECUENCIA
FRECUENCIA
DISTRIBUCIÓN SIMÉTRICA O NORMAL
Se presenta cuando: Media ≈ Mediana ≈ Moda
X ≈ Me ≈ Mo
1 2 3 4 5 6 70
1
2
3
4
5
6
7
FRECUENCIA
FRECUENCIA
CATEGORIA FRECUENCIA
1 2
2 3
3 5
4 6
5 5
6 3
7 2
DISTRIBUCIÓN ASIMÉTRICA NEGATIVA O SESGADA A LA IZQUIERDA
Se presenta cuando: Media ‹ Mediana ‹ Moda
X ‹ Me ‹ Mo
CATEGORIA FRECUENCIA
1 1
2 1
3 2
4 6
5 5
6 3
7 21 2 3 4 5 6 7
0
1
2
3
4
5
6
7
FRECUENCIA
FRECUENCIA
MEDIDAS DE
DISPERSIÓN O
VARIACIÓN
MEDIDAS DE DISPERSIÓN
Medidas como la media y la mediana no nos dan información de la dispersión o la variación de los datos, por lo tanto es necesario definir otras medidas como:
RANGO: Es la diferencia entre el mayor valor y el menor valor.
Rango = Valor Mayor – Valor Menor
Ej: La producción máxima de computadores en la Planta Facilitos S.A es de 52 y la mínima es de 48; por lo tanto el rango de la producción diaria es de:
Rango = 52 – 48 = 4
Por el contrario en la planta Exitosos S.A la producción máxima es 60 y la producción mínima es 40 por tanto el rango es:
Rango = 60 – 40 = 20
Conclusión 1: hay menos dispersión en la producción diaria de la planta Facilitos S.A que en la planta Exitosos S.A.
Esto indica que la planta Facilitos es mucho mas eficiente y productiva que la planta Exitosos.
Conclusión 2: la producción esta mas estrechamente agrupada alrededor de 50 computadoras por día en la planta Facilitos que en la planta Exitosos, lo que nos indica nuevamente un mejor desempeño de la primera empresa.
VARIANZA POBLACIONAL: Es la media aritmética de las desviaciones de la media elevadas al cuadrado. Se usa para comparar la dispersión de dos o mas grupos de datos.
Ej: Las edades de todos los pacientes en la sala de aislamiento de la clínica La Merced son 38, 26, 13, 41 y 22 años.
¿Cuál es la Varianza Poblacional?
Varianza Poblacional = σ2 = ∑ (X- μ) 2 / N
σ2 = Varianza Poblacional X = valor de una observación de la población μ = media aritmética de la poblaciónN = número de observaciones de la población
Por tanto tenemos:
EDAD (años) X - μ (X - μ)2
38 10 100
26 -2 4
13 -15 225
41 13 169
22 -6 36
140 0 534
μ = (∑ X)/ N = 140 /5
μ = 28
σ2 = ∑ (X- μ) 2 / N = 534 /5
σ2 = 106.8
La varianza de las edades de los pacientes es de 106.8.
Si la varianza en las edades de los pacientes de cáncer en el hospital es de 342.9 se puede decir:
1. Hay menos dispersión en la distribución de las edades de los pacientes en aislamiento que en la distribución de las edades de los pacientes de cáncer porque 106.8 es menor que 342.9.
2. Las edades de los pacientes en aislamiento están mas estrechamente agrupadas alrededor de la media de 28 años de lo que lo están las de los pacientes en la sala de cáncer.
DESVIACION ESTANDAR POBLACIONAL:
Es la raíz cuadrada positiva de la varianza poblacional. Representa un promedio de cuanto se separan todos los datos de la media y viene dada por la formula:
σ = √ {∑ (X- μ) 2 / N}
Por tanto la desviación estándar de las edades de los pacientes de la sala de aislamiento de el anterior ejemplo es:
σ = √σ2 = √106.8 = 10.3 años
σ = 10.3 años
Lo anterior indica que en promedio cada una de las edades de los pacientes se alejan 10.3 años de la media que es de 28 años.