Apuntes de Estadistica 1- Descriptiva
-
Upload
jason-aranguiz -
Category
Documents
-
view
68 -
download
6
description
Transcript of Apuntes de Estadistica 1- Descriptiva
-
@ Abanto Canto
Estadstica Descriptiva
Rodolfo Abanto C.
Universidad Adolfo Ibez
-
@ Abanto Canto
I. Introduccin, Tablas y Grficos
1. Introduccin.
No podemos concebir la idea de un ingeniero trabajando sin datos. En finanzas, en la
industria, en economa y en muchos otros campos de la realidad la presencia de
conjuntos de datos es frecuente, de all la necesidad de conocer los fundamentos
probabilsticos y mtodos estadsticos que permitan el adecuado anlisis de datos y que
estos en consecuencia permitan deducir conclusiones para resolver problemas o generar
oportunidades.
La ciencia estadstica dispone de herramientas de recoleccin, de presentacin y
organizacin de datos y de anlisis. Problemas y oportunidades como mencionamos
antes estn presentes en el quehacer diario de un ingeniero civil, predecir o explicar las
ventas de un negocio, predecir la temperatura de un da en particular, comparar el
tratamiento de dos qumicos, segmentar clientes, modelar el mercado financiero son por
nombrar algunos ejemplos de problemas muy frecuentes.
2. Estadstica Descriptiva.
Los datos pueden ser generados automticamente por registros contables, industriales,
reportes, revistas, diarios, etc. Pero tambin se pueden generar mediante encuestas
diseadas especialmente en cada estudio en particular. Los estudios estadsticos pueden
referirse a toda la poblacin y en este caso estaremos en presencia de un censo. Por otro
lado, son muy frecuentes los estudios mustrales, en agronoma, finanzas, marketing e
industrias en general. Trabajar con una muestra de datos y no con toda la poblacin
hace la investigacin ms rentable en trminos econmicos y de tiempo; pero tambin
es razonable considerar que las muestras deben ser representativas, si no los resultados
seran incongruentes con la realidad respecto a las decisiones y en vez de solucionar un
problema, podra ocasionar problemas ms grandes. La ciencia estadstica recomienda
seleccionar aleatoriamente para obtener muestras representativas.
Por ltimo, recolectados los datos, el siguiente paso es resumir y describirlos, esto se
puede hacer usando las metodologas disponibles en la Estadstica descriptiva. Estos
procedimientos tienen los mismos objetivos en esencia, pero es importante considerar
la metodologa si estamos en frente de una poblacin o de una muestra.
Por ejemplo en un estudio poblacional la media se calcula:
Y en una muestra
-
@ Abanto Canto
Muchos diran que es lo mismo, pues no, hay una diferencia de tamao ( ) son dos
elementos muy diferentes en la ciencia estadstica, tambin y son dos medidas muy
diferentes, primero es una medida de la poblacin cuyo valor es nico (parmetro) a
diferencia de que es una medida de la muestra y cuyo valor (estimacin) depende de
la muestra que se tome (estimador).
Y as hay muchas otras diferencias respecto a la metodologa, propia si es que se est en
presencia de una poblacin o de una muestra de datos.
3. Poblacin y Muestra
El desarrollo de los procedimientos estadsticos en una poblacin es diferente al
desarrollo metodolgico en una muestra. Planteado un problema de investigacin es
importante definir claramente la poblacin de estudio en trminos de los objetivos, pues
las conclusiones que se obtengan sern de inters slo para la poblacin definida, por
otro lado, las poblaciones deben quedar claramente definidas es espacio y tiempo. Los
comportamientos poblacionales no son estables, ms an, si el estudio es de corte
trasversal, se debe definir claramente el momento en que fueron recolectados los datos.
La poblacin se define como la totalidad de elementos en estudio. Una muestra, es un
conjunto representativo y adecuado de la poblacin. Las tcnicas de muestreo buscan o
se desarrollan en base a estos dos criterios.
4. Variables
Son caractersticas asociadas a los elementos de una poblacin de estudio. Esta
caracterstica debe ser medida de acuerdo a los objetivos del estudio.
Es una caracterstica asociada a un elemento que compone la poblacin, esta no es cualquier
caracterstica como por ejemplo el nmero de Rut, que implica no ms que una identidad a
cierta persona, no servira de nada por ejemplo obtener el promedio de nmeros de Rut o
quizs graficar.
Por lo tanto, las variables son caractersticas asociadas directamente a individuos, objetos, o
empresas de las que se puede deducir conclusiones estadsticamente tiles en la toma de
decisiones.
Las variables se pueden clasificar de la siguiente forma:
A. Variables Cuantitativas: Son aquellas caractersticas cuya naturaleza de su resultado o respuesta se puede expresar por una cantidad o nmero. Dentro de estas variables se pueden
deducir dos:
-
@ Abanto Canto
A.1 Variables Cuantitativas Continuas: Su resultado se expresa con un nmero real, ejemplo:
utilidad, tasas de inters, ingresos, nivel de compra, etc.
A.2 Variables Cuantitativas Discretas: Su resultado se expresa por un nmero entero,
ejemplo: numero de integrantes de una familia, nmero de empleos en los dos ltimos aos
de una empresa, nmero de acciones transadas en un da, etc.
B. Variables Cualitativas: Son aquellas Caractersticas cuya naturaleza de su resultado se expresan por un atributo o cualidad, como ejemplo: sexo, calidad de un producto, tipo de
empresa, tipo de cliente, nivel de instruccin, etc.
EJEMPLO:
El gerente de la Empresa ORA s.a, preocupado por el rendimiento de sus empleados (120
empleados conforman la empresa), decide investigar algunas variables socio - econmicas,
para lo cual, solicita informacin al jefe del Departamento de Personal. Entregando este,
los siguientes datos:
N Ingreso Estado
Civil
N de hijos Edad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
300
200
150
230
250
450
230
560
238
240
270
450
360
440
Casado
Casado
Soltero
Casado
Casado
Soltero
Soltero
Soltero
Soltero
Soltero
Soltero
Casado
Casado
Soltero
1
0
1
1
2
3
2
1
1
4
4
1
1
0
28
22
33
36
45
45
46
48
48
56
25
45
46
26
-
@ Abanto Canto
15
16
17
18
19
20
330
330
223
236
200
269
Casado
Casado
Soltero
Casado
Soltero
Casado
2
1
0
3
4
2
47
39
26
30
32
45
Comentario:
Como se observa en la tabla, el jefe del departamento de personal slo entreg la
informacin correspondiente a 20 funcionarios, de los 120 que constituye la empresa. Por lo
que esta base de datos correspondera a una muestra; Ya que es un subconjunto de la
poblacin (totalidad de funcionarios de la empresa). No esta preciso si la muestra es
representativa y adecuada.
Esta claro que el tamao de la poblacin es N = 120 y el tamao de la muestra es n = 20.
Por otro lado, se estn reportando 4 variables de las cuales, dos son de tipo continua (edad e
ingreso), una cualitativa (estado civil), y una discreta (nmero de hijos). Cabe destacar, que
es cierto que la variable edad e ingreso estn anotadas en forma discreta (representadas por
un nmero entero); pero la naturaleza es continua, es decir, una persona puede decir que
tiene ingreso de 340,24 mil pesos (existe); sin embargo nadie puede asegurar que tiene 1,4
hijos; sino que tiene 1 2 hijos, que es la naturaleza de una variable discreta.
-
@ Abanto Canto
2. PRESENTACION DE DATOS: DISTRIBUCIONES DE FRECUENCIA
Como veremos en esta unidad, los datos se pueden presentar en tablas que llamaremos
distribuciones de frecuencia y/o en grficos. La forma de la distribucin de frecuencia y
el tipo de grfico, depender del tipo de variable a la que se este enfrentado.
2.1 DISTRIBUCIONES DE FRECUENCIA: Son tablas estadsticas especialmente diseadas
para la presentacin de datos (valores de la variable) y sus respectivas frecuencias de
ocurrencia, de tipo absoluto y relativo (%). En las distribuciones de frecuencia para variable
continua, cada clase estar determinada por intervalos continuos, en las variables discretas
la clase estar determinada por el resultado de la variable, es decir, por un nmero entero, y
en las distribuciones de frecuencia para variable cualitativa las clases quedarn
determinadas por el atributo o cualidad del resultado de la variable.
Las tres tablas que se presentan, son distribuciones de frecuencia de una variable continua
discreta y cualitativa:
Tabla N 1 : Distribucin de frecuencia de las Utilidades mensuales, en millones de
pesos, de PYME de la regin metropolitana, Diciembre-2001
Utilidades
(millones pesos) in im iN iM iX
20-30
30-40
40-50
50-60
60-70
70-80
10
20
22
15
8
5
0,125
0,250
0,275
0,188
0,100
0,062
10
30
52
67
75
80
0,125
0,375
0,650
0,838
0,938
1,000
25
35
45
55
65
75
Total 80 1.000
Fuente: Asociacin de PYME.
Tabla N 2 : Distribucin de frecuencia del nmero de variedad de produccin, de
PYME de la regin metropolitana, Diciembre de-2001.
-
@ Abanto Canto
Variedad de
Produccin in im iN iM
1
2
3
4
5
20
30
10
10
10
0,250
0,375
0,125
0,125
0,125
20
50
60
70
80
0,250
0,625
0,750
0,875
1,000
Total 80
Fuente: Asociacin de PYME
Tabla N 3 : Distribucin de frecuencia del rubro, de PYME de la regin metropolitana,
Diciembre de-2001
Rubro in im
Agricultura
Manufactura
Servicios
Otros
30
10
20
20
0,375
0,125
0,250
0,250
total 80 1,000
Fuente: Asociacin de PYME
La tabla nmero 1, corresponde al diseo de una distribucin de frecuencia para una
variable de tipo continua. La primera columna muestra los valores de la variable (utilidad
en millones de pesos) a travs de intervalos continuos, los que se denominan intervalos de
clase o simplemente clases, estos intervalos son cerrados por la izquierda (lmite inferior) y
abiertos por la derecha (lmite superior).
La segunda, tercera, cuarta y quinta columna muestran las frecuencias. Estas se definen de
la forma:
1. Frecuencia absoluta simple ( in ) : Define el nmero de datos con valores en la clase
correspondiente.
2. Frecuencia relativa simple ( im ): Define la proporcin de datos, correspondiente a la
frecuencia absoluta simple ( in ) respecto al tamao de la muestra (n ), y esta se calcula
por:
n
ni
La interpretacin de esta frecuencia se hace en porcentaje.
3. Frecuencia absoluta acumulada ( iN ) : Acumula la frecuencia absoluta simple
respecto a los valores de la variable (de menor a mayor).
-
@ Abanto Canto
4. Frecuencia relativa acumulada ( iM ) : Acumula la frecuencia relativa simple,
respecto a los valores de la variable (de menor a mayor).
Y la ltima columna de esta distribucin de frecuencia, define la marca de clase ( iX ), que
es el punto medio del intervalo de clase y que nos servir en los siguientes captulos para
calcular algunas medidas estadsticas descriptivas, se calcula por:
2
infsup limlimX i
donde:
suplim , es lmite superior de la clase y inflim , es el lmite inferior de la clase.
Para interpretar una distribucin de frecuencia se debe tener en cuenta las frecuencias ms
relevantes, como son las frecuencias ms grande y pequea o alguna que sea importante
para el estudio, ejemplo:
En la tabla nmero 1, en referencia a la distribucin de frecuencia para una variable de tipo
continua, la frecuencia absoluta ms grande es la que corresponde a la tercera clase, en
relacin tambin a la frecuencia relativa simple, 3n = 22 y 3m =0,275, siendo su
interpretacin : La clase con mayor nmero (22) de PYME es la de 40 a 50 millones de pesos y corresponden al 27,5% de las empresas en estudio.
Las frecuencias acumuladas, por ejemplo de la cuarta clase: 4N = 67 y 4M = 0,838, se
interpretan de la forma: 55 PYME tienen utilidades entre 20 y 60 millones de pesos y es equivalente al 83,8% de las empresas en estudio.
En la tabla nmero 2, se muestra el diseo de una distribucin de frecuencia para una
variable discreta. Las clases aqu como se ve en la primera columna quedan definidas por el
resultado de la variable. Las frecuencias se definen, calculan e interpretan de igual forma
que para la distribucin de frecuencia de una variable de tipo continua, por ejemplo:
La frecuencia absoluta y relativa simple de la segunda clase son: 302 n y 375,02 m ,
que se interpreta: 30 PYME tienen 2 variedades en su produccin y equivalen al 37,5% de las empresas en estudio, adems corresponde a la clase con mayor nmero de empresas. La
frecuencia absoluta y relativa acumulada de la tercera clase son: 3N = 60 y 3M = 0,75, que
se interpretan: 60 PYME tienen en su produccin 1, 2 3 variedades (o se puede expresar tambin entre 1 y 3) y que equivalen al 75% de las empresas en estudio.
En la tabla nmero 3, se muestra el diseo de una distribucin de frecuencia para una
variable cualitativa. Como se observa, las clases para este tipo de variable quedan definidas
tambin por el resultado de la variable. Las frecuencias se definen, calculan e interpretan de
la misma forma que en los casos de variable continua y discreta. Adems es importante
decir, que las frecuencias acumuladas para este tipo de variable no siempre se calculan
-
@ Abanto Canto
puesto que las interpretaciones no tendran sentido hacerlas, si las clases no estuvieran
ordenadas, como es en este caso.
Finalmente, si se observa la presentacin de las tres tablas, cada presentacin tiene tres
partes: un encabezamiento, la tabla propiamente dicha y una fuente. Estas partes siempre
es importante que aparezcan en toda presentacin de una tabla de distribucin de frecuencia
o de un grfico debido a su formalidad. El encabezamiento debe construirse de acuerdo a la
variable que se este estudiando y ubicarla en espacio y tiempo (utilidad, PYME y diciembre
del 2001) y la fuente indica de donde fueron tomados los datos.
2.2 CONSTRUCCION DE UNA DISTRIBUCION DE FRECUENCIA PARA UNA
VARIABLE CONTINUA.
Para construir una distribucin de frecuencia para una variable continua, se debe empezar
calculando los intervalos de clase siguiendo los siguientes pasos:
1. Obtener el valor mximo y mnimo de los datos de la muestra en estudio.
2. Obtener el rango ( valminvalmaxR ), que es la diferencia entre el valor mximo y mnimo, segn se observa en la frmula.
3. Obtener la amplitud ( c ), que es el cuociente entre el rango y el nmero de intervalos:
#
Rc , donde # es el nmero de intervalos.
El nmero de intervalos a usar en la distribucin de frecuencia, depender de la cantidad de
datos, se recomienda usar como mnimo 5 intervalos y cuando el nmero de datos es
alrededor de 50, 6 alrededor de 60 datos, 7 alrededor de 70 datos y as sucesivamente, y de
la dispersin o variacin de la informacin. En general, el nmero de intervalos depender
mucho de la experiencia del investigador. Hay frmulas que ayudan a un principiante
definir el nmero de intervalos, como por ejemplo la siguiente:
nlog33,11#
donde: #, es nmero de intervalos a encontrar y n es el tamao de la muestra o nmero de datos disponibles.
Por ltimo, la amplitud quedar aproximada al nmero de decimales que tengan los
datos
4. Encontrar el rango nuevo ( # cR ), que es el producto la amplitud encontrada en el paso 3 y el nmero de intervalos.
5. Encontrar la cantidad del rango sobrante ( RRs ), que es la diferencia entre el rango nuevo y el rango antiguo.
6. Repartir la cantidad sobrante del paso 5 en dos partes, una para restar al valor mnimo y la otra para sumar al valor mximo. Esto se hace con el fin de distribuir la cantidad
sobrante en dos partes iguales (ampliar el rango por el lado izquierdo y derecho en la
misma cantidad); pero no siempre pasa eso, cuando por ejemplo la cantidad a repartir es
-
@ Abanto Canto
un nmero impar, entonces lo que se hace es distribuir aproximadamente igual, por
ejemplo:
Reparticin igual: 21
1 0,4
2,0
2,0
Reparticin aproximadamente igual. 31
2 0,05
02.0
03.0
En el caso de que la reparticin sea aproximadamente igual, la cantidad que se resta al
valor mnimo es la mayor y la que se suma al valor mximo es la menor.
7. Obtenida la diferencia entre valor mnimo y la cantidad sobrante repartida, este cantidad ser el valor mnimo en la distribucin de frecuencia, especficamente el lmite inferior
de la primera clase. Luego para encontrar el lmite superior de esta primera clase, se
suma al lmite inferior la amplitud encontrada en el paso 3, este limite sera tambin el
lmite inferior de la siguiente clase, entonces lo que hacemos es lo mismo, sumamos la
amplitud para encontrar el otro lmite y as sucesivamente hasta llegar al valor mximo
encontrado en el paso anterior (valor mximo ms la cantidad repartida sobrante
menor).
Calculados los intervalos de clase, lo que hacemos a continuacin es contar el nmero de
datos que cae en cada clase. Este conteo producir la frecuencia absoluta simple, siguiente
paso ser calcular la frecuencia relativa simple, que como se haba definido, es el cuociente
entre la respectiva frecuencia absoluta simple y el tamao de la muestra, por ltimo se
calcula las frecuencias acumuladas y las marcas de clases tambin definidas.
Ejemplo sobre la construccin de una distribucin de frecuencia para datos de variable
continua:
Los siguiente son depsitos, en miles de pesos, de una muestra aleatoria de clientes que
llegaron a depositar en sus cuentas de ahorro el da 24 de junio del 2002, Banco X.
32,2 56,2 45,5 39,8 47,7 69,8 85,5
33,5 65,4 36,8 58,5, 50,8 64,8 59,5
78,3 29,4 29,7 39,5 58,4 45,8 55,8
45,2 28,4 52,5 53,4 49,5 39,5 26,7
38,3 48,4 29,5 32,5 78,8 70,7 72,5
45,5 38,7 63,5 68,4 60,8 58,8 48,2
El tamao de muestra es de 42 clientes, donde cada dato corresponde al valor del depsito
del cliente es estudio.
Primer paso : valor mximo = 85,5 valor mnimo = 26,7
Segundo paso : 7,265,85R 58,8
-
@ Abanto Canto
Tercer paso: 8,1176,115
8,58c
Aqu aproximamos a 11,8 (a dcimas) porque los datos aparecen con dcimas (es decir un
dgito despus de la coma decimal).
Cuarto paso : 5958,11 R
Quinto paso: 2,08,5859 s
Sexto paso: reparto: 1,0
1,02,0 Entonces: 6,261,0 Valmin y
6,851,0 Valmax
Sptimo paso: construimos los intervalos, siendo el lmite inferior de la primera clase
26,6 y despus se suma la amplitud para encontrar los siguientes limites hasta llegar al
ltimo valor que es 85,6.
26,6 + c = 26,6 +11,8 = 38,4 38,4 +11,8 = 50,2
50,2 +11,8 = 62,0
62,0 +11,8 = 73,8
73,8 +11,8 = 85,6
Produciendo los siguientes intervalos y procediendo hacer el conteo:
Depsitos
(miles pesos)
Conteo
[26,6-38,4)
[38,4-50,2)
[50,2-62,0)
[62,0-73,8)
[73,8-85,6]
| | | | | | | | | |
| | | | | | | | | | | |
| | | | | | | | | |
| | | | | | | |
| | |
Total 42
Del conteo se produce las frecuencias absolutas simples y se calculan las dems
frecuencias; As como sus respectivas marcas de clase. Es importante en esta parte recordar
que los intervalos considerados son abiertos por la derecha y cerrados por la izquierda, esto
quiere decir, por ejemplo que en la clase tres el dato con valor 62 no lo toma pues en el
lmite superior (62) es abierto y lo toma en la siguiente clase, es decir, le corresponde a la
cuarta clase:
-
@ Abanto Canto
Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,
del Banco X, 24 de junio del 2002.
Depsitos
(miles pesos) in im iN iM iX
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
10
12
10
7
3
0,24
0,28
0,24
0,17
0,07
10
22
32
39
42
0.21
0,52
0,76
0,93
1,00
32,5
44,3
56,1
67,9
79,7
Total 42 1,00
Fuente: Departamento de asuntos comerciales del Banco X
Como se puede ver, la construccin de una distribucin de frecuencia para variable
continua, como la que acabamos de desarrollar, puede ser implementada en excel, usando
las diferentes herramientas que dispone esta.
1.3 CONSTRUCCION DE UNA DISTRIBUCION DE FRECUENCIA PARA VARIABLE DISCRETA.
La construccin de una distribucin de frecuencia para variable discreta, es mucho ms
sencilla que para una variable continua, aqu las clases quedarn definidas por los posibles
resultados de la variable, procediendo despus al conteo y a los clculos de las respectivas
frecuencias simples y acumuladas.
Ejemplo de la construccin de una distribucin de frecuencia para una variable discreta:
Los datos siguientes, muestra el nmero de empleos de los clientes, en los dos ltimos aos,
recogidos segn el ejemplo anterior, el 24 de junio del 2002, Banco X.
1 2 3 1 1 1 1 2 2 4 2 2 1 2 3 1 4 2 1 2 1
2 2 2 1 1 1 2 0 1 0 0 2 0 1 0 1 1 3 1 2 3
Como se ve los posibles resultados son 0, 1, 2, 3, 4 empleos que tuvieron los clientes en los
dos ltimos aos. Visto esto, entonces procedemos a realizar el conteo:
Posibles
resultados de
la variable
Conteo
0
1
2
3
4
| | | | |
| | | | | | | | | | | | | | | | |
| | | | | | | | | | | | | |
| | | |
| |
Total 42
Listo el conteo, calculamos ahora las respectivas frecuencias:
-
@ Abanto Canto
Tabla N 5: Distribucin de frecuencia, del nmero de empleos en los dos ltimos
de un grupo de clientes del Banco X, 24 de junio del 2002
N de empleos,
2 ltimos aos
iX
in im iN iM
0
1
2
3
4
5
17
14
4
2
0,12
0,40
0,33
0,10
0,05
5
22
36
40
42
0,12
0,52
0,85
0,95
1,00
Total 42 1,00
Fuente: Departamento de asuntos comerciales, Banco X
La primera columna muestra los grupos o clases, definidas por los posibles resultados del
variable en estudio. Las siguientes columnas corresponden a las frecuencias. Cabe resaltar
que la columna correspondiente a los grupos, es decir los posibles resultados sern tratados
en los siguientes captulos como las marcas de clases son para la variables continuas.
1.4 CONSTRUCCION DE UNA DISTRIBUCION DE FRECUENCIA PARA VARIABLE CUALITATIVA.
Igual como en la construccin de una distribucin de frecuencia para variable discreta, la
construccin de una distribucin de frecuencia para variable cualitativa es muy sencilla.
Primero, entonces observamos los posibles resultados de la variables, produciendo esto las
frecuencias absolutas simple y luego calcular las frecuencias relativa y acumuladas. Los
posibles resultados conformaran las clases o grupos, como son los intervalos de clase para
la distribucin de frecuencia de una variable continua
Ejemplo de construccin de una distribucin de frecuencia para variable discreta:
Sobre los mismos clientes, tratados en los ejemplos de construccin de una distribucin de
frecuencia, para variable continua y discreta, tambin se observ la variable: Nivel de
instruccin (Bsico = B, Medio = M, Superior = S).
B B M B B B B B M M M M B M S S S S S M M
B B B M M S M B M S M B M S S M M M S S S
Observamos que los posibles resultados de la variable son: B, M y S y sern los que
conformaran los grupos o clases, para realizar el conteo, as:
-
@ Abanto Canto
Nivel de
Instruccin
Conteo
Bsico
Medio
Superior
| | | | | | | | | | | | |
| | | | | | | | | | | | | | | | |
| | | | | | | | | | | |
Total 42
El conteo, como ya lo hicimos en casos anteriores producir la frecuencia absoluta simple,
calculndose despus las frecuencia relativa.
Observando en las indicaciones dadas para la presentacin de una distribucin de
frecuencia de una variable cualitativa, las frecuencias acumuladas no se determinan.
Las frecuencias acumuladas no tienen valor calcularlas puesto que no tendran sentido sus
interpretaciones. Pasa esto en variables cualitativas; pero las variables cualitativas pueden
clasificarse tambin en ordinales y nominales, siendo las variables cualitativas ordinales
aquellas en la que los atributos estn ordenas en algn sentido y las nominales no estn
ordenadas. El nivel de instruccin es una variable ordinal, desde que un nivel de instruccin
bsico tiene menor grado que uno de nivel medio y estos adems menor grado que uno de
nivel superior. Desde este punto de vista entonces, en la distribucin de frecuencia para la
variable nivel de instruccin se podran calcular las frecuencias acumuladas, puesto que sus
interpretaciones respectivas se podran interpretar tambin.
Quedando, la presentacin de la siguiente forma:
Tabla N 6: Distribucin de frecuencia del nivel de instruccin de un grupo
de clientes del Banco X, junio del 2002.
Nivel de
Instruccin in im iN iM
Bsico
Medio
Superior
13
17
12
0,31
0,40
0,29
13
30
42
0,31
0,71
1,00
Total 42 1,00
Fuente: Departamento de Asuntos comerciales, Banco X
2. PRESENTACION DE DATOS: REPRESENTACION GRAFICA.
3.1 GRAFICOS PARA VARIABLE CONTINUA.
1. Polgono de Frecuencias: Este grfico se construye dentro de dos ejes, uno el eje horizontal y en el que se anota los valores de la variable, representados por los
intervalos de clase y en el otro eje, vertical, se anota la escala respecto de los resultados
obtenidos en las frecuencias.
Para mostrar el ejemplo, usaremos los resultados obtenidos en la tabla N 4:
-
@ Abanto Canto
Grfico N 1: Polgono de frecuencias de los depsitos de los clientes del
banco X, 24 de junio del 2002.
Fuente: Departamento de Asuntos Comerciales, Banco X
El polgono, si observamos esta construido respecto a la frecuencia absoluta simple ( in
). Tambin recordamos la presentacin que tiene las siguientes partes: Encabezamiento,
tabla propiamente dicha y la fuente.
2. Histograma de Frecuencia: Como en el polgono de frecuencias, el histograma est construido en dos ejes, el eje horizontal representando las clases de los valores de la
variable y el eje vertical representa los valores de la frecuencia respectiva, a graficar. El
histograma usa rectngulos continuos para representar la distribucin de los datos a
diferencia del polgono que usa lneas.
Usaremos los mismos datos usados para la construccin del polgono:
Tabla N 2: Histograma de Frecuencia de lo Depsito de un grupo de clientes
del Banco X, 24 de junio del 2002.
Fuente: Departamento de Asuntos Comerciales, Banco X.
0
2
4
6
8
10
12
14
14,8 26,6 38,4 50,2 62 73,8 85,6
ni
depsitos
Poligono de Frecuencias
0
2
4
6
8
10
12
14
ni
Histograma de Frecuencias
26,6-38,4 38,4-50,2 50,2-62 62-73,8 73,8-85,6
-
@ Abanto Canto
Cuando se hace la presentacin de los datos a travs de un grfico, el resultado de
este puede variar, de acuerdo a su asimetra como se muestra en las siguientes
figuras. Esta entonces pueden ser: Asimtrica positiva, asimtrica negativa o una
distribucin simtrica.
Segn el resultado de la asimetra, se podra interpretar la informacin que entrega
los datos. Por lo tanto, el resultado de la forma de la asimetra, proporciona una
pauta para interpretar los datos.
Nos fijamos en el eje horizontal, que representa los valores de la variable, los
valores ms bajos estaran cerca al origen y los ms altos lejos del origen o hacia el
lado derecho del eje. Por otro lado, la altura del polgono o del histograma indica la
cantidad de datos distribuidos en ese intervalo, es decir ms altura indicara que hay
mayor cantidad de datos, que en una parte del grfico donde la altura es menor.
Juntando estas dos indicaciones se interpretar un grfico, ya sea un polgono o un
histograma de frecuencia.
A continuacin daremos un alcance de la interpretacin de un histograma segn
su asimetra, considerando como resultados los grficos correspondientes y no
otro. Hago este alcance pues puede haber otras variaciones.
La mayor altura en esta distribucin asimtrica (positiva), se encuentra en valores
cercanos al origen, lo que muestra, en forma general, que gran parte de los datos
tienen valores bajos. Si por ejemplo, se estuviera analizando los ingresos de las
familias de cierta comuna, esta distribucin podra corresponder o ser el resultado
de una comuna de bajos recursos.
fre
cu
en
cia
x
Asimetria Positiva
-
@ Abanto Canto
En este tipo de asimetra (negativa), la mayor cantidad de datos como se observa,
tienen valores altos; puesto que la mayor altura, est a la derecha de la menor altura
del grfico. Si suponemos como en el caso anterior, un anlisis de los ingresos de
las familias de cierta comuna, esta distribucin sera el resultado de una comuna
con altos recursos.
Por ltimo, esta forma de distribucin corresponde a la de una distribucin
simtrica. La caracterstica principal, es que esta distribucin tiene como centro el
promedio, equivalente a la moda y mediana, y que si se parte por la mitad quedar
el 50% de los datos al lado izquierdo de la media y el otro 50% a lado derecho.
3.2 GRAFICOS PARA VARIABLES CUALITATIVAS.
1. Diagrama de Barras: Se dibujan dos ejes, el eje horizontal, que representa a los resultados de la variable y el eje vertical que representa a los valores de la frecuencia
respectiva, a graficar; dependiendo la escala de este eje, del valor mnimo y mximo de
las frecuencias. Dentro de los ejes se dibujan rectngulos o barras proporcionales a las
frecuencias ubicada en el eje vertical, con respecto a los resultados de la variable (eje
horizontal).
Cabe denotar aqu que los rectngulos, se parecen a los de un histograma, la diferencia
est, en que estos son separados y los de histogramas son rectngulos continuos.
fi
X
Asimetria negativa
-
@ Abanto Canto
Como ejemplo, usaremos los resultados obtenidos en la tabla N 6.
Grfico N 3 Diagrama de Barras del Nivel de Instruccin de un grupo de
clientes del Banco X, 24 de junio del 2002.
Fuente: Departamento de asunto comerciales, Banco X
2. Diagrama de sectores circulares: Aqu, se dibuja una circunferencia (360) y esta se divide proporcionalmente a las frecuencias de cada atributo (resultado de la variable) en
estudio.
Como ejemplo usaremos los datos tambin de la tabla N 6:
Grfico N 4: Diagrama de sectores circulares del nivel de instruccin de
un grupo de clientes del banco X, 24 de junio del 2002
Fuente: Departamento de asuntos comerciales, Banco X.
13
17
12
02468
1012141618
Bsico Medio Superior
ni
N. Instr.
Diagrama de Barras
Bsico 31%
Medio 40%
Superior 29%
Sectores circulares
-
@ Abanto Canto
2.3.1 GRAFICOS PARA VARIABLE DISCRETA.
Diagrama de Bastones: En este tipo de grfico, tambin se dibujan dos ejes uno horizontal
donde se anotan los resultados de la variable y en el eje vertical se anotan las frecuencias
respectivas. Como la variable es de tipo discreta lo que se hace es que en cada resultado de
la variable (eje horizontal) se dibuja una lnea hasta la altura de la frecuencia respectiva y se
dibuja un punto en la parte superior (la lnea y el punto forman el bastn).
Como ejemplo usaremos los resultados obtenidos en la tabla N 5:
Grfico N 5: Diagrama de Bastones del nmero de empleos en los dos ltimos
aos de un grupo de clientes del Banco X, 24 de junio, 2002.
Fuente: departamento de asuntos comerciales, Banco X.
Como ltima observacin, para esta parte de la presentacin grfica, como dijimos en la
parte anterior correspondiente a la construccin de distribuciones de frecuencia, estos
mtodos de presentacin de informacin estadstica, pueden ser implementados en Excel;
de hecho todos los grficos y tablas presentados en este documento estn desarrollados en
este software. Destacando tambin la presencia en el medio de muchos paquetes
estadsticos, los que tambin pueden ser usados. Adems estos disponen, de muchos otros
mtodos sofisticados para la presentacin grfica, de la informacin.
Para finalizar esta ltima observacin, quiero resaltar el uso de los colores en la
presentacin grfica, para indicar algunas clases o intervalos de clase de importancia, en
cualquier sentido.
0
5
10
15
20
-1 0 1 2 3 4 5
ni
# de empleos
Diagrama de Bastones
-
@ Abanto Canto
GUIA 1 de ejercicios
1. Almacenes FRANCIA, dispone de una base de datos de variables relacionadas a sus clientes (antecedentes histricos y personales). Con el objetivo de hacer una descripcin
estadstica de estas variables en forma rpida y econmica, se tom una muestra
aleatoria:
EDAD
(AOS)
DEUDA
VIGENT
E (U.M)
N
INTEGR
ANTES
FAMIL.
ESTAD
O CIVIL
N DE
CREDITO
S
SOLICIT
ADOS
25
45
25
46
28
48
56
23
45
29
28
55
45
36
39
33
30
31
45
58
56
50
49
47
29
30
42
35
36
36
25
14
58
39
45
50
200,8
255,4
369,5
456,7
108,6
125,3
200,6
190,3
236,5
333,9
258,5
147,5
299,4
368,5
449,8
405,2
426,8
436,3
325,8
346,7
486,5
256,9
200,6
563,6
405,7
499,5
456,5
555,6
521,3
169,2
369,2
358,5
248,8
391,6
488,8
256,3
2
3
6
5
4
2
2
3
5
4
6
2
3
2
5
5
5
3
4
4
3
5
5
3
2
3
5
6
2
3
1
2
2
4
4
3
S
C
C
C
C
S
S
C
C
C
C
C
C
S
C
C
C
C
C
C
S
S
C
C
S
C
C
C
S
C
S
S
S
C
C
C
1
3
2
2
5
4
4
3
4
5
5
5
5
2
6
7
4
4
2
3
5
7
6
6
5
4
7
7
7
2
1
3
5
4
4
5
-
@ Abanto Canto
a. Clasifique cada una de las variables en estudio. b. Construya una distribucin de frecuencia, para cada una de las variables en estudio c. Construya un grfico adecuado para cada una de las variables en estudio. d. Interprete los resultados obtenidos en las preguntas b y c. e. Segn los resultados obtenidos en la distribucin de frecuencia para la edad y la deuda
vigente:
Qu porcentaje de la muestra de clientes, tienen edad inferiores a 31 aos
Que cantidad de la poblacin de clientes, tienen edad superior a 45 aos, si esta es de tamao N= 2.500.000.
Qu cantidad de la poblacin tienen edades entre 23 y 39 aos, considerando el tamao de poblacin anterior.
Qu porcentaje, de la muestra de clientes en estudio, tienen deuda vigente inferior a 301,5 u.m
Que porcentaje, de la muestra de clientes en estudio, tienen deuda vigente entre 198 y 367 u.m.
2. En cierto Banco, se ha lanzado al mercado un producto de crdito de consumo, los ingresos (miles de pesos) de los clientes que solicitan este producto son dados a
continuacin:
350,34 359,35 268,67 198,54 168,89 279,98 156,34 278,56 135,78 169,96 128,93
135,45 157,84 158,83 187,45 146,87 167,89 200,52 210,67 234,74 145,74 234,74
200,12 310,32 312,45 300,78 324,78 345,78 289,45 345,34 234,89 275,67 145,73
333,78 233,23 239,78 289,56 156,56 128,73 344,54 234,45 156,45 125,34 157,77
Construya una distribucin de frecuencia y su respectivo grfico, para esta informacin. Interprete sus resultados, discuta y concluya.
Los directivos del Banco, quieren llegar con este producto, a personas con ingresos ms
altos. Es por esta razn, que se desarrolla una campaa de publicidad, para atraer a
estos clientes. Los ingresos de los clientes, despus de aplicada la publicidad son dados
a continuacin:
256,54 300,78 360,54 320,25 329,56 239,54 199,56 210,45 140,45 152,23 310,12
139,12 129,12 124,25 256,25 289,23 178,25 342,52 259,36 230,26 158,56 213,21
200,23 231,21 260,23 165,15 136,25 189,18 195,12 219,56 239,45 289,56 278,45
300,45 300,12 289,12 238,54 288,88 210,15 321,25 249,23 248,52 369,45 289.99
Construya una distribucin de frecuencia y su respectivo grfico. Interprete los resultados, discuta y concluya. La publicidad tuvo efecto segn los resultados.
Segn un estudio realizado en otra institucin bancaria, se lleg a la conclusin de que clientes que solicitan crdito con ingresos inferiores 189,34 mil pesos, son
clientes con riesgo de no pagar el crdito. Usando la distribucin de frecuencia
estime el porcentaje de clientes con riesgo de no pagar el crdito, antes y despus
de aplicada la publicidad.
-
@ Abanto Canto
Si la poblacin de clientes esta conformada por 1.500.000 personas, usando la estimacin de la pregunta anterior, que cantidad de clientes de la poblacin se
estima con riesgo de no pagar el crdito.
Otra institucin de la competencia tambin realiz un estudio y determin que el porcentaje de clientes con riesgo segn su ingreso era del 20%. Cul es el valor del
ingreso superior de los clientes con riesgo de no pagar?
3. Antes de comenzar un estudio se decidi que sera de gran ayuda para la realizacin del mismo
hacer una encuesta, con el objeto de tener informacin muy reciente del mercado.
Para evaluar el concepto de producto que reciben los potenciales consumidores, y si se
adecua a sus necesidades, hemos realizado el siguiente test, sobre una muestra de 100 personas
pertenecientes a todas las zonas del mercado donde lanzamos el producto.
-
@ Abanto Canto
II. Medidas Descriptivas
1. MEDIDAS DE TENDENCIA CENTRAL.
Son medidas estadsticas de descripcin y de resumen que tienen la caracterstica de ser centros
de gravedad respecto de los datos. La media, mediana y moda son las medidas de tendencia
central que estudiaremos en esta unidad, cada una tiene su definicin y por lo tanto el
procedimiento de clculo ser diferente en cada caso, as como tambin su respectiva
interpretacin. Para mejor entendimiento sobre los clculos de estas medidas, dividimos en dos
partes los procedimientos, segn los datos enfrentados:
1.1 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS
1. Media o Promedio: Es el valor esperado de la variable, al seleccionar aleatoriamente un dato y se calcula usando la siguiente frmula:
n
x
x
n
i
i 1
donde:
x : es el promedio o media.
ix : valor del dato i-simo.
n : tamao de la muestra.
Ejemplo: Se tiene el ingreso mensual de un grupo de clientes de la financiera Z
200, 300, 250, 300, 280, 300. (datos en miles de pesos)
-
@ Abanto Canto
Segn la frmula la media ser: 67,2716
300280300250300200
x
Lo que quiere decir que: Si se selecciona al azar un cliente se espera que este cliente tenga
un ingreso mensual de 271,67 mil pesos.
2. Mediana: Es el valor de la variable que divide a los datos de la muestra ordenada en dos partes iguales, es decir que cada parte dividida equivale al 50% de la muestra. La frmula que calcula la mediana es:
)()( 212 nXme
donde:
me : es la mediana.
n : es el tamao de la muestra.
En el Ejemplo usaremos los datos anteriores: 200, 300, 250, 300, 280, 300.
El primer paso es ordenar los datos, esta ordenacin puede ser de menor a mayor o de
mayor a menor. A continuacin ordenamos de menor a mayor:
200, 250, 280, 300, 300, 300,
El siguiente paso es calcular el orden que ocupa la mediana en esta ordenacin de la
mediana:
)()( 212 nXme )()( 2126 X 5,3X
-
@ Abanto Canto
El subndice del ltimo resultado indica el orden que ocupa la mediana, queriendo decir
entonces que la mediana esta entre el dato 3 y 4 (puesto que el subndice es 3,5).
Siendo el dato tres igual a 280 y el dato cuatro igual a 300. Por lo que la mediana sera el
promedio de ambos nmeros, es decir:
pmme .2902
300280
interpretndose que: El 50% de los clientes del Banco Z tienen ingresos de 290 mil pesos o
menos, en consecuencia la otra mitad tienen ingresos superiores a 290 mil pesos.
Cabe indicar aqu que la mediana fue el resultado del promedio de dos nmeros en razn
de que el tamao de la muestra es un nmero par (n = 6), esto no debe pasar con el
tamao de muestra impar en este caso la mediana sera directamente un solo nmero.
3. Moda. Es el valor de la variable con mayor frecuencia entre los datos de la muestra. Por lo tanto si existe moda, la moda puede ser una, dos, tres, o muchas modas; pero tambin no puede existir. En otra palabras, las muestras pueden ser amodales si no tienen moda, unimodales si tienen una moda, bimodales si tienen dos modas, trimodales si tienen tres modas y as sucesivamente. Aqu por lo tanto, no se puede disponer de una frmula, calculando la moda con
simple observacin:
En los datos del ejemplo anterior se observa que el dato con mayor frecuencia es 300,
es decir, la moda es 300.
Que se interpreta: es muy frecuente en los clientes del Banco z encontrar un ingreso
de 300 mil pesos.
-
@ Abanto Canto
1.2 MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS
En la parte anterior, sobre medidas de tendencia central para datos no agrupados,
definimos estas medidas, es decir, la media, mediana y moda. Ahora para datos agrupados
nos centraremos en los procedimiento de clculo puesto que las definiciones sern las
mismas.
Empezamos entonces con el promedio o medi
1. PROMEDIO O MEDIA: La frmula es la siguiente:
n
nx
xi
a
i
i
1
donde:
:x es el promedio
:ix es la marca de clase i-sima
in : frecuencia absoluta simple.
n : tamao de muestra.
a : nmero de clases o intervalos.
Ejemplo: Usemos los datos de la tabla N 4 en la unidad I:
-
@ Abanto Canto
Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,
del Banco X, 24 de junio del 2002.
Depsitos
(miles pesos) in im iN iM iX
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
10
12
10
7
3
0,24
0,28
0,24
0,17
0,07
10
22
32
39
42
0.21
0,52
0,76
0,93
1,00
32,5
44,3
56,1
67,9
79,7
Total 42 1,00
Fuente: Departamento de asuntos comerciales del Banco X
Para calcular el promedio de los depsitos tomamos las frecuencias absolutas simples y las
marcas de clase, desarrollando otra columna correspondiente al producto de ambas y
obtenemos la suma, que es la equivalencia a la parte del numerador en la frmula del
promedio::
Depsitos
(miles pesos) in ix ii nx
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
10
12
10
7
3
32,5
44,3
56,1
67,9
79,7
325,0
531,6
561,0
475,3
239,1
Total 42 2132
Por lo que el promedio sera: n
nx
xi
a
i
i
1
= 76.5042
2132 m.p
La interpretacin es: Si se toma aleatoriamente un cliente, se espera que este deposite 50,76
mil pesos.
-
@ Abanto Canto
2. MEDIANA. La frmula para calcular la mediana es:
k
k
ken
Nn
cLm1
inf2
donde:
em : es la mediana
infL : lmite inferior de la clase mediana
kc : amplitud de la clase mediana.
n : tamao de la muestra.
1kN : frecuencia absoluta acumulada, anterior a la clase mediana
kn : frecuencia absoluta simple de la clase mediana
Para el ejemplo usaremos los datos correspondiente a la tabla N 4 de la unidad I:
Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,
del Banco X, 24 de junio del 2002.
Depsitos
(miles pesos) in im iN iM iX
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
10
12
10
7
3
0,24
0,28
0,24
0,17
0,07
10
22
32
39
42
0.21
0,52
0,76
0,93
1,00
32,5
44,3
56,1
67,9
79,7
Total 42 1,00
Fuente: Departamento de asuntos comerciales del Banco X
Para calcular la mediana de los depsitos necesitamos las columnas correspondiente a la
frecuencia absoluta simple y acumulada. Por tal razn, copiamos lo que necesitamos en
otra tabla, quedando de la forma:
-
@ Abanto Canto
Depsitos
(miles pesos) in iN
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
10
12
10
7
3
10
22*
32
39
42
Total 42
Segn estos datos entonces procedemos a hacer el primer clculo que es: 212
42
2
n,
este ltimo valor calculado se observa en que clase cae en la columna correspondiente a
las frecuencias absolutas acumuladas. Observando la tabla este valor 21 cae en la segunda
clase (en la tabla esta marcado con asterisco) lo que indica que el valor de la mediana est
en esta clase. Procediendo a continuacin a identificar los otros elementos de la frmula,
es decir:
4,38inf L ; 8,11kc ; 101 kN y 12kn .
Sustituyendo estos valores en la frmula quedar:
k
k
ken
Nn
cLm1
inf2 = 22,49
12
102
42
8,114,38
m.p.
Se interpreta: Que la mitad de los clientes del banco Z, depositan 49,22 mil pesos o
cantidades inferiores, y en consecuencia la otra mitad depositan cantidades superiores a
49,22 mil pesos.
-
@ Abanto Canto
3. MODA. La frmula para calcular la moda es la siguiente:
21
1inf ko cLm
donde:
om : es la moda
infL : lmite inferior de la clase modal
kc : amplitud de la clase modal
11 kk nn
12 kk nn
kn : frecuencia absoluta simple ms grande
1kn : frecuencia absoluta simple anterior a la ms grande.
1kn : frecuencia absoluta simple siguiente a la ms grande.
Para el ejemplo del clculo de la moda usaremos otra vez los resultados de la tabla N 4 de
la unidad I:
Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,
del Banco X, 24 de junio del 2002.
Depsitos
(miles pesos) in im iN iM iX
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
10
12
10
7
3
0,24
0,28
0,24
0,17
0,07
10
22
32
39
42
0.21
0,52
0,76
0,93
1,00
32,5
44,3
56,1
67,9
79,7
Total 42 1,00
Fuente: Departamento de asuntos comerciales del Banco X
-
@ Abanto Canto
Calcularemos entonces la moda. de los depsitos de los clientes del Banco Z. Para esto
absorbemos las columnas necesarias:
Depsitos
(miles pesos) in
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
10
12
10
7
3
Total 42
Y procedemos como primer paso a identificar la mayor frecuencia absoluta simple, siendo
esta frecuencia la correspondiente a la clase dos es decir: 122 n . Por lo tanto la moda es
un valor que esta en la segunda clase, en consecuencia deducimos los otros elementos de
la frmula:
4,38inf L ; 8,11kc ; 11 kk nn = 12 10 = 2; 12 kk nn = 12 10 = 2
Sustituyendo en la frmula, quedar:
21
1inf ko cLm 3,44
22
28,114,38
m.p
Interpretndose: que es muy frecuente que un cliente deposite 44.3 m.p
-
@ Abanto Canto
1.3 MEDIDAS DE POSICION
Son medidas estadsticas descriptivas que indican la posicin del valor de la variable segn
la cantidad de datos acumulados porcentualmente. A continuacin daremos las
correspondientes definiciones para despus desarrollar los procedimientos de clculo:
1. Cuantiles o Cuartiles: Son los valores de la variable que dividen a la muestra en cuatro partes iguales, esto quiere decir que entre cuantil y cuantil hay 25% de los datos.
2. Quintiles: Son los valores de la variable que dividen a la muestra en cinco partes iguales, lo que indica que entre quintil y quintil hay 25% de los datos.
3. Deciles: Son los valores de la variable que dividen a la muestra en diez partes iguales, en consecuencia entre decil y decil hay 10% de los datos.
4. Percentiles: Son los valores de la variable que dividen a la muestra en cien partes iguales, esto quiere decir que entre percentil y percentil hay 1% de los datos.
1.3.1 Calculo de Medidas de Posicin para datos Agrupados.
Como expresamos anteriormente para datos no agrupados el clculo de cuantiles,
quintiles, deciles y percentiles se asemejan a la mediana, para datos agrupados
tambin sucede lo mismo; puesto que las definiciones persisten. Las frmulas
entonces sern muy parecidas a la frmula de la mediana con una leve
modificacin dependiendo del caso.
-
@ Abanto Canto
1. Cuantiles:
k
k
kin
Nni
cLQ1
inf4
donde:
iQ : es el cuantil i-simo ( i 1,2,3)
infL : Lmite inferior de la clase cuantlica
kc : Amplitud de la clase cuantlica.
n : Tamao de la muestra.
1kN : Frecuencia absoluta acumulada, anterior a la clase cuantlica
kn : Frecuencia absoluta simple de la clase cuantlica.
2. Quintiles:
k
k
kin
Nni
cL1
inf
5
Donde:
i : es el quintil i-simo ( i 1, 2, 3, 4)
infL : Lmite inferior de la clase quintlica
kc : Amplitud de la clase quintlica.
n : Tamao de la muestra.
1kN : Frecuencia absoluta acumulada, anterior a la clase quintlica
kn : Frecuencia absoluta simple de la clase quintlica.
3. Deciles:
k
k
kin
Nni
cLD1
inf
10
Donde:
iD : es el decil i-simo ( i 1 ,2, 3...9)
infL : Lmite inferior de la clase declica
-
@ Abanto Canto
kc : Amplitud de la clase declica.
n : Tamao de la muestra.
1kN : Frecuencia absoluta acumulada, anterior a la clase declica
kn : Frecuencia absoluta simple de la clase declica.
4. Percentiles:
k
k
kin
Nni
cLP1
inf
100
Donde:
iP : es el percentil i-simo ( i 1, 2, 3...99)
infL : Lmite inferior de la clase percentlica
kc : Amplitud de la clase percentlica.
n : Tamao de la muestra.
1kN : Frecuencia absoluta acumulada, anterior a la clase percentlica
kn : Frecuencia absoluta simple de la clase percentlica.
A continuacin mostraremos ejemplos sobre el clculo de medidas de posicin
para datos agrupados:
Recordemos la distribucin de frecuencia sobre la que se desarroll los ejemplos
de clculo de medidas de tendencia central:
Tabla N 4: Distribucin de frecuencia de depsitos de cliente, en miles pesos,
del Banco X, 24 de junio del 2002.
Depsitos
(miles pesos) in im iN iM iX
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
10
12
10
7
3
0,24
0,28
0,24
0,17
0,07
10
22
32
39
42
0.21
0,52
0,76
0,93
1,00
32,5
44,3
56,1
67,9
79,7
Total 42 1,00
Fuente: Departamento de asuntos comerciales del Banco X
-
@ Abanto Canto
De esta tabla tomemos las columnas que sirven para el clculo de medidas de
posicin:
Depsitos
(miles pesos) in iN
26,6-38,4
38,4-50,2
50,2-62,0
62,0-73,8
73,8-85,6
10
12
10
7
3
10
22
32
39
42
Total 42
Primero veremos como ejemplo el clculo de cuantiles, en particular el cuantil 1:
Como primer paso como en la mediana, determinamos de la frmula para los
cuantiles:
k
k
kin
Nni
cLQ1
inf4
k
k
kn
Nn
cLQ1
inf14
1
5,104
421
4
ni, este resultado le ubicamos a la altura de la frecuencia absoluta
acumulada donde le alcanza o pasa, siendo esta la frecuencia absoluta simple de la
segunda clase, es decir: 222 N (entonces k=2). Esto nos indica que la clase
donde se encuentra el cuantil 1 es la segunda clase y a partir de este conocimiento
fijamos los valores de la frmula, por ejemplo: la frecuencia absoluta acumulada
anterior a la clase cuantlica es: 1011 NNk , la frecuencia absoluta simple de
la clase cuantlica es: 122 nnk , la amplitud de la clase cuantlica es:
8,112 cck y por ltimo el lmite inferior de la clase cuantlica es: 4,38inf L .
Reemplazamos estos valores en la frmula y tenemos:
k
k
kn
Nn
cLQ1
inf14
1
pm.89,3812
105,108,114,38
Esto quiere decir que el 25% de los clientes del banco X depositan 38,89m.p o
cantidades inferiores, obviamente el complemento equivalente al 75% depositan
cantidades superiores a 38,89m.p.
Ahora veamos el caso del clculo de quintiles, calculemos entonces el quintil 4:
-
@ Abanto Canto
La frmula para calcular quintiles es la siguiente y nos interesa calcular el quintil 4
reemplazamos en la i el nmero 4, como sigue:
k
k
kin
Nni
cL1
inf
5
k
k
kn
Nn
cL1
inf4
5
4
Enseguida calculamos de la frmula la parte correspondiente a:
6,335
424
5
4
n, este resultado le ubicamos a la altura de la frecuencia
absoluta acumulada donde le alcanza o pasa respectivamente, siendo esta la
frecuencia absoluta simple de la segunda clase, es decir: 394 N (entonces k=4).
Esto nos indica que la clase donde se encuentra el quintil 4 es la cuarta clase y a
partir de este conocimiento fijamos los valores de la frmula, por ejemplo: la
frecuencia absoluta acumulada anterior a la clase quintlica es: 3231 NNk , la
frecuencia absoluta simple de la clase quintlica es: 74 nnk , la amplitud de la
clase quintlica es: 8,112 cck y por ltimo el lmite inferior de la clase
quintlica es: 0,62inf L . Reemplazamos estos valores en la frmula y tenemos:
k
k
kn
Nn
cL1
inf4
5
4
pm.70,647
326,338,1162
Esto quiere decir que el 80% de los clientes del banco X depositan 64,70m.p o
cantidades inferiores, obviamente el complemento equivalente al 20% depositan
cantidades superiores a 64,70m.p.
-
@ Abanto Canto
Gua 2 de ejercicios
1. Los siguientes datos corresponden al rendimiento, medido porcentualmente, de una
muestra aleatoria de vendedores de seguros.
Rendimien
to (%) in
0-20
20-40
40-60
60-80
80-100
5
15
50
60
40
total 170
a. Determine e interprete:
(a.1) media o promedio. (a.2) mediana (a.3) moda
(a.4) cuartil 1 (a.5) decil 3 y 9 (a.7) percentil 23 y 77
b. El jefe del departamento de ventas necesita categorizar a los vendedores segn su rendimiento, pero l nunca tuvo una asignatura de estadstica y le pide a usted que le ayude en esta tarea. La categorizacin se har de la siguiente forma: - El 20% de los vendedores con rendimiento ms bajo, en categora D. - El siguiente 30% en rendimiento, en categora C. - El siguiente 25% en rendimiento, en categora B. - Y el resto en categora A.
c. Si se contratara a dos vendedores y despus de cierto perodo se establece que sus rendimientos son de 38% y 77%, en qu categoras quedarn clasificados?.
-
@ Abanto Canto
d. Estos datos (rendimientos de los vendedores) corresponden al primer trimestre del ao 2002; Pero se sabe, por antecedentes que el rendimiento de cada uno de los vendedores aumenta en 5 unidades porcentuales ms, en el segundo trimestre. Cul sera el promedio en el segundo trimestre?
2. Un contratista de venta e instalacin de sistemas de calefaccin y aire acondicionado debe resolver para el 2 de noviembre la compra de unidades centrales de aire acondicionado para su reventa e instalacin durante el verano siguiente. Con base en la demanda anterior, las condiciones econmicas corrientes y los factores competitivos del mercado, estima que existe una probabilidad de 0,10 de vender 5 unidades, una probabilidad de 0,30 de vender 10 unidades, una probabilidad de 0,40 de vender 15 unidades y una probabilidad de 0,20 de vender 20 unidades. Las unidades de aire acondicionado slo pueden pedirse en grupos de cinco siendo su costo por unidad de 1.000 dlares y su precio de reventa de 1.300. Las unidades no vendidas al trmino de la temporada le son devueltas al fabricante con un crdito neto de 800 dlares. Tras la deduccin del costo de embarque.
a. Construya una tabla de pagos del nmero de unidades de aire acondicionado por ordenar (pedir).
b. Tome la decisin de cuantas unidades ordenar, con base en las probabilidades como en las consecuencias econmicas.
3. En la siguiente tabla se presentan los rendimientos de cinco tipos alternativos de decisiones de inversin para un perodo de un ao y las probabilidades asociadas con la recesin, la estabilidad econmica y la expansin que son 0,30, 0,50, y 0,20, respectivamente. Determine la mejor accin segn el pago esperado.
Estado
economa
Probab Decisin de Inversin
Cuent
Ahorro
Bonos
Corp
Acc. Alta
calid
Acc. Espec Otras
Recesin
Estable
Expansin
0,30
0,50
0,20
600
600
600
500
900
900
-2.500
800
4.000
-5000
400
10.000
-10.000
-5.000
20.000
-
@ Abanto Canto
4. Con base en un nuevo mtodo tecnolgico, un fabricante ha desarrollado un televisor a color con cinescopio de 45 pulgadas. El dueo de una pequea tienda estima que los valores de probabilidad asociados con la venta de 2, 3, 4 o 5 televisores durante los tres meses de inters son 0.30, 0.40, 0,20 y 0.20, respectivamente. Adems se sabe que el margen de ganancia de cada televisor vendido es de 200.000 pesos. Si en el curso de los tres meses no se vendiera algunos televisores, la prdida total por aparato para el comerciante sera de 300.000 pesos. Con base en estas consecuencias econmicas y las probabilidades identificadas determine la mejor accin segn el pago esperado.
5. En la siguiente distribucin de frecuencia se tiene el nmero de autos vendidos de vendedores de una distribuidora de automviles en un mes en particular:
Nmeros de
autos vendidos
Nmero de
vendedores (
in )
2
4
10
12
14
15
5
6
10
10
8
4
Determine e interprete: (a) media (b) mediana (c) mediana
6. En las siguiente tablas se tiene las D.F de las remuneraciones de los funcionarios en dos empresas diferentes:
-
@ Abanto Canto
Empresa A Empresa B
Remunera
.
(u.m)
in Remunera.
(u.m)
in
110-210
210-310
310-410
410-510
510-610
610-710
30
40
70
40
20
10
115-215
215-315
315-415
415-515
515-615
615-715
30
45
75
50
25
15
6.1 Determine e interprete para cada una de las D.F: (a) media (b) mediana (c) moda (d) percentil 60.
6.2 Si supuestamente las dos empresas le ofrecen trabajo, usando los resultados anteriores, a cul de las empresas aceptara? Fundamente su respuesta.
6.3 Si se necesitara categorizar a los funcionarios de estas empresas, segn sus remuneraciones, de tal forma que el 25% ms bajo en remuneraciones sea la categora C, el siguiente 50% en remuneraciones en categora B y el resto en categora A. Cules seran los lmites de cada categora?
6.4 Si usted ingresa a laborar en la empresa A y le ofrecen de remuneracin 305 um. En qu categora clasifica?
6.5 S usted ingresa a laborar en la empresa B y le ofrecen de remuneracin 585 u.m. En qu categora clasifica?
-
@ Abanto Canto
6.6 Si en la empresa A se decide aumentar las remuneraciones a cada funcionario en un 6%. Cul sera la nueva remuneracin promedio?
6.7 Si en la empresa B se decide disminuir las remuneraciones a cada uno de los funcionarios en 10 u.m Cul sera la nueva remuneracin promedio?
7. Desarrolle las preguntas e de la gua de ejercicios 1, usando las frmulas de medidas de posicin.
8. En el sector servicios el sueldo promedio es de 200 u.m. Si los varones constituyen el 70% de la poblacin remunerada, es factible que su ingreso promedio mensual sea de 300 u.m.
9. La media aritmtica entre dos nmeros es 8 y su media geomtrica 2. Calcule la media armnica.
-
@ Abanto Canto
III.
Dispersin o Variacin: Es la distancia que hay entre el valor de un dato y el valor de la
media.
Ejemplo: Sea la muestra de ingresos de 6 empleados, en unidades monetarias, 56, 60, 52,
50, 48, 63.
El promedio es 83,54x dispersin del dato 56
dispersin del dato 60
x 54,83
48 50 52 54 56 58 60 62
Como se observa en el dibujo anterior, cada dato tiene su respectiva dispersin con
respecto al promedio. En adelante se analizara la dispersin pero en conjunto mediante
medidas absolutas o relativas.
1. Varianza: Es una medida de dispersin absoluta medida en unidades cuadradas de los datos originales. Se define:
n
xx
S
n
i
i
n
1
2
2
)(
Varianza muestral
1
)(1
2
2
1
n
xx
S
n
i
i
n Cuasi varianza
-
@ Abanto Canto
Siendo deducidas de estas, las frmulas prcticas:
21
2
2 xn
x
S
n
i
i
n
1
1
22
2
1
n
xnx
S
n
i
i
n
Respectivamente.
2. Desviacin Estndar: Se define como la raz cuadrada de la varianza. Esta medida de
variacin se puede interpretar como el promedio de variabilidad de los datos con respecto
al promedio. Se define:
2SS
3. Coeficiente de Variabilidad: Es una medida relativa de la variacin de los datos
respecto de la media. Si el coeficiente de variacin es menor o igual al 33% los datos
pueden considerarse como homogneos y si el coeficiente de variacin es mayor al 33%
heterogneos. Esto ltimo que se anoto es subjetivo y referencial pues otros pueden
considerar valores diferentes, en todo caso mientras mayor sea el valor porcentual mucho
ms hetergeneos sern los datos en la muestra. Se define:
100)( X
SxCV
-
@ Abanto Canto
OTRAS MEDIDAS DE VARIABILIDAD IMPORTANTE EN EL ANALISIS DE DATOS
1. Rango Intercuartlico: Se define como la diferencia entre el cuartil 3 y el cuartil 1. Esta
medida busca el rango o recorrido del 50% de los datos centrales, que en diferentes
muestras pueden ser comparados evitando datos ausentes (25% por abajo y 25% por
arriba) que pueden estar distorsionando la comparacin de la informacin. La frmula es:
13 QQRIC
2. Desviacin media: Es una medida de variabilidad de los datos respecto de la media y
que a diferencia de la varianza usa el valor absoluto de la diferencia (la varianza usa el
cuadrado de la diferencia). Se define:
n
xxXMD
i )(. Para datos no agrupados
n
nxxXMD
ii )(. Para datos agrupados
No olvide estimado alumno que la desviacin media y la varianza son medidas de
variabilidad con respecto a la media (diferencia del valor del dato y la media), la
discrepancia radica en el uso de la herramienta matemtica (cuadrado en el caso de la
varianza y el valor absoluto en el caso de la desviacin media) para no perder la suma
total de las diferencias en el cociente de cada una de las frmulas. La interpretacin
entonces de la desviacin y la desviacin estndar es la misma.
-
@ Abanto Canto
3. ndices de asimetra: Los ndices o criterios de asimetra son ciertas funciones que, tras
aplicar a determinados datos ofrecen algunos de los siguientes resultados:
0As Indica simetra
0As Indica asimetra positiva
0As Indica asimetra negativa
Entre los ndices de asimetra ms conocidos tenemos:
3.1 ndice de asimetra de Pearson: S
MoxAs
3.2 ndice de asimetra de Fisher:
3
3 /)(
S
nxxAs
i Para datos no agrupados
3
3 /)(
S
nnxxAs
ii Para datos agrupados
-
@ Abanto Canto
4. Medidas de Apuntamiento o Curtosis. El grado de dispersin de los datos influye sobre
la curva. El apuntamiento o curtosis es una ms de las propiedades de una distribucin de
frecuencias. Se parte de la base de que existen curvas con un grado medio de
apuntamiento, otras ms apuntadas y otras menos apuntadas.
Los criterios son los siguientes:
3Cr La curtosis es media, se habla de Mesocurtica
3Cr La curtosis es alta, se habla de Leptocurtica
3Cr La curtosis es baja, se habla de Platicurtica.
La frmulas son:
4
4 /)(
S
nxxCr
i Para datos no agrupados
4
4 /)(
S
nnxxCr
ii Para datos agrupados
Ejercicios para la clase:
1. Se tiene las notas producto de las evaluaciones de un curso de capacitacin que se
realiz a un grupo de vendedores de seguros de vida:
-
@ Abanto Canto
20, 50, 80, 50, 80, 96, 58, 89, 36, 78, 99, 98,
Calcule e interprete:
a. Varianza
b. Desviacin estndar
c. coeficiente de variabilidad
d. rango Intercuartlico
e. ndice asimetra
f. ndice de curtosis
g. desviacin media
2. Las edades de un grupo de jefes de familia del barrio Italia en la comuna de La florida
son dadas a continuacin.
Edades in
20-30 10
30-40 2
40-50 10
50-60 5
-
@ Abanto Canto
Calcule e interprete:
a. Varianza
b. Desviacin estndar
c. coeficiente de variabilidad
d. rango Intercuartlico
e. ndice asimetra
f. ndice de curtosis
g. desviacin media
-
@ Abanto Canto
Otros Grficos Descriptivos.
Diagrama de tallos y Hojas
Una forma adecuada de organizar un conjunto de datos de tamao pequeo es graficando
a travs de tallos y hojas. Estas grficas se obtienen dividiendo cada uno de los datos,
por ejemplo, en dos partes: tallo y hojas. Si todos los datos son nmeros de dos dgitos,
podemos tomar como su tallo la parte del nmero correspondiente a las decenas, y como
su hoja la parte del dgito correspondientes a las unidades.
El dato 45:
Tallo: 4 hoja: 5
Los datos 45 y 47:
Tallo 4 y Hojas: 5,7
Veamos el siguiente ejemplo (Edades de clientes):
45 56 35 26 24 25 56 23 24 39 36 29 36 36 25 36 44 18 36 25 36 25 66 26 35 41 51 62 60
(SPSS)
Edad Stem-and-Leaf Plot
Frequency Stem & Leaf
1,00 1 . 8
10,00 2 . 3445555669
9,00 3 . 556666669
3,00 4 . 145
3,00 5 . 166
3,00 6 . 026
Stem width: 10,00
Each leaf: 1 case(s)
-
@ Abanto Canto
Diagrama de cajas
Se usa algunos de los estadsticos que resumen una muestra de datos, como por ejemplo:
mediana, cuartiles, asimetra, etc. Tambin es un detector de datos atpicos o datos
extremos.
Donde:
Banda exterior inferior:
Banda interior inferior:
Banda interior superior:
Banda exterior superior:
Adems:
Cuartil 1 Cuartil 3 Me
BEI
BII BIS
BES
Datos
Atpicos
at
Datos
Atpicos
at
Datos
Extremos
at
Datos
Extrem
os
-
@ Abanto Canto
Trabajando los mismos datos del ejemplo anterior.
-
@ Abanto Canto
Problema propuesto: Supongamos tenemos los siguientes datos (aparece solo la primera parte de datos, en realidad son 150 datos), correspondientes a los clientes de una
empresa de seguros.
-
@ Abanto Canto
A continuacin se procesan estos (150 clientes) datos en R, obteniendo los grficos de
histograma, box plot y diagrama de tallos y hojas. Interprete, discuta y deduzca
conclusiones que permita describir o perfilar a los clientes segn la informacin
registradas (variables)
-
@ Abanto Canto
> stem(Ingresos[Genero=="Hombre"],3)
-
@ Abanto Canto
The decimal point is 1 digit(s) to the right of the | 25 | 579 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 3 34 | 35 | 36 | 6 37 | 38 | 9 39 | 8 40 | 0337 41 | 46 42 | 0 43 | 8 44 | 9 45 | 1469 46 | 47 | 579 48 | 048 49 | 2567 50 | 249 51 | 6 52 | 0679 53 | 0348899 54 | 24566 55 | 11259 56 | 05 57 | 135677 58 | 012246789 59 | 55 60 | 139 61 | 2477 62 | 1 63 | 59 64 | 06 65 | 226 66 | 68 67 | 0 68 | 147 69 | 129 70 | 71 | 72 | 73 | 6 74 | 0 75 |
-
@ Abanto Canto
76 | 6 77 | 27 78 | 79 | 80 | 4 81 | 82 | 0 83 | 84 | 85 | 86 | 87 | 88 | 89 | 2 90 | 91 | 3 92 | 93 | 94 | 95 | 96 | 97 | 98 | 9 > stem(Ingresos[Genero=="Hombre"],3) The decimal point is 1 digit(s) to the right of the | 25 | 579 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 3 34 | 35 | 36 | 6 37 | 38 | 9 39 | 8 40 | 0337 41 | 46 42 | 0 43 | 8 44 | 9 45 | 1469 46 | 47 | 579 48 | 048 49 | 2567
-
@ Abanto Canto
50 | 249 51 | 6 52 | 0679 53 | 0348899 54 | 24566 55 | 11259 56 | 05 57 | 135677 58 | 012246789 59 | 55 60 | 139 61 | 2477 62 | 1 63 | 59 64 | 06 65 | 226 66 | 68 67 | 0 68 | 147 69 | 129 70 | 71 | 72 | 73 | 6 74 | 0 75 | 76 | 6 77 | 27 78 | 79 | 80 | 4 81 | 82 | 0 83 | 84 | 85 | 86 | 87 | 88 | 89 | 2 90 | 91 | 3 92 | 93 | 94 | 95 | 96 | 97 | 98 | 9 >
-
@ Abanto Canto
Ejercicios propuestos:
1. La edad media de los candidatos a un determinado curso de perfeccionamiento siempre fue baja, aproximadamente 22 aos. Como ese curso fue proyectado para captar candidatos de todas las edades, se decidi hacer una campaa de divulgacin. Para verificar si la campaa fue o no eficiente se hizo un estudio de la edad de los candidatos de la ltima promocin, con los siguiente resultados
Edad (aos) Frecuencia
18-20
20-22
22-26
26-30
30-36
18
12
10
8
2
total 100
a. A partir de estos resultados. dira usted, que la campaa tuvo algn efecto ( Obviamente segn la media).
b. Un investigador decidi usar la siguiente regla: si la diferencia ( 22x ) resulta ser
mayor que el valor
n
s2 , concluye que la campaa tuvo efecto. Cul sera su
conclusin si adopta esta regla?
2. A continuacin se tiene el retorno diario de una accin B medido en tanto por uno,
durante 220 das:
-
@ Abanto Canto
Retorno diario ni
-0.10 -0.05
-0.05 0.00
0.00 0.05
0.05 0.10
0.10 0.15
0.15 0.20
0.20 0.25
20
10
50
10
70
40
20
Calcule e interprete: a. varianza b. desviacin estndar c. coeficiente de variacin
d. ndice de asimetra e. ndice de curtosis
2. Los activos anuales (en millones de pesos) de un grupo de empresas son
Activos (millo. de
pesos)
ni
600-800
800-1000
1000-1200
1200-1400
1400-1600
1600-1800
10
40
20
30
60
10
Determine e interprete: a. Varianza b. desv. Estndar. c. Coeficiente de variacin
-
@ Abanto Canto
d. Desviacin media e. Rango Intercuartlico.
3. A continuacin se registra los impuestos pagados por un grupo de pequeos empresarios en unidades monetarias (u.m)
Impuestos (u.m) ni
34-38
38-42
42-46
46-50
50-54
54-58
50
20
30
30
20
10
a. Grafique adecuadamente. Interprete en trminos de su asimetra
b. Son los impuestos homogneos estadsticamente. Justifique.
c. Categorize a los empresarios de la forma:
-
@ Abanto Canto
IV
Medidas de Relacin.
En muchas aplicaciones, interesa medir la relacin entre dos variables cuantitativas o
quizs tambin entre dos variables cualitativas. En esta unidad estudiaremos medidas de
relacin entre dos variables cuantitativas.
Para estudiar la relacin entre dos variables cuantitativas, se recomienda iniciar el estudio
explorando grficamente esta relacin, mediante la construccin de un diagrama de
dispersin. Para luego confirmar esta relacin explorada mediante medidas estadstico
como ejemplo la covarianza o el coeficiente de correlacin
Covarianza.
La covarianza es una medida de la forma de la relacin entre dos variables cuantitativas.
La covarianza puede ser positiva, negativa o cero. Si la covarianza es positiva, entonces la
relacin entre las variables es positiva o directa, ejemplo, el caso de la oferta y el precio
(ver figuras abajo). Si la covarianza es negativa, entonces la relacin entre las variables es
negativa o inversa, ejemplo, el caso entre la demanda y el precio. Si la covarianza es cero
no hay relacin (lineal) entre las variables.
-
@ Abanto Canto
La covarianza se define.
11
))((
),cov( 1
n
yxnyx
n
yyxx
yx
n
i
ii
,
Observe que si yx la ),cov( yx es igual a la varianza. Podemos entonces interpretar la
covarianza como una medida de dispersin entre dos variables, que mide la relacin entre
estas dos variables.
cov (x, y)= + cov (x, y)= -
cov (x, y)0
-
@ Abanto Canto
Ejemplo:
Es de inters en cierta empresa del rubro metalrgico, estudiar la relacin entre la
variable edad, medida en aos, y el rendimiento laboral, medida en porcentaje. Se tiene el
siguiente registro:
X: Edad Y: Rendimiento Laboral
28 52
26 59
36 88
56 90
42 75
23 62
Construimos en una primera etapa un diagrama de dispersin que nos permita explorar la
relacin existente entre estas dos variables. A continuacin, se muestra el respectivo
diagrama de dispersin:
Y: Rendimiento Laboral
40
50
60
70
80
90
100
20 30 40 50 60
Edad (aos)
-
@ Abanto Canto
Del diagrama de dispersin podemos concluir, en esta primera etapa de exploracin, que
la relacin entre estas dos variables es directa (positiva), es decir, a mayor edad mayor
rendimiento laboral o tambin a menor edad menor rendimiento laboral.
La medida de covarianza que calcularemos, nos confirmar la exploracin que se hizo con
el diagrama de dispersin:
X Y XY
28 52 1456
26 59 1534
36 88 3168
56 90 5040
42 75 3150
23 62 1426
211 426 15774
Donde representa los totales de cada columna.
Aplicando la formula tenemos: 6,1585
6
426
6
211615774
),cov(
yx
-
@ Abanto Canto
La covarianza resulta ser 158,6. Este nmero es positivo, por lo tanto, la relacin entre la
variable edad y rendimiento laboral es positiva. La covarianza confirma la exploracin
hecha con el diagrama de dispersin.
Coeficiente de Correlacin
El coeficiente de correlacin es una medida estadstica bivariada, al igual que la
covarianza, pero que adems de medir la forma, mide el grado de la relacin entre, no se
olviden, dos variables cuantitativas.
El valor del coeficiente de correlacin esta entre -1 y +1, pasando obviamente por el cero.
Si el coeficiente de correlacin esta cerca de -1 +1 la relacin es alta (depende del signo
si es positiva o negativa). Si el coeficiente de correlacin esta cerca del cero
(positivamente o negativamente) la relacin es baja. Si es cero es por que la covarianza es
cero, entonces no hay relacin entre la variables. Podramos ser una poco mas especfico y
decir que si el coeficiente de correlacin esta cerca del +0,5 -0,5 la relacin es moderada
(negativa o positiva).
El coeficiente de correlacin se define:
yx
yxSS
yxr
),(cov,
Calcules el coeficiente de correlacin para el ejemplo:
-
@ Abanto Canto
X Y XY 2X 2Y
28 52 1456 784 2704
26 59 1534 676 3481
36 88 3168 1296 7744
56 90 5040 3136 8100
42 75 3150 1764 5625
23 62 1426 529 3844
211 426 15774 8185 31498
Como vemos en la ltima tabla incluimos dos nuevas columnas en los clculos, esto para
poder calcular las desviaciones estndar que necesitaremos.
69,1525
6
21168185
1
2
22
n
xnxS x
4,2505
6
426631498
1
2
22
n
ynyS y
Por lo tanto la covarianza es igual a:
81,04,2506.152
6,158,
yxr
-
@ Abanto Canto
Es decir la relacin entre la edad y el rendimiento es directa y adems alta.
Cuando empezamos esta unidad dijimos que los diagramas de dispersin permitan
explorar la forma de la relacin. Pero tambin adems de explorar la forma permiten
explorar el grado de la relacin, como se muestra en las siguientes figuras. En diagramas
de dispersin donde los puntos graficados de las dos variables estn cerca de una lnea, la
relacin entre las variables es fuerte, que a diferencia de aquellos donde los puntos estn
ms alejados de una lnea.
Y Y
1X 2X
Esta claro entonces que yxyx rr 21
Regresin Lineal Simple.
Muchas veces se necesita predecir o estimar el valor de una variable Y, que llamaremos
variable dependiente, conociendo el valor de una variable X, que llamaremos variable
independiente.
El mtodo de regresin lineal simple, entrega la herramienta para satisfacer esta
necesidad.
Este asume una relacin lineal entre las variables dependiente e independiente, es decir
un modelo de la forma:
-
@ Abanto Canto
XY 10 +
Que es el modelo de regresin lineal poblacional, donde 0 es el valor del intercepto,
geomtricamente el valor sobre el eje Y por donde cruza la lnea en el plano. Un modelo
sin intercepto como el siguiente:
XY 1
Cruza por el origen del plano.
1 Es el valor de la pendiente que geomtricamente define el ngulo de inclinacin de la
lnea definida en un plano.
En trminos reales el intercepto es el valor de la variable dependiente, cuando el valor de
la variable independiente es cero. Y la pendiente es cambio esperado de la variable
dependiente (aumenta o disminuye), cuando la variable independiente cambia (aumenta
o disminuye) en una unidad.
XY 10
-
@ Abanto Canto
Estimacin
La ecuacin de la recta se estima minimizando la suma de las distancias cuadradas entre el
valor observado y esperado, es decir, de las siguientes ecuaciones.
( )
Es as que se obtiene el modelo de regresin lineal simple muestral, es decir:
Donde:
-
@ Abanto Canto
( )
Ejemplo:
Segn resultados anteriores:
6,158),cov( yx 69,152xS
Por lo que:
El modelo de regresin lineal simple muestral sera:
Esta ecuacin estimada, es la ecuacin obtenida bajo el criterio que expresamos antes: Es
la mejor ecuacin de la lnea, es decir, la lnea mediante la cual se minimiza las distancia
cuadradas entre el valor observado y el valor estimado de cada observacin.
-
@ Abanto Canto
A continuacin obtenemos esta lnea mediante la ayuda de Excel, una herramienta
importantsima en el procesamiento de los datos, para el anlisis.
El valor del intercepto estimado es de 34,538, la diferencia con la ecuacin estimada por
la formulas es por el proceso de aproximacin que ocupamos. Un intercepto de 34,538
indica que si una vendedor tuviera una edad de cero aos su rendimiento sera de
34,538%. Por otro lado la pendiente, que en este caso indica que por cada ao que
aumenta la edad el rendimiento aumentara tambin en 1,0368%.
En la salida tambin aparece una medida de bondad de ajuste, que es el coeficiente de
determinacin. Esta indica cuanto explica el modelo de la variacin de la variable
dependiente, visto de otra forma el porcentaje de explicacin de la variable
dependiente, por la variable independiente. Se obtiene.
y = 1,0368x + 34,538 R = 0,6567
30
40
50
60
70
80
90
100
20 40 60
Y
Y
Lineal (Y)
-
@ Abanto Canto
En el ejemplo este valor es 65%, que indica que la edad explica un 65% de la variacin del
rendimiento.
-
@ Abanto Canto
Ejercicios propuestos.
1. Suponga que se prueba una c