t1_100105_326
Transcript of t1_100105_326
TRABAJO COLABORATIVO UNIDAD No. 2
CARLOS ARTURO PACHON 80439789
EDWIN MANUEL SÁNCHEZ LARA 80432962
OSCAR JULIO SUÁREZ MILLÁN
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
ESCUELA DE CIENCIAS BÁSICAS
ESTADÍSTICA DESCRIPTIVA
09 DE NOVIEMBRE DE 2012
Introducción
Este trabajo tiene como propósito ejemplificar métodos para medir e interpretar el
comportamiento de un conjunto de datos dados. Los datos extremos pueden estar bastante
alejados de una tendencia central. Medir esa variación respecto a los promedios es un cálculo
importante en el tratamiento estadístico de datos, medidas a las que se les denomina de
dispersión o de variación.
La varianza se define como la media aritmética de los cuadrados de las desviaciones respecto a
la media aritmética. Se simboliza s2 para la varianza muestral y σ2 para la varianza poblacional.
La desviación típica, se obtiene extrayendo la raíz cuadrada de la varianza, tomando siempre el
valor positivo. Se simboliza por s en la muestra y σ en la población. Para efectuar
comparaciones entre series de observaciones distintas, en estadística se usa el coeficiente de
variación y así se puede determinar cuál serie tiene mayor o menor variabilidad relativa.
En las distribuciones asimétricas la media se corre en el sentido del alargamiento o sesgo por
efecto de las frecuencias y de los valores extremos de la variable; con el fin de determinar si
existe alguna relación entre las variables, que bien pudieran ser ambas discretas o continuas, o
también una de ellas discreta y la otra continua, se utilizan las medidas estadísticas
bivariantes. Un diagrama de dispersión es un plano cartesiano, ubicando en el eje horizontal o
abscisa los valores de la primera variable denominada X y en el eje vertical u ordenada, los
valores de la segunda variable, Y. De manera pues que se grafican tantas parejas ordenadas
como observaciones hayan de las variables. La regresión examina la relación entre dos
variables restringiendo una de ellas respecto a la otra, con el objeto de estudiar las variaciones
de la primera cuando la otra permanece constante.
El error estándar del estimado consiste en medir el grado de confiabilidad de la ecuación de la
recta estimada. Regresión múltiple consiste en el mismo procedimiento de una regresión lineal
simple: describir la ecuación de regresión, determinar el error de estimación y analizar la
correlación entre las variables.
Los números índice son cifras relativas expresadas en términos porcentuales, que sirven para
indicar las variaciones que sufre una serie de valores respecto a una de ellas, tomada como
punto de referencia y a la cual se le denomina base.
Objetivos
a) Desarrollar un taller de ejercicios sobre los contenidos de la Unidad 2 del curso de Estadística Descriptiva, los cuales les permitirán profundizar en los temas tratados.
b) Analizar algunos de los datos obtenidos en el CENSO 2005 realizado por el
DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA, DANE.
TRABAJO COLABORATIVO UNIDAD No. 2
1. MENTEFACTO CONCEPTUAL
MENTEFACTO DE MEDIDAS DE DISPERSION
Trata de la diferencia entre el límite superior y el límite inferior de un conjunto de datos
MEDIDAS ESTADISTICAS
Compara las medidas de dispersión
Medidas de Longitud de Arco
MEDIDAS DE DISPERSION
Manejar los conceptos de dispersión
Curva normal o campana de Gauss
Curvas asimétricas
MEDIDAS DE ASIMETRIA Y
APUNTAMIENTO
RANGO O VARIANZA Y DESVIACION COEFICIENTE DE VARIACION PUNTAJE TIPICO RECORRIDO ESTANDAR Y DESVIACION MEDIA O ESTANDARIZADO
2. Las estaturas en centímetros de los socios de un club juvenil de Bogotá, son las siguientes:
153 123 129 132 147 138 137 134 131 147138 128 134 148 125 139 146 145 148 135152 128 146 143 138 138 122 146 137 151145 124 132 138 144 141 137 146 138 146152 156 160 159 157 168 178 142 113 130
Realizar una tabla de distribución de frecuencias para datos agrupados dado que la variable es estatura (cuantitativa continua), Calcular varianza, desviación estándar y coeficiente de variación. Interprete los resultados.
1 1132 1223 1234 1245 1256 1287 1288 1299 130
10 131
11 13212 13213 13414 13415 13516 13717 13718 13719 13820 13821 13822 13823 13824 13825 13926 14127 14228 14329 14430 14531 145
32 14633 14634 14635 14636 14637 14738 14739 14840 14841 15142 15243 15244 15345 15646 15747 15948 16049 16850 178
Rango17
8 - 113 = 65Número de clases. Aplicando la Regla de Sturges:
K = 1 + 3,322 Log 50 = 11,29 ---- 12Amplitud de los intervalos de clase.
A = 65 = 5,417 --- 612
Como se ha redondeado, debe hallarse el nuevo rango:
R = 6 * 12 = 72Existe exceso de 1, [66 – 65 = 1]. Este exceso debe distribuirsesumado 1 al superior por agruparse mas los datos
178 + 1 = 179113 = 113
Intervalos de clase. Se agrega A-1= 6-1= 5 al límite inferior de cada clase,Iniciando por el límite inferior del rango. Así:
A - 1 = 6 - 1 = 5
113 + 5 = 118
119 + 5 = 124
125 + 5 = 130
131 + 5 = 136
137 + 5 = 142
143 + 5 = 148
149 + 5 = 154
155 + 5 = 160
161 + 5 = 166
167 + 5 = 172
173 + 5 = 178
179 + 5 = 184
Limites reales
112 + 113 = 225 = 112,5
2 2
118 + 119 = 237 = 118,5
2 2
124 + 125 = 249 = 124,5
2 2
130 + 131 = 261 = 130,5
2 2
136 + 137 = 273 = 136,5
2 2
142 + 143 = 285 = 142,5
2 2
148 + 149 = 297 = 148,5
2 2
154 + 155 = 309 = 154,5
2 2
160 + 161 = 321 = 160,5
2 2
166 + 167 = 333 = 166,5
2 2
172 + 173 = 345 = 172,5
2 2
178 + 179 = 357 = 178,5
2 2
Tabla de frecuencias
INTERVALOS DE CLASE FRECUENCIA
Estatura en CmNo de
personas
112,5 - 118,5 1
118,5 - 124,5 3
124,5 - 130,5 5
130,5 - 136,5 6
136,5 - 142,5 12
142,5 - 148,5 13
148,5 - 154,5 4
154,5 - 160,5 4
160,5 - 166,5 0
166,5 172,5 1
172,5 178,5 1
TOTAL 50
a) VarianzaPara datos agrupados:
INTERVALOS DE CLASEFRECUENCI
A Punto Medio Fx * X0
Estatura en CmNo de
personas X Fx x
112,5 -118,
5 1 115,5 115,5 665,6
4
118,5 -124,
5 3 121,5 364,5 1.176,12
124,5 -130,
5 5 127,5 637,5 952,2
0
130,5 -136,
5 6 133,5 801 365,0
4
136,5 -142,
5 12 139,5 1674 38,88
142,5 -148,
5 13 145,5 1891,5 229,3
2
148,5 -154,
5 4 151,5 606 416,1
6
154,5 -160,
5 4 157,5 630 1.049,76
160,5 -166,
5 0 163,5 0 -
166,5 -172,
5 1 169,5 169,5 795,2
4
172,5 -178,
5 1 175,5 175,5 1.169,64
total 5
0,00 1.600,50 7.065,00 6.858,00
X = 1.600,50 50,00
-
x = 141,3
varianza 6.858,00 50,00
varianza 137,16
INTERVALOS DE CLASE FRECUENCIAPunto Medio
Ʃfx2
Estatura en Cm No de personas X Fx
113 - 119 1 115,5 115,5 13.340,2
5
119 - 125 3 121,5 364,5 44.286,7
5
125 - 131 5 127,5 637,5 81.281,2
5 131 - 137 6 133,5 801 106.933,50 137 - 143 12 139,5 1674 233.523,00 143 - 149 13 145,5 1891,5 275.213,25
149 - 155 4 151,5 606 91.809,0
0
155 - 161 4 157,5 630 99.225,0
0 161 - 167 0 163,5 0 -
167 - 173 1 169,5 169,5 28.730,2
5
173 - 179 1 175,5 175,5 30.800,2
5
TOTAL 50 7065 1.005.142,5
0
b) Desviación Estándar
(Ʃfx)2
S = Ʃfx2 - n n - 1
6.858,0
S = 49
S = 139,96
S = 11,83
c) Coeficiente de variación
CV= s x 100
x
CV= 11,83 x 100141,3
CV= 8,37%
3. Un empleado de la empresa de Acueducto de la ciudad de Cartagena, realiza un estudio sobre los reclamos realizados en los 2 últimos años, para ello elige una muestra de 60 Personas, con los siguientes resultados:
No. reclamaciones
0 1 2 3 4 5 6 7
No. usuarios 26 10 8 6 4 3 2 1
Promedio
No de Reclamaciones
No de Usuarios
x2
0 26 676,00
1 10 100,00
2 8 64,00
3 6 36,00
4 4 16,00
5 3 9,00
6 2 4,00
7 1 1,00
28 60 906
promedio 2,14
Varianza
S2 = Ʃfx2
- xW2
n
S2 = 906 - 4,5928
S2 =27,7
7
Desviación Típica
S = Ѵ27,77
S = 5,27
Coeficiente de Variación
CV = S X 100xW
CV= 5,27 x2,14
CV= 245,90%
Se concluye que los datos son heterogéneos, hay diferencias significativas entre ellos, así es que el promedio es poco representativo, hay una variación notable en las reclamaciones por
usuario, ya que varían gradualmente respecto a la media en: 27.77 hubo mayor estabilidad en las reclamaciones alrededor de su media: 2.14. Hay una variación relativa entre las reclamaciones y el número de usuarios.
4. En un examen final de Estadística la puntuación media de un grupo de 150 estudiantes fue de 78 y la varianza 64. En álgebra, sin embargo, la media final del grupo fue de 73 y la desviación tipica7,6. En que asignatura hubo mayor:
a. Dispersión absoluta
b. Dispersión relativac. Si el estudiante consiguió 75 en estadística y 71 en álgebra. ¿En qué asignatura fue su puntuación relativa superior?
Media Varianza Desviación típica
Estadística 7,8 6,4
Algebra 7,3 7,6
a. Dispersión absoluta
Estadística S2 = 64S= Ѵ 64 = 8
Desviación típica:
Estadística 8,0Algebra 7,6
Por lo tanto en estadística hubo mayor dispersión absoluta, que en algebra, ya que 8>7,6.
b. Dispersión relativa
EstadísticaCV = 8,0
X 10078
CV = 10,2%
AlgebraCV = 7,6
X 10073
CV = 10,4%
Hay Mayor Dispersión Relativa en Algebra, ya que 10,4>10,2.
c. Si el estudiante consiguió 75 en estadística y 71 en álgebra. ¿En qué asignatura fue su puntuación relativa superior?
Estadística 7,5Algebra 7,1
EstadísticaZ= X - X\ = 7,5 - 7,8 = -0,0375
S 8,0
AlgebraZ= X - X\ = 7,1 - 7,3 = -0,026
S 7,6
Dado que Algebra con -0,026, esta más cerca de cero, entonces la puntuación relativa es superior que la de estadística.
5. Ingresar al blog de Estadística Descriptiva que se encuentra en la página principal del curso en el TOPICO DE CONTENIDOS, posteriormente buscar el LABORATORIO (RERESIÓN Y CORRELACIÓN LINEAL –EXCELL) y realizar el ejercicio número 1 que se encuentra al final del laboratorio
Ejercicio 1. Se quiere estudiar la asociación entre consumo de sal y tensión arterial. A una serie de voluntarios se le administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después
x (sal) y ( Presión)1,8 100
2,2 983,5 1054 110
4,3 1125 120
a) Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.
x (sal) y ( Presión) xy x^21,8 100 180 3,242,2 98 215,6 4,843,5 105 367,5 12,254 110 440 16
4,3 112 481,6 18,495 120 600 25
20,8 645 2284,7 79,82
1.5 2 2.5 3 3.5 4 4.5 5 5.50
20
40
60
80
100
120
140
f(x) = 6.31374243733794 x + 85.6123595505618R² = 0.916480645896744
Diagrama de Dispersion
Dosis de Sal
Tens
ion
Arte
rial
Para conocer el tipo de relación que puede existir entre estas dos variables, el primer paso es determinar es si el diagrama de dispersión efectivamente insinúa una tendencia lineal, como se observa en la grafica anterior, se procede ahora a determinar la ecuación de la recta que más se ajusta. Para ello se hace uso del método de los mínimos cuadrados.
Ŷ = a + bX Donde
b = nƩxy - ƩxƩy
nƩx2 - (Ʃx)2
b =
6
* 2.284,7 - 20,8
* 645,0
6
* 79,8 - 432,6
b = 13.708,2 -
13.416,0
478,9 - 432,6
b = 292,2 46,3
b = 6,31
Donde a = Ʃy -bƩx n
a = 645,0 - 6,31 * 20,8
6
a = 645,0 - 131,3
6
a = 513,7 6
a = 85,61
b) Encuentre el modelo matemático que permita predecir el efecto de una variable sobre la otra. ¿Es Confiable?
La ecuación de la recta ajustada está dada por: Ŷ = 6,31 x + 85,61
c) Determine el porcentaje de explicación del modelo y el grado de relación de las dos variables
Grado de relaciónError estándar
Ʃy2 - a Ʃy - b Ʃxy Se = n -2
Se = 69.673 - (85,61 * 645,0)
- 6,31 *
2.284,70
6 - 2
Se = 69.673 - 55.218,5 -
14.425,01
4
Se = 29,5
4
4
Se = 7,38
6
Se = 2,7
2
Ahora, se calcula así, el coeficiente de determinación y el coeficiente de correlación lineal, para elle se determina la varianza de la variable dependiente Y.
S2Y
S2Y = ƩY2 - Y\2
n
S2Y = 69.673,0 -
11.556,3
6,0
S2Y =
55,92
R2 = 1,0
- Se2
S2Y
R2 =
1,0 - 7,39
55,92
R2 =
1,0 - 0,13
R2 = 0,87 86,8%
r = R2
r = 0,8
7
r = 0,9
3 93,2%
d) Si a un paciente se le administra una dosis de sal de 6,5. ¿Cuál es la tensión arterial esperada?
De modo que la ecuación de la recta ajustada está dada por:
Ŷ = 6,31 x + 85,61
Ŷ = 6,31 * 6,5 + 85,6
Ŷ = 41,0 + 85,6
Ŷ = 126,7 ---- 127
De tensión esperada
6 - A continuación Se presentan las ventas nacionales de móviles nuevos de 1992 a 2004 en la siguiente tabla. Obtenga un índice simple para las ventas nacionales utilizando una base variable.
AÑO Ventas (millones $)
1992 8,8
1993 9,71994 7,3
1995 6,7
1996 8,5
1997 9,2
1998 9,2
1999 8,4
2000 6,4
2001 6,2
2002 5,0
2003 6,7
2004 7,6
I 1992 9,7 X 100 = 110,23%
1993 8,8
I1993 7,3
X 100 = 75,26%1994 9,7
I1994 6,7
X 100 = 91,78%1995 7,3
I1995 8,5
X 100 = 126,87%1996 6,7
I1996 9,2
X 100 = 108,24%1997 8,5
I1997 9,2 X 100 = 100,00%1998 9,2
I1998 8,4
X 100 = 91,30%1999 9,2
I1999 6,4
X 100 = 76,19%2000 8,4
I2000 6,2
X 100 = 96,88%2001 6,4
I2001 5,0
X 100 = 80,65%2002 6,2
I2002 6,7
X 100 = 134,00%2003 5,0
I2003 7,6
X 100 = 113,43%2004 6,7
II-ACTIVIDAD DE INVESTIGACIÓN
Realizar un recorrido a través de los resultados del Censo General 2005, ingresando a la página Web del DANE: http://www.dane.gov.co
ACTIVIDAD A REALIZAR:
En este segundo trabajo colaborativo, deberán escoger previo acuerdo entre los integrantes del grupo, una tabla de distribución de frecuencias que presente una variable cuantitativa para la cuales se pide calcular: -Media o Promedio aritmético. -Medidas de dispersión
2.- Interpretar los resultados obtenidos
Varianza Para datos agrupados:
edad 2011 Punto Medio Fx * X0
X Fx x
5 - 11 5.902 8 47.216 - 5,49 177.67
8
12 - 15 3.257 13,5 43.970 0,01
1
16 - 17 1.397 16,5 23.051 3,01 12.68
4
18 - 25 1.793 21,5 38.550 8,01 115.13
1
26 y 30 939
28 26.292 14,51 197.78
5 -
total 13.288 87,50 179.078
20,07 503.279,36
X = 87,50
13.288,00
-
x = 13,48
varianza 503.279,36
13.288,00
varianza 37,87
Coeficiente de variación
CV= s x 100
x
CV= 141,88 x 13,48
CV= 1053%
edad 2011 Punto MedioX Fx
5 - 11 5.902 8 47216 377.728,0
0
12 - 15 3.257 13,5 43969,5 593.588,2
5
16 - 17 1.397 16,5 23050,5 380.333,2
5
18 - 25 1.793 21,5 38549,5 828.814,2
5
26 y 30
939 28 26292
736.176,00
TOTAL 13288 87,5 179077,5 2.916.639,75
Desviación estándar
(Ʃfx)2
S = Ʃfx2 - n
n - 1
503.278,0
S = 25
S = 20131,12
S = 141,88
Rango
30 - 5 = 25
Número de clases. Aplicando la Regla de Sturges:
K = 1 +3,32
2Log
25 =
6,64
---- 7
Conclusiones
a) Con la realización de estos ejercicios, se aprendió de manera mas profunda los temas vistos en la unidad dos.
b) Se aprendió que el comportamiento de un conjunto de datos puede variar de forma significativa con respecto al promedio.
c) Se realizó un análisis teórico acerca de las medidas estadísticas, comprendiendo así la importancia de conceptos que no estaban familiarizados.
d) Se adquirió conocimiento con respecto a los temas tratados en un campo real como lo es el DANE, en cuanto a la calidad de vida en Colombia en el transcurso del año 2011.