Dispersion Agrupados y No Agrupados

44
Medidas de Dispersión "No se puede entender cabalmente la historia de un pueblo si no se conoce la dinámica de su pueblo. Y no se puede planificar y tomar decisiones sabias en un país (municipio, comunidad o grupo), si no se considera cuidadosamente su situación demográfica y sus perspectivas futuras". Dr. José Vázquez Calzada Una de las funciones de la estadística se relaciona con el cálculo de la variabilidad. Conocer las medidas de dispersión (variación) es de suma importancia, ya que la no consideración de diferencias puede conducir a errores de juicio en la toma de decisiones (Sánchez, 1992). Una medida particular de tendencia central da lugar a una puntuación que, en cierto sentido, "representa" a todas las puntuaciones de un grupo (Glass & Stanley, 1974). Sin embargo, cuando se usa cualquier medida de tendencia central, ésta nos da sólo un cuadro incompleto de un conjunto de datos y, por consiguiente, podría conducir a conclusiones erróneas o distorsionadas (Levin, 1979), porque este proceso pasa por alto las diferencias entre las puntuaciones en sí (Glass & Stanley, 1974). Sería incorrecto concluir que dos (2) conjuntos de datos son iguales sólo porque tienen la mismas medidas de tendencia central, es decir, que el valor de la media aritmética sea el mismo para ambos conjuntos, cuando la distancia de los datos de ambos conjuntos se distribuyen de una forma diferente (Elorza, 1987). Para describir una distribución en forma más completa o para interpretar con más detalle una calificación, necesitamos información adicional acerca de la dispersión de las calificaciones con respecto a nuestra medida de tendencia central (Haber & Runyon, 1992). Es necesario un índice de cómo están diseminados los puntajes alrededor del centro de la distribución. A tales distancias se les suele 6

Transcript of Dispersion Agrupados y No Agrupados

Medidas de Dispersión

"No se puede entender cabalmente la historia de un pueblo si no se conoce la dinámica de su pueblo. Y no se puede planificar

y tomar decisiones sabias en un país (municipio, comunidad

o grupo), si no se considera cuidadosamente

su situación demográfica y sus perspectivas futuras". Dr. José Vázquez Calzada

Una de las funciones de la estadística se relaciona con el cálculo de la

variabilidad. Conocer las medidas de dispersión (variación) es de suma importancia,

ya que la no consideración de diferencias puede conducir a errores de juicio en la

toma de decisiones (Sánchez, 1992). Una medida particular de tendencia central da

lugar a una puntuación que, en cierto sentido, "representa" a todas las puntuaciones

de un grupo (Glass & Stanley, 1974). Sin embargo, cuando se usa cualquier medida

de tendencia central, ésta nos da sólo un cuadro incompleto de un conjunto de datos

y, por consiguiente, podría conducir a conclusiones erróneas o distorsionadas (Levin,

1979), porque este proceso pasa por alto las diferencias entre las puntuaciones en sí

(Glass & Stanley, 1974). Sería incorrecto concluir que dos (2) conjuntos de datos son

iguales sólo porque tienen la mismas medidas de tendencia central, es decir, que el

valor de la media aritmética sea el mismo para ambos conjuntos, cuando la distancia

de los datos de ambos conjuntos se distribuyen de una forma diferente (Elorza, 1987).

Para describir una distribución en forma más completa o para interpretar con

más detalle una calificación, necesitamos información adicional acerca de la

dispersión de las calificaciones con respecto a nuestra medida de tendencia central

(Haber & Runyon, 1992). Es necesario un índice de cómo están diseminados los

puntajes alrededor del centro de la distribución. A tales distancias se les suele

6

Arnaldo Torres Degró y Evelyn Afanador Mejías

154

denominar medidas de dispersión o variación. Las medidas de dispersión, también

conocidas como medidas de variación o variabilidad, indican el grado en que los

sujetos se dispersan respecto al centro de la distribución. A través de las mismas el

investigador verifica cuán homogéneos, parecidos o estables son los elementos bajo

estudio, en contraste con otros grupos de interés (Sánchez, 1992). Si todos los

valores son los mismos, no existe dispersión; si no todos son los mismos, hay

dispersión en los datos. La magnitud de la dispersión puede ser pequeña, cuando los

valores, aunque diferentes, están próximos entre sí. Si los valores están ampliamente

separados, la dispersión es mayor.

Este capítulo trata sólo de la medidas de dispersión o variabilidad más

conocidas: el recorrido (rango) y la desviación estándar. Estas técnicas estarán

enmarcadas según la composición de los datos, es decir, arreglo de datos, datos no

agrupados y datos agrupados. Además, se evaluará la técnica de coeficiente de

variación para variables cuantitativas y cualitativas, tales como: coeficiente de

variación e índice de dispersión cuantitativo.

[6.1] Tipos de Medidas de Dispersión

Cuando nuestro interés se centra en las medidas de dispersión, debemos

buscar un índice de variabilidad que indique la distancia a lo largo de la escala de

calificaciones (Runyon & Haber, 1992). El recorrido y la desviación estándar realizan

dicha labor.

Recorrido Una manera de medir la variación en un conjunto de valores es calculando el

recorrido. El recorrido es la más sencilla y directa de las medidas de dispersión

(Runyon & Haber, 1992), y a la vez la menos confiable de las medidas de variación

(Sánchez, 1992). Se trata simplemente de la distancia entre el valor menor y el valor

mayor en un conjunto de observaciones. El hecho de que sólo tome en consideración

dos (2) valores, hace que la medida sea muy pobre. Nótese que si hay un valor

extremo en la distribución, se tendrá la impresión de que la dispersión es grande

cuando, en realidad, si hiciéramos caso omiso de esa calificación, podríamos

Medidas de Dispersión

155

encontrar que dicha distribución es, por el contrario, una distribución "compacta". El

recorrido refleja únicamente las dos (2) calificaciones extremas de la distribución

(Runyon & Haber, 1992), es decir, solamente dos (2) puntuaciones exactas de un

grupo son las que los determina, ignorando así, todas las demás puntuaciones, a

excepción de los extremos (Glass & Stanley, 1974). El recorrido no puede darnos una

idea precisa con respecto a la dispersión y, en el mejor de los casos, debe

considerarse sólo como un índice preliminar o muy aproximado (Levin, 1977). Puede

expresarse de la siguiente manera:

R = Recorrido, rango o amplitud

Vmax = Valor máximo de los datos de un conjunto

Vmin = Valor mínimo de los datos de un conjunto

Varianza y Desviación Estándar

La desviación estándar (DE) es la medida de dispersión más adecuada para la

estadística descriptiva (Haber & Runyon, 1992). Tanto en la escalas de intervalo

como en las de razones, la varianza y la desviación estándar son las mejores medidas

de dispersión. Toman en consideración todos los puntajes y controlan por el efecto de

valores extremos. La DE permite una interpretación precisa de las calificaciones

dentro de una distribución (Runyon & Haber, 1992). Si todos los sujetos son iguales

en una característica (por ejemplo, índice académico), entonces el resultado será igual

a cero. Por el contrario, si aumentan las diferencias, aumentará el índice, alejándose

más y más del punto cero. La varianza se define como las desviaciones cuadradas

medias respecto a la media. La desviación estándar es la raíz cuadrada de la

varianza. La desviación estándar estará formulada de la siguiente manera:

R = Vmax - Vmin

donde;

Arnaldo Torres Degró y Evelyn Afanador Mejías

156

Fórmulas para población

Fórmulas para muestras

Σƒ² – (Σƒ)²

N

N donde:

σ =

Desviación

estándar para

arreglos de datos

usando el

universo

Σƒx² – (Σƒx)²

N

N donde:

σ =

Desviación

estándar para

datos no

agrupados y datos

agrupados usando

el universo

Σƒ² – (Σƒ)²

n

n-1 donde:

s =

Desviación

estándar para

arreglos de datos

usando muestra

Σƒx² – (Σƒx)²

n

n-1 donde:

s =

Desviación

estándar para

datos no

agrupados y datos

agrupados usando

muestra

Medidas de Dispersión

157

σ =

Desviación estándar de la población.

s = Desviación estándar de la muestra

Σƒ = Sumatoria de los valores que toma la variable (x), cuando estamos trabajando con datos no agrupados.

Para los datos agrupados el símbolo cambia a Σƒx.

Σƒ² = Sumatoria de los valores que toma la variable (x) al cuadrado, cuando estamos trabajando con datos no agrupados. Para los datos agrupados el símbolo

cambia a Σƒx².

N = Tamaño del universo o la población

n = Tamaño de la muestra

n-1 = Tamaño de la muestra menos uno (1)

[6.2] Análisis de Dispersión a partir de los Arreglos de Datos

Para poder evaluar este tópico retomaremos el ejemplo de datos hipotéticos del

capítulo 5, sección 5.2 (ver página 116). Uno de los primeros paso en el formato de

arreglo de datos es acomodar los datos de una forma útil. El mismo consiste en

organizar los datos obtenidos de una forma ordenada, de menor a mayor o viceversa.

Con esta estructura establecida, podemos con facilidad aplicar diversos métodos

Arnaldo Torres Degró y Evelyn Afanador Mejías

158

estadísticos para poder entender mejor el conjunto de datos en estudio. Si

quisiéramos realizar un análisis de dispersión sobre la edad inicial del uso de Internet

entre los estudiantes de ciencias políticas de la Universidad Pitirre de Puerto Rico del

año académico 2003-2004, el primer paso sería organizar los porcentajes de mayor a

menor o viceversa (ver figura 6.1).

Recorrido El recorrido sería la distancia que existe entre la edad mas alta vs. la edad más

baja sobre el inicio en el Internet en los estudiantes de ciencias políticas de la

Universidad Pitirre de Puerto Rico para el año académico 2003-2004. Es

recomendable que se organicen las categorías de la variable de interés de menor a

mayor o viceversa. En la figura 6.1 las edades de inicio en el Internet entre los

estudiantes de ciencias políticas de la Universidad Pitirre de Puerto Rico para el año

académico 2003-2004 fueron organizados de menor a mayor. Si observamos

detenidamente las edades organizadas (ver figura 6.1), notaremos que el dato más

alto fue la edad 23 años, mientras que el dato más bajo fue la edad 10 años. Con esta

información podemos obtener el recorrido de la siguiente manera:

R = edad más alta − edad más baja

R = 23 − 10

R = 13

Figura 6.1

Edades organizadas de menor a mayor

10 10 10 12 12 12 12 13 13 13

13 13 13 15 15 15 15 15 15 15

16 16 16 16 16 16 18 18 18 21

21 21 21 22 22 23 23 23 23 23

N= 40 datos hipotéticos

Medidas de Dispersión

159

Podemos indicar que en la Universidad pitirre de Puerto Rico para el año

académico 2003-2004 la diferencia de la edad de inicio en el Internet entre los

estudiantes de ciencias políticas fue de 13 años.

Desviación Estándar

Para buscar la desviación estándar entre las edades sobre el inicio del Internet

en los estudiantes de ciencias políticas de la Universidad Pitirre de Puerto Rico para el

año académico 2003-2004 es necesario elaborar una nueva columna conocida como

(ƒ²). La columna ƒ² se obtiene elevando al cuadrado a la frecuencia (ƒ) como

observamos en la figura 6.2. Una vez realizado dicha operación se suman por

separado ambas columnas, para obtener: Σƒ (sumatoria de las edades) y Σƒ² (sumatoria

de las edades al cuadrado).

Con la columna establecida (ver figura 6.2) podremos buscar la desviación

estándar (σ) de la siguiente manera:

Figura 6.2 Desarrollo de los datos para establecer la Desviación Estándar

ƒ ƒ²

[10]² 100

[10]² 100

[10]² 100

[12]² 144

[12]² 144

[12]² 144

[12]² 144

[13]² 169

[13]² 169

ƒ ƒ² [13]² 169

[13]² 169

[13]² 169

[13]² 169

[15]² 225

[15]² 225

[15]² 225

[15]² 225

[15]² 225

ƒ ƒ² [15]² 225

[15]² 225

[16]² 256

[16]² 256

[16]² 256

[16]² 256

[16]² 256

[16]² 256

[18]² 324

ƒ ƒ² [18]² 324

[18]² 324

[21]² 441

[21]² 441

[21]² 441

[21]² 441

[22]² 484

[22]² 484

[23]² 529

ƒ ƒ² [23]² 529

[23]² 529

[23]² 529

[23]² 529

Σƒ= 654

Σƒ²=11,350

Arnaldo Torres Degró y Evelyn Afanador Mejías

160

Podemos concluir que en la Universidad pitirre de Puerto Rico para el año

académico 2003-2004 la desviación estándar de la edad de inicio en el Internet

entre los estudiantes de ciencias políticas fue de 4.05 años.

11,350 – (654)²

40

40

11,350 – 427,716

40

40

11,350 − 10,692.9

40

σ = 657.1

40

σ = 16.4275

σ = 4.0530852

σ = 4.05

σ =

σ =

σ =

Medidas de Dispersión

161

Ejercicios de Dispersión según arreglo de datos Favor de identificar las hojas de ejercicios y elaborar todos los problemas según lo establecido en el texto. Desprenda las hojas de ejercicios y entréguelas al profesor, SI FUESE NECESARIO.

NOMBRE: FECHA: _______________

NUMERO DE ESTUDIANTE: SECCION: ___________

Ejercicio 6.2.1 Favor de utilizar los datos para calcular y analizar el recorrido y la desviación estándar según el formato de arreglo de datos.

Estudiantes de pre-jurídico sobre la edad de inicio en el consumo de bebidas alcohólicas, Universidad Pitirre, Puerto Rico: 2000

10 23 19 17 15 23 19 16 10 16 19 23 17 19 10

23 19 16 10 19 17 10 16 19 15 10 15 14 23 16

19 16 10 16 19 15 17 19 10 23 19 19 15 17 10

17 19 23 16 14 17 23 10

Casos hipotéticos

Arnaldo Torres Degró y Evelyn Afanador Mejías

162

Ejercicio 6.2.2 Favor de utilizar los datos para calcular y analizar el recorrido y la desviación estándar según el formato de arreglo de datos.

Estudiantes de ciencias políticas respecto al gasto en dólares diario de gasolina, Universidad Pitirre, Puerto Rico: 2000

12 20 15 10 22 15 10 12 09 22 09 12 08 10 15

10 22 10 12 09 08 15 05 22 05 15 08 10 20 09

20 12 08 15 09 12 05 20 12 10 22 20 12 15

Casos hipotéticos

Medidas de Dispersión

163

Ejercicio 6.2.3 Favor de utilizar los datos para calcular y analizar el recorrido y la desviación estándar según el formato de arreglo de datos.

Estudiantes de economía con respecto a la cantidad de hermanos en su familia, Universidad Pitirre, Puerto Rico: 2000

2 1 4 3 6 2 7 3 5 1 2 6 3 5 1 3 4 1 2 3 1 4

3 1 3 4 2 8 3 2 5 7 3 2 9 3 1 1 5 3 8 5 1

3 4 3 5 2 1 4 6

Casos hipotéticos

Arnaldo Torres Degró y Evelyn Afanador Mejías

164

Ejercicio 6.2.4 Favor de utilizar los datos para calcular y analizar el recorrido y la desviación estándar según el formato de arreglo de datos.

Estudiantes de antropología con respecto a la cantidad de créditos acumulado de concentración, Universidad Pitirre, Puerto Rico: 2000

18 12 15 20 15 21 27 18 14 16 27 21 24 15 15

27 15 12 18 15 15 18 14 18 16 27 16 18 21 15

18 12 15 27 15 12 18 16 12 15 20 18 16 13 21

15 27 18 12 14 18 27 20 15 14 27 18 20 16 15

Casos hipotéticos

Medidas de Dispersión

165

[6.3] Análisis de Dispersión a partir de los Datos no Agrupados

En Puerto Rico para el año 1993 se

registraron 12,820 nacimientos que provienen de

madres adolescentes. Los nacimientos se

ubicaron según el orden de embarazo de la madre

adolescente (ver cuadro 6.1). El orden de

embarazo supone la posición que ocupará el

infante con respecto a sus hermanos(as).

Ejemplo, podemos observar en el cuadro 6.1 que

8,709 nacimientos representan el primer hijo(a)

para las madres adolescentes ó 12 nacimientos

representan el sexto hijo(a) para las madres

adolescentes.

Recorrido Si su interés como estudioso es realizar un análisis de dispersión al orden de

embarazo que representa dicho nacimiento en la mujer ocurrido en Puerto Rico para

el año 1990, podríamos buscar el recorrido y la desviación estándar. El recorrido, es

decir, la distancia que existe entre el orden de embarazo mayor menos el orden de

embarazo menor, sería:

Cuadro 6.1 Nacimientos por Orden de embarazo

por madres adolescentes Puerto Rico, 1993

Orden de embarazo

(x) nacimientos

(ƒ)

1 8,709

2 2,958

3 903

4 195

5 37

6 12

7+ 6 Fuente: Cuadro elaborado por el Dr. Arnaldo Torres Degró con datos obtenido del Departamento de Salud de Puerto Rico, 1992. Informe Anual de Estadísticas Vitales de

Puerto Rico: 1990. Nacimientos Vivos, tabla 15, pág. 68.

R = Orden de embarazo Orden de embarazo

mayor − menor

R = 7 − 1

R = 6

Arnaldo Torres Degró y Evelyn Afanador Mejías

166

Podemos interpretar que en Puerto Rico para el año 1993 la distancia

observada o el recorrido entre el orden de embarazo de los nacimientos de las

madres adolescentes fue de seis (6).

Desviación Estándar Para buscar la desviación estándar entre el orden de embarazo de los

nacimientos de las madres adolescentes ocurridos en Puerto Rico para el 1993 es

preciso elaborar varias columnas adicionales a las establecidas en el cuadro 6.1.

Como observamos en la figura 6.3, las columnas adicionales para elaborar la

desviación estándar son (ƒx) y (ƒx²). La columna ƒx se obtiene multiplicando las

categorías de la variable (x) con su frecuencia (ƒ) correspondiente. La columna ƒx² se

obtiene multiplicando la columna (ƒx) por la categoría (x) correspondiente. Notemos,

que no estamos elevando al cuadrado la columna (ƒx). De realizar dicho cálculo se

invalida el resultado. La población o universo (N) es obtenido por la suma de la

columna de la frecuencia (ƒ).

Figura 6.3. Procedimiento para obtener ƒƒƒƒx y ƒƒƒƒx², según los datos del cuadro 6.1

Orden de

embarazo

x

1

2

3

4

5

6

7+

Nacimientos

ƒ

8,709

2,958

903

195

37

12

6

ƒx²

= 8,709

= 11,832

8,127

3,120

925

432

294

ƒx

= 8,709

= 5,916

= 2,709

780

185

72

42

por

por

por

por

por

N 12,820 Σƒx 18,413 Σƒ² 33,439

Medidas de Dispersión

167

Con la columna establecida (ver figura 6.3) podremos buscar la desviación

estándar (σ) de la siguiente manera:

Podemos concluir que en Puerto Rico para el año 1990 la desviación

estándar entre el orden de embarazo de las madres adolescentes fue de .74

33,439 – (18,413)²

12,820

12,820

33,439 – 26,446.066

12,820

6,992.9338

12,820

σ = .5454707

σ = .7385599

σ = .74

σ =

σ =

σ =

Arnaldo Torres Degró y Evelyn Afanador Mejías

168

Medidas de Dispersión

169

Ejercicios de Dispersión según datos no agrupados Favor de identificar las hojas de ejercicios y elaborar todos los problemas según lo establecido en el texto. Desprenda las hojas de ejercicios y entréguelas al profesor, SI FUESE NECESARIO.

NOMBRE: FECHA: _______________

NUMERO DE ESTUDIANTE: SECCION: ___________

Ejercicio 6.3 Favor de utilizar los datos que reflejan la cantidad menores contra quienes se presentaron querellas por sexo y edad, Puerto Rico, año fiscal 1991-1992.

Sexo

Edad Hombres

Mujeres

Ambos

Sexos

TOTAL 9 años

25

3

28

10 años

34

4

38

11 años

73

6

79

12 años

141

24

165

13 años

316

62

378

14 años

536

117

653

15 años

884

120

1,004

16 años

1,160

134

1,294

17 años

1,428

106

1,534

18 años

144

18

162

TOTAL

4,741

594

5,335

Fuente: Tribunal Superior de Puerto Rico, Asunto de Menores

Arnaldo Torres Degró y Evelyn Afanador Mejías

170

[6.3.1] Favor de calcular y analizar el recorrido de la edad de las menores (mujeres) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992.

[6.3.2] Favor de calcular y analizar la desviación estándar de la edad de las menores (mujeres) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992. Incluya una tabla con las columnas necesarias para completar el ejercicio.

Medidas de Dispersión

171

[6.3.3] Favor de calcular y analizar el recorrido de la edad de los menores (hombres) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992.

[6.3.4] Favor de calcular y analizar la desviación estándar de la edad de los menores (hombres) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992. Incluya una tabla con las columnas necesarias para completar el ejercicio.

Arnaldo Torres Degró y Evelyn Afanador Mejías

172

[6.3.5] Favor de calcular y analizar el recorrido de la edad total de los menores (ambos sexos) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992.

[6.3.6] Favor de calcular y analizar la desviación estándar de la edad total de los menores (ambos sexos) contra quienes se le presentaron querellas en el Tribunal Superior de Puerto Rico para el año fiscal 1991-1992. Incluya una tabla con las columnas necesarias para completar el ejercicio.

Medidas de Dispersión

173

[6.4] Análisis de Dispersión a partir de los Datos Agrupados

El Departamento de Salud de Puerto Rico

informó que para el año 1993 murieron 1,148

personas debido al virus de inmunodeficiencia

humana (SIDA). El cuadro 6.2 refleja las muertes

ocurridas por SIDA ubicadas por grupos de

edades. Si usted suma todas las defunciones por

SIDA ubicadas en grupos de edades notará una

diferencia de doce (12) casos. Dicha diferencia se

debe a los casos que no informaron o se

desconoce la edad. Para este ejercicio se tomará

en cuenta todos los casos que informaron la edad,

es decir, 1,139 defunciones. Si su interés como

investigador es analizar la dispersión o variabilidad

de la edad de las personas que murieron por SIDA

en Puerto Rico para el año 1993, podríamos

buscar el recorrido y la desviación estándar. Para

obtener el recorrido y la desviación estándar según

la configuración de datos agrupados es necesario

elaborar tres (3) columnas adicionales: (Pt½); (ƒx) y

(ƒx²). La columna (Pt½) y (ƒx) ya han sido

explicadas y elaboradas en el capítulo 5 (ver tópico

5.4). La columna ƒx² se obtiene mediante la

multiplicación de la columna ƒx por la columna Pt½.

Cuadro 6.2

Frecuencia de muertes

por SIDA y edad

Puerto Rico, 1993

Edad

(clase)

x

ƒƒƒƒ

0-4 14

5-9 4

10-14 0

15-19 0

20-24 20

25-29 118

30-34 237

35-39 268

40-44 214

45-49 115

50-54 65

55-59 32

60-64 14

65-69 19

70-74 6

75-79 6

80-84 5

85-89 2 Fuente: Cuadro elaborado por el Dr. Arnaldo Torres Degró con datos obtenidos del Departamento de Salud de Puerto Rico, 1995. Informe Anual de Estadísticas

Vitales: Puerto Rico, 1993. Mortalidad, tabla 15a: pág. 187; Existen 12 casos sin especificar las edades

Arnaldo Torres Degró y Evelyn Afanador Mejías

174

Recorrido

El recorrido, es decir la diferencia de la edad mayor vs. la edad menor de las

personas que murieron por SIDA, debe conseguirse en el punto medio (Pt½) de la clase de

edad mayor vs. la clase de edad menor. Si observamos la figura 6.4 el punto medio de la

clase mayor (85 - 89) es 87 años, mientras que el punto medio de la clase menor (0 - 4) es

2 años. Con estos elementos el recorrido podrá obtenerse de la siguiente forma:

Figura 6.4 Columnas necesarias como Pt½, ƒƒƒƒx y ƒƒƒƒx², según los datos del cuadro 6.2

Edades|

(clases)

0-4

5-9

10-14

15-19

20-24

25-29

30-34

35-39

40-44

45-49

50-54

55-59

60-64

65-69

70-74

75-79

80-84

85-89

ƒ

14

4

0

0

20

118

237

268

214

115

65

32

14

19

6

6

5

2

Pt½

x

2

7

12

17

22

27

32

37

42

47

52

57

62

67

72

77

82

87

ƒx

28

28

0

0

440

3,186

7,584

9,916

8,988

5,405

3,380

1,824

868

1,273

432

462

410

174

ƒx²

56

196

0

0

9,680

86,022

242,688

366,892

377,496

254,035

175,760

103,968

53,816

85,291

31,104

35,574

33,620

15,138

N= 1,139 Σƒx =44,389 Σƒx² =1,871,336

Medidas de Dispersión

175

1,871,336 – (44,398)²

1,139

1,139

1,871,336 – 1,730,625.5

1,139

140,710.54

1,139

σ = 123.53866

σ = 11.114795

σ = 11.12 años

Podemos indicar que el recorrido observado en la edad de las personas que

murieron por SIDA en Puerto Rico para el año 1993 fue de 85 años.

Desviación Estándar

Como hemos establecido, para

obtener la desviación estándar según la

configuración de datos agrupados es

necesario elaborar dos (2) columnas

adicionales: (ƒx) y (ƒx²). La columna ƒx es

obtenida mediante la multiplicación de la

columna frecuencias (ƒ) por la columna del

punto medio (Pt½). La columna ƒx² es

obtenida mediante la multiplicación de la

columna ƒx por la columna Pt½. Con estas

columnas realizadas en la figura 6.4 podemos

buscar la varianza y luego la desviación

estándar.

Podemos afirmar que en Puerto Rico

para el año 1993 la desviación estándar de

la edad por defunciones debido al SIDA

fue de 11.12 años.

R = Pt½ de la Pt½ de la

clase mayor − clase menor

R = 87 – 2

R = 85 años

σ =

σ =

σ =

Arnaldo Torres Degró y Evelyn Afanador Mejías

176

Medidas de Dispersión

177

Ejercicios de Dispersión según datos agrupados Favor de identificar las hojas de ejercicios y elaborar todos los problemas según lo establecido en el texto. Desprenda las hojas de ejercicios y entréguelas al profesor, SI FUESE NECESARIO.

NOMBRE: FECHA: _______________

NUMERO DE ESTUDIANTE: SECCION: ___________

Ejercicio 6.4 Favor de utilizar los datos que reflejan la cantidad de defunciones por accidentes de tráfico de vehículos de motor por edad, Puerto Rico: 1980, 1985 y 1990.

Años naturales

Grupo de

edad 1980

1985

1990

5 - 14

44

53

43

15 - 24

145

129

107

25 - 34

97

110

84

35 - 44

65

90

87

45 - 54

67

65

67

55 - 64

47

55

62

65 - 74

53

42

52

75 - 84

20

27

33

85 - 94

10

5

8

Fuente: Departamento de Salud, 1993. Estadísticas Vitales de Puerto Rico: Resumen de una década 1980 al 1990. San Juan, P.R.: pág. 108.

Arnaldo Torres Degró y Evelyn Afanador Mejías

178

[6.4.1] Favor de calcular y analizar el recorrido de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1980.

[6.4.2] Favor de calcular y analizar la desviación estándar de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1980. Incluya una tabla con las columnas necesarias para completar el ejercicio.

Medidas de Dispersión

179

[6.4.3] Favor de calcular y analizar el recorrido de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1985.

[6.4.4] Favor de calcular y analizar la desviación estándar de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1985. Incluya una tabla con las columnas necesarias para completar el ejercicio.

Arnaldo Torres Degró y Evelyn Afanador Mejías

180

[6.4.5] Favor de calcular y analizar el recorrido de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1990.

[6.4.6] Favor de calcular y analizar la desviación estándar de la edad por defunciones en accidentes de tráfico por vehículos en Puerto Rico para el año 1990. Incluya una tabla con las columnas necesarias para completar el ejercicio.

Medidas de Dispersión

181

[6.5] Función de la Desviación Estándar

Una vez obtenida la desviación estándar, conforme uno de los tres (3) tipos de

organización de datos, la pregunta inminente es ¿qué implicación o función tiene

dicha medida?. Al principio de este capítulo indicamos que el objetivo de las medidas

de dispersión es indicar el grado en que los sujetos se dispersan (se alejan o se

acercan) respecto al centro (la media) de una distribución. La desviación estándar

cumple a cabalidad con dichos objetivos. A mayor la desviación estándar mayor es la

dispersión o a menor la desviación estándar menor es la dispersión de los sujetos, con

respecto a la media. Como función de la desviación estándar podemos encontrar

cuán homogéneos, parecidos o estables son los sujetos bajo estudio cuando estos

son comparados con otro(s) grupo(s) de interés.

Por ejemplo, en dos (2) secciones del curso de estadística social la edad media

fue igual, es decir, 21.4 años de edad. La desviación estándar para la sección 1 fue

de 10 años y la desviación estándar de la sección 2 fue de 2 años. ¿Qué podemos

inferir de las resultados obtenidos tanto de la sección 1 como de la sección 2?

Primeramente, debemos señalar que la comparación de la desviación estándar de

ambas secciones es posible, única y exclusivamente, porque la media es igual. Al

comparar la desviación estándar notamos una diferencia. La desviación estándar de

la sección 1 (10 años) es mayor que la sección 2 (2 años). Esto sugiere que en la

sección 2 del curso de estadística social los estudiantes son más homogéneos

(parecidos) en la edad que los estudiantes de la sección 1.

Otro ejemplo, para visualizar la utilidad de la desviación estándar es el

siguiente. Se le sometió a dos grupos profesionales una situación determinada y se le

tomó el tiempo en resolver dicha encomienda. El grupo de criminólogos obtuvo un

media de 45 minutos, con una desviación estándar de 3 minutos. El grupo de

trabajadores sociales obtuvieron una media de 45 minutos con una desviación

estándar de 11 minutos. Notemos, que la media es la misma para ambos grupos

profesionales. No obstante, la desviación estándar es diferente para ambos grupos.

Dicha diferencia nos sugiere que el tiempo en terminar de resolver el problema en

cuestión fue más homogéneo o más parecido en el grupo de criminólogos que el

tiempo obtenido en el grupo de trabajadores sociales. Como hemos observado, las

comparaciones que se han realizado en este tópico son posibles porque la media

Arnaldo Torres Degró y Evelyn Afanador Mejías

182

aritmética de cada distribución ha sido igual. Pero, ¿qué pasaría si al comparar dos

distribuciones las medias son diferentes? Sencillamente, no podríamos analizar la

homogeneidad como lo hemos hecho en este tópico. Sin embargo, es posible realizar

la comparación utilizando un coeficiente de variación. En el tópico siguiente se

desarrollará el coeficiente de variación.

[6.6] Coeficiente de Variación

La desviación estándar DE es útil como medida de la variación dentro de un

conjunto de datos. Mas aún, si las medias son iguales se pueden comparar

directamente las dos DE (Sánchez, 1992). Sin embargo, cuando se desea comparar

la dispersión en dos conjuntos de datos, comparar las DE pueden conducir a

resultados sin sentido, si las medias difieren o si las unidades de medición son

diferentes. Esto es así, puesto que cada DE se obtiene a partir de la media particular

que corresponde a cada conjunto (Sánchez, 1992).

Lo que se necesita en situaciones como ésta es una medida de variación

relativa, en lugar de una variación absoluta (Daniel, 1985). La medida que nos puede

resolver este problema es el coeficiente de variación (C.V.), llamado de Pearson, que

es la relación entre la DE y la media aritmética (Elorza, 1987). Se multiplica además

por 100, para considerar el resultado en forma de porcentaje. A mayor el porcentaje,

mayor es la variación y viceversa. La fórmula está dada por:

s = Desviación estándar de una muestra

x = media aritmética de una muestra

C.V. = s ÷÷÷÷x (100) donde:

Medidas de Dispersión

183

σ = Desviación estándar de la población

µ = Media aritmética de la población

Para poder entender el coeficiente de variación analizaremos la siguiente

situación hipotética. Supongamos que la Universidad Pitirre de Puerto Rico en el

semestre de agosto a diciembre del 2002 se ofrecieron tres (3) curso de estadística

social. Una vez finalizado los cursos se pudo obtener la media de notas generales, la

desviación estándar de notas generales y la cantidad de estudiantes por cada curso.

Promedios finales de tres cursos de

estadística social, Universidad Pitirre,

agosto-diciembre del 202 Parámetros

Sec. 01 Sec. 02 Sec. 03

Población (N) 25 20 28

Media (µµµµ) 90 78.2 62.9

Desviación Estándar (σ) 12.6 11.2 9.6

Si nuestro interés es indagar entre las secciones de estadística social, cuál de ellos,

con respecto a las notas, tiende ha ser más homogénea o más parecidas, debemos

incursionar en la dispersiones de las notas. Recuerde que señalamos que a mayor

dispersión de los valores de una población de estudio, menos se paren los valores

sugiriendo que hay poca homogeneidad. Lo inverso sugiere que a menor dispersión

de los valores de una población de estudio, más se paren los valores sugiriendo que

hay mucha homogeneidad. Notemos que para establecer la comparación de

homogeneidad en el ejercicio que nos compete, la media de las tres (3) secciones de

estadística social no son iguales. Este factor es muy importante, previo al manejo de

la homogeneidad, porque teniendo las medias diferentes, no es posible obtener el

grado de homogeneidad utilizando como punto de referencia la desviación estándar.

C.V. = σ ÷÷÷÷ µ (100) donde:

Arnaldo Torres Degró y Evelyn Afanador Mejías

184

Por ejemplo, si no tomáramos en consideración la disparidad de las medias y

analizáramos única y exclusivamente la desviación estándar para conseguir el grado

de homogeneidad, podríamos concluir, dado que la desviación estándar es menor en

la sección 3 (σ =9.6) con respecto a la sección 2 (σ =11.2) y la sección 1 (σ =12.6),

que las notas de la sección 3 del curso de estadística social tienden hacer más

parecidas (homogéneas) que entre las demás secciones. Sin embargo, esta

conclusión adolece de veracidad porque cuando las medias en una comparación no

son iguales, no se puede utilizar la desviación estándar para obtener el grado de

homogeneidad. Para resolver el dilema, sugerimos que se busque el coeficiente de

variación en todos los grupos de interés y luego sería posible concluir sobre el grado

de homogeneidad, veamos:

Si analizamos los resultados de los coeficiente de variación nos percataremos que la

sección 01 de estadística social obtuvo el resultado más bajo (14.00 %) con respecto

a las otras dos secciones. Recuerde, mientras más bajo es la dispersión, una vez se

compara con los demás grupos de interés, el mismo sugiere alto grado de

homogeneidad. Podemos concluir que las notas entre los estudiantes del curso de

estadística social de la sección 01, tienden a ser más parecidas (homogéneas) que

entre las secciones 02 y 03 del mismo curso de la Universidad Pitirre de Puerto Rico

para el semestre de agosto a diciembre del 2002.

Sección 01 = 12.6 (100)

90

= 14.00 %

Sección 02 = 11.2 (100)

78.2

= 14.32 %

Sección 03 = 9.6 (100)

62.9

= 15.26 %

Medidas de Dispersión

185

Ejercicios Coeficiente de Variación Favor de identificar las hojas de ejercicios y elaborar todos los problemas según lo establecido en el texto. Desprenda las hojas de ejercicios y entréguelas al profesor, SI FUESE NECESARIO.

NOMBRE: FECHA: _______________

NUMERO DE ESTUDIANTE: SECCION: ___________ [6.6.1] Favor de buscar la media aritmética y la desviación estándar de las edades por suicidio para los años 1980, 1990 y 2000 según los datos del cuadro 4.1 de la página 105. Luego calcule y analice el coeficiente de variación para todos los años.

Arnaldo Torres Degró y Evelyn Afanador Mejías

186

[6.6.2] Favor de buscar la media aritmética y la desviación estándar de los ejercicios 5.4.1.a página 145 y 5.4.2 de la página 147. Luego calcule y analice el coeficiente de variación.

Medidas de Dispersión

187

[6.6.3] Favor de buscar la media aritmética y la desviación estándar de las edades de los varones y mujeres según el ejercicio 6.3 de la página 169. Luego calcule y analice el coeficiente de variación.

Arnaldo Torres Degró y Evelyn Afanador Mejías

188

[6.6.4] Favor de buscar la media aritmética y la desviación estándar de las edades por defunciones para cada anoo según el ejercicio 6.4 de la página 177. Luego calcule y analice el coeficiente de variación.

Medidas de Dispersión

189

[6.7] Índice de Dispersión Cualitativa

Normalmente en el campo de las ciencias sociales se utilizan o manejan

muchas variables cualitativas. Se puede observar previamente que dichas variables

pueden variar de clase o cantidad. La premisa sería cuán diferentes son esas

observaciones. Utilizando el coeficiente de variación cualitativa o un índice de

dispersión podemos encontrar dichas diferencias en las observaciones. El índice de

dispersión fluctúa entre cero (0) y uno (1), donde cero (0) implica homogeneidad

perfecta y uno (1) representa heterogeneidad perfecta. Si los casos o sujetos están

distribuidos entre las categorías de una forma equitativa, es decir, que para cada

categoría de la variable existe la misma cantidad de casos, podemos indicar que

existe una distribución heterogénea (equitativa) en las categorías de la variable de

interés. Por el contrario, si todos los casos están ubicados en una sola categoría

podemos indicar que existe una distribución homogénea (desproporcional). El índice

de dispersión cualitativo se expresa de la siguiente manera:

D = índice de dispersión cualitativo

k = número de categorías

Σƒ² = suma de frecuencias cuadradas (ƒ²) de cada categoría

n = total de casos

Tomemos dos (2) municipios de Puerto Rico y analicemos la distribución de

matrimonios conforme los tipos de celebraciones. Según el cuadro 6.3 podemos

observar tanto para el municipio de Loíza como para el municipio de Hormigueros la

cantidad (ƒ) de matrimonios celebrados según el tipo de celebrantes.

k [ (n)² – (Σƒ²) ]

[ (n)² (k-1) ]

donde:

D =

Arnaldo Torres Degró y Evelyn Afanador Mejías

190

Para buscar el índice de dispersión cualitativo necesitamos (ver figura 6.5)

elevar la frecuencia (ƒ) de cada categoría al cuadrado (ƒ²).

Cuadro 6.3

Cantidad de matrimonios por tipo de celebración en Loíza y

Hormigueros, Puerto Rico: 1993.

Celebrantes

Sacerdotes

Ministros

Juez

TOTAL

Loíza

ƒ

8

122

11

141

Hormiguero

ƒ

30

48

43

121

Fuente: Departamento de Salud de Puerto Rico, 1996. Informe

Anual de Estadísticas Vitales de Puerto Rico: 1993. Matrimonios y Divorcios, tabla 5, pág. 331-334.

Figura 6.5 Procedimiento para obtener la columna ƒƒƒƒ²,según los datos del cuadro 6.3

Celebrantes

Sacerdotes

Ministros

Juez

TOTAL

ƒ

8

122

11

141

ƒ²

64

14,884

121

Σƒ² 15,069

ƒ

30

48

43

121

ƒ²

900

2,304

1,849

Σƒ² 5,053

Loíza

Hormiguero

Medidas de Dispersión

191

Con la columna de (ƒ²) debidamente elaborada (ver figura 6.5) podemos

calcular el índice de dispersión cualitativo para los dos (2) municipios.

Analizando los resultados de los índices de dispersión para ambos municipios

podemos inferir lo siguiente:

_ En Loíza, Puerto Rico para el año 1993 el índice de dispersión

cualitativa por tipos de celebraciones fue de .36.

_ En Hormigueros, Puerto Rico para el año 1993 el índice de dispersión

cualitativa por tipos de celebraciones fue de .98.

Cuando comparamos los dos (2) municipios observamos que los matrimonios

ocurridos en Hormigueros tienden a ser más heterogéneos conforme a los tipos de

celebraciones que los matrimonios ocurridos en el municipio de Loíza, Puerto Rico.

Si analizamos el cuadro 6.3 podemos notar que los matrimonios ocurridos en Loíza,

Loíza

D = 3[ (141)² - 15,069 ]

[ (141)² (3-1)]

= 3[ 19,881 - 15,069 ]

[ (19,881) (2) ]

= 3[ 4,812 ]

39,762

= 14,436

39,762

= .3630602

= .36

Hormiguero

D = 3[ (121)² - 5,053 ]

[ (121)² (3-1) ]

= 3[ 14,641 - 5,053 ]

[ (14,641) (2) ]

= 3[ 9,588 ]

29,282

= 28,764

29,282

= .9823099

= .98

Arnaldo Torres Degró y Evelyn Afanador Mejías

192

Puerto Rico para el año 1993 están mayormente concentrados en el tipo de

celebración con ministros. Para el municipio de Hormigueros, Puerto Rico, para el

año 1993 los matrimonios tienden a distribuirse casi equitativamente entre los tres (3)

tipos de celebrantes.

Medidas de Dispersión

193

Ejercicios de índice de dispersión cualitativa

Favor de identificar las hojas de ejercicios y elaborar todos los problemas según lo establecido en el texto. Desprenda las hojas de ejercicios y entréguelas al profesor, SI FUESE NECESARIO.

NOMBRE: FECHA: _______________

NUMERO DE ESTUDIANTE: SECCION: ___________

Ejercicio 6.7 Favor de utilizar los datos que reflejan la cantidad de matrimonios por tipo de celebración en Villalba, Utuado y Ponce Puerto Rico: 1993.

Celebrantes

Sacerdotes

Ministros

Juez

TOTAL

ƒ

74

14

50

ƒ²

ƒ

82

116

111

ƒ²

Villalba

Utuado

Ponce

ƒ

532

360

743

ƒ²

Fuente: Departamento de Salud de Puerto Rico, 1996. Informe Anual de Estadísticas Vitales de

Puerto Rico: 1993. Matrimonios y Divorcios, tabla 5, pág. 331-334.

Arnaldo Torres Degró y Evelyn Afanador Mejías

194

[6.7.1] Favor de calcular y analizar el índice de dispersión de los matrimonios ocurridos en el municipio de Villalba, Puerto Rico para el año 1993 conforme el tipo de celebración. Desarrolle las columnas necesarias para completar el ejercicio.

[6.7.2] Favor de calcular y analizar el índice de dispersión de los matrimonios ocurridos en el municipio de Utuado, Puerto Rico para el año 1993 conforme el tipo de celebración. Desarrolle las columnas necesarias para completar el ejercicio.

[6.7.3] Favor de calcular y analizar el índice de dispersión de los matrimonios ocurridos en el municipio de Ponce, Puerto Rico para el año 1993 conforme el tipo de celebración. Desarrolle las columnas necesarias para completar el ejercicio.

Medidas de Dispersión

195

[6.8] Fórmulas

Recorrido

Desviación Estándar para población

Desviación Estándar para muestras

Coeficiente de Variación

Índice de dispersión cualitativa

R = Vmax - Vmin

Σƒ² – (Σƒ)² N

N

Arreglos de datos

σ =

Σƒx² – (Σƒx)²

N

N

Datos no agrupados

Datos agrupados

σ =

Σƒ² – (Σƒ)²

n

n-1

Arreglos de datos

s =

Σƒx² – (Σƒx)²

n

n-1

Datos no agrupados

Datos agrupados

s =

C.V. = s ÷÷÷÷x (100)

muestra

C.V. = σ ÷÷÷÷ µ (100)

poblacion

k [ (n)² – (Σƒ²) ]

[ (n)² (k-1) ]

D =

Arnaldo Torres Degró y Evelyn Afanador Mejías

196

[6.9] Ejercicios Adicionales Arreglo de datos [6.9.1] Favor de buscar y analizar el recorrido y la desviación estándar de la nota del primer examen de los

atletas de la Universidad Pitirre para el año 2004 en el curso de primeros auxilios: datos hipotéticos 56; 78; 78; 75; 77; 72; 75; 79; 79; 80; 72; 73; 74; 72; 75; 73; 72; 70; 72; 80; 77; 75; 72; 90; 88; 72; 74; 78; 80; 66; 72; 76; 83; 90; 72; 77; 79.

[6.9.2] Favor de buscar y analizar el recorrido y la desviación estándar de la cantidad de horas semanales

viendo televisión entre los atletas de la Universidad Pitirre para el año 2004: datos hipotéticos 15; 10; 20; 10; 10; 27; 22; 10; 16; 16; 09; 17; 28; 19; 15; 15; 15; 18; 10; 10; 10; 14; 17; 20; 13; 12; 12; 18; 20; 08; 09; 10; 12; 14; 20; 16; 12.

[6.9.3] Favor de buscar y analizar el recorrido y la desviación estándar de la cantidad en dólares por concepto

en compra de libros para estudios entre los atletas de la Universidad Pitirre para el año 2004: datos hipotéticos 95; 76; 50; 88; 50; 89; 74; 90; 56; 86; 89; 90; 69; 150; 120; 120; 90; 96; 89; 100; 89; 58; 90; 60; 100; 58; 88; 79; 90; 100; 120; 90; 99; 87; 90; 99; 130.

Datos no agrupados [6.9.4] Favor de buscar y analizar el recorrido y la desviación estándar de la edad de las mujeres menores

quienes se les presentaron querellas en Puerto Rico para el año fiscal 1991-1992, según los datos registrados en el ejercicio 6.3 de la página 169.

[6.9.5] Favor de buscar y analizar el recorrido y la desviación estándar de la edad de las varones menores

quienes se les presentaron querellas en Puerto Rico para el año fiscal 1991-1992, según los datos registrados en el ejercicio 6.3 de la página 169..

[6.9.6] Favor de buscar y analizar el recorrido y la desviación estándar de la edad de todos los menores

quienes se les presentaron querellas en Puerto Rico para el año fiscal 1991-1992, según los datos registrados en el ejercicio 6.3 de la página 169.

Datos agrupados [6.9.7] Favor de buscar y analizar el recorrido y la desviación estándar de la edad por suicidio en Puerto Rico

para el año 1980, según los datos registrados en el cuadro 4.1 de la página 105. [6.9.8] Favor de buscar y analizar el recorrido y la desviación estándar de la edad por suicidio en Puerto Rico

para el año 1990, según los datos registrados en el cuadro 4.1 de la página 105. [6.9.9] Favor de buscar y analizar el recorrido y la desviación estándar de la edad por suicidio en Puerto Rico

para el año 2000, según los datos registrados en el cuadro 4.1 de la página 105.