Esta Di Stica

INTRODUCCIÓN

Estadística

Ciencia de recolectar, organizar, analizar e interpretar

información.

La estadística se encarga de describir los resultados de

una investigación científica, de tomar decisiones basadas

en dicha investigación y de estimar cantidades

desconocidas

Población

Totalidad de las observaciones en las cuales se está

interesado.

El tamaño de la población está definido por el número

de observaciones en la población.

Muestra

Cualquier subconjunto de la población

Población infinita

Los puntos obtenidos al lanzar un dado

indefinidamente

Datos de presión atmosférica medida diariamente

Mediciones de profundidad de un lago desde

cualquier posición

Población finita

Calificaciones en Cálculo de 600 estudiantes de una

escuela

Las alturas de los residentes de una ciudad

Longitudes de los pescados de un lago

Estadística Descriptiva

Comprende aquellos métodos usados para

organizar y describir la información recabada.

Estadística Inferencial

Comprende aquellos métodos y técnicas usados para

hacer generalizaciones, predicciones o estimaciones

sobre poblaciones a partir de una muestra.

El concepto de probabilidad juega un papel

importante, por no estar absolutamente ciertos de la

veracidad de tales inferencias.

Estadística descriptiva

1. Organización de datos

A la información usada se le llama datos

Datos cuantitativos: Información numérica

Datos cualitativos: Representan categoría o

atributos que pueden clasificarse según un criterio

de cualidad.

• Peso en kilos

• Edad en años

• Longitud en centímetros

• Sexo: hombre,mujer

• Color: rojo, verde, azul

• Marca de automóvil: Ford, Chevrolet

Clasificación de datos cuantitativos

Datos discretos: Datos obtenidos de un

proceso de conteo.

Datos continuos: Datos obtenidos de un

proceso de medición, donde la característica que

se mide puede tomar cualquier valor numérico en

un intervalo.

• Número de niños en una familia

• Cantidad de automóviles en un estacionamiento

• El número de personas en una fila

• Tiempo en llegar al trabajo

• Velocidad de un automóvil en km/h

• Peso en kilogramos

Cuantitativos

Cualitativos

Discretos

Continuos

Objetivo de la organización de datos

Acomodar un conjunto de datos en forma útil para

revelar sus características esenciales y simplificar ciertos

análisis.

Frecuencia

Es el número de veces que aparece una medida o una

categoría en una colección de datos.

Las tablas son útiles para organizar datos. Las tablas para

reportar datos usando frecuencias se llaman tablas de

frecuencias.

Tablas de frecuencias no agrupadas

Ejemplo.

Los datos siguientes corresponden al número de faltas a

clases durante el período de otoño de 1988 para

estudiantes inscritos en la materia de Estadística.

9 8 7 8 4 3

2 1 0 5 3 2

1 1 7 3 2 8

7 6 6 4 3 2

2 0 9 4 6 9

6 9 4 3 5 7

3 2 1 4 4 2

Cada medida tiene su frecuencia correspondiente

Número de faltas (x) Frecuencia (f)

Tabla de Frecuencias

Ejemplo.

Cinco miembros, Pérez, Maldonado, González, Cárdenas y

Torres, de la junta directiva de una pequeña universidad,

fueron nominados para presidirla y los datos siguientes

muestran el resultado de la elección.

Pérez Pérez Maldonado Maldonado Pérez Torres

Maldonado González González Pérez Torres Pérez

Maldonado Maldonado Maldonado Cárdenas Cárdenas Pérez

Maldonado Torres Maldonado Cárdenas Cárdenas Cárdenas

Miembro de la junta Frecuencia (f) Cárdenas 5 González 2 Maldonado 8 Pérez 6 Torres 3

Tablas de frecuencias agrupadas

Ejemplo.

El Hospital Christus Muguerza quiere saber si su servicio

en la sala de emergencias es adecuado. Para empezar el

estudio, el gerente del departamento correspondiente

registra el número de personas que ocupan la sala de

emergencias cada día durante un período de 12 días, con

los resultados siguientes.

Se presentan las frecuencias de acuerdo con

grupos o clases de medidas.

Día 1 2 3 4 5 6 7 8 9 10 11 12

Núm. de pacientes 7 43 8 22 13 28 36 18 23 21 15 52

Se construyen seis agrupamientos o clases. La clase 1,

por ejemplo, representa de 1 a 10 pacientes

Clase Frecuencia (f)

1-10 2

11-20 3

21-30 4

31-40 1

41-50 1

51-60 1

Los extremos de las clases se llaman límites de clase

La distancia entre cualquiera de dos límites

superiores consecutivos o entre cualquiera dos

límites inferiores consecutivos es llamada amplitud

de clase (w).

Cada clase en una tabla de frecuencia tiene límites de

clase teóricos llamados fronteras de clase.

Para el ejemplo, la unidad de medida es 1 pues se

están contando individuos, por lo que la frontera

inferior para la primera clase es [1-0.5(1)]=0.5 y la

frontera superior para esta misma clase es

[10+0.5(1)]=10.5.

Las fronteras de clase y las amplitudes de clase de una

tabla de frecuencias agrupadas se determinan

considerando la unidad o precisión de la medida.

La frontera inferior de clase de un intervalo se localiza

media unidad abajo del límite y la frontera superior de

clase de un intervalo se localiza media unidad arriba del

límite.

Características de una tabla de frecuencias

agrupadas:

1.Uniformidad: cada clase debería tener la misma

amplitud

2. Unicidad: dos clases no se traslapan

3.Completez: cada uno de los datos debe

pertenecer a alguna clase

La amplitud w de cualquier clase de una tabla de

frecuencias agrupadas puede encontrarse también

restando la frontera inferior de la clase de su frontera

superior.

Ejemplo.

La siguiente es una tabla de frecuencias agrupadas para el

peso en libras de 18 recién nacidos.

3.0 - 4.4 1

4.5 - 5.9 1

6.0 - 7.4 7

7.5 - 8.9 8

9.0 - 10.4 1

La precisión de la medida de las clases es 0.1 libras.

Frontera inferior para la clase 7.5 – 8.9:

7.5 – (0.5)(0.1)=7.5 – 0.05 = 7.45

Frontera superior para la clase 7.5 – 8.9:

8.9 + (0.5)(0.1)= 8.9 + 0.05 = 8.95

Note que ningún peso corresponde a alguna frontera.

Número de clases

• Si todos los datos se agrupan en un número pequeño

de clases, las características de los datos originales se

ocultan y se puede perder información relevante.

• Si se utilizan demasiadas clases, éstas dan demasiados

detalles y se pierde el propósito del agrupamiento, que

es condensar los datos de manera significativa y fácil de

interpretar. Además puede ser que muchas clases

queden vacías quitándole sentido al agrupamiento de

los datos.

La elección del número de clases, que denotaremos por c,

es arbitraria; sin embargo es importante considerar los

puntos anteriores.

También puede considerarse lo siguiente:

Regla de Sturges

c = 3.3(log n) + 1

n: número de medidas

log n: logaritmo de n base 10

Ejemplo.

Si el número de medidas es 25, determine el número de

clases obtenido por la regla de Sturges.

c = 3.3(log n) +1

= 3.3(log 25) +1

= 3.3(1.3979) +1 ≈ 6

Amplitud de Clase

R es el rango , diferencia entre la medida mayor U y la

medida menor L .

El límite inferior de la primera clase debe estar en, o un

poco antes, de la medida menor.

Acordaremos empezar la primera clase con la medida

menor.

Ejemplo.

El profesor Smith puso un examen final consistente en

100 preguntas a su grupo de Estadística. Los datos

siguientes representan el número de respuestas

correctas en cada examen.

17 15 78 21 10 32 7 65 18 87

4 22 34 42 9 9 82 79 98 4

44 64 62 77 2 81 45 37 83 44

77 13 41 16 17 13 82 37 5 54

7 67 88 41 61 22 92 16 67 85

Construya una tabla de frecuencias agrupadas con 5

clases.

2 - 21 18

22 - 41 8

42 - 61 6

62 - 81 10

82 - 101 8

Tabla de frecuencias agrupadas

Ejemplo.

Los siguientes datos representan el número de

clientes que visitan una tienda en un período de 22

días. Use seis clases y construya una tabla de frecuencias

agrupadas para los datos.

28 42 52 50 29 31 34 45 48 38 28 33 33 49 32 37 41 43 46 49 34 49

28 – 32 5

33 – 37 5

38 – 42 3

43 – 47 3

48 – 52 6

53 - 57 0

26 – 30 3

31 – 35 6

36 – 40 2

41 – 45 4

46 – 50 6

51 - 55 1

Marca de clase.

Es el punto medio de cada clase y se determina sumando

los límites inferior y superior de la clase y dividiendo por 2.

También se conoce como punto medio de la clase. Lo

denotaremos por X.

Consideremos el ejemplo anterior referente al número de

clientes que entran a una tienda en un período de 22 días.

La marca de clase para la clase 2 es 33 .

Cada marca de clase para las clases siguientes a la primera,

puede encontrarse también sumando la amplitud de clase

a la marca de clase precedente.

Ejemplo.

El conjunto de datos siguiente, representa los totales de

efectivo (en dólares) gastados en un cierto fin de semana

por 25 estudiantes graduados. Construya una tabla de

frecuencias agrupada que contenga cinco clases.

39.78 28.30 28.31 17.95 44.47

46.65 31.47 33.45 29.17 48.39

82.71 43.63 41.17 47.32 52.16

25.94 50.32 35.25 35.70 17.89

60.20 48.14 22.78 38.22 23.25

Tabla de frecuencias agrupadas

Número de clase

Frecuencia (f)

Marca de clase (X)

1 17.89 - 30.88 8 24.385

2 30.89 - 43.88 8 37.385

3 43.89 - 56.88 7 50.385

4 56.89 - 69.88 1 63.385

5 69.89 - 82.88 1 76.385

Tabla de frecuencia relativa

La frecuencia relativa de una medida o clase se encuentra

dividiendo la frecuencia f de dicha medida entre el total n

de medidas. La tabla que contiene esta información se

llama tabla de frecuencia relativa.

Note que una frecuencia relativa equivale a un

porcentaje, por lo que la suma de las frecuencias

relativas, sin error de redondeo, es siempre 1.

Para convertir una frecuencia relativa en un porcentaje,

se multiplica por 100%.

Ventaja de la tabla de frecuencia relativa sobre otra tabla

de frecuencias:

Se pueden hacer comparaciones entre conjuntos similares

de datos que tengan las mismas clases pero frecuencias

totalmente distintas.

Ejemplo.

La siguiente tabla exhibe los salarios iniciales de

ingenieros recién graduados en dos universidades

estatales A y B.

Universidad A Universidad B

Clase salarial f Clase salarial f

$10,000 - 12,999 0 $10,000 - 12,999 1

13,000 - 15,999 2 13,000 - 15,999 1

16,000 - 18,999 7 16,000 - 18,999 2

19,000 - 21,999 6 19,000 - 21,999 2

22,000 - 24,999 3 22,000 - 24,999 3

25,000 - 27,999 2 25,000 - 27,999 1

Tabla de frecuencia agrupada

Universidad A Universidad B Clase salarial

Relativa

f Clase salarial

Relativa

$10,000 - 12,999 0 $10,000 - 12,999 0.1

13,000 - 15,999 0.1 13,000 - 15,999 0.1

16,000 - 18,999 0.35 16,000 - 18,999 0.20

19,000 - 21,999 0.30 19,000 - 21,999 0.20

22,000 - 24,999 0.15 22,000 - 24,999 0.30

25,000 - 27,999 0.10 25,000 - 27,999 0.10

Tabla de frecuencia relativa

Tabla de frecuencia acumulada

La frecuencia acumulada de cualquier medida o clase, es

la suma de la frecuencia de esa misma clase, y de las

frecuencias de las medidas o clases anteriores.

Lo anterior es de interés cuando se quiere saber el

número de observaciones menores o iguales que algún

valor dado.

Ejemplo.

Obtenga la tabla de frecuencia acumulada a partir de la

siguiente tabla de frecuencia agrupada correspondiente al

ejemplo del examen de estadística

2 - 21 18

22 - 41 8

42 - 61 6

62 - 81 10

82 - 101 8

Tabla de frecuencia acumulada

Frecuencia acumulada

2 - 21 18

22 - 41 26

42 - 61 32

62 - 81 42

82 - 101 50

Tabla de frecuencia relativa acumulada

La frecuencia relativa acumulada de cualquier medida o

clase, se obtiene dividiendo la frecuencia acumulada

entre el total de medidas

Ejemplo.

Frecuencia relativa acumulada

2 - 21 18 / 50=0.36

22 - 41 26/ 50 = 0.52

42 - 61 32 / 50 = 0.64

62 - 81 42 / 50 = 0.84

82 - 101 50 / 50 = 1.00

2. Representación gráfica de datos

Una gráfica es una forma ilustrada de representar y

resumir datos, ésta puede hacer más evidentes ciertas

características que una tabla de frecuencias.

Gráficas más usadas:

• De pastel

• De barras

• Histogramas

• Polígono de frecuencias

• Otras

Gráfica de barras y de pastel

Estas se usan generalmente para datos nominales.

Existen escalas nominales tanto para los datos

cuantitativos como para los cualitativos.

Escala nominal para datos numéricos asigna números a

las categorías para distinguirlas; por ejemplo, puntajes de

futbol americano: 6 puntos para touchdown, 1 punto

para la patada extra, 2 puntos por una escapada extra y

3 puntos por un gol de campo.

Para datos cualitativos, es un agrupamiento no

ordenado de los datos en categorías discretas, donde

cada dato puede incluirse solamente en uno de los

grupos; por ejemplo, género, raza, tipo de sangre y

religión.

Las escalas nominales, se usan principalmente con

propósitos de identificación o de clasificación.

Las gráficas de pastel se usan sólo para representar

partes de un total.

Ejemplo.

La siguiente tabla contiene datos referentes a los

beneficiarios de los donativos hechos por ciudadanos

estadounidenses en 1983.

Beneficiarios Totales (en miles de millones de dólares)

Religión 31.0 Artes y humanidades 4.1 Servicios Sociales 6.9 Educación 9.0 Salud 9.2 Otros 4.7

6.9 9.0 9.2

Religión Artes y

humanidades

Servicios

Sociales

Educación Salud Otros

6.9 9.0 9.2

Religión Artes y

humanidades

Servicios

Sociales

Educación Salud Otros

En Excel

Gráfica de

Barras

Religión

Artes y humanidades

Servicios Sociales

Educación

En Excel

Gráfica de

Pastel

Histograma

Un histograma es un tipo de gráfica de barras para una

distribución de frecuencia (tablas de frecuencias no

agrupadas y agrupadas).

Distribuciones de frecuencias no agrupadas

La idea es representar cada frecuencia por una barra

cuya área sea proporcional a ella. Típicamente, el ancho

de cada barra se escoge como 1 y así el área de la barra

es igual a la frecuencia de la medida.

Ejemplo.

La siguiente tabla contiene el número de niños en edad

escolar en cada una de las 50 familias de una muestra.

Construya un histograma para los datos.

Número de niños en edad escolar

Frecuencia (f)

0 1 2 3 4

Distribuciones de frecuencias agrupadas

Para construir un histograma para datos medidos en una

escala de intervalo se acostumbra:

1. Organizar los datos de una tabla de frecuencia

agrupada.

2. Construir una gráfica de barras usando las fronteras

de clase para colocar las barras, y las frecuencias

para indicar las alturas de las barras.

Ejemplo.

La siguiente tabla de frecuencias agrupadas representa la

tasa de desempleo, en porcentajes, para 27 ciudades del

este de EU. Construya un histograma con estos datos.

Tasa de desempleo (en porcentajes)

Número de ciudades

3.7 - 5.1 5

5.2 - 6.6 12

6.7 - 8.1 6

8.2 - 9.6 1

9.7 - 11.1 0

11.2 - 12.6 1

12.7 - 14.1 2

3.7 - 5.1 5.2 - 6.6 6.7 - 8.1 8.2 - 9.6 9.7 - 11.1 11.2 - 12.6 12.7 - 14.1

En Excel

Histograma de frecuencia relativa

Se puede construir un histograma de frecuencia relativa

cambiando la escala vertical de un histograma de

frecuencias.

La altura de las barras en un histograma de esta

naturaleza indicará la proporción del total representado

por cada clase.

Su forma básica se parece a la del histograma de

frecuencias correspondiente.

Ejemplo.

Considere el ejemplo referente a la tasa de desempleo

para 27 ciudades de EU. Construya la tabla de frecuencia

relativa y el histograma de frecuencia correspondiente.

Tasa de desempleo (en porcentajes)

Número de ciudades (f)

Frecuencia relativa

3.7 - 5.1 5 0.19

5.2 - 6.6 12 0.44

6.7 - 8.1 6 0.22

8.2 - 9.6 1 0.04

9.7 - 11.1 0 0.00

11.2 - 12.6 1 0.04

12.7 - 14.1 2 0.07

3.7 - 5.1 5.2 - 6.6 6.7 - 8.1 8.2 - 9.6 9.7 - 11.1 11.2 - 12.6 12.7 - 14.1

En Excel

3.7 - 5.1 5.2 - 6.6 6.7 - 8.1 8.2 - 9.6 9.7 - 11.1 11.2 - 12.6 12.7 - 14.1

Polígonos de Frecuencia

El polígono de frecuencia se construye uniendo los

puntos ( X , f ) (marca de clase y su correspondiente

frecuencia).

Considere el ejemplo de los clientes que visitan una

tienda en un período de 20 días.

Clientes Frecuencia

(f) X 26 – 30 3 28 31 – 35 6 33 36 – 40 2 38 41 – 45 4 43 46 – 50 6 48 51 - 55 1 53

23 28 33 38 43 48 53 58

3. Análisis de datos

Medidas de tendencia central

El propósito es resumir un conjunto de datos de forma

que podamos tener un panorama general; tal medida sirve

de representante del resto de la información

• Media: promedio aritmético

• Mediana: puntaje ordenado medio

• Moda: es el puntaje mas frecuente

• Rango medio: promedio aritmético de las medidas

mayor y menor.

Media o promedio aritmético

La media o promedio aritmético de un conjunto de

datos se encuentra sumando los números y dividiendo

después la suma entre el número de medidas. La

media se puede determinar sólo para datos

cuantitativos.

Esta se puede calcular tanto para muestras como para

poblaciones.

media muestral

media poblacional

Ejemplo.

Suponga que se tiene la siguiente muestra de edades en

años de principiantes de una universidad.

18 18 18 18 19 19 19 20 20 21

O también

Media muestral de datos exhibidos en una tabla de

frecuencias

Desventaja: se ve afectada por los valores extremos.

Por ejemplo, suponga que un corredor ha corrido en

seis de los maratones mas grandes del país, quedando

en las posiciones siguientes

3 5 4 6 2 85

La media de estos valores es 17.5 . Si la media se usa para

describir la habilidad del corredor, no parece razonable

pues a lo más terminó en sexto lugar en las primeras cinco

carreras.

Para datos contenidos en una tabla de frecuencia

agrupada, se usan las marcas de clase para representar las

medidas de cada clase. Entonces la media muestral

aproximada es

Ejemplo.

Los siguientes datos representan el número de discos

vendidos cada día durante un período de 25 días en una

tienda de música localizada en un centro comercial.

60 36 61 56 19 35 51 42 21 28 33 67 30 49 57 54 59 28 63 38 15 24 35 46 53

Por conveniencia, los datos se presentan en una tabla de

frecuencias agrupadas

Número de discos vendidos

Número de días

15-25 4

26-36 7

37-47 3

48-58 6

59-69 5

Encuentre

a) El número promedio de discos vendidos por día

b) El número promedio aproximado de discos vendidos

por día.

Ejemplo.

Los Bobcats han anotado en 8 juegos consecutivos los

siguientes puntos

6 10 3 21 0 35 42 14

0 3 6 10 14 21 35 42

La mediana es

Mediana

La mediana es el puntaje medio ordenado.

Si el número de medidas es impar, entonces será la medida

en el centro; pero si es par, la mediana es la media de las

dos medidas que ocupan posiciones centrales.

Ejemplo.

Encuentre la mediana para los datos muestrales

organizados en la siguiente tabla de frecuencia que

representa el número de faltas en cada período de clases

durante la primavera de 1988 en un grupo de introducción

a la filosofía.

Número de faltas Frecuencia f acumulada

0 10 10

1 10 20

2 8 28

3 4 22

4 8 40

Para datos agrupados, se pueden considerar uno de dos

criterios.

1. Cualquier valor de la clase coincide con la marca de

clase.

2. Los valores en cada clase se distribuyen

uniformemente en la clase.

Nosotros trabajaremos con el criterio 1.

Ejemplo.

La siguiente tabla representa las velocidades, en millas

por hora, para una muestra de 37 coches que recorren

una zona escolar donde se permite circular hasta 25

millas por hora. Encuentre la mediana aproximada.

Velocidad Número de coches f acumulada

1-5 3 3

6-10 2 5

11-15 5 10

16-20 10 20

21-25 7 27

26-30 10 37

Criterio1.

Velocidad Número de coches X f acumulada

1-5 3 3 3

6-10 2 8 5

11-15 5 13 10

16-20 10 18 20

21-25 7 23 27

26-30 10 28 37

La mediana muestral aproximada será la marca de clase

que ocupa el lugar 19 (n impar).

La moda, si se da, es la medida más frecuente. Es la

única medida de tendencia central que puede

utilizarse para datos cualitativos.

Ejemplos.

• 1 1 3 3 3 2 7 8 la moda es 3

• 1 1 3 3 3 2 7 8 46 la moda es 3

• rojo, negro, café, azul no tiene moda

• 2 2 3 3 4 4 5 5 no tiene moda

Para datos agrupados, el uso de la moda depende del

agrupamiento arbitrario de los datos, lo cual es una

desventaja.

La moda para una distribución de frecuencia agrupada se

conoce como moda cruda o clase modal.

Una moda cruda o clase modal, si existe, corresponde a la

marca de clase para una clase que contenga la frecuencia

mayor y para datos desplegados en un histograma, una

moda se asocia con la barra más alta.

Marca de clase frecuencia

20 25 30 35 40

Modas crudas:

20 y 40

Medidas de dispersión o variabilidad

Las medidas de tendencia central solas, usualmente no

describen apropiadamente una característica en estudio.

Ejemplo.

David y Ricardo lanzan cada uno 25 flechas a un blanco.

Los siguientes son sus puntajes.

Frecuencia Puntaje David Ricardo

10 2 0 9 3 0 8 4 5 7 7 8 6 2 5 5 1 4 4 1 3 3 1 0 2 2 0 1 2 0

David y Ricardo tienen el mismo puntaje promedio,

Puntaje de David

Puntaje de Ricardo

1 2 3 4 5 6 7 8 9 10

Es claro que, aunque el puntaje promedio de ambos es

igual, el desempeño no lo es.

Es necesaria una medida que sea sensible a esta

variabilidad, la media no lo es.

La variabilidad es un concepto fundamental en

estadística.

Medidas de variabilidad o de dispersión para datos

cuantitativos.

• rango

• varianza

• esviación estándar

Diferencia entre medida máxima U y medida mínima L; esto

es, R = U – L

El rango no es una medida sensible para la dispersión de

una colección de datos. También puede afectarse

drásticamente por la presencia de valores extremos de los

datos.

Desviación

El valor de desviación =

Una desviación positiva para una medida, indica que la

medida está por encima de la media, mientras que una

desviación negativa señala que está por debajo de la

media.

Como la desviación de un valor representa la distancia

de una medida y la media de un conjunto de datos,

podríamos pensar que el promedio de todas las

desviaciones proporciona una medida de dispersión de

todas las medida con respecto a la media.

Sumas de cuadrados

Para una muestra

Para una población

Varianza

Se define como el promedio de los cuadrados de las

desviaciones de los valores.

Para una población

Para una muestra

Es difícil interpretar la varianza como medida

descriptiva de dispersión pues sus unidades son el

cuadrado de las unidades de medida.

Desviación estándar

Es la raíz cuadrada de la varianza. Las unidades de la

desviación estándar son las mismas que las de las

medidas.

Suma de cuadrados para datos en una tabla de

frecuencias.

Para una muestra

Para una población

Esta Di Stica

Documents

Transcript of Esta Di Stica