ESTADÍSTICA BÁSICA
2016
COMISIÓN 2
“
TEORÍA: JUEVES 13-15
PRÁCTICA: 15-17
Mg. Stella Figueroa -Dr. Juan I. Pastore- Prof. Jimena Padín- Ing. Juan Marrocchi
Moore(1999) define la estadística como la ciencia de los datos.
Es una disciplina científica autónoma, que tiene sus métodos
específicos de razonamiento.
Aunque es una ciencia matemática, no es una rama de la
matemática.
Aunque es una disciplina metodológica, no es una colección
de métodos”. .
El objeto de la estadística es el razonamiento a partir de
datos empíricos.
Descriptiva
Estadística
Auxilia en
Inferencial
incluye la recopilación, organización, presentación,
análisis e interpretación de
la información
el proceso de toma de
decisiones
el análisis de datos
-describe -visualiza -resume la información
Parte del análisis de datos y lo extiende a un
grupo más amplio, obteniendo
conclusiones sobre estimaciones y
pruebas de hiótesis
¿POR QUÉ TIENE TAN MALA PRENSA LA ESTADÍSTICA?
Si definimos las variables y sus
categorías, esa
categorización no es única
y
depende de la manera en que simplificamos la
realidad.
Esto significa que un mismo problema estadístico
puede tener
muchas resoluciones
posibles y
distintas interpretaciones.
Y eso dependerá esencialmente
de:
Cómo definimos y clasificamos las variables.
y
Dónde focalizamos
nuestra atención.
¿DE QUÉ SE OCUPA LA ESTADÍSTICA DESCRIPTIVA?
La estadística descriptiva se ocupa de la organización, presentación y análisis e interpretación de la información.
¿Cuál es la información que organiza, de dónde surge, cómo se obtiene, cómo se la presenta y cómo se la analiza?
¿Qué medidas calculamos? ¿Para qué? ¿Qué significado tienen? ¿Elegimos las medidas adecuadamente en cada caso? ¿Nos ayudan a resumir la información? ¿Son medidas que representan los datos? ¿Son confiables?
ESTADÍSTICA CON PROYECTOS
Un proyecto de análisis de datos comienza con un problema que se resuelve aplicando el método estadístico.
Planteo del
Problema.
Planteo de las
preguntas.
Identificación de
las variables y de
los objetivos del
proyecto.
Descripción de la
población, de la
muestra y de la
técnica de
recolección
utilizada.
Recopilación de la
información
muestral
Presentación de
los datos: Tablas
de frecuencias.
Gráficos.
Medidas de
tendencia central
y de variabilidad.
Análisis e
interpretación de los
datos,
coherencia entre el
problema y los
objetivos
¿SE
RESUELVE
EL
PROBLEMA
?
NO
SI
Presentación del
informe con los
resultados y las
conclusiones
Problema
Un ingeniero es responsable de la producción de rulemanes y tiene dos
máquinas distintas para medirlos. Le interesa que los rulemanes
producidos tengan diámetros similares, independientemente de la
máquina que los produce, pero tiene sospechas de que se está
produciendo algún problema de falta de calibración entre ellas.
¿Qué características consideramos para analizar el
problema ?
Algunas características surgen por simple observación. Otras surgen de una medición. Otras características surgen de una encuesta
Estas características deben ser “medidas” de alguna manera.
Toda característica de la que se requiera su medición, es una
variable estadística.
CLASIFICACIÓN DE VARIABLES
Variables: Cualitativas y Cuantitativas.
Las variables cualitativas son aquellas que se refieren a categorías o atributos de los elementos de estudio.
Las variables cuantitativas son aquellas cuyos datos son de tipo numérico.
Discretas Continuas
TIPOS DE GRÁFICOS
Variables cualitativas Barras Simples (UNA SOLA VARIABLE) Diagramas Sectoriales (UNA SOLA VARIABLE) Barras Proporcionales (DOS VARIABLES) Barras Agrupadas (DOS VARIABLES)
Variables cuantitativas Discretas Bastones
Continuas Histograma Polígono de Frecuencias Simples Polígono de Frecuencias Acumuladas
VOLVIENDO AL PROBLEMA
Un ingeniero es responsable de la producción de rulemanes y
tiene dos máquinas distintas para ello. Le interesa que los
rulemanes producidos tengan diámetros similares,
independientemente de la máquina que los produce, pero tiene
sospechas de que existe una falta de calibración entre ellas.
¿Qué elementos le proporciona la estadística al
ingeniero para poder concluir que los rulemanes tienen
diámetros significativamente diferentes?
Diámetros producidos
por la máquina A
Diámetros
producidos por la
máquina B
Simulación de las mediciones. Población y Muestra
La población se refiere al conjunto de
unidades elementales con
características comunes observables.
Una muestra es un subconjunto de
unidades elementales tomadas de la
población.
Una unidad elemental es cada objeto o
sujeto que observamos de la
población.
Datos sin agrupar
Serie simple
¿CÓMO AGRUPAR LOS DATOS? .
Si contamos el número de veces que se repite un dato,
registramos en una tabla, la frecuencia de ese dato.
Si los datos se agrupan por frecuencias, presentamos una
serie de frecuencias en una tabla. Por ejemplo:
xi fi Fa fr Fa%
4.5
4.6
5.1
5.2
¿CÓMO ORGANIZAR LOS DATOS?
Serie simple
Serie de Frecuencias
Intervalos
¿CÓMO AGRUPAR Y GRAFICAR LOS DATOS POR INTERVALOS?
1. Es conveniente utilizar los intervalos de clase cuando se tienen más de 20 datos (n>20) de una variable continua.
2. Calculamos el rango de la variable R = Xmáx – Xmín
3. Calculamos la cantidad de intervalos, K = 1 + 3.3 log n (Fórmula de Sturges)
4. Calculamos la amplitud del intervalo: a = R/K
5. Construimos los intervalos a partir del Xmín o de algún valor “redondeado” que lo
contenga, de amplitud “a”, con sus frecuencias correspondientes.
6. Construimos el histograma. Consiste en una serie de rectángulos cuyas bases, de
longitud igual al tamaño de los intervalos de clase, se ubican sobre el eje
horizontal (x). En el eje (y) se ubican las frecuencias respectivas.
(Pueden ser frecuencias absolutas, frecuencias relativas, porcentajes o altura tal,
que el área de cada rectángulo represente la frecuencia relativa de cada
intervalo).
¿CÓMO AGRUPAR Y GRAFICAR DATOS POR INTERVALOS CON GEOGEBRA?
1. Siimular las mediciones con el comando UniformeAleatorio.
2. Crear una lista1 para cada serie simple.
3. Utilizar la fórmula de Sturges para determinar k, (cantidad de intervalos).
4. Utilizar el comando Clases, que con la lista1 y k , crea otra lista2 con los extremos de los intervalos de clase.
5. Utilizar el comando TablaFrecuencias para tabular los intervalos de clase entre lista2 y lista1. (El comando Frecuencias devuelve una lista de frecuencias)
6. Utilizar el comando Histograma para graficar la distribución de las mediciones.
Polígono de
frecuencias
POLÍGONO DE FRECUENCIAS ACUMULADAS (0JIVA)
Son medidas descriptivas que representan las
propiedades de tendencia central, de dispersión y
de forma
ESTADÍSTICOS
1
n
i
i
x
Xn
4.87 4.76 4.63 4.62 5.49 4.67 5.40 5.20 4.51 5.26
4.82 5.35 4.70 5.21 4.97 5.34 4.79 5.40 4.51 4.88
5.39 4.66 5.22 4.69 5.43 4.92 4.86 4.73 5.06 4.72
Las mediciones de los diámetros
producidos por la máquina A tienen un
promedio de 4.97 cm
¿Qué es?
¿Cómo se
calcula?
¿Qué
significado
tiene?
Serie Simple:
La media es el promedio aritmético de un grupo de datos.
4.5 1 1 8
4.6 6 3 2 9 7
4.7 6 0 9 3 2
4.8 7 2 6
4.9 7 2
5.0 6
5.1
5.2 2 1 0 6
5.3 9 5 4
5.4 9 3 0 0
Diámetros
en cm
fi
4.51 2
4.58 1
4.62 1
4.63 1
4.66 1
4.67 1
4.69 1
4.70 1
4.72 1
4.73 1
4,76 1
4.79 1
4.82 1
4,86 1
4.87 1
4.92 1
4.97 1
5.06 1
4.87 4.76 4.63 4.62 5.49 4.67 5.40 5.20 4.51 5.26
4.82 5.35 4.70 5.21 4.97 5.34 4.79 5.40 4.51 4.88
5.39 4.66 5.22 4.69 5.43 4.92 4.86 4.73 5.06 4.72
Diámetros
en cm
fi
5.20 1
5.21 1
5.22 1
5.26 1
5.34 1
5.35 1
5.39 1
5.40 2
5.43 1
5.49 1
¿Cómo calcular la Media Aritmética en una
serie de frecuencias?
1
k
i i
i
x f
Xn
Diagrama de Tallo-
hoja
1
k
mi i
i
x f
Xn
4.6 5 4.76 3 4.92 3 5.09 2 5.25 7 5.42 8
30
5.07
X
X
Marca de clase
Ejemplo 1
Un objeto pequeño se pesa con un mismo instrumento por ocho
estudiantes de una clase, obteniéndose los siguientes valores en gramos:
6,2 6,0 6,0 6,3 6,1 6,23 6,15 6,2
¿Cuál sería el valor que resuma mejor los datos del peso real del objeto?
(Significado estimativo)
Distintos Significados que puede tener la media muestral
Ejemplo2
Una empresa produce cierto tipo de dispositivos según la producción de
5 comercios. El comercio A recibió 5, el B recibió 8, el C, 6, el D, 1 y al
E no le llegó ninguno. ¿Qué debe hacer la empresa para repartir los
dispositivos en forma proporcional según la producción de cada
comercio? (Significado equitativo)
.
Ejemplo 3
Al medir la altura en cm que pueden saltar un grupo de estudiantes, antes y
después de haber efectuado un cierto entrenamiento deportivo, se obtuvieron
los valores siguientes. ¿Piensas que el entrenamiento es efectivo?
Altura saltada en cm.
Antes del entrenamiento 115 112 107 119 115 138 126 105 104 115
Después del entrenamiento 128 115 106 128 122 145 132 109 102 117
( significado que ayuda a decidir el planteo de hipótesis)
Ejemplo 4
La altura media de los alumnos de un colegio es 1,40. Si extraemos una
muestra aleatoria de 5 estudiantes y resulta que la altura de los 4 primeros es
de 1,38 1,42 1,60 1,40. ¿Cuál sería la altura más probable del quinto
estudiante? (significado predictivo).
Distintos Significados que puede tener la media muestral
Es el valor de variable que se presenta con mayor frecuencia en la muestra.
En una serie simple:
En una serie de frecuencias:
Mo= 4.51 y 5.40 cm En una serie de frecuencias, es el valor de variable con mayor frecuencia.
4.51 4.51 4.58 4.62 4.63 4.66 4.67 4.69 4.70 4.72
4.73 4.76 4.79 4.82 4.86 4.87 4.92 4.97 5.06 5.20
5.21 5.22 5.26 5.34 5.35 5.39 5.40 5.40 5.43 5.49
En datos agrupados por intervalos:
add
dLMo *
21
1inf
64.53 0.15 4.6586
6 1
25.16 0.15 5.26
2 1
Mo
Mo
a
D1
D2
M
o Li
Es el valor de variable donde la muestra se divide en dos partes iguales
Serie simple
¿Cómo calcularla en la Serie Simple de las edades?
La ventaja de la mediana es que los valores extremos no tienen influencia sobre ella.
4.97X
4.51 4.51 4.58 4.62 4.63 4.66 4.67 4.69 4.70 4.72
4.73 4.76 4.79 4.82 4.86 4.87 4.92 4.97 5.06 5.20
5.21 5.22 5.26 5.34 5.35 5.39 5.40 5.40 5.43 5.49
Posición de la mediana: (n+1)/2
=31/2=15.5 Significa que la
mediana se encuentra entre la posición 15 y 16.
Comparamos
con la media
obtenida en la
serie simple
Análisis de la simetría
Coeficiente
de asimetría
As <0 As =0 As >0
3015
2 2
n
Me
Diámetros
en cm fi Fa
4.51 2 2
4.58 1 3
4.62 1 4
4.63 1 5
4.66 1 6
4.67 1 7
4.69 1 8
4.70 1 9
4.72 1 10
4.73 1 11
4,76 1 12
4.79 1 13
4.82 1 14
4,86 1 15
4.87 1 16
4.92 1 17
siguen los 30
datos……
Frecuencia absoluta acumulada inmediatamente mayor a la mitad de las observaciones
inf2 *
aa
i
nF
Me L af
Cálculo de la Mediana para datos agrupados por intervalos (agrupados con GeoGebra)
Frecuencia absoluta acumulada inmediatamente mayor a la mitad de las observaciones
3015
2 2
n
3015
25 *0.16 54
Me
Cuando se divide un conjunto ordenado de datos en cuatro partes iguales, los puntos de división se conocen como cuartiles.
Mínimo Máximo Cuartil 1
Q1 Cuartil 3
Q3 Mediana Cuartil 2
Q2
25% 25% 25% 25%
25% 75%
25% 75%
Me=
4.865 Q3=5.26
4.51 4.51 4.58 4.62 4.63 4.66 4.67 4.69 4.70 4.72
4.73 4.76 4.79 4.82 4.86 4.87 4.92 4.97 5.06 5.20
5.21 5.22 5.26 5.34 5.35 5.39 5.40 5.40 5.43 5.49
Posición de la mediana: (n+1)/2
=31/2=15.5 Significa que la
mediana se encuentra entre la posición 15 y 16.
Posición de la mediana de la 1era
parte: (n+1)/2
=16/2=8 Significa que el 1er cuartil se encuentra
en la posición 8
Q1=4.69
Posición de la mediana de la 2da parte: (n+1)/2
=16/2=8 Significa que el 1er cuartil se encuentra
en la posición 8
307.5
4 4
n
Q1
Diámetro
s
en cm
fi Fa
5.20 1 20
5.21 1 21
5.22 1 22
5.26 1 23
5.34 1 24
5.35 1 25
5.39 1 26
5.40 2 28
5.43 1 29
5.49 1 30
Diámetros
en cm
fi Fa
4.51 2 2
4.58 1 3
4.62 1 4
4.63 1 5
4.66 1 6
4.67 1 7
4.69 1 8
4.70 1 9
4.72 1 10
4.73 1 11
4,76 1 12
4.79 1 13
4.82 1 14
4,86 1 15
4.87 1 16
4.92 1 17
4.97 1 18
5.06 1 19
3 9022.5
4 4
n
Q3
¿Cómo se interpretan estas medidas? (en términos del problema)
inf4 *
aa
i
i nF
Qi L af
CÁLCULO DE LOS CUARTILES PARA DATOS AGRUPADOS POR INTERVALOS (AGRUPADOS CON GeoGebra)
Frecuencia absoluta acumulada inmediatamente mayor en cada caso
307.5
4 4
n
1
306
44.68 *0.16 4.7285
Q
3 9022.5
4 4
n
3
9019
45.16 *0.16 5.2266
Q
REPRESENTACIÓN GRÁFICA DE LOS CUARTILES
Q3=5.226
Q1=4.728
Me= 5
GRÁFICO DE CAJA Y BIGOTES (EN GEOGEBRA: DIAGRAMA DE CAJA)
Este gráfico permite visualizar rápidamente la simetría y la variabilidad de los datos. El largo de la caja, es q3-q1 (rango intercuartílico), que
comprende el 50% central de los datos.
Q1=4.728
Me= 5
Q3=5.226
Mínimo 4.53 Q1=4.53 Me= 5 Q3=5.226 Máximo 5.47
ANÁLISIS DEL GRADO DE CURTOSIS
Coeficiente
de curtosis
K>0 K=0 K<0
Con esta medida se cuantifica la mayor o menor cantidad de datos que se agrupan en torno a los valores centrales
Medidas
de Dispersión
Absolutas
Rango
Varianza
Desviación
estandar
Rango
intercuartílico
Relativas Coeficiente de
variación
El rango de la muestra se define como la diferencia entre la
observación más grande y la más pequeña :
max minr x x Rango intercuartílico
El rango intercuartílico de la muestra se define como la
diferencia entre el cuartil 3 y el cuartil 1. Allí se encuentra la
distribución del 50% central de los datos.
Para el conjunto de datos x1, x2,….,xn de una población de tamaño N
Las diferencias de cada dato y la media, determinan los desvíos o desviaciones.
Dado que la suma de estas desviaciones es cero, se utilizan como medidas de variabilidad el promedio de los cuadrados de tales desvíos.
2
2 1
( )
1
n
i
i
x x
sn
Varianza Poblacional
siendo N el tamaño de la población.
Para datos sin agrupar (1) y agrupados (2)
Varianza muestral
siendo n el tamaño de la muestra. Para datos sin
agrupar (3) y agrupados (4)
(1) (2) (3) (4)
Si los datos se agrupan por intervalos, usamos Xmi en lugar de Xi
2
2 1
( )m
i i
i
x x f
N
2
2 1
( ) .
1
m
i i
i
x x f
sn
2
2 1
( )N
i
i
x x
N
Para datos agrupados por frecuencias
2
1
)(1
1
n
i
i Xxn
S
i
n
i
i fXxn
S 2
1
)(1
1
2
1
1( )
1
k
mi i
i
S x X fn
Para datos sin agrupar
Para datos agrupados por Intervalos
Desviación estándar
• Mide el grado de variabilidad en una muestra o población.
• Compara la variabilidad entre distintas variables y poblaciones.
• Está desprovisto de unidades.
• El valor expresado en términos porcentuales, se llama coeficiente de variación porcentual.
SCV
X
% 100%S
CVX
Consideraremos poca variabilidad, si el CV% es a lo sumo del 30 %
ALGUNOS RESULTADOS
Distribución A asimétrica negativa:
Moda < me < media
El desvío Estandar muestral para las mediciones de los
diámetros de los rulemanes producidos por
la máquina A es 0.31 El Coeficiente de variación
porcentual es del 6%
RESULTADOS PARA COMENZAR A RESPONDER A LA PREGUNTA INICIAL
Ejercicio: Efectuar todo el análisis con calculadora por un lado, y también con GeoGebra.
¿Qué elementos le proporciona la estadística al ingeniero para poder concluir que los rulemanes tienen diámetros
significativamente diferentes?
• El análisis de datos: además del cálculo de las medidas de tendencia central, sus interpretaciones en el contexto del problema.
• El análisis de la forma de la distribución, para decidir sobre las medidas calculadas junto al
• Análisis de la variabilidad, al calcular e interpretar el coeficiente de variación. • La comparación de las dos distribuciones a través de sus medidas descriptivas,
de su forma y de su variabilidad • El planteo de alguna hipótesis según los resultados obtenidos, que permitan ser
contrastados más adelante con pruebas de hipótesis, para poder concluir si los rulemanes producidos por cadamáquina tiene diámetros significativamente diferentes.
Top Related