TEMA 9: ESTADÍSTICA: UNIDIMENSIONAL Y BIDIMENSIONAL ......resulta de la división en la tabla de...
Transcript of TEMA 9: ESTADÍSTICA: UNIDIMENSIONAL Y BIDIMENSIONAL ......resulta de la división en la tabla de...
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
1. INTRODUCCIÓN A LA ESTADÍSTICA UNIDIMENSIONAL.
La estadística estudia una o varias características de cada uno de los elementos de
un conjunto. Para ello, se encarga de:
Recoger los datos, ordenarlos y agruparlos.
Representarlos en tablas y gráficas.
Calcular medidas de centralización.
Elegir alguna de estas medidas como representante de todos los datos.
Siempre que realizamos un análisis sobre una característica propia de una población,
la toma de datos se realiza a partir de la respuesta que dan los individuos a una
pregunta determinada.
Vamos a ver algo de vocabulario básico que utilizamos cuando hablamos de
estadísticas.
POBLACIÓN: Conjunto de seres o sucesos de los que vamos a estudiar una o varias
características.
Por ejemplo si lo que queremos estudiar es la longitud media de la rana verde, la
población son todas las ranas verdes del Planeta.
MUESTRA: Subconjunto de la población, que estudiamos cuando no podemos
hacerlo con toda la población o es demasiado costoso.
Si queremos saber la longitud de una rana verde, sería imposible medirlas a todas.
Las ranas que midiésemos serían la muestra, por ejemplo 200 ranas.
VARIABLE : Es la característica que estudiamos en los individuos. Es siempre el
primer dato que colocamos en la tabla estadística.
En este caso la longitud, es decir, los cm que miden las ranas.
FRECUENCIA ABSOLUTA: Es el número de veces que se repite el valor de la
variable. Y la llamamos fi. Es siempre el segundo dato que colocamos en la tabla
estadística. El sumatorio de todas las frecuencias relativas ( ) ha de dar
siempre como resultado el valor de la muestra (N).
Si tenemos 47 ranas que miden 3,5 cm. La frecuencia absoluta de la variable 3,5 cm
es 47.
TEMA 9: ESTADÍSTICA: UNIDIMENSIONAL Y BIDIMENSIONAL.
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
FRECUENCIA ABSOLUTA ACUMULADA: La llamamos Fi. Se obtiene sumándole a
cada valor de la frecuencia absoluta los valores anteriores. De tal manera que el
último valor de la frecuencia absoluta acumulada ha de ser igual a la muestra.
FRECUENCIA RELATIVA: La llamamos fR . Se obtiene al dividir cada frecuencia
absoluta entre el valor de la muestra (N). El sumatorio de todas las frecuencias
relativas ( ) ha de dar siempre como resultado 1.
fR=
FRECUENCIA RELATIVA ACUMULADA: La llamamos FR. Se obtiene sumándole a
cada valor de la frecuencia relativa los valores anteriores. De tal manera que el
último valor de la frecuencia relativa acumulada ha de ser igual al ( ), o sea, 1.
2. MEDIDAS ESTADÍSTICAS.
MEDIDAS DE CENTRALIZACIÓN: Son unos valores que resumen todos los
datos en uno solo.
El estadístico elegirá después cual es el que más le conviene. Cada uno de estos
valores se denomina medida de centralización ya que pretende centrar la
información en ese único valor. Son medidas de centralización: la media, la mediana
y la moda.
La media: Es una medida de centralización que resulta de dividir la suma de
todos los productos de cada valor de la variable por su frecuencia absoluta,
entre el tamaño de la muestra.
Se le denota . Para calcularla aplicamos la siguiente fórmula:
=
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
La mediana: Es una medida de centralización que representa el valor de la
variable que ocupa la posición central en un conjunto de datos ordenados. Es
decir, es el número en el medio de una lista ordenada.
Se le denota Me. Para calcular la mediana, ordenamos los números que nos
han dado según su valor. La mediana será el que queda en el medio.
Esto se hace dividiendo la muestra entre 2, luego buscamos ese valor que
resulta de la división en la tabla de frecuencias absolutas y vemos que valor
de la variable le corresponde. Ese valor de la variable es la mediana.
Si el tamaño de la muestra es par, en ese caso tenemos que encontrar el par
central de números, y después calcular su valor medio.
La moda: Es una medida de centralización que indica el valor de la variable de
mayor frecuencia. O dicho de otro modo es el valor que más se repite.
Para localizarla basta buscar el mayor número en la columna de frecuencias
absolutas y ver que valor de la variable le corresponde. Ese valor de la
variable será la moda.
MEDIDAS DE DISPERSIÓN: Son unos valores que controlan la fiabilidad de la
información que proporcionan las medidas de centralización.
Son medidas de dispersión: la varianza, la deviación típica y la simetría de la
distribución de la variable.
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
La varianza: Es una medida de dispersión que representa la variabilidad de una
serie de datos respecto a su media.
Se le denota Var. Para calcularla hemos de aplicar la siguiente fórmula:
Var =
La desviación típica: Es una medida de dispersión que se utiliza para
cuantificar la desviación de un conjunto de datos numéricos.
Una desviación baja indica que la mayor parte de los datos de una muestra
tienden a estar agrupados cerca de su media, mientras que una desviación
alta indica que los datos se extienden sobre un rango de valores más amplio.
Se le denota con la letra griega sigma minúscula . Para calcular la
desviación típica le hallamos la raíz cuadrada a la varianza.
= =
La simetría de la distribución de la variable: Se trata de comprobar si la
distribución de los datos es simétrica con respecto a la media.
Para ello representamos los datos en una gráfica. Una gráfica es toda
representación en el plano de dos o más variables interrelacionadas.
Colocamos los valores de la variable (xi) en el eje de la x (eje de abscisas), y
los valores de la frecuencia absoluta (fi) en el eje de la y (eje de
ordenadas).
Representamos las frecuencias por segmentos (líneas continuas) que parten
de cada valor de la variable y de altura proporcional al valor de su
frecuencia correspondiente. Si una frecuencia es cero, la línea se reduce a
un punto sobre el eje de la x. A continuación, unimos los extremos de los
segmentos. Dando como resultado el polígono de frecuencias.
Por otro lado dibujamos la línea del valor de la media (de otro color).
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
Decimos que la distribución de la variable (xi) es simétrica, si en relación a
la media, la distribución se distribuye un 50% a la derecha y otro 50% a la
izquierda, presentando una forma similar a ambos lados. Es decir, si
dobláramos el papel por el eje de la media, la gráfica coincidiría por ambos
lados.
3. ORGANIZACIÓN DE DATOS.
Es indispensable organizar la información. Para ello confeccionaremos una tabla con
todos los datos que necesitamos.
Vamos a hacer un ejercicio, y así elaboramos juntos la tabla.
1) Preguntamos a 10 alumnos de PAU + 25 años, del CEPER La Arboleda Perdida, la edad
que tienen y se ha obtenido la siguiente información:
3 alumnos tienen 42 años, 1 alumna tiene 39, 2 alumnos tienen 36, 1 alumno tienen 33, 1 alumno tiene 31 y 2 alumnos tienen 25 años. a) Construya la tabla estadística.
b) Calcule la edad media que tienen los alumnos, la mediana y la moda.
c) Calcule la varianza y la desviación típica marginal.
a) Vamos a construir la tabla:
Variable:
edad
xi
Frecuencia
absoluta
fi
xi•fi
Frecuencia
absoluta
acumulada
Fi
xi2
fi•xi2
Frecuencia
relativa
fR
Frecuencia
relativa
acumulada
FR
25 2 50 2 625 1250 0,2 0,2
31 1 31 3 961 961 0,1 0,3
33 1 33 4 1089 1089 0,1 0,4
36 2 72 6 1296 2592 0,2 0,6
39 1 39 7 1521 1521 0,1 0,7
42 3 126 10 (N) 1764 5292 0,3 1 (∑fR)
10 (muestra) 351 12705 ∑fR = 1
∑fi = N ∑xi•fi=351 ∑fi•xi2=12705
N = 10
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
Siempre en la primera columna colocaremos la variable que estamos estudiando, es
decir las edades. La llamamos xi.
En la segunda columna siempre colocaremos la frecuencia absoluta que es el número
de veces que se repite el valor de la variable. Y la llamamos fi.
A partir de ahí, iremos colocando en las posteriores columnas los datos que
necesitemos organizar, para responder a las preguntas del ejercicio.
b) Vamos a calcular la media, mediana y moda.
Para hallar la media aplicamos su fórmula:
=
El símbolo significa sumatorio y permite representar sumas de varios sumandos.
Se expresa con la letra griega sigma mayúscula. Y en este caso quiere decir lo
siguiente:
x1 f1 + x2 f2 + x3 f3 + x4 f4 +… + xn fn
Así que, vámonos a la tabla… a meterle mano a la tercera columna para hallar
Una vez obtenidos los valores, los sustituimos en la fórmula.
=
= 35,1
La media de edad es 35,1 años de edad.
Para calcular la mediana necesitamos las frecuencias absolutas acumuladas . La
frecuencia absoluta acumulada es el resultado de sumar sucesivamente
las frecuencias absolutas, desde el menor al mayor de sus valores. El último valor de
las frecuencias absolutas acumuladas ha de darnos el valor de la muestra (N).
Dividimos la muestra entre dos.
10:2= 5
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
En la columna de Fi buscamos el primer valor que sobrepase a 5, siendo el 4º valor,
que vale 6. Por lo tanto la mediana es 36.
Me = 36 años.
Vamos a calcular la moda, para ello nos vamos a la columna de frecuencias absolutas.
Buscamos el que tenga el valor más grande. Siendo el último que vale 3. Así pues la
moda es 42.
Moda = 42 años.
c) Vamos a calcular la varianza y la desviación típica.
Para calcular la varianza aplicamos su fórmula:
Var =
-
Necesitamos calcular y luego
Para tenerlo todo organizado y evitar errores, colocamos todos estos datos en la
tabla. Así que volvemos a la tabla para hacer los cálculos.
Cuando hemos hallado los valores que necesitamos los sustituimos en la fórmula
para hallar el valor de la varianza.
Var =
- = 1270,5 – 1232,01 = 38,49
La varianza es 38,49
Para calcular la desviación típica, aplicamos la fórmula.
=
= = 6,2
La varianza es 6,2.
Otras posibles preguntas que nos pueden hacer son las siguientes:
a) Halla la frecuencia relativa y la frecuencia relativa acumulada.
b) ¿Es simétrica la distribución de la variable?
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
a) Hallo las frecuencias relativas a partir su fórmula y las frecuencias relativas
acumuladas (sumando las anteriores) y lo reflejo en la tabla.
b) Hago un eje de coordenadas y represento la variable en el eje de la x y la
Frecuencia absoluta en el de la y. Coloco el valor de la media en el eje de la x
y trazo una línea. La distribución será simétrica si el polígono fe frecuencias
lo es, respecto al eje de la media.
La distribución de las edades no es simétrica.
4. INTRODUCCIÓN A LA ESTADÍSTICA BIDIMENSIONAL.
En numerosas ocasiones interesa estudiar simultáneamente dos (o más) caracteres
de una población, buscando la relación que existe entre ambas. En el caso de dos
variables estudiadas conjuntamente se habla de variable bidimensional.
Así, por ejemplo, se puede estudiar la influencia que tienen los ingresos de una
determinada familia y los gastos que tiene, o cómo influye la velocidad de un cierto
automóvil y su consumo de combustible, o qué relación existe entre los pesos y las
estaturas de un grupo de personas. Una variable bidimensional se representa por un
par (X, Y), donde X es la primera variable y toma los valores xi (x1, x2, x3, ..., xn) e Y
la segunda variable y toma los valores yi (y1, y2, y3, ..., yn).
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
5. MEDIDAS ESTADÍSTICAS EN LA BIDIMENSIONAL.
Vamos a estudiar:
La media: Igual que en la estadística unidimensional pero para los dos valores.
=
Esta sería la fórmula para hallar la media de xi
=
Y esta para hallar la media de yi
La covarianza: la covarianza es un valor que indica el grado de variación
conjunta de dos variables respecto a sus medias.
xy =
- •
La desviación típica: Igual que en la estadística unidimensional pero para los
dos valores.
x =
=
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
El coeficiente de correlación: El coeficiente de correlación según Pearson,
su autor, es un número que está comprendido entre -1 y 1. Expresan si los
puntos están muy próximos o alejados del centro de gravedad. Se denota r.
Teniendo en cuenta que el centro de gravedad (CG) es el punto cuyas
coordenadas son la media de la x y la media de la y, es decir: CG= ( , )
El coeficiente de correlación lo hallaremos con la siguiente fórmula:
r=
Según sea el valor de r, haremos la siguiente interpretación:
Si r es igual a 1 ó -1: La correlación es perfecta o funcional.
Si r está próximo a 1 ó -1: La correlación es fuerte.
Si r está próximo a 0: La correlación es débil.
Y según el signo:
Si r es + la correlación es directa.
Si r es - la correlación es inversa.
Vamos a verlo más claro con un ejemplo:
1. Calcule e interprete el coeficiente de correlación entre el número de
pedidos que sirve un almacén y el número de vendedores que tiene
contratados dicho almacén.
Nº de vendedores
2 4 5 6 7 9 10
Nº de pedidos
70 90 110 150 170 190 210
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
La recta de regresión de la y sobre la x: Es la recta que marca la tendencia
del comportamiento de una variable (la , la variable dependiente) respecto
a la otra (la , la variable independiente). De tal manera que según sea la
correlación, más fiable será la predicción de datos a partir de la ecuación de
la recta.
A ver, parece que aquí he de detenerme un poco a recapitular.
En una distribución bidimensional tenemos dos variables que se relacionan o
no entre sí (siendo entonces incorreladas). El caso es que por alguna razón
queremos estudiar si esa relación existe y en caso positivo cómo de fuerte es
esa relación y además queremos poder sobre todo, predecir
comportamientos de la relación entre ambas variables, para unos valores
determinados de esas variables. Y por último saber cuánto de fiable es esa
predicción.
Ejemplos de dos posibles variables que pueden llegar a tener relación entre
sí:
determinado perfil de la población y productos financieros,
enfermedades de una determinada población y fabricación de
fármacos,
necesidades de determinados grupos sociales de la población y
discursos políticos… etc.
¡Veis ahora la importancia del estudio estadístico!... ¿Será cierto lo que
creían los seguidores de la escuela pitagórica, que “todas las cosas son en
esencia números”?
Ahora bien, si tomamos esos dos valores como las coordenadas de un punto,
( , ), ( , ), ( , ),… ( , ) la distribución puede ser representada
mediante puntos en un eje de coordenadas. Es lo que conocemos como nube
de puntos.
Tanto si nos fijamos en la tabla de datos como en la nube de puntos
apreciamos si hay correlación entre ambas variables.
Como decíamos al principio podemos dibujar una recta (que llamamos recta de
regresión) que dependiendo de la correlación entre las dos variables, y a
través de una fórmula, creamos una ecuación lineal (de primer grado), en
donde a cada valor de la x le corresponde un valor de la y.
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
De tal manera que la recta de regresión se amolda a la nube de puntos y
describe a grosso modo su tendencia. Por eso a partir de la ecuación lineal de
la recta de regresión obtenemos de forma aproximada, el valor de y para un
cierto valor de x. A estos valores se les llama estimaciones.
Hemos de tener en cuenta:
Las estimaciones siempre se realizan aproximadamente y en términos
de probabilidad.
La aproximación es tanto mejor cuanto más fuerte sea la correlación,
pues para valores muy próximos a 1 y -1, los puntos estarán muy
próximos a la recta.
Las estimaciones sólo deben hacerse dentro del intervalo de valores
utilizados en la tabla de datos o muy cerca de ellos.
Conseguimos la ecuación de la recta de regresión, partir de la siguiente
fórmula.
y=
( ) +
Veámoslo en un ejemplo:
La tabla adjunta da los alargamientos de una barra metálica por efecto de
cambios en la temperatura.
Temperatura (ºC) Alargamiento (mm)
0 0 8 1 16 2 25 3 40 5 50 6 60 7
70 9
Calcular la recta de regresión de y sobre x ó lo que es lo mismo, calcule la
ecuación de la recta, que permite predecir los mm de alargamiento que se van
a producir en las barras metálicas por cambios en la temperatura.
Calcule el coeficiente de correlación e interprételo. ¿Cuántos mm se alargaría
la barra si la temperatura fuese de 55 ºC?
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
Lo primero de todo es asignar la x a la variable independiente y la y a la variable
dependiente. Ya que no siempre el primer dato que aparece en la tabla es la variable
independiente.
Hasta ahora nos era indiferente pero ya no, porque hemos de hallar la recta de
regresión de la y sobre la x y no al contrario.
¿Qué nos va a ayudar a identificar cuál de las dos variables es la x? Pues bien, para
eso nos fijaremos en la pregunta que nos pida una predicción… en este caso la última
pregunta del ejercicio: ¿Cuántos mm se alargaría la barra si la temperatura fuese
de 55ºC?
Aquí nos están dando el valor de la x (55ºC), es decir de la variable independiente,
que al sustituirlo en la ecuación de la recta nos va a dar el valor de la y (el
alargamiento, la variable dependiente).
Así que una vez nombradas las variables empezamos el ejercicio.
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
Hallamos los datos que vamos colocando minuciosamente en la tabla y aplicamos la
fórmula o ecuación de la recta de regresión.
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
Si nos hubieran preguntado como de fiable es la predicción, va a depender de dos
factores, que han de tenerse en cuenta ambos:
Por un lado: El coeficiente de correlación. Es decir:
Si la correlación es funcional, la predicción es fiable por completo.
Si la correlación es muy fuerte, muy próxima a 1 o -1, la predicción es
bastante fiable.
Si la correlación es débil, la predicción es poco fiable.
Por otro lado: Que las variables estén entre los valores estudiados de las
variables. Es decir:
Si la temperatura está entre 0 y 70 ºC la predicción es fiable.
Cuanto más se aleje la temperatura de ese rango menos fiable será la
predicción.
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
En este caso la predicción es muy fiable porque se cumplen ambos casos:
El coeficiente de correlación es fuerte.
La predicción está dentro del rango de valores dados en el ejercicio.
Distribución Normal: La distribución Normal, es una curva descrita por el
matemático alemán Carl Friedrich Gauss, que está completamente determinada por
el conocimiento de dos parámetros: la media (μ) y la desviación típica (σ).
La notación que emplearemos será:
N (μ, σ), que se lee: Normal de media y desviación típica.
Por su forma acampanada se le conoce como campana de Gauss.
La gran importancia de esta distribución se debe a la enorme frecuencia con que
aparece en las situaciones más variadas:
Caracteres morfológicos de individuos: tallas, pesos, envergaduras…
Caracteres fisiológicos: dosis de fármaco, dosis de abono…
Caracteres sociológicos: consumo de ciertos productos alimenticios por
individuos de un mismo grupo humano.
Caracteres físicos: resistencia a la rotura de piezas aparentemente
idénticas…
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
Para cada valor de μ (la media) y cada valor de σ (la desviación típica) hay una única
curva normal, que se denomina N (μ, σ). La dificulta de este tipo de problemas es
que cada ejercicio tiene una gráfica diferente y una tabla estadística diferente,
cuyos datos se obtienen realizando integrales de bastante complejidad.
La utilidad de la gráfica de Gauss N (μ, σ), es que sólo hay una tabla estándar con
las probabilidades calculadas, que os muestro a continuación:
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
Para resolver este tipo de ejercicios de distribución Normal, al valor de μ (la media)
le damos el valor 0 y a σ (la desviación típica) el valor 1, de esa manera lo
normalizamos y podemos hallar la probabilidades en la tabla de datos normalizada.
Por ejemplo, para calcular probabilidades en una distribución N (110,10),
siendo 110 y 10, al normalizarla, nos quedaría:
Por un lado N (0, 1), donde 0 y 1
Por otro lado, x que es la variable de la distribución N (110, 10), la
convertimos en z, la variable de la distribución N (0, 1).
Para transformar la variable x en z, aplicaremos la siguiente fórmula:
z=
Una vez que tenemos a través de la fórmula el valor de z, sabremos cual es la
probabilidad de ese valor mirándolo en la tabla de datos. La primera columna nos da
los enteros y las décimas y en la primera fila las centésimas.
Si lo que el ejercicio plantea es la probabilidad de que se dé un suceso, dentro de un
intervalo, has de tener en cuenta lo siguiente para resolverlo:
El área bajo la curva siempre es 1, ya que las probabilidades van entre 0 y 1.
La curva normalizada es simétrica respecto a la media.
Lo mejor será desarrollarlo en un ejercicio concreto, donde se den los dos casos.
(Sigue en la siguiente página)
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS
1. Se sabe que, en una ciudad, el peso de las personas mayores de 18 años se
distribuye normalmente con una media de 72 kg y una desviación típica de 6
kg.
a) Calcule la probabilidad de que tomada una persona al azar, ésta pese
más de 80 kg.
b) Qué proporción de que tomada una persona al azar, está pese entre 70
y 75 kg.
PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS