TEMA 9: ESTADÍSTICA: UNIDIMENSIONAL Y BIDIMENSIONAL ......resulta de la división en la tabla de...

PAU + 25 MATEMÁTICAS APLICADAS A LAS CCSS

1. INTRODUCCIÓN A LA ESTADÍSTICA UNIDIMENSIONAL.

La estadística estudia una o varias características de cada uno de los elementos de

un conjunto. Para ello, se encarga de:

Recoger los datos, ordenarlos y agruparlos.

Representarlos en tablas y gráficas.

Calcular medidas de centralización.

Elegir alguna de estas medidas como representante de todos los datos.

Siempre que realizamos un análisis sobre una característica propia de una población,

la toma de datos se realiza a partir de la respuesta que dan los individuos a una

pregunta determinada.

Vamos a ver algo de vocabulario básico que utilizamos cuando hablamos de

estadísticas.

POBLACIÓN: Conjunto de seres o sucesos de los que vamos a estudiar una o varias

características.

Por ejemplo si lo que queremos estudiar es la longitud media de la rana verde, la

población son todas las ranas verdes del Planeta.

MUESTRA: Subconjunto de la población, que estudiamos cuando no podemos

hacerlo con toda la población o es demasiado costoso.

Si queremos saber la longitud de una rana verde, sería imposible medirlas a todas.

Las ranas que midiésemos serían la muestra, por ejemplo 200 ranas.

VARIABLE : Es la característica que estudiamos en los individuos. Es siempre el

primer dato que colocamos en la tabla estadística.

En este caso la longitud, es decir, los cm que miden las ranas.

FRECUENCIA ABSOLUTA: Es el número de veces que se repite el valor de la

variable. Y la llamamos fi. Es siempre el segundo dato que colocamos en la tabla

estadística. El sumatorio de todas las frecuencias relativas ( ) ha de dar

siempre como resultado el valor de la muestra (N).

Si tenemos 47 ranas que miden 3,5 cm. La frecuencia absoluta de la variable 3,5 cm

es 47.

TEMA 9: ESTADÍSTICA: UNIDIMENSIONAL Y BIDIMENSIONAL.


FRECUENCIA ABSOLUTA ACUMULADA: La llamamos Fi. Se obtiene sumándole a

cada valor de la frecuencia absoluta los valores anteriores. De tal manera que el

último valor de la frecuencia absoluta acumulada ha de ser igual a la muestra.

FRECUENCIA RELATIVA: La llamamos fR . Se obtiene al dividir cada frecuencia

absoluta entre el valor de la muestra (N). El sumatorio de todas las frecuencias

relativas ( ) ha de dar siempre como resultado 1.

fR=

FRECUENCIA RELATIVA ACUMULADA: La llamamos FR. Se obtiene sumándole a

cada valor de la frecuencia relativa los valores anteriores. De tal manera que el

último valor de la frecuencia relativa acumulada ha de ser igual al ( ), o sea, 1.

2. MEDIDAS ESTADÍSTICAS.

MEDIDAS DE CENTRALIZACIÓN: Son unos valores que resumen todos los

datos en uno solo.

El estadístico elegirá después cual es el que más le conviene. Cada uno de estos

valores se denomina medida de centralización ya que pretende centrar la

información en ese único valor. Son medidas de centralización: la media, la mediana

y la moda.

La media: Es una medida de centralización que resulta de dividir la suma de

todos los productos de cada valor de la variable por su frecuencia absoluta,

entre el tamaño de la muestra.

Se le denota . Para calcularla aplicamos la siguiente fórmula:

=


La mediana: Es una medida de centralización que representa el valor de la

variable que ocupa la posición central en un conjunto de datos ordenados. Es

decir, es el número en el medio de una lista ordenada.

Se le denota Me. Para calcular la mediana, ordenamos los números que nos

han dado según su valor. La mediana será el que queda en el medio.

Esto se hace dividiendo la muestra entre 2, luego buscamos ese valor que

resulta de la división en la tabla de frecuencias absolutas y vemos que valor

de la variable le corresponde. Ese valor de la variable es la mediana.

Si el tamaño de la muestra es par, en ese caso tenemos que encontrar el par

central de números, y después calcular su valor medio.

La moda: Es una medida de centralización que indica el valor de la variable de

mayor frecuencia. O dicho de otro modo es el valor que más se repite.

Para localizarla basta buscar el mayor número en la columna de frecuencias

absolutas y ver que valor de la variable le corresponde. Ese valor de la

variable será la moda.

MEDIDAS DE DISPERSIÓN: Son unos valores que controlan la fiabilidad de la

información que proporcionan las medidas de centralización.

Son medidas de dispersión: la varianza, la deviación típica y la simetría de la

distribución de la variable.


La varianza: Es una medida de dispersión que representa la variabilidad de una

serie de datos respecto a su media.

Se le denota Var. Para calcularla hemos de aplicar la siguiente fórmula:

Var =

La desviación típica: Es una medida de dispersión que se utiliza para

cuantificar la desviación de un conjunto de datos numéricos.

Una desviación baja indica que la mayor parte de los datos de una muestra

tienden a estar agrupados cerca de su media, mientras que una desviación

alta indica que los datos se extienden sobre un rango de valores más amplio.

Se le denota con la letra griega sigma minúscula . Para calcular la

desviación típica le hallamos la raíz cuadrada a la varianza.

= =

La simetría de la distribución de la variable: Se trata de comprobar si la

distribución de los datos es simétrica con respecto a la media.

Para ello representamos los datos en una gráfica. Una gráfica es toda

representación en el plano de dos o más variables interrelacionadas.

Colocamos los valores de la variable (xi) en el eje de la x (eje de abscisas), y

los valores de la frecuencia absoluta (fi) en el eje de la y (eje de

ordenadas).

Representamos las frecuencias por segmentos (líneas continuas) que parten

de cada valor de la variable y de altura proporcional al valor de su

frecuencia correspondiente. Si una frecuencia es cero, la línea se reduce a

un punto sobre el eje de la x. A continuación, unimos los extremos de los

segmentos. Dando como resultado el polígono de frecuencias.

Por otro lado dibujamos la línea del valor de la media (de otro color).

https://es.wikipedia.org/wiki/Medidas_de_dispersi%C3%B3n

https://es.wikipedia.org/wiki/Media_(matem%C3%A1ticas)


Decimos que la distribución de la variable (xi) es simétrica, si en relación a

la media, la distribución se distribuye un 50% a la derecha y otro 50% a la

izquierda, presentando una forma similar a ambos lados. Es decir, si

dobláramos el papel por el eje de la media, la gráfica coincidiría por ambos

lados.

3. ORGANIZACIÓN DE DATOS.

Es indispensable organizar la información. Para ello confeccionaremos una tabla con

todos los datos que necesitamos.

Vamos a hacer un ejercicio, y así elaboramos juntos la tabla.

1) Preguntamos a 10 alumnos de PAU + 25 años, del CEPER La Arboleda Perdida, la edad

que tienen y se ha obtenido la siguiente información:

3 alumnos tienen 42 años, 1 alumna tiene 39, 2 alumnos tienen 36, 1 alumno tienen 33, 1 alumno tiene 31 y 2 alumnos tienen 25 años. a) Construya la tabla estadística.

b) Calcule la edad media que tienen los alumnos, la mediana y la moda.

c) Calcule la varianza y la desviación típica marginal.

a) Vamos a construir la tabla:

Variable:

edad

xi

Frecuencia

absoluta

fi

xi•fi

Frecuencia

absoluta

acumulada

Fi

xi2

fi•xi2

Frecuencia

relativa

fR

Frecuencia

relativa

acumulada

FR

25 2 50 2 625 1250 0,2 0,2

31 1 31 3 961 961 0,1 0,3

33 1 33 4 1089 1089 0,1 0,4

36 2 72 6 1296 2592 0,2 0,6

39 1 39 7 1521 1521 0,1 0,7

42 3 126 10 (N) 1764 5292 0,3 1 (∑fR)

10 (muestra) 351 12705 ∑fR = 1

∑fi = N ∑xi•fi=351 ∑fi•xi2=12705

N = 10


Siempre en la primera columna colocaremos la variable que estamos estudiando, es

decir las edades. La llamamos xi.

En la segunda columna siempre colocaremos la frecuencia absoluta que es el número

de veces que se repite el valor de la variable. Y la llamamos fi.

A partir de ahí, iremos colocando en las posteriores columnas los datos que

necesitemos organizar, para responder a las preguntas del ejercicio.

b) Vamos a calcular la media, mediana y moda.

Para hallar la media aplicamos su fórmula:

=

El símbolo significa sumatorio y permite representar sumas de varios sumandos.

Se expresa con la letra griega sigma mayúscula. Y en este caso quiere decir lo

siguiente:

x1 f1 + x2 f2 + x3 f3 + x4 f4 +… + xn fn

Así que, vámonos a la tabla… a meterle mano a la tercera columna para hallar

Una vez obtenidos los valores, los sustituimos en la fórmula.

=

= 35,1

La media de edad es 35,1 años de edad.

Para calcular la mediana necesitamos las frecuencias absolutas acumuladas . La

frecuencia absoluta acumulada es el resultado de sumar sucesivamente

las frecuencias absolutas, desde el menor al mayor de sus valores. El último valor de

las frecuencias absolutas acumuladas ha de darnos el valor de la muestra (N).

Dividimos la muestra entre dos.

10:2= 5

https://es.wikipedia.org/wiki/Suma

https://es.wikipedia.org/wiki/Sigma


En la columna de Fi buscamos el primer valor que sobrepase a 5, siendo el 4º valor,

que vale 6. Por lo tanto la mediana es 36.

Me = 36 años.

Vamos a calcular la moda, para ello nos vamos a la columna de frecuencias absolutas.

Buscamos el que tenga el valor más grande. Siendo el último que vale 3. Así pues la

moda es 42.

Moda = 42 años.

c) Vamos a calcular la varianza y la desviación típica.

Para calcular la varianza aplicamos su fórmula:

Var =

-

Necesitamos calcular y luego

Para tenerlo todo organizado y evitar errores, colocamos todos estos datos en la

tabla. Así que volvemos a la tabla para hacer los cálculos.

Cuando hemos hallado los valores que necesitamos los sustituimos en la fórmula

para hallar el valor de la varianza.

Var =

- = 1270,5 – 1232,01 = 38,49

La varianza es 38,49

Para calcular la desviación típica, aplicamos la fórmula.

=

= = 6,2

La varianza es 6,2.

Otras posibles preguntas que nos pueden hacer son las siguientes:

a) Halla la frecuencia relativa y la frecuencia relativa acumulada.

b) ¿Es simétrica la distribución de la variable?


a) Hallo las frecuencias relativas a partir su fórmula y las frecuencias relativas

acumuladas (sumando las anteriores) y lo reflejo en la tabla.

b) Hago un eje de coordenadas y represento la variable en el eje de la x y la

Frecuencia absoluta en el de la y. Coloco el valor de la media en el eje de la x

y trazo una línea. La distribución será simétrica si el polígono fe frecuencias

lo es, respecto al eje de la media.

La distribución de las edades no es simétrica.

4. INTRODUCCIÓN A LA ESTADÍSTICA BIDIMENSIONAL.

En numerosas ocasiones interesa estudiar simultáneamente dos (o más) caracteres

de una población, buscando la relación que existe entre ambas. En el caso de dos

variables estudiadas conjuntamente se habla de variable bidimensional.

Así, por ejemplo, se puede estudiar la influencia que tienen los ingresos de una

determinada familia y los gastos que tiene, o cómo influye la velocidad de un cierto

automóvil y su consumo de combustible, o qué relación existe entre los pesos y las

estaturas de un grupo de personas. Una variable bidimensional se representa por un

par (X, Y), donde X es la primera variable y toma los valores xi (x1, x2, x3, ..., xn) e Y

la segunda variable y toma los valores yi (y1, y2, y3, ..., yn).


5. MEDIDAS ESTADÍSTICAS EN LA BIDIMENSIONAL.

Vamos a estudiar:

La media: Igual que en la estadística unidimensional pero para los dos valores.

=

Esta sería la fórmula para hallar la media de xi

=

Y esta para hallar la media de yi

La covarianza: la covarianza es un valor que indica el grado de variación

conjunta de dos variables respecto a sus medias.

xy =

- •

La desviación típica: Igual que en la estadística unidimensional pero para los

dos valores.

x =

=


El coeficiente de correlación: El coeficiente de correlación según Pearson,

su autor, es un número que está comprendido entre -1 y 1. Expresan si los

puntos están muy próximos o alejados del centro de gravedad. Se denota r.

Teniendo en cuenta que el centro de gravedad (CG) es el punto cuyas

coordenadas son la media de la x y la media de la y, es decir: CG= ( , )

El coeficiente de correlación lo hallaremos con la siguiente fórmula:

r=

Según sea el valor de r, haremos la siguiente interpretación:

Si r es igual a 1 ó -1: La correlación es perfecta o funcional.

Si r está próximo a 1 ó -1: La correlación es fuerte.

Si r está próximo a 0: La correlación es débil.

Y según el signo:

Si r es + la correlación es directa.

Si r es - la correlación es inversa.

Vamos a verlo más claro con un ejemplo:

1. Calcule e interprete el coeficiente de correlación entre el número de

pedidos que sirve un almacén y el número de vendedores que tiene

contratados dicho almacén.

Nº de vendedores

2 4 5 6 7 9 10

Nº de pedidos

70 90 110 150 170 190 210


La recta de regresión de la y sobre la x: Es la recta que marca la tendencia

del comportamiento de una variable (la , la variable dependiente) respecto

a la otra (la , la variable independiente). De tal manera que según sea la

correlación, más fiable será la predicción de datos a partir de la ecuación de

la recta.

A ver, parece que aquí he de detenerme un poco a recapitular.

En una distribución bidimensional tenemos dos variables que se relacionan o

no entre sí (siendo entonces incorreladas). El caso es que por alguna razón

queremos estudiar si esa relación existe y en caso positivo cómo de fuerte es

esa relación y además queremos poder sobre todo, predecir

comportamientos de la relación entre ambas variables, para unos valores

determinados de esas variables. Y por último saber cuánto de fiable es esa

predicción.

Ejemplos de dos posibles variables que pueden llegar a tener relación entre

sí:

determinado perfil de la población y productos financieros,

enfermedades de una determinada población y fabricación de

fármacos,

necesidades de determinados grupos sociales de la población y

discursos políticos… etc.

¡Veis ahora la importancia del estudio estadístico!... ¿Será cierto lo que

creían los seguidores de la escuela pitagórica, que “todas las cosas son en

esencia números”?

Ahora bien, si tomamos esos dos valores como las coordenadas de un punto,

( , ), ( , ), ( , ),… ( , ) la distribución puede ser representada

mediante puntos en un eje de coordenadas. Es lo que conocemos como nube

de puntos.

Tanto si nos fijamos en la tabla de datos como en la nube de puntos

apreciamos si hay correlación entre ambas variables.

Como decíamos al principio podemos dibujar una recta (que llamamos recta de

regresión) que dependiendo de la correlación entre las dos variables, y a

través de una fórmula, creamos una ecuación lineal (de primer grado), en

donde a cada valor de la x le corresponde un valor de la y.


De tal manera que la recta de regresión se amolda a la nube de puntos y

describe a grosso modo su tendencia. Por eso a partir de la ecuación lineal de

la recta de regresión obtenemos de forma aproximada, el valor de y para un

cierto valor de x. A estos valores se les llama estimaciones.

Hemos de tener en cuenta:

Las estimaciones siempre se realizan aproximadamente y en términos

de probabilidad.

La aproximación es tanto mejor cuanto más fuerte sea la correlación,

pues para valores muy próximos a 1 y -1, los puntos estarán muy

próximos a la recta.

Las estimaciones sólo deben hacerse dentro del intervalo de valores

utilizados en la tabla de datos o muy cerca de ellos.

Conseguimos la ecuación de la recta de regresión, partir de la siguiente

fórmula.

y=

( ) +

Veámoslo en un ejemplo:

La tabla adjunta da los alargamientos de una barra metálica por efecto de

cambios en la temperatura.

Temperatura (ºC) Alargamiento (mm)

0 0 8 1 16 2 25 3 40 5 50 6 60 7

70 9

Calcular la recta de regresión de y sobre x ó lo que es lo mismo, calcule la

ecuación de la recta, que permite predecir los mm de alargamiento que se van

a producir en las barras metálicas por cambios en la temperatura.

Calcule el coeficiente de correlación e interprételo. ¿Cuántos mm se alargaría

la barra si la temperatura fuese de 55 ºC?


Lo primero de todo es asignar la x a la variable independiente y la y a la variable

dependiente. Ya que no siempre el primer dato que aparece en la tabla es la variable

independiente.

Hasta ahora nos era indiferente pero ya no, porque hemos de hallar la recta de

regresión de la y sobre la x y no al contrario.

¿Qué nos va a ayudar a identificar cuál de las dos variables es la x? Pues bien, para

eso nos fijaremos en la pregunta que nos pida una predicción… en este caso la última

pregunta del ejercicio: ¿Cuántos mm se alargaría la barra si la temperatura fuese

de 55ºC?

Aquí nos están dando el valor de la x (55ºC), es decir de la variable independiente,

que al sustituirlo en la ecuación de la recta nos va a dar el valor de la y (el

alargamiento, la variable dependiente).

Así que una vez nombradas las variables empezamos el ejercicio.


Hallamos los datos que vamos colocando minuciosamente en la tabla y aplicamos la

fórmula o ecuación de la recta de regresión.


Si nos hubieran preguntado como de fiable es la predicción, va a depender de dos

factores, que han de tenerse en cuenta ambos:

Por un lado: El coeficiente de correlación. Es decir:

Si la correlación es funcional, la predicción es fiable por completo.

Si la correlación es muy fuerte, muy próxima a 1 o -1, la predicción es

bastante fiable.

Si la correlación es débil, la predicción es poco fiable.

Por otro lado: Que las variables estén entre los valores estudiados de las

variables. Es decir:

Si la temperatura está entre 0 y 70 ºC la predicción es fiable.

Cuanto más se aleje la temperatura de ese rango menos fiable será la

predicción.


En este caso la predicción es muy fiable porque se cumplen ambos casos:

El coeficiente de correlación es fuerte.

La predicción está dentro del rango de valores dados en el ejercicio.

Distribución Normal: La distribución Normal, es una curva descrita por el

matemático alemán Carl Friedrich Gauss, que está completamente determinada por

el conocimiento de dos parámetros: la media (μ) y la desviación típica (σ).

La notación que emplearemos será:

N (μ, σ), que se lee: Normal de media y desviación típica.

Por su forma acampanada se le conoce como campana de Gauss.

La gran importancia de esta distribución se debe a la enorme frecuencia con que

aparece en las situaciones más variadas:

Caracteres morfológicos de individuos: tallas, pesos, envergaduras…

Caracteres fisiológicos: dosis de fármaco, dosis de abono…

Caracteres sociológicos: consumo de ciertos productos alimenticios por

individuos de un mismo grupo humano.

Caracteres físicos: resistencia a la rotura de piezas aparentemente

idénticas…


Para cada valor de μ (la media) y cada valor de σ (la desviación típica) hay una única

curva normal, que se denomina N (μ, σ). La dificulta de este tipo de problemas es

que cada ejercicio tiene una gráfica diferente y una tabla estadística diferente,

cuyos datos se obtienen realizando integrales de bastante complejidad.

La utilidad de la gráfica de Gauss N (μ, σ), es que sólo hay una tabla estándar con

las probabilidades calculadas, que os muestro a continuación:


Para resolver este tipo de ejercicios de distribución Normal, al valor de μ (la media)

le damos el valor 0 y a σ (la desviación típica) el valor 1, de esa manera lo

normalizamos y podemos hallar la probabilidades en la tabla de datos normalizada.

Por ejemplo, para calcular probabilidades en una distribución N (110,10),

siendo 110 y 10, al normalizarla, nos quedaría:

Por un lado N (0, 1), donde 0 y 1

Por otro lado, x que es la variable de la distribución N (110, 10), la

convertimos en z, la variable de la distribución N (0, 1).

Para transformar la variable x en z, aplicaremos la siguiente fórmula:

z=

Una vez que tenemos a través de la fórmula el valor de z, sabremos cual es la

probabilidad de ese valor mirándolo en la tabla de datos. La primera columna nos da

los enteros y las décimas y en la primera fila las centésimas.

Si lo que el ejercicio plantea es la probabilidad de que se dé un suceso, dentro de un

intervalo, has de tener en cuenta lo siguiente para resolverlo:

El área bajo la curva siempre es 1, ya que las probabilidades van entre 0 y 1.

La curva normalizada es simétrica respecto a la media.

Lo mejor será desarrollarlo en un ejercicio concreto, donde se den los dos casos.

(Sigue en la siguiente página)


1. Se sabe que, en una ciudad, el peso de las personas mayores de 18 años se

distribuye normalmente con una media de 72 kg y una desviación típica de 6

kg.

a) Calcule la probabilidad de que tomada una persona al azar, ésta pese

más de 80 kg.

b) Qué proporción de que tomada una persona al azar, está pese entre 70

y 75 kg.

TEMA 9: ESTADÍSTICA: UNIDIMENSIONAL Y BIDIMENSIONAL ......resulta de la división en la tabla de...

Documents

Transcript of TEMA 9: ESTADÍSTICA: UNIDIMENSIONAL Y BIDIMENSIONAL ......resulta de la división en la tabla de...