Download - La Estadística inferencial - uam.es J.F. Casanova Estadística inferencial 19 Estimación con muestras grandes Estimación de la media Cuando n ≥ 30, al repetir el experimento,

1

Estadística inferencial

J.F. Casanova Estadística inferencial 22

La Estadística inferencial

DEFINICIÓN

Estadística Inferencial

(o Estadística Analítica):

Es la que se ocupa de obtener

conclusiones sobre las poblaciones a

partir de la información recogida en las

muestras.



Características (1)

Extrapolación, generalización

Muestra conocida Población desconocida

Conclusiones no absolutamente seguras, sino con cierto nivel de confianza o probabilidad de error, así como un margen de error.

Tiene en cuenta el efecto del “azar”



Características (2)

Se considera la más realista y válida para el intercambio de información entre investigadores o para su publicación

Depende del tipo de muestreo

En adelante supondremos muestreo aleatorio simple



Partes de la Estadística inferencial

Estimación de parámetros

Contraste de hipótesis




Consiste en buscar los valores más

probables de un parámetro en la población

(por ejemplo, la media).

Como la población es desconocida, no se

puede dar un valor totalmente seguro, sino

un intervalo en el que probablemente se

hallará, llamado Intervalo de confianza.

2




El Intervalo de confianza irá acompañado

de la probabilidad de que el parámetro esté

en él (Nivel de confianza), o bien, su

complementaria (Probabilidad de error).

Dentro del Intervalo de confianza uno de

los valores se considera como Estimación

óptima.




Consiste en decidir si una afirmación es

cierta o no en la población, siempre en

términos probabilísticos.

Tipos de contrastes más frecuentes:

• Comparación de Muestras

• Asociación entre Variables


La Estadística inferencial Relación entre Estimación de parámetros y


Frecuentemente un mismo problema puede

resolverse por las dos técnicas. Ejemplo:

• Las medias de dos muestras pueden

compararse mediante una estimación

de su diferencia.

• La asociación entre dos variables

puede analizarse estimando un

parámetro que mida dicha asociación.



CONCEPTOS Y OBJETIVOS

PROCEDIMIENTOS DE CÁLCULO

Muestras grandes

Estimación de la media

Estimación de la proporción

Muestras pequeñas




Estimación de parámetros ¿Qué supondríamos sobre valores desconocidos

basándonos en los que conocemos?

Vamos a empezar usando el “Sentido común”.

Ejemplo: estimación de la media de la

población.

El valor será parecido al de la muestra.

Cuanto mayor sea la muestra, más seguro es

que se parezca su media a la de la población.

Tan probable es que el valor poblacional sea

superior como inferior al de la muestra.


Estimación de parámetros ¿Cómo respondemos a la pregunta de cuál es el

valor de un parámetro?

(Por ejemplo, para la media)

Estadística Descriptiva: un solo número.

Estadística Inferencial: tres números.

estimación óptima

error de estimación

nivel de confianza

(o probabilidad de error)

3


Estimación de parámetros ¿Cómo respondemos a la pregunta de cuál es el

valor de un parámetro?

Esos tres números generan el Intervalo de

Confianza.

Es un intervalo en el que tenemos cierto nivel

de seguridad (“nivel de confianza”) de que esté

incluido el valor real de la población.

Sus límites superior e inferior se obtienen

usualmente sumando y restando al valor de la

estimación óptima el error de estimación.


Estimación de parámetros Ejemplo de Intervalo de Confianza

Estimación

óptima

L. I. L. S.

2’5% 2’5%95%



Obtención del Intervalo de Confianza.

Lo habitual es tomar uno centrado: La

probabilidad de que el parámetro tome un valor

superior a él es la misma que la de que sea

inferior (áreas iguales en los extremos

externos).



Cálculo del Intervalo de Confianza

La distribución del parámetro depende:

Del tipo de parámetro

De la distribución de los datos.

Para muestras grandes, el cálculo puede

simplificarse.

Veremos cómo estimar medias y proporciones


Estimación con muestras grandes


Recordemos que el “Sentido común” nos decía:

El valor será parecido al de la muestra: más

probables los valores próximos a la media

muestral que los alejados de ella.

Es igual de probable que el valor de la

población sea mayor o menor que el de la

muestra.

Por tanto la distribución de probabilidad del

parámetro tenderá a ser simétrica y acampanada.




Eso está demostrado matemáticamente:

Teorema Central del Límite

(Ley de los Grandes Números)

“La distribución de las medias obtenidas al

repetir infinitas veces un experimento con

muestras del mismo tamaño es

aproximadamente una Curva de Gauss, si el

tamaño muestral es suficientemente grande.”

4




Cuando n ≥ 30, al repetir el experimento, las

medias obtenidas siguen aproximadamente una

distribución Normal

cuya media es la de la población

y cuya desviación típica es el llamado “error

estándar de la media”,

donde P es la desviación típica de la población.n

σs P

x




De ahí se puede deducir que la distribución de los

valores probables de la media de la población es

aproximadamente la Normal, centrada en la media

muestral y que tiene como desviación típica el

error estándar de la media.




Pero la desviación típica de la población, P,

usualmente es desconocida.

Como estimación de la desviación típica de la

población se usa habitualmente la llamada cuasi

desviación típica de la muestra (S), que se calcula

igual que la desviación típica, pero poniendo en el

denominador n-1 en lugar de n.




Una vez que sabemos cuál es la distribución de

probabilidad, podemos seleccionar los límites

(inferior y superior) del Intervalo de confianza que

abarquen la probabilidad correspondiente al Nivel

de confianza que queremos utilizar.




Obtención de un Intervalo de confianza centrado,

al Nivel de confianza del 95% (el más habitual) en

la distribución Normal:

Se toman como extremos los puntos cuya distancia de

la media sea 1’96 veces la desviación típica

Estos límites pueden expresarse así:

]96'1,96'1[ xx sxsx

xsx 96'1



Detalles sobre la Estimación de parámetros

Para el Nivel de confianza del 99%, se sustituye el

1’96 por el 2’58.

Para el del 99’9%, se sustituye por el 3’29.

Como el error estándar es inversamente

proporcional al cuadrado del tamaño muestral:

Doble de precisión

Cuatro veces más individuos

(La precisión estadística es cara).

5



Ejemplo

En un grupo de 100 insuficientes hepáticos

aleatoriamente escogidos se midió el

urobilinógeno expulsado al día en la orina,

encontrándose una media de 450 g y una cuasi

desviación típica de 60 g.

Se desea saber con seguridad del 99% entre qué

límites se halla el valor medio para todos los

afectados por dicha enfermedad.



Ejemplo

error estándar de la media:

intervalo de confianza al 99%:

6·58'245058'2:(99%) I.C. xsx

6100

60

n

Ssx

465'5) (434'5, = 15'5450:(99%) I.C.




Cuando n ≥ 100, al repetir el experimento, las

proporciones obtenidas siguen aproximadamente

una distribución Normal

centrada en la proporción de la muestra, p

y cuyo error estándar es:

n

p)-p·(1sp


Estimación con muestras pequeñasEstimación de la media

1) Datos que proceden de una distribución Normal

Cuando los datos siguen una distribución Normal,

las medias en el muestreo siguen la distribución t

de Student.

Su forma es también simétrica y acampanada y

depende de la media, la desviación típica y,

además, de un nuevo parámetro, llamado número

de grados de libertad, (g.l.)

El número de grados de libertad en este caso es

n - 1.



1) Datos que proceden de una distribución Normal

Para calcular un intervalo de confianza, en vez de

multiplicar el error estándar por los valores de la

curva normal, lo haremos por el valor que

aparezca en las tablas de la t de Student.

Al crecer el número de grados de libertad (por

tanto, el tamaño de la muestra), la t de Student se

aproxima a la distribución Normal.

3030

Estimación con muestras pequeñas

Tablas de la t de Student

6



Ejemplo

Grupo de 9 individuos, con media de 91 y una

cuasi desviación típica de 12

Intervalo de confianza al 95%:

4·306'291:(95%) I.C. xstx

49

12

n

Ssx

100'22) (81'78, = 9'2291:(95%) I.C.

8.l.g



2) Datos que NO proceden de una distribución Normal

Si la distribución de los datos es próxima a la

Normal, se puede usar este mismo método (el de la

t de Student).

Si no es próxima a la Normal, aplicar una

transformación de los datos (cambio de variable)

para lograr una que sí se aproxime.

Si no se puede aplicar ninguna de estas dos

soluciones, no se calcula el Intervalo de Confianza.




Cuando n < 100, la aproximación a la Normal no

es válida: Se requiere utilizar la distribución real,

que este caso es la Binomial.

Para obtener los Intervalos de confianza sin tener

que hacer cálculos extensos, se pueden emplear

tablas que dependen de n y de p.