Fundamentos para la inferencia - WordPress.com · Inferencia. Estadística 2019 - Prof. Tamara...

Estadística 2019 - Prof. Tamara Burdisso

Fundamentos para la inferencia


Nota periodística Perfil 22/3/2015

• Scioli y Macri, con ventaja en la pelea por el ballottagehttp://www.perfil.com/politica/Scioli-y-Macri-con-ventaja-en-la-pelea-por-el-ballottage-20150322-

0002.html

http://www.perfil.com/politica/Scioli-y-Macri-con-ventaja-en-la-pelea-por-el-ballottage-20150322-0002.html



• Cuando apenas faltan tres meses para la presentación de listas y fórmulas presidenciales, los sondeos de opinión de la consultora González y Valladares que publica en exclusiva PERFIL muestran por primera vez un vuelco en el orden en el que se posicionan los tres principales candidatos. El gobernador bonaerense saltó al primer lugar (31%), el jefe de Gobierno porteño lo secunda (27,6%), y el diputado del Frente Renovador perdió el lugar de privilegio y ahora mira a sus contrincantes desde atrás (25%). En el cuarto lugar logra posicionarse Margarita Stolbizer, la última en lanzarse al ruedo luego de las bajas de Hermes Binner y Julio Cobos. En alianza con el Socialismo y Libres del Sur, la diputada del GEN alcanza 8% de intención de voto.

• Ficha técnica: Encuesta telefónica /1200 casos. Nivel de error: ±2.89% con nivel de confianza del 95%. Fecha del 17 al 20 de marzo de 2015. Consultora González y Valladares.



• ¿Cómo debe leerse esta información periodística que involucra porcentajes de opinión y márgenes de error estadístico?

• 31% ± 2.89% : se tiene una confianza del 95% que al 22/3/15, entre el 28.11% a 33.89% de los ciudadanos votarían en promedio por el gobernardor Scioli como candidato a presidente.

• 27.6% ± 2.89% : se tiene una confianza del 95% que al 22/3/15, entre el 24.71% a 30.49% de los ciudadanos votarían en promedio por el actual jefe de gobierno porteño como candidato a presidente.

• 25% ± 2.69% : se tiene una confianza del 95% que al 22/3/15, entre el 22.11% a 27.89% de los ciudadanos votarían en promedio por el diputado del Frente Renovador como candidato a presidente.

Estadística 2019 - Prof. Tamara BurdissoEstadísca 2015 - Cátedra Prof. Tamara Burdisso


Se tomo una muestra que arrojó el 31%, el 27.6% y el 25%

El interés radica en los parámetros poblacionales que son desconocidos

A través de un estimador puntual ( en la nota periodística el estimador es una proporción)

Muestra 1 Muestra 2 Muestra 3

Inferencia


Objetivos de los métodos estadísticos

• Ya vimos que uno de los objetivos de la estadística consiste en aprender de las distribuciones poblacionales a partir de muestras de esa población.

• Mediante métodos estadísticos se puede hacer inferencia acerca de la distribución poblacional.

• Tres tipos de métodos estadísticos utilizaremos a lo largo del curso: estimación, test de hipótesis e intervalos de confianza.

• La estimación consiste en computar el “mejor predictor” numérico de una característica de una distribución.

• Mediante la evidencia muestral, se intenta testear cierta hipótesis acerca de la población para ver si es cierta o no.

• Un intervalo de confianza permite establecer en base a datos muestrales un rango de valores para una característica desconocida de la población.

Estadística 2019 - Prof. Tamara BurdissoUnidad 3 – Parte I 7

Muestreo aleatorio simple

• El muestreo aleatorio simple es el más común de los métodos para seleccionar una muestra al azar a partir de una población.

• Una muestra aleatoria simple se elige mediante un proceso que selecciona n objetos de una población de manera tal que cada uno de los miembros de la población tiene la misma probabilidad de ser seleccionado, la selección de uno de los miembros es independiente de la selección de cualquier otro y toda muestra posible de tamaño n, tiene la misma probabilidad de selección.



• El proceso de selección de la muestra depende de si la población es finita o infinita.

• Muestreo para poblaciones finitas: Una muestra aleatoria simple de tamaño n, de una población finita de tamaño N, es una muestra seleccionada de manera tal que cada muestra posible de tamaño n tenga la misma probabilidad de ser seleccionada.

• Muestreo para poblaciones infinitas (o finita pero muy grande): una muestra aleatoria simple de una población infinita es aquella que se selecciona de forma tal que se satisfacen las siguientes condiciones.

1. Cada elemento seleccionado proviene de la misma población.

2. Cada elemento se selecciona en forma independiente.



• Muestreo aleatorio simple con reemplazo y sin reemplazo.

• Si muestreamos con reemplazo, no hay problemas ya que los n objetos de la muestra son independientes ( no alteramos las frecuencias relativas).

• Además si la población es muy grande, muestrear con o sin reemplazo, prácticamente no altera las frecuencias relativas. Por lo tanto también tenemos independencia.

• El problema se origina cuando muestreamos sin reemplazo y la población es pequeña. Hay que introducir correcciones que tengan en cuenta este punto (factor de corrección para muestra finita).


Muestreo aleatorio simple y vs. as. i.i.d.

• En una muestrea aleatoria simple, se extraen n objetos de una población y cada objeto tiene la misma probabilidad de salir. Sea X v.a. y Xi el i-ésimo objeto extraído aleatoriamente.

• Como cada objeto tiene igual probabilidad de salir y la distribución de Xi es la misma para todo i, las vs. as. X1,X2,…Xn

son independientes idénticamente distribuidas (i.i.d.)


Parámetro, estimador y estimación

• Parámetro: es una medida numérica descriptiva de una población. Su valor es casi siempre desconocido

• Estadístico/estimador: un estadístico es cualquier función de una muestra de datos aleatoria proveniente de una población.

• Estimación: una estimación es el valor numérico del estimador cuando el mismo es evaluado utilizando los datos de una muestra específica.

• Un estimador es una variable aleatoria, ya que hereda la aleatoriedad de la muestra aleatoria, mientras que una estimación es un número no aleatorio.

• Ejemplos


Parámetro vs. estadístico/estimador

Parámetro

poblacional

Estadístico

muestral

Media μ

Varianza σ2S2

Desviación estándar σ S

Proporción

Coeficiente de

correlación

X

p̂p

ˆ


Motivación

• Vamos a considerar el archivo RUN10 que contiene información sobre la totalidad de los corredores de las 10 millas (~16 km) de Washington de la carrera “2012 Cherry Blossom Run”

• Son 16924 corredores para los que se dispone de la edad, género, tiempo en minutos y estado al que representan.

• Notar que contamos con la población de corredores del año 2012.


Motivación

• Vamos a tratar de estimar una cualidad de los corredores de esta carrera, usando una muestra

1. ¿Cuanto tiempo le lleva, en promedio, a un corredor completar las 10 millas?

• Esta pregunta podría ser informativa para organizar futuras carreras.

• Vamos representar por los tiempos de 100 corredores muestreados

• Queremos estimar las medias poblacionales del tiempo de carrera mediante las medias muestrales.

100321 ,...,, xxxx


Motivación

• Muestra de tamaño 100 del archivo RUN10


Variación muestral

• Muestra de tamaño 100 del archivo RUN10

98.95100

49.89...52.10967.10031.881 =

++++=x

19.97100

43.86...33.10567.9815.902 =

++++=x

es una estimación puntual de la media poblacional, i.e. del tiempo medio de todos los corredores que participaron en la carrera del 2012.

98.951 =x

es otra estimación muestral de la media poblacional. Las estimaciones varían de una muestra a otra: variación muestral

19.972 =x


Otros estimadores

• Se pueden generar estimaciones muestrales no sólo de la media sino también de otros parámetros poblacionales, como por ejemplo, desvío estándar, la mediana, etc.

• Supongan que queremos estimar la diferencia en el tiempo de carrera entre hombres y mujeres. ¿cual sería un buen estimador puntual para la diferencia poblacional?

• Si quisiésemos brindar un estimador puntual del RIC poblacional del tiempo de carrera, ¿como se podría estimar este parámetro en base a la muestra?

summary(run10$time)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA's

0.995 83.710 94.020 94.490 104.400 171.000 19


El tamaño de la muestra• Las estimaciones generalmente no son iguales al parámetro

poblacional, pero son mejores a medida que aumenta el tamaño de la muestra.

• Una corrida de medias es una secuencia de medias, donde cada media usa una observación más que la anterior

• A medida que más observaciones entran en el cálculo de la media, más se aproxima al verdadero promedio poblacional, 94.49

Unidad 3 – Parte I


POBLACIÓN

Muestra

Muestra

Muestra

Muestra

Estadístico

Estadístico

Estadístico

Estadístico

Distribución de la muestra

Distribución muestral del estadístico

Distribución muestral (de muestreo) de los estadísticos



Distribución de los tiempos de carrera de la poblaciónsummary(run10$time)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA's

0.995 83.710 94.020 94.490 104.400 171.000 19

Estadística 2019 - Prof. Tamara Burdisso21

Distribución de los tiempos de carrera de diferentes muestras de tamaño n=100

(muestra1<-run10[sample(1:nrow(run10),100,replace=FALSE),])


Distribución de los tiempos de carrera de 10 diferentes muestras con n=100



Distribución de los tiempos de carrera de 5 diferentes muestras aleatorias y la distribución poblacional




• Vimos que el promedio de n-observaciones muestreadas aleatoriamente es una estimación de la media muestral. También vimos que la media muestral de una segunda muestra difiere de la obtenida anteriormente. Así podrían construirse una sucesión de que servirían para construir la distribución de probabilidades. La distribución de se denomina distribución muestral de , porque se trata de la distribución muestral asociada a todos los posibles valores que puede tomar .

• La distribución muestral de representa la distribución de las estimaciones puntuales basadas en muestras de tamaño fijo de una cierta población.

X

nXXX ,...,, 21

X

XX


X



• Histograma de 1000 medias muestrales del tiempo promedio de la carrera, donde el tamaño de cada muestra es n=100



El error estándar de la media• Se observa que las medias muestrales tienden a caer alrededor de

la media poblacional.

• El histograma de la distribución de las medias muestrales muestra cierta variabilidad alrededor de la media poblacional.

• Una medida de la variabilidad de la media muestral, está dada por la desviación estándar de la distribución de las medias muestrales.

• La desviación estándar de las medias muestrales nos dice cuan lejos una estimación típica está del verdadero valor medio poblacional.

• Se trata de la descripción del error típico del estimador muestral y por esta razón este desvío estándar recibe el nombre de error estándar.

• Por lo tanto, la desviación estándar asociada con un estimador se denomina error estándar



Cálculo del error estándar

• Si se les solicita estimar cierto parámetro, utilizarían una muestra pequeña o una muestra grande? Por qué?

• Que relación cree que habrá entre el error estándar de las estimaciones del parámetro basados en la muestra pequeña y las estimaciones del parámetro basadas en la muestra grande?

• Por lo tanto, cuanto mayor es el tamaño de la muestramenor es el error estándar.

• Cálculo del error estándar: dada una muestra de nobservaciones independientes de una población con

desviación estándar σ, el error estándar de la media muestral es igual a

nSE

=


Estadística 2019 - Prof. Tamara BurdissoEstadísca 2015 - Cátedra Prof. Tamara Burdisso28

https://gallery.shinyapps.io/CLT_mean/


https://gallery.shinyapps.io/CLT_mean/


Teorema del Límite Central


Estadística 2019 - Prof. Tamara BurdissoModulo 2 - Parte III

Estadísca 2015 - Cátedra Prof. Tamara Burdisso36



Estadística 2019 - Prof. Tamara BurdissoEstadísca 2015 - Cátedra Prof. Tamara Burdisso39




Aproximación de muestras grandes a las distribuciones muestrales

• Las distribuciones muestrales juegan un rol central en la inferencia estadística. Ahí radica la importancia de conocer la distribución muestral de .

• Existen 2 enfoques para establecer la distribución muestral de : el enfoque exacto y el enfoque aproximado.

• Enfoque exacto: establece la distribución de para cualquier valor de n, siempre y cuando sean normales i.i.d. con media y varianza .Entonces la distribución exacta de es normal con media y varianza .

• Sin embargo, si no tiene distribución normal, la distribución de depende de la distribución de y puede ser difícil establecerla.

X

X

nX

nXXX ...,, 21

nXx

nX

2

XX X


x

2

X


Aproximación de muestras grandes a las distribuciones muestrales

• Afortunadamente si el tamaño de muestra es grande, nos basamos en el enfoque aproximado que descansa en el tamaño de muestras grandes. La aproximación de muestras grandes a distribuciones muestrales es a menudo llamada “distribución asintótica”, debido a que se vuelven exactas en el límite cuando .

• Dos son la herramientas claves utilizadas en la aproximación a distribuciones muestrales:

• La ley de los grandes números

• El teorema central del límite

→n



• Establece bajo condiciones generales, que si la son i.i.d. con una distribución común, con esperanza y varianza finita, entonces la probabilidad de que se aleje de en una fracción muy pequeña a medida que n crece, es tan pequeña como uno lo desee. Matemáticamente podemos escribirlo de la siguiente manera:

X

42

La ley de los grandes números

nX

( )→→−

→→−

nXP

ónXP

Xn

Xn

cuando1)(

cuando0


kX

X



• Establece que bajo consideraciones generales, la distribución estandarizada de está bien aproximada por la distribución normal estándar cuando n es lo suficientemente grande.

• Recordemos que tiene distribución normal exacta si cada tiene distribución normal.

• El TCL dice que cuando n es lo suficientemente grande, la distribución estandarizada de es aproximadamente , aún si no se distribuyen según una normal.

X

nX

nXXX ,...,, 21

nX )1,0(N

nXXX ,...,, 21




• TCL: Supongamos que son i.i.d. con y donde . Entonces cuando , la distribución

se aproxima a una distribución normal estándar.

• ¿Cuán grande es suficientemente grande? Cuán grande debe ser n para que se distribuya aproximadamente normal? Depende. La calidad de la aproximación normal depende de la distribución implícita de cada una de las que conforman a . Pero por lo general, a partir de n>30 la aproximación es bastante buena bajo distribuciones bien comportadas.

X

kX

X

nXXX ,...,, 21 xkXE =)(2)( XkXVar = 20 X →n

−

n

X

x

xn



Condiciones para el buen funcionamiento del TCL

• i.i.d. : las observaciones muestrales deben ser independientes

• Muestreo aleatorio/ asignación aleatoria

• Si la muestra es sin reemplazo, entonces n≤10% de la población.

• Asimetría/tamaño de la muestra: tanto si la distribución es normal como si la distribución es sesgada, el tamaño de la muestra debe ser grande, pero mucho más grande si la distribución es sesgada ( la regla empírica habla de n>30).

• ¿Cómo podemos chequear este supuesto?Unidad 3 – Parte I


TCL: sesgo y tamaño de la muestra



Ejemplo del TCL

• Supongan que mi ipod tiene 3000 canciones. El histograma adjunto muestra la distribución de la longitud de las canciones de mi ipod. También sabemos que la longitud promedio de las canciones de mi ipod es de 3.45 minutos con una desviación estándar de 1.63 minutos. Calcular la probabilidad que una canción seleccionada aleatoriamente dure más de 5 minutos


222

289

591

802

580

395

94

22 50

100

200

300

400

500

600

700

800

900

1 2 3 4 5 6 7 8 9

longitud del tema en minutos


Ejemplo del TCL

• Supongan ahora que debo realizar un viaje en auto que dura 6 horas . Preparo entonces una playlist de 100 canciones. ¿Cuál es la probabilidad de que la playlist dure al menos todo el viaje?



Distribución muestral para una proporción

• La media muestral no es el único estadístico que satisface el TCL.

• ¿Qué ocurre si nos preguntamos por el porcentaje de ciudadanos que votarían por el candidato A?

• O el porcentaje de fumadores en la Argentina?

• Cada individuo es un ensayo de Bernoulli. Luego tenemos un experimento binomial.


totalpoblación

éxitos de #

totalpoblación

Argentinaen fumadores de #==p

totalpoblación

== i

i

i

i

X

pXX


POBLACIÓN

Muestra

Muestra

Muestra

Muestra

Estadístico

Estadístico

Estadístico

Estadístico


Distribución muestral de


ppmedia )ˆ(

Variable categórica: fuma o no fuma

p̂


Teorema del Límite Central para proporciones

• Establece que bajo consideraciones generales, la distribución de está bien aproximada por la distribución normal cuando n es lo suficientemente grande.

• El n suficientemente grande nos va a permitir utilizar la aproximación de la binomial a la normal

• El TCL dice que cuando n es lo suficientemente grande, la distribución de es aproximadamente

• Se deben cumplir alguna condiciones. Veámoslas.

p̂

np̂

( )

−

2

))1(, npppN


Error estándar de

la proporción



• i.i.d. : las observaciones muestrales deben ser independientes

• Muestreo aleatorio/ asignación aleatoria

• Si la muestra es sin reemplazo, entonces n≤10% de la población.

• Asimetría/tamaño de la muestra: np≥10 y n(1-p) ≥10

• ¿Qué ocurre si esta última condición no se cumple?El TCL para proporciones aún puede aplicarse pero…



Y si no se satisfacen la condiciones del TCL…

• Si no se cumple que np≥10 ó n(1-p) ≥10

• La media de la distribución muestral de las proporciones aún estará alrededor del verdadero parámetro.

• La variabilidad de la distribución muestral de las proporciones aún puede ser aproximada usando la misma fórmula del error estándar.

• Sin embargo la forma de la distribución va a depender de si el verdadero parámetro está cercano a cero o cercano a 1 (ver gráfico siguiente).



Ejemplo del TCL para proporciones

• La candidata A confía en que ganará la candidatura a su provincia siempre y cuando obtenga al menos el 55% de los votos en el distrito clave de la provincia. También estima que la intención de voto de los electores provinciales para con ella es del 50%.S i se toma una muestra de 100 electores del distrito clave, ¿cuál es la probabilidad de que la candidata A obtenga por lo menos el 55% de los votos?


Fundamentos para la inferencia - WordPress.com · Inferencia. Estadística 2019 - Prof. Tamara...

Documents

Transcript of Fundamentos para la inferencia - WordPress.com · Inferencia. Estadística 2019 - Prof. Tamara...