Introducción a la Inferencia...
Transcript of Introducción a la Inferencia...
Material Preparado por Olga Susana Filippini y Hugo Delfino
Introducción a la Inferencia Estadística
Material Preparado por Olga Susana Filippini y Hugo Delfino
Temario
• Diseño Muestral
• Teorema Central del Límite
• Inferencia estadística
· Estimación puntual y por intervalos
· Test de hipótesis.
Material Preparado por Olga Susana Filippini y Hugo Delfino
DISEÑO MUESTRAL
Material Preparado por Olga Susana Filippini y Hugo Delfino
• La gran mayoría de las encuestas estadísticas, ya sea para toma de decisiones o para formulación de hipótesis o teorías se hacen por muestreo.
· Esto se debe a que gracias a la teoría de muestreo esposible medir las propiedades de grandes masas dedatos con precisión calculada sobre la base de unamuestra.
• Las poblaciones que se investigan, pueden ser infinitas.
• La medición de una población puede ser destructiva
• La población puede no ser accesible.
• Puede llegar a ser el método o mecanismo más eficiente.
• Puede dar resultados más eficientes que un censo:recuento completo de una población.
Porque utilizar muestras
Material Preparado por Olga Susana Filippini y Hugo Delfino
• Probabilísticos
Cada uno de los elementos de la población tiene una
probabilidad conocida y no nula de ser seleccionado.La selección de las unidades es aleatoria.
• No Probabilísticos
La selección de las unidades muestrales no serealizan aleatoriamente, sino siguiendo algún otrocriterio en el que puede intervenir la subjetividad delas personas participantes del trabajo(encuestadores, supervisores, jefes de campo,investigadores, expertos, etc.).
Modelos de Muestreo
Material Preparado por Olga Susana Filippini y Hugo Delfino
• Muestras casuales o fortuitas.
• Selección experta.
• Muestra por cuotas.
• Muestra de poblaciones en movimiento.
• Grupos de enfoque.
Ejemplos de muestras No Probabilísticas
Material Preparado por Olga Susana Filippini y Hugo Delfino
Muestras Probabilísticas
Material Preparado por Olga Susana Filippini y Hugo Delfino
Población, Muestra y distribuciones de
muestreo
Población: es la colección, o conjunto, de individuos, objetos o eventos cuyas propiedades serán analizadas.
Muestra: es un subconjunto de la población de interés.
La utilización de encuestas por muestreo tiene como propósito hacer inferencias sobre la población.
Material Preparado por Olga Susana Filippini y Hugo Delfino
Población, Muestra y distribuciones de
muestreo
Distribución de Población: distribución de frecuencia de todos los elementos de la población, que se puede ajustar con una distribución teórica de probabilidades.
Parámetros (poblacionales): la media y desviación estándar son los mas frecuentes.
Distribución de la Muestra: distribución de frecuencia de los elementos de una muestra individual.
Estadísticos (muestrales): la media ( ) y desviación estándar (Sn-1)
x
Material Preparado por Olga Susana Filippini y Hugo Delfino
Caso: Cooperativa telefónica de Villa Rumipal
• La cooperativa telefónica de Villa Rumipal tiene 1336 clientes. De la misma
tenemos para cada asociado el consumo en pesos del mes de enero de
2009 en llamadas locales, a celulares y de larga distancia.
• Debemos presentar un informe al Consejo de Administración sobre nuestros
asociados, describiendo la población bajo estudio, calculando los
parámetros de la misma.
• Dado que deseamos conocer características de nuestros asociados
queremos seleccionar una muestra de los mismos y para asegurarnos que
la muestra es válida queremos verificar si el promedio de consumo es
similar al de la población bajo estudio.
• Extraemos una muestra de tamaño 20 y comparamos el resultado con el
parámetro problacional.
• Para ello utilizaremos el archivo en excel “Cooperativa telefónica de Villa
Rumipal”
Material Preparado por Olga Susana Filippini y Hugo Delfino
Población, Muestra y distribuciones de
muestreo
Distribución de Muestreo de la Media Muestral: distribución de frecuencia de la media muestral de cada una de las posibles muestras de tamaño n tomadas de determinada población.
La media muestral pasa a ser una variable aleatoria que mostrará su variación de muestra en muestra.
La esperanza de una variable aleatoria es igual a su parámetro. E(x)= por lo tanto E( ) = x
Material Preparado por Olga Susana Filippini y Hugo Delfino
Población, Muestra y distribuciones de
muestreo
La variancia de la media muestral mide la variación de muestra en muestra de la media muestral.
La variancia de una variable aleatoria es igual a su parámetro. V(x)= 2 por lo tanto 2 ( ) = E( -)2
La distribución de la media muestral se concentra cada vez más en el entorno de , a medida que aumenta el tamaño de la muestra (n).
x
x2
x
n
x2
2
Material Preparado por Olga Susana Filippini y Hugo Delfino
Población, Muestra y distribuciones de
muestreo
Teorema Central del Limite: si una población tiene una media y variancia 2, finitas, entonces, a medida que el tamaño de la muestra (n) aumenta, la distribución de la media de la muestra ( ), tiende a la distribución normal con media y variancia ( ).
El TCL se cumple sin importar cual es la distribución de la variable aleatoria bajo estudio.
Es condición indispensable que la muestra sea aleatoria.
x
n
2
Material Preparado por Olga Susana Filippini y Hugo Delfino
Caso: Cooperativa telefónica de Villa Rumipal
• TAREA
• Para construir la distribución de frecuencia de las medias
muestrales, extraemos 30 muestras de tamaño 20 cada
una.
• Analizamos si lo propuesto por el teorema general del
límite se cumple o no.
• ¿Que pasa si aumentamos el tamaño de muestra a 40?
• ¿A qué conclusiones pueden arribar?
Material Preparado por Olga Susana Filippini y Hugo Delfino
La inferencia estadística es la forma de tomar decisiones
basadas en probabilidades y presenta dos aspectos:
• Estimación de parámetros:
· Puntual
· Por intervalos
• Prueba de Hipótesis con respecto a una función elegida
como modelo.
Inferencia Estadística
Material Preparado por Olga Susana Filippini y Hugo Delfino
• Estimadores son las expresiones matemáticas que se construyen a partir de los datos de la
muestra y que tienen como objetivo estimar los
valores poblacionales o en lenguaje estadístico
los parámetros del estudio.
• Ejemplos:
· Promedio diario de llamados telefónicos al 0800.
· Número total de consumidores de la marca A.
· Porcentaje de votantes al candidato K.
Estimadores
Material Preparado por Olga Susana Filippini y Hugo Delfino
• Los estimadores deben ser considerados
variables aleatorias, ya que el valor que adopten
(la estimación a la que den origen), depende de
las unidades que integran la muestra, y éstas por
ser elegidas aleatoriamente, varían de muestra
en muestra.
Estimadores
Material Preparado por Olga Susana Filippini y Hugo Delfino
Estimadores puntuales de los parámetros de
una población normal
Sea una muestra aleatoria simple, X1, X2, ...... , Xn de
una población con distribución N(, 2).
• Estimador de la media
n
i
i
n
xx
1
La distribución muestral de la media es :
),(n
x
Material Preparado por Olga Susana Filippini y Hugo Delfino
Estimadores puntuales de los parámetros de
una población normal
• Estimador de la Variancia poblacional es la
variancia muestral
n
i
i
n
xxS
1
222
)1(
)(
Material Preparado por Olga Susana Filippini y Hugo Delfino
Estimadores puntuales de los parámetros de
una población normal
estima a la desviación típica de la median
S
n
y se denomina error estándar de la media muestral,
por esta razón se dice que el error estándar de la
media mide la variabilidad de la media en el
muestreo.
Material Preparado por Olga Susana Filippini y Hugo Delfino
Estimadores puntuales de los parámetros de
una población normal
• Estimador del total
n
i
i
n
xNxNT
1
•La variancia estimada es:
)()(ˆ)(ˆ)(ˆ2
22222
n
SNxNxNT
Material Preparado por Olga Susana Filippini y Hugo Delfino
Estimadores puntuales de los parámetros de
una población normal
• Estimador de una proporción
n
i
i
n
xp
1
•La variancia estimada es:
))1(*
()(ˆ 2
n
ppp
Donde xi =1 si tiene la característica bajo estudio
Material Preparado por Olga Susana Filippini y Hugo Delfino
Caso: Cooperativa telefónica de Villa Rumipal
• Con los datos de la cooperativa telefónica de Villa Rumipal
· ¿Cuál es el promedio de consumo total, que se obtuvo con una muestra
de tamaño 20?
· ¿Cuál es de desvío estándar de la estimación?
· ¿Cuál es la estimación del total de consumo?
· ¿Cuál es la proporción de clientes femenino?
· ¿Cada uno de Uds. obtuvo el mismo resultado?
· Explicar porque fueron iguales o distintas las estimaciones.
Material Preparado por Olga Susana Filippini y Hugo Delfino
Estimadores
Realizada la estimación de un parámetro cabe
preguntarse:
¿ Es exacta la estimación?
¿Es probable que la estimación sea alta o baja?
¿Con otra muestra se obtendría el mismo resultado, o
bastante diferente?
La calidad de un procedimiento de estimación
¿mejora bastante si la estadística de la muestra es
menos variable e insesgada a la vez?
Material Preparado por Olga Susana Filippini y Hugo Delfino
• Ausencia de sesgo
Se dice que un estimador es insesgado (o centrado) si la
esperanza del estimador coincide con el parámetro a estimar
En caso contrario se dice que es sesgado.
• Consistencia
Se dice que un estimador es consistente si se aproxima
cada vez más al verdadero valor del parámetro a medida que
se aumenta el tamaño muestral.
Estimadores y propiedades deseables de
los estimadores
)ˆ(E
0])ˆPr[( 0, n
La distribución del estimador se concentra más alrededor del
verdadero parámetro cuando el tamaño muestral aumenta.
Material Preparado por Olga Susana Filippini y Hugo Delfino
Métodos de estimación
Hay varios métodos de estimación, el de máxima
verosimilitud es el que proporciona estimadores
consistentes pero no siempre insesgados. Los
estimadores mencionados en los puntos
anteriores
son estimadores máximo verosimiles. El mismo
resultado se puede obtener por el método de los
momentos.
),,,( 2 pSTx
Material Preparado por Olga Susana Filippini y Hugo Delfino
Dada una muestra aleatoria X1, X2, ... , Xn , de una población
con función de densidad f(x;) Un intervalo de confianza, de
extremos L-inferior y L-superior, para el parámetro de la
población es un par ordenado de funciones reales de las n
medidas de la muestra
I = [Linferior (X1,...,Xn);Lsuperior (X1,..., Xn)]
Construidas de forma que la probabilidad de que los extremos
contengan al verdadero valor del parámetro es un valor
prefijado (1 - ). Al número (1 - ) se le denomina “nivel de
confianza”.
Estimación por intervalos
Material Preparado por Olga Susana Filippini y Hugo Delfino
• El nivel de confianza suele ser 0,95 (95%) ó 0,99 (99%). Lainterpretación práctica es sencilla, por ejemplo si el nivel deconfianza es del 95%, significa que en el 95% de las vecesque repitiéramos el experimento, el intervalo de confianzacalculado contendría al verdadero valor del parámetro y en el5% restante el intervalo no contendría el verdadero valor.
• Una vez que el intervalo de confianza ha sido calculado parauna muestra concreta, el intervalo obtenido contiene o nocontiene al verdadero valor del parámetro, con probabilidad1, por esa razón, cuando ya tenemos un valor concretohablamos de confianza y no de probabilidad. Confiamos enque el intervalo que hemos calculado sea del 95% quecontiene el verdadero valor.
Estimación por intervalos
Material Preparado por Olga Susana Filippini y Hugo Delfino
Nivel de confianza gráficamente
Material Preparado por Olga Susana Filippini y Hugo Delfino
Intervalo de confianza para la media
poblacional, conocido
Supongamos que disponemos de una población en la que
tenemos una v.a. con distribución N(,) con conocida (de
estudios previos, por ejemplo).
Obtenemos una muestra de tamaño n y deseamos estimar la
media de la población. El estimador puntual de la misma es
la media muestral cuya distribución muestral es conocida
),(n
x
n
xZ
tendrá distribución
normal estándar
la cantidad
Material Preparado por Olga Susana Filippini y Hugo Delfino
Intervalo de confianza para la media
poblacional, conocido
Sobre la distribución N(0 , 1) podremos seleccionar
dos puntos simétricos -z/2 y z /2 , tales que
P(-z /2 Z z /2 ) = 1-
Material Preparado por Olga Susana Filippini y Hugo Delfino
Sustituyendo Z por su valor en este caso
particular
Intervalo de confianza para la media
poblacional, conocido
12/2/ z
n
xzP
Despejando nos queda el intervalo de confianza,
12/2/n
zxn
zxP
Material Preparado por Olga Susana Filippini y Hugo Delfino
Recordemos que si la varianza poblacional es
desconocida y la variable es normal o se puede
aproximar a la distribución normal por el Teorema
central del límite, entonces se usaría la t de Student con
n –1 grados de libertad y el desvío estándar muestral.
El intervalo de confianza que resulta,
Intervalo de confianza para la media
poblacional, desconocido
1)1;2/()1;2/(n
stx
n
stxP nn
Material Preparado por Olga Susana Filippini y Hugo Delfino
Intervalo de confianza para la
proporción poblacional
Supongamos que disponemos de una población en la que
tenemos una v.a. con distribución N(,) con conocida (de
estudios previos, por ejemplo).
Obtenemos una muestra de tamaño n y deseamos estimar la
proporción p de la población. El estimador puntual de la
misma es la proporción muestral cuya distribución muestral
es conocida ),( ppp
n
qp
ppZ
*
tendrá distribución
normal estándar
la cantidad
Material Preparado por Olga Susana Filippini y Hugo Delfino
Sustituyendo Z por su valor en este caso
particular
Intervalo de confianza para la proporción
poblacional
1*
2/2/ z
n
qp
ppzP
Despejando nos queda el intervalo de confianza,
1**
2/2/n
qpzpp
n
qpzpP
Material Preparado por Olga Susana Filippini y Hugo Delfino
Caso: Cooperativa telefónica de Villa Rumipal
• Con los datos de la cooperativa telefónica de Villa Rumipal
· Construya los intervalos de confianza de:
· El promedio de consumo total, que se obtuvo con una muestra de
tamaño 20
· Del total de consumo de la cooperativa.
· De la proporción de clientes femenino
· ¿Cada uno de Uds. obtuvo el mismo resultado?
· Explicar porque fueron iguales o distintas las estimaciones.
Material Preparado por Olga Susana Filippini y Hugo Delfino
Ejercitación
• Ejercicio 1:
· Un productor desea lanzar un nuevo producto y lo hará si consigue que los supermercados vendan en promedio 880 unidades o más por semana. Para responder a esto, se coloco el producto en 12 supermercados y se registraron las ventas semanales.
· ¿Entre que valores se espera estarán las ventas del nuevo producto con un 95% de confianza? ¿Debo lanzar o no el producto? ¿Por qué?
• Ejercicio 2:· Un operador de telefonía celular quiere saber si el tiempo promedio de uso diario de
celular es diferente entre mujeres y hombres a efectos de preparar una promoción basada en minutos de consumo. Para ello realiza una encuesta a 200 usuarios.
· ¿Entre que valores se espera estará con un 95% de confianza el tiempo medio de uso diario de celular para mujeres y para hombres? ¿Preparo una única promoción o dos? ¿Por qué?
• Ejercicio 3:
· El fabricante de una marca de fideos sabe que en GBA su producto esta distribuido en el 19% de los negocios y esta interesado en saber si en la ciudad de Córdoba tiene el mismo nivel de distribución, a efectos de modificar o no su estrategia de distribución . Para ello realiza una encuesta en 85 negocios y el resultado refleja que el porcentaje de negocios que comercializan mi marca es de 14.12%
· ¿Entre que valores se espera estará la distribución de mi producto en Córdoba con un 95% de confianza? ¿Necesita modificar la estrategia? ¿Por qué?
• Los datos para los ejercicios 1 y 2 estan en un archivo excel “Encuesta a Supermercados y usuarios de Telefónia Celular”