CURSO ESTADISTICA 2
-
Upload
andresfelipefranco -
Category
Documents
-
view
93 -
download
3
description
Transcript of CURSO ESTADISTICA 2
Capítulo : DISTRIBUCIONES DE PROBABILIDAD
1.1 Definición general
En lecciones anteriores se estudiaron probabilidades de eventos asociados a los
resultados físicos del espacio muestral . Por ejemplo cuando se lanza una moneda 2
veces se obtiene como espacio muestral
y un evento de interés es ocurrir una cara cuyos elementos son
. este evento tiene como probabilidad
En la práctica resulta de mayor interés el estudio de eventos tales como:
A: ``número de caras que ocurren al lanzar dos monedas''
Similarmente, si dos personas empiezan a caminar desde el mismo punto al mismo
tiempo a lo largo de líneas perpendiculares, entonces el espacio muestral es el conjunto
de pares ordenados de números reales positivos correspondientes a sus
distancias desde el punto de inicio
Ahora si y representan sus velocidades en kilómetros por hora y si estamos
interesados en la distancia entre los dos después de horas, entonces la variable
aleatoria de interés es
Así, para todo punto (resultado del espacio muestral) en se puede asignar un
número real positivo que representa la distancia entre las dos personas
despues de horas.
En ambos ejemplos estamos interesados no en la ocurrencia de un elemento del
espacio muestral sino en en algun número real asignado a .
Frecuentemente el resultado es en sí mismo un número real.
1.1.1Definición
Sea un espacio muestral con una clase de eventos . cualquier regla que asigna a cada
elemento un número real es llamada variable aleatoria.
El concepto de variable aleatoria (v.a.) proporciona un medio para relacionar cualquier
resultado de un experimento aleatorio con una medida cuantitativa, lo cual significa que
a cada elemento de un espacio muestral se le asigna un valor sobre la recta de los reales.
Nota 1.
Suponiendo que es una variable aleatoria sobre Entonces la función (o variable
aleatoria) toma valores sobre la recta real, y así se induce otro espacio muestral
que puede ser tomado como . En este caso es un caso
de espacio muestral no contable
¿ Cúales son los eventos en el espacio muestral ?.
Todos los subconjuntos de un solo punto y todos los intervalos (cerrados, abiertos, o
semicerrados) son eventos. También uniones, diferencias e intersecciones de intervalos.
¿ Cúal es la álgebra asociada al espacio muestral ?
La álgebra asociada al espacio muestral es la llamada álgebra de Borel
conformada por todos los subconjuntos . Esta álgebra es generada por la
colección de todos los intervalos semicerrados de la forma y es denotada por
Los conjuntos de son llamados conjuntos de Borel.
Nota 2.
Las variables aleatorias será denotadas con letras mayúsculas , ,U,V,W, etc. El
valor asignado por será denotado por . Esto es, se escribira por .
Ejemplo 1
Número de hijos en una familia, número de cuartos en una casa, el ingreso de una
familia, el tiempo de duración de una pieza de un equipo, el número de errores en un
página de un libro, la corriente eléctrica que pasa por un punto dado.
Ejemplo 2
Un dado es lanzado una vez. En este caso el espacio muestral es . Se
oberva que la ejecución es un número real. Se define la variable aleatoria como:
la cual asigna a cada elemento del espacio muestral un número real como se
muestra de manera explicita a continuación:
2
3
4
5
6
Luegos se dice que la variable aleatoria toma valores
Ahora otra variable aleatoria para este experimento se definiría como:
entonces toma los valores
Ejemplo 3
Un dado es lanzado dos veces, entonces .
Algunas variables aleatorias que se podrían definir son:
El rango o los valores que toman las anteriores variables son respectivamente:
OTRA DEFINICION DE VARFIABLE ALEATORIA
Sea un espacio muestral y la álgebra asociada Una función de valor real que
proyecta en es llamada variable aleatoria si la imagen inversa bajo de todo
conjunto de Borel en son eventos, esto es,
Determinar si una función es una variable aleatoria por la definición no es
fácil ya que se tendria que probar que la imagen inversa bajo de todo conjunto de
Borel en . Por ello se recomienda aplicar el siguiente teorema
Teorema
es una variable aleatoria si y solo si para cada
Ejemplo 1
Sea el experimento: lanzar una moneda, entonces el espacio muestral es y
sea álgebra de todos los subconjuntos de dada por
. Defina la variable aleatoria como
Entonces
luego para la imágen inversa es siempre un conjunto de la
álgebra .
Ejemplo 2
Sea el experimento: lanzar dos monedas, entonces el espacio muestral es
y sea álgebra de todos los subconjuntos de . Defina
la variable aleatoria como
número de caras en
Entonces
luego para la imágen inversa es siempre un conjunto de la
álgebra .
Ejercicios
1. Sea el número de caras al lanzar tres monedas.
a. Determine el espacio muestral
b. Escriba los valores que asigna a los elementos de .
c. Escriba los elementos del evento
d. Escriba los elementos del evento
2. Un dado es lanzado dos veces. Sea la suma de los valores de las caras , y el valor
absoluto de la diferencia en las caras.
a. Determine el espacio muestral
b. Escriba los valores que asigna a los elementos de .
c. Escriba los valores que asigna a los elementos de .
d. Chequear si es una variable aleatoria
e. Chequear si es una variable aleatoria
f. Otra definición de variable aleatoria
1.2 Caso Discreto
Definición
Una variable aleatoria (v.a.) es discreta si los valores que asigna forman un conjunto
contable (finito o infinito).
Ejemplo
Sea el número de caras al lanzar dos monedas. Los valores que asigna son ,
el cual es un conjunto contable (finito).
Función de Probabilidad
Sea una variable discreta. La colección de números que satisface las
propiedades:
.
Se llamará una función de probabilidad o función de masa de probabilidad de la variable
aleatoria discreta .
Ejemplo de 2 dados
Se realiza el siguiente experimento: se lanzan dos dados, uno rojo y otro azul.
El espacio muestral para este experimento es:
En una función de probabilidad sobre una sigma álgebra asociada al espacio muestral
es dada por:
:
donde es definida como
Explicación: Esta es una de las maneras de definir una función de probabilidad sobre la
sigma álgebra. En este caso debido a que el espacio muestral es finito, se define la
función de probabilidad para cada elemento de como:
Sea la variable aleatoria que representa la suma de los números obtenidos en las caras,
entonces la variable aleatoria asigna números reales a cada uno de los elementos de
espacio muestral como se muestra Aquí
De esta manera se dice que la variable aleatoria toma los valores
La función de probabilidad para la variable se determina como se muestra a
continuación:
El valor se obtiene de la función de probabilidad definida sobre la sigma álgebra
que fué denotado anteriormente como .
Explicación: Observe que la letra representa l aprobabilidad de un evento para la
variable aleatoria y la letra representa la probabilidad para un elemento del espacio
muestral.
Análogamente la probabilidad para los otros valores de la variable se presenta en la
siguiente tabla:
Probabilidad
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
Para poder observar mejor el comportamiento de la distribución de la probabilidad de la
variable observe la figura que se presenta a continuación.
En la gráfica se observa que la distribución de probabilidad es simétrica esto implica
que las medidas de tendencia: Media Aritmética, Mediana y La moda , son iguales. La
manera de calcular estas medidas se estudia en la lección Valor esperado. Observe que
lo más probable que puede ocurrir al lanzar dos es que la suma de las caras sea 7.
Función de Probabilidad Acumulada
La función distribución acumulada de la variable aleatoria discreta , cuya
distribución de probabilidad es , es la probabilidad de que la variable sea menor
o igual al valor Esto es,
Ejemplo
Para el ejemplo tratado anteriormente, La función distribución acumulada de la
variable aleatoria discreta es determinada así:
1. Divida el rango de la variable en subintervalos: y . Esta
división es realizada de acuerdo a la partición de la recta real dada en la función de
probabilidad.
2. Calcule la función de probabilidad acumulada para un un valor que se encuentre en
el intervalo como la suma de las probabilidades de los valores de la variable menores a
.
ya que según la definición de la función de probabilidad cuando
como es en este caso.
Luego La función distribución acumulada de la variable aleatoria discreta es
dada por
Mas ejemplos
EJEMPLOS 1
Se extraen dos pelotas de una urna que contiene 4 pelotas rojas R y 3 blancas (B).
Determine una función de probabilidad para la variable aleatoria que cuenta el
número de pelotas rojas para los casos siguientes:
a. Cuando una pelota se extrae y se devuelve a la urna. (con reemplazamiento)
b. Cuando una pelota se extrae y no se devuelve a la urna. (sin reemplazamiento)
Solución.
Los elementos del espacio muestral en este experimento son:
a.La función de probabilidad asociada con ese espacio muestral es:
La asignación de las probabilidades es así:
Para el caso de , al extraer la primera pelota, la probabilidad de que sea roja es
y como la pelota se regresa de nuevo a la urna, la probabilidad de que la segunda
pelota salga blanca es ya que hay 3 pelotas blancas entre las 7 de la urna. Un
razonamiento análogo permite determinar los otros valores de probabilidad.
La variable aleatoria es dada por:
1
2
0
Así, los valores que toma la variable son:
y la distribución de probabilidad, para este caso en el que se hace con reemplazamiento
Los resultados posibles y los valores de la variable aleatoria Y, donde Y es el número
de pelotas rojas, son:
El evento para la variable aleatoria se obtiene cuando ocurre la intersección de
los dos eventos Sacar una pelota blanca en la primera extracción y Sacar
una pelota blanca en la segunda extracción. Estos eventos están dados explicitamente
por:
B,R B,B y R,B B,B
la intersección es dada por:
B,R B,B R,B B,B B,B
luego el eveto mpara la variable aleatoria es equivalente al evento B,B ,
así:
donde las probabilidades y son obtenidas con la función de probabilidad
definida sobre la sigma álgebra como se mostró anteriormente. Asi:
y por ser una función de probabilidad, se cumple que
luego Un razonamiento análogo nos permite llegar a que
Por tanto
Una manera más sencilla de obtener el resultado anterior es conociendo que en este caso
la variable aleatoria se distribuye binomial , en donde , , y
y así:
haciendo un razonamiento similar al de , se obtiene que
y
0
1
2
El gráfico de esta función de probabilidad aparece en la figura.
b. Para el caso sin reemplazamiento, defina a como:
y proceda de una manera similar a la anterior, pero utilizando las probabilidades
anteriores para obtener los valores de la variable aleatoria, con lo cual llegaría a que
0
1
2
2. El espacio muestral de un experimento aleatorio es , y
cada resultado es igualmente probable. Se define una variable aleatoria de la siguiente
manera
1. Determine la función de probabilidad de x, hacer gráfico.
2. Determinar las siguientes probabilidades
3 El espacio muestral de un experimento aleatorio es , y cada resultado
es igualmente probable. Se define una variable aleatoria de la siguiente manera
a
0
b
c
1.5
d
e
2
f
3
La función de probabilidad acumulada para la variable aleatoria es
Ejercicio 1
Verifique que la siguiente función es función de probabilidad y calcule las
probabilidades pedidas.
x -2 -1 0 1 2
f(x)
1. P( X/2)
2. P( X>-2)
3. P( -1/X/1)
4. P( X/-1/text o X=2)
Ejercicio 2
Un grupo de partes moldeadas se clasifica de acuerdo con su longitud, de la siguiente
manera.
1. Si la variable aleatoria es la longitud (redondeada a la décima de milímetro
más cercana) de una parte moldeada seleccionada al azar, determine la función
de probabilidad de .
2. ¿Cuál es el valor de
3. ¿Cuál es el valor de
Ejercicio 3
Un ingeniero de control de calidad muestrea cinco piezas de un lote grande de
percutores fabricados y determina si tiene defectos. Aunque el inspector no lo sabe, tres
de los cinco percutores muestreados tiene defectos. El ingeniero prueba los cinco
percutores en un orden escogido al azar hasta que observa un percutor defectuoso (en
cuyo caso se rechazará todo el lote). Sea Y el número de percutores que debe probar el
ingeniero de control de calidad. Calcule y grafique la distribución de probabilidad de Y.
1.3 Caso Continuo
Una variable es llamada continua si toma todos sus valores sobre un intervalo de la
recta real. Esto es, el conjunto es un intervalo sobre . Como
ejemplo este caso se pueden considerar variables tiempo, edad y estatura.
Función de Densidad
Sea una variable aleatoria definida sobre La función de densidad
es dada por alguna función integrable sobre tal que
para todo evento
Teorema
Sea una variable aleatoria definida sobre . Toda función que es
integrable sobre y satisface:
es la función de densidad de alguna variable aleatoria continua .
Este teorema nos sirve para determinar cuando una función integrable sobre es una
función de densidad de alguna variable aleatoria continua .
Ejemplo
Sea una función sobre dada por
Esta es una función integrable que satisface que para todo como se
puede observar en la figura 1.
Figura 1. Gráfico de función de probabilidad
Además
Sea el evento A= entonces la probabilidad de A puede ser calculada como
Función de Densidad Acumulada
La función de probabilidad acumulada o función de distribución de una variable
aleatoria sobre , denotada por , es definida por la relación
Ejemplo
para el ejemplo tratado anteriormente la función de distribución es determinada como
sigue:
1. Divida el rango de la variable en subintervalos: , y
. esta división es realizada de acuerdo a la partición de la recta real dada en la
función de probabilidad. cambie la notación de por para evitar confuciones.
2. Calcule la función de probabilidad acumulada para un un valor que se encuentre en
el intervalo como la suma de las probabilidades de los valores de la variable menores a
.
ya que según la definición de la función de probabilidad cuando
Luego la función distribución acumulada de la variable aleatoria continua es
dada por
y el gráfico es dado
Figura 2. Gráfico de función de probabilidad acumulada
Sea el evento A= entonces la probabilidad de A puede ser calculada como
Teorema
Sea una función de distribución. Entonces
para todo
así F es no decreciente
lím para todo F es continua a la
derecha
lím y lím
Ejemplo
Sea una variable aleatoria con función de distribución acumulada dada por (Figura 3)
Construir la Figura 3. Gráfico de función de probabilidad
Diferenciando con respecto a se tiene
La función no es continua en , o en
Mas ejemplos
Ejemplo 1
El error en la temperatura de reacción, en grados centígrados, para un cierto
experimento controlado de laboratorio es una variable aleatoria continua , que tiene la
función de densidad de probabilidad:
Construir grafico y probar que es función de probabilidad.
Ejercicio 1
El número total de horas, medidas en unidades de 100 horas, que una familia utiliza una
aspiradora en un periodo de un año es una variable aleatoria continua que tiene la
función de densidad
Encuentre la probabilidad de que en un periodo de un año, una familia utilice su
aspiradora
a. menos de 120 horas
b. entre 50 y 100 horas
Ejercicio 2
Sea c una constante y consideremos la función de densidad
a. Calcule el valor de .
b. Obtenga la función de distribución acumulativa
c. Calcule
d. Calcule
Ejercicio
1.4 Valor Esperado
Los promedios son parte de nuestro diario vivir. Nosotros escuchamos el promedio de
lluvia en una ciudad en un año, el promedio de temperatura en Agosto, el promedio de
edad de los trabajadores de una empresa, entre otros. El objetivo de esta seccióon es
mostrar algunas características numéricas de una distribución poblacional. El más
comun promedio utilizado en estadística es la media o valor esperado o esperanza
matemática.
Sea una variable aleaoria definida sobre y sea una función real definida sobre .
defina por
1.4.1 Caso discreto
Suponga que es una variable aleatoria es discreta. Si
, entonces se define la media de o el valor esperado
de por
1.4.2 Caso continuo
Suponga que es una variable aleatoria continua y la función de densidad de . Si
, entonces se define la media de o el valor esperado de
por
Mas ejemplos
Ejemplo 1
Un jugador tiene tres oportunidades de lanzar una moneda normal y obtener cara, si cae
cara la 1ra vez el jugador gana $2, si cae cara la 2da vez gana $4 y si cae cara en la 3ra
vez gana $8, el juego termina en el momento en que cae una cara o después de tres
intentos. Si no cae cara en los tres lanzamientos pierde $20.
¿Cuál es la esperanza de ganancia o perdida en el juego?
La probabilidad de que en la 1ra ocasión salga cara es
La probabilidad de que en la 2ra ocasión salga cara es
La probabilidad de que en la 3ra ocasión salga cara es
La probabilidad de que no salga ninguna cara en los tres lanzamientos es
Así, el jugador esperará ganar luego de muchos juegos $0.5. Cabe notar que 50 centavos
no es ninguno de los posibles valores de la variable aleatoria, así, es completamente
posible que una variable aleatoria nunca tome el valor de su esperanza.
Ejemplo 2
Suponga que el número de autos que pasa por un lavado de autos entre 4:00 p.m. y
5:00 pm en cualquier viernes soleado tiene la siguiente distribución de probabilidad:
Sea la cantidad de dinero en dólares, que el administrador paga al
dependiente. Encuentre las ganancias esperadas del dependiente en este periodo
particular.
Solución:
Ejemplo 3
Sea la variable aleatoria continua el diámetro de un agujero taladrado en una placa de
metal. El diámetro requerido es 12.5 milímetros, pero muchas perturbaciones aleatorias
en el proceso dan como resultado diámetros más grandes. La recopilación de datos
indica que la distribución de puede modelarse con la función de densidad de
probabilidad ¿Cuál es el valor esperado de la
?, ¿Cuál es su varianza?
Ejercicios
Ejercicio 1
En un estudio de exploración petrolera Kinchen (1986) cita un ejemplo en el que un
presupuesto de exploración de 50.000 dólares se asigna a un solo prospecto. El
resultado puede ser un pozo seco, 50.000 barriles (bbl), 100.000 bbl, 500.000 bbl o
1.000.000 bbl, con las probabilidades y resultados monetarios que se muestran en la
tabla. Sea el valor monetario de un solo prospecto petrolero. Calcule y .
1. Calcule la media y la desviación estándar de la longitud del cable.
2. Si las especificaciones para la longitud son milímetros,¿Qué
valor de la media da la mayor proporción de cables que cumplen con las
especificaciones?
Ejercicio 3
Demostrar las características de las medias y las varianzas (del 1 al 5).
EJERCICIOS PROPUESTOS
1. (Ejercicio 3.22 Montgomery) Una persona pide prestado un llavero con cinco llaves,
y no sabe cuál es la que abre un candado. Por tanto, intenta con cada llave hasta que
consigue abrirlo. Sea la variable aleatoria el número de intentos necesarios para abrir
el candado. Determine la función de probabilidad de .
¿Cuál es el valor de
¿Cuál es el valor de
¿Cuál es el valor de
2. (Ejercicio 3.26 Montgomery). Determine la función de distribución acumulada para
la variable aleatoria del ejercicio 1; asimismo, calcule las probabilidades siguientes:
3. (Ejercicio 3.36 Montgomery). Si el rango de es el conjunto y
, determine la media y la varianza de la variable aleatoria.
(Ejercicio 5.13 Mendenhall) Investigadores de la University of Rochester estudiaron la
fricción que ocurre en el proceso de alimentación de papel de una fotocopiadora
(Journal of Engineering for Industry, mayo de 1993). El coeficiente de fricción es una
proporción que mide el grado de fricción entre dos hojas de papel adyacente en la pila
de alimentación. En un experimento se utilizó una distribución triangular para modelar
el coeficiente de fricción. La función de densidad para la distribución de fricción
triangular está dada por:
f(y)=
Demuestre que
Calcule la media de la distribución de fricción triangular.
Calcule la varianza de la distribución de fricción triangular.
1.5 Distribuciones de variables aleatorias discretas
1.5.1 Distribución Uniforme
Notación:
X UD( )
Definición
Es la más simple de todas las distribuciones modelo y en ella la variable aleatoria asume cada
uno de los valores con una probabilidad idéntica.
" Sea la variable aleatoria X que puede asumir valores con idéntica
probabilidad. Entonces la distribución uniforme discreta viene dada por:
O sea que el parámetro clave en esta distribución es =número de valores que asume la
variable aleatoria X y que sería un parámetro de contéo.
Así por ejemplo cuando se lanza un dado correcto, cada una de las seis caras posibles
conforman el espacio muestral: La v.a X: número de
puntos en la cara superior del dado tiene una distribución de probabilidad Uniforme
discreta, puesto que:
= para
en otro caso.
La representación gráfica de esta distribución de probabilidad puede hacerse con un
histograma para v.a. discreta, es en este caso la altura de
Planteemos sus características principales de tendencia central y dispersión.
El valor esperado y varianza de una distribución discreta uniforme se obtienen así:
Valor esperado ( )
Varianza (
Para el caso del lanzamiento del dado: el valor esperado y la varianza del número de
puntos en la cara superior son:
Ejercicio
(Walpole, pág 122) Selección de un empleado entre equipo de 10 con el fin de
supervisar un proyecto especifico. Esa selección se hace al azar utilizando papeleta con
números.
a- Cuál es la probabilidad de que el número de la papeleta seleccionado sea menor de 4?
(
b- Cuál es la media y la varianza de la distribución de probabilidad del número de la
papeleta.? y
1.5.2 Distribución Multinomial
Notación:
Definición
Es una distribución de probabilidad conjunta para múltiples variables aleatorias (
discretas donde cada , dándose cuando en cada prueba
ó ensayo independiente (con reposición) del E.A. interesa contar el número de exitos en
cada una de la k maneras como se puede dar un atributo.
Ejemplo
El atributo calidad de un producto se puede dar como: Excelente, bueno, regular y malo.
icas:
1. Son pruebas ó ensayos repetidos e idénticos (con reposición).
2. En cada prueba ó ensayo se pueden producir resultados.
3. Las probabilidadeds de cada uno de los resultados permanecen
constantes en todas las pruebas ó ensayos.
4. Son pruebas ó ensayos independientes.
5. El interes se centra en contar los éxitos que se producen en los
ensayos de cada una de las categorias posibles de observar cada vez.
Si una prueba ó intento puede dar cualquiera de los resultados posibles
con probabilidades , entonces la distribución multinomial dara la
probabilidad de que:
En pruebas independientes.
y donde: y
Como son pruebas independientes, cualquier orden específico que produzca
ocurrirá con de probabilidad.
El número de ordenes ó arreglos que pueden producir resultados similares será:
Combinando los dos componentes, se tiene entonces que:
Con y
Ejemplo
Se sabe que las bombas de gasolina para autos existentes en el mercado se pueden
clasificar en:
de rendimiento excelente .
de rendimiento bueno .
de rendimiento regular .
de rendimiento malo .
Se selecciona una muestra de bombas mediante proceso aleatorio. Cúal sera la
probabilidad de que quede conformada por: y ?
Ejercicio
(Walpole, pag 123)
Un estudiante que va a la universidad en carro encuentra un semáforo, el cual
permanece en verde durante 35 segundos, en amarillo 5 segundos y en rojo 60
segundos. Su viaje a la universidad es entre 8:00 y 8:30 AM en la semana de 6 dias
hábiles. Sea el número de veces que encuentra el semaforo en verde, en luz
amarilla y en luz roja. Hallar la distribución conjunta de y .
1.5.3 Variable Aleatoria Bernoull
Experimento Bernoulli
Las características de un experimento aleatorio Bernoulli son:
1.El experimento tiene solamente dos posibles resultados mutuamente excluyente
denominados éxito (E) y fracaso (F). de esta manera el espacio muestral es dado por
2.La probabilidad de éxito y fracaso son constantes y se denotan por y
respectivamente
Variable aleatoria Bernoulli y su función de probabilidad
Una variable aleatoria Bernoulli se define como el resultado numérico de una prueba
Bernoulli
o de manera formal como una función
éxito
y así el rango de la variable aleatoria es , el cual es denotado como
.
Una variable aleatoria de Bernoulli, por sí sola, tiene poco interés en las aplicaciones de
ingeniería. En cambio la realización de una serie de experimentos bernhoulli conduce a
varias distribuciones de probabilidad discretas muy útiles.
La función de probabilidad de una variable bernoulli es dada por
donde
es la probabilidad de éxito en una sola prueba.
es el número de éxitos en la prueba.
El parámetro es
Media y Varianza
La media y varianza de una variable aleatoria bernoulli son respectivamente
Ejemplo
El experimento de seleccionar un producto y observar si tiene defectos o no.
Aqui se puede definir ser defectuoso como el éxito y no ser defectuoso como el fracaso.
Media y Varianza de la distribución bernoulli
La media y varianza de una variable aleatoria bernoulli son respectivamente
1.5.4 Distribución Binomial
Notación:
Definición
Es una de las distribuciones de probabilidad más útiles ( control de calidad, producción,
investigación). Tiene que ver con el experimento aleatorio que produce en cada ensayo
o prueba uno de dos resultados posibles mutuamente excluyentes: ocurrencia de un
criterio o característica específico (llamado éxito) y no ocurrencia de éste (llamado
fracaso). Los términos o calificativos de "éxito y fracaso" son solo etiquétas y su
interpretación puede no corresponder con el resultado positivo o negativo de un
experimento en la realidad.
Ejemplo
Éxito podría ser hallar en un ensayo específico que la unidad es defectuosa al examinarla. Cada
experimento aleatorio consiste en una serie de ensayos o pruebas repetidas realizadas en
idénticas condiciones ( veces), o sea que cada uno de ellos es independiente de los demás.
Sea la probabilidad de éxito cada vez que el experimento se realiza y la
probabilidad de fracaso. Sea X la variable aleatoria que representa el número de éxitos
en los ensayos o pruebas. El interés se centra en conocer la probabilidad de obtener
exactamente éxitos en esos ensayos.
Criterios o propiedades para definir la Distribución Binomial
Resumiendo, podemos definir estos criterios:
1- El experimento aleatorio consiste en ensayos o pruebas repetidas, e idénticas y
fijadas antes del experimento (pruebas de Bernoulli). Son pruebas con reemplazamiento
o con reposición.
2- Cada uno de los ensayos o pruebas arroja solo uno de dos resultados posibles
resultados: éxito ó fracaso.
3- La probabilidad del llamado éxito ( , pemanece costante para cada
ensayo o prueba.
4- Cada prueba o ensayo se repite en idénticas condiciones y es independiente de las
demás.
Cuando estas propiedades se cumplen en el experimento aleatorio se dice que el
constituye un proceso de Bernoulli y cada uno de los ensayos que lo conforman se llama
experimento de Bernoulli.
5. El interés recae en hallar la probabilidad de obtener número de éxitos al realizar
ensayos del mismo E.A.
La función de probabilidad de X en esas condiciones será:
Para entero y
Planteamiento Básico
Supongamos un proceso productivo en serie de una misma unidad metalmecánica y en
él que: Probabilidad de una unidad defectuosa : y probabilidad de unidad no
defectuosa: .
Supongamos que el interés está en evaluar el proceso mediante una muestra aleatoria de
4 unidades y por tanto se define la v.a X como el número de unidades defectuosas en la
muestra. Para garantizar que los ensayos resulten independientes hacemos la selección
con reemplazamiento o sustitución.
Supongamos que centramos nuestro interes en unidad defectuosa en las cuatro
pruebas o ensayos. Sea B=bueno y D= defectuoso. Por lo tanto el esta conformado
por 16 resultados posibles
.....
Se puede entonces notar que los eventos favorables a constiuyen el subconjunto
. Como no importa el orden de aparición de
la unidad defectuosa sino que aparezca exactamente una unidad con esa característica
tenemos:
o sea:
para cada posible resultado de una unidad defectuosa
Como son cuatro resultados los que satisfacen el interés específico de una unidad
defectuosa entonces
Si generalizamos: donde: son las distintas maneras
como éxitos se producen dentro de los ensayos; es la probabilidad de
éxitos en cada una de las maneras distintas de producirse los éxitos .
Para el caso del ejemplo:
Consideremos el caso ya no de defectuoso; sino todos los valores que puede
asumir X en las cuatro pruebas.
Como son 4 ensayos y consideramos todos los posibles valores de
entonces la
Los valores de se pueden calcular por medios electrónicos ó utilizando las tablas de
la distribución binomial que proporcionan la solución de estas operaciones, a veces
largas o laboriosas.
Con los resultados de esos cálculos podemos construir la tabla de distribución de
probabilidades, hacer su gráfica y definir sus principales características.
Tomemos como ejemplo la distribución binomial de parámetros y
Características de la distribución binomial.
Tendencia central: = aplicando la definición
de valor esperado se obtiene que para esta distribución :
Dispersión ó variación: : =
lo que conduce a que una v.a. binomial X tiene como varianza
Por lo tanto su desviación estandar: .
Asimetria ó deformacíon (Forma): con base en la razón entre los momentos centrales
de orden dos y tres como quedo definido antes:
sobre la base de que si:
Generalmente la distribución binomial es sesgada ó asimetrica hacia la derecha, sesgo
que se va perdiendo cuanto más grande sea el valor de (# de pruebas) y en la medida
en que se acerque a (por lo tanto tienda a ), limite en el cual se torna
simétrica
Para el caso considerado y utilizando tanto la metodología tradicional de la definición
de conceptos como usando las fórmulas simplificadas, tenemos:
Total
0
; tambien
;
Su función de distribución acumulada sera:
Ejemplo
Una empresa adoptó un proceso de control ded calidad consistente en diariamente
seleccionar al azar 20 unidadeds del total producido y conocer el número de unidades
defectuosas. El plan establece que si al examinar diariamente las veinte unidades, tres ó mas
salen defectuosas, algo esta pasando y se ordena detener el proceso productivo para buscar la
falla. Cúal es la probabilidad de que se ordene parar el proceso productivo si se sabe por
experiencia que la probabilidad de una unidad defectuosa es 10%?
Se pide:
La solución más corta para este planteamiento sería entonces:
o sea
que sera la probabilidad de que cualquier dia se ordene parar el proceso de producción
según el planteamiento de control del mismo.
Si consideramos las características, tenemos:
Valor esperado unidades defectuosas.
Varianza
Valores que como es lógico tambien pueden ser hallados por el método tradicional.
Si se hace la grafica para determinar la forma (aunque se deduce que como
será sesgada a la derecha). Veremos sin embargo que dado , no es tan sesgada
como en el caso del otro ejemplo tratado aqui.
Si se hace crecer , por ejemplo, hasta , todavía se torna más simétrica,
tendiendo hacia una normal a pesar de que no sea tan cercano a pero si alejado de
cero ( ) ó de uno ( ). En la práctica, si irá tornandose simétrica para valores
de ( )
Se puede obtener la función de distribución acumulada y obtener asi los cuantiles ó
fractiles de la distribución.
La siguiente figura muestra tres funciones de distribución binomial con y
valores de y
La A con es ligeramente sesgada a la derecha ó con sesgo positivo. La B con
es simetrica y la C con tendra sesgo negativo, interpretaciones
que resultan consecuentes con el indice de sesgo ya planteado.
Ejercicios
1. Una empresa fabricante de neumáticos para tractomulas realiza pruebas de
ponchaduras en un terreno difícil. Se encuentra que el de los neumáticos probados
presentaron pinchazo en el recorrido total. Se prueban 15 neumáticos más tomados al
azar: Halle la probabilidad de las siguientes cantidades de neumáticos con pinchaduras :
Entre 3 a 6 .
Mas de 5 .
1.5.5 Distribución Hipergeométrica
Notación:
Definición
Muchas veces en la práctica es difícil realizar pruebas con reposición ó
reemplazamiento. Por ejemplo, si en el control de calidad se pierde el elemento que se
prueba, pues no se puede hacer reposición directamente. Se plantéa entonces la prueba
sin reposición, donde los elementos de la muestra se toman todos a la vez y no
individualmente ó donde el elemento seleccionado no se reintegra al experimento ó a la
muestra nuevamente.
La diferencia mas simple con la binomial es la forma de aplicar el muestreo. En efecto,
en:
: Muestreo con reemplazamiento e independencia de pruebas ó ensayos.
: Muestreo sin reemplazamiento y sin independeencia entre pruebas
ó ensayos.
Sus aplicaciones estan en areas con uso considerable de muestreo de aceptación,
pruebas electronicas y de aseguramiento de la calidad, fabricación de piezas, etc.
Definición
En la distribución Hipergeométrica cantidad de resultados éxitos en una muestra
aleatoria (sin reposición) de tamaño , tomada de una población de tamaño y de la
cual satisface una caracteristica ó propiedad (éxito) antes del muestreo y no la
satisface (fracaso).
Criterios ó propiedades que la caracterizan.
1. La población del conjunto de unidades ó elementos es de orden fínito, de los
cuales una parte: "son éxitos", y otra parte: son "fracasos".
2. Cada elemento puede ser caracterizado como éxito ó fracaso.
3. Se obtiene una muestra aleatoria de elementos todos a la vez (sin
reemplazamiento) y no de forma independiente. No son pruebas repetidas.
4. El tamaño de la muestra aleatoria es grande relativamente en comparación con
el tamaño de la población. Generalmente:
5. Se busca la probabilidad de número de éxitos a partir de los resultados ó
elementos y fracasos a partir de los elementos asi clasificados, al
obtener una muestra aleatoria de tamaño
Supongamos un lote de productos de los cuales:
Obtenemos muestra de productos, todos a la vez. Interesa entonces la probabilidad de
sacar productos defectuosos (Exito), o sea:
Planteado así el (E.A.) Podemos hacer el siguiente raciocinio:
De una población de elementos se pueden extraer muestras de tamño de formas
diferentes (distintas muestras de tamaño ). Al extraer muestras de tamaño productos,
el número de formas de obtener productos defectuosos de de ellos será: y
entonces sera el número de formas de obtener productos no defectuosos
entre de ellos.
Como es el mismo evento compuesto, entonces el número de formas de seleccionar
productos defectuosos esta ligado con el número de formas de obtener
productos no defectuosos. Luego el total de formas posibles sera:
Combinando los casos
Los parámetros de la distribución Hipergeométrica son entonces:
Tamaño de población.
Número de elementos de con una caracteristica ó propiedad específica (éxitos).
Tamaño de muestra aleatoria extraida.
Nota: Algunos tratadistas simbolizan esta distribución con:
Características de la Distribución Hipergeométrica.
En la practica, si , no se aplica el pues su valor tendera a cero
La función de distribución acumulativa quedará definida entonces por:
Pueden ser calculos tediosos ó laborosos cuando es grande. Por ello hay quienes
aplican la forma simplificada ó de recurrencia:
Ejemplo
En una empresa industrial diariamente se producen 90 unidades de unidad
metalmecánica, de las cuales generalmente 5 salen defectuosas. Se examina en un dia
cualquiera una muestra de 5 unidades. Hallar la probabilidad de unidades defectuosas.
para
que resolviendo permite definir la tabla de distribución de probabilidad:
Si representamos gráficamente la tabla resultante, tenemos:
Calculamos el valor de sus principales medidas características:
Media: =
Que simplificadamente:
Varianza:
ó tambien.
y que aún de forma mas simplificada:
Sesgo: Hacia la derecha ó positivo como se vé graficamente. Además, aqui:
pues y pues
1.5.7 Distribución Poison
Notación:
X
Introducción
Llamada asi por su autor Siméon Denis Poisson, probabilista del siglo XIX, pues fue el
primero en describirla. Es una generalización de la distribución binomial cuando sobre
un . se define una variable aleatoria que representa el número de éxitos
independientes que ocurren para intervalos de medida específicos ( tiempos, lugares,
espacios) , ademas con una probabilidad de ocurrencia pequeña.
Se le llama distribución de los "eventos raros" pues se usa como aproximación a la
binomial cuando el tamaño de muestra es grande y la proporción de éxitos es pequeña.
Esos intervalos de medida pueden referirse a: Tiempo: (Segundo , minuto, hora, dia,
semana, etc.) Area: (Segmento de linea, pulgada cuadrada, Centimetro cuadrado, etc).
Volumen:( Litro, galón, onza, etc.)
Ejemplo
Número de defectos por .en piezas similares de un material ..
Número de personas que llegan a un taller automotriz en un lapso de tiempo
específico.
Número de impulsos electrónicos errados transmitidos durante espacio de
tiempo específico.
Número de llamadas telefónicas que ingresan a un conmutador por minuto.
Número de interrupciones en servicios de energía en intervalos de un dia.
Cantidad de átomos que se desintegran en sustancia radioactiva.
Número de accidentes automovilísticos en un cruce específico durante una
semana.
Criterios ó propiedades
1. Se da un intervalo de medida que divide un todo de números reales y donde el
contéo de ocurrencias es aleatorio. Esa división puede ser un subintervalo de
medida.
2. El número de ocurrencias ó de resultados en el intervalo ó subintervalo de
medida, es independiente de los demás intervalos ó subintervalos. por eso se
dice que el proceso de Poisson no tiene memoria.
3. La probabilidad de que un solo resultado ocurra en un intervalo de medida muy
corto ó pequeño es la misma para todos los demás intervalos de igual tamaño y
es proporcional a la longitud del mismo ó al tamaño de medida.
4. La probabilidad de que más de un resultado ocurra en un intervalo ó
subintervalo corto es tan pequeña que se considera insignificante (cercana ó
igual a cero).
Procesos que se ajustan a estos criterios, se dice, son procesos de Poisson.
Definición
Sea una variable aleatoria que representa el número de eventos aleatorios
independientes que ocurren con igual rapidez en un intervalo de medida. Se tiene
entonces que la función de probabilidad de esta variable, se expresa por:
Donde es parámetro de tendencia central de la distribución y representa el número
promedio ó cantidad esperada de ocurrencias (éxitos) del evento aleatorio por unidad de
medida ó por muestra; y Número de ocurrencias especificas para el
cual se desea conocer la probabilidad respectiva. Segun sea el valor de de , se
define toda una familia de probabilidades de Poisson. La probabilidad de que una
variable aleatoria de Poisson sea menor ó igual a un valor de se halla por la función
de distribución acumulativa, planteada entonces como:
Los resultados de las probabilidades individuales para valores de serán más pequeños
conforme la variable aleatoria toma valores cada vez más grandes.
Ejemplo
El número promedio de partículas radioactivas que registra un contador en un
milisegundo en la realización de un experimento aleatorio es de cinco (5) partículas.
Hallar la probabilidad de que se registre distinto número de partículas en un mismo
milisegundo.
Acudiendo a las tablas existentes para tal fín ó a los medios electrónicos, se llega a
construir la tabla de distribución de probabilidades, dando:
y valores de más grandes pero con probabilidad mas pequeña. Se nota el punto de
inflexión entre y y no es tan sesgada a la derecha por el valor
Características de la distribución de Poisson
Valor Esperado: , el cual debe ser conocido.
Varianza:
Forma ó sesgo: Hacia la derecha ó con sesgo positivo y que se va perdiendo a medida
que crece. Veamos una gráfica de funciones de probabilidad para diferentes valores de
Se puede calcular un coeficiente de asimetría mediante la expresión Es de
observar que mientras en una distribución binomial: en Poisson se puede dar
que
Alternativa: Si se da la probabilidad de tener, de manera exacta, ocurrencias en un
intervalo veces mayor que el de refencia en la medición entonces la distribución de
probabilidades de Y número de éxitos en la nueva unidad de referencia viene dada por
donde Promedio de ocurrencias por intervalo ó unidad de medida considerada en X
y Número de intervalos ó unidades de medida especificados.
Aqui y
Ejemplo
El número de pulsos que llegan a un contador GEIGER se presentan en promedio de 6
pulsos por minuto. Hallar la probabilidad de que en 15 minutos se reciban exactamente
20 pulsos.
es decir, que una frecuencia de 6 pulsos por minuto es eqyivalente a una de 1
por minutos.
1.6 Distribución normal
Importancia de la distribución normal
La distribución normal es de suma importancia en estadística por tres razones
principales:
1. Numerosas variables continuas de fenómenos aleatorios tienden a comportarse
probabilisticamente mediante ésta.
2. Es el límite al que convergen tanto variables aleatorias continuas como discretas.
3. Proporciona la base de la inferencia estadística clásica debido a su relación con
el teorema del límite central.
Propiedades de la distribución normal
1. Su grafica tiene forma acampanada.
2. El valor esperado, la mediana y la moda tienen el mismo valor cuando la
variable aleatoria se distribuye normalmente.
3. Su dispersión media es igual a 1.33 desviaciónes estándar. Es decir, el alcance
intercuartil está contenido dentro de un intervalo de dos tercios de una
desviación estándar por debajo de la media a dos tercios de una desviación
estándar por encima de la media.
En la práctica, algunas de las variables que observamos sólo pueden aproximar estas
propiedades. Así que si el fenómeno puede mediarse aproximadamente mediante la
distribución normal se tendrá:
1. Que el polígono puede verse en forma de campana y simétrico.
2. Sus mediciones de tendencia central tienen bastante parecido.
3. El valor intercuartil puede diferir ligeramente de 1.33 desviaciones estándar.
4. El dominio de la variable aleatoria normalmente distribuida generalmente caerá
dentro de 3 desviaciones estándar por encima y por debajo de la media.
El modelo matemático
El modelo o expresión matemática que representa una función de densidad de
probabilidad se denota mediante el símbolo . Para la distribución normal, se tiene
la siguiente función de probabilidad.
donde
es la constante matemática aproximada por 2.71828
es la constante matemática aproximada por 3.14159
Parámetros
es cualquier valor de la variable aleatoria continua, donde
Así,
A continuación se presentan las gráficas de las funciones de densidad Normal con el
objetivo de observar cambios en la distribución de probabilidad:
caso 1:
Cuando se mantiene la misma media, pero cambia la varianza.
Ejemplo:
caso 2:
Cuando se mantiene la misma varianza, pero cambia la media.
Ejemplo: ( y )
Ahora, al examinar la primera y segunda derivada de , se pueden listar otras
propiedades de la curva normal:
1. La moda, que es el punto sobre el eje horizontal donde la curva es un máximo
ocurre cuando .
2. La curva es simétrica alrededor de un eje vertical a través del valor esperado
.
3. La curva tiene sus puntos de inflexión en , es cóncava hacia abajo
si , y es cóncava hacia arriba en cualquier otro punto.
4. La curva normal se aproxima al eje horizontal de manera asintótica conforme
nos alejamos de la media en cualquier dirección.
Haciendo una transformación a la variable aleatoria normal , ésta se puede llevar a un
nuevo conjunto de observaciones de una variable aleatoria normal con media cero y
varianza 1. A dicha transformación se le conoce como estadarización de la variable
aleatoria normal :
Definición
La distribución de probabilidad de una variable aleatoria normal con media cero y
varianza 1 se llama distribución normal estándar.
Función de Densidad
Normal (0,1)
Gráfico 6.
En la distribución normal estándar se sabe que las áreas se distribuyen de la siguiente
manera:
Función de Densidad
Normal (0,1)
Manejo de tablas
La tabla anexa representa las probabilidades o áreas bajo la curva normal calculadas
hasta los valores particulares de interés (Transformados). Al observar la tabla se
observa que todos los valores deben registrarse primero con hasta dos lugares
decimales. Por ejemplo, para leer el área de probabilidad bajo la curva hasta ,
podemos recorrer hacia abajo la columna Z de la tabla hasta que ubiquemos el valor de
interés (en décimas). Así pues, nos detenemos en la fila . A continuación,
leemos esta fila hasta que intersecamos la columna que contiene el lugar de centésimas
del valor ( ). Por tanto, en el cuerpo de la tabla, la probabilidad tabulada para
z=1.57 corresponde a la intersección de la fila z=1.5 con la columna z=0.07 y es 0.9418.
Métodos descriptivos para determinar la normalidad
En las siguientes clases se aprenderá a hacer inferencias acerca de la población con base
en información de la muestra. Varias de estas técnicas se basan en el supuesto de que la
población presenta una distribución normal aproximada. Por tanto, será importante
determinar si los datos de la muestra provienen de una población normal, antes de
aplicar dichas técnicas.
Para determinar si los datos provienen de una distribucón aproximadamente normal, se
pueden considerar tres métodos:
1. Construir en histograma de frecuencia relativa o bien un diagrama de tallos y
hojas para los datos. Si los datos son aproximadamente normales, la forma de la
gráfica será similar a la de la curva normal. (Con forma de joroba y simétrica
alrededor de la media.)
2. Calcular el rango intercuartílico ( ) y la desviación estándar ( ), para la
muestra, y luego calcular el cociente . Si los datos son aproximadamente
normales,
3. Construir una gráfica de probabilidad normal para los datos Si los datos son
aproximadamente normales, los puntos caerán (aproximadamente) en una línea
recta.
Construcción De Una Gráfica de Probabilidad Normal Para Un Conjunto
De Datos
1.Haga una lista de las observaciones del conjunto de datos de muestra en orden
ascendente, donde representa el i-ésimo valor ordenado.
2.Para cada observación, calcule el área de cola correspondiente de la distribución
normal estándar ( ), . Empíricamente condición de continuidad.
donde es el tamaño de la muestra.
3.Calcule el valor esperado estimado de suponiendo normalidad, mediante la
siguiente fórmula:
donde es la desviación estándar de la muestra y es el valor de que recorta un
área de la cola inferior de la distribución normal estándar.
4.Grafique las observaciones ordenadas en el eje vertical y los valores esperados
estimados correspondientes, en el eje horizontal.
NOTA: Las verificaciones de normalidad dadas son sólo técnicas descriptivas. Es
posible (aunque poco probable) que los datos no sean normales a pesar de que las
verificaciones se satisfacen razonablemente. Por tanto, se debe tener cuidado de no
asegurar que las mediciones, de hecho, se distribuyen normalmente. Sólo podemos decir
que es razonable pensar que los datos provienen de una distribución normal.
Aproximación para la distribución binomial
La distribución normal frecuentemente es una buena aproximación a una distribución
discreta cuando la última adquiere una forma de campana simétrica. Desde un punto de
vista teórico algunas distribuciones convergen a la normal conforme sus parámetros se
acercan a ciertos límites. La distribución normal es una aproximación conveniente pues
la distribución acumulada se tabula más fácil. La distribución binomial se aproxima
bien por la normal en problemas prácticos cuando se trabaja con la función de
distribución acumulada.
Teorema. (Aplicación del Teorema del Límite Central)
Si es una variable aleatoria binomial con media y varianza
entonces la forma limitante de la distribución de
cuando , es la distribución normal estándar
La distribución normal proporciona una buena aproximación de la binomial aún cuando
es pequeña y está razonablemente cercana a 0.5.
1.6.1 Distribución Exponencial
Notación:
Introducción
Antes de introducir la variable exponencial puede mirarse un origen natural de ésta a
partir de una variable aleatoria Poisson, la cual indica el número de veces que ocurre un
evento en una unidad de tiempo. Si se escribe la función de probabilidad Poisson de la
siguiente manera:
la probabilidad de que no ocurra algún evento, en el periodo hasta el tiempo está dada
por:
De esta manera, puede definirse ahora una variable aleatoria continua que mide el
tiempo que tarda en ocurrir el primer evento de Poisson. Es decir,
Lo que permite construir la función de distribución acumulada así:
Al derivar, con respecto a se tiene la función de densidad de la variable aleatoria
exponencial .
Definición
La variable aleatoria que es igual a la distancia (o tiempo) entre ocurrencias
sucecesivas de un proceso Poisson con media tiene una distribución
exponencial con parámetro
Función de densidad de Probabilidad:
Valor esperado: Varianza:
Observaciones:
1. En la definición de la variable aleatoria exponencial, ésta se plantea como tiempo que
tarda en ocurrir el primer evento Poisson. Sin embargo, esta definición puede hacerse
extensiva a las demás unidades de medición consideradas en los eventos de Poisson, por
ejemplo, cantidad de metros de carretera que deben recorrerse hasta que aparezca el
primer bache, cantidad de que deben inspeccionarse en una hacienda hasta que
aparezca el primer cafetal de broca, etc.
2. En el lenguaje de las aplicaciones también se utiliza la distribución exponencial para
modelar tiempo entre eventos, distancia entre eventos, volumen entre eventos.
Ejemplo
Supóngase que la duración de los instrumentos electrónicos D y D tienen
distribuciones Exponenciales asi : D D
Cual se debe preferir para usarlo durante un periodo de 45 horas?
Debería preferirse aquel instrumento que de mayor garantía de duración para un mínimo
de tiempo como el requerido, es decir, debe calcularse la probabilidad de que el
instrumento dure por lo menos 45 horas, en cada caso.
El instrumento dos tiene mayor probabilidad de tener duración de 45 o más horas.
Comprueba los anteriores resultados utilizando la función de distribución.
2. ESTADISTICA INFERENCIAL
1.1 DEFINICION DE TERMINOS
Parámetro: Es una medida estadística (promedio, varianza, etc.) calculada con todos los
elementos de la población. Generalmente se simbolizan con letras del alfabeto griego o con letras mayúsculas.
Estimador: Es una medida estadística (promedio, varianza, etc.) calculada con la información suministrada por una muestra. Generalmente se simbolizan con la letra que identifica al parámetro y un ^ encima que se lee estimado, o con letras minúsculas de nuestro alfabeto.
Estimación: Es el valor numérico del estimador
Generalmente, en estadística no es posible tomar toda la información, es decir, no se puede hacer un censo, por lo tanto se debe tomar una muestra para analizarla y con base en la información suministrada por la muestra generalizar el comportamiento de la población. A esta generalización o paso de lo particular a lo general se le llama inferencia estadística .
En la estadística es fundamental el proceso de inferencia, ya que se afirma algo acerca del comportamiento de la población a partir de una muestra.
Dentro del proceso de inferencia hay dos tipos de estimación: estimación puntual y estimación por intervalo.
1.2.1 ESTIMACION PUNTUAL . Si se toma una muestra aleatoria y con la información
suministrada por ella se obtiene un indicador cualquiera (promedio, desviación estándar o proporción) es un estimador puntual del valor del parámetro. Es decir que un estimador puntual es un solo valor que se supone nos representa adecuadamente el comportamiento de una variable.
Un estimador puntual debe cumplir las siguientes condiciones mínimas para que sea considerado un buen estimador. Estas condiciones o propiedades son: insesgado, consistente, eficiente o de varianza mínima y suficiente.
Insesgado . Un estimador es insesgado si el valor promedio o esperanza matemática del estimador es igual al valor del parámetro.
Cuando un estimador es sesgado se puede introducir una corrección que elimine el sesgo.
Consistente . Un estimador es consistente, si a medida que aumenta el tamaño de la muestra, el valor del estimador se acerca al valor del parámetro.
Eficiente o de varianza mínima . Si se toman dos muestras aleatorias del mismo tamaño
provenientes de la misma población y si con cada una de estas muestras se obtiene un estimador insesgado, es eficiente el que tenga menor varianza.
Suficiente . Un estimador es suficiente si para calcularlo se utiliza toda la información suministrada por la muestra.
TEOREMA CENTRAL DEL LIMITE
Es frecuente tomar muestras de poblaciones que no son normales, cualquiera que sea la
distribución de la población con tal de que tenga varianza finita, la media muestral tendrá aproximadamente, para muestras grandes, la distribución normal. Esta propiedad se conoce como teorema central del límite.
La importancia de este teorema, en lo que concierne a aplicaciones prácticas, se debe al hecho de que el promedio de una muestra aleatoria procedente de cualquier distribución con
varianza finita y , tiene para muestras grandes, una distribución aproximadamente
normal con media m y varianza /n.
DISTRIBUCIONES MUESTRALES
De una población de tamaño N, se pueden sacar N combinado n muestras diferentes de tamaño n. Con cada una de estas muestras es posible obtener un estimador, ya sea la media, proporción, varianza, etc.. La distribución de estos estimadores se conoce como distribución en el muestreo.
El conocer la distribución en el muestreo de algunos de estos estimadores es útil en el
desarrollo teórico de los temas correspondientes a estimación por intervalo y pruebas de hipótesis. A continuación se verán las distribuciones en el muestreo más utilizadas.
DISTRIBUCION MUESTRAL DE LA MEDIA
Dependiendo de las características de la población y del tamaño de la muestra se tienen varios casos.
1.4.2.1 . Se selecciona una muestra aleatoria de tamaño n de una población con distribución
normal con media m y varianza , con s 2 conocida.
La media muestral tiene también distribución normal,
(1.6)
1.4.2.2 . Se selecciona una muestra aleatoria de tamaño n > 30 de una población con distribución diferente a la normal
(1.7)
1.4.2.3 . Se selecciona una muestra aleatoria de tamaño n < 30 . La distribución t es
adecuada para trabajar con muestras pequeñas, y se obtiene del cociente entre una distribución normal estándar y la raíz cuadrada de una chi-cuadrado dividida por sus grados de libertad, por lo tanto:
(1.8)
Si se utiliza la varianza corregida:
(1.9)
DISTRIBUCION MUESTRAL DE LA PROPORCION
Una proporción poblacional se define como =X/N, donde X es el número de elementos en la población que poseen cierta característica y N es el total de elementos de la población.
Una proporción muestral se define como p = x/n, donde x es el número de elementos en la muestra que poseen cierta característica y n es el total de elementos de la muestra.
Cuando se desea estimar una proporción, el tamaño de la muestra siempre debe ser grande, es decir, n 30.
Si la muestra se obtiene con reemplazo, x tiene distribución binomial y debido a que la
muestra es grande, por el teorema central del límite se aproxima a una distribución normal; por consiguiente:
Debido a que se desconoce la proporción poblacional, se utiliza la proporción muestral para estimar la varianza, por lo tanto:
(1.13)
DISTRIBUCION MUESTRAL DE LA VARIANZA
El supuesto fundamental es que la población tiene distribución normal con media y varianza
. De esta población se obtiene una muestra aleatoria de tamaño n.
La varianza de la muestra se define como:
Si se multiplica por n/ se obtiene:
(1.1)
La expresión (1.1) es similar a:
(1.2)
que tiene distribución chi-cuadrado con n grados de libertad. La única diferencia es que en el
uno interviene la media muestral (x) y en el otro la media poblacional ( ). Por lo tanto, la pregunta es si la expresión (1.1) también tiene distribución chi-cuadrado con n grados de
libertad.
que tiene distribución chi-cuadrado con n grados de libertad. La única diferencia es que en el
uno interviene la media muestral (x) y en el otro la media poblacional ( ). Por lo tanto, la pregunta es si la expresión (1.1) también tiene distribución chi-cuadrado con n grados de libertad.
Recordemos que una variable aleatoria con distribución normal estándar, elevada al cuadrado, tiene distribucion chi-cuadrado y sus grados de libertad dependen del número de observaciones.
Si una variable aleatoria X tiene distribución normal, N( , ), por el teorema central del límite:
(1.3)
Para hacer la demostración partimos de la expresión (1.2), a la que se le resta y se le suma la media muestral:
Desarrollando el binomio y aplicando propiedades de la suma se obtiene:
Por propiedades de la media:
Despejando:
Por lo tanto,
(1.4)
Es decir que la sustitución de la media poblacional por la media muestral reduce en 1 los
grados de libertad de la chi-cuadrado. Lo anterior nos indica que cada vez que se reemplaza un parámetro por un estimador, se reduce en 1 los grados de libertad de la distribución chi-cuadrado.
Si se utiliza la varianza corregida,
(1.5)
Lo anterior se debe a que la varianza corregida se define como:
En caso de ser iguales se trabaja con el 3 y si son diferentes se trabaja con el caso 4 de los casos especiales.
DISTRIBUCION MUETRAL PARA DIFERENCIA DE MEDIAS
Cuando se toman dos muestras aleatorias de poblaciones diferentes, generalmente se quieren comparar los dos promedios o medir la diferencia que hay entre ellos.
Si se toman dos muestras aleatorias independientes, de tamaños n1 y n2 procedentes de
poblaciones con medias y y varianzas y respectivamente:
1.4.3.1 . Si las muestras proceden de poblaciones con distribución normal y las varianzas poblacionales son conocidas :
(1.10)
1.4.3.2 . Si las muestras provienen de poblaciones no normales pero los tamaños de
muestra son grandes , es decir, n1 30 y n2 30, la distribución de la diferencia de medias es como en el caso anterior.
1.4.3.3 . Si las muestras provienen de poblaciones normales con varianzas poblacionales iguales pero desconocidas y tamaños de muestra pequeños , es decir, n1 30 y n2 30. Como se desconocen las varianzas poblacionales se debe obtener una expresión que elimine dichas varianzas, y debido a que las muestras son pequeñas se debe obtener una distribución t-Student
Simplificando se obtiene:
(1.11)
1.4.3.4 . Si las muestras provienen de poblaciones normales con varianzas poblacionales desconocidas pero diferentes y tamaños de muestra pequeños , es decir, n1 30 y n2 30:
(1.12)
Donde:
Cuando se va a hacer una prueba de hipótesis o un intervalo de confianza para la diferencia
de medias y las muestras son pequeñas, primero se debe comprobar si las varianzas poblacionales son iguales o no. En caso de ser iguales se trabaja con el 3 y si son diferentes se trabaja con el caso 4 de los casos especiales.
1.4.5 DISTRIBUCION DE LA DIFERENCIA DE PROPORCIONES De dos poblaciones se
toman dos muestras aleatorias independientes de tamaños n1 30 y n2 30, y en cada una
de ellas se observa una característica o cualidad. La proporción muestral de elementos con una característica se define como:
(1.14)
1.4.6 DISTRIBUCION DEL COCIENTE DE VARIANZAS De dos poblaciones con
distribución normal y varianzas poblacionales y se toman dos muestras aleatorias independientes de tamaños n1 y n2 .
Como se vió, en la distribución de la varianza se llega a una distribución chi-cuadrado y del cociente de dos chi-cuadrado se obtiene una distribución F de Snedecor.
(1.15)
Conocidas las distribuciones en el muestreo de los principales estimadores, se tiene la
fundamentación teórica que nos permite desarrollar el tema correspondiente a los intervalos de confianza y las pruebas de hipótesis.
ESTIMACION POR INTERVALOS DE CONFIANZA
Hasta ahora se ha hablado de la estimación puntual, en donde se halla un solo valor o indicador del comportamiento de una variable, pero no se sabe qué tan cerca está el valor estimado del parámetro y generalmente se necesita más que un valor exacto, un rango dentro del cual esperamos que esté el valor del parámetro; por esta razón, es de gran
utilidad la estimación por intervalo en donde se tiene en cuenta la dispersión de los datos y de antemano se conoce la confiabilidad de la estimación.
En el presente capítulo se desarrolla el tema correspondiente a los intervalos de confianza
para la media, la proporción y la varianza.
2.1 INTERVALO DE CONFIANZA
Cuando se selecciona una muestra aleatoria y se obtiene un estimador puntual (promedio, proporción, etc.), no se sabe qué tan cerca está dicha estimación del parámetro, por ésta
razón es necesario construir un intervalo de confianza, en donde además de tener en cuenta el grado de dispersión o variación de los datos y el tamaño de la muestra se establece un nivel de confianza o probabilidad de que el valor del parámetro esté contenido en dicho intervalo o rango.
Para obtener un intervalo de confianza se determinan los valores Z1 y Z2 y a tales que la
confiabilidad de que el parámetro q esté dentro de los límites Z1 y Z2 sea - a , es decir:
Donde:
1- = Se conoce como confiabilidad o nivel de confianza y generalmente está entre el 90 y el 99%
= Nivel de significancia o márgen de error, del 1 al 10%
Z1 y Z2 = son percentiles correspondientes a una distribución de probabilidad, la cual depende de la distribución en el muestreo del estimador con el que se esté trabajando. Los valores de estos percentiles también dependen del nivel de confianza.
Gráficamente, se hallan dos valores tales que el área que hay entre Z1 y Z2 sea 1- y el área
restante ( ) se divide en dos partes iguales, quedando /2 en la parte inferior y el otro /2 en la parte superior de la distribución, tal como se observa en la figura 2.1. Por esta razón
de ahora en adelante Z1 y Z2 se notarán como y .
Figura 2.1 Nivel de confianza y nivel de significancia
INTERVALO DE CONFIANZA PARA LA MEDIA
Como en el caso de las distribuciones en el muestreo, se tienen varios casos, los cuales dependen de las características de la población y el tamaño de la muestra.
CASOS DE LOS INTERVALOS DE CONFIANZA
CASOS :
2.2.1 . Intervalo de confianza para la media, cuando se selecciona una muestra
aleatoria de tamaño n de una población con distribución normal con media y
varianza conocida.
En este caso, por las condiciones de la muestra se utiliza la distribución normal estándar, por
lo tanto y pertenecen a una distribución normal estándar. Como se trabaja con una
distribución normal, y son iguales pero con diferente signo, es negativo y es
positivo, por lo tanto en la fórmula se incluye el signo y y se reemplazan por Z. Para obtener el intervalo de confianza para la media se utiliza la siguiente expresión:
(2.1)
Donde Z pertenece a una distribución normal estándar.
Interpretando este intervalo se dirá que el promedio poblacional estará entre:
con una confiabilidad del (1- ) por ciento.
EJEMPLO
Un proceso manufacturero usado por una fábrica durante los últimos 10 años, tiene una distribución normal con desviación estándar de 8 unidades por hora. Se desea estimar un intervalo de confianza del 90 por ciento para el promedio de unidades por hora producido con dicho proceso. Para tal efecto, se toma una muestra aleatoria de la producción por hora durante 25 horas y se obtiene un promedio de 160 unidades.
Solución . Como la distribución de la población es normal y se conoce la desviación estándar poblacional, se utiliza la expresión 2.1 para calcular el intervalo de confianza.
El valor de Z se halla en una tabla de la distribución normal. La confiabilidad es del 90 por ciento, por lo tanto el nivel de significancia o a (0.1) se divide en dos y se deja a /2 en la
cola inferior y a /2 en la cola superior. En la figura 2.2, el área que hay de - a Z es 0,95 y
para ésta área el valor de Z en la distribución normal es 1,64
2.2.2. Intervalo de confianza para la media si se selecciona una muestra aleatoria de tamaño n 30 de una población con distribución diferente a la normal.
Por las condiciones de la muestra, se utiliza la expresión (1.7). Haciendo el mismo proceso que se hizo en el caso anterior se obtiene:
(2.2)
Donde Z pertenece a una distribución normal estándar.
EJEMPLO
En un estudio elaborado acerca de la duración de 51 bombillas de semáforos en cierta
ciudad, se determinó un promedio de duración de 1.795 horas con una desviación estándar de 489 horas. Halle un intervalo con el 95 por ciento de confiabilidad para estimar la media poblacional.
Solución
Como el tamaño de la muestra es mayor que 30, se utiliza la expresión 2.2 y para una
confiabilidad del 95 por ciento, el valor de Z en la distribución normal es 1,96. Reemplazando:
Interpretación . Con una confiabilidad del 95 por ciento, la duración promedio de las bombillas de semáforos de dicha ciudad, está entre 1.661 y 1.921 horas.
Figura 2.2 Percentil de la distribución normal
Interpretación . El promedio de unidades por hora producidas en dicha fábrica está entre 157 y 163 con una confiabilidad del 90 por ciento.
2.2.3 . Intervalo de confianza para la media si se selecciona una muestra aleatoria de tamaño n<30 .
Como la muestra es pequeña, se utiliza la expresión (1.8) para despejar el intervalo de
confianza para , obteniéndose:
(2.3)
En donde Z pertenece a una distribución t con (n-1) grado de libertad.
Si se trabaja con la desviación estándar corregida, se utiliza la expresión (1.9), obteniéndose:
(2.4)
En donde Z pertenece a una distribución t con (n-1) grado de libertad.
EJEMPLO
Se desea hallar un intervalo de confianza para la estatura promedio de todos los estudiantes de ingeniería industrial de la Universidad Nacional Sede Manizales. Para tal efecto, de los estudiantes de dicha carrera se seleccionó una muestra aleatoria de 15 personas a quienes se les preguntó su estatura en metros, obteniéndose los siguientes resultados:
ESTATURA: 1,50 1,63 1,50 1,69 1,69 1,79 1,73 1,69 1,56 1,70 1,65 1,74 1,70 1,70 1,65
Halle un intervalo de confianza del 95 por ciento.
Solución . Con la información disponible se calculó el promedio aritmético y la desviación
estándar, los que respectivamente son 1,6613 y 0,0808 n = 15 y 1- = 0,95
Como la muestra es pequeña se utiliza la expresión 2.3. El valor de Z se halla en una tabla de la distribución t con 14 grados de libertad, que para un nivel de confianza del 95 por ciento es 2,145. Reemplazando:
Interpretación . Con un 95 por ciento de confiabilidad, se puede afirmar que la estatura promedio de los estudiantes de ingeniería industrial de la universidad Nacional Sede Manizales, está entre 1,62 y 1,71 mts.
INTERVALO DE CONFIANZA PARA LA PROPORCION
Cuando se observa una característica o cualidad en la muestra se puede estimar la proporción de elementos que tienen una característica determinada; en estos casos, el tamaño de la muestra siempre debe ser grande, por lo tanto se tiene un solo caso.
Para despejar el intervalo de confianza se parte de la expresión (1.13) y haciendo el mismo proceso que para el caso de la media, se obtiene:
(2.5)
Donde Z pertenece a la distribución normal estándar.
Ejemplo
La Federación Nacional de Cafeteros, realizó un estudio con el fin de conocer el porcentaje de propietarios y arrendatarios de las fincas productoras del grano en la región del viejo Caldas.
Para tal efecto se tomó una muestra aleatoria de 100 fincas, en las cuales se encontró que 65 de los caficultores eran dueños del predio. Halle un intervalo del 95 por ciento de confianza para el porcentaje de propietarios de fincas en la región del viejo Caldas.
Solución
Se utiliza la expresión 2.5. El valor de Z se halla en la tabla de la distribución normal, que para una confiabilidad del 95 por ciento es de 1,96. Reemplazando:
Interpretación . En la región del Viejo Caldas, el porcentaje de propietarios de fincas cafeteras, está entre el 55,7 y el 74,3 por ciento, con una confiabilidad del 95 por ciento.
INTERVALO DE CONFIANZA PARA LA VARIANZA
De una población con distribución normal con media m y varianza s 2 se obtiene una
muestra aleatoria de tamaño n. Para obtener el intervalo de confianza para la varianza ( s 2 ) se parte de la expresión (1.4):
Se divide por ns2 :
Se invierte:
Reescribiendo:
(2.6)
Donde y pertenecen a una distribución chi-cuadrado con (n-1) grado de libertad, por
lo tanto, y son diferentes y < .
Ejemplo
La varianza de la resistencia a la rotura de 30 cables probados fué de 32.000 lbs 2. Halle un intervalo de confianza del 90 por ciento, para la varianza de la resistencia de todos los cables de ésta marca.
Solución . Se utiliza la expresión 2.6. Los valores de y pertenecen a una
distribución chi-cuadrado con 29 grados de libertad. como puede observarse en la figura 2.3
el área que hay por debajo de Z a /2 es 0,05, por lo tanto =17,71 y el área que hay por
debajo de es 0,95, por lo tanto =42,56
Figura 2.3 Percentiles de la distribución chi-cuadrado
Reemplazando en la expresión 2.6 se obtiene:
Por razones de utilidad se halla el intervalo de confianza para la desviación estándar, sacando la raíz cuadrada de los límites, por lo tanto:
Interpretación . El promedio de variación o de dispersión de la rotura de los cables de dicha marca, está entre 150 y 233 lbs . con una confiabilidad del 90 por ciento.
PRUBAS DE HIPOTESIS
Dentro del proceso de inferencia, además de la estimación puntual y la por intervalo, en muchas ocasiones es necesario hacer pruebas de hipótesis, las cuales se hacen con base en la información muestral.
En este capítulo se verá la prueba de hipótesis para la media, la proporción, la varianza, la diferencia de medias, la diferencia de proporciones, el cociente de varianzas, la prueba de independencia y la prueba de bondad de ajuste.
3.1 HIPOTESIS
Una hipótesis estadística es un supuesto acerca del valor de un parámetro de una población determinada. Este supuesto debe comprobarse con la información suministrada por una muestra aleatoria obtenida de dicha población.
Cuando se realiza una prueba de hipótesis, se plantean dos hipótesis que deben ser mutuamente excluyentes; una es la hipótesis nula que se nota como H0 y la otra es la hipótesis alternativa que se nota como H1 .
Se debe establecer un criterio o regla de decisión según la cual no se rechace la hipótesis nula o se rechace. Si se rechaza la hipótesis nula (H0 ) se acepta hipótesis alternativa (H1 ). Para establecer esta regla de decisión la distribución de probabilidad se divide en dos categorías mutuamente excluyentes: la que lleva al rechazo de H0 , es decir está en la zona de rechazo y la que lleva al no rechazo de H0 , es decir, está en la zona de no rechazo.
Debido a que se está trabajando con una muestra aleatoria, cuando se realiza una prueba de hipótesis se pueden cometer dos tipos de errores. La hipótesis nula (H0 ) es en realidad
verdadera, pero debido a que los datos muestrales parecen ser inconsistentes con ella, se la rechaza (ERROR TIPO I) y la probabilidad de cometer un error tipo I se llama nivel de
significancia ( ). Puesto que cuando se comete un error tipo I, seguiríamos una acción errónea, se puede definir el nivel de significancia como la probabilidad de decidirnos por H1 dado que H0 es verdadera.
Por otro lado, podemos no rechazar H0 siendo en realidad falsa, a este error se le llama ERROR TIPO II.
3.1.1 FORMULACION DE HIPOTESIS
El primer paso en la prueba de hipótesis es el planteamiento de las hipótesis, lo que en algunos casos no es una tarea fácil.
Hay tres tipos de hipótesis, a saber:
- Prueba de hipótesis a dos colas
H0: = k
H1: k
- Prueba de hipótesis a una cola superior
H0 : = k ó H0: k
H1 : > k ó H1 : > k
- Prueba de hipótesis a una cola inferior
H0 : = k ó H0 : k
H1 : < k ó H1 : < k
Nótese que las hipótesis siempre se plantean para un parámetro .
Una vez establacidas las hipótesis, se selecciona el nivel de significancia o márgen de error (
) el que generalmente se fija entre el uno y el diez por ciento.
El tercer paso es la estadística a probar o estadística de trabajo, la cual depende de la distribución en el muestreo del estimador con el que se esté trabajando y de los supuestos
correspondientes a la población y al tamaño de la muestra. Cuando se realizan los cálculos siempre se supone que la hipótesis nula (H0) es cierta.
El cuarto paso es establecer la regla de decisión, la cual depende de la distribución de
probabilidad de la estadística a probar, del nivel de significancia ( ) y de la hipótesis alternativa (H1).
Finalmente se toma la decisión de no rechazar la hipótesis nula o rechazarla.
PRUEBA DE HIPOTESIS PARA LA MEDIA
El promedio aritmético poblacional es un indicador muy importante, por lo tanto, frecuentemente se desea probar si dicho promedio ha permanecido igual, ha aumentado o ha disminuído. A través de la prueba de hipótesis se determina si la media poblacional es significativamente mayor o menor que algún valor supuesto.
Hipótesis
Se puede plantear uno de los siguientes tres tipos de hipótesis:
- Prueba de hipótesis a dos colas
H0 : = k
H1 : k
- Prueba de hipótesis a una cola superior
H0 : = k ó H0 : k
H1 : >k ó H1 : > k
- Prueba de hipótesis a una cola inferior
H0 : = k ó H0 : k
H1 : < k ó H1 : < k
En las distribuciones en el muestreo se vió que para el caso de la media, hay tres situaciones, por consiguiente la estadística de trabajo a utilizar depende de los supuestos de la población y del tamaño de la muestra.
3.2.1 Prueba de hipótesis para la media si la población de donde se obtiene la
muestra tiene distribución normal con conocida.
La estadística de trabajo a usar corresponde a la expresión (1.6):
(3.1)
Donde: es el valor que se está suponiendo en la hipótesis nula (H0).
REGLA DE DECISION
- Si se ha planteado la hipótesis alternativa como: H1 : k se tiene una prueba de hipótesis
a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.1
Figura 3.1 Regla de decisión para una prueba de hipótesis a dos colas.
y pertenecen a una distribución normal estándar. Si el valor de la estadística de
trabajo (Zx) está entre y no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir:
- Si se ha planteado la hipótesis alternativa como:
H1 : > k, se tiene una prueba de hipótesis a una cola superior, quedando el nivel de
significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.2
Figura 3.2 Regla de decisión para una prueba de hipótesis a una cola superior.
pertenece a una distribución normal estándar. Si el valor de la estadística de trabajo
(Zx) es menor que no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir,
Si se ha planteado la hipótesis alternativa como:
H1 : < k, se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de
significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.3
Figura 3.3 Regla de decisión para una prueba de hipótesis a una cola inferior.
Z pertenece a una distribución normal estándar. Si el valor de la estadística de trabajo (Zx) es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir,
EJEMPLO
Un proceso manufacturero usado por una fábrica durante los últimos años da una producción
media de 100 unidades por hora con una desviación estándar de 8 unidades. Se acaba de
introducir en el mercado una nueva máquina para realizar ese tipo de producto. Aunque es muy cara comparada con la que está ahora en uso, si la media de producción de la nueva máquina es de más de 150 unidades por hora, su adopción daría bastantes beneficios.
Para decidir si se debiera comprar la nueva máquina, a la gerencia de la fábrica se le permite hacer un ensayo durante 35 horas, hallándose un promedio de 160 unidades por hora. Con ésta información qué decisión se debe tomar si se asume un nivel de confianza del 99 por ciento.
Solución .
Según el enunciado, solo se compra la máquina si la producción es de mas de 150 unidades por hora, por lo tanto las hipótesis son:
H0 : = 150
H1 : > 150
Para elegir la estadística de trabajo se tiene en cuenta que se conoce la varianza poblacional,
por lo tanto se usa la expresión 3.1
por el planteamiento de la hipótesis alternativa se trabaja a una cola superior. En la distribución normal, con una confiabilidad del 99 por ciento el valor de Z es 2,33. como puede observarse en la figura 3.4, la estadística de trabajo está en la zona de rechazo de la hipótesis nula, por lo tanto, se acepta que la producción promedio por hora es superior a las 150 unidades y asumiendo un riesgo del 1 por ciento se puede comprar la nueva máquina.
Figura 3.4 Regla de desición para una prueba de hipótesis a una cola inferior.
3.2.2 Prueba de hipótesis para la media si se selecciona una muestra aleatoria de
tamaño n 30 de una población con cualquier distribución.
La estadística de trabajo a usar es la expresión (1.7):
REGLA DE DECISION
Es la misma que en el caso anterior y depende en todo caso de la hipótesis alternativa.
EJEMPLO
La duración promedio de las llantas producidas por una fábrica de llantas, según experiencias registradas es de 46.050 kms. Se desea probar si el promedio poblacional ha cambiado; para tal efecto se toma una muestra aleatoria de 60 llantas y se obtiene una duración promedio de 45.050 kms. con una desviación estándar de 3.070 kms.
Solución
H 0 : = 46.050
H1 : 46.050
Teniendo en cuenta que el tamaño de la muestra es grande, como estadística de trabajo se
utiliza la expresión 3.2
Por la hipótesis alternativa, la regla de decisión es a dos colas. La tabla a utilizar es la de la distribución normal. Asumiendo un nivel de confianza del 95 por ciento, los correspondientes valores de Z son -1,96 y 1,96. Como puede observarse en la figura 3.5, el valor de la estadística de trabajo está en la zona de rechazo de la hipótesis nula, por consiguiente, con una confiabilidad del 95 por ciento se acepta que la duración promedio de las llantas ha cambiado.
Figura 3.5 Regla de decisión para una prueba de hipótesis a dos colas
3.2.3 Prueba de hipótesis para la media si se selecciona una muestra aleatoria de tamaño n<30 .
En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o corregida.
• Si se utiliza la varianza sin corregir ( ) la estadística de trabajo es la expresión (1.8):
(3.3)
• Si se utiliza la varianza corregida la estadística de trabajo es la expresión (1.9):
(3.4)
EJEMPLO
En su calidad de comprador comercial para un supermercado, se toma una muestra aleatoria
de doce (12) sobres de café de una empacadora. Se encuentra que el peso promedio del
contenido de café de cada sobre es 15,97 grs. con una desviación estándar de 0,15. La
compañía empacadora afirma que el peso promedio mínimo del café es de 16 grs. por sobre.
Puede aceptarse ésta afirmación si se asume un nivel de confianza del 90 por ciento?
Solución
Se desea probar si el peso mínimo es de 16 grs., es decir mayor o igual a 16 grs., así que las hiipótesis adecuadas son:
H0 : 16
H1 : < 16
Teniendo en cuenta que el tamaño de la muestra es pequeño, como estadística de trabajo se utiliza la expresión 3.3
Teniendo en cuenta que el tamaño de la muestra es pequeño, como estadística de trabajo se utiliza la expresión 3.3
Como lo indica la hipótesis alternativa, se trabaja a una cola inferior en la tabla de la distribución t con 11 grados de libertad y una confiabilidad del 90 por ciento, el valor de Z es - 1,363
Como puede observarse (figura 3.6), la estadística de trabajo (-0,663) está ubicada en la zona de no rechazo de la hipótesis nula, por lo tanto, con un nivel de confianza del 90 por ciento no se rechaza que los empacadores de café tienen la razón, por lo tanto se concluye que el peso promedio de los sobres de café es mayor o igual a 16 grs.
Figura 3.6 Regla de decisión para una prueba de hipótesis a una cola inferior
PRUEBA DE HIPOTESIS DE LA PROPORCION
Frecuentemente se desea estimar la proporción de elementos que tienen una característica determinada, en tal caso, las observaciones son de naturaleza cualitativa. Cuando se analiza información cualitativa y se está interesado en verificar un supuesto acerca de la proporción
poblacional de elementos que tienen determinada característica, es útil trabajar con la
prueba de hipótesis para la proporción.
HIPÓTESIS
Como en el caso de la media, se puede plantear uno de los siguientes tres tipos de hipótesis:
- Prueba de hipótesis a dos colas
H0 : = k
H1 : k
- Prueba de hipótesis a una cola superior
H0 : = k ó H0 : k
H1 : > k ó H1 : > k
- Prueba de hipótesis a una cola inferior
H0 : = k ó H0 : k
H1: < k ó H1 : < k
Cuando se va a estimar una proporción el tamaño de la muestra (n) siempre debe ser mayor a 30, por lo tanto se tiene un solo caso.
La estadística de trabajo a utilizar es la expresión (1.13):
(3.5)
REGLA DE DECISION
Si se ha planteado la hipótesis alternativa como:
H1: k se tiene una prueba de hipótesis a dos colas, por lo tanto, el nivel de significancia (
) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.1
y pertenecen a una distribución normal estándar. Si el valor de la estadística de
trabajo (Zp) está entre y no se rechaza la hipótesis nula, en caso contrario se
rechaza H0 lo cual implica aceptar H1 . Es decir, si < Zp < no se rechaza H0 .
- Si se ha planteado la hipótesis alternativa como:
H1 : > k, se tiene una prueba de hipótesis a una cola superior, quedando el nivel de
significancia ( ) en la parte superior de la distribución, vease figura 3.2
pertenece a una distribución normal estándar. Si el valor de la estadística de trabajo (Zp )
es menor que no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual
implica aceptar H1 . Es decir, si Zp < no se rechaza H0 .
- Si se ha planteado la hipótesis alternativa como:
H1 : < k, se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de
significancia ( ) en la parte inferior de la distribución, vease figura 3.3
Z pertenece a una distribución normal estándar. Si el valor de la estadística de trabajo (Zp )
es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual
implica aceptar H1 . Es decir, si Zp > Z no se rechaza H0 .
EJEMPLO
Un fabricante afirma que por lo menos el 90 por ciento de las piezas de una maquinaria que suministra a una fábrica guardan las formas especificadas. Un exámen de 200 de esas piezas reveló que 160 de ellas no eran defectuosas. Pruebe si lo que afirma el fabricante es cierto.
Solución
H0 : 0,9
H1 : < 0,9
Para realizar una prueba de hipótesis para la proporción se utiliza la expresión 3.5
Asumiendo una confiabilidad del 95 por ciento, el valor correspondiente a Z en la distribución normal es -1,64
Como puede observarse en la figura 3.7, el valor de la estadística de trabajo se encuentra en la zona de rechazo de la hipótesis nula, por consiguiente, con una confiabilidad del 95 por ciento se concluye que la afirmación del fabricante no es cierta.
Figura 3.7 Regla de decisión para una prueba de hipótesis a una cola inferior
PRUEBA DE HIPOTSIS DE LA VARIANZA
Es frecuente que se desee comprobar si la variación o dispersión de una variable ha tenido alguna modificación, lo cual se hace con la prueba de hipótesis para la varianza.
Hipótesis
Se puede plantear uno de los siguientes tres tipos de hipótesis:
- Prueba de hipótesis a dos colas
H0 : = k
H1 : k
- Prueba de hipótesis a una cola superior
H0 : = k ó H0 : k
H1 : > k ó H1 : > k
- Prueba de hipótesis a una cola inferior
H0 : = k ó H1 : k
H1 : < k ó H1 : < k
En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o corregida.
• Si se utiliza la varianza sin corregir ( ) la estadística de trabajo es la expresión (1.4):
(3.6)
• Si se utiliza la varianza corregida, la estadística de trabajo es la expresión (1.5):
(3.7)
REGLA DE DECISION
- Si se ha planteado la hipótesis alternativa como:
H1 : k se tiene una prueba de hipótesis a dos colas, por lo tanto, el nivel de significancia
( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.8
Figura 3.8 Regla de decisión para una prueba de hipótesis a dos colas
y pertenecen a una distribución X2 con (n-1) grado de libertad. Si el valor de la
estadística de trabajo (T) está entre y no se rechaza la hipótesis nula, en caso
contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si < T < no se rechaza H0.
- Si se ha planteado la hipótesis alternativa como:
H1 : > k, se tiene una prueba de hipótesis a una cola superior, quedando el nivel de
significancia ( ) en la parte superior de la distribución, vease figura 3.9
Figura 3.9 Regla de decisión para una prueba de hipótesis a una cola superior
Z1- pertenece a una distribución X2 con (n-1) grado de libertad. Si el valor de la estadística
de trabajo (T) es menor que no se rechaza la hipótesis nula, en caso contrario se
rechaza H0 lo cual implica aceptar H1 . Es decir, si T < no se rechaza H0 .
- Si se ha planteado la hipótesis alternativa como:
H1 : < k, se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de
significancia ( ) en la parte inferior de la distribución, vease figura 3.10
Figura 3.10 Regla de decisión para una prueba de hipótesis a una cola inferior
Z pertenece a una distribución X2 con (n-1) grado de libertad. Si el valor de la estadística
de trabajo (T) es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza
H0 lo cual implica aceptar H1 . Es decir, si T >Z no se rechaza H0.
EJEMPLO
Se supone que los diámetros de cierta marca de válvulas están distribuídos normalmente con una varianza poblacional de 0,2 pulgadas² , pero se cree que últimamente ha aumentado.
Se toma una muestra aleatoria de válvulas a las que se les mide su diámetro, obteniéndose los siguientes resultados en pulgadas: 5,5 5,4 5,4 5,6 5,8 5,4 5,5 5,4 5,6 5,7
Con ésta información pruebe si lo que se cree es cierto.
Solución
Se cree que la varianza poblacional ha aumentado, es decir es superior a 0,2; por lo tanto:
H0 : = 0,2
H1 : > 0,2
Para realizar esta prueba de hipótesis se utiliza la expresión 3.6
Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribución chi-cuadrado
con 9 grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura 3.11, el valor de la estadística de trabajo se ubica en la zona de no rechazo de la hipótesis nula, por consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional no ha aumentado.
Figura 3.11 Regla de decisión para una prueba de hipótesis a una cola superior
PRUEBA DE HIPOTESIS COCIENTE DE VARIANZAS
Si de dos poblaciones con distribución normal se seleccionan dos muestras aleatorias
independientes de tamaños n1 y n2 , se puede comparar la homogeneidad o variabilidad de dichas poblaciones a través de una prueba de hipótesis para el cociente de varianzas.
Cuando se planteen las hipótesis debe quedar en el numerador la población cuya muestra tenga mayor varianza. Es decir que la población 1 será la que tenga mayor varianza muestral.
Hipótesis
Se puede plantear uno de los siguientes tres tipos de hipótesis:
- Prueba de hipótesis a dos colas
H0 : = ó H0 : / = 1
H1 : ó H1 : / 1
- Prueba de hipótesis a una cola superior
H0 : = ó H0 : / 1
H1 : > ó H1 : / > 1
- Prueba de hipótesis a una cola inferior
H0 : = ó H0 : / 1
H1 : < ó H1 : / < 1
La estadística de trabajo es la expresión (1.15)
(3.8)
REGLA DE DECISION
Si se ha planteado la hipótesis alternativa como:
H1 : ó H1 : / 1 se tiene una prueba de hipótesis a dos colas, por lo tanto, el
nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.8
y pertenecen a una distribución F con (n1 -1) grado de libertad en el numerador y
(n2-1) grado de libertad en el denominador. Si el valor de la estadística de trabajo (T) está
entre y no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual
implica aceptar H1 . Es decir, si < T < no se rechaza H0 .
- Si se ha planteado la hipótesis alternativa como:
H1 : > ó H1 : / > 1 , se tiene una prueba de hipótesis a una cola superior,
quedando el nivel de significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.9
Z 1- a pertenece a una distribución F con (n 1 -1) grado de libertad en el numerador y (n 2 -1) grado de libertad en el denominador. Si el valor de la estadística de trabajo (T) es menor que Z 1- a no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T < Z 1- a no se rechaza H o .
- Si se ha planteado la hipótesis alternativa como:
H1 : < ó H1 : / < 1 , se tiene una prueba de hipótesis a una cola inferior,
quedando el nivel de significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.10
Z a pertenece a una distribución F con (n1 -1) grado de libertad en el numerador y (n2 -1) grado de libertad en el denominador. Si el valor de la estadística de trabajo (T) es mayor que Z a no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T > Z a no se rechaza H0 .
EJEMPLO
Dos fuentes de materias primas están siendo consideradas. Ambas fuentes parecen tener características similares, pero no se está seguro de su homogeneidad. Una muestra de 10
grupos de la fuente A produce una varianza de 250 y una muestra de 11 grupos de la fuente B produce una varianza de 195. Con base en ésta información se puede concluir que la varianza de la fuente A es significativamente mayor que la de la fuente B?. Asuma un nivel de confianza del 99 por ciento.
Solución
H 0 : A = B
H1 : A > B
Con un nivel de confianza del 99 por ciento, en la tabla de la distribución F con 9 grados de libertad en el numerador y 10 grados de libertad en el denominador, se obtiene un valor para Z de 4,94. Como puede observarse en la figura 3.12, el valor de la estadística de trabajo está en la zona de no rechazo de la hipótesis nula, por lo tanto, con una confiabilidad del 99 por ciento, no se puede rechazar que la variabilidad de las dos fuentes de materia prima es igual.
Figura 3.12 Regla de decisión para una prueba de Hipótesis a una cola superior
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE MEDIAS
Se tienen dos poblaciones y se toman muestras aleatorias independientes de tamaños n 1 y n 2 , se puede comparar el comportamiento de dichas poblaciones a través de los promedios.
Hipótesis
Como en los casos anteriores se puede plantear uno de los siguientes tres tipos de hipótesis:
- Prueba de hipótesis a dos colas
H0 : = ó H0 : - = k
H1 : ó H1 : - k
- Prueba de hipótesis a una cola superior
H0 : = ó H0 : - k
H1 : > ó H1 : - > k
- Prueba de hipótesis a una cola inferior
H0 : = ó H0 : - k
H1 : < ó H1 : - < k
La estadística de trabajo depende de las características de las poblaciones y del tamaño de
las muestras.
3.6.1 . Prueba de hipótesis para la diferencia de medias, si las
muestras se obtienen de poblaciones con distribución normal, con varianzas poblacionales conocidas , la estadística de trabajo es la expresión
(1.10):
(3.9)
REGLA DE DECISION
- Si se ha planteado la hipótesis alternativa como:
H1 : > ó H1 : - > k se tiene una prueba de hipótesis a dos colas, por lo tanto, el
nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.1
y pertenecen a una distribución Normal estándar. Si el valor de la estadística de
trabajo está entre y no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir,
- Si se ha planteado la hipótesis alternativa como:
H1 : > ó H1 : - > k, se tiene una prueba de hipótesis a una cola superior, quedando
el nivel de significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.2
pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo es
menor que se acepta la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H<sub>1 . Es decir,
- Si se ha planteado la hipótesis alternativa como:
H1 : < ó H1 : - < k, se tiene una prueba de hipótesis a una cola inferior, quedando
el nivel de significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.3
Z pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo es
mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir,
EJEMPLO
Un constructor está considerando dos lugares alternativos para construir un centro
comercial. Como los ingresos de los hogares de la comunidad son una consideración importante en ésta selección, desea probar que el ingreso promedio de la primera comunidad excede al promedio de la segunda comunidad en cuando menos $1.500 diarios. Con la información de un censo realizado el año anterior sabe que la desviación estándar del ingreso diario de la primera comunidad es de $1.800 y la de la segunda es de $2.400
Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra que el ingreso diario promedio es de $35.500 y con una muestra de 40 hogares de la segunda comunidad el ingreso promedio diario es de $34.600. Pruebe la hipótesis con un nivel de confianza del 95 por ciento.
Solución
Se desea probar si la diferencia entre los ingresos de la comunidad 1 y la 2 es de $1.500 o más, por lo tanto:
H0 : - 1.500
H1 : - < 1.500
El tamaño de las muestras es grande y las varianzas poblacionales son conocidas, por consiguiente la estadística de trabajo a utilizar es la expresión 3.9
Para un nivel de confianza del 95 por ciento, en la tabla de la distribución normal se tiene un valor de Z de -1,64. Como puede observarse en la figura 3.13, la estadística de trabajo se ubica en la zona de aceptación de la hipótesis nula; por lo tanto, con una confiabilidad del 95 por ciento, la diferencia entre el ingreso promedio por hogar en las dos comunidades es mayor a $1.500 diarios.
Figura 3.13 Regla de decisión para una prueba de hipótesis a una cola inferior
3.6.2 Prueba de hipótesis para la diferencia de medias si las
muestras se obtienen de poblaciones con distribuciones diferentes a la normal, pero n1 30 y n2 30 y varianzas poblacionales
desconocidas , la estadística de trabajo es igual al caso anterior, solo que se reemplaza
la varianza poblacional por la muestral:
(3.10)
REGLA DE DECISIÓN
La regla de decisión es la misma que en caso anterior y en todo caso, depende de la hipótesis alternativa.
EJEMPLO
Una muestra de 80 alambres de acero producidos por la fábrica A presenta una resistencia promedio a la ruptura de 1.230 lbs . con una desviación estándar de 120 lbs .. Una muestra
de 100 alambres de acero producidos por la fábrica B presenta una resistencia promedio a la ruptura de 1.110 lbs . con una desviación estándar de 90 lbs .. Con base en ésta información pruebe si la resistencia promedio a la rotura de los alambres de acero de la marca A es significativamente mayor que la de los alambres de acero de la marca B. Asuma un nivel de confianza del 99 por ciento.
Solución
H0 : A = B
H1 : A > B
El tamaño de las muestras es grande, las varianzas poblacionales son desconocidas, por la tanto la estadística de trabajo a utilizar es la expresión 3.10
Con un nivel del confianza del 99 por ciento, en la tabla de la distribución normal el valor de Z es 2,33. como puede observarse en la figura 3.14, la estadística de trabajo está en la zona
de rechazo de la hipótesis nula, por consiguiente, con una confiabilidad del 99 por ciento se acepta que la resistencia promedio de los alambres de la marca A es significativamente mayor que la resistencia promedio de los alambres de la marca B.
Figura 3.14 Regla de decisión para una prueba de hipótesis a una cola superior
3.6.3 Prueba de hipótesis para la diferencia de medias si las
muestras se obtienen de poblaciones con distribución normal, con varianzas poblacionales iguales pero desconocidas y n1 <30 y n2 <30 , la estadística de trabajo es la expresión (1.11):
(3.11)
REGLA DE DECISIÓN
La regla de decisión es la misma que en los casos anteriores, pero los valores de la tabla se hallan en una distribución t con (n1 +n2-2) grados de libertad.
Nota . Cuando se tienen muestras pequeñas y se va a realizar una prueba de hipótesis para
la diferencia de medias, primero se debe probar si las varianzas poblacionales son iguales o diferentes, lo cual se hace con la prueba de hipótesis para el cociente de varianzas. Si las varianzas son iguales se aplica el caso 3.6.3 y si son diferentes se aplica el caso 3.6.4.
EJEMPLO
Se desea probar si la cantidad promedio de cera superficial en el lado interno (I) de las bolsas de papel encerado es mayor que la cantidad promedio en el lado externo (E). Para tal efecto se tomó una muestra aleatoria de 25 bolsas, midiéndose la cantidad de cera en cada lado de esas bolsas, obteniéndose los siguientes resultados:
Con base en esta información cuál es su conclusión?. Asuma un nivel de confianza del 90 por ciento.
Solución
Con la información suministrada se obtienen los estimadores necesarios:
En consideración a que el tamaño de las muestras es pequeño, antes de realizar la prueba de
hipótesis para la diferencia de medias, se debe probar si las varianzas poblacionales son iguales o diferentes.
H0 : / = 1
H1 : / 1
Para la estadística de trabajo se utiliza la expresión 3.8:
Con una confiabilidad del 90 por ciento, en la tabla de la distribución F con 24 grados de libertad en el numerador y 24 grados de libertad en el denominador, el valor de Z 0,05 es
0,505 y el valor de Z 0,95 es 1,98. como puede observarse en la figura 3.15, la estadística de trabajo cae en la zona de no rechazo de la hipótesis nula, por consiguiente las varianzas poblacionales son iguales.
Como las varianzas poblacionales son iguales, para realizar la prueba de hipótesis para la diferencia de medias se usa la expresión 3.11
H0 : I E
H1 : I > E
Con una confiabilidad del 90 por ciento, en la tabla de la distribución t con 48 grados de
libertad, el valor de Z es 1,3. Como puede observarse en la figura 3.16, la estadística de trabajo se encuentra en la zona de no rechazo de la hipótesis nula, por lo tanto, con una confiabilidad del 90 por ciento se concluye que la cantidad promedio de cera en el lado interno no es mayor que la cantidad promedio de cera en el lado externo.
Figura 3.16 Regla de decisión para una prueba de hipótesis a una cola superior
3.6.4 Prueba de hipótesis para la diferencia de medias si las muestras se obtienen de poblaciones con distribución normal, con varianzas poblacionales diferentes pero desconocidas y n1 <30 y n2
<30 , la estadística de trabajo es la expresión (1.12):
(3.12)
REGLA DE DECISIÓN
La regla de decisión es la misma que en los casos anteriores pero los valores de la tabla se hallan en una distribución t con k grados de libertad, siendo:
(3.13)
EJEMPLO
Un fabricante de bombillos sospecha que una de sus líneas de producción está produciendo bombillos con una duración promedio menor que la de otra línea. Para probar su sospecha
toma una muestra aleatoria de 16 bombillos de la línea sospechosa (s) y 18 de la otra línea (c), obteniendo los siguientes resultados:
Con ésta información cuál es su conclusión si se asume un nivel de confianza del 90 por ciento.
Solución
Como el tamaño de las muestras es pequeño, para decidir cuál es la estadística de trabajo
adecuada para la prueba de hipótesis de la diferencia de medias, primero se debe probar si las varianzas poblacionales son iguales o no.
H0 : / = 1
H1 : / 1
La estadística de trabajo es:
Con una confiabilidad del 90 por ciento, en la tabla de la distribución F con 15 grados de libertad en el numerador y 17 grados de libertad en el denominador, el valor de Z 0,05 es
0,43 y el valor de Z 0,95 es 2,31. como puede observarse en la figura 3.17, la estadística de
trabajo cae en la zona de rechazo de la hipótesis nula, por consiguiente las varianzas poblacionales son diferentes.
Figura 3.17 Regla de decisión para una prueba de hipótesis a dos colas
Considerando que las varianzas poblacionales son diferentes, la estadística de trabajo a utilizar para la prueba de hipótesis para la diferencia de medias es la expresión 3.12
H0 : S = C
H1 : S < C
La estadística de trabajo es:
Con la expresión 3.13 se calculan los grados de libertad de la distribución t
En la tabla de la distribución t, con 26 grados de libertad y una confiabilidad del 90 por ciento, el valor de Z es -1,315. Como se observa en la figura 3.18, la estadística de trabajo cae en la zona de no rechazo de la hipótesis nula, por lo tanto, con una confiabilidad del 90 por ciento se concluye que no hay diferencia en el promedio de producción de las dos líneas.
Figura 3.18 Regla de decisión para una prueba de hipótesis a una cola inferior
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE PROPORCIONES
Cuando se tienen dos poblaciones y se han tomado muestras aleatorias de tamaños n 1 y n
2, para observar una característica o cualidad, se puede comparar el comportamiento de dicha característica en las poblaciones a través de la diferencia de proporciones.
Hipótesis
Como en los casos anteriores se puede plantear uno de los siguientes tres tipos de hipótesis:
- Prueba de hipótesis a dos colas
H0 : 1 = 2 ó H0 : 1 - 2 = k
H1 : 1 2 H1 : 1 - 2 k
- Prueba de hipótesis a una cola superior
H0 : 1 = 2 ó H0 : 1 - 2 k
H1 : 1 > 2 H1 : 1 - 2 > k
- Prueba de hipótesis a una cola inferior
H0 : 1 = 2 ó H0 : 1 - 2 k
H1 : 1 < 2 H1 : 1 - 2 < k
La estadística de trabajo es la expresión 1.14:
(3.14)
REGLA DE DECISION
Como en los casos anteriores depende del tipo de hipótesis que se haya planteado.
- Si se ha planteado la hipótesis alternativa como:
H1 : 1 2 ó H1 : p 1 - p 2 ¹ k se tiene una prueba de hipótesis a dos colas, por lo tanto, el
nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.1
y pertenecen a una distribución Normal estándar. Si el valor de la estadística de
trabajo (Zp1-p2 ) está entre y no se rechaza la hipótesis nula, en caso contrario se
rechaza H0 lo cual implica aceptar H1 . Es decir, si < Zp1-p2 < no se rechaza H0 .
- Si se ha planteado la hipótesis alternativa como:
H1 : 1 > 2 ó H1 : 1 - 2 > k, se tiene una prueba de hipótesis a una cola superior,
quedando el nivel de significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.2
pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo es
menor que no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual
implica aceptar H1 . Es decir, si Zp1-p2 < no se rechaza H0 .
- Si se ha planteado la hipótesis alternativa como:
H1 : 1 < 2 ó H1 : 1 - 2 < k, se tiene una prueba de hipótesis a una cola inferior,
quedando el nivel de significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.3
Z pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo
(Zp1-p2) es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo
cual implica aceptar H1 . Es decir, si Zp1-p2 > Z no se rechaza H0 .
EJEMPLO
Se seleccionó una muestra aleatoria de 100 hombres y 100 mujeres de un departamento de Colombia; se halló que de los hombres 60 estaban a favor de una ley de divorcio y de las
mujeres 55 estaban a favor de dicha ley. Con base en ésta información, pruebe que la proporción de hombres que favorece ésta ley es mayor que la proporción de mujeres. Asuma un nivel de confianza del 99 por ciento.
Solución
H0 : H = M
H1 : H > M
Se utiliza la expresión 3.14
Por la hipótesis alternativa se trabaja a una cola superior. En la tabla de la distribución normal con una confiabilidad del 99 por ciento, el valor de Z es 2,33. La estadística de trabajo está en la zona de no rechazo de la hipótesis nula (figura 3.19), es decir, con una
seguridad del 99 por ciento se concluye que no hay diferencia en la proporción de hombres y mujeres que favorecen la ley de divorcio.
Figura 3.19 Regla de decisión para una prueba de hipótesis a una cola superior
REGRESION Y CORRELACION
Cuando se posee información acerca de dos o más variables relacionadas, es natural buscar un modo de expresar la forma de la relación funcional entre ellas. Además, es deseable conocer la consistencia de la relación. Es decir, no se busca solamente una relación matemática que nos diga de qué manera están relacionadas las variables, sino que se desea saber también con qué precisión se puede predecir o pronosticar el valor de una variable, si se conocen o suponen valores para las otras variables. Las técnicas usadas para lograr estos dos objetivos se conocen como método de regresión y correlación.
Los métodos de regresión se usan para elegir la "mejor" relación funcional entre las variables, es decir, la función o ecuación que mejor se ajuste a los datos. Mientras que los
métodos de correlación se utilizan para medir el grado de asociación o de relación entre las distintas variables.
Se debe tener en cuenta que la única persona que puede decir con seguridad, que las variables básicas son las que se están utilizando y que el mecanismo básico opera de acuerdo con la función matemática elegida, es una persona bien entrenada en el asunto o campo en el cual se está investigando. El análisis estadístico es solamente un instrumento que ayuda en el análisis e interpretación de los datos.
METODOLOGIA
Para dar un ejemplo de la metodología, consideramos la teoría Keynesiana del consumo1: los
hombres están dispuestos, por regla general y en promedio, a aumentar su consumo a
medida que su ingreso crece, aunque no tanto como el crecimiento de dicho ingreso.
Especificación del modelo . Aunque Keynes postula una relación positiva entre consumo e
ingreso, no especifica la forma precisa de la relación funcional entre las dos variables,
entonces se puede sugerir la siguiente forma para la función de consumo de Keynes:
Y = + X
donde:
Y: son los gastos de consumo
X: ingreso
y parámetros, siendo la pendiente o propensión marginal a consumir.
Estimación : especificado el modelo, se hacen las estimaciones de los parámetros del
modelo a partir de los datos disponibles.
Verificación : Una vez obtenidas las estimaciones de los parámetros, se establece si las
estimaciones obtenidas están de acuerdo con lo que se espera de la teoría que se está
verificando.
Predicciones : La ecuación obtenida se utiliza para predecir el valor futuro de la variable
dependiente con base en valores supuestos para la variable independiente.
MODELO LINEAL SIMPLE
4.2.1 Función de regresión poblacional
Una función de regresión poblacional es la unión de los promedios condicionales de la variable dependiente (Y) para los valores fijos de la variable independiente o explicativa (X), así que:
E(Y/Xi ) = f(Xi )
Si E(Y/Xi ) es una función lineal de Xi , se tiene:
E(Y/Xi ) = + Xi
Lo cual nos indica que el valor promedio de Y varía con X. y se denominan coeficientes
de regresión y específicamente, coeficiente de intersección y la pendiente. La ecuación anterior se conoce como función de regresión poblacional.
Para un valor dado de Xi , los valores de Y se concentran alrededor del promedio de Y, lo cual indica que se van a presentar algunas diferencias o desviaciones de un valor individual de Yi alrededor de su valor esperado, por lo tanto:
Y i = E(Y/Xi ) + ui
Donde ui es una variable aleatoria que toma valores positivos o negativos. Esta ui se puede considerar como una variable sustitutiva de todas las variables omitidas que pueden afectar a Y, pero que por una u otra razón no pudieron incluirse en el modelo de regresión.
Reemplazando el E(Y/Xi ) se tiene:
Y i = + Xi + ui
que es la función de regresión poblacional.
4.2.2 Función de regresión muestral
Generalmente es necesario trabajar con información muestral y no poblacional, por lo tanto, se plantea una ecuación que nos permita estimar los valores de E(Y/X i ), b 0 , b 1 y u i ; así que el objetivo es estimar la función de regresión poblacional con base en la función de regresión muestral:
El caso más simple de regresión es cuando se tienen dos variables (una dependiente y una independiente o explicativa), es decir, n parejas de datos.
Una vez especificadas las variables es necesario determinar la relación entre ellas, de la cual se puede tener una idea general, graficando las variables en un sistema de coordenadas, en donde, en el eje de las abcisas se ubica la variable independiente y en el de las ordenadas la variable dependiente; esta gráfica se llama nube de puntos .
La relación más sencilla es la lineal, la función de regresión poblacional es:
Yi = + Xi + ui
La cual no se puede observar directamente, por lo tanto, la estimamos a partir de la función
de regresión muestral:
Donde:
El significado gráfico de estos coeficientes aparece en la figura 4.1.
Debido a que los valores observados no forman exactamente una línea recta, es necesario
elegir un método para estimar los coeficientes de regresión que haga mínima la diferencia entre los valores observados y los estimados o ajustados, este método es el de los mínimos cuadrados, (el procedimiento para obtener estos coeficientes se halla en el anexo A) el cual proporciona las ecuaciones 4.2 y 4.3:
Figura 4.1 Representación gráfica de los coeficientes de regresión y
Interpretación de los coeficientes de regresión:
Es el valor promedio de la variable dependiente cuando la independiente vale cero. También se interpreta como el efecto promedio sobre la variable dependiente de todas las variables omitidas en el modelo de regresión.
Cuando el valor del coeficiente de intersección sea negativo y su interpretación no sea lógica, se interpreta como cero, pero para efectos de proyección se deja el valor obtenido.
Si la relación entre las variables es directa y mide el incremento de la variable
dependiente por cada aumento de una unidad en la variable independiente. Si la
relación entre las variables es inversa y mide el decremento de la variable dependiente por cada aumento de una unidad en la variable independiente o viceversa.
4.2.3 Supuestos teóricos del método de los mínimos cuadrados
Los supuestos teóricos generales bajo los cuales se ha desarrollado la teoría de la regresión se presentan a continuación:
1. El valor promedio de los errores es igual a cero; E(ei /Xi ) = 0
2. No existe autocorrelación entre los errores; por lo tanto la covarianza (Cov) de los errores es igual a cero, Cov (ei , ej ) = 0 , lo cual implica que no existe autocorrelación en la variable dependiente, es decir, Cov (Yi , Yj ) = 0.
3. La varianza de los errores es constante, es decir existe la homocedasticidad V(ei /Xi ) =
, lo cual implica que V(Yi /Xi ) =
4. No existe correlación entre los errores (ei ) y la variable independiente X, por lo tanto:
Cov (ei , Xi ) = 0
5. El modelo de regresión está correctamente especificado tanto en la forma funcional como en las variables que están en el modelo.
La explicación sobre estos supuestos y sus implicaciones, se trata en el apartado 4.5.
4.2.4 Coeficiente de determinación
El objetivo principal del análisis de regresión es proyectar el valor de la variable dependiente
conociendo o suponiendo valores para la variable independiente. La confiabilidad de las
proyecciones está dada por la confiabilidad de la ecuación, la cual se mide a través del
coeficiente de determinación y de los errores de los coeficientes de regresión. El coeficiente
de determinación (R2 ) nos dice qué tanto se ajusta la línea de regresión a los datos.
Figura 4.2 Descomposición de la variación de Y
Para deducir este coeficiente se tiene en cuenta la figura 4.2 en donde se tiene la ecuación
ajustada a unos datos. Para un valor dado de X se ha tomado el correspondiente valor de Y.
La distancia que hay entre el valor observado y la media , puede descomponerse en dos partes que son: la distancia entre el valor observado y el estimado con la ecuación de
regresión y la distancia entre el valor estimado y el promedio , es decir:
Siendo:
: Distancia Total.
: Distancia de una observación a la regresión o residuo
: Distancia de la línea de regresión a la media o distancia de la regresión
Como se tienen n observaciones, para cada caso se presenta la misma situación, por lo tanto
se toma la suma de estas distancias al cuadrado:
En el anexo B se presenta la demostración de que:
Es decir: SCT = SCR + SCE (4.4)
Lo cual indica que la SCT puede descomponerse en dos partes, una describe la variación de
los residuos (SCR) y representa aquella parte de la SCT que no ha sido explicada por la
ayuda de X y la otra parte describe los valores ajustados de Y, es decir, representa aquella
porción de la SCT que ha sido explicada por la regresión de Y sobre X.
Dividiendo la ecuación 4.4 por SCT se obtiene:
El segundo término es el coeficiente de determinación, así que:
Donde:
Como puede observarse, el coeficiente de determinación es la proporción de la variable
dependiente explicada por la variable independiente y por lo tanto está entre 0 y 1. Es decir:
0 £ R 2 £ 1.
A medida que el R 2 se acerca a 1, la ecuación de regresión es más confiable, ya que de la
expresión 4.5 se deduce que la SCR tiende a cero y entre más cercano esté el R 2 de cero, la
ecuación es menos confiable ya que la SCE tiende a cero.
Una medida estrechamente relacionada a R 2 pero conceptualmente diferente es el
coeficiente de correlación (R) que es una medida del grado de asociación entre dos
variables. Puede calcularse como:
Donde: Sx y Sy son las desviaciones estándar de X y Y respectivamente.
A continuación se presentan algunas propiedades del coeficiente de correlación (R):
- -1 R 1
- El signo de R depende del signo de la covarianza o de la pendiente ( )
- R es de naturaleza simétrica; lo anterior implica que el coeficiente de correlación entre X y
Y (Rxy ) es igual al coeficiente de correlación entre Y y X (Rxy ).
- Si X y Y son estadísticamente independientes, el coeficiente de correlación entre ellos es
cero, pero si R=0, no se puede inferir que las dos variables sean independientes. En otras
palabras, una correlación igual a cero no implica necesariamente independencia.
- Es una medida de asociación lineal o dependencia lineal únicamente; por consiguiente
no tiene sentido, utilizarlo para describir relaciones no lineales.
En el contexto del análisis de regresión, R2 es una medida más significativa que R, debido a
que el primero muestra la proporción de la varianza en la variable dependiente explicada por
la(s) variable(s) explicativa(s) y, por tanto, proporciona una medida global de la magnitud
del efecto que ejerce la variación existente en una variable sobre la variabilidad de la otra.
De otro lado R no nos permite realizar inferencias de este género. Además, la interpretación
de R en un modelo de regresión múltiple es de un valor dudoso"1
El coeficiente de determinación (R2) es útil para evaluar la ecuación de regresión
integralmente, pero es necesario evaluar la confiabilidad de cada uno de los coeficientes de
regresión, lo cual se hace con los errores de estos coeficientes y más específicamente con las
pruebas de hipótesis para cada uno de ellos.
4.2.6 Prueba de hipótesis para los coeficientes de regresion regresion
Como en toda prueba de hipótesis, lo primero que se hace es plantear las hipótesis:
H0 : = 0 (equivalente a decir que la variable Xi no se necesita en el modelo)
H1 : 0 (equivalente a decir que la variable Xi se necesita en el modelo)
Estadística de trabajo:
Regla de decisión (figura 4.3): si < T < se acepta la hipótesis nula, en caso contrario
se rechaza la hipótesis nula. Si el tamaño de la muestra es grande (n 30) los valores de Z se hallan en una tabla de la distribución normal. Si el tamaño de la muestra es pequeño (n < 30) los valores de Z se hallan en una tabla de la distribución t con n-2 grados de libertad.
NOTA : Si la prueba de hipótesis es para , en la hipótesis nula se está planteando que no
es necesario el coeficiente de intersección en el modelo.
Una vez evaluado el modelo de regresión a través del coeficiente de determinación y de las
pruebas de hipótesis, es útil construir un intervalo de confianza para la pendiente ( ), ya
que el valor que se obtiene en el modelo de regresión para , es un estimador puntual
El intervalo de confianza para es:
Como en la prueba de hipótesis, el valor de Z se halla en la distribución normal si n ³ 30 y si n < 30 en la distribución t con n-2 grados de libertad.
Este intervalo se interpreta como los valores dentro de los cuales aumentará (si o
disminuirá si la variable dependiente (Y) por cada aumento de una unidad en la
variable independiente (X), con un nivel de confianza del (1- ) por ciento.
4.2.7 Proyección media
El principal objetivo del análisis de regresión es el proyectar o estimar el valor de la variable dependiente (Y) cuando se conoce o se supone un valor para la variable independiente (X). Este objetivo se logra cuando se reemplaza en la ecuación de regresión 4.1 el valor supuesto
para X. El valor obtenido, es una estimación puntual, por lo tanto se puede construir una
estimación por intervalo, ya sea para el valor individual de Y dado un valor de X o para el valor promedio de Y.
4.2.7.1 Proyección individual. Si se desea el intervalo de confianza para el valor individual
de Yi dado un valor de X como Xi , es necesario obtener la desviación estándar para esta estimación, la cual es:
El intervalo de confianza para el valor de Yi es:
4.2.7.2 Proyeccion media. Como en el caso anterior, para obtener el valor promedio de Y dado un valor de X como Xi , se debe obtener la desviación estándar para esta estimación:
El intervalo de confianza para el valor promedio de Y es:
Cuando se utiliza la ecuación de regresión para hacer proyecciones, se debe tener muy presente que a medida de que nos alejemos del rango dentro del cual se observó X, la
proyección pierde confiabilidad y además estos valores proyectados tienen sentido en la medida que se conserven las condiciones bajo las cuales se observaron las variables.
4.2.8 Evaluación de resultados
Después de realizado el análisis de regresión, se deben tener algunos criterios para saber
¿qué tan "buenos" son los resultados?. Ante todo, los signos de los coeficientes estimados
deben estar de acuerdo con las expectativas teóricas o previas.... Segundo, si la teoría o la
experiencia previa nos lleva a creer que un coeficiente determinado es, en términos
estadísticos, significativamente diferente de cero, ... ,entonces si los resultados reales son de
hecho significativos, nuevamente se puede decir que éstos son consistentes con la teoría.
Tercero, puesto que el R2 mide la bondad global del ajuste del modelo de regresión
estimado, se puede decir que el modelo es satisfactorio si el valor de R2 es razonablemente
alto, digamos, alrededor de 0,8. Pero este criterio no se debe ponderar demasiado ,
puesto que siempre se puede aumentar el R 2 agregando al modelo variables explicativas
adicionales. Por tanto, si los dos primeros criterios se cumplen y R2 es razonablemente alto,
todo está bien. Pero si se satisfacen los dos primeros criterios y el valor de R2 es bajo, por
ejemplo, menor que 0.6, no debemos desanimarnos." 1
EJEMPLO
Con la información sobre el consumo anual de agua y el número de suscriptores al servicio
de acueducto en Manizales entre 1977 y 1988 (cuadro 4.1) se aplica toda la teoría vista
anteriormente.
Primero se debe identificar cuál es la variable dependiente y cuál la independiente; en éste
caso, el consumo de agua depende del número de suscriptores.
Para tener una idea general sobre el modelo o ecuación que se puede ajustar a éstos datos
se grafica la información en un sistema de coordenadas (Figura 4.4). En ésta gráfica se
puede observar que los datos siguen un comportamiento aproximadamente lineal; por lo
tanto se trabaja con la ecuación 4.1.
Cuadro 4.1. Manizales: consumo anual facturado (en miles de metros cúbicos) y número de
suscriptores al servicio de acueducto en el sector residencial. 1977-1988
AÑOS CONSUMO (Y) SUSCRIPTORES (X)
1977 9.775 22.192
1978 11.028 23.256
1979 11.120 24.747
1980 13.267 27.869
1981 12.045 29.636
1982 12.879 32.458
1983 13.740 36.230
1984 13.673 39.074
1985 13.593 40.729
1986 13.940 41.823
1987 14.990 43.380
1988 15.163 44.684
Fuente: DANE. Monografía de Manizales, 1988. Cuadro 20.1.3, Pág.283
Fuente: cuadro 4.1
Figura 4.4 Manizales: Consumo anual (en miles de metros cúbicos) y número de suscriptores
al servicio de acueducto en el sector residencial. 1977-1988
Con la información del cuadro 4.1 se obtienen los siguientes resultados:
n=12 M(X) = 33.839,833 M(X2 ) = 1.206'677.103 V(X) = 61'542.783,3
M(Y) = 12.934,4167 V(Y) = 2'470.383,077 M(X,Y) = 449'151.787
Para obtener se utiliza la ecuación 4.2:
El coeficiente de intersección ( ) indica que el consumo promedio anual de agua, debido a
otras variables no consideradas en el modelo, es de 6'636.730 (6.636,73 * 1000) metros
cúbicos.
La pendiente por ser positiva, indica que hay una relación directa entre el número de
suscriptores y el consumo de agua. El valor de 0,1861 indica que por cada suscriptor más, el
consumo anual de agua se incrementa en 186,1 (0,1861 * 1000) metros cúbicos.
El coeficiente de determinación (R2 ) se obtiene con la ecuación 4.5, para lo cual es necesario
hallar la Suma de Cuadrados Explicada (SCE) y la Suma de Cuadrados Total (SCT), con las
ecuaciones 4.6 y 4.7 respectivamente.
La Suma de Cuadrados de los Residuos (SCR) se obtiene con la ecuación 4.8:
Por lo tanto, el coeficiente de determinación (R2 ) es:
Este resultado indica que la ecuación es confiable, ya que tenemos un valor cercano a 1.
Además, quiere decir que el 86,26% del consumo de agua se debe o está explicado por el
número de suscriptores.
Para hacerle la prueba de hipótesis a cada uno de los coeficientes de regresión ( b 0 y b 1 ),
es necesario hallar los errores de los coeficientes, los cuales se obtienen con las ecuaciones
4.10 y 4.11:
Prueba de hipótesis para
H0 : = 0 (no es necesario el coeficiente de intersección en el modelo)
H1 : 0 (es necesario el coeficiente de intersección en el modelo)
Regla de decisión: Para una confiabilidad del 95%, el valor en la distribución t con 10 grados
de libertad es: 2,228. El valor de la estadística de trabajo (T) está en la zona de rechazo
para H 0 (figura 4.5), por lo tanto se acepta que b 0 es diferente de cero, es decir que el
coeficiente de intersección es necesario en el modelo.
Figura 4.5 Regla de decisión: prueba de hipótesis para y
Prueba de hipótesis para :
H0 : = 0 (no hay relación entre consumo de agua y No. de suscriptores)
H1 : 0 (sí hay relación entre consumo de agua y No. de suscriptores)
El valor de la estadística de trabajo (T) está en la zona de rechazo para H0 (figura 4.5), por
lo tanto se acepta H1 , lo cual indica que sí hay relación entre el consumo de agua y el
número de suscriptores.
Con el valor obtenido en el coeficiente de determinación, los signos de los coeficientes de
regresión y el resultado de las pruebas de hipótesis se puede concluir que el modelo es
confiable y por lo tanto, lo son las proyecciones o pronósticos que se hagan con dicho
modelo.
Intervalo de confianza para : El valor que se obtuvo para b 1 es una estimación
puntual. La estimación por intervalo se obtiene con la ecuación 4.13:
Indicando que con una confiabilidad del 95%, por cada suscriptor más, el consumo anual de
agua se incrementa entre 129 y 234 metros cúbicos.
Proyección media . Se desea estimar o proyectar el consumo promedio anual de agua, si
se tienen 52.900 suscriptores.
Se reemplaza el valor de X en la ecuación de regresión obtenida, así que:
Por lo tanto, si se tienen 52.900 suscriptores, el consumo promedio anual de agua, es de
16'508.420 metros cúbicos.
La desviación estándar para éste valor proyectado, se obtiene con la ecuación 4.16:
El intervalo de confianza para el consumo promedio anual, se obtiene con la ecuación 4.17:
Por lo tanto, con una confiabilidad del 95%, si el número de suscriptores es de 52.900, el
consumo promedio anual de agua, estará entre 15'430.270 y 17' 585.730 metros cúbicos .
Intervalo de confianza para la diferencia de medias en dos
poblaciones
MUESTRAS RELACIONADAS o MUESTRAS PAREADAS
En general, supóngase que los datos consisten de pares
Las variables aleatorias y
tienen medias y , respectivamente. Sea la diferencia entre las
variables aleatorias en el j-ésimo para, esto es, .
Supóngase que las diferencias están distribuidas de manera normal con
media y varianza . Las variables aleatorias dentro de los
son independientes. Sin embargo, dado que existen dos
mediciones de la misma unidad experimental, es posible las dos
mediciones par no sean independientes. Considérese las
diferencias .
Puede demostrarse con facilidad que la media de la variable
aleatoria es:
debido a que el valor esperado de es la diferencia en los
valores esperados, sin importar si y son independientes. La
varianza de la diferencia es:
Por lo tanto, la media de las diferencias se estima con , el
promedio muestral de las mientras que se estima con , la
varianza muestral de las diferencias .
Para construir el intervalo de confianza nótese que:
sigue una distribución con grados de libertad. Entonces,
Por lo tanto, un intervalo de confianza para se obtiene:
Con el anterior intervalo se puede también probar la hipótesis nula
versus la alternativa ,
donde se rechaza la hipótesis nula si el valor cae fuera de este
intervalo de confianza. Además, para probar esta hipótesis se puede
hacer uso del estadístico:
el cual rechaza si
EJEMPLOS
Considerénse el siguiente conjunto de datos:
los cuales tienen que ver con el tiempo que requieren 14 sujetos que
estacionan dos automóviles sustancialmente distintos en cuanto al
tamaño de la llanta y la relación de vueltas del volante. Construya un
intervalo de confianza del 90% e interprete el resultado obtenido.
Solución.
El interés es la diferencia entre el automóvil 1 el 2 :
Un intervalo de confianza del 90% para esta diferencia es:
Nótese que el intervalo de confianza para incluye el cero. Esto
implica que, con un nivel de confianza del 90%, los datos no apoyan la
afirmación de que los automóviles tienen diferentes tiempos promedio
de estacionamiento.
Si se utiliza el estadístico, se encuentra:
No rechazandose tambien la hipótesis nula.
Ejercicio 5
El administrador de un lote de automóviles prueba dos marcas de
llantas radiales. Para ello asigna al azar una llanta de cada marca a
las dos ruedas posteriores de ocho automóviles, y luego corre los
automóviles hasta que las llantas se desgastan. Los datos obtenidos
(en kilómetros) aparecen en la siguiente tabla:
Encuentre un intervalo de confianza del 99% para la diferencia en el
tiempo promedio de duración y con base en estos resultados, ¿qué
llanta es la que usted preferiría?
Ejercicio 6
Un científico de la computación esta investigando la utilidad de dos
lenguajes de diseño para mejorar las tareas de programación. Se pide a
doce programadores expertos, familiarizados con los dos lenguajes, que
codifiquen una función estándar en ambos lenguajes, anotando el
tiempo, en minutos, que requieren para hacer esta tarea. Los datos
obtenidos son los siguientes:
Encuentre un intervalo de confianza del 95% para la diferencia entre
los tiempos de codificación promedio. ¿Existe algo que indique una
preferencia por alguno de los dos lenguajes?
MUESTRAS INDEPENDIENTES Y VARIANZAS CONOCIDAS
Supóngase que se tiene dos poblaciones independientes con medias
desconocidas y , y varianzas conocidas y , respectivamente.
Se desea encontrar un intervalo de confianza del para la
diferencia de las medias
Sean una muestra aleatoria de observaciones tomadas
de la primera población y una muestra aleatoria de
observaciones tomadas de la segunda población. Si y son las
medias muestrales, la estadística es un estimador puntual de
. La variable aleatoria
tiene una distribución normal estándar si las dos poblaciones son
normales, o es aproximadamente normal estándar si se cumplen las
condiciones del teorema del límite central, respectivamente.
Esto implica que:
La anterior expresión se puede expresar como:
Por lo tanto, un intervalo de confianza para la diferencia entre
se obtiene:
Con el anterior intervalo se puede también probar la hipótesis nula
versus la alternativa , donde se
rechaza la hipótesis nula si el valor cae fuera de este intervalo de
confianza. Además, para probar esta hipótesis se puede hacer uso del
estadístico:
el cual rechaza si
MUESTRAS INDEPENDIENTES Y VARIANZAS DESCONOCIDAS PERO
IGUALES
Tanto las medias y como las varianzas y son desconocidas.
Sin embargo, considérese que es razonable suponer que las dos
varianzas son iguales; esto es, Se desea encontrar un
intervalo de confianza del para la diferencia de las
medias
Se toman muestras aleatorias de tamaño y de las dos poblaciones
representadas por y , respectivamente; sean y las medias
muestrales, y y las varianzas muestrales. Puesto que y son
estimadores de la varianza común , entonces puede obtenerse un
estimador combinado de , mejor que o por separado. Este
estimador es:
Para desarrollar el intervalo de confianza para nótese que la
distribución de la estadística:
es la distribución con grados de libertad. Por lo tanto,
La anterior expresión se puede expresar como:
Por lo tanto, un intervalo de confianza para la diferencia entre
se obtiene:
Con el anterior intervalo se puede también probar la hipótesis nula
versus la alternativa , donde se
rechaza la hipótesis nula si el valor cae fuera de este intervalo de
confianza. Además, para probar esta hipótesis se puede hacer uso del
estadístico:
el cual rechaza si
EJEMPLOS
Un artículo publicado en el Hazardous Waste and Hazardous Materials
(Vol. 6, 1989) dio a conocer los resultados de un análisis del peso de
calcio en cemento estándar y en cemento contaminado con plomo. Los
niveles bajos de calcio indican que el mecanismo de hidratación del
cemento queda bloqueado y esto permite que el agua ataque varias
partes de una estructura de cemento. Al tomar diez muestras de cemento
estándar, se encontró que el peso promedio de calcio es 90.0, con una
desviación estándar muestral 5.0; los resultados obtenidos con 15
muestras de cemento contaminado con plomo fueron que el peso promedio
es de 87.0 y una desviación estándar de 4.0.
Supóngase que el porcentaje de peso de calcio está distribuido de
manera normal. Encuéntrese un intervalo de confianza del 95% para la
diferencia entre medias de los dos tipos de cemento. Por otra parte,
supóngase que las dos poblaciones normales tienen la misma desviación
estándar.
Solución
El interés es la diferencia entre el promedio del peso de los cementos
:
Un intervalo de confianza del 95% para la diferencia en los pesos
promedio de los cementos es:
donde,
Por lo tanto, la estimación combinada de la desviación estándar es
El intervalo de confianza del 95% se obtiene como:
Nótese que el intervalo de confianza incluye el cero; por
consiguiente, para este nivel de confianza, no puede concluirse la
existencia de una diferencia entre las medias. Dicho de otra manera,
no hay evidencia alguna de que la contaminación del cemento por plomo
tenga efecto sobre el peso promedio de calcio; en consecuencia, con un
nivel de confianza del 95%, no es posible afirmar que la presencia de
plomo afecte este aspecto del mecanismo de hidratación
Si se utiliza el estadístico presentado en (2), se encuentra:
No rechazandose la hipótesis nula.
Si se utiliza el valor p para una prueba de hipótesis bilateral, este
valor resulta igual a 2P(T >T
=2P(T >1.67). Por lo tanto el valor p es tal que 0.1<p-valor<0.2, no
rechazándose la hipótesis nula. Si se decidiera rechazar H , se podría
cometer un error mayor del 10% en el caso que H fuese verdadera.
Nótese que al usar las tres metodologías de decisión, los resultados
concuerdan.
Ejercicio 1
Un fabricante produce anillos para los pistones de un motor de
automóvil. Se sabe que el diámetro del anillo está distribuido
aproximadamente de manera normal, y que tiene una desviación estándar
mm. Una muestra aleatoria de 15 anillos tiene un diametro
promedio de mm.
a. Construya un intervalo de confianza bilateral del 99% para el
diámetro promedio del anillo. b. Construya un límite inferior de
confianza del 95% para el diámetro promedio del anillo.
Ejercicio 2
Un experimento para comparar la resistencia de cohesión a la tensión
del mortero modificado de látex de polímeros (mortero de cemento
portland al que se han agregado emulsiones de látex de polímeros
durante el mezclado), con la resistencia de mortero no modificado
resulto en kgf/cm para el mortero modificado y
kgf/cm para el mortero sin modificaciones . Sean
y las verdaderas resistencias de cohesión a la tensión para los
morteros modificado y no modificado, respectivamente.
a. Si se supone que y , pruebe vs
al nivel de significancia del 1%.
b.Mediante un intervalo de confianza pruebe la hipótesis planteada en
el inciso a.