V. INFERENCIA ESTADÍSTICA V.1. Concepto de inferencia ... · PDF file5 Ejemplo 2. Para...

1

V. INFERENCIA ESTADÍSTICA.

V.1. Concepto de inferencia estadística.

Es el procedimiento por medio del cual se llega a conclusiones acerca de una población con base en

la información que se obtiene a partir de una muestra seleccionada de esa población.

V.2. Estadística paramétrica y no-paramétrica.

a) Estadística paramétrica es la que requiere que los elementos que integran las muestras

contengan parámetros medibles.

La estadística paramétrica clásica plantea tres tipos de problemas:

1. Estimación puntual en la que pretendemos dar un valor al parámetro a estimar.

2. Estimación por intervalos (buscamos un intervalo de confianza)

3. Contrastes de hipótesis donde buscamos contrastar información acerca del parámetro.

b) La Estadística no paramétrica es una rama de la Estadística que estudia las pruebas y modelos

estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su

distribución no puede ser definida a priori, pues son los datos observados los que la determinan.

La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos

se ajusten a una distribución normal o cuando el nivel de medida empleado no sea, como

mínimo, de intervalo

V.3. Estadística univariada y multivariada. Estimación de parámetros por intervalos de

confianza.

a) Concepto de Estadística univariada

Cuando el análisis presenta característica por característica, aisladamente, estaremos en presencia

de un análisis estadístico univariado. Ejemplo, cuando decimos que una persona pesa 95 kg.

independientemente de cualquier otra característica estaremos en presencia de análisis univariado.

El análisis univariado es el análisis básico. Los estadísticos básicos que conocemos, como la media, la

mediana, la moda, la varianza, los porcentajes, entre otros, miden una variable. Es decir, fueron

hechos univariados.

Este tipo de análisis ha sido muy criticado ya que en la realidad se presentan interconectados. Por

ejemplo existe una relación entre el peso y la talla de las personas o entre el interés y el rendimiento

escolar, etc.

b) Concepto de Estadística multivariada

Este análisis consiste en determinar las relaciones existentes entre dos o más variables.

En general se les clasifica en dos grandes grupos

1. Métodos explicativos como la regresión lineal, análisis discriminante, entre otros.

2. Métodos descriptivos como análisis de conglomerados, análisis factorial, etc.

Este tipo de análisis ha avanzado mucho y hoy ocupa el corazón del análisis estadístico avanzado.

2

c) Estimación de parámetros por intervalos de confianza.

Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona

información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la

media poblacional, la proporción observada en la muestra es un estimador de la proporción en la

población.

Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Sin embargo es más

útil es la estimación por intervalos en la que calculamos dos valores entre los que se encontrará el

parámetro, con un nivel de confianza fijado de antemano.

Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al

parámetro que se está estimando.

Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del

parámetro. Se indica por 1-α y habitualmente se da en porcentaje (1-α) %. Hablamos de nivel de

confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza

contendrá al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso

con muchas muestras podríamos afirmar que el (1-α) % de los intervalos así construidos contendría

al verdadero valor del parámetro.

Los factores que determinan el ancho del intervalo de confianza son:

1. El tamaño de la muestra (n)

2. La varianza

3. El nivel deseado de confianza

Los valores de varias medidas descriptivas calculadas para las poblaciones, se llaman parámetros.

Para las muestras, estas mismas medidas descriptivas se llaman estadísticas.

Es costumbre simbolizar las estadísticas con letras romanas y los parámetros con letras griegas.

Estadística Parámetro Media aritmética

µ Varianza S² σ2 Desvío estándar S σ Coeficiente de correlación R ρ

3

C.1. Intervalo de confianza para la media

Valor de Z 1.15 1.28 1.44 1.65 1.96 2 2.58

Nivel de confianza 75% 80% 85% 90% 95% 95.5% 99%

Ejemplo 1.

Supongamos que se estudia en nivel de glucosa en sangre en la población cuyos valores aparecen en

el recuadro (N=20). Seleccionamos de forma aleatoria 5 muestras tamaño n=5 elaboramos, en cada

caso, el intervalo de confianza para el nivel medio de glucemia (nivel de confianza el 95 %)

Observemos los resultados.

108 118 121 125 118 117 109 127 123 133

112 120 136 115 129 110 113 125 124 117

Muestra 1

Intervalo muestra 1 = 125.38 – 116.22

Media

120

123 125 118 125 113

4

Muestra 2

Intervalo muestra 2 = 127.19 – 110.40

Muestra 3 125 113 117 123 124

Comando en Excel

Parámetro

Promedio Media 120.4

Var Varianza 26.8

Desvest Desviación estándar

5.17687164

Intervalo.Confianza

Intervalo de

confianza 4.53764468 Max 124.937645 Min 115.862355

Muestra 4

133 110 136 125 110 Comando en Excel

Parámetro

Promedio Media 122.8

Var Varianza 152.7

Desvest Desviación estándar

12.3571841

Intervalo.Confianza

Intervalo de

confianza 12.1098179 Max 134.909818 Min 110.690182

124 110 115 133 112

5

Ejemplo 2.

Para una muestra de 81 habitantes de cierta población se obtuvo una estatura media de 167 cm. Por

estudios anteriores se sabe que la desviación típica de la altura de la población es de 8 cm.

Construye un intervalo de confianza para la estatura media de la población al 95%

La media de la estatura de la población está entre 168.74 y 165.26 cm

Ejemplo 3.

Para conocer el peso promedio de un grupo de personas se tomo una muestra de 38 personas. La media muestral resultó ser de 74,3 kg.

Construya un intervalo de confianza del 98% para la media de la población, si la desviación estándar es 14 kg.

El valor de tablas que encierra el 98% de la distribución Z es 2,33

6

V.4. Tamaño de muestra para estimar medias

Un problema típico es determinar el tamaño muestral mínimo para que el intervalo de confianza

para la proporción con un nivel de confianza dado tenga un error (amplitud) menor o igual a una

cantidad conocida para encontrar el tamaño de la muestra

Donde:

E.- es el error admisible

Z.- es el valor normal estándar correspondiente al nivel de confianza deseado

s.- Es la desviación estándar de la muestra

Valor de Z 1.15 1.28 1.44 1.65 1.96 2 2.58


Un estudiante de Administración desea determinar la cantidad media que ganan al mes lo miembros

de los consejos ciudadanos de las grandes ciudades. El error a calcular la media debe ser inferior a

$100, con un nivel de confianza del 95%. El estudiante encontró un informe del departamento de

trabajo en el que la desviación estándar es de $1000 ¿Cuál es el tamaño de la muestra que se

requiere?

n= ¿?

E= $100

Z= Confianza 95% = 1.96

s = Desviación estándar = $1000

Un grupo consumidor desea estimar la media del cargo de electricidad por familia en Julio con un

error de $5 usando un nivel de confianza de 99%. La desviación estándar es estimada de estudios

similares la cual es de $20. ¿Qué tan grande debe ser la muestra?

7

V.5. Concepto de hipótesis estadística.

Una prueba de hipótesis estadística es una conjetura de una o más poblaciones. Nunca se

sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a no ser que se examine

la población entera. Esto por su puesto sería impráctico en la mayoría de las situaciones. En su lugar,

se toma una muestra aleatoria de la población de interés y se utilizan los datos que contiene tal

muestra para proporcionar evidencia que confirme o no la hipótesis. La evidencia de la muestra que

es un constante con la hipótesis planteada conduce a un rechazo de la misma mientras que la

evidencia que apoya la hipótesis conduce a su aceptación.

Definición de prueba de hipótesis estadística es que cuantifica el proceso de toma de decisiones.

Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada. Esta

prueba estadística mide el acercamiento del valor de la muestra (como un promedio) a la hipótesis

nula. La prueba estadística, sigue una distribución estadística bien conocida (normal, etc.) o se puede

desarrollar una distribución para la prueba estadística particular.

La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y

una de no rechazo. Si la prueba estadística cae en esta última región no se puede rechazar la

hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente.

Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la

distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se puede

rechazar). A hora bien el valor crítico depende del tamaño de la región de rechazo.

I D E N T I F I C A C I Ó N D E H I P Ó T E S I S

Hipótesis nula H0 Hipótesis alternativa H1

La que contrastamos Niega H0 (y creemos que es ”mejor”)

Los datos pueden refutarla Los datos pueden mostrar evidencia

a favor

No debería ser rechazada sin una buena razón

No debería ser aceptada sin una gran evidencia a favor

H0: p =, ≤, ≥ H1: p , <, >

Ejemplo 1.-

Problema ¿La osteoporosis está relacionada con el sexo?

Solución:

Traducir a lenguaje estadístico p=50%

Establecer su opuesto: p 50%

Seleccionar la hipótesis nula: H0= p=50%

8

Ejemplo 2.-

Problema ¿El colesterol medio para la dieta mediterránea es de 6mmol/l?

Solución:

Traducir a lenguaje estadístico µ=6

Establecer su opuesto: µ 6

Seleccionar la hipótesis nula: H0= µ=6

V.6. Tipos de error.

Si rechazamos una hipótesis cuando debiera ser aceptada diremos que se ha cometido

un error de tipo I. Por otra parte si aceptamos una hipótesis que debiera ser rechazada, diremos que

se ha cometido un error de tipo II. En ambos casos se ha producido un juicio erróneo.

Para que las reglas de decisión sean buenas, deben diseñarse de modo que minimicen los

errores de decisión, y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un

intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En la

práctica un tipo de error puede ser más grave que el otro, y debe alcanzarse un compromiso que

disminuya el error más grave, la única forma de disminuir ambos a la vez es aumentar el tamaño de

la muestra, que no siempre es posible.

Hipótesis Decisión

H0 verdadera

H0 falsa

Aceptar H0

Decisión correcta Decisión incorrecta

Error tipo II Probabilidad β

Rechazar H0

Decisión incorrecta Error de tipo I Probabilidad α

Decisión correcta

9

Riesgos al tomar decisiones

Ejemplo 1: se juzga a un individuo por la presunta comisión de un delito.

H0: Hipótesis nula: Es inocente

“Todos son inocentes hasta que se demuestre lo contrario.”

Rechazarla por error tiene graves consecuencias

H1: Hipótesis alternativa: Es culpable

No debería ser aceptada sin una gran evidencia a favor

Rechazarla por error tiene consecuencias consideradas menos graves que la anterior

Realidad

Inocente Culpable

Veredicto

Inocente Ok Error

Menos grave

Culpable Error

Muy grave Ok

Ejemplo 2: Se cree que un nuevo tratamiento ofrece buenos resultados.

H0: Hipótesis nula: No especulativa

El nuevo tratamiento no tiene efecto

Rechazarla por error tiene graves consecuencias

H1: Hipótesis alternativa: Especulativa

El nuevo tratamiento es útil.

Rechazarla por error tiene consecuencias consideradas menos graves que la anterior

Realidad

H0 Cierta H0 Falsa

Acepto H0 Correcto

El tratamiento no tiene efecto y así se decide

Error de tipo II El tratamiento si tiene efecto

pero no lo percibimos Probabilidad β

Rechazo H0

Error de tipo I El tratamiento no tiene efecto

pero se decide que si Probabilidad α

Correcto El tratamiento tiene efecto y el

experimento lo confirma

10

NIVEL DE SIGNIFICANCIA

Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a

correr el riesgo de cometer un error de tipo I se llama nivel de significancia. Esta probabilidad se

denota por α, se suele especificar antes de la muestra, de manera que los resultados no influyan en

nuestra elección.

En la práctica es frecuente un nivel de significancia de 0.05 ó 0.01, si bien se usan otros

valores. Si, por ejemplo, se escoge un nivel de significancia del 5% ó 0.05 al diseñar una regla de

decisión entonces hay unas cinco oportunidades entre cien de rechazar la hipótesis cuando debiera

haberse aceptado; es decir, tenemos un 95% de confianza de que hemos adoptado la decisión

correcta. En tal caso decimos que la hipótesis ha sido rechazada al nivel de significancia 0.05 lo cual

quiere decir que la hipótesis tiene una probabilidad del 5% de ser falsa.

V.7. Metodología.

1. Expresar la hipótesis nula

2. Expresar la hipótesis alternativa

3. Especificar el nivel de significancia

4. Determinar el tamaño de la muestra

5. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.

6. Determinar la prueba estadística.

7. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.

8. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.

9. Determinar la decisión estadística.

10. Expresar la decisión estadística en términos del problema.

11

V.8. Algunas pruebas de hipótesis.

a) Para una media poblacional.

Mientras el tamaño de muestra (n) sea mayor que 30, se estima la desviación estándar poblacional

(σ) por medio de la desviación estándar muestral (s) y se usa los valores de Z

Valor de Z 1.15 1.28 1.44 1.65 1.96 2 2.58


= media poblacional

s o = Desviación estándar

n= tamaño de la muestra

Ejemplo 1. La duración promedio de las llantas producidas por una fábrica de llantas, según

experiencias registradas es de 46.050 Km. Se desea probar si el promedio poblacional ha cambiado;

para tal efecto se toma una muestra aleatoria de 60 llantas y se obtiene una duración promedio de

45.050 Km. con una desviación estándar de 3.070 Km, usando un 95% de confianza.

Ho= = 46.050 H1= 46.050

n= 60

=

1-α= 0.95= 1.96

s= 3.070

Si z es mayor a 1.96 o menor a -1,96 se rechaza H0

Por lo tanto si z= a -2.52 se rechaza H0. Por consiguiente, con una confiabilidad del 95 por ciento se

acepta que la duración promedio de las llantas ha cambiado.

12

Ejemplo 2. Ciertos investigadores pretenden saber si es posible concluir que la media del IMC

para la población de la que se extrajo la muestra n es 35

Individuo IMC

1 23

2 25

3 21

4 37

5 39

6 21

7 23

8 24

9 32

10 57

11 23

12 26

13 31

14 45

Media 30.5

Varianza 113.192308

Desviación 10.6391874


H0: µ = 35


H1: µ ≠ 35


α= 0.05


n=14


Dado que la muestra es menor de 30 se usan los valores de “t” en lugar de “z”

Grados de libertad (gl)= n-1 por lo tanto 14-1=13

Dado que se tiene una prueba bilateral se pone α/2= 0.5/2= 0.025. Estos valores aparecen

en la tabla de “t” (ane o). Buscaremos el valor que se encuentre entre gl=13 y t= 1-α = 1-

0.025 = 0.975 . Lo que corresponde a 2.1604 y -2.1604


13


A partir de los datos de la muestra se calcula una media igual a 30.5 y una desviación

estándar de 10.6392. Al sustituir estos datos en la ecuación se obtiene


-1.58 cae en la región de no rechazo


No se rechaza H0 ya que -1.58 cae en la región de no rechazo


Con base en estos datos se puede decir que la media de la población de la cual se extrajo la

muestra puede ser 35.

14

Ejemplo 3. Los siguientes datos son la circunferencia craneal (CC)(en centímetros) de 15 niños

recién nacidos

Individuo CC

1 33.38

2 34.34

3 33.46

4 32.15

5 33.95

6 34.13

7 33.99

8 33.85

9 34.45

10 34.1

11 34.23

12 34.19

13 33.97

14 32.73

15 34.05

Media 33.798 Varianza 0.39727429 Desviación 0.63029698


H0: µ = 34.5


H1: µ ≠ 34.5


α= 0.05


n=15


Dado que la muestra es menor de 30 se usan los valores de “t” en lugar de “z”

Grados de libertad (gl)= n-1 por lo tanto 15-1=14

Dado que se tiene una prueba bilateral se pone α/2= 0.5/2= 0.025. Estos valores aparecen

en la tabla de “t” (ane o). Buscaremos el valor que se encuentre entre gl=14 y t= 1-α = 1-

0.025 = 0.975. Lo que corresponde a 2.1448 y -2.1448



A partir de los datos de la muestra se calcula una media igual a 30.5 y una desviación

estándar de 10.6392. Al sustituir estos datos en la ecuación se obtiene


-4.31 cae en la región de rechazo


Se rechaza H0 ya que -4.31 cae en la región de rechazo

10. Expresar la decisión estadística en términos del problema. Con base en estos datos se puede

decir que la media de la población de la cual se extrajo la muestra no puede ser 34.5.

15

Ejemplo 4. Ciertos investigadores condujeron un estudio para examinar los datos

correspondientes a la farmacocinética de la gentamicina en tres poblaciones mayores de 18 años:

pacientes con leucemia aguda, pacientes con otros padecimientos malignos no leucémicos y

pacientes sin enfermedad maligna oculta. Entre las estadísticas reportadas por los investigadores

estaba el valor 59.1 como media inicial calculada, con una desviación estándar de 25.6 para una

muestra de 211 pacientes. Se pretende saber si es posible concluir que la media para la población de

individuos que presenta el mismo cuadro patológico es menor que 60. Sea α=0.10


H0: µ < 60


H1: µ > 60


α= 0.10


n=211


Dado que la muestra es mayor de 30 se usan los valores de “z”. Lo que corresponde a 1.65 y -1.65



A partir de los datos de la muestra se calcula una media igual a 59.1 y una desviación estándar de 25.6. Al

sustituir estos datos en la ecuación se obtiene


-0.510 cae en la región de no rechazo


No se rechaza H0 ya que -0.510 no cae en la región de rechazo


Con base en estos datos se puede decir que la media de la población de la cual se extrajo la muestra puede

ser menor de 60.

16

ANTES DE CONTINUAR.

Se podrán encontrar pruebas de 1 o 2 colas.

Sabremos que es de 1 cola cuando la hipótesis alterna (H1) establece una dirección, como;

H1: EL ingreso medio de las mujeres ( m) es menor al

ingreso medio de los hombres ( h) H1: m < h

H1: El ingreso medio de las mujeres es mayor que el

de los hombres. H1: m > h

Si H1 tiene el signo (menor que) <, la prueba de significancia es de cola izquierda.

Si H1 tiene el signo (mayor que) >, la prueba de significancia es de cola derecha.

Una prueba es de 2 colas cuando no se establece una dirección especifica de la hipótesis alterna (H1) como;

H0: el ingreso medio de las mujeres es igual al ingreso

medio de los hombres H0: m = h

H1: El ingreso medio de las mujeres no es igual al

ingreso medio de los hombres H0: m ≠ h

Si H1 es planteada de manera que incluya ambos extremos de la distribución muestral, la prueba de significancia es

de dos colas.


Valor de Z (Bilateral)

1.15 1.28 1.44 1.65 1.96 2 2.58

Nivel de confianza 90% 95% 99% 99.5%

Valor de Z (Unilateral)

1.28 1.645 2.33 2.58

Cuando usemos valores menores a n=30 o no conozcamos las varianzas de la población el valor de

confianza será el de t y no el de z.

El valor de t se calcula Grados de libertad (gl) = n-1 y confianza = 1- α

17

b) Para la diferencia de dos medias poblacionales.

La prueba de hipótesis que involucra la diferencia entre las medias de dos poblaciones que se utiliza con más

frecuencia para determinar si es razonable o no concluir que las dos son distintas entre sí, se usa la siguiente

formula.

Ejemplo 1. Un equipo de investigadores desea saber si los datos que han recolectado proporcionan la evidencia

suficiente para indicar una diferencia entre las concentraciones medias de acido úrico en el suero de individuos

normales e individuos con síndrome de Down. Los datos en la lecturas de acido úrico en el suero de 12 individuos

con síndrome de Down y 15 individuos sanos. Las medias son = 4.5 mg/100ml y = 3.4 mg/ml. Con varianza

igual a 1 para la población con síndrome de Down y de 1.5 para la población sana.


H0: µ1 - µ2 = 0


H1: µ1 - µ2 ≠ 0


α= 0.05


n1=12 n2= 15

5. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo. Lo que corresponde a

± 1.96 (Bilateral)




2.57 cae en la región de rechazo


Se rechaza H0 ya que 2.57 cae en la región de rechazo al ser mayor que 1.96


Con base en estos datos hay indicios de que las medias de las poblaciones son diferentes.

18

Ejemplo 2. Un estudio tiene como objetivo examinar las características de destrucción pulmonar en personas

que fuman cigarros antes de desarrollar un marcado enfisema pulmonar. En la tabla se muestran las calificaciones

producidas, para nueve personas que no fuman y 16 fumadores. Se pretende saber si es posible concluir, con base

en los datos, que las personas que sí fuman, en general, tienen los pulmones más dañados que las persona no

fumadoras, como lo indican las mediciones.

No fumadores 18.1 6 10.8 11 7.7 17.9 8.5 13 18.9

Fumadores 16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3 18.6

12 24.1 16.5 21.8 16.3 23.4 18.8

Media

Varianza

No fumadores 12.4333333 23.515

Fumadores 17.5375 20.0278333

1. Expresar la hipótesis nula H0: µ1 = µ2

2. Expresar la hipótesis alternativa H1: µ1 ≠ µ2

3. Especificar el nivel de significancia α= 0.05

4. Determinar el tamaño de la muestra n1=9 n2= 16


Cuando son dos poblaciones se usa n1+n2 -2 = grados de libertad y α/2=precisión=±2.0687 (bilateral)

6. Determinar la prueba estadística. t





Se rechaza H0 ya que 2.602 cae en la región de rechazo al ser mayor que 2.0687


Con base en estos datos se puede concluir que las dos medias son diferentes, es decir, se concluye que, las

personas que si fuman tienen los pulmones más dañados que las que no lo hacen.

19

Ejemplo 3. Un artículo publicado en una revista describe el desarrollo de una herramienta para medir las

barreras para promover la salud entre personas discapacitadas. Los autores afirman que los problemas de barreras

sobresalen especialmente de personas discapacitadas que las experimentan en situaciones como: empleo,

transporte, educación entre otros. Para medir esto, los investigadores desarrollaron la escala de barreras en las

actividades de promoción de la salud en personas discapacitadas. Se obtuvieron los siguientes resultados al aplicar la

escala a una muestra de 132 discapacitados (D) y a 137 personas no discapacitadas (ND)

Muestra Calificación media Desviación estándar

D 31.83 7.93

ND 25.07 4.80


H0: µ1 - µ2 ≤ 0


H1: µ1 - µ2 > 0


α= 0.01


n1=132 n2= 137


Sea α= 0.01 El valor de z será 2.33 (Unilateral)






Se rechaza H0 ya que 8.42 cae en la región de rechazo al ser mayor que 2.58.


Estos datos indican que en promedio las personas con discapacidad califican más alto en la escala de barreras que

las personas sin discapacidad.

20

Para una proporción poblacional.

El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con datos cualitativos.

q= 1 – p

P0= proporción de éxitos de la hipótesis nula.

n= tamaño de la muestra x= numero de éxitos en la muestra

Ejemplo 1. En una investigación de consumidores de drogas intravenosas en una ciudad grande, se encontraron

a 18 de 423 individuos con VIH positivo. Se pretende saber si es posible concluir que al menos de 5% de los

consumidores de drogas intravenosas en la población muestreada tienen VIH positivo. Utilizando 95% de

confianza. (Uni)

H0: p ≥ 0.05 H1: p < 0.05

q= 1 – p = 1- 0.05 = 0.95

No se rechaza H0 porque -0.70 Mayor que -1.645

Se concluye que la proporción de la población que tiene VIH positivo posiblemente sea 0.05 o más.

Ejemplo 2. En un artículo publicado se describen los resultados de una encuesta de salud aplicada a 119

convictos varones de 50 años de edad y mayores residentes de las instalaciones de un centro de readaptación

social del estado. Se encontró que 21.6% de los encuestados dijeron tener antecedentes de enfermedades

venéreas. Con base en estos hallazgos ¿Es posible concluir que en la población muestreada más de 15% tiene

antecedentes de enfermedades venéreas? Sea α = 0.05

H0: p ≥ 0.15 H1: p ≤ 0.15

q= 1 – p = 1- 0.15 = 0.85

No se rechaza H0 porque -0.88 es mayor que -1.96

Se concluye que en la población la proporción de personas posiblemente sea 0.15 o más tiene antecedentes

venéreas.

21

Ejemplo 3. Se encontró que el 66% de los niños en una muestra de 670 completaron toda serie de vacunas

contra la hepatitis B ¿Es posible concluir que, con base en estos datos, en la población muestreada, más de 60%

tienen la serie completa de vacunas contra la hepatitis B? Sea α= 0.05 (Uni)

H0: p > 0.60 H1: p < 0.60

q= 1 – p = 1- 0.66 = 0.34

Se rechaza H0 porque 3.06 es mayor que 1.645

Se concluye que la población de niños de donde fue tomada la muestra menos del 60% tiene la serie completa de

vacunas contra la Hepatitis B.

22

c) Para la diferencia de dos proporciones poblacionales.

Ejemplo 1. En un estudio de cuidados nutricionales en asilos para ancianos se encontraron que entre 55

pacientes con hipertensión, 24 tenían una dieta con restricción de sodio. De 149 pacientes sin hipertensión, 36

tenían una dieta sin sodio. ¿Es posible concluir que, en las poblaciones muestreadas, la proporción de pacientes con

dieta restringida en sodio es mayor entre pacientes con hipertensión que entre pacientes sin hipertensión? Sea α =

0.05. El valor crítico de z es 1.645. (Prueba Unilateral)

Se supone que los pacientes estudiados forman una muestral aleatoria independientemente extraída de

poblaciones con y sin hipertensión. (Uni)

H0: pH ≤ p H1: pH > p

pH es la proporción de la población de pacientes hipertensos con dietas bajas en sal y p es la proporción de la

población de pacientes sin hipertensión con dietas bajas en sal.

Se rechaza H0 porque 2.7 > 1.645

La proporción de pacientes con dieta restringida en sodio es mayor entre los pacientes hipertensos que entre los

pacientes sin hipertensión.

23

Ejemplo 2. La mayoría de las personas que dejan de fumar, se quejan de que al hacerlo suben de peso, se diseño

una nueva técnica para prevenir que la gente suba de peso, la cual compararon contra otras dos condiciones que

incluían una condición control de tratamiento estándar ideada para representar la atención estándar del sobrepeso

inducido por dejar de fumar. Una de las hipótesis de los investigadores era que las tasas de abstinencia de tabaco

serían mayores con la nueva técnica que las registradas en las otras dos condiciones. De 53 individuos asignados a la

nueva condición, 11 dejaron de fumar al final de 52 semanas. 19 de los 54 asignados a la condición de control se

abstuvieron hasta el final del mismo periodo. ¿ofrecen estos datos suficiente evidencia para apoyar, con un nivel de

significancia de 0.05, la hipótesis de los investigadores?

El valor crítico de z es 1.645. (Prueba Unilateral)

H0: p1 > p2 las tasas de abstinencia de tabaco serían mayores con la nueva técnica que las registradas en las otras

dos condiciones H1: p1 > p2

p1 es la proporción de la población de pacientes asignados a la nueva condición y p2 es la proporción de la población

de pacientes control.

Se acepta H0 dado que -1.666 es menor que 1.645

Los datos presentados presentan suficiente evidencia para apoyar a los investigadores.

Ejemplo 3. Ciertas investigaciones sugieren que entre pacientes con depresión unipolar primaria se registra una

tasa alta de alcoholismo. Una investigación realizada profundiza en esta posible relación. Entre 210 familias de

mujeres con depresión unipolar primaria grave, los investigadores encontraron que el alcoholismo estaba presente

en 89. Entre 299 familias catalogadas como familias de control en la investigación, el alcoholismo estuvo presente en

94. ¿Ofrecen estos datos suficiente evidencia para concluir que el alcoholismo es más probable de encontrar en

familias con integrantes que tienen depresión unipolar? Sea α= 0.05. (Uni)

No se rechaza H0 porque 2.65 es mayor (>) a 1.645

24

d) Para poblaciones pareadas.

En el análisis referente a la diferencia entre las medias de dos poblaciones, se supone que las muestras son

independientes. Un método que se utiliza con frecuencia para averiguar la eficacia de un tratamiento o

procedimiento experimental es aquel que hace uso de observaciones relacionadas que resultan de muestras no

independientes. Una prueba de hipótesis que se basa en este tipo de datos se conoce como prueba de

comparaciones por parejas o de poblaciones pareadas.

Con frecuencia sucede que las diferencias reales no existen entre dos poblaciones con respecto al a variable de

interés, pero la presencia de fuentes extrañas de variación pueden causar rechazo de la hipótesis nula.

Por ejemplo, supongamos que se pretende comparar dos protectores solares para la piel. . Existen al menos dos

maneras de llevar a cabo el experimento. Un método sería seleccionar una muestra aleatoria simple e independiente

que recibiera el protector solar A y una segunda que muestra aleatoria simple e independiente que recibiera el

protector solar B. Se pide a todos los individuos que salgan a broncearse a la luz del sol durante un tiempo

específico, y después se mide el daño causado por el sol. Suponga que se aplica este método, pero inadvertidamente

la mayoría de los individuos que recibieron el protector solar A tienen piel oscura y por naturaleza son menos

sensibles a los rayos solares. Digamos que al terminar el experimento, se encuentra que los individuos que

recibieron el protector solar A tienen menos daño provocado por la luz del sol. So sería posible saber si tuvieron

menos daño porque el protector solar A fue más eficaz que el protector solar B o porque la naturaleza de su piel

oscura es menos sensible al sol.

Una mejor manera de diseñar el experimento sería seleccionar sólo una muestra aleatoria simple de individuos y que

cada uno de ellos se les aplicaran ambos protectores solares. Por ejemplo, se asignarían aleatoriamente los

protectores solares al lado derecho o izquierdo de la espalda de cada individuo de manera que recibieran ambos

productos. Después de un tiempo especifico se exposición se medirían los daños provocados por la luz del sol, en

cada mitad de la espalda. Si la mitad de la espalda que recibió protector solar A tiende estar menos dañado, puede

atribuirse con más confianza el resultado al protector solar, porque en cada caso ambos protectores fueron

aplicados en una misma piel.

El objetivo en pruebas de comparación por parejas es eliminar un máximo número de fuentes de variación extraña

haciendo parejas similares con respecto a tantas variables como sea posible.

d = diferencia de media muestral

µ= diferencia de la media muestral propuesta

25

Ejemplo 1. Nancy Stearns condujo un estudio para determinar la pérdida de peso, la composición corporal, la

distribución de grasa corporal, la tasa metabólica en reposo en individuos obesos antes y después de 12 semanas de

tratamiento con dieta muy baja en calorías, y comparar la hidrodensitometria con el análisis de impedancia

bioeléctrica. Los 17 individuos (nueve mujeres y ocho hombres) que participaron en el estudio eran pacientes

externos de un programa de tratamiento con base hospitalaria para la obesidad. Los pesos de las mujeres antes y

después del tratamiento se muestra en la tabla. se pretende saber si estos datos ofrecen suficiente evidencia que

permita concluir q el tratamiento es eficaz para reducir el pero en mujeres obesas.

Pesos (Kg.) de mujeres obesas antes (A) y después (D) del tratamiento de 12 semanas

A 117.3 111.4 98.6 104.3 105.4 100.4 81.7 89.5 78.2

D 83.3 85.9 75.8 82.9 82.3 77.7 62.7 69.0 63.9


H0: µd ≥ 0

(A – D) H0: µd ≤ 0


H1: µd < 0

(A – D) H1: µd < 0


α= 0.05


n1=9


Sea α= 0.05. El valor crítico de t es -1.8595 (uni) -1.8595

6. Determinar la prueba estadística

7. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.Lo primero es obtener

las diferencias entre los pesos antes y después. Las diferencias se pueden obtener de dos maneras: Primero, se

resta el peso de antes de después (D - A): segundo se resta el peso de después al peso de antes (A – D).

Pesos (Kg.) de mujeres obesas antes (A) y después (D) del tratamiento Totales

A 117.3 111.4 98.6 104.3 105.4 100.4 81.7 89.5 78.2

D 83.3 85.9 75.8 82.9 82.3 77.7 62.7 69 63.9

D - A -34 -25.5 -22.8 -21.4 -23.1 -22.7 -19 -20.5 -14.3 -203.3

(D - A)2 1156 650.25 519.84 457.96 533.61 515.29 361 420.25 204.49 4818.69


-12.7395 cae en la región de rechazo, por lo tanto se rechaza H0

9. Determinar la decisión estadística. Se rechaza H0


Se puede concluir que el programa de dieta es eficaz

26

Ejemplo 2. Un artículo publicado por Kashima et al. (A-12) describe una investigación relacionada con los padres

de niños con retraso mental, en la cual se presenta información sobre la enseñanza de autocuidados en un programa

apoyado en diferentes medios de comunicación, principalmente a través de videotapes y manuales de instrucción.

Como parte del estudio, participaron 17 familias en el programa de capacitación impartido por personal con amplia

experiencia en proyectos de capacitación paterna. Antes y después del programa de capacitaci6n, se aplico una

prueba de comportamiento y descripción a cada jefe de familia o padre principal. EI examen evalúa el conocimiento

de los principios de modificación del comportamiento. Una calificación alta indica mayor conocimiento. Las

siguientes calificaciones corresponden a las pruebas de los jefes de familia, antes y después del programa de

capacitación:

¿Es posible concluir, con base en estos datos, que el programa de capacitación aumenta el conocimiento respecto a

los principios de modificación del comportamiento? Sea α=0.01

H0: Ca < Cd H1: Ca > Cd

Calificaciones antes y después de la capacitación Total

Antes 7 6 10 16 8 13 8 14 16 11 12 13 9 10 17 8 5

Después 11 14 16 17 9 15 9 17 20 12 14 15 14 15 18 15 9

D - A 4 8 6 1 1 2 1 3 4 1 2 2 5 5 1 7 4 57

(D - A)2 16 64 36 1 1 4 1 9 16 1 4 4 25 25 1 49 16 273

t= gl (n-1) =16; α=0.01 (uni)

Se rechaza H0 porque 6.111 > 2.583

27

Ejemplo 3. EI propósito de una de las investigaciones realizadas es evaluar la influencia del bloqueo extradural

para la operación cesárea en diversas variables hemodinámicas maternas y fetales, simultáneamente, y determinar

si el bloqueo modifica la función del miocardio fetal. Los individuos estudiados eran ocho parturientas sanas con 38 a

42 semanas de embarazo de un solo feto, sin complicaciones, que serian sometidas a operación cesárea con

anestesia para bloqueo extradural. Los siguientes datos corresponden a los valores inferiores de esta variable en las

dos etapas:

¿Ofrecen suficiente evidencia estos datos, con un nivel de significación de 0.05, para indicar que, bajo condiciones

similares y generales, la media de la presión arterial diastólica en las madres es diferente en las dos etapas?

H0 = E1 = E2 H1 = E1 ≠ E2 (Bilateral)

Medidas de la presión arterial diastólica Total

E1 70 87 72 70 73 66 63 57 E2 79 87 73 77 80 64 64 60 E2 - E1 9 0 1 7 7 -2 1 3 26

(E2 - E1)2 81 0 1 49 49 4 1 9 194

T= gl=8-1=7; α=0.05/2 =0.025 1-0.025= 0.975

No se rechaza H0 porque 2.324 < 2.3646

V. INFERENCIA ESTADÍSTICA V.1. Concepto de inferencia ... · PDF file5 Ejemplo 2. Para...

Documents

Transcript of V. INFERENCIA ESTADÍSTICA V.1. Concepto de inferencia ... · PDF file5 Ejemplo 2. Para...