U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a...

40
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I U7 – Estimación: Un ejercicio de adivinación numérica © Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 1 U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN NUMÉRICA Albert Cobos: Doctor en Medicina. MSc Estadística Aplicada. Profesor de Bioestadística. Departamento de Salud Pública. Facultad de Medicina. Universidad de Barcelona. 1. INTRODUCCIÓN En las unidades precedentes nos hemos ocupado de cosas muy variadas, pero todas ellas tenían algo en común: se trataba de describir datos. Se trataba de estadística descriptiva. A partir de esta unidad nos ocuparemos de la estadística inferencial que, como ya adelantamos en la unidad 1, constituye un ejercicio de adivinación: permite conocer algo sin necesidad de verlo (al menos, sin verlo del todo). Comenzaremos, en esta unidad, por la estimación de parámetros. En este momento, sería buena idea releer la sección titulada ‘Algunos conceptos básicos’ de la unidad 1, donde se definen los términos de población y muestra ¡Vamos a utilizarlos mucho!

Transcript of U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a...

Page 1: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 1

U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN NUMÉRICA

Albert Cobos: Doctor en Medicina. MSc Estadística Aplicada. Profesor de Bioestadística. Departamento de Salud Pública. Facultad de Medicina. Universidad de Barcelona.

1. INTRODUCCIÓN

En las unidades precedentes nos hemos ocupado de cosas muy variadas, pero todas ellas tenían algo en común: se trataba de describir datos. Se trataba de estadística descriptiva.

A partir de esta unidad nos ocuparemos de la estadística inferencial que, como ya adelantamos en la unidad 1, constituye un ejercicio de adivinación: permite conocer algo sin necesidad de verlo (al menos, sin verlo del todo).

Comenzaremos, en esta unidad, por la estimación de parámetros.

En este momento, sería buena idea releer la sección titulada ‘Algunos conceptos básicos’ de la unidad 1, donde se definen los términos de población y muestra ¡Vamos a utilizarlos mucho!

Page 2: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 2

2. ¿QUÉ ES LA ESTIMACIÓN DE PARÁMETROS?

Estimar es el nombre fino que utilizamos los estadísticos para referirnos al intento de adivinar una cantidad cuando no podemos conocerla con exactitud. A estas cantidades que no podemos conocer con exactitud las llamamos genéricamente parámetros y, al intento de adivinarlas, estimación de parámetros.

Supongamos que nos preguntamos cuál es la prevalencia del tabaquismo en Cataluña. La población de interés es, en este caso, la constituida por el conjunto de los habitantes de Cataluña. El parámetro de interés es la proporción de fumadores y, como se trata de una proporción, en adelante lo simbolizaremos mediante la letra ‘P’ mayúscula. Para conocer con exactitud el valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable porque la población es muy extensa.

¿Qué hacer, entonces? La única solución razonable es realizar una encuesta a una muestra de habitantes de Cataluña y determinar la proporción de fumadores en dicha muestra. ¿Cómo hay que seleccionar la muestra? En seguida hablaremos de ello ¿Cuántos individuos hay que incluir en la muestra? Nos ocuparemos de esto al final de esta unidad.

Si llevamos a cabo este proceso correctamente, tendremos información (datos) que nos permitirán estimar (adivinar) el parámetro que nos interesa (P, la proporción de fumadores en Cataluña).

Page 3: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 3

3. MUESTREO

Por muestreo entendemos el proceso de extraer muestras a partir de una población de interés. Aunque hay muchas maneras de extraer muestras, nos centraremos en los procedimientos llamados aleatorios (random). Las muestras que se han obtenido mediante tales procedimientos se denominan muestras aleatorias (random sample).

Todos los procedimientos de estimación (¡y casi toda la estadística inferencial!) se basan en la suposición de que la muestra disponible es una muestra aleatoria. Por tanto, es muy importante saber distinguir los procedimientos de muestreo aleatorios de los no-aleatorios.

Los procedimientos de muestreo aleatorios pueden ser más o menos complejos. Consideraremos aquí el más sencillo de todos, el muestreo aleatorio simple.

Una muestra aleatoria simple (simple random sample) es aquella que se ha extraído de tal forma que todos los individuos de la población tuvieron la misma probabilidad de ser seleccionados.

Todos los procedimientos de estimación que se tratan en este curso se basan en la suposición de que se aplican a muestras aleatorias simples. Puesto que no consideraremos otros tipos de muestreo aleatorio más complicados (estratificados, de conglomerados, o polietápicos), en adelante utilizaremos los términos muestreo aleatorio y muestra aleatoria para referirnos al muestreo o a las muestras aleatorios/as simples.

El término ‘aleatorio’ se utiliza vulgarmente con mucha ligereza. Muchos llaman aleatorio a algo que no está gobernado por una sistemática conocida. Por ejemplo, si tengo una bolsa llena de bolitas numeradas y extraigo una por el procedimiento de la mano inocente (removiendo y cogiendo una sin mirar) ¿Ha sido esto una extracción aleatoria? Seguramente no. Al menos, no puedo garantizar que todas las bolitas hayan tenido la misma probabilidad de ser seleccionadas. Por tanto, no puedo decir que se trata de una muestra aleatoria simple.

Del mismo modo, algunos investigadores creen que un procedimiento de selección de pacientes basado en alguna característica aparentemente ‘inofensiva’, como por ejemplo el día de su nacimiento (p.ej. días pares), es aleatorio. Pues no lo es. No cumple con la definición. No es cierto que todos los pacientes hayan tenido la misma probabilidad de ser seleccionados: los nacidos en día par han tenido probabilidad 1 y los nacidos en día impar, probabilidad 0. El hecho de que no parezca probable una relación entre la característica utilizada para seleccionar la muestra (día de nacimiento) y lo que se pretenda estudiar en ella, no la eleva al rango de aleatoria.

Page 4: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 4

Para que pueda decirse lícitamente que una muestra es aleatoria simple, debe cumplir con la definición anterior.

Page 5: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 5

4. CÓMO OBTENER UNA MUESTRA ALEATORIA SIMPLE

Obtener una muestra aleatoria simple a partir de una población sólo es posible si la población está definida por extensión, es decir, si está censada. Sólo si disponemos de un censo, una lista completa de los individuos que integran la población, podemos extraer una muestra aleatoria simple. Este será el caso de muchos estudios epidemiológicos en que la población de interés es la de un país, región o ciudad, porque suelen existen censos de estas demarcaciones.

Supongamos que disponemos del censo de una población compuesta por un total de M individuos. Para obtener una muestra aleatoria de N individuos (N<M), podemos proceder del siguiente modo:

1. Asignar un número aleatorio a cada uno de los M individuos. Podemos hacer esto con la ayuda de un ordenador y un programa estadístico o una hoja de cálculo como Excel de Microsoft (función ‘ALEATORIO()’ ).

2. Ordenar los M individuos de menor a mayor, según el número aleatorio asignado.

3. Seleccionar los N primeros individuos.

Desgraciadamente, muchas de las poblaciones que nos interesa estudiar se definen por comprensión (no por extensión), es decir, aludiendo a cierta característica que define a los individuos que la componen. Por ejemplo, la población de los diabéticos. Esta población no está censada. En este caso, es imposible extraer una muestra aleatoria, porque es imposible garantizar que todos los integrantes tendrán la misma probabilidad de ser seleccionados (ni siquiera sabemos quiénes son, ni siquiera cuántos son).

Por lo tanto, puede que ante ciertos problemas de investigación, el muestreo aleatorio resulte imposible y que la única opción sea utilizar muestras de conveniencia obtenidas por procedimientos no-aleatorios. Si no hay más remedio, posiblemente será mejor esto que nada. Pero si es posible obtener muestras aleatorias, no hay excusa para no hacerlo. Desde luego es mucho más sencillo obtener una muestra de conveniencia (de conveniencia quiere decir ‘lo que tengo a mano’). Pero, en general, no tendremos ningún argumento para justificar las conclusiones de los análisis estadísticos.

Page 6: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 6

5. ESTIMACIÓN PUNTUAL DE P

Supongamos que ya disponemos de una muestra aleatoria de la población de habitantes de Cataluña. Supongamos que la muestra está integrada por 100 individuos a los que hemos encuestado para saber si fuman o no, de modo que podemos calcular la proporción de fumadores en la muestra. A esta proporción la denominamos proporción muestral y la simbolizaremos ‘pm’.

Debiera ser claro que pm no tiene por qué coincidir (y probablemente no coincidirá) con P (la proporción de fumadores en la población). A pesar de ello, pm es lo mejor que tenemos para estimar P. Por eso decimos que la proporción muestral pm es un estimador del parámetro P y, el valor concreto que adopte pm en una muestra (p.ej. 0,63) es una estimación puntual del parámetro P.

Cuando utilizamos estimaciones puntuales confiamos en que la estimación se parezca al parámetro que pretendemos estimar. Confiamos en que pm=0,63 se parezca a P. Sin embargo, no sabemos hasta que punto puede parecerse o hasta que punto pueden diferir, porque la estimación (el valor que adopte el estimador pm en una muestra concreta) está sujeta a variabilidad muestral: depende de la composición de la muestra, y ésta ha sido gobernada por el azar. Siempre que 0 < P < 1, pm puede adoptar cualquier valor entre 0 (si ninguno de los 100 integrantes de la muestra es fumador) y 1 (si todos lo son).

Sería estupendo si pudiéramos tener alguna orientación sobre el parecido entre la estimación y el parámetro que pretendemos estimar. Veremos que esto es posible, a costa de cierta imprecisión, mediante un procedimiento que se denomina estimación por intervalo. La imprecisión consiste en que las estimaciones que obtendremos por este procedimiento no son puntuales (no se trata de un único valor) sino que tienen la forma de un intervalo de valores que denominamos intervalo de confianza (IC).

La estimación por intervalo (los IC) constituyen LA herramienta de estimación. ES la estimación por excelencia. Además, aparecen en la práctica totalidad de los originales publicados en prensa médica (y si no aparecen, debieran hacerlo). Pero a pesar de ello, muchos investigadores tienen dificultad para interpretarlos.

Entender qué es y cómo se obtiene un IC no es muy complicado, y es muy conveniente para poder interpretarlos correctamente. Por eso hemos dedicado a este propósito el resto de la unidad. Y para hacerlo bien, hay que pasar antes por algunos conceptos que están en la base de la construcción de los IC. Vamos a ello.

Page 7: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 7

6. VARIABLES ALEATORIAS Y DISTRIBUCIÓN MUESTRAL DE UN ESTIMADOR

Continuemos con nuestro ejemplo. Suponga que en la muestra de 100 casos que hemos extraído aleatoriamente, hay 63 fumadores (f) y 37 no-fumadores (no-f) , de modo que pm=0,63. Imagine ahora que decidimos extraer otra muestra de tamaño 100 y que en dicha muestra observamos 57 f y 43 no-f, y por tanto pm = 0,57. Imagine que extraemos una tercera, y una cuarta, y una quinta muestra, y muchas más, observando el valor de pm en todas ellas y anotándolo cuidadosamente.

Primera conclusión de este hipotético experimento: los estimadores (como pm) son variables aleatorias en el muestreo. Esto quiere decir que el valor que adoptan varía de muestra en muestra, y además varía aleatoriamente (¡si el muestreo ha sido aleatorio, claro!). Por ejemplo, ya hemos comentado que pm puede adoptar cualquier valor entre 0 y 1 (siempre que 0 < P < 1).

Segunda conclusión: si nos entretuviéramos en extraer, no una, sino muchas muestras aleatorias, todas del mismo tamaño N, obtendíamos una distibución de valores de pm (uno por cada muestra). Esta distribución se denomina distribución muestral del estimador pm, porque es la distribución que obtendíamos a base de al repetir el muestreo.

Si realmente hiciéramos este experimento de remuestreo ¿cómo sería la distribución muestral de pm ? Vamos a verlo, simulando el experimento con el ordenador.

Page 8: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 8

7. SIMULANDO LA DISTRIBUCIÓN MUESTRAL DE PM

Hemos simulado la extracción de 100.000 muestras aleatorias de N=100 observaciones cada una, a partir de una población en que el 60% de los individuos presenta cierta característica (p.ej. ser fumador). Por lo tanto, el valor del parámetro P en esta población es 0,6. En cada una de las 100.000 muestras, hemos calculado el valor del estimador pm. (Todo esto lo hace el ordenador ... ¡en pocos segundos!).

En la figura 7.1a se representa, mediante un histograma, la distribución muestral de (los 100.000 valores de) pm. Lo primero que destaca es que dichos valores oscilaron entre 0,42 y 0,78 aproximadamente. En realidad, el mínimo valor observado fue 0,37 y el máximo 0,80, pero sólo aparecieron una vez y esta frecuencia es demasiado baja para apreciarse en el histograma. En cualquier caso, ninguna de las 100.000 muestras presentó un valor de pm fuera de este rango.

También es llamativa la distinta frecuencia con que aparecieron los distintos valores de pm: los próximos a 0,6 fueron mucho más frecuentes que los distantes de 0,6. Además, es notable la simetría del histograma: a medida que nos alejamos de 0,6, la frecuencia desciende de forma análoga, tanto si nos alejamos hacia valores más bajos como si lo hacemos hacia valores más altos.

La silueta recortada del histograma de la figura 7.1a puede dar la falsa impresión de que estos descensos en la frecuencia ocurren ‘a saltos’. Sin embargo, esto se debe a que el histograma se ha construido con intervalos relativamente amplios (amplitud 0,05).

En la figura 7.1b se muestran los mismos datos pero construyendo el histograma con una amplitud de intervalos menor (amplitud 0,02). Aunque la silueta del histograma sigue siendo algo recortada, lo es mucho menos que antes.

En la figura 7.1c la amplitud de los intervalos es todavía menor que antes (amplitud 0,01) y por ello su silueta se ha suavizado más. Esto sugiere que la frecuencia con que aparecen los distintos valores de pm desciende, no a saltos sino progresivamente, a medida que nos alejamos de 0,6.

Las figuras 7.1a, 7.1b y 7.1c son representaciones alternativas de los mismos datos. Sólo difieren en la amplitud de los intervalos utilizados para construir el histograma, que es progresivamente más pequeña. La consecuencia es que la silueta del histograma es progresivamente más suave.

Si siguiéramos este proceso (empequeñeciendo la amplitud de los intervalos del histograma) indefinidamente, hasta trabajar con intervalos infinitesimales, obtendríamos una silueta perfectamente suave. Una silueta como la que se muestra en la figura 7.1d (en realidad, para obtener exactamente esto, haría

Page 9: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 9

falta disponer de infinitas muestras, pero con 100.000, la aproximación es muy buena). Señores, en pié: esta silueta es la de una distribución Normal.

Page 10: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 10

8. LA DISTRIBUCIÓN MUESTRAL DE PM: MEDIA Y DISPERSIÓN

Un importante resultado de la estadística matemática permite anticipar lo que hemos constatado empíricamente mediante una simulación:

Si extrajéramos infinitas muestras aleatorias, todas ellas del mismo tamaño N, a partir de una población en la que cierta característica está presente en proporción P, entonces, si N es suficientemente grande (ya precisaremos luego qué entendemos por suficientemente grande), podemos predecir que:

la distribución muestral de pm seguiría un patrón conocido como distribución Normal.

La distribución muestral de pm tendría una media igual a P (la proporción poblacional).

La distribución muestral de pm tendría una varianza igual a N

P1P y

por lo tanto, una desviación estándar igual a N

P1P (Recuerde

que ambos índices miden la dispersión de los valores de una distribución, en este caso la distribución muestral de pm).

La desviación estándar de la distribución muestral de pm se denomina a veces error estándar de pm. En general, la desviación estándar de la distribución muestral de un estimador se denomina error estándar del estimador.

Abreviamos estos tres puntos diciendo que la distribución muestral de pm sería

Normal, con media P y desviación estándar N

P1P . Esta es precisamente

la distribución Normal que se muestra en la figura 7.1d, para el caso en que P=0,6 y N=100.

¿Por qué es importante este resultado? Pues porque nos permite calcular la probabilidad de que pm adopte determinados valores y, como veremos, a esto le sacaremos mucho partido. Pero antes, unas breves palabras sobre los modelos teóricos de distribución de probabilidad (en general) y sobre la distribución Normal (en particular).

Page 11: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 11

9. LOS MODELOS TEÓRICOS DE DISTRIBUCIÓN DE PROBABILIDAD

En la unidad 1 nos referimos fugazmente a los modelos teóricos de distribución de probabilidad adelantando que se trata de modelos matemáticos que permiten describir el comportamiento de ciertas variables aleatorias. Por ejemplo, acabamos de ver que la distribución Normal describe bien la distribución muestral de pm.

¿Para qué sirve saber esto? ¿Para qué sirve conocer que una variable aleatoria (como, por ejemplo, pm) se distribuye según un patrón o modelo teórico conocido? Pues porque entonces podemos utilizar ese modelo teórico para calcular probabilidades.

Estos cálculos pueden hacerse utilizando tablas (casi todos los textos de estadística incluyen la tabla de probabilidades de la distribución Normal y de otros modelos de uso frecuente). Hoy en día, estos cálculos pueden hacerse utilizando funciones específicas disponibles en aplicaciones informáticas para realizar cálculos estadísticos (p.ej., SAS) o en aplicaciones de uso más general como Excel.

La distribución Normal no es más que uno de los muchos modelos teóricos de distribución de probabilidad de variables aleatorias que están descritos. Es especialmente importante porque gran parte de la estadística se ha desarrollado en torno a él. No ofreceremos una descripción formal (matemática) de este modelo pero, en la siguiente sección, explicaremos algunas de sus características más importantes.

Page 12: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 12

10. LA DISTRIBUCIÓN NORMAL

Aunque siempre nos referimos a ella en singular, en realidad no existe una única distribución Normal. Hay infinitas distribuciones Normales que difieren en media y/o desviación estándar. Veamos unas cuantas para ilustrar esto.

En la figura 7.2a se muestran tres distribuciones Normales que difieren en media pero tienen idéntica desviación estándar. En la figura 7.2b se muestran tres distribuciones Normales con igual media pero distinta desviación estándar. La media determina el lugar en que está centrada la distribución y la desviación estándar determina la dispersión.

La media y la desviación típica determinan perfectamente una única distribución Normal, y suelen representarse mediante las letras griegas y (léanse mu y sigma, respectivamente). Suele utilizarse la notación N(,) para indicar una distribución Normal, de media y desviación tipo .

La distribución Normal (Normal distribution) siempre tiene una forma acampanada (también se la llama ‘campana de Gauss’) y es perfectamente simétrica alrededor de su media.

En cualquier modelo teórico de distribución de probabilidad continuo, la probabilidad de que la variable aleatoria que se distribuye según ese modelo adopte un valor en un intervalo determinado viene dada por el área bajo la curva limitada por dicho intervalo.

En las distribuciones Normales, el intervalo definido por los siguiente límites delimita una área de 0,95, y por tanto, una probabilidad del 95%:

Li = - 1,96

Ls = + 1,96

Dicho de otro modo, si una variable aleatoria sigue una distribución N(,), cualesquiera que sean los valores de y de , la probabilidad de que la variable adopte un valor comprendido en el intervalo 1,96 es del 95%. Esto se ilustra en la figura 7.3.

De forma más general, podemos calcular un intervalo, simétrico alrededor de , que delimite cualquier valor deseado de probabilidad (1-), y que excluya sólo una pequeña región de probabilidad 2 en cada uno de los extremos de la

curva Normal. Estos intervalos se calculan utilizando el valor adecuado de z en la siguiente expresión:

z

Page 13: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 13

Si queremos que el intervalo comprenda una probabilidad del 95% (excluyendo un 5%), entonces debemos usar la fórmula anterior con z = 1,96. En la siguiente tabla se muestran los valores de , (1-) y z utilizados con mayor frecuencia:

(1-) Z

0,10 0,90 1,64

0,05 0,95 1,96

0,01 0,99 2,57

Los intervalos a los que acabamos de referirnos se denominan intervalos de probabilidad (1-) y, para abreviar, lo escribimos así: IP(1-). Si =0,05, entonces (1-)=0,95 y escribimos IP(0,95) o IP(95%).

Los IP(1-) permiten predecir el valor que adoptará una variable aleatoria, con una probabilidad (1-). Veámoslo aplicado al ejemplo de las proporciones muestrales pm.

Page 14: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 14

11. INTERVALO DE PROBABILIDAD DEL 95% PARA PM

Según lo que acabamos de aprender en relación con las distribuciones Normales, el IP(1-) definido por z comprende una probabilidad (1-).

Anteriormente habíamos visto que la distribución muestral de pm es Normal con

= P y N

P1Pσ

. Por lo tanto, el IP(1-) de la distribución muestral de

pm es

P z N

P1P

Esto quiere decir es que, si extrajéramos muchas (¡infinitas!) muestras aleatorias de tamaño N, a partir de una población en que cierta característica se presenta con proporción P, en una proporción (1-) de las muestras el valor de pm caería dentro del IP(1-). Si extraemos una sola muestra, hay una probabilidad (1-) de que el valor de pm en dicha muestra se sitúe dentro del IP(1-).

La construcción de un IP(1-) y su significado, se ilustran en la figura 7.4. Pero veamos esto con números para afianzar las ideas.

Recuperando nuestro ejemplo, sabemos que la proporción de fumadores en una población es 0,6. Por tanto, la distribución muestral de pm es Normal con = P = 0,6 y = [ P (1-P) / N ] 0,05. El IP(95%) será

P 1,96 [ P (1-P) / N ]

= 0,6 1,96 [ 0,6 (1-0,6) / 100 ]

= 0,6 1,96 0,05

= 0,502 a 0,698

y podemos afirmar lo siguiente:

En el 95% de las muestras aleatorias de tamaño N=100 extraídas a partir de esta población en que P=0,6, el valor de pm estará comprendido entre 0,502 y 0,698 (o lo que es lo mismo, 50,2% y 69,8%).

O alternativamente, podemos afirmar que:

Page 15: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 15

Si extraemos una muestra aleatoria de tamaño N=100 a partir de esta población en que P=0,6, hay una probabilidad del 95% de que el valor de pm en dicha muestra esté comprendido entre 0,502 y 0,698 (o lo que es lo mismo, 50,2% y 69,8%).

Si en vez de utilizar z = 1,96 hubiéramos utilizado, por ejemplo, z = 2,57, podríamos hacer las mismas afirmaciones pero con una probabilidad del 99% en lugar del 95% (o sea, con mayores garantías, aunque también tendríamos un intervalo más amplio, menos preciso).

Page 16: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 16

12. SI CONOZCO EL TODO, PUEDO CONOCER UNA PARTE

Recapitulemos brevemente lo que hemos visto hasta aquí. Hemos aprendido que:

Si conocemos la proporción P con que se da una característica en una población y, ...

... extraemos muchas (infinitas) muestras aleatorias de tamaño N ...

la proporción pm con que se dará la característica en dichas muestras variará según un patrón Normal de media P y varianza P (1-P) / N .

De modo que podemos calcular, p.ej., un IP(95%) y afirmar que, si extraemos una muestra aleatoria de N individuos a partir de la población, hay una probabilidad muy elevada (95%) de que la proporción muestral pm caiga en el intervalo P 1,96 [ P (1-P) / N ].

Como ejercicio de predicción, resulta fascinante. Pero lamentablemente, en la práctica nunca conoceremos P ¡Es precisamente lo que querremos averiguar! Por otro lado, si conociéramos P ¿Para qué demonios puede interesarnos conocer los valores que, muy probablemente, adoptará pm al extraer una muestra? ¡Si ya no haría falta extraer muestras!

Efectivamente, hasta aquí hemos resuelto un problema aparentemente inútil: si conozco lo que pasa en la población (el valor del parámetro P), puedo conocer (probabilísticamente) lo que pasará al extraer una muestra (el valor del estimador pm). Si conozco ‘el todo’, puedo conocer (probabilísticamente) ‘una parte’. Ahora veremos como hacer lo contrario.

Page 17: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 17

13. SI CONOZCO UNA PARTE... ¿PUEDO CONOCER EL TODO? INTERVALOS DE CONFIANZA

Recordemos el problema de estimación que se plantea en la práctica y lo que propusimos para resolverlo:

Desconocemos P y nos gustaría conocerlo

Conocerlo con exactitud es imposible. Lo mejor que podemos hacer es extraer una muestra aleatoria y estimar P a partir de ella.

Estimamos P mediante pm. Sabemos que es muy probable (siempre que seleccionemos valores grandes de 1-, p.ej. 1- = 0,95) que pm esté comprendido en el IP(1-) definido por P z [ P (1-P) / N ].

Ahora nos la tenemos que jugar. Puesto que es muy probable, vamos a confiar en que el valor de pm en nuestra única muestra, está efectivamente comprendido en el IP(1-), tal como se ilustra en la figura 7.5.

Si definimos un intervalo simétrico, de igual amplitud que el IP(1-), alrededor de pm, es decir

pm z [ P (1-P) / N ]

entonces, este nuevo intervalo contendrá necesariamente el valor P, tal como se ilustra en la figura 7.6.

Naturalmente, será cierto que P estará comprendido en el intervalo anterior en la medida en que pm esté comprendido en el IP(1-). Como esto tiene una probabilidad del (1-) al intervalo anterior lo llamamos intervalo de confianza (1-) y lo abreviamos así: IC(1-).

La fórmula que acabamos de presentar tiene un problema: necesitamos conocer P para calcularlo y no lo conocemos, puesto que es lo que pretendemos estimar. Que no cunda el pánico. Hay dos soluciones posibles.

Una posibilidad es sustituir P por la mejor estimación que tenemos, es decir pm. En tal caso, calcularíamos el IC(1-) así:

pm z [pm (1- pm) / N ].

Ahora, en la fórmula sólo interviene pm y N. En cualquier estudio real conoceremos ambas cosas puesto que son la proporción muestral y el tamaño muestral.

Page 18: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 18

Otra posibilidad, más prudente que la anterior (aunque quizás demasiado prudente), es utilizar el valor de P que hace más amplio el IC. Puesto que P puede adoptar cualquier valor entre 0 y 1, es fácil constatar que cuando P=(1-P)=0,5 la amplitud del IC es máxima. De este modo, el IC tendrá una confianza del 95% o quizás mayor.

Veamos un ejemplo con números. Supongamos que, para estimar la prevalencia del tabaquismo en Cataluña hemos obtenido una muestra aleatoria de 2.000 individuos. Supongamos que tras encuestarlos, hay 1.158 fumadores. Por tanto,

pm = 1.158 / 2.000 = 0,579

Supongamos que deseamos hacer una estimación por intervalo con una confianza del 95%, es decir, con 1- = 0,95. Entonces, debemos utilizar z = 1,96. EL IC(95%) será,

pm 1,96 [pm (1- pm) / N ]

= 0,579 1,96 [ 0,579 (1-0,579) / 2.000 ]

= 0,579 1,96 0,0110

= 0,579 0,0216

= 0,5574 a 0,6006

Por tanto, podremos afirmar, con una confianza del 95%, que la prevalencia del tabaquismo en Cataluña (P) está comprendida entre el 55,74% y el 60,06%.

Podemos hacer este cálculo muy fácilmente con StatCrunch. Bastará introducir el número de casos que han presentado la característica de interés en la muestra (1.158) y el tamaño muestral (2.000), y solicitar el CI en el diálogo que se abrirá al activar la opción de los menú Stat>Proportions>One Sample>Use summary data!.

Page 19: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 19

14. MÁS SOBRE LA INTERPRETACIÓN DE LOS IC

Tal como prometía el título de esta unidad, hemos aprendido a adivinar el valor de un parámetro en una población a partir de una muestra, mediante el cálculo de un IC. Pero conviene que seamos conscientes de las limitaciones de este arte adivinatorio, que vienen dadas por su naturaleza probabilística. Las comentaremos en esta sección.

En primer lugar cabe aclarar que, cuando se hace una estimación por intervalo, se puede tener muy mala suerte: aunque es muy improbable, es posible que nuestra muestra sea una de las que producen un valor de pm fuera del IP(1-). Si ha sido así (cosa que lamentablemente no hay manera de saber), el IC(1-) no contendrá el parámetro que pretendemos estimar (P). Esto se ilustra en la figura 7.7.

Ahora bien, esto es tanto más improbable cuanto más pequeño seleccionemos el valor de , puesto que la probabilidad de que ocurra esto es precisamente . Así, para un IC(95%), la probabilidad de que ocurra es un 5%. Pero para un IC(99%), es tan solo de un 1%. Naturalmente, cuanto más queramos asegurarnos (más pequeño seleccionemos el valor de ), mayor será la amplitud del IC(1-). Así que lo que ganamos en seguridad, lo perdemos en precisión de la estimación.

En segundo lugar, un IC(1-) nos permite afirmar con confianza (1-), que el valor del parámetro que pretendemos estimar (P) está dentro del IC(1-), pero no hay manera de saber dónde. No todos los puntos dentro del IC son igualmente probables. Cuanto más cercano al centro del IC, es decir, al valor de la estimación puntual pm, más probable.

Lo anterior implica que la amplitud de un IC debe interpretarse como una medida de nuestra ignorancia acerca de lo que pretendemos estimar. En consecuencia, los IC muy amplios no son muy informativos: ¿Qué gracia tendría afirmar que la prevalencia de algo está entre el 10% y el 90%? Muy poca. Lo interesante es afinar mucho más, es decir, conseguir un IC mucho más estrecho. Y enseguida nos ocuparemos de esto.

Por último, una precisión importante. Todo lo dicho en relación con los IP(1-) y los IC(1-) se basa en la afirmación de que la distribución muestral de pm es Normal. Pues bien, lo es bajo ciertas condiciones de tamaño muestral. Si el tamaño muestral es suficientemente grande, será cierto. Pero si no, no lo será, y nuestros cálculos nos inducirán a hacer afirmaciones falsas.

¿Cuándo debemos considerar que una muestra es suficientemente grande para poder aplicar los argumentos y los cálculos que hemos presentado? Pues cuando se cumpla que el producto N P > 5 y también que N (1-P) > 5. El viejo y recurrente problema: no conocemos P. Pues utilizamos pm en su lugar. Así que la condición se convierte en que N pm > 5 y también que N (1- pm) > 5. Si

Page 20: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 20

no se dan estas condiciones, los procedimientos explicados anteriormente no deben utilizarse. Hay alternativas más complicadas, pero fuera de lo que sería razonable explicar en este curso.

Page 21: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 21

15. IMPORTANCIA DEL TAMAÑO MUESTRAL

Vamos a mirar con algo de detenimiento la fórmula del IC(1-):

pm z [pm (1- pm) / N ]

En realidad, se trata de añadir y restar una cantidad a la estimación puntual, para ganar cierta confianza en relación con el valor del parámetro P. La cantidad que añadimos y restamos determina la amplitud que tendrá el intervalo (A):

A = 2 z [po (1- po) / N ]

¿Qué cosas afectan a la amplitud del IC? Pues si mira la fórmula de encima, verá que interviene zpm y N.

En cuanto a z, viene definido por la confianza con la que deseamos hacer la estimación, y ya hemos comentado lo que pasa: si queremos más confianza, el valor de zserá más grande, ampliando el IC.

En cuanto a pm , nos viene dado: es la proporción observada en la muestra.

Por tanto, sólo nos queda el tamaño muestral N. Como está en el denominador, cuanto mayor sea N, menor será la amplitud del intervalo. En la figura 7.8 se ilustra cómo cambia la amplitud de un IC(95%) en función del tamaño muestral, en el caso en que pm = 0,5.

En la fase de diseño de un estudio, será importante determinar el tamaño muestral que nos permitirá obtener un IC con la amplitud deseada. ¿Cómo? Fácil: despejando N de la formulita anterior. Si lo hacen, les quedará esto:

N = 4 z pm (1- pm) / A2

Problema: en fase de diseño todavía no disponemos de la muestra, así que no conocemos pm. Solución: o tenemos alguna estimación previa, o escogemos el valor que maximiza N, que es 0,5.

Page 22: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 22

Veamos un ejemplo. Supongamos que deseamos realizar un estudio para estimar una prevalencia con una confianza del 95%, y queremos que la amplitud del IC(95%) no exceda un 4%. Entonces, el tamaño de la muestra que tendremos que obtener será:

N = 4 z pm (1- pm) / A2

= 4 (1,96)2 (0,5) (0,5) / (0,04)2

= 2.401

Page 23: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 23

16. GENERALIZANDO LO QUE HEMOS HECHO

En las secciones anteriores hemos explicado el procedimiento de estimación por intervalo de una proporción poblacional P. Las fórmulas que hemos presentado se derivan a partir de la distribución muestral del estimador, y sólo son aplicables al caso en que necesitamos estimar una proporción P.

En muchas ocasiones desearemos estimar otro tipo de parámetros en lugar de una proporción. Por ejemplo, podríamos estar interesados en conocer la media de una variable continua como la concentración plasmática de colesterol en una población. Entonces, el parámetro que desearemos estimar no es una proporción, sino una media. Podemos obtener el CI de una media con StatCrunch, mediante la opción Stat>T Statistics>One Sample.

Los parámetros poblacionales de potencial interés pueden ser muy variados. Todos los índices que hemos visto en las unidades anteriores pueden ser de interés: una media, una mediana, una varianza, un coeficiente de correlación, un odds ratio, ... y muchas otras cantidades. Si queremos conocer el valor que adoptan estos índices en una población inaccesible, tendremos que estimarlos por intervalo a partir de una muestra aleatoria.

La fórmula necesaria para estimar un parámetro dependerá de cómo es la distribución muestral del estimador (no siempre será Normal). Pero las fórmulas son lo de menos, porque hay herramientas como StatCrunch u otras, que nos resuelven los cálculos sin necesidad de que nosotros conozcamos la fórmula. En la sección de lecturas y links de esta unidad, ofrecemos algunas referencias útiles para resolver la estimación de diversos parámetros de interés frecuente.

Lo verdaderamente importante son dos cosas, que conviene tener muy claras. La primera es que, siempre que deseemos conocer el valor de un parámetro en una población inaccesible, tendremos que estimarlo a partir de una muestra, mediante un estimador. El estimador está sujeto a variabilidad muestral. Si se conoce la forma (modelo teórico) de la distribución muestral del estimador, es posible obtener un IC(1-).

La segunda cosa importante es la interpretación que hemos de dar a ese IC(1-). Y en este punto, la interpretación es la misma con independencia del parámetro que estemos estimando. Un IC(1-) para un parámetro, siempre es un intervalo de valores que, con una confianza (1-), incluye el valor del parámetro que estamos estimando.

Page 24: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 24

17. LECTURAS RECOMENDADAS Y LINKS DE INTERÉS

Para aprender a estimar por intervalo casi todo lo que uno puede llegar a necesitar, un libro muy recomendable, que incluye un software extraordinariamente práctico con el que podrá calcular todos los intervalos de confianza que verosímilmente puede necesitar:

Altman DG, Machin D, Bryant TN, Gardner MJ. Statistics with Confidence. Second edition. BMJ books, Bristol 2000.

Una web dedicada a los IC:

http://davidmlane.com/hyperstat/confidence_intervals.html

Para quien quiera saber más acerca de variables aleatorias y distribuciones de probabilidad, incluyendo la Normal:

http://www.stats.gla.ac.uk/steps/glossary/probability_distributions.html.

Para calcular y ver la región de probabilidad que queda definida por dos valores de una variable aleatoria con distribución Normal. Si asigna el valor cero a la media (mean) y el valor 1 a la desviación estándar (StDev), puede introducir el valor de z en las cajas inferiores y ver la probabilidad que limitan. Ponga primero –1.96 en Start y 1.96 en End.

http://psych.colorado.edu/~mcclella/java/normal/accurateNormal.html

Para simular un experimento de remuestreo, calculando el IC (CI en inglés) en cada muestra y viendo en cuantas ocasiones el IC incluye realmente al parámetro (‘Percent in Interval’). Haga click sobre la tecla ‘Begin’. Es muy fácil de usar.

http://www.ruf.rice.edu/~lane/stat_sim/normal_approx_conf/index.html

Web con calculadoras para estimar por intervalo proporciones y la diferencia de dos proporciones. Siga el link ‘proportions’:

http://faculty.vassar.edu/~lowry/VassarStats.html

Página con diversos links para obtener el IC de varios parámetros (medias, proporciones, correlaciones y otros). Siga el link ‘Confidence Intervals...’: http://statpages.org/#Confidence

Page 25: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 25

18. RESUMEN

En esta unidad hemos presentado el concepto de estimación de parámetros, como un intento de adivinar cantidades poblacionales desconocidas a partir de una muestra aleatoria. Hemos definido el muestreo aleatorio ( a veces llamado muestreo probabilístico) y presentado las condiciones necesarias para poder realizarlo.

En relación con la estimación, se ha distinguido entre la estimación puntual y la estimación por intervalo (intervalos de confianza), presentando esta última como la herramienta de estimación por excelencia, y explicando las bases racionales en las que descansa. Para ello se han introducido los conceptos de estimador, distribución muestral de un estimador e intervalos de probabilidad definidos sobre esta distribución muestral. Como ejemplo, hemos utilizado la distribución muestral de una proporción observada, lo que ha permitido presentar la distribución Normal, que es una de las distribuciones de probabilidad más frecuentemente utilizadas, y mostrar alguna de sus propiedades más importantes.

En relación con los intervalos de confianza (IC), hemos discutido su interpretación, hemos visto cómo el tamaño muestral determina su amplitud, y cómo este hecho se aprovecha, durante el diseño de un estudio, para garantizar que la amplitud del IC no excederá cierto máximo deseado.

Por último, aunque para presentar las importantes cuestiones de estimación tratadas en esta unidad se ha utilizado como ejemplo la estimación de una proporción, hemos terminado advirtiendo que el mismo proceso lógico puede aplicarse al cálculo de un IC para cualquier otro parámetro de interés.

Page 26: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 26

19. EJERCICIOS

19.1 Ejercicio 1

Para estimar la prevalencia de una enfermedad en una comunidad muy extensa (millones de habitantes), se ha extraído una muestra de 4.000 individuos, de forma que todos los integrantes de la comunidad tuvieron idéntica probabilidad de ser seleccionados. La muestra obtenida es:

1. aleatoria simple

2. no-aleatoria

3. de conveniencia

4. aleatoria estratificada

5. aleatoria por conglomerados

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

19.2 Ejercicio 2

En una población, la prevalencia de cierta enfermedad es desconocida y para estimarla se ha obtenido una muestra aleatoria simple de 1.000 personas. Entre ellas, 350 presentan la enfermedad. Estimar por intervalo la prevalencia poblacional con una confianza del 99%. El IC(99%) ...

1. es imposible de calcular

2. se extiende desde 31,11% hasta 38,88%

3. se extiende desde 32,04% hasta 37,96%

4. se extiende desde 1,51% hasta 38,88%

5. se extiende desde 1,51% hasta 31,11%

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

Page 27: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 27

19. 3 Ejercicio 3

Nos disponemos a realizar un estudio para estimar una proporción. Para ello extraeremos una muestra aleatoria simple a partir de la población de interés. ¿Qué tamaño debería tener la muestra para garantizar que el IC(95%) de la proporción tendrá una amplitud no superior a 6%?

1. 1068

2. 1067,11

3. 10,67

4. 64

5. no se puede calcular

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

19. 4 Ejercicio 4

Siempre que calculemos el IC(95%) de un parámetro a partir de una estimación de ese parámetro obtenida en una muestra aleatoria, podemos afirmar que

1. el IC contiene el 95% de los valores del parámetro

2. el IC contiene la estimación con una confianza de 0,95

3. el IC contiene la estimación con una confianza de 0,05

4. el IC contiene al parámetro con una confianza de 0,95

5. el IC contiene al parámetro con una confianza de 0,05

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

19. 5 Ejercicio 5

Se desea estimar por intervalo la media del colesterol-LDL en una comunidad. Para ello se dispone de una muestra aleatoria simple de 200 individuos en los

Page 28: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 28

que se ha determinado el colesterol plasmático. La media del colesterol en la muestra es 120 mg/dL y la varianza es 1225 (mg/dL)2. Calcule el intervalo de confianza del 95% para la media poblacional utilizando la opción Stat > T statistic > One sample > with summary de StatCrunch. El IC95% es:

1. -50 a 290 mg/dL

2. 109 a 131 mg/dL

3. 115 a 125 mg/dL

4. 193 a 207 mg/dL

5. no se puede calcular porque falta la desviación estándar

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

Page 29: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 29

FIGURAS

F 7·1a ?

Pendiente de gráfico

Page 30: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 30

F 7·1b Distribución de las Proporciones Muestrales en 100.000 muestras extraídas aleatoriamente de una población con P=0,6

Page 31: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 31

F 7·1c Distribución de las Proporciones Muestrales en 100.000 muestras extraídas aleatoriamente de una población con P=0,6

Page 32: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 32

F 7·1d Distribución Normal

Page 33: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 33

F 7·2a Distribuciones Normales con distinta media e igual dispersión

Page 34: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 34

F 7·2b Distribuciones Normales con distinta media e igual dispersión

Page 35: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 35

F 7·3 Intervalo de Probabilidad del 95%

Page 36: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 36

F 7·4 Intervalo de Probabilidad del (1-α)

Page 37: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 37

F 7·5 Intervalo de Probabilidad del (1-α)

Page 38: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 38

F 7·6 Intervalo de confianza (1-α)

Page 39: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 39

F 7·7 Intervalo de confianza (1-α)

Page 40: U7. ESTIMACIÓN: UN EJERCICIO DE ADIVINACIÓN … · valor de P solo hay un camino: preguntar a todos los integrantes de la población si fuman o no. Desgraciadamente, esto es implanteable

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO I

U7 – Estimación: Un ejercicio de adivinación numérica

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 40

F 7·8 Límites del IC(95) para P según tamaño muestral (N)