Roberto Pastor-Barriuso
Instituto
Carlos IIIde Salud
Centro Nacional deEpidemiologa
Instituto
Carlos IIIde Salud
Centro Nacional deEpidemiologa
BIOESTADSTICA
MINISTERIODE ECONOMAY COMPETITIVIDAD Instituto
de SaludCarlos III
CentroNacional deEpidemiologa
Centro Nacional de EpidemiologaInstituto de Salud Carlos IIIMonforte de Lemos, 528029 MADRID (ESPAA)Tel.:91 822 20 00Fax: 91 387 78 15http://www.isciii.es
Catlogo general de publicaciones oficiales:http://publicacionesoficiales.boe.es/
Para obtener este libro de forma gratuita en internet (formato pdf):http://publicaciones.isciii.es/
http://creativecommons.org/licenses/by-nc-sa/2.1/es/
EDITA: CENTRO NACIONAL DE EPIDEMIOLOGA
Instituto de Salud Carlos III
Madrid, diciembre de 2012
N.I.P.O. (en lnea): 477-11-083-3I.S.B.N.: 978-84-695-3775-6
Imprime: Agencia Estatal Boletn Oficial del Estado.Avda. de Manoteras, 54. 28050 MADRID
BIOESTADSTICA
Roberto Pastor-Barriuso
Cientfico Titular
Centro Nacional de Epidemiologa, Instituto de Salud Carlos III,
Madrid
Para citar este libro
Pastor-Barriuso R. Bioestadstica. Madrid: Centro Nacional de Epidemiologa, Instituto de Salud Carlos III, 2012.
Este texto puede ser reproducido siempre que se cite su procedencia.
A la memoria de Carmen
A Marta, Pablo, Miguel y Antonio
vii
NDICE
1 Estadstica descriptiva 1
1.1 Introduccin 11.2 Medidas de tendencia central 3
1.2.1 Media aritmtica 31.2.2 Mediana 41.2.3 Media geomtrica 5
1.3 Medidas de posicin: cuantiles 51.4 Medidas de dispersin 6
1.4.1 Varianza y desviacin tpica 61.4.2 Rango intercuartlico 71.4.3 Coeficiente de variacin 7
1.5 Representaciones grficas 81.5.1 Diagrama de barras 81.5.2 Histograma y polgono de frecuencias 91.5.3 Grfico de tallo y hojas 101.5.4 Diagrama de caja 11
1.6 Referencias 12
2 Probabilidad 13
2.1 Introduccin 132.2 Concepto y definiciones de probabilidad 142.3 Probabilidad condicional e independencia de sucesos 162.4 Regla de la probabilidad total 182.5 Teorema de Bayes 182.6 Referencias 20
3 Variables aleatorias y distribuciones de probabilidad 21
3.1 Introduccin 213.2 Distribuciones de probabilidad discretas 22
3.2.1 Distribucin binomial 243.2.2 Distribucin de Poisson 263.2.3 Aproximacin de Poisson a la distribucin binomial 29
3.3 Distribuciones de probabilidad continuas 293.3.1 Distribucin normal 313.3.2 Aproximacin normal a la distribucin binomial 343.3.3 Aproximacin normal a la distribucin de Poisson 36
3.4 Combinacin lineal de variables aleatorias 373.5 Referencias 39
viii
ndice
4 Principios de muestreo y estimacin 41
4.1 Introduccin 414.2 Principales tipos de muestreo probabilstico 42
4.2.1 Muestreo aleatorio simple 434.2.2 Muestreo sistemtico 434.2.3 Muestreo estratificado 444.2.4 Muestreo por conglomerados 464.2.5 Muestreo polietpico 47
4.3 Estimacin en el muestreo aleatorio simple 494.3.1 Estimacin puntual de una media poblacional 494.3.2 Error estndar de la media muestral 514.3.3 Teorema central del lmite 534.3.4 Estimacin de una proporcin poblacional 55
4.4 Referencias 58
5 Inferencia estadstica 59
5.1 Introduccin 595.2 Estimacin puntual 605.3 Estimacin por intervalo 62
5.3.1 Distribucin t de Student 625.3.2 Intervalo de confianza para una media poblacional 63
5.4 Contraste de hiptesis 675.4.1 Formulacin de hiptesis 675.4.2 Contraste estadstico para la media de una poblacin 695.4.3 Errores y potencia de un contraste de hiptesis 72
5.5 Referencias 76
6 Inferencia sobre medias 79
6.1 Introduccin 796.2 Inferencia sobre una media y varianza poblacional 80
6.2.1 Inferencia sobre la media de una poblacin 806.2.2 Inferencia sobre la varianza de una poblacin 81
6.3 Comparacin de medias en dos muestras independientes 836.3.1 Comparacin de medias en distribuciones con igual varianza 856.3.2 Contraste para la igualdad de varianzas 886.3.3 Comparacin de medias en distribuciones con distinta varianza 90
6.4 Comparacin de medias en dos muestras dependientes 926.5 Referencias 95
ix
7 Inferencia sobre proporciones 97
7.1 Introduccin 977.2 Inferencia sobre una proporcin poblacional 977.3 Comparacin de proporciones en dos muestras independientes 997.4 Asociacin estadstica en una tabla de contingencia 1027.5 Test de tendencia en una tabla r2 1067.6 Medidas de efecto en una tabla de contingencia 107
7.6.1 Riesgo relativo 1087.6.2 Odds ratio 111
7.7 Comparacin de proporciones en dos muestras dependientes 1147.8 Apndice: correccin por continuidad 1177.9 Referencias 120
8 Mtodos no paramtricos 121
8.1 Introduccin 1218.2 Test de la suma de rangos de Wilcoxon 1228.3 Test de los rangos con signo de Wilcoxon 1298.4 Test exacto de Fisher 1348.5 Referencias 138
9 Determinacin del tamao muestral 139
9.1 Introduccin 1399.2 Tamao muestral para la estimacin de un parmetro poblacional 140
9.2.1 Tamao muestral para la estimacin de una media 1409.2.2 Tamao muestral para la estimacin de una proporcin 141
9.3 Tamao muestral para la comparacin de medias 1429.3.1 Tamao muestral para la comparacin de medias en dos muestras independientes 1439.3.2 Tamao muestral para la comparacin de medias en dos muestras dependientes 146
9.4 Tamao muestral para la comparacin de proporciones 1489.4.1 Tamao muestral para la comparacin de proporciones en dos muestras independientes 1489.4.2 Tamao muestral para la comparacin de proporciones en dos muestras dependientes 152
9.5 Referencias 154
10 Correlacin y regresin lineal simple 155
10.1 Introduccin 15510.2 Coeficiente de correlacin 155
ndice
x
ndice
10.2.1 Coeficiente de correlacin muestral de Pearson 15810.2.2 Coeficiente de correlacin de los rangos de Spearman 161
10.3 Regresin lineal simple 16410.3.1 Estimacin de la recta de regresin 16610.3.2 Contraste del modelo de regresin lineal simple 16910.3.3 Inferencia sobre los parmetros de la recta de regresin 17310.3.4 Bandas de confianza y prediccin para la recta de regresin 17510.3.5 Evaluacin de las asunciones del modelo de regresin lineal simple 17810.3.6 Observaciones atpicas e influyentes 18410.3.7 Variable explicativa dicotmica 190
10.4 Referencias 191
11 Regresin lineal mltiple 193
11.1 Introduccin 19311.2 Estructura de la regresin lineal mltiple 19411.3 Estimacin e inferencia de la ecuacin de regresin 196
11.3.1 Estimacin de los coeficientes de regresin 19711.3.2 Inferencia sobre los coeficientes de regresin 20011.3.3 Inferencia sobre la ecuacin de regresin 201
11.4 Contrastes de hiptesis en regresin lineal mltiple 20311.4.1 Contraste global del modelo de regresin lineal mltiple 20311.4.2 Contrastes parciales 206
11.5 Variables explicativas politmicas 21011.6 Regresin polinomial 21511.7 Confusin e interaccin en regresin lineal 218
11.7.1 Control de la confusin en regresin lineal 21811.7.2 Evaluacin de la interaccin en regresin lineal 221
11.8 Apndice: formulacin matricial de la regresin lineal mltiple 22811.9 Referencias 232
Apndice: tablas estadsticas 233
1Pastor-Barriuso R.
TEMA 1
ESTADSTICA DESCRIPTIVA
1.1 INTRODUCCIN
La estadstica es la rama de las matemticas aplicadas que permite estudiar fenmenos cuyos resultados son en parte inciertos. Al estudiar sistemas biolgicos, esta incertidumbre se debe al desconocimiento de muchos de los mecanismos fisiolgicos y fisiopatolgicos, a la incapacidad de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente se producen. As, al realizar observaciones en clnica o en salud pblica, los resultados obtenidos contienen una parte sistemtica o estructural, que aporta informacin sobre las relaciones entre las variables estudiadas, y una parte de ruido aleatorio. El objeto de la estadstica consiste en extraer la mxima informacin sobre estas relaciones estructurales a partir de los datos recogidos.
En estadstica se distinguen dos grandes grupos de tcnicas:
y La estadstica descriptiva, en la que se estudian las tcnicas necesarias para la organizacin, presentacin y resumen de los datos obtenidos.
y La estadstica inferencial, en la que se estudian las bases lgicas y las tcnicas mediante las cuales pueden establecerse conclusiones sobre la poblacin a estudio a partir de los resultados obtenidos en una muestra.
El anlisis de una base de datos siempre partir de tcnicas simples de resumen de los datos y presentacin de los resultados. A partir de estos resultados iniciales, y en funcin del diseo del estudio y de las hiptesis preestablecidas, se aplicarn las tcnicas de inferencia estadstica que permitirn obtener conclusiones acerca de las relaciones estructurales entre las variables estudiadas. Las tcnicas de estadstica descriptiva no precisan de asunciones para su interpretacin, pero en contrapartida la informacin que proporcionan no es fcilmente generalizable. La estadstica inferencial permite esta generalizacin, pero requiere ciertas asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias.
A continuacin se definen algunos conceptos generales que aparecen repetidamente a lo largo de la exposicin:
y Poblacin es el conjunto de todos los elementos que cumplen ciertas propiedades y entre los cuales se desea estudiar un determinado fenmeno.
y Muestra es un subconjunto de la poblacin seleccionado mediante un mecanismo ms o menos explcito. En general, rara vez se dispone de los recursos necesarios para estudiar a toda la poblacin y, en consecuencia, suelen emplearse muestras obtenidas a partir de estas poblaciones.
Ejemplo 1.1 Algunos ejemplos de poblaciones son:
Las personas residentes en Washington D.C. a 1 de enero de 2010. Las personas infectadas con el virus de inmunodeficiencia humana en Brasil a da de hoy.
2
Estadstica descriptiva
Pastor-Barriuso R.
Para estas poblaciones, algunas muestras podran ser: 500 residentes en Washington D.C. a 1 de enero de 2010 seleccionados mediante
llamadas telefnicas aleatorias. Todas las personas que acuden a un hospital de Ro de Janeiro durante el presente ao
para realizarse un test del virus de inmunodeficiencia humana y que resultan ser positivas.
y Variables son propiedades o cualidades que presentan los elementos de una poblacin. Las variables pueden clasificarse en: Variables cualitativas o atributos son aquellas que no pueden medirse numricamente y que, a su vez, pueden ser:
Nominales, en las que no pueden ordenarse las diferentes categoras. Ordinales, en las que pueden ordenarse las categoras, pero no puede establecerse
la distancia relativa entre las mismas. Variables cuantitativas son aquellas que tienen una interpretacin numrica y que se subdividen en:
Discretas, slo pueden tomar unos valores concretos dentro de un intervalo. Continuas, pueden tomar cualquier valor dentro de un intervalo.
En la prctica, todas las variables continuas que medimos son discretas en el sentido de que, debido a las limitaciones de los sistemas de medida, las variables continuas no pueden adoptar todos los valores dentro de un intervalo. De cara a los anlisis posteriores, la principal distincin se establece, por tanto, entre variables con relativamente pocas categoras (como nmero de hijos) frente a variables con muchas categoras (como niveles de colesterol en sangre).
Ejemplo 1.2 Algunos ejemplos de variables son:
Variables cualitativas nominales: sexo, raza, estado civil (soltero, casado, viudo, separado, divorciado), religin (catlico, protestante, otros), nacionalidad.
Variables cualitativas ordinales: salud auto-percibida (buena, regular, mala), severidad de la enfermedad (leve, moderada, grave). Por ejemplo, para esta ltima variable ordinal, podemos establecer un orden de severidad, pero no podemos decir que la diferencia de severidad entre un paciente moderado y uno leve sea la misma que entre uno grave y uno moderado.
Variables cuantitativas discretas: nmero de hijos, nmero de dientes cariados. Variables cuantitativas continuas: edad, peso, altura, presin arterial, niveles de colesterol en sangre.
y Estadstico es cualquier operacin realizada sobre los valores de una variable. y Parmetro es un valor de la poblacin sobre el que se desea realizar inferencias a partir de estadsticos obtenidos de la muestra, que en este caso se denominan estimadores. Por convencin, los parmetros poblacionales se denotan con letras del alfabeto griego, mientras que los estimadores muestrales se denotan con letras de nuestro alfabeto.
3
Medidas de tendencia central
Pastor-Barriuso R.
Ejemplo 1.3 Algunos ejemplos de estadsticos incluyen:
La media de los valores de colesterol de una muestra. El valor ms alto de colesterol de una muestra. La suma de los valores de colesterol de una muestra elevados al cuadrado.
As, por ejemplo, la media del colesterol en una poblacin, que se denotara por , es un parmetro que se estima a partir de la media de los valores de colesterol en una muestra obtenida de esa poblacin, que se representara por
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
.
En el presente tema, se revisan las herramientas fundamentales para la realizacin de un anlisis descriptivo de las variables recogidas en una muestra, tanto mediante estimadores de la tendencia central, posicin y dispersin como mediante la utilizacin de representaciones grficas.
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parmetros poblacionales correspondientes. A continuacin se describen los principales estimadores de la tendencia central de una variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
, se define como la suma de cada uno de los valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, la media vendra dada por
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
La media es la medida de tendencia central ms utilizada y de ms fcil interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su principal limitacin es que est muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en estos 10 participantes es
6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en
estos 10 participantes es
1053,1...58,189,0
101 10
1
+++== =i
ixx = 1,223 mmol/l.
La media aritmtica presenta las siguientes propiedades:
Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos
de una muestra, la media de la muestra resultante es igual a la media inicial ms la
constante utilizada; si yi = xi + c, entonces y = x + c. Un cambio de origen que
se realiza con frecuencia es el centrado de la variable, que consiste en restar a
cada valor de la muestra su media. La media de una variable centrada ser, por
tanto, igual a 0.
Cambio de escala (unidades). Si se multiplica cada uno de los datos de una
muestra por una constante, la media de la muestra resultante es igual a la media
inicial por la constante utilizada; si yi = cxi, entonces y = c x .
Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de
una muestra por una constante y al resultado se le suma otra constante, la media
de la muestra resultante es igual a la media inicial por la primera constante, ms la
segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se
multiplica por el factor de conversin 38,8. As, utilizando la propiedad del
cambio de escala, la media del colesterol HDL en mg/dl se calculara
directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.
4
Estadstica descriptiva
Pastor-Barriuso R.
La media aritmtica presenta las siguientes propiedades:
y Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos de una muestra, la media de la muestra resultante es igual a la media inicial ms la constante utilizada; si yi = xi + c, entonces
6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en
estos 10 participantes es
1053,1...58,189,0
101 10
1
+++== =i
ixx = 1,223 mmol/l.
La media aritmtica presenta las siguientes propiedades:
Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos
de una muestra, la media de la muestra resultante es igual a la media inicial ms la
constante utilizada; si yi = xi + c, entonces y = x + c. Un cambio de origen que
se realiza con frecuencia es el centrado de la variable, que consiste en restar a
cada valor de la muestra su media. La media de una variable centrada ser, por
tanto, igual a 0.
Cambio de escala (unidades). Si se multiplica cada uno de los datos de una
muestra por una constante, la media de la muestra resultante es igual a la media
inicial por la constante utilizada; si yi = cxi, entonces y = c x .
Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de
una muestra por una constante y al resultado se le suma otra constante, la media
de la muestra resultante es igual a la media inicial por la primera constante, ms la
segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se
multiplica por el factor de conversin 38,8. As, utilizando la propiedad del
cambio de escala, la media del colesterol HDL en mg/dl se calculara
directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.
=
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
+ c. Un cambio de origen que se realiza con frecuencia es el centrado de la variable, que consiste en restar a cada valor de la muestra su media. La media de una variable centrada ser, por tanto, igual a 0.
y Cambio de escala (unidades). Si se multiplica cada uno de los datos de una muestra por una constante, la media de la muestra resultante es igual a la media inicial por la constante utilizada; si yi = cxi, entonces
6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en
estos 10 participantes es
1053,1...58,189,0
101 10
1
+++== =i
ixx = 1,223 mmol/l.
La media aritmtica presenta las siguientes propiedades:
Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos
de una muestra, la media de la muestra resultante es igual a la media inicial ms la
constante utilizada; si yi = xi + c, entonces y = x + c. Un cambio de origen que
se realiza con frecuencia es el centrado de la variable, que consiste en restar a
cada valor de la muestra su media. La media de una variable centrada ser, por
tanto, igual a 0.
Cambio de escala (unidades). Si se multiplica cada uno de los datos de una
muestra por una constante, la media de la muestra resultante es igual a la media
inicial por la constante utilizada; si yi = cxi, entonces y = c x .
Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de
una muestra por una constante y al resultado se le suma otra constante, la media
de la muestra resultante es igual a la media inicial por la primera constante, ms la
segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se
multiplica por el factor de conversin 38,8. As, utilizando la propiedad del
cambio de escala, la media del colesterol HDL en mg/dl se calculara
directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.
= c
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
. y Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de una muestra por una constante y al resultado se le suma otra constante, la media de la muestra resultante es igual a la media inicial por la primera constante, ms la segunda constante; si yi = c1xi + c2, entonces
6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en
estos 10 participantes es
1053,1...58,189,0
101 10
1
+++== =i
ixx = 1,223 mmol/l.
La media aritmtica presenta las siguientes propiedades:
Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos
de una muestra, la media de la muestra resultante es igual a la media inicial ms la
constante utilizada; si yi = xi + c, entonces y = x + c. Un cambio de origen que
se realiza con frecuencia es el centrado de la variable, que consiste en restar a
cada valor de la muestra su media. La media de una variable centrada ser, por
tanto, igual a 0.
Cambio de escala (unidades). Si se multiplica cada uno de los datos de una
muestra por una constante, la media de la muestra resultante es igual a la media
inicial por la constante utilizada; si yi = cxi, entonces y = c x .
Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de
una muestra por una constante y al resultado se le suma otra constante, la media
de la muestra resultante es igual a la media inicial por la primera constante, ms la
segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se
multiplica por el factor de conversin 38,8. As, utilizando la propiedad del
cambio de escala, la media del colesterol HDL en mg/dl se calculara
directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.
= c1
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
+ c2.
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se multiplica por el factor de conversin 38,8. As, utilizando la propiedad del cambio de escala, la media del colesterol HDL en mg/dl se calculara directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.
1.2.2 Mediana
La mediana es el valor de un variable que deja por encima el 50% de los datos de la muestra y por debajo el otro 50%. Para calcular la mediana, es necesario ordenar los valores de la muestra de menor a mayor. Si el tamao muestral n es impar, la mediana viene dada por el valor (n + 1)/2-simo. Si n es par, la mediana viene dada por la media aritmtica de los valores (n/2) y (n/2 + 1)-simos. La principal ventaja de la mediana es que no est influenciada por los valores extremos. No obstante, se utiliza menos que la media como medida de tendencia central porque su tratamiento estadstico es ms complejo.
Ejemplo 1.6 Para obtener la mediana del colesterol HDL en la muestra del estudio EURAMIC, se ordena en primer lugar los valores de menor a mayor; esto es, 0,79, 0,84, 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Como el tamao muestral es par (n = 10), la mediana ser la media de los dos valores centrales (en este caso, el 5 y el 6), que corresponde a (1,06 + 1,29)/2 = 1,175 mmol/l.
Comparacin de la media aritmtica y la mediana. En las distribuciones simtricas (ambas colas de la distribucin son semejantes), la media es aproximadamente igual a la mediana. En distribuciones sesgadas positivamente (la cola superior de la distribucin es mayor que la inferior), la media tiende a ser mayor que la mediana; mientras que en distribuciones sesgadas negativamente (la cola inferior de la distribucin es mayor que la superior), la media tiende a ser menor que la mediana. La comparacin de la media y la mediana permite evaluar, por tanto, la asimetra de una distribucin.
Ejemplo 1.7 En la muestra del estudio EURAMIC la media del colesterol HDL es ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En consecuencia, la distribucin de estos 10 valores del colesterol HDL es aproximadamente simtrica con un leve sesgo positivo.
5
Medidas de posicin: cuantiles
Pastor-Barriuso R.
1.2.3 Media geomtrica
La media geomtrica, denotada por
8
consecuencia, la distribucin de estos 10 valores del colesterol HDL es
aproximadamente simtrica con un leve sesgo positivo.
1.2.3 Media geomtrica
La media geomtrica, denotada por Gx , se define como la raz n-sima del producto de
los valores de una muestra de tamao n,
nn
nn
iiG xxxxx =
= =
...21/1
1
.
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en
calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de
los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los
logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el
antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede
emplearse como medida de tendencia central en variables que toman valores positivos.
Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
valores y a continuacin se calcula su media aritmtica,
.155,010
425,0...117,010
)53,1log(...)89,0log(log101log
10
1
=++=
++== =i
iG xx
La media geomtrica es, por tanto, Gx = exp(0,155) = 1,168 mmol/l.
Al igual que la mediana, la media geomtrica es til como medida de tendencia
central para variables muy asimtricas, en las que un pequeo grupo de observaciones
extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica
, se define como la raz n-sima del producto de los valores de una muestra de tamao n,
8
consecuencia, la distribucin de estos 10 valores del colesterol HDL es
aproximadamente simtrica con un leve sesgo positivo.
1.2.3 Media geomtrica
La media geomtrica, denotada por Gx , se define como la raz n-sima del producto de
los valores de una muestra de tamao n,
nn
nn
iiG xxxxx =
= =
...21/1
1
.
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en
calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de
los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los
logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el
antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede
emplearse como medida de tendencia central en variables que toman valores positivos.
Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
valores y a continuacin se calcula su media aritmtica,
.155,010
425,0...117,010
)53,1log(...)89,0log(log101log
10
1
=++=
++== =i
iG xx
La media geomtrica es, por tanto, Gx = exp(0,155) = 1,168 mmol/l.
Al igual que la mediana, la media geomtrica es til como medida de tendencia
central para variables muy asimtricas, en las que un pequeo grupo de observaciones
extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede emplearse como medida de tendencia central en variables que toman valores positivos.
Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los valores y a continuacin se calcula su media aritmtica,
8
consecuencia, la distribucin de estos 10 valores del colesterol HDL es
aproximadamente simtrica con un leve sesgo positivo.
1.2.3 Media geomtrica
La media geomtrica, denotada por Gx , se define como la raz n-sima del producto de
los valores de una muestra de tamao n,
nn
nn
iiG xxxxx =
= =
...21/1
1
.
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en
calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de
los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los
logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el
antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede
emplearse como medida de tendencia central en variables que toman valores positivos.
Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
valores y a continuacin se calcula su media aritmtica,
.155,010
425,0...117,010
)53,1log(...)89,0log(log101log
10
1
=++=
++== =i
iG xx
La media geomtrica es, por tanto, Gx = exp(0,155) = 1,168 mmol/l.
Al igual que la mediana, la media geomtrica es til como medida de tendencia
central para variables muy asimtricas, en las que un pequeo grupo de observaciones
extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica
La media geomtrica es, por tanto,
8
consecuencia, la distribucin de estos 10 valores del colesterol HDL es
aproximadamente simtrica con un leve sesgo positivo.
1.2.3 Media geomtrica
La media geomtrica, denotada por Gx , se define como la raz n-sima del producto de
los valores de una muestra de tamao n,
nn
nn
iiG xxxxx =
= =
...21/1
1
.
En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en
calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de
los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los
logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el
antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede
emplearse como medida de tendencia central en variables que toman valores positivos.
Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los
valores y a continuacin se calcula su media aritmtica,
.155,010
425,0...117,010
)53,1log(...)89,0log(log101log
10
1
=++=
++== =i
iG xx
La media geomtrica es, por tanto, Gx = exp(0,155) = 1,168 mmol/l.
Al igual que la mediana, la media geomtrica es til como medida de tendencia
central para variables muy asimtricas, en las que un pequeo grupo de observaciones
extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica
= exp(0,155) = 1,168 mmol/l.
Al igual que la mediana, la media geomtrica es til como medida de tendencia central para variables muy asimtricas, en las que un pequeo grupo de observaciones extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica tiene la ventaja adicional de presentar un tratamiento estadstico ms sencillo que la mediana.
1.3 MEDIDAS DE POSICIN: CUANTILES
Los cuantiles indican la posicin relativa de una observacin con respecto al resto de la muestra. A continuacin se describen los cuantiles ms utilizados:
y Percentiles son los valores de una variable que dejan un determinado porcentaje de los datos por debajo de ellos. As, por ejemplo, el percentil 10 es el valor superior al 10% de las observaciones, pero inferior al 90% restante. La mediana corresponde, por tanto, al percentil 50. En una muestra de tamao n, previamente ordenada de menor a mayor, el percentil p-simo se define como:
Si np/100 es un nmero entero, la media de las observaciones (np/100) y (np/100 + 1)-simas.
Si np/100 no es un nmero entero, el valor k-simo de la muestra, siendo k el menor entero superior a np/100.
y Deciles, corresponden a los percentiles 10, 20, ..., 90. Los deciles se utilizan para dividir la muestra en 10 grupos de igual tamao.
y Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos de igual tamao.
6
Estadstica descriptiva
Pastor-Barriuso R.
y Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4 grupos de igual tamao.
y Terciles, corresponden a los percentiles 33,3 y 66,7, y dividen la muestra en 3 grupos de igual tamao.
Ejemplo 1.9 Los 10 valores del colesterol HDL ordenados de menor a mayor son 0,79, 0,84, 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Dado que 10p/100 = 1 es un nmero entero para p = 10, el percentil 10 es la media de la primera y segunda observacin, que corresponde a (0,79 + 0,84)/2 = 0,815 mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 25, el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.
Es importante recordar que, para calcular cuantiles, los valores de la muestra deben estar previamente ordenados. Si el tamao muestral es grande, la forma ms rpida de obtener los cuantiles manualmente es realizando un grfico de tallo y hojas (ver ms adelante).
1.4 MEDIDAS DE DISPERSIN
Las medidas de dispersin indican el grado de variabilidad de los datos y se complementan con las medidas de tendencia central en la descripcin de una muestra. En este apartado se presentan las principales medidas de dispersin.
1.4.1 Varianza y desviacin tpica
La varianza muestral, denotada por s2, se define como la suma de los cuadrados de las diferencias entre cada valor de la muestra y su media, dividida por el tamao muestral menos 1,
10
10p/100 = 1 es un nmero entero para p = 10, el percentil 10 es la media de la
primera y segunda observacin, que corresponde a (0,79 + 0,84)/2 = 0,815
mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 25,
el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.
Es importante recordar que, para calcular cuantiles, los valores de la muestra deben
estar previamente ordenados. Si el tamao muestral es grande, la forma ms rpida de
obtener los cuantiles manualmente es realizando un grfico de tallo y hojas (ver ms
adelante).
1.4 MEDIDAS DE DISPERSIN
Las medidas de dispersin indican el grado de variabilidad de los datos y se
complementan con las medidas de tendencia central en la descripcin de una muestra.
En este apartado se presentan las principales medidas de dispersin.
1.4.1 Varianza y desviacin tpica
La varianza muestral, denotada por s2, se define como la suma de los cuadrados de las
diferencias entre cada valor de la muestra y su media, dividida por el tamao muestral
menos 1,
=
= ==
n
ii
n
ii xnxn
xxn
s1
22
1
22
11)(
11 .
Como puede apreciarse, cuanto ms dispersos estn los datos, mayores sern los
cuadrados de las desviaciones (xi - x )2 y mayor ser la varianza s2. Notar que las
desviaciones de cada valor respecto de la media se elevan al cuadrado para evitar que se
compensen las desviaciones positivas (valores superiores a la media) con las negativas
(valores inferiores a la media). Cabe destacar tambin que, en la frmula de la varianza
muestral, el denominador es n - 1 en lugar de n. Esto se debe a que, una vez calculada la
Como puede apreciarse, cuanto ms dispersos estn los datos, mayores sern los cuadrados de las desviaciones (xi
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
)2 y mayor ser la varianza s2. Notar que las desviaciones de cada valor respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones positivas (valores superiores a la media) con las negativas (valores inferiores a la media). Cabe destacar tambin que, en la frmula de la varianza muestral, el denominador es n 1 en lugar de n. Esto se debe a que, una vez calculada la media, el nmero de valores independientes de la muestra (denominado grados de libertad) para el clculo de la varianza es n 1 (conocida la media y n 1 valores, el valor restante se deducira automticamente). Una justificacin ms formal para esta definicin de la varianza se aporta en el Tema 5.
La varianza muestral es difcil de interpretar como medida de dispersin, ya que sus unidades son las de la variable original al cuadrado. La medida de dispersin ms utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz cuadrada de la varianza
11
media, el nmero de valores independientes de la muestra (denominado grados de
libertad) para el clculo de la varianza es n - 1 (conocida la media y n - 1 valores, el
valor restante se deducira automticamente). Una justificacin ms formal para esta
definicin de la varianza se aporta en el Tema 5.
La varianza muestral es difcil de interpretar como medida de dispersin, ya que sus
unidades son las de la variable original al cuadrado. La medida de dispersin ms
utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz
cuadrada de la varianza
=
=n
ii xxn
s1
2)(1
1
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que
la media, la desviacin tpica est influenciada por valores muy extremos (gran
desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un
buen reflejo de la dispersin global de los datos.
Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros
participantes del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendra dada
por
2
2210
1
22
(mmol/l) 156,09
094,0...111,09
)223,153,1(...)223,189,0()(91
=++=
++== =i
i xxs
y la desviacin tpica por s = 156,0 = 0,395 mmol/l.
Algunas propiedades de la varianza y la desviacin tpica son:
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que la media, la desviacin tpica est influenciada por valores muy extremos (gran desviacin respecto de la
7
Medidas de dispersin
Pastor-Barriuso R.
media), que inflaran la estimacin resultante, no siendo un buen reflejo de la dispersin global de los datos.
Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros participantes del estudio EURAMIC,
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
= 1,223 mmol/l, la varianza vendra dada por
11
media, el nmero de valores independientes de la muestra (denominado grados de
libertad) para el clculo de la varianza es n - 1 (conocida la media y n - 1 valores, el
valor restante se deducira automticamente). Una justificacin ms formal para esta
definicin de la varianza se aporta en el Tema 5.
La varianza muestral es difcil de interpretar como medida de dispersin, ya que sus
unidades son las de la variable original al cuadrado. La medida de dispersin ms
utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz
cuadrada de la varianza
=
=n
ii xxn
s1
2)(1
1
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que
la media, la desviacin tpica est influenciada por valores muy extremos (gran
desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un
buen reflejo de la dispersin global de los datos.
Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros
participantes del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendra dada
por
2
2210
1
22
(mmol/l) 156,09
094,0...111,09
)223,153,1(...)223,189,0()(91
=++=
++== =i
i xxs
y la desviacin tpica por s = 156,0 = 0,395 mmol/l.
Algunas propiedades de la varianza y la desviacin tpica son:
y la desviacin tpica por
11
media, el nmero de valores independientes de la muestra (denominado grados de
libertad) para el clculo de la varianza es n - 1 (conocida la media y n - 1 valores, el
valor restante se deducira automticamente). Una justificacin ms formal para esta
definicin de la varianza se aporta en el Tema 5.
La varianza muestral es difcil de interpretar como medida de dispersin, ya que sus
unidades son las de la variable original al cuadrado. La medida de dispersin ms
utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz
cuadrada de la varianza
=
=n
ii xxn
s1
2)(1
1
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que
la media, la desviacin tpica est influenciada por valores muy extremos (gran
desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un
buen reflejo de la dispersin global de los datos.
Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros
participantes del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendra dada
por
2
2210
1
22
(mmol/l) 156,09
094,0...111,09
)223,153,1(...)223,189,0()(91
=++=
++== =i
i xxs
y la desviacin tpica por s = 156,0 = 0,395 mmol/l.
Algunas propiedades de la varianza y la desviacin tpica son: Algunas propiedades de la varianza y la desviacin tpica son:
y Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos de una muestra, la varianza y la desviacin tpica no cambian; si yi = xi + c, entonces sy2 = sx2 y sy = sx.
y Cambio de escala (unidades). Si se multiplica cada uno de los datos de una muestra por una constante, la varianza resultante es igual a la varianza inicial por la constante al cuadrado y la desviacin tpica es igual a la desviacin tpica inicial por dicha constante; si yi = cxi, entonces sy2 = c2 sx2 y sy = csx. Un cambio de escala que se realiza con frecuencia es la divisin de todos los valores de una muestra por su desviacin tpica. La desviacin tpica de la variable resultante ser, por tanto, igual a 1.
Las propiedades del cambio de origen y escala se emplean para la estandarizacin de variables, que consiste en restarle a los valores de una variable su media y dividirlos por su desviacin tpica. La variable estandarizada resultante tiene media 0 y desviacin tpica 1; es decir, si zi = (xi
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
)/sx, entonces
12
Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos
de una muestra, la varianza y la desviacin tpica no cambian; si yi = xi + c,
entonces 2ys = 2xs y sy = sx.
Cambio de escala (unidades). Si se multiplica cada uno de los datos de una
muestra por una constante, la varianza resultante es igual a la varianza inicial por
la constante al cuadrado y la desviacin tpica es igual a la desviacin tpica
inicial por dicha constante; si yi = cxi, entonces 2ys = c2 2
xs y sy = csx. Un cambio
de escala que se realiza con frecuencia es la divisin de todos los valores de una
muestra por su desviacin tpica. La desviacin tpica de la variable resultante
ser, por tanto, igual a 1.
Las propiedades del cambio de origen y escala se emplean para la estandarizacin de
variables, que consiste en restarle a los valores de una variable su media y dividirlos por
su desviacin tpica. La variable estandarizada resultante tiene media 0 y desviacin
tpica 1; es decir, si zi = (xi - x )/sx, entonces z = 0 y sz = 1.
1.4.2 Rango intercuartlico
El rango intercuartlico se define como la diferencia entre el tercer y el primer cuartil
(percentiles 75 y 25, respectivamente). El rango intercuartlico indica la amplitud del
50% central de la muestra y se usa como medida de dispersin cuando la variable
presenta valores extremos. En tal caso, suele ir acompaado de la mediana como
medida de tendencia central.
Ejemplo 1.11 A partir de los 10 valores del colesterol HDL ordenados de menor a
mayor, los percentiles 25 y 75 vienen determinados por la tercera (0,87 mmol/l) y
octava observacin (1,53 mmol/l), respectivamente. El rango intercuartlico se
= 0 y sz = 1.
1.4.2 Rango intercuartlico
El rango intercuartlico se define como la diferencia entre el tercer y el primer cuartil (percentiles 75 y 25, respectivamente). El rango intercuartlico indica la amplitud del 50% central de la muestra y se usa como medida de dispersin cuando la variable presenta valores extremos. En tal caso, suele ir acompaado de la mediana como medida de tendencia central.
Ejemplo 1.11 A partir de los 10 valores del colesterol HDL ordenados de menor a mayor, los percentiles 25 y 75 vienen determinados por la tercera (0,87 mmol/l) y octava observacin (1,53 mmol/l), respectivamente. El rango intercuartlico se calcula entonces como la diferencia entre ambos percentiles, 1,53 0,87 = 0,66 mmol/l.
1.4.3 Coeficiente de variacin
El coeficiente de variacin se define como el cociente entre la desviacin tpica y la media aritmtica, expresado como porcentaje, 100s/
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
. Este estimador no est afectado por cambios de escala ya que, al multiplicar los valores de una variable por un mismo factor, tanto la media como la desviacin tpica cambian por dicho factor y su cociente permanece inalterable. El coeficiente de variacin relaciona la desviacin tpica con la media y es til para comparar la variabilidad de diferentes variables con distintas medias. As, por ejemplo, una desviacin tpica de 10 kg en una muestra de adultos con un peso medio de 70 kg indicara un mismo grado de dispersin que una desviacin
8
Estadstica descriptiva
Pastor-Barriuso R.
tpica de 0,5 kg en una muestra de recin nacidos con un peso medio de 3,5 kg (ambos coeficientes de variacin son 10010/70 = 1000,5/3,5 = 14,3%).
Ejemplo 1.12 El coeficiente de variacin de los 10 primeros valores del colesterol HDL en el estudio EURAMIC sera 100s/
5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cul es el valor ms representativo
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parmetros poblacionales correspondientes. A
continuacin se describen los principales estimadores de la tendencia central de una
variable.
1.2.1 Media aritmtica
La media aritmtica, denotada por x , se define como la suma de cada uno de los
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
la media vendra dada por
nxxx
xn
x nn
ii
+++==
=
...1 211
.
La media es la medida de tendencia central ms utilizada y de ms fcil
interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
principal limitacin es que est muy influenciada por los valores extremos y, en este
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
= 1000,395/1,223 = 32,3%; es decir, la desviacin tpica es aproximadamente un tercio de la media.
1.5 REPRESENTACIONES GRFICAS
En el anlisis e interpretacin de los datos de un estudio, es importante no limitarse a realizar medidas de resumen numricas. Las medidas de tendencia central y dispersin deben completarse con grficos que permitan observar directamente las caractersticas y relaciones de las variables estudiadas. En esta seccin se revisan los principales mtodos grficos para presentar y resumir una variable.
1.5.1 Diagrama de barras
Los diagramas de barras son adecuados para representar variables cualitativas y cuantitativas discretas. En estos diagramas se representan las categoras de la variable en el eje horizontal y sus frecuencias (absolutas o relativas) en el eje vertical. Para cada categora de la variable se construye un rectngulo de anchura constante y altura proporcional a la frecuencia. Los rectngulos estn separados unos de otros por la misma distancia para reflejar la discontinuidad de la variable.
Ejemplo 1.13 La representacin del diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que no haban padecido un infarto agudo de miocardio, todos salvo uno presentaban informacin sobre el consumo de tabaco. De stos, un 27,2% (190/699) eran nunca fumadores, un 35,3% (247/699) eran ex fumadores, y el restante 37,5% (262/699) eran fumadores actuales.
Figura 1.1
Nuncafumador
Ex fumador Fumadoractual
0
10
20
30
40
Frec
uenc
ia re
lativ
a (%
)
Figura 1.1 Diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC.
9
Representaciones grficas
Pastor-Barriuso R.
1.5.2 Histograma y polgono de frecuencias
El histograma es el principal mtodo grfico para la representacin de variables cuantitativas continuas. En primer lugar, los valores de la variable continua se agrupan en categoras exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En el eje horizontal del histograma se representan las categoras o intervalos y en el eje vertical las frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectngulo para cada categora, cuya anchura es igual a la longitud del intervalo y cuyo rea es proporcional a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectngulos del histograma no sern proporcionales a las frecuencias).
El polgono de frecuencias se construye uniendo con lneas rectas los puntos medios de las bases superiores de los rectngulos que conforman un histograma. Tanto el histograma como el polgono de frecuencias sirven para representar grficamente la distribucin de una variable continua.
Ejemplo 1.14 El histograma de la distribucin del colesterol HDL en el grupo control del estudio EURAMIC se presenta en la Figura 1.2. En este caso, se representa la frecuencia absoluta en el eje vertical e intervalos de distinta longitud en el eje horizontal. Para los intervalos de menor longitud (0,2 mmol/l), la altura de los rectngulos es igual a la frecuencia; as, por ejemplo, la altura del rectngulo en el intervalo 1,2-1,4 mmol/l es igual a los 86 sujetos con niveles del colesterol HDL dentro de este rango. Sin embargo, para los intervalos de mayor longitud, la altura de la barra es igual a la frecuencia dividida por el incremento relativo de la longitud del intervalo; as, por ejemplo, para el intervalo 1,4-1,7 mmol/l, cuya frecuencia es 55 y su longitud es 1,5 veces la longitud mnima, la altura de la barra es 55/1,5 = 36,7. La Figura 1.2 se completa con el polgono de frecuencias, que muestra una distribucin del colesterol HDL aproximadamente simtrica con la cola superior ligeramente mayor que la inferior.
Figura 1.2
0 0,3 0,6 0,8 1 1,2 1,4 1,7 2 2,5
0
25
50
75
100
125
150
Colesterol HDL (mmol/l)
Frec
uenc
ia a
bsol
uta
Figura 1.2 Histograma y polgono de frecuencias del colesterol HDL en el grupo control del estudio EURAMIC.
10
Estadstica descriptiva
Pastor-Barriuso R.
1.5.3 Grfico de tallo y hojas
Este grfico tiene la ventaja de reflejar los datos originales de la muestra, a la vez que permite visualizar la distribucin de frecuencias. En primer lugar, para cada observacin de la variable, se separa el ltimo dgito significativo (hoja) de los restantes dgitos del valor de la variable (tallo). A continuacin, todos los posibles tallos se colocan ordenados en una misma columna. Finalmente, para cada valor de la variable, se coloca su hoja a la derecha del tallo correspondiente. Las hojas de un mismo tallo suelen colocarse en orden creciente. El resultado se conoce con el nombre de grfico de tallo y hojas.
Ejemplo 1.15 La Figura 1.3 muestra el grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores ms bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo comn es 0,2 y sus respectivas hojas son 1 y 6, que aparecen a la derecha de la primera lnea del grfico. El siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39 mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y 0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este grfico resulta sencillo calcular los cuantiles; as, por ejemplo, la mediana se obtendra como la media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.
Figura 1.3
Frecuencia Tallo Hoja 2 0,2 16 0 0,3 0 0,4 1 0,5 7 5 0,6 35558 3 0,7 467 12 0,8 002344455579 13 0,9 0013334566779 13 1,0 0111123455559 9 1,1 023456789 15 1,2 000023356689999 7 1,3 1223778 6 1,4 345789 6 1,5 133689 2 1,6 44 2 1,7 34 2 1,8 36 1 1,9 0 1 2,0 9
Figura 1.3 Grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC.
11
Representaciones grficas
Pastor-Barriuso R.
1.5.4 Diagrama de caja
El diagrama de caja permite evaluar la tendencia central, la dispersin y la simetra de la distribucin de una variable, as como identificar valores extremos. Los lmites inferior y superior de la caja corresponden a los percentiles 25 y 75; es decir, la altura de la caja representa el rango intercuartlico e indica la dispersin de la muestra. La lnea horizontal dentro de la caja corresponde a la mediana y representa la tendencia central de la muestra. El grfico se completa con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartlico. Los valores extremos, aquellos distanciados de los lmites de la caja entre 1,5 y 3 veces el rango intercuartlico, se representan con un crculo y los valores muy extremos, aquellos alejados de la caja ms de 3 veces el rango intercuartlico, se denotan mediante un asterisco.
En este grfico, si la distribucin es simtrica, los lmites superior e inferior de la caja estarn aproximadamente a la misma distancia de la mediana, mientras que si la distribucin est sesgada positivamente, el lmite superior estar ms alejado de la mediana que el inferior y si la distribucin est sesgada negativamente, el lmite inferior estar ms alejado de la mediana que el superior.
Ejemplo 1.16 La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC. Como puede observarse, esta distribucin presenta un leve sesgo positivo ya que el lmite superior de la caja est ligeramente ms alejado de la mediana que el lmite inferior.
Figura 1.4
0
0,5
1
1,5
2
2,5
Col
este
rol H
DL
(mm
ol/l)
Figura 1.4 Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC.
12
Estadstica descriptiva
Pastor-Barriuso R.
1.6 REFERENCIAS
1. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.2. Glantz SA. Primer of Biostatistics, Fifth Edition. New York: McGraw-Hill/Appleton &
Lange, 2001.3. Pagano M, Gauvreau K. Principles of Biostatistics, Second Edition. Belmont, CA: Duxbury
Press, 2000.4. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
2006.
13Pastor-Barriuso R.
TEMA 2
PROBABILIDAD
2.1 INTRODUCCIN
Se denominan experimentos estocsticos, aleatorios o no determinsticos a aquellos en los que pueden obtenerse resultados distintos cuando se repiten en idnticas circunstancias. Los fenmenos biolgicos tienen en este sentido una componente aleatoria importante. La herramienta matemtica que constituye la base para el estudio de fenmenos con una componente aleatoria es la teora de la probabilidad, que proporciona modelos tericos aplicables a la frecuencia de los distintos resultados de un experimento.
A continuacin, se revisan algunos conceptos previos que van a ser necesarios para sistematizar la nocin de probabilidad.
y Espacio muestral, denotado por W, es el conjunto de los posibles resultados de un experimento aleatorio.
y Se denomina suceso a cualquier subconjunto del espacio muestral W. Los sucesos pueden ser elementos simples de W o conjuntos de elementos. Dos sucesos particulares son el suceso seguro W, que contiene todos los elementos del espacio muestral, y el suceso imposible o conjunto vaco , que no contiene ningn elemento.
Ejemplo 2.1 Si el experimento consiste en observar el nmero de supervivientes a los 6 meses de 4 pacientes con cncer sometidos a tratamiento, el espacio muestral ser W = {0, 1, 2, 3, 4}. Si el experimento consiste en medir los niveles de colesterol HDL de una persona, el espacio muestral ser W = (0, ).
En el primer experimento, algunos sucesos podran ser: no observar ningn superviviente A = {0}, observar 1 2 supervivientes B = {1, 2} u observar al menos 2 supervivientes C = {2, 3, 4}. En el segundo experimento, algunos de los posibles sucesos incluiran: tener un colesterol HDL 1 mmol/l A = (0, 1] o tener un colesterol HDL > 1,5 mmol/l B = (1,5, ).
y El suceso unin AB es el evento constituido por los elementos que pertenecen a A o B, o a ambos a la vez.
y El suceso interseccin AB es el evento formado por los elementos que pertenecen simultneamente a A y B.
y Sucesos disjuntos, incompatibles o mutuamente excluyentes son aquellos que no pueden ocurrir simultneamente; es decir, su interseccin es el conjunto vaco, AB = .
y El suceso complementario del suceso A, denotado por Ac, es el evento que ocurre cuando no se realiza A.
Estos sucesos estn representados en los diagramas de la Figura 2.1. En general, las operaciones entre sucesos se rigen por la teora de conjuntos, de la cual pueden derivarse algunas propiedades importantes como A(BC) = (AB)(AC), A(BC) = (AB)(AC), (AB)c = AcBc y (AB)c = AcBc.
14
Probabilidad
Pastor-Barriuso R.
Figura 2.1
A
B
A
B
A
(a) AB (b) AB
(c) AB = (d) Ac
A
B
A
B
A
B
A
B
A
B
AA
(a) AB (b) AB
(c) AB = (d) Ac
A
B
A
B
Figura 2.1 Diagramas de los sucesos unin (a), interseccin (b), sucesos mutuamente excluyentes (c) y suceso complementario (d).
Ejemplo 2.2 En el experimento de supervivencia a los 6 meses de 4 pacientes con cncer, la unin de los sucesos B = {1, 2} y C = {2, 3, 4} es BC = {1, 2, 3, 4} y su interseccin es BC = {2}. Al medir los niveles de colesterol HDL de una persona, los sucesos A = (0, 1] y B = (1,5, ) son mutuamente excluyentes ya que AB = . Asimismo, en este experimento el complementario de A es el suceso Ac = (1, ).
En este tema se define el concepto de probabilidad y se introducen las reglas bsicas para operar con probabilidades. Estas reglas constituyen la base para el clculo e interpretacin de los procedimientos de inferencia estadstica (por ejemplo, el valor P de un contraste de hiptesis vase Tema 5) y permiten tambin evaluar la sensibilidad, la especificidad y los valores predictivos de las pruebas diagnsticas.
2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la probabilidad de un suceso refleja la verosimilitud de que ste ocurra, de forma que los sucesos ms probables se darn con mayor frecuencia que los menos probables. Sin embargo, para abordar la probabilidad de forma sistemtica, es necesaria una definicin rigurosa, a la vez que compatible con nuestra intuicin. Dos definiciones de probabilidad de uso comn son:
y Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente, la probabilidad de un suceso es el lmite del cociente entre el nmero de veces que ocurre dicho suceso y el nmero de experimentos realizados,
3
su interseccin es BC = {2}. Al medir los niveles de colesterol HDL de una
persona, los sucesos A = (0, 1] y B = (1,5, ) son mutuamente excluyentes ya que
AB = . Asimismo, en este experimento el complementario de A es el suceso Ac
= (1, ).
En este tema se define el concepto de probabilidad y se introducen las reglas bsicas
para operar con probabilidades. Estas reglas constituyen la base para el clculo e
interpretacin de los procedimientos de inferencia estadstica (por ejemplo, el valor P
de un contraste de hiptesis vase Tema 5) y permiten tambin evaluar la
sensibilidad, la especificidad y los valores predictivos de las pruebas diagnsticas.
2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano:
la probabilidad de un suceso refleja la verosimilitud de que ste ocurra, de forma que
los sucesos ms probables se darn con mayor frecuencia que los menos probables. Sin
embargo, para abordar la probabilidad de forma sistemtica, es necesaria una definicin
rigurosa, a la vez que compatible con nuestra intuicin. Dos definiciones de
probabilidad de uso comn son:
Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente,
la probabilidad de un suceso es el lmite del cociente entre el nmero de veces que
ocurre dicho suceso y el nmero de experimentos realizados,
P(A) = nA
n
#lim
,
donde #A es el nmero de veces que se realiza A en los n experimentos. donde #A es el nmero de veces que se realiza A en los n experimentos.
15
Concepto y definiciones de probabilidad
Pastor-Barriuso R.
Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre todos los recin nacidos vivos en Espaa. Segn los datos del Instituto Nacional de Estadstica, se registraron 226.170 nias de 466.371 nacimientos en 2005, 233.773 de 482.957 en 2006 y 238.632 de 492.527 en 2007. La proporcin acumulada de nias es 226.170/466.371 = 0,4850 en 2005, 459.943/949.328 = 0,4845 en 2005-2006 y 698.575/1.441.855 = 0,4845 en 2005-2007. Aumentando indefinidamente los registros anuales, el lmite de estos cocientes 0,4850, 0,4845, 0,4845, ... determinara la probabilidad de ser mujer. En la prctica, sin embargo, no es posible realizar infinitos experimentos y las probabilidades tericas se estiman mediante probabilidades empricas obtenidas a partir de un nmero finito de experimentos. As, utilizando los datos disponibles de nacimientos en 2005-2007, se estimara una probabilidad de ser mujer de 0,4845.
y Definicin axiomtica (Kolmogorov). La probabilidad es una funcin que asigna a cada posible suceso de un experimento un valor numrico, de tal forma que se cumplan los siguientes axiomas:(i) No negatividad: P(A) 0,
(ii) Normatividad: P(W) = 1,
(iii) Aditividad: Si A1, A2, ... son sucesos mutuamente excluyentes, entonces
4
Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre
todos los recin nacidos vivos en Espaa. Segn los datos del Instituto Nacional
de Estadstica, se registraron 226.170 nias de 466.371 nacimientos en 2005,
233.773 de 482.957 en 2006 y 238.632 de 492.527 en 2007. La proporcin
acumulada de nias es 226.170/466.371 = 0,4850 en 2005, 459.943/949.328 =
0,4845 en 20052006 y 698.575/1.441.855 = 0,4845 en 20052007. Aumentando
indefinidamente los registros anuales, el lmite de estos cocientes 0,4850, 0,4845,
0,4845, ... determinara la probabilidad de ser mujer. En la prctica, sin embargo,
no es posible realizar infinitos experimentos y las probabilidades tericas se
estiman mediante probabilidades empricas obtenidas a partir de un nmero finito
de experimentos. As, utilizando los datos disponibles de nacimientos en 2005
2007, se estimara una probabilidad de ser mujer de 0,4845.
Definicin axiomtica (Kolmogorov). La probabilidad es una funcin que asigna
a cada posible suceso de un experimento un valor numrico, de tal forma que se
cumplan los siguientes axiomas:
(i) No negatividad: P(A) 0,
(ii) Normatividad: P() = 1,
(iii) Aditividad: Si A1, A2, ... son sucesos mutuamente excluyentes, entonces
=
=
=++==
12121
1
)(...)()(...)(i
ii
i APAPAPAAPAP .
Notar que esta definicin de probabilidad tan slo especifica las propiedades
generales que debe tener una funcin de probabilidad, pero no permite la
asignacin de probabilidades a un suceso concreto. No obstante, de la definicin
Notar que esta definicin de probabilidad tan slo especifica las propiedades generales que debe tener una funcin de probabilidad, pero no permite la asignacin de probabilidades a un suceso concreto. No obstante, de la definicin axiomtica se derivan algunas propiedades importantes de la funcin de probabilidad:
(iv) P() = 0,
(v) P(Ac) = 1 P(A),
(vi) Si A est incluido en B, A B, entonces P(A) P(B),
(vii) 0 P(A) 1,
(viii) Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ...,
5
axiomtica se derivan algunas propiedades importantes de la funcin de
probabilidad:
- P() = 0,
- P(Ac) = 1 - P(A),
- Si A est incluido en B, A B, entonces P(A) P(B),
- 0 P(A) 1,
- Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ...,
=
=
11
)(i
ii
i APAP ,
- Principio de inclusin-exclusin: Sean A1, A2, ..., Ak sucesos cualesquiera,
)....()1(
...)()(
211
111
kk
kjiji
k
ii
k
ii
AAAP
AAPAPAP
+
+=
+
16
Probabilidad
Pastor-Barriuso R.
excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es la suma de sus probabilidades por separado, menos la probabilidad de la interseccin,
5
axiomtica se derivan algunas propiedades importantes de la funcin de
probabilidad:
- P() = 0,
- P(Ac) = 1 - P(A),
- Si A est incluido en B, A B, entonces P(A) P(B),
- 0 P(A) 1,
- Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ...,
=
=
11
)(i
ii
i APAP ,
- Principio de inclusin-exclusin: Sean A1, A2, ..., Ak sucesos cualesquiera,
)....()1(
...)()(
211
111
kk
kjiji
k
ii
k
ii
AAAP
AAPAPAP
+
+=
+
17
Probabilidad condicional e independencia de sucesos
Pastor-Barriuso R.
y la probabilidad de que un no bebedor sea diabtico como
7
no expuestos y RR = P(D|E)/P(D|Ec) es el riesgo relativo de la enfermedad entre los
expuestos y los no expuestos.
Ejemplo 2.5 Continuando con el ejemplo anterior, la probabilidad de que un
bebedor sea diabtico se calcula como
P(D|B) = 20,001,0
)()( =
BPDBP = 0,05
Top Related