Curso de Bioestadística Parte 3 Tipos de datos, resumen y presentación Dr. en C. Nicolás Padilla...
-
Upload
nicolas-cazarez -
Category
Documents
-
view
14 -
download
4
Transcript of Curso de Bioestadística Parte 3 Tipos de datos, resumen y presentación Dr. en C. Nicolás Padilla...
Curso de BioestadísticaParte 3
Tipos de datos, resumen y presentación
Dr. en C. Nicolás Padilla Raygoza
Facultad de Enfermería y Obstetricia de Celaya
Universidad de Guanajuato México
Presentación
Médico Cirujano por la Universidad Autónoma de Guadalajara. Pediatra por el Consejo Mexicano de Certificación en Pediatría. Diplomado en Epidemiología, Escuela de Higiene y Medicina
Tropical de Londres, Universidad de Londres. Master en Ciencias con enfoque en Epidemiología, Atlantic
International University. Doctorado en Ciencias con enfoque en Epidemiología, Atlantic
International University. Profesor Asociado B, Facultad de Enfermería y Obstetricia de
Celaya, Universidad de Guanajuato. [email protected]
Competencias
Describirá los tipos de variables. Analizará como resumir y presentar los
diferentes tipos de variables. Aplicará fórmulas para calcular medidas de
tendencia central y las localizará en gráficas. Aplicará fórmulas para calcular medidas de
dispersión y las localizará en gráficas.
Definiciones
Datos se colectan sobre las características específicas de cada sujeto, formándose grupos para ser comparados.
Estas características se llaman variables, ya que cambian de sujeto a sujeto.
La variable se obtiene por ser: Un resultado de interés-variable dependiente O explica a la variable dependiente - factor de
riesgo- exposición-variable independiente.
Tipos de datos
Clasificación por su escala de medición: Cualitativas
Dicotómicas-binarias Ordinales Nominales
Cuantitativas Discretas Continuas
Tipos de datos-Ejemplos
Cualitativas Dicotómicas-binarias
Sexo: masculino o femenino. Status de empleo: empleado o desempleado.
Ordinales Nivel socioeconómico: alto, medio o bajo.
Nominales Sitio de residencia: centro, sur, norte, este, oeste Estado civil: soltero, casado, viudo, divorciado, unión libre
Cuantitativas Discretas
Número de hijos: 1,2,3,4. Continuas
Nivel de glucosa en sangre: 110 mg/dl, 145 mg/dl.
Resumen de datos
Generalmente queremos presentar los datos en forma resumida.
El número de veces que un dato ocurre, es de interés ya que nos presenta la distribución de una variable.
Se puede generar una lista de frecuencias para variables cuantitativas o cualitativas.
Resumen de datos categóricos
Podemos obtener frecuencias de datos categóricos y resumirlos en una tabla o gráfica.
Ejemplo: tenemos 21 diagnósticos de parásitos aislados en heces de niños.
Giardia lamblia
Entamoeba histolytica
Ascaris lumbricoides
Enterobius vermicularis
Ascaris lumbricoides
Enterobius vermicularis
Giardia lamblia
Giardia lamblia
Entamoeba histolytica
Ascaris lumbricoides
Enterobius vermicularis
Ascaris lumbricoides
Enterobius vermicularis
Giardia lamblia
Giardia lamblia
Entamoeba histolytica
Ascaris lumbricoides
Enterobius vermicularis
Ascaris lumbricoides
Enterobius vermicularis
Giardia lamblia
Resumen de datos categóricos
La lista de parásitos detectados nos da una idea de la frecuencia de cada parásito, pero no es una forma clara.
Si los ordenamos, nos clarifica la presentación.
Giardia lamblia
Giardia lamblia
Giardia lamblia
Giardia lamblia
Giardia lamblia
Giardia lamblia
Ascaris lumbricoides
Ascaris lumbricoides
Ascaris lumbricoides
Ascaris lumbricoides
Ascaris lumbricoides
Ascaris lumbricoides
Enterobius vermicularis
Enterobius vermicularis
Enterobius vermicularis
Enterobius vermicularis
Enterobius vermicularis
Enterobius vermicularis
Entamoeba histolytica
Entamoeba histolytica
Entamoeba histolytica
Resumen de datos categóricos
Podemos presentar los resultados en una distribución de frecuencias.
Parásito n
Giardia lamblia 6
Ascaris lumbricoides 6
Enterobius vermicularis 6
Entamoeba histolytica 3
Total 21
Distribución de frecuencias de parásitos intestinales detectados en niños en el CAISES Celaya, n=21
Fuente: Reporte de Laboratorio
Resumen de datos categóricos Es de utilidad, presentar los frecuencia de cada categoría,
expresada como el porcentaje de la frecuencia total. Se le llama distribución de frecuencias relativas
Distribución de frecuencias relativas de parásitos intestinales detectados en niños en el CAISES Celaya, n=21
Fuente: Reporte de Laboratorio
Parásito n %
Giardia lamblia 6 28.57
Ascaris lumbricoides 6 28.57
Enterobius vermicularis 6 28.57
Entamoeba histolytica 3 14.29
Total 21 100.00
Resumen de datos categóricos
En ocasiones el número de categorías puede ser elevado y debemos procurar disminuir el número de categorías.
Causa de defunción n %
Enfermedad cardiovascular 12,525 21.96
Cáncer 10,321 18.10
Infecciones de vías respiratorias bajas
8,745 15.34
Otras 25,435 44.60
Total 57,026 100.00
Distribución por causa de muerte en Celaya, Gto. durante 2007
Fuente: Certificados de defunción
Distribución de frecuencias para datos cuantitativos Con datos cuantitativos, necesitamos agrupar los
datos, antes de presentarlos en una tabla de frecuencias o de frecuencias relativas.
Edad en años n %
19 52 14.70
20 32 9.00
21 46 12.99
22 67 18.94
23 26 7.35
24 77 21.76
25 54 15.26
Total 534 100.00
Distribución de frecuencias de estudiantes de la FEOC que han fumado al menos una vez. N=534
Fuente: Encuesta de salud
Distribución de frecuencias para datos cuantitativos Con datos cuantitativos, es de utilidad calcular la
frecuencia acumulada.
Distribución de frecuencias de estudiantes de la FEOC que han fumado al menos una vez. N=534
Fuente: Encuesta de salud
Edad en años n % % acumulado
19 52 14.70 14.70
20 32 9.00 23.70
21 46 12.99 36.69
22 67 18.94 55.63
23 26 7.35 62.98
24 77 21.76 84.74
25 54 15.26 100.00
Total 534 100.00
Distribución de frecuencias para datos cuantitativos agrupados
Con frecuencia hay muchas categorías de datos cuantitativos, por lo tanto tenemos que calcular intervalos para cada categoría.
Distribución de frecuencias de edades de niños con faingoamigdalitis aguda
Fuente: Padilla N, Moreno M. Comparación entre claritromicina, azitromicina y propicillina en el manejo de faringoamigdalitis aguda estreptocóccica en niños. Archivos de Investigación Pediátrica de México 2005; 8:5-11.
Edad en años n %
<1 2 0.51
1 8 2.00
2 13 3.30
3 29 7.36
4 37 9.39
5 44 11.17
6 51 12.94
7 50 12.69
8 49 12.44
9 32 8.12
10 25 6.35
11 22 5.58
12 14 3.55
13 9 2.28
14 7 1.78
15 2 0.51
Total 394 100.00
Distribución de frecuencias para datos cuantitativos agrupados
Distribución de frecuencias de edades de niños con faingoamigdalitis aguda
Fuente: Padilla N, Moreno M. Comparación entre claritromicina, azitromicina y propicillina en el manejo de faringoamigdalitis aguda estreptocóccica en niños. Archivos de Investigación Pediátrica de México 2005; 8:5-11.
Edad en años n %
<1 - 3 52 13.20
4 - 6 132 33.50
6 - 9 131 33.25
10 - 12 61 15.48
13 - 15 18 4.57
Total 394 100.00
Agrupamiento de datos
Guía Obtenga el valor mínimo y máximo y decida el
número de intervalos. Número de intervalos entre 5 - 15. Asegurar los límites del intervalo. Asegurar que los intervalos sean de la misma
amplitud. Evitar que el primer y/o último intervalo
queden abiertos.
Datos categóricos Gráfica de barras Gráfica de pastel
Datos numéricos Histograma Polígono de frecuencias
Gráficas
Gráfica de barras
La frecuencia o frecuencia relativa de una variable categórica, se puede mostrar fácilmente con una gráfica de barras. Se usan para datos categóricos o numéricos
discretos. Cada barra representa una categoría y su
altura es la frecuencia o frecuencia relativa. Las barras deben estar separadas. Es importante que el eje Y inicie en 0.
Gráfica de barras
Infecciones gastrointestinales
01234567
Cryptos. E.histolyt. E.coli Giardia Rotavirus Shigella
Agentes
Frecu
encia
Gráfica de barras agrupadas
Si tenemos una variable categórica nominal, dividida en dos categorías, podemos mostrar los datos con una gráfica de barras agrupadas.
Permite fácil comparación entre grupos.
Gráfica de barras agrupadas
Infecciones gastrointestinales
0
1
2
3
4
5
Crypt. E.histolyt. E.coli Giardia Rotavirus Shigella
Agentes
Frec
uenc
ia Hombres
Mujeres
Gráfica de pastel
Son una alternativa para mostrar una variable categórica.
Cada “rebanada” corresponde a la frecuencia o frecuencia relativa de las categorías de la variable.
Sólo muestra una variable a la vez. Si se quiere hacer comparaciones se tienen
que hacer dos pasteles.
Gráfica de pastel
Estado Civil de mujeres en una comunidad
Solteras28%
Casadas44%
Divorciadas11%
Viudas8%
Union libre9%
Gráfica de pastel
Estado Civil de hombres en una comunidad
Solteros31%
Casados41%
Divorciados11%
Viudos1%
Union libre16%
Estado Civil de mujeres en una comunidad
Solteras28%
Casadas44%
Viudas8%
Union libre9%
Divorciadas11%
Gráficas de distribuciones de frecuencias: histogramas De utilidad para variables numéricas. No hay espacios entre las barras. El área de la barra, no su altura, representan
su frecuencia. El eje X debe ser continuo. El eje Y debe iniciar en 0. La amplitud representa el intervalo de cada
grupo.
Gráficas de distribuciones de frecuencias: histogramas
Número de hijos en mujeres celayenses
0
100
200
300
400
500
600
700
1 2 3 4 5 6 7 8+
Número de hijos
Nú
me
ro d
e m
uje
res
Gráficas de distribuciones de frecuencias: polígono de frecuencias Es otra forma de representar la distribución
de frecuencias de una variable numérica. Se construye uniendo el punto medio más
alto de cada barra del histograma. Debe tomarse en cuenta la amplitud de las
barras. Se puede trazar más de un polígono de
frecuencias en una gráfica, para poder hacer comparaciones.
Gráficas de distribuciones de frecuencias: polígono de frecuencias
Número de hijos en mujeres celayenses
0
100
200
300
400
500
600
700
1 2 3 4 5 6 7 8+
Número de hijos
Nú
me
ro d
e m
uje
res
Gráficas de distribuciones de frecuencias: histograma acumulado Se puede trazar directamente de una tabla de
frecuencias acumuladas. No es necesario hacer ajustes en la altura de
las barras, ya que las frecuencias acumuladas representan la frecuencia total superior, incluyendo el límite superior del intervalo en cuestión.
Gráficas de distribuciones de frecuencias: histograma acumulado
Frecuencia acumulada del peso al nacer
0
20
40
60
80
100
120
501- 1501- 2501- 3501- 4501-
Peso
Fre
cuen
cia
acu
mu
lad
a (%
)
Recién Nacidos
Gráficas de distribuciones de frecuencias: polígono de frecuencias acumulado
Se usan para ver proporciones por debajo o por arriba de un punto de la curva.
Podemos leer la mediana y los percentiles directamente.
Si la distribución es simétrica, tendrá forma de S simétrica.
Si esta sesgada a la derecha o a la izquierda estará aplanada de ese lado.
Gráficas de distribuciones de frecuencias: histograma acumulado
Frecuencia acumulada del peso al nacer
0
20
40
60
80
100
120
501- 1501- 2501- 3501- 4501-
Peso
Fre
cuen
cia
acu
mu
lad
a (%
)
Recién Nacidos
Otras gráficas: tronco y hoja
Se usan para exhibición directa de datos cuantitativos o paso preliminar para la construcción de una distribución de frecuencias. Se organizan los datos, determinando el
número de divisiones (5-15). Se traza una línea vertical y se coloca el
primer dígito (tronco) de la categoría a la izquierda de la línea y el segundo dígito (hojas) a la derecha de la línea vertical.
Otras gráficas: tronco y hoja
Paciente
Edad
1 54
2 35
3 49
4 61
5 58
6 64
7 32
8 57
9 43
10 42
3 5 2
4 932
5 487
6 14
Otras gráficas: caja y línea
Se traza una línea vertical que representa el rango de la distribución.
Se traza una línea horizontal que representa el tercer cuartil y otra que representa el primer cuartil.
El punto medio de la distribución se señala con una línea horizontal dentro de la caja.
Otras gráficas: caja y línea
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
Medidas de localización
Para una variable categórica: porcentaje Para variable cuantitativa:
Medidas de tendencia central: Media Mediana Modo
Medidas de dispersión: Desviación estándar Percentiles Rango
Medidas de tendencia central
Media Es el promedio convencional. Si decimos de n observaciones tiene un valor
xi, entonces el valor de la media será:
_X =Σxi/n
Medidas de tendencia central en una distribución de frecuencias Cada valor de los datos (xi) ocurre con una
frecuencia (fi), entonces:
En una distribución agrupada, utilizamos los puntos medios de los intervalos como valor de x
_X =Σxifi/n
Medidas de tendencia central en una distribución de frecuencias
Intervalo Punto medio Frecuencia (fi)_________________________________
1 – 3 2 184 – 6 5 277 – 9 8 3410 – 12 11 2213 – 15 14 13
_________________________________Total 114
Ejemplo de la media para una distribución agrupada
(2 x 18) + (5 x 27) + (8 x 34) + (11 x 22) + (14 x 13) 36 + 135 + 272 + 242 + 182 867Media = --------------------------------------------------------------------- = ---------------------------------------- = -------- = 7.61 (18 + 27 + 34 + 22 + 13) 114 114
Media = 7.61 años
Medidas de tendencia central
Mediana Es el valor que divide a la distribución en dos
mitades iguales. Si es un número par de observaciones, los
valores centrales, se suman y se dividen entre dos.
51.2, 53.5, 55.6, 65.0, 74.2 la mediana es el valor que está a la mitad, así: Mediana = 55.6
51.2, 53.5, 55.6, 61.4, 65.0, 74.2, 55.6 + 61.4 /2 = Mediana 58.5
Medidas de tendencia central para distribuciones de frecuencias Mediana
Es el valor donde está el 50%.
Frecuencia acumulada del peso al nacer
0
20
40
60
80
100
120
501- 1501- 2501- 3501- 4501-
Peso
Fre
cu
en
cia
acu
mu
lad
a (
%)
Recién Nacidos
Medidas de tendencia central
Modo Es el valor que ocurre más frecuentemente
Intervalo Punto medio Frecuencia (fi)_________________________________
1 – 3 2 184 – 6 5 277 – 9 8 3410 – 12 11 2213 – 15 14 13
_________________________________Total 114
Medidas de tendencia central
Propiedades La media es sensible a las colas, la mediana y
el modo, no El modo puede ser afectado por pequeños
cambios en los datos, la media y la mediana no.
El modo y la mediana se puede localizar en una gráfica.
Las tres medidas son iguales en una distribución Normal.
Medidas de tendencia central
¿Cuál medida usar? Para distribuciones sesgadas, se usa la
mediana. Para análisis estadístico e inferencia, se usa
más la media.
Medidas de dispersión
Rango Se señalan el valor mínimo y máximo y la
diferencia entre ellos.
51.2, 53.5, 55.6, 61.4, 65.0, 74.2
El rango de esta distribución es 51.2 – 74.2 kg.
Sin embargo los valores extremos de esta distribución están alejados del centro de la distribución, oscureciendo el hecho de que la mayoría de los datos están 53.5 y 65 kg.
Medidas de dispersión Percentiles
Un percentil o centil es el valor abajo del cual, un porcentaje dado de los datos, ha ocurrido.
Examine la distribución de la estatura en esta población. ¿Cuál es el rango, mediana, percentil 25 y percentil 75?
Estatura en cm. n Frecuencia relativa (%) Frecuencia acumulada (%) 151 2 0.7 0.7152 3 1.1 1.8152 6 2.2 4.0154 12 4.5 8.5155 27 10.0 18.5157 29 10.8 29.3158 26 9.7 39.0159 33 12.3 51.3163 37 13.8 65.1164 16 5.9 71.0165 24 8.9 79.9168 18 6.7 86.6169 14 5.2 91.8171 6 2.2 94.0174 7 2.6 96.6175 1 0.4 97.0177 4 1.5 98.5179 2 0.7 99.2184 1 0.4 99.6185 1 0.4 100.0Total 269 100.0
Medidas de dispersión
Desviación estándar Es la forma más común de cuantificar la
variabilidad de una distribución. Mide que tan alejando está cada valor de su
media.
Sujeto Altura Valor Σ Xi - X 1 1.6 -1 Desviación media = ---------- 2 1.7 0 n 3 1.8 +1 _ X= 1.7 Desviación media = (-1)+(0)+(+1)/3 = 0
Medidas de dispersión Desviación estándar
Debemos interesarnos más por la magnitud de las desviaciones.
Si elevamos al cuadrado cada desviación, tendremos valores positivos.
Si dividimos esa suma entre n -1, obtendremos la varianza y si obtenemos la raíz cuadrada, tendremos la desviación estándar.
Sujeto Altura Valor2
Σ (Xi - X)2 1 1.6 0.1 Desviación estándar =√ ---------- 2 1.7 0 n-1 3 1.8 0.1 _ X= 1.7 Desviación estándar = √0.2/2 = 0.32
Medidas de dispersión para datos agrupados Desviación estándar
Se usa el punto medio de cada intervalo.
Σ f(Xi - X)2 Desviación estándar =√ -------------- f - 1 También puede expresarse:
Σfx2 - (Σfx)2 /Σf Desviación estándar = √ --------------------- Σ f -1
Medidas de dispersión para datos agrupados Para datos distribuidos normalmente
Alrededor del 68% de los datos están dentro de 1 desviación estándar.
Alrededor del 95% de los datos están dentro de 2 desviaciones estándar.
Alrededor del 99.9% de los datos están dentro de 3 desviaciones estándar.
La desviación estándar es una medición de la anchura de la distribución. Si la desviación estándar cambia, también cambia la distribución.
Bibliografía
1.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988.
2.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991.