Tipos de Gráficos y Tablas de Frecuencias
Angelo Bartsch J. Kinesiólogo, Mg. en EstadísBca
Ignacio Castellucci I. Kinesiólogo, Dr. Ingeniería
Humana
…una imagen vale más que mil Palabras
• La inspección visual de los datos siempre debe ser el primer paso para interpretar los resultados obtenidos.
…una imagen vale más que mil Palabras
• Cada Bpo de gráfico Bene un objeBvo disBnto – QQPlot – Histograma – Boxplot – Serie de Tiempo
Distribución de datos
Comparaciones
…una imagen vale más que mil Palabras
• QQPlot
• ¿Qué es un percenBl? • ¿Qué porcentaje de observaciones se encuentran entre ± 2 desviaciones est.?
…una imagen vale más que mil Palabras
• QQPlot
−2 −1 0 1 2
30
40
50
60
70
80
Gráfico Cuantil Cuantil con distribución Normal
Cuantiles teóricos de distribución Normal
Cu
an
tile
s m
ue
str
ale
s d
e v
ari
able
ed
ad
0.0 0.2 0.4 0.6 0.8 1.0
30
40
50
60
70
80
Gráfico Cuantil Cuantil con distribución Uniforme
Cuantiles teóricos de Distribución Uniforme
Cu
an
tile
s m
ue
str
ale
s d
e v
ari
able
ed
ad
Cola derecha
Cola izquierda
Línea de ajust
e
…una imagen vale más que mil Palabras
• QQPlot
−2 −1 0 1 2
30
40
50
60
70
80
Gráfico Cuantil Cuantil con distribución Normal
Cuantiles teóricos de distribución Normal
Cu
an
tile
s m
ue
str
ale
s d
e v
ari
able
ed
ad
0.0 0.2 0.4 0.6 0.8 1.0
30
40
50
60
70
80
Gráfico Cuantil Cuantil con distribución Uniforme
Cuantiles teóricos de Distribución Uniforme
Cu
an
tile
s m
ue
str
ale
s d
e v
ari
able
ed
ad ¿Existe un buen ajuste de
los datos? ¿Existen datos aWpicos? ¿Se sustenta el “supuesto” de normalidad? ¿La dispersión de los datos es la adecuada?
…una imagen vale más que mil Palabras
• Histograma
– ¿Qué es el sesgo (estadísBco)? – ¿Cómo el sesgo posiBvo en un gráfico? – ¿Qué es la Curtosis? – ¿Cómo es la curtosis > 3 en un gráfico?
…una imagen vale más que mil Palabras
• Histograma Histograma de Frecuencias
Consumo de combustible en el Reino Unido (MM de lt)
Frec
uenc
ia (N
º de
obs
)
0 200 400 600 800 1000 1200
010
2030
40
Cola derecha
Cola izquierda
…una imagen vale más que mil Palabras
• Histograma Histograma de Frecuencias
Consumo de combustible en el Reino Unido (MM de lt)
Den
sida
d (P
roba
bilid
ad)
0 2 4 6 8 10 12
0.0
0.1
0.2
0.3 Densidad observada
Densidad Normal
¿Cuál es la probabilidad que se consuman entre 1 y 2MM de l i tros de combusBble? ¿Es más probable que se consuman menos de 1 ó más de 10?
…una imagen vale más que mil Palabras
• Boxplot (cajas y bigotes)
– ¿Qué es un CuarBl? – ¿Qué es un dato aWpico?¿Cómo lo idenBfico?
…una imagen vale más que mil Palabras
• Boxplot (cajas y bigotes)
x x2
40
60
80
100
12
0Diagrama de cajas y bigotes para 2 muestras
muestras
Eda
des
dato atípico
Q1
Q2
Q3
min
max
…una imagen vale más que mil Palabras
• Boxplot (cajas y bigotes)
Q1 Q2 Q3 Q4
200
400
600
800
1000
1200
Consumo Cuatrimestral de Combustible en el Reino Unido
Cuatrimestre
Con
sum
o en
Mill
ones
de
Litro
s
Cola izquierda
¿ E s s i m é t r i c a l a d istr ibuc ión en cada variable? ¿La dispersión de los datos e s h o m o g é n e a (homocedasBcidad)? ¿Se superponen las obs. de las variables?
Formas de resumir información
• La semana anterior se uBlizó estadísBca descripBva, medidas de tendencia central, dispersión y forma. Enumérelos…
• Tablas de frecuencia, todas las observaciones clasificadas de acuerdo a intervalos – ?esoph <-‐ Data from a case-‐control study of (o)esophageal cancer in Ille-‐et-‐Vilaine, France.
Formas de resumir información • Tablas de frecuencia: – Intervalo es una subdivisión equidistante del recorrido de la variable.
– Frecuencia es el número de observaciones (nº de casos) que se encuentran en dicha intervalo o categoría.
– Absoluto se refiere en relación al número real de observaciones
– RelaBvo se refiere a la relación (porcentual respecto del total), es decir, obs. categoría/N
– Acumulado, se suman las observaciones de todos los intervalos previos
Describiendo
> sum(ftable(edad)) # suma de observaciones = n
> length(edad) # número de datos contenidos = n
> ftable(edad)/length(edad) # frecuencia relativa = ni/n
edad 1 2 3 4 5 60.1704545 0.1704545 0.1818182 0.1818182 0.1704545 0.125
> sum((ftable(edad))/length(edad)) #suma de frec. relativa fi = 1
> cumsum(ftable(edad)) #frecuencia abs. acumulada = Ni
> cumsum(ftable(edad)/length(edad)) #frecuencia rel. acumulada = Fi
Intervalo Edad ni
fi
Ni
Fi
1 25- 34 15 0,17 15 0,172 35- 44 15 0,17 30 0,343 45- 54 16 0,18 46 0,524 55- 64 16 0,18 62 0,705 65- 74 15 0,17 77 0,886 +75 11 0,13 88 1
P88 1 88 1
Tabla 2.1: Tabla de frecuencias para la edad de pacientes con cáncer
Una forma más elegante de obtener la tabla es mediante una unión(‘cbind’) de todos los resultados obtenidos, notar además que una funciónde R diferente, obtiene los mismos resultados (‘prop.table(table(x))’ y‘ftable(x))/length(x)’)
> cbind( ni=table(edad), fi=prop.table(table(edad)),Ni=cumsum(table(edad)), Fi=cumsum(prop.table(table(edad))))
Además en algunos casos, cuando se quiere destacar la comparaciónen una tabla, aquellos criterios que se desean comparar, es mejor situarlosen columnas contiguas, por ejemplo n
i
y Ni
, sería más fácil visualizarlossi estuvieran juntos. La tabla debe ser modificada dependiendo de lo quese quiera resaltar o comparar.
24
¿Cuántas personas Benen entre 25-‐ 34 años? ¿ C u á l e s l a probabilidad de que una persona en el estudio tenga más de 75 años?
Tarea
• Realizar gráfico Qqplot, Histograma y Cajas y Bigotes con `Dataset’ asignado.
• Usar Wtulos de gráfico y ejes con unidades de medidas respecBvas.
• Al menos un gráfico con color • En histograma, graficar línea verBcal que indica posición de la media (función abline()).
• Tabla de frecuencias. • Mostrar resultados en ppt máximo 4 láminas.
• Argumentos para gráficos:
• #Argumentos y parámetros de un gráfico, en caso de duda, uBlizar ?par • #Tipos de gráficos (plot): plot-‐ boxplot-‐ hist-‐ qqnorm… • #plot(x,main,xlab,ylab,col,legend,lty, )…
main="" , Titulo del gráfico xlab="”, Nombre de Eje Horizontal ylab="”, Nombre de Eje VerBcal col=””) Color de algún elemento (texto, columnas, leyenda, etc)
• # abline(v,lty,col) (v, Posición en el eje horizontal, v=mean(x) lty, Tipo de línea (1=sólida, 2=-‐-‐-‐, 3=..., 4=-‐.), lty=c(1,2,2) col,) …
• # legend(x,y,legend,lty,col) (x,y, Coordenadas en relación a valores de ejes de gráfico legend, Texto (variable representadas), c("Var 1","Var 2","Var n") lty, Tipo de línea (1=sólida, 2=-‐-‐-‐, 3=..., 4=-‐.), lty=c(1,2,2) col) Color de línea, si más de 2 var col=c("blue","red","green”)
• # lines(density(x),col,lty) Densidad de gráfico (hist) • # qqline(x,lty,col) Línea de ajuste (qqplot)
Top Related