Biometria clase 3
-
Upload
javiera-isidora-burgos-saavedra -
Category
Education
-
view
231 -
download
1
description
Transcript of Biometria clase 3
BIOMETRÍA
242203 242317
20 de marzo de 2012
Sergio Neira – Hugo Arancibia
x x x
x
x
x x x
x
x x
x x
x
x
A B C
Representación pictórica de la data
Supuesto 1. tenemos una muestra de observaciones que es
representativa de la población que nos interesa
Supuesto 2. Vamos a aprender sobre la población a partir de la muestra.
La data son la esencia de investigaciones científicas, pero raramente los
investigadores reportan TODA la data.
Necesitamos condensar la información contenida en la muestra (incluso
20 observaciones son más de lo que podemos comprender sin alguna
forma de resumirlas).
Y vimos la conveniencia de usar tablas y diagramas para resumir
data. Algunos comentarios:
Tablas de datos
son utilizadas ampliamente en la recolección, manipulación y resumir
la data.
Permiten exhibir claramente la relación entre datos y reducir los
errores a la hora de recolectar y manipular data.
Ayudan al cálculo de cantidades derivadas y en la interpretación de
los datos.
Las tablas son de tres tipos principales:
Tablas de data cruda;
Tablas de cálculos;
Tablas resumen
Puntos importantes a la hora de construir tablas
General:
1. Asegurarse que la tabla sea auto-explicativa. Incluya un título, una breve
descripción de la fuente de la data, establezca en qué unidades se expresa
la data, etiquete las columnas y filas cuando sea necesario o apropiado.
Tablas crudas
2. Planee la tabla (hoja) de modo que:
(a) la recopilación sea fácil y no ambigua;
(b) las cantidades derivadas sean resueltas convenientemente en la misma
planilla (ej. suficiente espacio para calcular totales).
3. Mantenga la tabla tan simple como sea posible (simple is beauty!)
4. Al anotar números, use una cantidad suficiente de cifras de modo de no
desperdiciar información. Sin embargo, no anote dígitos sin importancia.
Si tiene dudas, la regla de pulgar es anotar hasta la tercera cifra
significativa.
5. Haga las correcciones claramente, tarje la cifra y escriba la correcta
debajo, en vez de corregir los números.
6. Distinga claramente cuando un valor es cero de un valor no presente.
Tablas de cálculo
7. Cuando sea posible, realice los cálculos en la misma planilla.
Transferir data desde una planilla a otra generalmente introduce error.
8. Si debe transferir los datos a otra planilla, asegúrese de revisar los
números transferidos. Por ejemplo, cerciórese que el total de las
columnas de los números transferidos es igual al total de los números
originales en la planilla de campo. Además, revise número por número.
9. De un patrón lógico a sus cálculos en la planilla.
10. Seleccione unidades que e lector entienda y que mantendrá la tabla
simple. (millones de pesos y no pesos, etc.).
1. Confeccione un gráfico auto-explicativo: provea un título y una breve
descripción de la fuente, etiquete los ajes, establezca las unidades de
medida, marque las escalas y entregue una clave si es necesario.
2. Escoja las escalas de modo que
(a) Sean convenientes
(b) Aseguren el uso de la mayor parte de la superficie del gráfico.
3. Esté atento a lo engañoso que puede resultar el gráfico si no se
incluye el origen.
1. ¿Cómo se distribuyen los datos?
2. ¿Cuál es el rango de valores (min y máx)?
3. ¿Hay valores más frecuentes/probables que otros?
4. ¿Cuál sería el valor más representativo de la
muestra?
5. ¿Cuál es la variabilidad alrededor de la media?
6. ¿Dónde cree que se ubicarán nuevas medidas?
0
2
4
6
8
10
147.5 151.5 155.5 159.5 163.5 167.5 171.5 175.5 179.5 182.5 186.5
Fre
cu
en
cia
(N
° d
e e
stu
dia
nte
s)
n=29
Estatura de los estudiantes de biometría (cm)
Fre
cu
en
cia
rela
tiva
n=29
Estatura de los estudiantes de biometría (cm)
0.00
0.20
0.40
0.60
0.80
1.00
0.00
0.10
0.20
0.30
0.40
0.50
147.5 151.5 155.5 159.5 163.5 167.5 171.5 175.5 179.5 182.5 186.5
Fre
cu
en
cia
rela
tiva
acu
mu
lad
a
Ahora queremos resumir aún más la información contenida en
este histograma hasta una cifra que sea representativa de esta
población/muestra.
¿Qué cifra sería un buen candidato?
A. Una que esté hacia los extremos (e.g., cercano a los
valores pequeños o grandes), o
B. Una que esté en el medio.
En las muestras, como en las poblaciones, generalmente
encontraremos una concentración de valores en las
inmediaciones de la mitad del rango de valores observados.
La descripción de esta concentración cerca del medio es lo
que se conoce como medida de tendencia central.
Varias medidas de tendencia central son parámetros útiles en
cuanto describen una propiedad de la población.
1. La mediana
Estudiante Duración del viaje a la Universidad
(minutos)
Duración del viaje a la Universidad
(minutos)
1 17 14 2 30 15
3 14 16 4 16 17 5 26 18
6 15 26 7 27 26
8 18 27
9 26 30
Máximo 30 30 Mínimo 14 14
Mediana 18
La mediana
Estudiante Duración del viaje a la Universidad
(minutos)
Duración del viaje a la Universidad
(minutos)
1 17 14 2 30 15
3 14 16 4 16 17 5 26 18
6 15 26 7 27 26
8 18 27
9 26 30
Máximo 30 30 Mínimo 14 14
Mediana 18
Definición: La mediana de un
conjunto de N observaciones que
han sido ordenadas (ranking), es
igual a la observación del medio
cuando N es impar y a la mitad de
la suma de las observaciones del
medio cuando N es par.
La mediana ignora la magnitud de las observaciones. Dependiendo de
cómo se distribuyan los datos, esto puede ser una ventaja o desventaja
como medida de tendencia central.
Si hay pocos estudiantes en el curso con viajes muy largos o muy cortos,
sería ventajoso contar con una medida de tendencia central que no esté
tan influida por estos valores extremos.
Pero si quisiéramos comparar el tiempo de viaje de varones y damas, y
encontraríamos que los tiempos en ambos grupos difieren por poco,
desearíamos una medida que fuera influida por todas las observaciones.
Esta medida sería sensible a cambios minúsculos en el tiempo de viaje,
mientras que la mediana cambiará poco o nada.
2. La media aritmética
Definición: La media (aritmética)
de un conjunto de observaciones
es igual a la suma de las
observaciones dividida por el
número de observaciones.
n
x
x
n
i
i
1
Estudiante Duración del viaje a
la Universidad (minutos)
M2 M3 M4
1 17 14 5 18
2 30 15 16 13 3 14 16 18 33
4 16 17 30 23 5 26 18 68 15
6 15 26 2 16 7 27 26 14 25
8 18 27 45 25 9 26 40 50 5
Máximo 30 40 68 33 Mínimo 14 14 2 5
Mediana 18 18 18 Media 21 22 28 19
*Ley de los números grandes (Andrei Kolmogorov, 1903-1987)
1. La moda
Definición: La moda es el valor de
las observaciones que aparece
más frecuentemente en la muestra.
La moda se puede leer fácilmente
desde el histograma.
0
2
4
6
8
10
147.5 151.5 155.5 159.5 163.5 167.5 171.5 175.5 179.5 182.5 186.5
Moda=158
Media=164
Mediana=162
1. ¿Cuándo usar cada una de las medidas?
*La media (aritmética) es la medida más usada principalmente
porque es familiar.
*****Radica en que el Teorema del Límite Central muestra que la
media aritmética de grandes muestras de variables aleatorias
conforman una distribución Gaussiana o normal incluso cuando la
variable aleatoria no.
Esta propiedad hace más fácil probar hipótesis sobre medias
aritméticas.
La media geométrica es más apropiada para describir procesos
tales como tasas poblacionales de crecimiento o clases de
abundancia de especies (transformación logarítmica).
Mediana y moda describen mejor la ubicación de la data cuando
las distribuciones de observaciones no se ajustan a una
distribución normal estándar o cuando hay variables extremas
(grandes o pequeñas).
Las medias son más sensibles a valores extremos, mientras que la
mediana y la moda tienden a mantenerse en el medio de la
distribución, independiente de la dispersión o forma.
Ya vimos algunas formas de medir el centro de un conjunto de observaciones.
Esto es sólo una parte de la historia que las observaciones nos pueden contar.
Aceptamos que las observaciones variarán de una a otra en el mismo
conjunto. Ahora nos preguntamos ¿Cómo se mide esta variabilidad?
1. Rango
Una forma es mirar a los valores extremos, al más alto y al más pequeño en el
conjunto de datos y calcular la diferencia entre ellos.
Definición: el rango de un conjunto de observaciones es la diferencia entre la
observación más grande y la más pequeña.
2. Desviación media.
xxi
3. Varianza y desviación estándar
Si nuestra intención es conocer cuan cercano está un conjunto de
observaciones en torno a la media, elevemos al cuadrado cada desviación.
La varianza es la medida de variabilidad más usada, y es la media del
cuadrado de las desviaciones.
Definición: la varianza de un set de observaciones x1, x2, …, xN es el
promedio del cuadrado de las desviaciones desde la media, y es igual a:
2xxi
N
i
i xxn
s1
22 1n
i
ix xxSS1
2
3. Desviación estándar /error estándar de la media
Es claro, desde la definición de la varianza, que ésta se mide en unidades de
x2 y no x.
Lo anterior complica su interpretación en términos de i) qué nos informa la
magnitud de la varianza, y ii) su comparación entre conjuntos de datos
(muestras).
Entonces, definiremos una medida de variabilidad estrechamente relacionada
con la varianza, pero expresada en las mismas unidades de la media
(observaciones).
Definición. La desviación estándar es la raíz cuadrada (+) de la varianza, y es
igual a: N
i
i xxn
s1
21
Parámetro Población Muestra
Media
Varianza
Desviación estándar
Coeficiente de variación
2
x2s
s
100 100x
s
1. Asimetría (skewness)
Es el denominado tercer momento central* dividido por la desviación al cubo es
la denominada asimetría.
n
i
xxins
g1
3
21
1
g1 describe cómo la muestra difiere en forma desde una distribución simétrica.
Una distribución normal tienes g1=0.
Una distribución con g1 > 0, se denomina asimetría derecha
Una distribución con g1 < 0, se denomina asimetría izquierda
2. Curtosis
Es el denominado cuarto momento central*.
n
i
xxins
g1
4
42
1
g2 mide la extensión a la cual la densidad de probabilidad se distribuye en las
colas versus el centro de la distribución.
Platicúrtica g2 < 0; comparada con la distribución noremal, hay más
probabilidad (masa) en el centro dela distribución que en las colas.
Leptocúrtica g2 > 0; menos probabilidad en el centro relativa a la probabilidad
en las colas.
Si tenemos un conjunto masivo de datos, quizás queramos en partes a la hora
de resumirlo. Normalmente, es útil construir una curva de frecuencia
acumulada (también llamada ojiva).
Definición: Los cuartiles de un conjunto de observaciones son los valores bajo
los cuales cae el 25%, 50% y 75% de las observaciones ordenadas de acuerdo
a un ranking.
Definición: Los deciles de un set de datos ordenados (ranking) en una
variable, son los valores de esa variables que dividen el conjunto en diez partes
iguales.
Definición: Los percentiles de un set de datos ordenados (ranking) en una
variable, son los valores de esa variables que dividen el conjunto en cien partes
iguales.
Más adelante veremos la utilidad de los percentiles 95° y 99° para la inferencia
estadística.
-
0.20
0.40
0.60
0.80
1.00
-4 -3 -2 -1 0 1 2 3 4
A menudo, la Población en estudio posee gran cantidad de elementos y
obtener una medida de interés es imposible (debiéramos medir cada
elemento individualmente). => Muestra.
La población está caracterizada por parámetros (cantidades desconocidas,
pero que se pueden estimar) a partir de la información contenida en una
muestra (con ciertas características de representatividad / aleatoriedad).
Estimamos de 2 formas:
1. Un número arbitrario => estimador puntual (esperamos cercano a µ)
2. Un intervalo => estimación por intervalo (que esperamos contenga a µ)
Definición: Estimador es una regla o algoritmo que nos permite usar
información muestral para calcular los valores estimados. Por lo general, se
expresa mediante una fórmula.
+/- 1s =67% obs
+/- 2s =96% obs
Creamos el intervalo de confianza:
)96.196.1( xx sxsxP
)1()( 11 xnxn stxstxP
Intervalo de confianza generalizado:
1nt
95% obs +/-1.96s
2.5% obs 2.5% obs
Los detalles del cálculo de probabilidad son la base sobre la cual se
asienta el cálculo de todos los test estadísticos de significancia.
¿Qué significa que leamos en un artículo científico que la media entre
dos muestras fueron significativamente diferentes con un valor
p=0.003? o
¿Cuál es la diferencia entre un error Tipo I y un error Tipo II?