Biometria clase 3

BIOMETRÍA

242203 242317

20 de marzo de 2012

Sergio Neira – Hugo Arancibia

x x x

x

x

x x x

x

x x

x x

x

x

A B C

Representación pictórica de la data

Supuesto 1. tenemos una muestra de observaciones que es

representativa de la población que nos interesa

Supuesto 2. Vamos a aprender sobre la población a partir de la muestra.

La data son la esencia de investigaciones científicas, pero raramente los

investigadores reportan TODA la data.

Necesitamos condensar la información contenida en la muestra (incluso

20 observaciones son más de lo que podemos comprender sin alguna

forma de resumirlas).

Y vimos la conveniencia de usar tablas y diagramas para resumir

data. Algunos comentarios:

Tablas de datos

son utilizadas ampliamente en la recolección, manipulación y resumir

la data.

Permiten exhibir claramente la relación entre datos y reducir los

errores a la hora de recolectar y manipular data.

Ayudan al cálculo de cantidades derivadas y en la interpretación de

los datos.

Las tablas son de tres tipos principales:

Tablas de data cruda;

Tablas de cálculos;

Tablas resumen

Puntos importantes a la hora de construir tablas

General:

1. Asegurarse que la tabla sea auto-explicativa. Incluya un título, una breve

descripción de la fuente de la data, establezca en qué unidades se expresa

la data, etiquete las columnas y filas cuando sea necesario o apropiado.

Tablas crudas

2. Planee la tabla (hoja) de modo que:

(a) la recopilación sea fácil y no ambigua;

(b) las cantidades derivadas sean resueltas convenientemente en la misma

planilla (ej. suficiente espacio para calcular totales).

3. Mantenga la tabla tan simple como sea posible (simple is beauty!)

4. Al anotar números, use una cantidad suficiente de cifras de modo de no

desperdiciar información. Sin embargo, no anote dígitos sin importancia.

Si tiene dudas, la regla de pulgar es anotar hasta la tercera cifra

significativa.

5. Haga las correcciones claramente, tarje la cifra y escriba la correcta

debajo, en vez de corregir los números.

6. Distinga claramente cuando un valor es cero de un valor no presente.

Tablas de cálculo

7. Cuando sea posible, realice los cálculos en la misma planilla.

Transferir data desde una planilla a otra generalmente introduce error.

8. Si debe transferir los datos a otra planilla, asegúrese de revisar los

números transferidos. Por ejemplo, cerciórese que el total de las

columnas de los números transferidos es igual al total de los números

originales en la planilla de campo. Además, revise número por número.

9. De un patrón lógico a sus cálculos en la planilla.

10. Seleccione unidades que e lector entienda y que mantendrá la tabla

simple. (millones de pesos y no pesos, etc.).

1. Confeccione un gráfico auto-explicativo: provea un título y una breve

descripción de la fuente, etiquete los ajes, establezca las unidades de

medida, marque las escalas y entregue una clave si es necesario.

2. Escoja las escalas de modo que

(a) Sean convenientes

(b) Aseguren el uso de la mayor parte de la superficie del gráfico.

3. Esté atento a lo engañoso que puede resultar el gráfico si no se

incluye el origen.

1. ¿Cómo se distribuyen los datos?

2. ¿Cuál es el rango de valores (min y máx)?

3. ¿Hay valores más frecuentes/probables que otros?

4. ¿Cuál sería el valor más representativo de la

muestra?

5. ¿Cuál es la variabilidad alrededor de la media?

6. ¿Dónde cree que se ubicarán nuevas medidas?

0

2

4

6

8

10

147.5 151.5 155.5 159.5 163.5 167.5 171.5 175.5 179.5 182.5 186.5

Fre

cu

en

cia

(N

° d

e e

stu

dia

nte

s)

n=29

Estatura de los estudiantes de biometría (cm)

Fre

cu

en

cia

rela

tiva

n=29

Estatura de los estudiantes de biometría (cm)

0.00

0.20

0.40

0.60

0.80

1.00

0.00

0.10

0.20

0.30

0.40

0.50

147.5 151.5 155.5 159.5 163.5 167.5 171.5 175.5 179.5 182.5 186.5

Fre

cu

en

cia

rela

tiva

acu

mu

lad

a

Ahora queremos resumir aún más la información contenida en

este histograma hasta una cifra que sea representativa de esta

población/muestra.

¿Qué cifra sería un buen candidato?

A. Una que esté hacia los extremos (e.g., cercano a los

valores pequeños o grandes), o

B. Una que esté en el medio.

En las muestras, como en las poblaciones, generalmente

encontraremos una concentración de valores en las

inmediaciones de la mitad del rango de valores observados.

La descripción de esta concentración cerca del medio es lo

que se conoce como medida de tendencia central.

Varias medidas de tendencia central son parámetros útiles en

cuanto describen una propiedad de la población.

1. La mediana

Estudiante Duración del viaje a la Universidad

(minutos)

Duración del viaje a la Universidad

(minutos)

1 17 14 2 30 15

3 14 16 4 16 17 5 26 18

6 15 26 7 27 26

8 18 27

9 26 30

Máximo 30 30 Mínimo 14 14

Mediana 18

La mediana

Estudiante Duración del viaje a la Universidad

(minutos)

Duración del viaje a la Universidad

(minutos)

1 17 14 2 30 15

3 14 16 4 16 17 5 26 18

6 15 26 7 27 26

8 18 27

9 26 30

Máximo 30 30 Mínimo 14 14

Mediana 18

Definición: La mediana de un

conjunto de N observaciones que

han sido ordenadas (ranking), es

igual a la observación del medio

cuando N es impar y a la mitad de

la suma de las observaciones del

medio cuando N es par.

La mediana ignora la magnitud de las observaciones. Dependiendo de

cómo se distribuyan los datos, esto puede ser una ventaja o desventaja

como medida de tendencia central.

Si hay pocos estudiantes en el curso con viajes muy largos o muy cortos,

sería ventajoso contar con una medida de tendencia central que no esté

tan influida por estos valores extremos.

Pero si quisiéramos comparar el tiempo de viaje de varones y damas, y

encontraríamos que los tiempos en ambos grupos difieren por poco,

desearíamos una medida que fuera influida por todas las observaciones.

Esta medida sería sensible a cambios minúsculos en el tiempo de viaje,

mientras que la mediana cambiará poco o nada.

2. La media aritmética

Definición: La media (aritmética)

de un conjunto de observaciones

es igual a la suma de las

observaciones dividida por el

número de observaciones.

n

x

x

n

i

i

1

Estudiante Duración del viaje a

la Universidad (minutos)

M2 M3 M4

1 17 14 5 18

2 30 15 16 13 3 14 16 18 33

4 16 17 30 23 5 26 18 68 15

6 15 26 2 16 7 27 26 14 25

8 18 27 45 25 9 26 40 50 5

Máximo 30 40 68 33 Mínimo 14 14 2 5

Mediana 18 18 18 Media 21 22 28 19

*Ley de los números grandes (Andrei Kolmogorov, 1903-1987)

1. La moda

Definición: La moda es el valor de

las observaciones que aparece

más frecuentemente en la muestra.

La moda se puede leer fácilmente

desde el histograma.

0

2

4

6

8

10

147.5 151.5 155.5 159.5 163.5 167.5 171.5 175.5 179.5 182.5 186.5

Moda=158

Media=164

Mediana=162

1. ¿Cuándo usar cada una de las medidas?

*La media (aritmética) es la medida más usada principalmente

porque es familiar.

*****Radica en que el Teorema del Límite Central muestra que la

media aritmética de grandes muestras de variables aleatorias

conforman una distribución Gaussiana o normal incluso cuando la

variable aleatoria no.

Esta propiedad hace más fácil probar hipótesis sobre medias

aritméticas.

La media geométrica es más apropiada para describir procesos

tales como tasas poblacionales de crecimiento o clases de

abundancia de especies (transformación logarítmica).

Mediana y moda describen mejor la ubicación de la data cuando

las distribuciones de observaciones no se ajustan a una

distribución normal estándar o cuando hay variables extremas

(grandes o pequeñas).

Las medias son más sensibles a valores extremos, mientras que la

mediana y la moda tienden a mantenerse en el medio de la

distribución, independiente de la dispersión o forma.

Ya vimos algunas formas de medir el centro de un conjunto de observaciones.

Esto es sólo una parte de la historia que las observaciones nos pueden contar.

Aceptamos que las observaciones variarán de una a otra en el mismo

conjunto. Ahora nos preguntamos ¿Cómo se mide esta variabilidad?

1. Rango

Una forma es mirar a los valores extremos, al más alto y al más pequeño en el

conjunto de datos y calcular la diferencia entre ellos.

Definición: el rango de un conjunto de observaciones es la diferencia entre la

observación más grande y la más pequeña.

2. Desviación media.

xxi

3. Varianza y desviación estándar

Si nuestra intención es conocer cuan cercano está un conjunto de

observaciones en torno a la media, elevemos al cuadrado cada desviación.

La varianza es la medida de variabilidad más usada, y es la media del

cuadrado de las desviaciones.

Definición: la varianza de un set de observaciones x1, x2, …, xN es el

promedio del cuadrado de las desviaciones desde la media, y es igual a:

2xxi

N

i

i xxn

s1

22 1n

i

ix xxSS1

2

3. Desviación estándar /error estándar de la media

Es claro, desde la definición de la varianza, que ésta se mide en unidades de

x2 y no x.

Lo anterior complica su interpretación en términos de i) qué nos informa la

magnitud de la varianza, y ii) su comparación entre conjuntos de datos

(muestras).

Entonces, definiremos una medida de variabilidad estrechamente relacionada

con la varianza, pero expresada en las mismas unidades de la media

(observaciones).

Definición. La desviación estándar es la raíz cuadrada (+) de la varianza, y es

igual a: N

i

i xxn

s1

21

Parámetro Población Muestra

Media

Varianza

Desviación estándar

Coeficiente de variación

2

x2s

s

100 100x

s

1. Asimetría (skewness)

Es el denominado tercer momento central* dividido por la desviación al cubo es

la denominada asimetría.

n

i

xxins

g1

3

21

1

g1 describe cómo la muestra difiere en forma desde una distribución simétrica.

Una distribución normal tienes g1=0.

Una distribución con g1 > 0, se denomina asimetría derecha

Una distribución con g1 < 0, se denomina asimetría izquierda

2. Curtosis

Es el denominado cuarto momento central*.

n

i

xxins

g1

4

42

1

g2 mide la extensión a la cual la densidad de probabilidad se distribuye en las

colas versus el centro de la distribución.

Platicúrtica g2 < 0; comparada con la distribución noremal, hay más

probabilidad (masa) en el centro dela distribución que en las colas.

Leptocúrtica g2 > 0; menos probabilidad en el centro relativa a la probabilidad

en las colas.

Si tenemos un conjunto masivo de datos, quizás queramos en partes a la hora

de resumirlo. Normalmente, es útil construir una curva de frecuencia

acumulada (también llamada ojiva).

Definición: Los cuartiles de un conjunto de observaciones son los valores bajo

los cuales cae el 25%, 50% y 75% de las observaciones ordenadas de acuerdo

a un ranking.

Definición: Los deciles de un set de datos ordenados (ranking) en una

variable, son los valores de esa variables que dividen el conjunto en diez partes

iguales.

Definición: Los percentiles de un set de datos ordenados (ranking) en una

variable, son los valores de esa variables que dividen el conjunto en cien partes

iguales.

Más adelante veremos la utilidad de los percentiles 95° y 99° para la inferencia

estadística.

-

0.20

0.40

0.60

0.80

1.00

-4 -3 -2 -1 0 1 2 3 4

A menudo, la Población en estudio posee gran cantidad de elementos y

obtener una medida de interés es imposible (debiéramos medir cada

elemento individualmente). => Muestra.

La población está caracterizada por parámetros (cantidades desconocidas,

pero que se pueden estimar) a partir de la información contenida en una

muestra (con ciertas características de representatividad / aleatoriedad).

Estimamos de 2 formas:

1. Un número arbitrario => estimador puntual (esperamos cercano a µ)

2. Un intervalo => estimación por intervalo (que esperamos contenga a µ)

Definición: Estimador es una regla o algoritmo que nos permite usar

información muestral para calcular los valores estimados. Por lo general, se

expresa mediante una fórmula.

+/- 1s =67% obs

+/- 2s =96% obs

Creamos el intervalo de confianza:

)96.196.1( xx sxsxP

)1()( 11 xnxn stxstxP

Intervalo de confianza generalizado:

1nt

95% obs +/-1.96s

2.5% obs 2.5% obs

Los detalles del cálculo de probabilidad son la base sobre la cual se

asienta el cálculo de todos los test estadísticos de significancia.

¿Qué significa que leamos en un artículo científico que la media entre

dos muestras fueron significativamente diferentes con un valor

p=0.003? o

¿Cuál es la diferencia entre un error Tipo I y un error Tipo II?

Biometria clase 3

Education

Transcript of Biometria clase 3