Post on 23-Jan-2016
LABORATORIO DE ESTADÍSTICA
Sesión 4
Contingencia, Anova y correlación
EXPERIENCIA 1
Estudio de una tabla de contingencia
¿En qué se parecen estas interrogantes?
¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?
¿Depende del colegio de egreso el puntaje obtenido en la PSU?
¿Depende del sexo la marca de cigarrillo escogida?
Las preguntas involucran
Una variable
2 variables
Más de dos variables
Para seleccionar su repuesta identifique las variables y la o las poblaciones estudiadas.
RESPUESTA INCORRECTA Hay dos variables en cada problema
¿Depende de la carrera estudiada el nivel de ingreso ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?percibido por los profesionales? El ingreso y la carrera profesional
¿Depende del colegio de egreso el puntaje obtenido ¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud?en la prueba de aptitud? El puntaje de la PSU y el colegio
¿Depende del sexo la marca de cigarrillo escogida?¿Depende del sexo la marca de cigarrillo escogida? La marca de cigarrillo y el sexo
La La preguntapregunta que se quiere que se quiere contestar en cada caso escontestar en cada caso es
¿Las variables siguen una distribución normal?
¿La muestra es representativa de la población? ¿Las variables son independientes ó
dependientes?
Para seleccionar su repuesta identifique el tipo y el número de variables de interés.
RESPUESTA INCORRECTA Se busca saber si hay o hay una relación entre las dos
variables en cada problema ¿Depende de la carrera estudiada el nivel de ingreso percibido por
los profesionales? ¿El ingreso depende de la carrera profesional?
¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud? ¿El puntaje de la PSU depende del colegio donde se estudio?
¿Depende del sexo la marca de cigarrillo escogida? ¿Los hombres o las mujeres tienen una preferencia para una marca de
cigarrillo?
Una empresa que realiza estudios de mercado decide realizar un estudio que le permitirá decidir el nombre de marca a unos nuevos cigarrillos que serán comercializados.
En la encuesta realizada sobre una muestra aleatoria se pide a los encuestados que clasifica cada uno de los 5 nombres:
Alezan; Corsario; Fontenoy; Icaro y Zodiaco.
con una de las 8 categorías
Cuico; Sobrio; Ridículo; Con clase; Distinguido; Vulgar; Masculino; Femenino.
Pregunta a responder en esta experiencia:
¿Depende del nombre propuesto a la nueva marca de cigarrillos la característica asociada
por los posibles consumidores?
Tabla de Contingencia
Aquí tenemos dos variables X e Y nominales.
Construiremos la tabla de contingencia
asociada a los datos muestrales, que es la distribución conjunta de frecuencias absolutas
no acumuladas
Tabla de datos muestrales
2 variables nominales
X : p categorías (A1,A2,...,Ap)
Y : q categorías (B1,B2,...,Bq)
Las respuestas (Xk,Yk) del
encuestado k son del tipo (Ai ,Bj )
Encuestado X Y
1 A3 B5
2 A1 B4
... ... ...
... ... ...
n A2 B1
Tabla 1
Tabla de contingencia
Mij :CANTIDAD DE RESPUESTAS (Ai ,Bj)
p Categorías
q Categor
Í
a
s
A1 A2 . . . Aj . . . . . ApTotal
B1 M11 M12 M1.
B2 M2.
.
.
Mij
Bi
Bq Mq1 Mq.
Total M.1 n
¿Qué sucede al pasar de la Tabla 1 de los datos a la tabla de contingencia?
Se pierde solamente la identificación de cada encuestado
Se distorsiona la relación entre las dos variables
Se supone un tipo de distribución sobre las dos variables
Elige una de las 3 repuestas
RESPUESTA INCORRECTA
Se pierde solamente la identificación de cada encuestado
En efecto como el número de alternativas de repuestas de X o Y es finito podríamos reconstruir la Tabla 1 a partir de la tabla de contingencia. Lo que no podemos recuperar es el nombre del encuestado para cada repuesta.
La tabla de contingencia permite estimar la distribución de probabilidad de:
X+Y X (X,Y)
Elige una de las 3 repuestas
RESPUESTA INCORRECTA
La repuesta es
La distribución conjunta de (X,Y) En efecto las proporciones Mij/n, que son las
frecuencias relativas de encuestados que contestaron (Ai, Bj), estiman las probabilidades de la distribución conjunta
)( jiij yYxXPP
¿Cómo podemos concluir sobre la independencia de X e Y a partir de las frecuencias observadas Mij?
Si X e Y son independientes, las probabilidades Pij cumplen:
• 1
• 2 las probabilidades Pij son todas iguales
)()( jiij yYPxXPP
RESPUESTA INCORRECTA
La repuesta es
En efecto la distribución conjunta es el producto de las distribuciones marginales cuando hay independencia
)()( jiij yYPxXPP
Tenemos entonces que estimar las
probabilidades Pij bajo la hipótesis nula Ho de independencia:
con
)y(YP)x(XPP jiHij
o ˆˆˆ
n
MyYP
n
MxXP
jj
ii
)(ˆ
)(ˆ
¿Cuantos parámetros se tienen que estimar para obtener las probabilidades ?
p*q parámetros
p+q-2 parámetros
p+q parámetros
oHijP̂
RESPUESTA INCORRECTA
La repuesta esp+q-2 parámetros
En efecto hay p parámetros para las categorías de X, pero basta estimar P(X=A1), P(X=A2), ..., P(X=Ap-1) y deducir la estimación de P(X=Ap) de manera que las probabilidades suman 1. Es decir son p-1 estimaciones y q-1 para la variable Y.
TEST
Consideramos las dos hipótesis: H0: X e Y son independientes
H1: X e Y tienen algún grado de dependencia
El estadístico del Test es:
2
2)1q)(1p(
ji
2
jiij
~
n
MMn
MMM
Q
Si Qo es el valor observado en la muestra, se rechaza Ho si
1
2
3
500211 .)( ))(( oqp QP
010211 .)( ))(( oqp QP
01211 .)( ))(( oqp QP
RESPUESTA INCORRECTA
La repuesta es 2
En efecto si el valor Qo encontrado en la muestra es muy improbable cuando X e Y son independientes, podemos esperar que las variables tengan algún tendencia a relacionarse.
010211 .)( ))(( oqp QP
Comandos StatitTrabajaremos con el archivo: "Cigarros.wrk”, el cual contiene la encuesta de mercado la cual recolectó 698 opiniones.
Realiza el test de tabla de contingencia con Statit:Statistics:
Enumerative Data
Contingency Data
Analyse of Independence
Raw variable: ”Percepcion”;
Column variable: “Marca”
Layout of Table: Display Column Percentage
Concluye si tenemos suficiente evidencia para rechazar que la marca es independiente de la percepción
Se rechaza la independencia
Se acepta la independencia
RESPUESTA INCORRECTA
La repuesta es
Se rechaza la independencia
En efecto el p-valor se obtiene de la tabla
Statistic DF Value Prob
Chi-Square 28 394.706 0.000
0000796394247 .).( xP
Veamos ahora si podemos definir una relación entre la marca y su percepción:
Examine la tabla de contingencia, y
responda la pregunta 1 del test
EXPERIENCIA 2
Anova de un factor
Búsqueda de una droga para controlar el pulso de pacientes
Ahora estamos interesados en comparar tratamientos para bajar el pulso
Se mide el pulso de pacientes después del tratamiento A, B o C
Paciente A B C1 76 81 772 73 83 743 73 82 75 . . . . . . . . . . . . . . . .
Tratamiento
Procedimientos
Se calcularán algunos estadísticos para comparar las distribuciones del pulso de los 3 tratamientos
Las medias y varianzas por grupo
Se graficará un Box plot para comparar las distribuciones del pulso de los 3 tratamientos
Comandos Statit
Abra el archivo “pulso1.wkr”
StatisticsStatisticsDescriptive toolsDescriptive tools
Multi-way Univariate Statistics:Multi-way Univariate Statistics:Analysis Variable: “pulso”; Analysis Variable: “pulso”;
Class Variable: “Tratamiento”Class Variable: “Tratamiento”
Statistics: Statistics: Mean y Mean y Standard Desviation Standard Desviation
Layout of Table: Layout of Table: Display a summary Display a summary tabletable......
Comandos Statit
Para la realizacion del gráfico: En Statit con el archivo “pulso1.wkr”:
GraphicsDistribution Plots
Box Plot: Variables: “pulso”; DisplayBox: “By group”;
Group variable: “Tratamiento”
Examine los estadísticos y el gráfico. Responde a la pregunta 2 del test
• Para confirmar las conclusiones anteriores se propone hacer un test para rechazar la hipótesis:
Las varianzas del pulso en los 3 grupos son iguales
Las medias del pulso en los 3 grupos son
iguales La media del tratamiento C es el promedio de las
medias de los tratamientos A y B
Elige una de las 3 repuestas
RESPUESTA INCORRECTA
La repuesta es
Las medias del pulso en los 3 grupos son
iguales
En efecto es lo primero que se pregunta. Después se puede ver las otras preguntas..
ANOVAANOVA
Consideramos las dos hipótesis H0: μ1=μ2=μ3
H1: las medias no son iguales
Para probar una u otra hipótesis vamos a comparar las varianzas de las medias con las varianzas de los 3 grupos
Varianza para el tratamiento j:
Varianza promedio de los 3 grupos:
Varianza de las 3 medias:
Varianza Total:
1,2,3)(j s2j
jn
ijij
j
xxn 1
21)(
3
1
2
jj
j sn
nw
3
1
2
jj
j xxn
nb )(
3
1 1
2
j
n
iij
j
xx )(T
03
02
01
1
T
w
b
Ho
32
)(
)(
)(
:
Entonces, elige una de las 3 repuestas
RESPUESTA INCORRECTA
La repuesta es (1) b=0
Además T=w+b Si q es el numero de grupos, el estadístico
del test es::
qn,1qF~)qn/(w
)1q/(bF
Para rechazar la hipótesis nula, se espera
un estadístico F
Grande Chico
RESPUESTA INCORRECTA
La repuesta es Grande
Ya que si la hipótesis nula es cierta b=0. Un valor de F grande aleja de la hipótesis nula. .
Comandos Statit
En Statit:En Statit:Statistics Statistics ANOVAANOVA
OneWayOneWayDependente Variable: ”Pulso”; Dependente Variable: ”Pulso”; Classification Variable: Classification Variable:
“Tratamiento”“Tratamiento” Examine los resultados y concluya sobre la
hipótesis nula de igualdad de la medias.
LA RAZÓN DE CORRELACIÓNLA RAZÓN DE CORRELACIÓN
Utilizando el hecho que T=b+w, se construye Un índice llamado razón de correlación
2=b/T
Que vale 1 cuando w=0 0 cuando b=0
Utilizando la tabla ANOVA calcule este índice y responda el test
EXPERIENCIA 3
Coeficiente de correlación
Se busca estudiar la relación Se busca estudiar la relación entre el peso y la talla de un entre el peso y la talla de un grupo de niñasgrupo de niñas Queremos estudiar el
efecto de la edad sobre la relación entre el peso y la talla de las niñas
Niña Edad Peso Talla1 4 1456 10252 5 1635 10823 6 1800 1132 . . . . . . . . . . . . . . . .
Variables
Si {(xi, yi)|i=1,2,...,n} son los pesos y tallas de las niñas, el coeficiente de correlación lineal se escribe:
Si r=1 X e Y son independientes X e Y son linealmente dependientes
n
1i
2i
n
1i
2i
n
1iii
)yy()xx(
)yy)(xx(r
RESPUESTA INCORRECTA
La repuesta es X e Y son linealmente dependientes
En efecto, utilizando la desigualdad de Schwarz, se tiene r=1 cuando se alcanza la igualdad, lo que corresponde a la colinealidad de los n puntos
Además si r=-1, se tiene colinealidad también pero de signo negativo. Es decir que en este caso, si X crece, Y decrece.
Con los datos “Sempe1.wkr”, calcule el coeficiente de correlación entre el peso y la talla
En Statit:En Statit: StatisticsStatistics Regresion and CorrelationRegresion and Correlation
Correlation coefficienteCorrelation coefficiente
Variables: ”Peso” y “Talla” Variables: ”Peso” y “Talla” Observe el valor y el signo del Coeficiente de
correlación
El calculo anterior fue considerando todas las edades juntas
Repetimos el calculo del coeficiente para una edad dada: por ejemplo 10 u otra
En Statit:En Statit: Statistics Statistics Regresion and CorrelationRegresion and Correlation
Correlation coefficientesCorrelation coefficientesVariables: ”Peso” y “Talla” Variables: ”Peso” y “Talla” Local selection: edad==10Local selection: edad==10
Responda el test