Regresion lineal simple
-
Upload
bladimir-aguilar -
Category
Documents
-
view
729 -
download
3
Transcript of Regresion lineal simple
Tema 1- Regresión lineal simple. 1.1. Introducción1.2. Especificación del modelo de regresión lineal simple en la población.
1.2.1. Estructura de los modelos de regresión1.2.2. Hipótesis básicas
1.3. Estimación de los parámetros del modelo de regresión lineal simple1.3.1. La recta de regresión de mínimos cuadrados en
puntuaciones directas y principales propiedades1.3.2. La recta de regresión en puntuaciones diferenciales1.3.3. La recta de regresión en puntuaciones típicas1.3.4. Relación entre la pendiente de la recta y el coeficiente de
correlación1.3.5. Interpretación de los coeficientes de la recta de regresión
1.4. El contraste de la regresión1.4.1.Componentes de variabilidad y bondad de ajuste1.4.2. Validación del modelo1.4.3. Significación de parámetros
1.5. Diagnosis del modelo: Análisis de residuos1.6. Predicción
Tema 1- Regresión lineal simple. 1.1. Introducción1.1.1. Ejemplos de investigaciones en las que puede ser
adecuado utilizar el modelo de regresión simple.1.1.2. El concepto de relación entre variables: naturaleza y
tipos de relación.1.1.3. Herramientas para evaluar la relación entre dos
variables1.1.3.1. El diagrama de dispersión1.1.3.2. La covarianza1.1.3.3. El coeficiente de correlación de Pearson
1.1. Introducción
1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el modelo de regresión simple.
Se pretende estudiar si la competencia escolar de niños, medida en una escala entre 1 y 4, depende del t iempo en meses que l levan viviendo con un progenitor
Variable dependiente o cri terio (endógena): competencia escolarVariable independiente o predictora (exógena): meses de
monoparental idad
Se pretende estudiar si el ajuste emocional de niños, medido por un test de ajuste que proporciona puntuaciones en una escala entre 0 y 10, depende del ámbito rural o urbano en el que vive la famil ia
Variable dependiente o cri terio : ajuste emocionalVariable independiente o predictora: ámbito geográfico
1.1. Introducción
1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el modelo de regresión simple.
Se pretende estudiar la relación entre estrés laboral y la variable trabajo a turno
Variable dependiente o cri terio : estrés laboralVariable independiente o predictora: t ipo de turno: fi jo o variable
Se pretende estudiar si las notas en Análisis de Datos II dependen de Análisis de Datos I
Variable dependiente o cri terio : Análisis de Datos IIVariable independiente o predictora: Análisis de datos I
Para estudiar empíricamente estas relaciones medimos, en una muestra de sujetos, los valoresde las variables incluidas en la relación. Genéricamente, la información de un sujeto cualquiera de la muestra Si, vendrá dada por el par (Xi, Yi). El conjunto de pares constituye la matriz de datosde la investigación y para los ejemplos propuestos tendrá el siguiente formato.
Tabla o matriz de datosAnálisis de datos I Análisis de datos II
1 22 13 34 45 20 37 58 69 8
10 9
Meses comp escolar2 4
18 4108 3.6624 2.83
132 260 3.516 2.169 2.66
84 2.5
comp escolar ámbito4 14 1
3.66 12.83 1
2 13.5 0
2.16 02.66 02.5 0
1.83 0
Turno estrés0 650 760 500 890 571 451 341 561 551 61
N=10
N=9
N=10 N=10
Observar que las variable ámbito y turno aunque no son métricas las hemos codificado como numéricas. Hemos elegido el 0 y el 1 para diferenciar entre las categorías de las variables. Este tipo de codificación, muy frecuente en estadística, se conoce como codificación “dummy” o ficticia
1.1.2. El concepto de relación entre variables. Naturaleza y tipos de relación: el gráfico de dispersión
0
5
10
15
20
25
0 2 4 6 8 10 12 -20
-15
-10
-5
0
5
0 2 4 6 8 10 12
0
1
2
3
4
0 2 4 6 8 10 12
1.1.2. El concepto de relación entre variables: naturaleza y tipos de relación.
0
20
40
60
80
100
0 1 -15
-10
-5
0
5
10
0
5
10
15
20
25
30
05
101520
2530
3540
0 5 10 15 20
0
50
100
150
200
250
300
0 5 10 15 20
1.1.2. El concepto de relación entre variables: naturaleza y tipos de relación.
19
21
23
25
27
29
31
0 2 4 6 8 10 12
0
5
10
15
20
25
30
35
0 2 4 6 8 10 12
1.1.3.2. La covarianza
( )( )S
X X Y Y
NS P CNx y
ii
N
i
=− −
−=
−=
∑1
1 1
La covarianza puede tomar valores entre (-∞,+∞) de manera que si:Sxy= 0 independencia lineal
Sxy> 0 relación lineal directa o positiva
Sxy< 0 relación lineal inversa o negativa
Vamos a ver, utilizando el gráfico de dispersión, porque las relaciones De orden anteriores están relacionadas con el tipo de relación lineal.
Sxy> 0 relación lineal directa o positiva
X
Y
X X-
Y Y-
Sxy< 0 relación lineal inversa o negativa
X X-
Y Y-
X
Y
Sxy= 0 independencia lineal
X X-
Y Y-
X
Y
Análisis de datos I Análisis de datos II1 2 -3.9 -2.3 8.972 1 -2.9 -3.3 9.573 3 -1.9 -1.3 2.474 4 -0.9 -0.3 0.275 2 0.1 -2.3 -0.230 3 -4.9 -1.3 6.377 5 2.1 0.7 1.478 6 3.1 1.7 5.279 8 4.1 3.7 15.17
10 9 5.1 4.7 23.97Sumas 49 43 0 0 73.3Medias 4.9 4.3 8.14444444
X X- Y Y- ( )( )X X Y Y- -
S x y
1.1.3.2. La covarianza: dependencia de escalas
1.1.3.3. El coeficiente de correlación de Pearson
( )( )
( ) ( )r
S
S S
X X Y Y
X X Y Yx y
x y
x y
ii
N
i
ii
N
ii
N= =
− −
− −
=
= =
∑
∑ ∑1
2
1
2
1
− ≤ ≤ +1 1r x y
0
5
10
15
20
25
0 2 4 6 8 10 12
rxy = 1
-20
-15
-10
-5
0
5
0 2 4 6 8 10 12
rxy = -1
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10
rxy = 0.88
rxy = -0.88
0
2
4
6
8
10
12
0 2 4 6 8 10 12
rxy = 0
rxy = 0
1.2. Especificación del modelo de regresión lineal simple en la población.
Xi i
Expresión matemática del modelo en la población
( )Y f X X Y
Y X
Y Y
i i i i i i i
i i
i i i
= + = + + = +
= +
= −
ε β β ε ε
β β
ε
0 1
0 1
predictora criterioindependiente dependienteexógena endógenaexplicativa explicada
En el modelo hay dos variables observadas: X e Y y dos parámetrosla ordenada en el origen de la recta de regresión y la pendienteInterpretación de los parámetros:
0 1
1.2.1. Estructura de los modelos de regresión
Puntuación predicha por la recta de regresión verdadera
Residuo o error de predicción
Yi
Interpretación de los parámetros:
XXY 3,070ˆ10 +=+= ββ
i
Esperanza de vida
Ejercicio físico
i
Esperanza de vida
Consumo de tabaco
XXY 04,070ˆ10 −=+= ββ
1.2.2. Hipótesis básicas
2. Homocedasticidad: la varianza del término de error es constante:
1. El término de Error es una variable aleatoria con media cero:
4. Los errores son independientes entre sí.
3. Los errores se distribuyen normalmente:
3’. La distribución de Y es normal para cada X:
4’. Las observaciones Yi son independientes entre sí.
Las hipótesis anteriores pueden formularse de manera equivalenteen términos de la variable criterio. Así,
2’. La varianza de Y es constante: 2)/( σ=iXYVar
ii XXYE βα+=)/(
1’. La media de Y depende linealmente de X:
ii XXYE βα +=)/(
2)/( σ=iXYVar
ii XXYE βα +=)/(
),(/ 2σβα ii XNXY +≈
0)( =iE ε
2)( σε =iVar
),0( 2σε Ni ≈
Resumen gráfico de las hipótesis básicas formuladas en términos de la variable criterio
X1, X2, X3, X4
Distribución Normal
2/
2/
2/
2/ 4321 xyxyxyxy σσσσ ===
Resumen gráfico de las hipótesis básicas formuladas en términos de los residuos
0
X1, X2, X3, X4
El objetivo del análisis de regresión será estimar los
parámetros del modelo presentado y contrastar las
hipótesis de partida todo ello a partir de una muestra.
1.3. Estimación de los parámetros del modelo de regresión lineal simple
1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades
1.3.2. La recta de regresión en puntuaciones diferenciales
1.3.3. La recta de regresión en puntuaciones típicas
1.3.4. Relación entre la pendiente de la recta y el coeficiente de correlación
1.3.5. Interpretación de los coeficientes de la recta de regresión
1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades
Partimos de una muestra de sujetos extraídos de una poblaciónen la que se han tomado valores de las variables X e Y. La situaciónmás frecuente es que los puntos estén dispersos en el plano definidopor X e Y. La primera pregunta a plantearnos es de las infinitas rectasque podemos ajustar a la nube de puntos ¿Cuál estimará mejor los parámetros?. Existen diferentes criterios.
1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades
Y a b X e Y e
Y b b X e Y e
Y b b X
e Y Y
i i i i i
i i i i i
i i
i i i
= + + = +
= + + = +
= +
= −
0 1
0 1
1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00
X: Análisis de datos I
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
Y:
An
ális
is d
e D
ato
s II
Criterio de mínimos cuadrados:
( ) ( )( )
( )( )
( )( )
e Y Y Y a b X
aY a b X
bY a b X
ii
N
i i i ii
N
i
N
i ii
N
i ii
N
2
1
2 2
11
2
1
2
1
0
0
= − = − + =
− + =
− + =
= ==
=
=
∑ ∑∑
∑
∑
m i n
∂∂
∂∂
1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades
Recta de regresión mínimo cuadrática (puntuaciones directas):
( ) ( )
( )
( )
a Y b X
bX X Y Y
X X
S
Sr
S
S
Y a b X Y b X X
ii
N
i
ii
N
x y
xx y
y
x
i i i
= −
=− −
−= =
= + = + −
=
=
∑
∑1
1
2 2º
1.4.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades
Ejemplo de cálculo de la recta de regresión de mínimos cuadrados
56,582,500415517,5520,253,94,58106,6512,251,93,5697,256,252,92,5481,352,250,91,557-0,550,25-1,10,5361,050,25-2,1-0,5250,152,25-0,1-1,5442,756,25-1,1-2,53310,8512,25-3,1-3,5129,4520,25-2,1-4,521
yx X X Y Y X X Y Y ( )X X 2
Recta de regresión mínimo cuadrática:
a Y bX
bX X Y Y
X X
Y X
ii
N
i
ii
N
i i
4 1 0 743 55 0 021
56 50
82 500 743
0 021 0 743
1
1
2
, , , ,
,
,,
, ,
1.4.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades
iXY 742,0021,0ˆ +=dependencia de escalas.xls
Propiedades de la Recta de regresión mínimo cuadrática:
1.4.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades
1) La media de las puntuaciones predichas es igual a la media de Y2) Los errores tienen media cero3) La recta de mínimos cuadrados pasa por el punto: 4) Los errores no correlacionan ni con la variable predictorani con las puntuaciones predichas
1.4.2. La recta de regresión de mínimos cuadrados en puntuaciones diferenciales
a) Modelo y recta en puntuaciones diferenciales
( )
( )
bxy
ebxy
eXXbYY
ebXXbYebXaY
=+=
+−=−
++−=++=
ˆ
1.4.2. La recta de regresión de mínimos cuadrados en puntuaciones estandarizadas
a) Modelo y recta en puntuaciones estandarizadas
xixyi
eixixyyi
y
i
x
ixy
y
i
iix
yxyi
ZrZ
ZZrZ
S
e
S
xr
S
y
exS
Sry
ebxy
=
+=
+=
+
=
+=
ˆ
iXY 742,0021,0ˆ +=
xy 742,0ˆ =
xZZ 86,0ˆ =
Recta de regresión en diferenciales y en tipificadas. Relación entre b y r. Interpretación de los coeficientes de la regresión
a) En puntuaciones directas
b) En puntuaciones diferenciales
c) En puntuaciones estandarizadas
y
xxy S
Sbr =
X
3210-1-2
Y
3
2
1
0
-1
-2
-3
X
210-1-2-3
Y
3
2
1
0
-1
-2
-3
X
1,51,0,50,0-,5-1,0
Y
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
1.4. El contraste de la regresión: introducción
X
1,51,0,50,0-,5-1,0-1,5-2,0
Y
3
2
1
0
-1
-2
-3
X
210-1-2-3
Y
3
2
1
0
-1
-2
X
3210-1-2-3
Y
3
2
1
0
-1
-2
-3
1.4. El contraste de la regresión: introducción
X
3210-1-2-3
Y
3
2
1
0
-1
-2
-3
X
3210-1-2-3
Y3
2
1
0
-1
-2
-3
1.4. El contraste de la regresión: introducción
X
3210-1-2-3-4
Y
3
2
1
0
-1
-2
-3
-4
1.4. El contraste de la regresión: introducción
X i
Y i
1.4. El contraste de la regresión: introducción
ii bXaY +=ˆ
X i
Y i
Y
Desviación Desviación Desviación total explicada residual
ii bXaY +=ˆ
1.4.1.Componentes de variabilidad y bondad de ajuste
( ) ( ) ( )iiii YYYYYY ˆˆ −+−=−
1.4.1. Componentes de variabilidad y bondad de ajuste
X i
SC SC SCt res exp
Variación Total
Variación Explicada
Variación Residual
( ) ( ) ( )2
1
2
1
2
1
ˆˆ ∑∑∑===
−+−=−N
iii
N
ii
N
i
YYYYYY
SC Y Y y Y
Y
NN St i
i
N
ii
N
i
ii
N
i
N
y
1
2
2
1
2 1
2
1
21
1.4.1. Componentes de variabilidad y bondad de ajuste
( ) ( ) ( ) 22
1
2
122
1
222
1
22
1exp 1ˆ
x
N
i
N
ii
i
N
ii
N
i
N
i
SNbN
X
XbxbXXbYYSC −=
−==−=−= ∑∑
∑∑∑=
=
===
Fórmulas para calcular las sumas de cuadrados en puntuaciones directas y diferenciales:
( ) exp1
22
1
ˆ SCSCeYYSC t
N
ii
N
iiires −==−= ∑∑
==
1.4.1. Componentes de variabilidad y bondad de ajuste
Fórmulas para calcular las sumas de cuadrados en tipificadas:
SC SC SCt res exp
( )
( )( )2
2
1
22
1
2exp
1
2
11
1ˆ
1
xyres
xy
N
ixxy
N
ii
N
iyt
rNSC
NrZrZSC
NZSC
−−=
−===
−==
∑∑
∑
==
=
1.4.1. Componentes de variabilidad y bondad de ajuste
Bondad de ajuste o Coeficiente de determinación
SC
SC
SC
SC
SC
SC
R R
t
t t
res
t
exp
1 12 2
( )( )
( )( )
22
22
1
2
22
1
2
1
2
exp2
ˆ
xyy
xN
ii
N
ii
N
ii
t
rS
Sb
YY
XXb
YY
YY
SC
SCR ==
−
−=−
−==
∑∑
∑
==
=
1.4.1. Componentes de variabilidad y bondad de ajuste
r2xy= 1
r2xy= 0
r2xy
Representación en diagramas de Venn
Y X
Y X
XY
Esquema del Contraste de Hipótesis
Contrastar una Hipótesis Estadísticamente es juzgar si cierta propiedad supuesta para una población es compatible con lo observado en una muestra de ella.
1.4.2. Validación del modelo
Elementos de una Prueba de Hipótesis
1.- Hipótesis Nula (H0), Hipótesis Alternativa.2.- Estadístico de Contraste (Discrepancia).3.- Región de Rechazo (Región Crítica): nivel de significación.4.- Regla de Decisión.
1.4.2. Validación del modelo
1.- Hipótesis Nula (H0), Hipótesis Alternativa.
2.- Estadístico de Contraste (Discrepancia).
FS
S
SC
kSC
N K
r
Kr
N Kres res
xy
xy
exp
exp2
2
2
2
11
1
( )( ) iiii
ii
XYXXYEH
YXYEH
εββββεµµβ
++=⇒+=+=⇒==
10101
00
/:
/:
1.4.2. Validación del modelo
3.- Región de Rechazo (Región Crítica): nivel de significación.
Región de aceptación de H0
Región de rechazo de H01-
Fc
4.- Regla de Decisión.
1.4.2. Validación del modelo
Se rechaza la H0 si: F >Fc o de manera equivalente si: p <
Por el contrario, se acepta la H0 si: F ≤Fc o de manera equivalente si: p ≥
Tabla F
Tabla F
1.4.3. Significación de parámetros
1.- Hipótesis Nula (H0), Hipótesis Alternativa.
2.- Estadístico de Contraste (Discrepancia).
tb
Sb
S
X X
b
S
X
X
N
r
r
N
b res
ii
Nres
i
ii
N
i
N
xy
xy
1
2
2
1
2
2 1
2
1
21
2
H H
H H
0 1 1 1
0 1
0 0
0 0
: :
: :
Nota: en regresión simple t2 = F
1.4.3. Significación de parámetros3.- Región de Rechazo (Región Crítica): nivel de significación.
∀
Fc
Región de aceptación de H0
Regiones de rechazo de H0
2
2 1
4.- Regla de Decisión.
Se rechaza la H0 si:t >+tc o de manera equivalente si: p <
Por el contrario, se acepta la H0 si: t ≤ +tc o de manera equivalente si: p≥
1.4.3. Significación de parámetros
http://www.stat.ucla.edu/~dinov/courses_students.dir/Applets.dir/T-table.html
Tabla t de Student
Calculadoras estadísticas en internet
http://faculty.vassar.edu/lowry/VassarStats.htm
http://davidmlane.com/hyperstat/t_table.html
http://davidmlane.com/hyperstat/F_table.html
http://calculators.stat.ucla.edu/cdf/
http://members.aol.com/johnp71/pdfs.html
http://www.psychstat.missouristate.edu/introbook/tdist.htm
http://www.psychstat.missouristate.edu/introbook/fdist.htm
1.6. PredicciónIntervalos de predicción:
( )( )
( )Y Y t S
N
X X
X Xo N K r e s
o
ii
N: ,
± + +−
−
− −
=∑
α 12
2
2
1
11