Post on 25-Sep-2018
El modelo de regresión lineal simple
Tema VI 546
TEMA VI: EL MODELO DE REGRESIÓN LIENAL SIMPLE
VI.1.- Introducción.
VI.2.- El modelo de regresión lineal simple. Propiedades.
VI.3.- Obtención de los estimadores por mínimos Cuadrados
Ordinarios.
VI.3.1.- Planteamiento general.
VI.3.2.- El estimador mínimo cuadrático ordinario del
modelo de regresión lineal simple.
VI.3.3.- Propiedades de los errores mínimo
cuadráticos ordinarios.
VI.3.4.- Propiedades de los estimadores mínimo
cuadrático ordinarios.
VI.4.- Estudio de la bondad del ajuste.
VI.4.1.- La covarianza.
VI.4.2.- El coeficiente de correlación lineal simple.
VI.4.3.- El coeficiente de determinación.
VI.5.- Un caso particular del modelo de regresión lineal
simple. Obtención de la tendencia de una serie por
regresión.
ESTADÍSTICA II
Tema VI 547
VI.1.- Introducción.
El modelo de regresión se introduce en esta última parte
del programa de la asignatura Estadística II por dos
razones:
1.- Por que es una caso particular de realización de
inferencia estadística.
2.- Para enlazar la materia estadística con la materia
econométrica que se cursará en cuarto curso de la carrera.
Es por esta segunda razón por la cual el enfoque que se le
dará a estos dos temas de regresión será del tipo
econométrico.
Lo primero sería por tanto, definir que entendemos por
econometría. La Econometría la podemos definir como la
medición de la economía. Esto implica la cuantificación de
los hechos y las relaciones económicas. Es evidente que
para alcanzar este fin es necesario tener en cuenta la
teoría económica, la observación y la medición de la
realidad y el uso de distintas técnicas estadísticas. Es
por ello que clásicamente se habla de que la econometría
se asienta sobre tres pilares: la teoría económica, la
evidencia empírica y las técnicas estadísticas.
De esta manera, la teoría económica nos dice que el
consumo depende del nivel de renta de la siguiente manera:
en donde, Ct es el consumo en el período t, Yt es la renta
Ecuación 1
u+Y*+=C ttt βα
El modelo de regresión lineal simple
Tema VI 548
en el período t, ut es lo que llamaremos perturbación
aleatoria y α y ß son los parámetros.
Estudiemos más a fondo la expresión (1). Estamos
interesados en estudiar el comportamiento del consumo. La
teoría económica nos dice que para explicar el consumo una
variable de interés es el nivel de renta, pero
evidentemente no es la única. Es decir, el consumo no solo
depende del nivel de renta, sino que depende de otras
muchas variables (nivel de consumo anterior, de las
expectativas futuras sobre obtención de rentas, etc...).
es por ello que aparece en (1) la variable ut, la que hemos
denominado perturbación aleatoria. Esta variable se
caracteriza por el hecho de no ser observable y se puede
interpretar como que en ella se recogen todas aquellas
variables que influyen en la variable consumo pero que no
están especificadas en el modelo debido a que la
importancia de cada una de ellas individualmente es muy
pequeña con respecto al peso de la variable renta. Como
veremos más adelante el comportamiento de esta variable
jugará un papel muy importante en el desarrollo del
proceso de inferencia.
Además de Yt, Ct y ut en el modelo tenemos un elemento más
que son los parámetros α y ß. Estos parámetros son los que
miden cuantitativamente la relación que existe entre el
consumo y la renta. El parámetro α nos mide cuanto vale el
consumo cuanto no se dispone de ninguna renta (Yt=0), ß nos
mide en cuanto se incrementa el consumo al incrementarse
el nivel de renta en una unidad. Gráficamente en una
representación cartesiana del consumo y la renta, α nos da
la ordenada en el origen y ß nos da la pendiente de la
recta
ESTADÍSTICA II
Tema VI 549
Los valores de α y ß son desconocidos.
El problema inferencial se plantea por la necesidad de
obtener un valor estimado para los parámetros del modelo
con el fin de estimar valores del consumo para cualquier
valor de la renta, para realizar análisis estructural,
para predecir el comportamiento futuro del consumo, etc...
VI.2.- El modelo de regresión lineal simple.Hipótesis
Llamaremos modelo de regresión lineal simple a un modelo
en donde se liga a dos variables y a un término de
perturbación aleatoria mediante una relación lineal. De
forma genérica, el modelo de regresión simple es de la
forma
Consumo
Renta"
ß
El modelo de regresión lineal simple
Tema VI 550
Ecuación 2
u+X*+=Y ttt βα
en donde t toma valores desde t={1,2,3,...,T}, Yt es la
variable que queremos explicar, y que llamaremos variable
endógena, Xt es una variable genérica, que denominaremos
variable exógena y es la encargada de explicar el
comportamiento de la variable endógena, α y ß son los
parámetros del modelo y ut es la perturbación aleatoria del
modelo. A la expresión (2) se le denomina recta de
regresión poblacional
En consecuencia, el volumen de datos con los que vamos a
trabajar viene dado por los datos correspondientes a las
variables Yt y Xt cuya representación gráfica se puede
realizar mediante en diagrama de dispersión.
El diagrama de dispersión de dos variables no es más que
la representación gráfica en un sistema de coordenadas de
los puntos (xt, yt), en donde t puede indicar distintos
instantes del tiempo, en cuyo caso Xt e Yt serían series
temporales, o t puede indicar distintos individuos, en
cuyo caso se dice que las variables Xt e Yt contienen datos
de corte transversal.
El problema que se nos plantea es el de estimar el valor
de α y ß del modelo (2) a partir de los datos de la tabla
1
Tabla 1
ESTADÍSTICA II
Tema VI 551
Xt x1 x2 x3 ... xT
Yt
y1
y2
y3
...
yT
Para ello es necesario, en una primera fase, especificar
una serie de hipótesis sobre el comportamiento del modelo
(2) y de los elementos que lo componen. Estas son las
hipótesis básicas del modelo de regresión lineal.
Hipótesis primera: El modelo está bien especificado. Es
decir, la única variable relevante en la explicación de la
variable endógena es la variable X, además, la relación
que existe entre la variable endógena y exógena es del
tipo lineal tal y como indica el modelo (2).
Hipótesis segunda: La variable exógena es una variable no
aleatoria, es determinista. En consecuencia, la esperanza
de X es X.
Hipótesis tercera: No existen errores de medida en los
datos de las variables Y y X.
Hipótesis cuarta: Los parámetros del modelo son fijos, y
no existe cambio estructural en el período muestral.
Hipótesis quinta: Comportamiento del término de
perturbación aleatoria.
Hipótesis 5.1.- La media de la perturbación aleatoria
vale cero. Es decir, en términos medios, la
perturbación aleatoria tiene un efecto nulo sobre la
variable endógena.
Hipótesis 5.2.- Perturbación aleatoria
El modelo de regresión lineal simple
Tema VI 552
incorrelacionada. Es decir, el valor que tome la
perturbación aleatoria en un instante del tiempo es
independiente del valor que tome en cualquier otro
instante del tiempo.
Hipótesis 5.3.- Hipótesis de Homocedasticidad. La
varianza de la perturbación aleatoria es constante
para todo los instantes del tiempo o para todos los
individuos.
Hipótesis 5.4.- Hipótesis de normalidad. La
perturbación aleatoria se distribuye como una
variable Normal.
Teniendo en cuenta la hipótesis quinta, podemos llegar a
que la perturbación aleatoria, bajo las hipótesis básicas
del modelo de regresión lineal cumplen que
)N(0,u 2ut σ⇒
VI.3.- Obtención de los estimadores por Mínimos Cuadrados
Ordinarios.
VI.3.1.- Planteamiento general.
Sean X e Y dos variables que mantienen una dependencia
estadística de la forma
f(X)Y ≈
El principio de mínimos cuadrados ordinarios pretende
encontrar una ecuación funcional, de la forma
ESTADÍSTICA II
Tema VI 553
que verifique que la media de los cuadrados de las
diferencias tomadas paralelamente al eje de ordenadas
entre los distintos puntos observados (xt, yt) y dicha
función sea mínimo.
Es decir, si partimos del siguiente diagrama de dispersión
podemos definir et como
y-y=e ttt ˆ
Es decir, et es la diferencia que existe entre el verdadero
valor de Y en el instante t y el valor que toma la forma
funcional, que denominaremos Y estimada. et en realidad es
el error que cometemos si usamos Y estimada en vez de Y
real. Por tanto, a et le llamaremos error de estimación o
residuo de la regresión, y si observamos la expresión (2)
(ecuación 2) vemos que et es una forma de estimar el
término de perturbación aleatoria ut.
Por consiguiente el principio de mínimos cuadrados
f(x)=Y
El modelo de regresión lineal simple
Tema VI 554
consistirá en minimizar la expresión
La idea que encierra el principio de mínimos cuadrados
ordinarios es muy simple. Una vez determinada que tipo de
relación funcional es la que mejor se ajusta a la nube de
puntos, el principio de mínimos cuadrados ordinarios (MCO)
lo que hace es buscar aquellos valores de los parámetros α
y ß que hacen que los et sean más pequeños. Cuanto más
pequeños son, es evidente, que la forma funcional se
ajusta mejor a la nube de puntos. Como los residuos pueden
ser positivos y negativos, si utilizamos directamente sus
valores en la expresión de A tendríamos sumandos positivos
y negativos con lo cual su suma tendería a tomar el valor
0. Por ello es por lo que se utilizan los residuos al
cuadrado.
VI.3.2.- El estimador mínimo cuadrático ordinario del modelo de regresión
simple.
Sean X e Y dos variables cuya relación viene dada por la
ecuación 2. Aplicando el principio de mínimos cuadrados
ordinarios estimaríamos una función dada por
en donde a es el estimador del parámetro αα , y b es el
estimador del parámetro ββ . A la ecuación anterior se le
denomina recta de regresión estimada.
e=A 2t
T
1=t∑
X*b +a = Y ttˆ
ESTADÍSTICA II
Tema VI 555
En este caso, por tanto la ecuación a estimar viene dada
por
x*b +a = y ttˆ
y aplicando el principio de mínimos cuadrados,
minimizaríamos
Para el caso concreto de relación lineal, y teniendo en
cuenta que
x*b -a - y = y - y = e ttttt ˆ
minimizaremos la expresión
)x*b-a-y(e = A 2tt
T
1=t
2t
T
1=t
= ∑∑
Para ello, las dos condiciones necesarias vienen dadas por
e=A 2t
T
1=t∑
1) MSMa
'0 2) MSMb
'0
1) MSMa
'&2jT
t'1(yt&a&b(xt)'0
jT
t'1(y t&a&b(x t)'0
jT
t'1yt&j
T
t'1a&bj
T
t'1xt'0
a '1T
(jT
t'1yt&bj
T
t'1x t)
2) MSMb
'&2jT
t'1(yt&a&b(x t)(xt'0
jT
t'1yt(x t&a(j
T
t'1xt&b(j
T
t'1x 2
t '0
El modelo de regresión lineal simple
Tema VI 556
sustituyendo el valor de a obtenemos
Por tanto, los estadísticos a través de los cuales
estimaremos los valores de α y β vienen dados por las
expresiones de a y b determinadas en las líneas
anteriores.
Ejemplo. Ajustar por mínimos cuadrados ordinarios una
recta de regresión a la siguiente distribución
bidimensional, siendo Y la variable dependiente, y por
tanto, a explicar
Xi
27
27
30
30
33
33
)xx
xyxy
x*b-)xxyxy
xxxyxy
2t
T
1=t
2t
T
1=t
t
T
1=tt
T
1=t
tt
T
1=t
2t
T
1=t
2t
T
1=t
t
T
1=tt
T
1=t
tt
T
1=t
2t
T
1=tt
T
1=tt
T
1=tt
T
1=ttt
T
1=t
(*T1
-
**T1-*
= b
0=(*b*T1
+)(T1
-*
0=*b-*)]*b-(*T1[-*
∑∑
∑∑∑
∑∑∑∑∑
∑∑∑∑∑
ESTADÍSTICA II
Tema VI 557
Yi
100
110
110
120
120
130
Solución.
xi
yi
xiyi
xi2
27
100
2.700,00
729,00
27
110
2.970,00
729,00
30
110
3.300,00
900,00
30
120
3.600,00
900,00
33
120
3.960,00
1.089,00
33
130
4.290,00
1.089,00
180
690
20.820,00
5.436,00
El modelo de regresión lineal simple
Tema VI 558
por tanto, la recta de regresión viene dada por
x*3.33 + 15.1 = y
Observar que para cada valor de la variable X obtenemos un
valor estimado de la variable Y.
La interpretación del 15.1 y 3.33 es la siguiente. Si la
variable X toma el valor cero, el valor estimado de Y es
15.1, es decir, el valor estimado del parámetro α. Si la
variable X se incrementa en una unidad, la variable Y se
incrementará en 3.33 unidades.
VI.3.3.- Propiedades de los errores mínimo cuadráticos ordinarios.
En el proceso de minimización realizado para la obtención
de los estimadores mínimo cuadráticos ordinarios hemos
visto que se cumple
0=)x*b-a-y( tt
T
1=t∑
y
0=x*)x*b-a-y( ttt
T
1=t∑
A estas ecuaciones se les conoce como ecuaciones normales
del modelo de regresión simple. En base a ellas se
15.1=180]*3.33-[69061
=a
3.33=)(180
61
-5436
(690)(180)61
-20820=b
2
ESTADÍSTICA II
Tema VI 559
demuestra de forma inmediata:
1.-La suma de los errores mínimo cuadráticos ordinarios
vale cero. Por la primera ecuación y teniendo en cuenta
que
et=yt-a-b*xt
2.-Los errores mínimo cuadráticos ordinarios están
incorrelacionados con la variable exógena, es decir, la
covarianza entre et y xt es cero.
La covarianza entre et y xt viene dada por
)-e)(-x(=)e,xCov( etxt
T
1=ttt µµ∑
en donde µx y µe son las medias de X y de e
respectivamente. Como hemos visto en la primera propiedad,
la media de los errores MCO es cero, por tanto, la
expresión anterior la podemos desarrollar de la siguiente
forma
y si tenemos en cuenta la segunda condición normal
llegamos a la conclusión de que la covarianza entre X y e
es nula.
VI.3.4.- Propiedades de los estimadores mínimos cuadrados ordinarios.
exeex=e)-x(
=)-e)(-x(=)e,xCov(
tt
T
1=t
t
T
1=txtt
T
1=ttxt
T
1=t
etxt
T
1=ttt
*=+* ∑∑∑∑
∑
µµ
µµ
El modelo de regresión lineal simple
Tema VI 560
Los estimadores MCO presentan tres propiedades a
considerar:
1.-Son combinaciones lineales de la variable Y
2.-Son insesgados. Es decir, la esperanza matemática del
estimador coincide con el valor del parámetro.
3.-Son óptimos. Es decir, dentro de todo el conjunto
posible de estimados insesgados de los parámetros α y ß ,
los estimadores MCO son los que presentan una menor
varianza.
Demostraremos ahora la primera propiedad, dejaremos la
segunda para el tema de regresión múltiple y la tercera
para cursos más avanzados.
1.- Los estimadores MCO son combinaciones lineales de los
valores de Y.
Hemos visto que b, el estimador de ß, lo podemos calcular
como
expresión esta última que podemos escribir como
)x-x(
)y-y)(x-x(=b
2t
T
1=t
tt
T
1=t
∑
∑
Desarrollando podemos expresar b como
)x(x
xyT1
-yx=b
2t
T
1=t
2t
T
1=t
t
T
1=tt
T
1=ttt
T
1=t
T1
- ∑∑
∑∑∑
ESTADÍSTICA II
Tema VI 561
yc = y * )x-x(
)x-x(=b tt
T
1=tt
2i
T
1=t
tT
1=t
*∑∑
∑
en donde se puede ver que b es una combinación lineal de
los valores de la variable Y.
Teniendo en cuenta este resultado y la expresión que nos
permite estimar el parámetro α, llegamos a que a se puede
expresar también como una combinación lineal de los
valores de la variable Y. Veamos como
yd=y*)c*x-T1
(
xyc
y
xy(T1
=a
tt
T
1=ttt
T
1=t
t
T
1=ttt
T
1=t
t
T
1=tt
T
1=tt
T
1=t
*=
=T
**-T
=)-
∑∑
∑∑
∑∑∑
En consecuencia, tanto a como b, estimadores MCO son
combinaciones lineales de los valores de la variable
endógena.
VI.4.- Estudio de la bondad del ajuste.
Hasta ahora hemos partido de unos datos que eran
utilizados para definir una relación funcional entre dos
variables. De forma implícita se suponía que había una
relación entre las variables X e Y, y la regresión lo que
hacía era buscar la relación que mejor explicase el
comportamiento de la variable Y en función de la variable
X. Esta era la recta de regresión estimada. Es decir,
supongamos que nuestro trabajo consiste en abrir una zanja
El modelo de regresión lineal simple
Tema VI 562
de treinta metros cúbicos. Las herramientas con las que
contamos son un bolígrafo y una pala pequeña de
jardinería. La regresión lo que nos diría es cual de las
dos herramientas es la mejor para realizar el trabajo,
aunque ello no significa que sea la adecuada para el
mismo. Esto es, la regresión nos diría que utilizásemos la
pala de jardinería, ya que entre las dos opciones es la
mejor, lo cual no elimina que ambas sean malas
herramientas.
Por tanto, lo que hemos hecho hasta ahora es buscar la
recta que mejor se ajusta a la nube de puntos
correspondiente al diagrama de dispersión, entendiendo por
mejor ajuste a aquel que hace que la suma de los errores
al cuadrado es más pequeña. Pero esta recta, que es la
mejor posible, puede no ser lo suficientemente buena.
El estudio de la correlación comprende:
a.- Saber si existe alguna relación entre la variable
explicada y la explicativa.
b.- Si existe, saber en que grado están relacionadas.
Por tanto, la regresión por si sola no es suficiente, ya
que, es verdad que busca la mejor relación, pero esta
puede ser muy mala.
Veamos algunas medidas que tiene como finalidad
cuantificar el grado de relación existente entre dos
variables. Estas son:
Covarianza.
Coeficiente de correlación lineal simple.
ESTADÍSTICA II
Tema VI 563
Bondad del ajuste.
1.-Varianza del error de regresión.
2.-Coeficiente de determinación.
Las dos primeras medidas fueron estudiadas en cursos
previos de estadística y solo se introducen aquí como
repaso o recordatorio de lo ya estudiado.
VI.4.1.- La covarianza.
La covarianza se ha definido, en notación no agrupada y
utilizando un solo subíndice como
Como ya se ha visto, la covarianza nos da la dispersión de
las dos variables con respecto a las medias aritméticas de
las distribuciones marginales. Analicemos más
detalladamente el significado de la covarianza.
Supongamos que partimos del diagrama de dispersión
representado en el gráfico adjunto.
)(*)(*1-* yxT
yx*T1
=
=)y-y(*)x-x(T1
=S
t
T
1=t
t
T
1=t2tt
T
1=t
tt
T
1=txy
∑∑∑
∑
El modelo de regresión lineal simple
Tema VI 564
Como se puede observar se ha realizado una traslación de
los ejes originales (X,Y) con origen en o al origen o'
situados sobre los valores medios de las variables
originales, obteniendo unos nuevos ejes (X',Y'). La
traslación viene dada por
y - y = y
x - x = x
tt
tt
′
′
pudiendo expresar la covarianza como
denotamos por I, II, III y IV los nuevos cuadrantes
referidos al origen o'.
Todos los puntos del cuadrante I son positivos, tanto en la
yx*T1 = S tt
T
1=txy * ′′∑
ESTADÍSTICA II
Tema VI 565
ordenada como en la abcisa, por lo tanto, su producto será
positivo. También serán positivos los productos de las
componentes del cuadrante III al ser, tanto las ordenadas
como las abcisas, negativas. Por el contrario, los
productos correspondientes a los cuadrantes II y IV tienen
signo negativo.
Por otra parte, la nube de puntos expuesta en la gráfica
anterior coresponde a una tendencia monótona creciente. Es
decir, al irse incrementado X, Y tiende a crecer. En este
caso se dice que X e Y mantienen una relación positiva.
Teorema: Si X e Y tienen una relación positiva, entonces
Sxy es mayor que cero. Cuanto mayor sea la relación
positiva, la covarianza tenderá a tomar valores mayores.
La demostración es inmediata a partir del análisis del
gráfico y teniendo en cuenta que la covarianza la podemos
dividir en dos partes
Si la relación es positiva habrá más puntos en los
cuadrantes I y III que en el II y IV, por tanto A será
IVy II IIIy I
cuadrantes cuadrantes
los de puntos los de puntos
B+A=y*x + y*x = S ttttxy
⇓⇓
∑∑ ′′′′
El modelo de regresión lineal simple
Tema VI 566
mayor que B1 y por consiguiente Sxy será positiva.
El siguiente gráfico muestra el diagrama de dispersión de
dos variables cuando su relación es negativa, esto es, es
monótona decreciente, al incrementar la variable X, Y
tiende a incrementarse.
Como se puede observar se han realizado las mismas
transformaciones que para el caso previo trasladando el
origen de coordenadas del punto o al punto o'.
Teorema: Si X e Y tienen una relación negativa, entonces
su covarianza será menor que cero. Cuanto mayor sea la
relación negativa, más se alejará su covarianza de cero
por la izquierda (valores negativos).
1 Recordemos que A contiene únicamente elementos con signo positivo y B contiene elementos todos ellos de signo negativo.
ESTADÍSTICA II
Tema VI 567
En el siguiente gráfico se muestra el diagrama de
dispersión de dos variables entre las que no hay relación
lineal. Como se puede observar para el valor medio de X, Y
puede tomar el valor mínimo o el valor máximo del rango
posible de valores.
Sobre los datos originales, y su correspondiente gráfico,
se realizó una traslación al punto definido por el vector
de medias.
Teorema: Si la relación existente entre X e Y tiende a ser
nula, su covarianza tiende a tomar el valor cero.
Teorema: La covarianza está acotada:
El modelo de regresión lineal simple
Tema VI 568
Por lo tanto, simpre hablando en términos de relación
lineal:
óptima es relaciónLa
fuerte.y positiva es
Y e X entre relaciónLa S*S SSi yxxy ⇒⇒
óptima es relaciónLa
fuerte.y negativa es
Y e X entre relaciónLa S*S- SSi yxxy ⇒⇒
nula.a ser tiende
Y e X entre relaciónLa 0 SSi xy ⇒⇒
En consecuencia, una primera medida para determinar si
existe correlación o no, y en que grado, puede ser la
covarianza. Sin embargo, la covarianza tiene dos problemas
importantes para esta finalidad:
1.- No tiene unos límites iguales para todas las
distribuciones. Es decir, está acotada pero sus límites
dependen de las desviaciones típicas de las variables y
por tanto varian con las mismas.
2.- La covarianza es variable ante cambios de variable.
Por tanto, debemos seguir buscando una medida que reúna
las siguientes características:
a.- Dará información sobre la existencia o no de una
relación entre las variables.
b.- Dirá que tipo de relación es esta, positiva o
negativa.
S*S S S*S - yxxyyx ≤≤
ESTADÍSTICA II
Tema VI 569
c.- Esta medida será invariante ante cambios de variable.
d.- Tomará valores entre unos extremos fijos sean cuales
sean las variables estudiadas.
VI.4.2.- Coeficiente de correlación lineal simple.
Esta medida se ha definido como el cociente entre la
covarianza entre dos variables y el producto de sus
correspondientes desviaciones típicas.
Sean X e Y dos variables, llamaremos coeficiente de
correlación lineal de X e Y, y lo denotaremos por r a:
S * SS =r
yx
xy
en donde Sxy es la covarianza entre la variable X y la
variable Y, Sx es la desviación típica de X y Sy es la
desviación típica de Y.
Veamos si cumple las propiedades anteriormente citadas:
Los extremos de r son iguales para todas las variables.
Sabemos que
Dividiendo por un número positivo, las desigualdades no
cambian. Por tanto si dividimos por el producto de las
desviaciones típicas obtenemos:
S * SS * S
S * SS
S * S
S * S -yx
yx
yx
xy
yx
yx ≤≤
con lo que
1 r 1- ≤≤
S * S S S * S - yxxyyx ≤≤
El modelo de regresión lineal simple
Tema VI 570
Por lo tanto r siempre toma valores en el intervalo [-
1,1], para todo par de variables.
r nos da información sobre el nivel de relación entre las
variables.
óptimapositiva Relación S * S S 1 r Si yxxy ⇒→⇒→
óptimanegativa Relación S * S- S 1- r Si yxxy ⇒→⇒→
nula Relación 0 S 0 r Si xy ⇒→⇒→
r es invariante ante cambios de variable (demostrar).
VI.4.3.- El coeficiente de determinación.
El coeficiente de determinación es una medida que nos
informan si, en términos globales, el ajuste es bueno o
malo.
Hasta ahora hemos definido el coeficiente de correlación
lineal, y se utilizará para saber si una determinada
función es representativa de la relación entre dos
variables. Pero el coeficiente de correlación tiene una
limitación, únicamente es válido para el caso de
relaciones lineales.
Para solventar este problema se define la Bondad del
ajuste. La Bondad del ajuste nos informará de la
representatividad de una curva para la explicación de una
relación entre dos variables.
ESTADÍSTICA II
Tema VI 571
Lo que haremos es usar la variable error de regresión, o
residuo MCO, esto es, lo que hemos denotado por ei. Es
lógico pensar que cuanto más pequeños sean los ei, mayor
será la representativadad de la función f(x).
Llamaremos por tanto Bondad del ajuste al grado de
representatividad de una curva a una nube de puntos.
Para el estudio de la bondad del ajuste podemos
encontrarnos con distintos estadísticos.
VI.4.3.1.-Varianza residual.
Llamaremos varianza residual, y la denotaremos por Se2, a
la varianza de la variable residuo. Es decir,
El modelo de regresión lineal simple
Tema VI 572
Si tenemos en cuenta que la media de los errores MCO es
cero, la varianza residual viene expresada como
Por tanto, si la varianza residual tiende a cero ello
significa que cada valor de los ei tiende a tomar el valor
de su media, esto es, cero. Pero si cada ei tiende a cero,
ello significa que la nube de puntos está muy próxima a la
función estimada.
Por otra parte, recordemos que si X e Y son dos variables
estadísticas incorrelacionadas, la varianza de la variable
suma de ambas es igual a la suma de las varianzas de cada
una de ellas. Es decir,
Ejercicio: Demostrar el resultado anterior.
También se puede demostrar que los errores MCO y los
valores de yi estimada están incorrelacionados. Esto es,
Ejercicio: Demostrar el resultado anterior.
Y dado que
e+y=y ttt ˆ
)e - e( * T1 = S 2
t
T
1=t
2e ∑
e * T1 = S 2
t
T
1=t
2e ∑
S + S = S 2y
2x
2y+x
0 = S ye ˆ
ESTADÍSTICA II
Tema VI 573
la varianza de Y (Sy2) se puede descomponer en la varianza
de Y estimada más la varianza residual. Es decir,
Ejercicio: Demostrar el resultado anterior.
Por tanto, podemos decir que las variaciones de Y vienen
explicadas, bien por la regresión, esto es, por las
variaciones de Y estimada, o bien por los errores. Es
evidente que cuanto mayor sea la parte explicada por los
errores, la bondad del ajuste tiende a ser peor. Por el
contrario, cuanto menor sea la varianza de los residuos,
ello implica que la varianza de la regresión tiende a ser
igual a la varianza de la variable Y, y por tanto, la
bondad del ajuste será mejor.
VI.4.3.2.- Coeficiente de Determinación.
La varianza residual tiene problemas de interpretación
similares a los que presenta la covarianza. Esto es, está
afectado por las unidades de medida, es variante antes
cambios de variable y no tiene límites fijos para todas
las variables. Por todo ello se define un nuevo
estadístico que no presente los problemas mencionados.
Este estadístico es el coeficiente de determinación.
Llamaremos coeficiente de determinación y lo
representaremos por R2 a
SS - 1 =
SS = R 2
y
2e
2y
2y2
El coeficiente de determinación presenta las siguientes
S + S = S 2e
2y
2y ˆ
El modelo de regresión lineal simple
Tema VI 574
propiedades:
1.- R2 toma valores en el intervalo [0,1].
Teniendo en cuenta que Se2 es menor o igual a Sy2 podemos
escribir
0=1-1= SS - 1
SS -1 = R 2
y
2y
2y
2e2 ≥
Por tanto R2 es siempre mayor o igual a 0, y podemos
demostrar (ejercicio para los alumnos) que es menor o
igual a 1.
2.- Como se puede deducir de la definición del coeficiente
de determinación, este mide la proporción de variabilidad
de la variable endógena que viene explicada por la
regresión. De esta manera, si R2 = 0.81, significa que el
81% de las variaciones de la variable endógena vienen
explicadas por la regresión.
En base a ello, la interpretación genérica del coeficiente
de determinación es la siguiente:
2.1.- Si R2 tiende a 0, la bondad del ajuste es mala puesto
que la regresión tiende a explicar el 0% de las
variaciones de la variable endógena.
2.2.- Si R2 tiende a 1, la bondad del ajuste es óptima,
puesto que la totalidad de las variaciones de la variable
endógena vienen explicadas por la regresión.
VI.5.- Un caso particular del modelo de regresión lineal simple.
Obtención de la tendencia de una serie por regresión.
Un caso particular del modelo de regresión lineal simple
es cuando se aplica para obtener la tendencia de una
serie. Recordemos que cuando se estudiaron las series
ESTADÍSTICA II
Tema VI 575
temporales estudiamos el método de las medias móviles para
la obtención de la tendencia. Otro método alternativo es
mediante el uso de la regresión. En concreto, con este
método, definiremos como tendencia a la serie estimada
mediante la regresión entre la variable en estudio y la
variable tiempo.
Veamos un ejemplo sencillo. La siguiente tabla muestra los
datos de ocupados en una cierta ciudad durante los últimos
3 años para cada uno de los trimestres de cada año.
Trimestre-año Número de ocupados
X
Variable tiempo
t
I-95 250 1
II-95 262 2
III-95 255 3
IV-95 270 4
I-96 278 5
II-96 290 6
III-96 260 7
IV-96 310 8
I-97 325 9
II-97 350 10
III-97 330 11
IV-97 360 12
Obsérvese que hemos creado una variable que denotamos por
t y no es más que una variable que toma valores desde 1
hasta N en donde N es el número total de obseraciones de
la variable X.
Para obtener la tendencia por regresión tendremos que
estimar el modelo
u+t*+=X ttt βα
en donde X es el número de ocupados,t el tiempo, u la
El modelo de regresión lineal simple
Tema VI 576
perturbación aleatoria y α y β los parámetros. La
tendencia por regresión vendrá dada por
tt t*ba=X +^
en donde a y b son los estimadores mínimo cuadráticos
ordinarios.
Si realizamos la estimación, veremos que a=230.7273 y
b=9.888112. Estos estimadores nos permiten obtener una X
estimada que toma los valores que se muestran en la tabla
Trimestre
año
Número de ocupados
X
Variable tiempo
t
Tendencia
ttt*=X 888112.97273.230
^
+
I-95 250 1 240.612
II-95 262 2 250.504
III-95 255 3 260.392
IV-95 270 4 270.280
I-96 278 5 280.168
II-96 290 6 290.056
III-96 260 7 299.944
IV-96 310 8 309.832
I-97 325 9 319.720
II-97 350 10 329.608
III-97 330 11 339.497
IV-97 360 12 349.385
Siendo su gráfico el siguiente
ESTADÍSTICA II
Tema VI 577
Si calculamos la bondad del ajuste veríamos que el R2 =
0.8485, lo que significa que el 84.85% de las variaciones
del número de ocupados son explicadas por la regresión, lo
cual implica que disponemos de una medida que nos informa
de si la tendencia es representativa de la serie original
o no. Esta información no la tenemos disponible con el
método de medias móviles. Además, tal y como veremos en el
tema siguiente, con este método no solo podemos determinar
la tendencia si no que también podremos estimar cual podrá
ser la evolución futura de la tendencia de la variable.
Número de ocupados y tendencia
200
220
240260280
300
320340
360
380
1 2 3 4 5 6 7 8 9 10 11 12
Tendencia Serie Original