Wooldridge Cap02mco Simple
Transcript of Wooldridge Cap02mco Simple
![Page 1: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/1.jpg)
1
Regresión Lineal Simple
yi = 0 + 1xi + ui
Javier AparicioDivisión de Estudios Políticos, CIDE
Primavera 2011
http://www.cide.edu/investigadores/aparicio/metodos.html
![Page 2: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/2.jpg)
2
Contenido
Estimación mediante el método de momentos
Estimación por mínimos cuadrados ordinarios
Bondad de ajuste: R2
Propiedades de los estimadores MCO Supuestos Gauss-Markov Insesgamiento Eficiencia
![Page 3: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/3.jpg)
3
y = 0 + 1x + u
donde y es: Variable dependiente Variable explicada Variable de lado
izquierdo (duh!) Regresando
u es: Residual Término de error
mientras que x es: Variable independiente Variable explicativa Covariable Variable de control Regresor Variable de lado derecho
0 y 1: parámetros o coeficientes a estimar
![Page 4: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/4.jpg)
4
Algunos supuestos
El valor promedio de u, el término de error, en la población es = 0. Es decir,E(u) = 0
Este supuesto no es muy restrictivo puesto que siempre podemos ajustar el intercepto 0 para normalizar E(u) = 0
![Page 5: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/5.jpg)
5
Media condicional = 0
Hay un supuesto crucial sobre la relación entre el error y la variable explicativa: cov(x, u)
Queremos que la información contenida en x sea independiente de la información contenida en u (ie, que no estén relacionados), de modo que:
E(u|x) = E(u) = 0, lo cual implica: E(y|x) = 0 + 1x
![Page 6: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/6.jpg)
6
..
x1 x2
E(y|x) es una funcion lineal de x: para cada x,la predicción de y es E(y|x)
E(y|x) = 0 + 1x
y
f(y)
![Page 7: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/7.jpg)
7
Mínimos Cuadrados Ordinarios (MCO) La idea básica es estimar parámetros
poblacionales a partir de una muestra. Sea {(xi,yi): i=1, …,n} una muestra aleatoria
de tamaño n de una población. Para cada observación en la muestra,
tenemos:
yi = 0 + 1xi + ui
![Page 8: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/8.jpg)
8
.
..
.
y4
y1
y2
y3
x1 x2 x3 x4
}
}
{
{
u1
u2
u3
u4
x
y
Línea de regresión, observaciones y errores
E(y|x) = 0 + 1x
![Page 9: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/9.jpg)
9
Derivación de estimadores MCO /OLS El supuesto E(u|x) = E(u) = 0 implica que
Cov(x,u) = E(xu) = 0
¿Por qué? En probabilidad básica sabemos que:Cov(x,u) = E(xu) – E(x)E(u)y dado que E(u)=0 Cov(x,u) = E(xu) = 0
![Page 10: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/10.jpg)
10
…continuación MCO/OLS
El doble supuesto E(xu) = E(u) = 0 se traduce en dos restricciones.
Y dado que: u = y – 0 – 1x,podemos reescribir estas dos restricciones en términos de x, 0 y :
E(u) = E(y – 0 – 1x) = 0 E(xu) = E[x(y – 0 – 1x)] = 0 Conocidas como las “restricciones de
momentos”
![Page 11: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/11.jpg)
11
Derivación de MCO usando el Método de Momentos (MOM) (Breviario: el 1º, 2º, 3º y 4º momentos de una función de distribución
de una variable aleatoria son la media, varianza, sesgo y kurtosis, respectivamente.)
El método de momentos consiste en imponer las restricciones de momentos, asumidas como ciertas para la población, en los momentos de la muestra.
¿Pero cómo? Recuerden que un estimador muestral de E(X), la media de una población, es simplemente la media aritmética de la muestra.
![Page 12: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/12.jpg)
12
Derivación de MCO / OLS
La idea es buscar parámetros que nos aseguren que las restricciones de momentos se cumplan en la muestra.
Las restricciones muestrales son (el gorrito denota “parámetros estimados”):
0ˆˆ
0ˆˆ
110
1
110
1
n
iiii
n
iii
xyxn
xyn
(1ª)
(2ª )
![Page 13: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/13.jpg)
13
Estimador MCO / OLS: intercepto Dada la definición de media muestral y las
propiedades de la sumatorias, podemos reescribir la primera restricción como sigue:
xy
xy
10
10
ˆˆ
bien o
,ˆˆ
0ˆˆ1
101
n
iii xyn
![Page 14: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/14.jpg)
14
Derivación de MCO / OLS
n
iii
n
ii
n
iii
n
iii
n
iiii
xxyyxx
xxxyyx
xxyyx
1
21
1
11
1
111
ˆ
ˆ
0ˆˆ
Y ahora, sustituyendo 0 en la segunda restricción, tenemos:
0ˆˆ1
101
n
iiii xyxn
Aquí hay un paso “mágico” ver apéndice A.7 y A.8.
![Page 15: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/15.jpg)
15
…estimador MCO / OLS: pendiente 1
0 : varianza tenga que veztoda
)var(
),cov(ˆ
1
2
1
2
11
n
ii
n
ii
n
iii
xxx
x
yx
xx
yyxx
yyxxxx i
n
ii
n
ii
11
21̂
![Page 16: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/16.jpg)
16
Sobre el estimador MCO de 1 1, es la covarianza muestral entre x y y, dividida
entre la varianza muestral de x. Si x y y están correlacionados positivamente, 1
será positivo (pues la varianza del denominador siempre es positiva).
Si x y y están correlacionados negativamente, 1 será negativo.
Si x y y no tienen correlación alguna, 1 no será estadísticamente distinto de cero (volveremos a esto más tarde).
Obviamente, requerimos que x tenga cierta varianza en la muestra.
![Page 17: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/17.jpg)
17
MCO / OLS
Intuitivamente, MCO ajusta una línea a través de los datos muestrale, de modo que la suma de residuales al cuadrado (SSR) sea la mínima posible: de ahí el término “mínimos cuadrados”.
El residual, û, es un estimado del término de error entre lo observado y lo predicho, es decir, la diferencia entre la línea de regresión (fitted line) y el dato observado.
Ver gráfica...
![Page 18: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/18.jpg)
18
.
..
.
y4
y1
y2
y3
x1 x2 x3 x4
}
}
{
{
û1
û2
û3
û4
x
y
Línea de regresión muestral, observaciones, y residuales estimados
xy 10ˆˆˆ
![Page 19: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/19.jpg)
19
Un enfoque alternativo: Minimizar residuales al cuadrado Siguiendo la idea de ajustar una línea de regresión,
podemos plantear un problema de minimización. Es decir, buscar parámetros tales que minimicen
la siguiente expresión:
n
iii
n
ii xyu
1
2
101
2 ˆˆˆ
![Page 20: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/20.jpg)
20
...continuación
Usando cálculo para resolver un problema de minimización con dos parámetros resulta en dos condiciones de primer orden (FOC)–similares a las restricciones de momentos vistas antes, pero ahora multiplicadas por n:
0ˆˆ
0ˆˆ
110
110
n
iiii
n
iii
xyx
xy
![Page 21: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/21.jpg)
21
Propiedades algebraicas de MCO / OLS Al minimizar los residuales cuadrados: La suma de los residuales de MCO será igual a
cero. Por ende, la media muestral de los residuales será
cero también. La covarianza muestral entre las variables
explicativas y los residuales será cero. La línea de regresión de MCO siempre cruzará la
media de la muestra, ie, la media de x y la media de y.
![Page 22: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/22.jpg)
22
Propiedades algebraicas (matemáticamente)
xy
(x,u) ux
n
uu
n
iii
n
iin
ii
10
1
1
1
ˆˆ
0cov por tanto, 0ˆ
0
ˆ
por tanto, 0ˆ
Es decir, la solución de MCO es idéntica a la del método de momentos.
![Page 23: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/23.jpg)
23
Suma de cuadrados: Terminología
SSR SSE SST que implica cual Lo
SSR :cuadrados de Residual Suma la es ˆ
SSE :cuadrados de Explicada Suma la es ˆ
SST :cuadrados de Total Suma la es
:siguiente lodefinir podemos que modo De ˆˆ
:explicado no componenteun y co)(sistemáti explicado
componenteun en n observació cadaseparar Podemos
2
2
2
i
i
i
iii
u
yy
yy
uyy
SST es la suma de “desviaciones al cuadrado” de las observaciones de la muestra: es proporcional, más no igual, a VAR(y).
![Page 24: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/24.jpg)
24
Demostración: SST = SSE + SSR
SSE SSR
0 ˆˆ que sabemos comoy
SSE ˆˆ2 SSR
ˆˆˆ2ˆ
ˆˆ
ˆˆSST
22
2
22
yyu
yyu
yyyyuu
yyu
yyyyyy
ii
ii
iiii
ii
iiii
![Page 25: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/25.jpg)
25
Bondad de ajuste: R2
¿Cómo saber qué tan bueno es el ajuste entre la línea de regresión y los datos de la muestra?
Podemos calcular la proporción de la Suma de cuadrados totales (SST) que es “explicada” por el modelo.
Esto es la llamada R-cuadrada de una regresión: R2 = SSE/SST = 1 – SSR/SST
![Page 26: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/26.jpg)
26
Haciendo regresiones con stata Hemos visto como derivar las fórmulas para
calcular estimadores MCO de nuestros parámetros de interés .
Podemos calcularlos “a mano” (muy tedioso), o aplicar estas fórmulas en una hoja de cálculo como excel (algo tedioso), o bien usar un paquete estadístico estándar como stata (muy fácil)
Para correr una regresión de y en x en stata: regress y x1 x2 x3 (ver ejemplo)
![Page 27: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/27.jpg)
27
Sesgo y eficiencia de MCO
Dos características deseables de cualquier estimador estadístico son:
Insesgamiento (unbiasedness): que el parámetro estimado sea, en promedio, igual al “verdadero” parámetro poblacional.
Eficiencia (efficiency): que la varianza del estimador sea mínima (ie, máxima precisión).
Así, buscamos estimadores con sesgo mínimo y máxima eficiencia (ie, mínima varianza).
MCO cuenta con ambas propiedades bajo ciertas condiciones: los supuestos Gauss-Markov.
![Page 28: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/28.jpg)
28
Supuestos Gauss-Markov I: Insesgamiento de MCO/OLS1. El modelo poblacional es lineal en sus
parámetros: y = 0 + 1x + u
2. Muestra aleatoria de tamaño n, {(xi, yi): i=1, 2, …, n}, representativa de la población, de modo que el modelo muestral es: yi = 0 + 1xi + ui
3. Media condicional cero: E(u|x) = 0 y por tanto E(ui|xi) = 0
4. Varianza(xi ) > 0
![Page 29: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/29.jpg)
29
Insesgamiento de MCO
Para analizar el sesgo del estimador, necesitamos reescribirlo en términos del parámetro poblacional.
De modo que reescribimos la fórmula para 1 como:
22
21 donde ,ˆ
xxs
s
yxx
ix
x
ii
![Page 30: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/30.jpg)
30
Insesgamiento de MCO (cont.)
iiiii
iiiii
iiiii
uxxxxxxx
uxxxxxxx
uxxxyxx
10
10
10
Sustituyendo para yi, el numerador de la expresión anterior puede descomponerse como sigue:
desviaciones de x + n*var(x) + n*cov(x,u)
![Page 31: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/31.jpg)
31
Insesgamiento de MCO (cont.)
211
21
22
ˆ
tantolopor y ,
:así sereescribir puedenumerador el que modo de
y ,0
:que sabemos básica, aestadísticPor
x
ii
iix
xiii
i
s
uxx
uxxs
sxxxxx
xx
![Page 32: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/32.jpg)
32
Insesgamiento de MCO (cont.)
1211
21
1ˆ
:esperado valor aplicamosy ,1ˆ
que modo de , definimos si ,Finalmente
iix
iix
i
ii
uEds
E
uds
xxd
El operador E(.) aplica a ui, el único componente aleatorio de la expresión.
El valor esperado de la estimada es el “verdadero” parámetro poblacional—toda vez que los 4 supuestos Gauss-Markov se cumplan.
![Page 33: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/33.jpg)
33
Insesgamiento: resumen
Los estimadores MCO de 1 y 0 son insesgados.
La demostración de esto depende de los 4 supuestos Gauss-Markov: si alguno de ellos no se cumple, MCO no necesariamente será insesgado.
El insesgamiento es una propiedad del estimador muestral: dada cierta muestra, éste puede estar cerca o lejos del verdadero parámetro poblacional.
![Page 34: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/34.jpg)
34
Varianza de los estimadores MCO Ya vimos que la “distribución muestral” de
nuestro estimador está centrada en torno al “verdadero” parámetro.
¿Qué tan dispersa será la distribución del estimador?
Para analizar esto, requerimos un supuesto Gauss-Markov adicional (el 5º):var(u|x) = 2
conocido como homoscedasticidad (homoskedasticity): varianza constante.
![Page 35: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/35.jpg)
35
Varianza de MCO (cont.) Por estadística sabemos que:
2 = Var(u|x) = E(u2|x)-[E(u|x)]2
Y como E(u|x) = 0, entonces:2 = E(u2|x) = E(u2) = Var(u)
De modo que 2 es la varianza no condicional de los residuales, también llamada varianza del error.
, la raíz cuadrada de la varianza del error, se conoce como la desviación estándar del error.
Con lo cual podemos decir que: E(y|x)=0 + 1x Var(y|x) = 2
![Page 36: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/36.jpg)
36
..
x1 x2
Homoscedasticidad
E(y|x) = 0 + 1x
y
f(y|x)
![Page 37: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/37.jpg)
37
.x
yf(y|x)
x1 x2 x3
..
E(y|x) = 0 + 1x
Heteroscedasticidad
![Page 38: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/38.jpg)
38
Varianza de MCO (cont.)
12
222
22
22
2222
2
2
22
2
2
2
211
ˆ1
11
11
1ˆ
Vars
ss
ds
ds
uVards
udVars
uds
VarVar
xx
x
ix
ix
iix
iix
iix
![Page 39: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/39.jpg)
39
Varianza de MCO: resumen
A mayor varianza del error, 2, mayor varianza del estimador de 1.
A mayor varianza en xi, menor varianza del estimador de 1.
Por ende, a mayor tamaño de muestra, n, menor varianza del estimador de 1.
Pero ojo, la varianza del error es “desconocida”: necesitamos estimarla también.
![Page 40: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/40.jpg)
40
Estimación de la varianza del error No conocemos la varianza del error, 2, porque no
observamos los errores de la población, ui
Lo que observamos son los residuales (estimados) del modelo muestral:
Pero podemos usar los residuales estimados para construir un estimador de la varianza del error.
iii xyu 10ˆˆˆ
![Page 41: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/41.jpg)
41
Estimación de la varianza del error
2ˆ
2
1ˆ
:es de insesgadoestimador un que modo de
.eliminan.. se paréntesis ambos nto,insesgamiepor
ˆˆ
ˆˆ
para dosustituyeny ,ˆˆˆ
22
2
1100
1010
10
n
SSRu
n
xu
xux
yxyu
i
ii
iii
iiii
![Page 42: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/42.jpg)
42
Estimación de la varianza del error
2
12
1
1
2
ˆˆse
:ˆ deestándar error el
tenemosentonces , de en vez ˆ ssustituimo si
ˆstd.dev :que recordemos
regresión la deestándar error ˆˆ
xx
s
i
x
Y, una vez que conocemos el error estándar de 1 estimada, podemos calcular su intervalo de confianza y hacer pruebas de hipótesis.
![Page 43: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/43.jpg)
Apéndice A. Propiedades del operador Suma
43
![Page 44: Wooldridge Cap02mco Simple](https://reader034.fdocuments.mx/reader034/viewer/2022052201/5571faeb4979599169937dc2/html5/thumbnails/44.jpg)
Apéndice A. Propiedades del operador Suma
44