REPASO DE MATRICES - … · Apuntes de Econometría EMI – Ingeniería Comercial 1 REPASO DE...

Apuntes de Econometría EMI – Ingeniería Comercial

1

REPASO DE MATRICES

Mediante el uso del álgebra matricial, los resultados fundamentales en

econometría se presentan de manera compacta y clara.

Una matriz es una colección de números ordenados rectangularmente,

A = aik[ ] = A[ ]ik =

a11 a12 ... a1ka21 a22 ... a2k... ... ... ...an1 an2 ... ank

!

"

#####

$

%

&&&&&

Un vector es un conjunto ordenado de números dispuestos en una fila o en una

columna.

Una matriz puede ser también interpretada como un conjunto de vectores

columna. La dimensión de una matriz indica el número de filas y el número de

columnas que contiene: “A es una matriz nxk”, que indica que A tiene n filas y k

columnas. Si n es igual a k, entonces A es una matriz cuadrada.

Una matriz simétrica A, es aquella en la cual aik = aki , para todo i.

Una matriz diagonal, es una matriz cuadrada cuyos únicos elementos distintos

de cero, aparecen en su diagonal principal.

Una matriz escalar es una matriz diagonal, con el mismo valor en todos los

elementos de la diagonal.

Una matriz identidad es una matriz escalar con unos en la diagonal.

Una matriz triangular es aquella que contiene ceros encima, o bien debajo de la

diagonal principal.


2

1. OPERACIONES CON MATRICES.-

Igualdad: A = B⇔ aik = bik∀ik

Transpuesta: B = A '⇔ bik = aki∀ik

A = (A ')'

Suma: C = A±B = [aik + bik ]

Conmutativa: A+B = B+ A

(A+B)' = A '+B '

Asociativa: (A+B)+C = A+ (B+C)

Producto: De dos vectores es un escalar.

C = AB⇔ AnkBkT ⇒CnT

AB ≠ BA No es conmutativa

(AB)C = A(BC) Asociativa

A(B+C) = AB+ AC Distributiva

(AB)' = B 'A ' Transpuesta.

2. SUMA DE ELEMENTOS: i matriz escalar de “1”.

xi∑ = x1 + x2 +...+ xn = iX

Si xi = a : = i '(ai) = a(i 'i) = na

axi∑ = ai 'X

Si a = 1n : = 1

n xi∑ = 1n i 'X = x

xi∑ = i 'X = nx


3

Suma de cuadrados de los elementos de un vector:

xi2∑ = x ' x

Suma de los productos de los vectores X e Y:

xiyi∑ = x ' y

Matriz idempotente.-

Es la que se emplea para transformar datos en desviaciones de la media.

ix = 1nx = i 1

ni ' x = 1

nii ' x donde 1n ii ' es nxn con cada elemento 1n

Entonces,

[x − ix ]=[x − 1n ii ' x] y puesto que x = Ix

=[Ix − 1n ii ' x]= [I − 1

n ii ']x =Mox

Todos los elementos de la diagonal de Mº son 1− 1n y los demás son − 1

n .

Suma de desviaciones respecto a la media:

(xi − x )∑ = i '[M º x]= 0' x = 0

Suma de desviaciones al cuadrado:

(xi − x∑ )2 = (x − ix )'(x − ix ) = (M º x)'(M º x) = x 'M º 'M º x = x 'M º x

Dado que Mº es una matriz idempotente.

La suma de cuadrados y productos cruzados de desviaciones respecto a las

medias:

(xi − x )(yi − y ) = (M º x)(M º y)∑

Pero si Z = [xy]⇒M º z


4

3. RANGO DE UNA MATRIZ:

El producto escalar: un escalar múltiplo de un vector “a” es otro vector “a” cuyas

coordenadas son el múltiplo escalar de las coordenadas de “a”. Cualquier

escalar múltiplo de a es un segmento de esta línea.

Un conjunto de vectores es linealmente dependiente si cualquiera de los

vectores en el conjunto puede ser escrito como una combinación lineal de los

otros.

Un conjunto de vectores es linealmente independiente si y solo si, la única

solución a la ecuación x1a1 + x2a2 +...+ xkak = 0 es: x1 = x2 = ... = xk = 0

El rango columna de una matriz es la dimensión del vector espacio generados

por sus columnas:

Rango de una Matriz: r(A) = r(A ') ≤min(N º filas,N ºcolumnas)

Para cualquier matriz, r(A) = r(AA ') = r(A 'A)

Dos vectores a y b son ortogonales, si a 'b = b 'a = 0 “ a ⊥ b ”

Un sistema de ecuaciones es homogéneo si adopta la forma Ax=0.

Un sistema de ecuaciones es No Homogéneo si Ax=b. Donde b es un vector no

nulo y A debe tener rango completo.

La traza de una matriz cuadrada kxk es la suma de los elementos de la diagonal

principal. Todas las matrices simétricas idempotentes, excepto I, son singulares.


5

UNIDAD 1. INTRODUCCIÓN.

¿QUÉ ES ECONOMETRÍA?

Econometría: Medición Económica

Pero el avance de la disciplina es más amplio.

Def. 1: “La econometría consiste en la aplicación de la estadística matemática a

la información económica para dar soporte empírico a los modelos construidos

por la economía matemática y obtener resultados numéricos” G. Titner.

Def. 2: “La econometría puede ser definida como el análisis cuantitativo de

fenómenos económicos reales, basados en el desarrollo simultáneo de la teoría

y la observación, relacionados mediante métodos apropiados de inferencia” P.

Samuelson.

Def. 3: El arte del econometrista consiste en encontrar el conjunto de supuestos

que sean lo suficientemente específicos y realistas, de tal forma que le permitan

aprovechar de la mejor manera los datos que tiene a su disposición”. E.

Malinvaud.

Def. 4: El método de la investigación econométrica busca esencialmente una

conjunción entre la teoría económica y la medición real, utilizando como puente

la teoría y la técnica de la inferencia estadística”. T. Haavelmo.

¿DISCIPLINA APARTE?

La econometría es una amalgama de Teoría Económica, Economía matemática,

estadística económica y estadística matemática. Por eso merece ser estudiada


6

de forma separada.

TEORÍA ECONÓMICA: Formula hipótesis de naturaleza principalmente

cualitativa.

Por sí misma no proporciona medida numérica alguna de la relación de

variables.

La econometría da contenido empírico a gran parte de la teoría económica.

ECONOMÍA MATEMÁTICA: Su interés es expresar la teoría económica en

forma matemática (por medio de ecuaciones) sin preocuparse de la verificación

empírica de la teoría.

La econometría se preocupa principalmente de la verificación empírica de la

teoría económica. La conversión de ecuaciones matemáticas en ecuaciones

econométricas requiere mucha destreza.

ESTADÍSTICA ECONÓMICA: Se relaciona principalmente con la recolección,

procesamiento y presentación de cifras económicas en forma de gráficos y

tablas.

El estadístico económico no va mas allá de la recolección de información, no le

concierne la utilización de las cifras recopiladas para probar la validez de las

teorías económicas.

ESTADÍSTICA MATEMÁTICA: Aunque se utilizan muchas herramientas de ésta,

el econometrista requiere métodos especiales en vista de la naturaleza única de

la mayoría de las cifras económicas. (i.e. no provienen de experimentos

controlados).

La econometría es el campo de la economía que tiene que ver con la aplicación

de la estadística matemática y las herramientas de la inferencia estadística a las


7

mediciones empíricas de relaciones postuladas por la economía teórica.

1. MODELIZACIÓN ECONOMÉTRICA

La economía teórica es generalmente estricta y no ambigua. Los modelos

postulan relaciones determinísticas precisas (pero no se debe olvidar que un

modelo es solo una simplificación de la realidad).

- Ningún modelo puede esperar englobar la gran cantidad de los aspectos

aleatorios de la vida económica. Es necesario por tanto incorporar

elementos estocásticos en nuestros modelos empíricos "𝜀".

- Se debe entender que la introducción de un error aleatorio en un modelo

determinístico no pretende meramente recoger sus ineficiencias.

- Un modelo (o teoría) nunca puede ser realmente confirmado a menos

que se haga tan amplio como para incluir cualquier posibilidad (pero un

modelo puede ser falsado).

La introducción de elementos estocásticos en el modelo hace que este cambie,

de una afirmación exacta, a una descripción probabilística de los valores

esperados. (Únicamente el predominio de evidencia empírica puede invalidar

convenientemente el modelo probabilistico).

2. METODOLOGÍA DE LA ECONOMETRÍA

¿Cómo proceden los econometristas en el análisis de un problema económico?

Aunque hay varias escuelas de pensamiento, se presenta la metodología

tradicional o clásica. Se tienen los siguientes lineamientos:

i. Planteamiento de la teoría o de la hipótesis.


8

ii. Especificación del modelo matemático de la teoría.

iii. Especificación del modelo econométrico o estadístico de la teoría.

iv. Obtención de datos.

v. Estimación de los parámetros del modelo econométrico.

vi. Prueba de hipótesis.

vii. Pronóstico o predicción.

viii. Utilización del modelo para fines de control o política.

Ejemplo:

1. La ley psicológica fundamental de Keynes, consiste en que los hombres

(y mujeres) como regla general y en promedio, están dispuestos a

incrementar su consumo a medida que su ingreso aumenta pero no en la

misma cuantía.

2. Se tiene una relación positiva entre el consumo (C) y el ingreso (Y). El

economista matemático sugiere:

YC 10 ββ += donde 10 1 << β

0β y 1β son los parámetros del modelo y C y Y, las variables. A este

modelo se le conoce como la función de consumo.

3. Especificación del modelo econométrico de consumo. Se supone que no

existe relación exacta o determinística entre C y Y. Para considerar las

relaciones inexactas, el econometrista modifica la función de consumo de

la siguiente manera:

εββ ++= YC 10

ε es el término de perturbación, también conocido como la variable

estocástica. Representa todos los otros factores que afectan y que no

son considerados en el modelo.

4. Para estimar el modelo econométrico (básicamente 0β y 1β ) se

requieren datos, que pueden provenir de tablas y ser expresados en

gráficos.


9

5. Lo siguiente es estimar los parámetros de la función consumo. Esto da

contenido empírico a la función consumo. La técnica estadística se

conoce como “Análisis de regresión”.

Un ejemplo de la función estimada es: YC 781,07,184ˆ +−=

La propensión marginal a consumir del ejemplo indica que por cada 1$

de ingreso, 0,78$ se destinan al consumo real, en promedio.

6. Se tienen que plantear criterios para evaluar si los valores estimados

concuerdan con las expectativas de la teoría que está siendo probada.

Se realiza la inferencia estadística (o prueba de hipótesis).

7. Si el modelo escogido confirma la hipótesis o teoría, se puede utilizar

para predecir los valores futuros de la variable dependiente. Se logra

identificar el error de predicción.

8. Para medidas de política (en modelos macroeconómicos), por ejemplo,

¿cuánto debe cambiar Y para mantener C en C0?

3. REPASO DE CONCEPTOS BÁSICOS DE PROBABILIDADES

¿Por qué necesitamos estudiar teoría de probabilidades para analizar

observaciones o datos de la realidad? ¿Por qué no nos concentramos con

hacer histogramas y usar medidas descriptivas? Supongamos que contamos

con una muestra de datos de un fenómeno de interés. Podemos hacer un

gráfico de frecuencias empíricas de los datos y derivar información útil.


10

Aunque el gráfico anterior describe adecuadamente la distribución del ancho de

una muestra de calles de Cochabamba, los estadísticos descriptivos están

confinados a dicha muestra. Cualquier pregunta respecto de la población de la

cual se derivó la muestra no puede ser discutida. La esencia del trabajo

econométrico es, en este sentido, proveer resultados generales a partir de

muestras cuya información es limitada.

La teoría de probabilidades provee un modelo matemático para la inferencia

estadística que, al realizarse sobre una muestra de observaciones, permite

estudiar fenómenos generales. Por esto, este capítulo repasa la principal teoría

de probabilidades.

4. VARIABLES ALEATORIAS.

Definición útil de variable aleatoria (X): Función cuyo rango de valores es

conocido ex-ante pero el varo que toma es solo conocido ex-post.

X es una variable aleatoria porque hasta que se realice el experimento su valor

es incierto. Las probabilidades se asocian a las realizaciones cuantificando la

incertidumbre.

0

100

200

300

400

500

1 2 3 4 5 6 7 8 9

Midpoint

Frequency


11

Asociamos a ellas una “probabilidad de ocurrencia”, que denotamos por:

Prob(X=x)

donde X es el conjunto de valores y x es un elemento (realización) de la función.

Para este curso, las probabilidades son exógenas. Lo anterior indica que la

probabilidad de que X asuma un valor x depende de su probabilidad de

ocurrencia.

Existen dos tipos de variables aleatorias: las variables discretas y las variables

continuas.

5. FUNCIONES DE DISTRIBUCIÓN

Exigiremos que las funciones de probabilidad cumplan algunas restricciones. La

manera más simple de visualizarlo es:

0 ≤ P(X = x) ≤1

P(X = x) =∑ f (x)∑ =1

Lo anterior es directo si la variable X es discreta, pero si ésta es continua

entonces P(X=x)=0. Sin embargo, para )(],,[ bxaPxxx ≤≤∈ existe y de hecho:

∫ ≥b

a

dxxf 0)( 1)( =∫x

x

dxxf

La distribución acumulada de probabilidades es la probabilidad que X sea

menor que un cierto valor “z” y la denominamos F(x).

∑≤

=zxxfxF )()( o ∫=

z

x

dxxfxF )()(


12

Para describir variables aleatorias y su distribución, usualmente empleamos los

momentos de la distribución (esperanza, mediana, moda, varianza, skewness,

Kurtosis, etc.), los cuales pueden ser “brutos” o “centrados”. Los segundos

utilizan desviaciones con respecto a la media, en tanto que los primeros no.

3. DESCRIPTORES DEL MOMENTO CENTRAL DE UNA DISTRIBUCIÓN

El valor esperado de una variable aleatoria se define como el promedio de las

realizaciones de X ponderado por su probabilidad de ocurrencia.

∑= )(][ xxfxE para toda función X discreta

∫=x

x

dxxxfxE )(][ para toda función X continua

Note que la esperanza (media) no tiene que ser un valor que la variable

aleatoria puede tomar cuando ésta es discreta. Por ejemplo, al lanzar un dado

numerado de 1 a 6, el valor esperado es 3,5.

Otros descriptores de uso común son la mediana que es el valor del medio del

rango de valores de la distribución y se usa principalmente cuando hay valores

extremos, pues a diferencia de la media no se ve tan influida por éstos.

Ocasionalmente se usa la moda, que es el valor que ocurre con mayor

probabilidad, pero cuya definición es arbitraria para variables continuas.

3.1 DESCRIPTORES DE OTROS MOMENTOS DE UNA DISTRIBUCIÓN

• Varianza de una distribución 2)]([)( xExExV −= es decir, es el valor

esperado de la dispersión de una variable aleatoria.

• Skewness de una distribución 3)]([)( xExExS −= es decir, es el valor

esperado de la asimetría de la variable aleatoria.

• Kurtosis de una distribución 4)]([)( xExExK −= es decir, es el valor


13

esperado de las colas de la distribución de la variable aleatoria.

4. DISTRIBUCIONES DISCRETAS DE USO COMÚN

Supongamos que el experimento A tiene dos posibles resultados S={éxito,

fracaso} con probabilidades de ocurrencia de p y 1-p respectivamente:

Éxito x=1 pxP == )1(

Fracaso x=0 pxP −== 1)0(

La distribución (o descripción) de los datos del experimento anterior es la

llamada distribución de Bernoulli: )1()1()( xx ppxf −−= 1,0=∀x

0 en otro caso.

Como el mismo Bernoulli se encargó de demostrar, si el experimento se repite n

veces se obtiene la distribución “binomial”.

)()1()( yny ppyn

yf −−⎟⎟⎠

⎞⎜⎜⎝

⎛= donde

!)!(!yyn

nyn

−=⎟⎟⎠

⎞⎜⎜⎝

⎛

Hay otras discretas útiles. Entre ellas está la de Poisson, que corresponde al

límite de la binomial cuando ∞→n y 0→p , tal que np es constante.

!);(

i

x

i xexf

iθθ

θ−

=

5. DISTRIBUCIONES CONTINUAS DE USO COMÚN

En muchos experimentos en economía no puede suponerse que las variables

aleatorias de interés sean discretas, por lo que se utilizan funciones continuas.


14

La distribución normal: Si ∞→n , la expresión de la binomial es poco práctica.

De Moivre encuentra la distribución que resulta en este caso:

f (z) = 12π

1σe−12[z−E (x )]

σ

"

#$%

&'

2

es decir, la distribución normal. Esta distribución es la base de muchos test y

procedimientos de estimación que usaremos en este curso.

La representación de la normal se indica como: 𝑥~𝑁(𝜇,𝜎!)

Si 𝑥~𝑁(𝜇,𝜎!) entonces 𝑎 + 𝑏𝑥~𝑁(𝑎 + 𝑏𝜇, 𝑏!𝜎!)

Lo anterior representa que la forma de la distribución se mantiene ante

transformaciones lineales.

De 𝑎 + 𝑏𝑥~𝑁(𝑎 + 𝑏𝜇, 𝑏!𝜎!) si 𝑎 = − !! y 𝑏 = !

! entonces ~𝑁(0,1)

La distribución normal estándar: La función normal se estandariza fácilmente:

si ),( 2σµNz→ ⇒ )1,0(Nzx →−

=σµ

La distribución Chi-cuadrado:

si )1,0(Nx→ ⇒ )1(22 χ→= xy

Una propiedad de esta función es que sumas de variables que se distribuyen 2χ también se distribuyen

2χ :

si )1(21 χ→x y )1(22 χ→x , entonces )1(221 χ→+= xxy

La distribución F:

si )(2 my χ→ y )(2 nw χ→ ⇒ ),(// nmFnwmyx →=


15

La distribución “t” de student:

si )1,0(Nz→ y )1(2χ→w ⇒ )(ntwnzx →=

La distribución logística: 1

1)(−−

⎥⎦

⎤⎢⎣

⎡+= b

az

ezf

6. DISTRIBUCIONES CONJUNTAS

Es posible que dos o mas variables puedan ser descritas por una función de

probabilidades conjunta.

);( dycbxaP ≤≤≤≤ = ∑∑≤≤≤≤ dycbxa

yxf ),(

= ∫ ∫b

a

d

c

dxdyyxf ),(

El objetivo principal de las ciencias sociales y la economía en particular es

describir (i.e. modelar) distribuciones conjuntas.

La probabilidad acumulada es: 𝐹 𝑥,𝑦 = Pr (𝑋 ≤ 𝑥;𝑌 ≤ 𝑦)

7. DISTRIBUCIONES MARGINALES

Suponiendo que existe la densidad conjunta de dos o más variables, resulta

natural preguntarse ¿qué probabilidad tiene x (o y) de ocurrir, independiente de

los valores que tome la o las otras variables y (o x)?

Es decir, para obtener las distribuciones marginales a partir de la densidad

conjunta, es necesario sumar o integrar la(las) otra(s) variable(s). En un caso de


16

dos variables:

)(xf x ∑=y

yxf ),(

)(xf x ∫=y

dyyxf ),(

De aquí se deriva el concepto de independencia estadística. Si la densidad

conjunta es el producto de las marginales, las variables son independientes.

𝑓 𝑥;𝑦 = 𝑓! 𝑥 𝑓!(𝑦) <=> x e y son independientes.

Asociada a la distribución marginal habrá, naturalmente, esperanzas marginales,

varianzas marginales, etc.

La esperanza en una distribución conjunta se obtiene respecto a la distribución

marginal. Es decir:

𝐸 𝑥 = 𝑥𝑓(𝑥,𝑦)!!

𝑉 𝑥 = [𝑥 − 𝐸 𝑥 ]!𝑓(𝑥,𝑦)!!

8. DISTRIBUCIONES CONDICIONALES

Para ciencias sociales, la distribución más interesante es la condicional, es

decir aquella que describe cuál es la probabilidad que x condicional en que y

tome algún cierto valor y que denotamos por )( xyf .

Se puede demostrar que f (y x) = f (x, y)fx (x)

= fy (y) .

Para ello definiremos primero la noción de probabilidad condicional.


17

Supongamos que en el experimento de tirar dos monedas, sabemos que el

primer tiro fue cara. ¿Cambia esta información la estructura de probabilidades?

Primero, note que ahora el espacio de eventos se reduce a: },{ SCCCSA = .

Entonces, tienen que cambiar las probabilidades P(.), siendo ahora:

21}{ == CCPA 2

1}{ == CSPA

Definiremos la probabilidad condicional como:

)()()()( 1

11 APAAPAAPAPA∩

==

si y solo si P(A)>0.

Resulta clave entender que la media condicional de y en x, ][ xyE es

exactamente el concepto de una regresión lineal en econometría. Supongamos

que el experimento puede ser descrito por la siguiente relación: εβ += xy , con

ε como ruido blanco, cuyas características son 0][ =εE y 2],cov[ σεε =ji para

i=j, y cero en otro caso. Entonces xxyE β=][ .

Una segunda propiedad interesante se deriva al aplicar el operador de la

varianza condicional al modelo anterior. Un poco de álgebra permite obtener:

( )22 ][][][ xyExyExyV −=

Esta es la función cedástica. Aplicando la ley de las esperanzas iteradas

[ ]][][ xyEEyE x= se puede obtener:

V[y]=Vx E[y x]!" #$+Ex V[y x]!" #$

de donde se desprende que:

[ ] [ ]][][][ xyEVyVxyVE xx −=

es decir, la incertidumbre asociada a la predicción hecha sobre la base de una

regresión es menor a aquella de los datos.

Por lo tanto, la variación de y surge por dos motivos:


18

1ro. 𝐸 𝑦 𝑥 varía con x è Varianza de la regresión = Vx E[y x]!" #$

2do. y varía alrededor de la media condicional è Varianza residual Ex V[y x]!" #$

3ro. la suma total es la varianza total.

Y al analizar una regresión, resulta de interés preguntarnos cuál de las dos

partes es más grande. De ahí se deriva

Coeficiente de determinación = !"#$"%&".!"#!"$%&'!"#$%&'%.!"!#$

9. TEORÍA ASINTÓTICA.

El conocimiento del comportamiento en el límite de la distribución de un

estimador, puede utilizarse para inferir una distribución aproximada para el

estimador obtenido de una muestra finita.

a) Convergencia en probabilidad.

Los límites están considerados respecto al tamaño muestral “n”.

La variable aleatoria xn converge en probabilidad a “c” si:

lim!→!

Pr 𝑥 − 𝑐 > 𝜀 = 0

𝑝𝑙𝑖𝑚 𝑥! = 𝑐

la convergencia en probabilidad implica que los valores cercanos a “c” que toma

la variable, son cada vez más probables, a medida que n aumenta.

La convergencia en media cuadrática implica que, si “x” tiene 𝜇 y 𝜎! con sus

límites ordinarios iguales a c y 0, entonces 𝑥! converge en media cuadrática a c.

Es decir:


19

𝑝𝑙𝑖𝑚 𝑥! = 𝑐

La convergencia en media cuadrática implica la convergencia en probabilidad,

pero la convergencia en probabilidad no implica convergencia en media

cuadrática.

Por lo tanto, se puede definir un estimador consistente de la siguiente manera:

𝑝𝑙𝑖𝑚 𝜃 = 𝜃

y luego se puede definir la consistencia de la media cuadrática:

𝑝𝑙𝑖𝑚 𝑥 = 𝜇

la consistencia de la media de funciones es:

𝑝𝑙𝑖𝑚 !!

𝑔(𝑥)!

= 𝐸[𝑔 𝑥 ]

Teorema de Slutzky.

Se cumple para funciones continuas g(x) que no son función de n.

𝑝𝑙𝑖𝑚 𝑔 𝑥! = 𝑔(𝑝𝑙𝑖𝑚 𝑥!)

establece una comparación entre el valor esperado de una variable aleatoria y

su límite en probabilidad.

Por lo tanto,


20

𝑝𝑙𝑖𝑚𝑥𝑠! =

𝜇𝜎!

Reglas límite en probabilidad:

Si 𝑝𝑙𝑖𝑚 𝑥! = 𝑐 plim (xn + d) = c + d

𝑝𝑙𝑖𝑚 𝑦! = 𝑑 plim (xn d) = c d

plim (xn / d) = c/d

b) Convergencia en distribución y distribución límite.-

La sucesión de variables aleatorias {𝑥!} converge en distribución a una variable

aleatoria x con fda F(x) si:


21

2. EL MODELO CLÁSICO DE REGRESIÓN LINEAL MCRL Su forma genérica:

( ) iikiii xxxfy ε+= ,...,, 21

Uno de los aspectos más útiles del modelo de regresión múltiple es su capacidad

para identificar efectos de un conjunto de variables independientes sobre una

dependiente.

3. SUPUESTOS DEL MODELO CLÁSICO DE REGRESIÓN LINEAL a. Forma funcional lineal

b. Identificabilidad de los parámetros del modelo

c. Valor esperado de la perturbación dada la información observada

d. Varianzas y convarianzas de las perturbaciones dada la información

observada

e. Naturaleza de los datos sobre variables independientes

f. Distribución de probabilidad de la parte estocástica del modelo

LINEALIDAD DEL MODELO DE REGRESIÓN

εββ +++= kkxxy ...11 ; los subíndices “j k” son de columnas de X (variables)

εβ += lii xy ; los subíndices “i t” son para filas de X (observaciones)

La variables dependiente y es la suma del componente determinístico y una variable

aleatoria. La linealidad hace referencia a la manera en que los parámetros y ε entran

a formar parte de la ecuación y no necesariamente a la relación entre variables.

Modelo logarítmico lineal: εβββ ++++= kk xxy ln...lnln 221 (elasticidad constante)

Modelo semilogarítmico: ttt txy εδβ ++=ln (modelo de crecimiento económico)

Modelo logístico: tlttt txyy εδβ ++=−1ln

Modelo translogarítmico: ∑∑∑= ==

+++=K

k

T

tkkt

K

kkk xxy

1 121

10 lnlnln εδββ

RANGO COMPLETO X es una matriz nxk con rango k.


22

Eso significa que X tiene rango de columna completa: las columnas de X son

linealmente independientes y hay al menos k observaciones (condición de

identificación).

En un modelo lineal debe existir variación en Xi, de lo contrario no se puede

aprender nada de él.

REGRESIÓN

[ ]

[ ]

[ ][ ]

[ ][ ][ ] [ ][ ] [ ][ ] 0,

00

0,...,

0...

0

1

2

1

=

===

=

=

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

=

exCovExEEE

E

xE

xExE

xE

xE

xixi

ni

n

i

εε

εεε

ε

ε

ε

ε

ε

Las observaciones en x no conllevan información sobre el valor esperado de ε.

[ ] βxxyE = esperanza condicionada.

PERTURBACIONES ESFÉRICAS.-

[ ][ ] 0

2

=

=

xCov

xVar

ji

i

εε

σε

Donde:

[ ] [ ] IxExE 2

2

2

2

'

...00............0...00...0

' σεε

σ

σ

σ

εε =⇒

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

[ ] [ ] [ ] IxEVarxVarEVar 2][][ σεεε =−=

Existe homocedasticidad

No hay autocorrelación

REGRESORES NO ESTOCÁSTICOS X es una matriz conocida nxk, de constantes.


23

NORMALIDAD

[ ]INx 2,0 σε → perturbaciones normalmente distribuidas, media cero y varianza

constante

El Teorema del Límite Central (TCL) puede generalmente aplicarse a ε. El supuesto

implica que εi es estadísticamente independiente y es no correlacionado.

4. REGRESIÓN POR MÍNIMOS CUADRADOS

Los parámetros desconocidos de la relación estocástica β'ii xy = son el objetivo a

estimar. La regresión poblacional es [ ] β'iii xxyE = , y la estimación de [ ]ii xyE es

β̂ˆ 'ii xy = .

4.1 VECTOR DE COEFICIENTES DE MCRL Minimiza la suma de cuadrados de los residuos.

( ):0

2'0

20

β

βε

Minxy iii∑ ∑ −=

( ) ( ) ( )000'00 ' ββεεβ xyxyS −−==

0000 '''''' ββββ xxxyyxyy +−−=

0'2'2)(

00

0 =+−=∂

∂β

ββ

xxyxS sustituyendo 0β por β̂

yxxx 'ˆ' =β

( ) yxxx ''ˆ 1−=β

Si es mínimo: xxS '2ˆˆ)ˆ(2

=∂∂

∂

ββ

β matriz positiva definida.

Mínimos cuadrados en un modelo de dos variables:

( )( )( ) 012

)(2

22

=−−−=∂

∂

−−=

∑∑∑∑

iii

iii

bxayae

bxaye

( )bxnay ii∑ ∑+= dividiendo por n

bxay += la regresión pasa por las medias.

( )( )( ) 02

2

=−−−=∂

∂∑∑

iiii xbxay

be


24

( ) ( )bxaxyx iiii∑ ∑∑ += 2 donde ∑ = xnxi

( )∑∑ −=− 22 xnxbyxnyx iii

( )( )( )2∑

∑−

−−=

xx

yyxxb

i

ii

5. REGRESIÓN ORTOGONAL Si las variables en una regresión múltiple no están correlacionadas (son ortogonales)

las pendientes de la regresión múltiple son las misma que las pendientes de las

regresiones simples individuales.

5.1 ASPECTOS ALGEBRAICOS

( ) ( ) ( ) 0'ˆ''ˆ''ˆ'''ˆ 1 =−=−−=−→=→= − exxyxyxxxyxxxyxxx ββββ

Si la primera columna de X es una columna de unos:

1. La suma de los residuos de OLS es cero:

0''1 === ∑eeiex

2. El hiperplano de la regresión pasa por el punto de las medias de los datos:

β̂xy =

3. La media de los valores calculados por la regresión es igual a la media de los

valores pendientes:

β̂ˆ xy =

El vector de residuos OLS es:

( )( )[ ] MyyxxxxIe

yxxxxye

xye

=−=

−=

−=

−

−

''

''

ˆ

1

1

β

M es simétrica e idempotente. M es una matriz que produce el vector de los residuos

de Mínimos Cuadrados en la regresión de Y sobre X, cuando se premultiplica

cualquier vector Y.

εβ += xy puede ser estimado con: yxxx ')'(ˆ 1−=β

εβεβεβεββ Axxxxxxxxxxxxxx +=+=+=+= −−−− ')'(')'(')'()(')'(ˆ 1111

“ β̂ ” es una función lineal de ε.


25

Si X es no estocástico [ ] 0' =εxE

“ β̂ ” es un estimador lineal insesgado de β. ββ =ˆ

[ ] [ ] [ ])')(()'ˆ)(ˆ(ˆ εεβββββ AAEEVar =−−=

[ ][ ] [ ]12

1111

11

)'()'(')'(')'('')'(

)'('')'(

−

−−−−

−−

=

==

=

xxIxxxxxxExxxExxx

xxxxxxE

σ

εεεε

εε

Sea b0=cy un estimador lineal e insesgado de β, donde c es kxn.

[ ] [ ][ ] ')'(' 120 xxxcccbVar

IcxccxEcyE−=⇔=

=⇔=+=

σ

βεβ

0

')'(

ˆ')'(

1

0

1

=

=

+=

−=

−=

−

−

DxIcx

xxxDc

bD

xxxcD

y β

[ ]0bVar

( )( )[ ][ ][ ][ ] 'ˆ

)'(')'(')'()'()'('

')'(')'(

2

12

11112

112

DDVar

xxDDxxxxxxxDxxxxDxDD

xxxDxxxD

σβ

σ

σ

σ

+=

+=

+++=

++=

−

−−−−

−−

La Var[b0] es igual a Var[ β̂ ] mas una matriz definida no negativa. Por consiguiente

Var[b0]> Var[ β̂ ].

Teorema de Gauss-Markov: En el modelo clásico de regresión lineal el estimador de

mínimos cuadrados ( β̂ ) es el estimador lineal insesgado de varianza mínima de β.

Para cualquier vector de constantes w, el estimador lineal insesgado de varianza

mínima w’β en el MCRL es w’ β̂ .

Si los represores son no estocásticos, entonces (x’x)-1x’ es una constante. Entonces

ββ =)ˆ(E es un estimador insesgado, y por Gauss-Markov, es además de mínima

varianza.

5.2 REGRESORES ESTOCÁSTICOS

Un método para obtener las propiedades estadísticas de β̂ consiste en obtener

primero los resultados deseados condicionados en X. Si podemos establecer

insesgadez condicionada en X arbitrario, podemos promediar las X para obtener un

resultado incondicionado.


26

[ ] [ ] ββεββ

εββ

=+=+=

+=−−

−

0')'(')'(ˆ')'(ˆ

11

1

xxxxExxxxE

xxx

Lo que implica que para una muestra (x’x)-1x’ ya no es aleatorio.

Usando la ley de expectativas iteradas (para obtener la esperanza incondicional):

[ ] [ ] [ ][ ] [ ] βββ

εβββ

==

+== −

x

x

EE

xExxxExEEEˆ

][')'(]ˆ[ˆ 1

Este resultado solo depende del supuesto 3 de MCRL.

La varianza condicional es:

[ ] 12 )'(ˆ −= xxxVar σβ utilizando la descomposición de varianzas, la

varianza incondicional será:

[ ] [ ] [ ]]ˆ[]ˆ[ˆ xEVarxVarEVar xx βββ +=

[ ][ ] [ ]1212 )'()'(

]ˆ[−− ==

=

xxExxE

xVarExσσ

β

lo que significa que el estimador depende de la muestra, y al final la conclusión de

Gauss-Markov no se altera. La varianza incondicionada de β̂ solo puede ser

descrita en términos del comportamiento de X (para cada muestra el estimador β̂ es

de Varianza Mínima, pero no de sabe cual es la muestra óptima.

5.3 NORMALIDAD Y LA DISTRIBUCIÓN DE β̂ Debido a que se supone que los errores se distribuyen normales, se tiene:

βε ˆxy −= beta es una función lineal del vector de perturbaciones ε.

Si ε sigue una distribución normal, se cumple:

X~ ],[ ΣµN ⇒AX+ β̂ ~ ]',ˆ[ AAAN Σ+ βµ

Entonces: xβ̂ ~ [ ]12 )'(, −xxN σβ

Donde la distribución normal de β̂ es una consecuencia del supuesto que indica que

las perturbaciones ε se distribuyen normalmente. Algunas propiedades son:

),0( 2σε N→ ),0( 22aNa σε → ),( 2σε bNb →+

[ ]12 )'(,ˆ −→ xxN σββ [ ]12 )'(,ˆ −→ jjjj xxN σββ

Cuando x es NO ESTOCÁSTICA, esa es exactamente la distribución del estimador.


27

Cuando x es ESTOCÁSTICA, de debe considerar la distribución condicional del

estimador.

Como se ha supuesto que la distribución de los residuos es normal, la densidad

conjunta queda descrita por la siguiente función de verosimilitud.

]2'[22 2222

2

21

)2(]2[);( σεεπσπσθ σ

ε

−−−−=Π=Π eexf

ni

iii aplicando logaritmos se tiene:

)()'(21)2ln(

2),,(ln 2

22 ββσ

πσσβ iiiii xyxynxL −−−−=

Para maximizar la función de verosimilitud, en este caso equivale a minimizar el

segundo término de la parte de la ecuación de la derecha, que a su vez es una

función de la suma de residuos al cuadrado.

Entonces, OLS es el estimador de Máximo Verosimilitud y es MELI.

5.4 ESTIMACIÓN DE σ2

∑= 22 1ˆ ienσ está estimado imperfectamente a sus homólogos

poblacionales.

Los residuos de los mínimos cuadrados son:

[ ] MexMMye =+== εβ con el supuesto: Mx=0

εε Mee '' = el estimador de σ2

[ ] [ ] [ ] )(][][]'['' 222 knMtrIMtrxMEtrxMExeeE −===== σσσεεεε

Puesto que:

[ ] [ ]( ) [ ] knItrItrxxxtrItrxxxItrMtr

xMtrExMtrE

knnn −=−=−=−=

=−− )()(')'()(')'()(

)'(]'[11

εεεε

Entonces:

∑−=

−= 22 1'

ieknknee

σ

12 )'(ˆ]ˆ[ −= xxVarE σβ estimador muestral de la varianza muestral del

estimador β̂ .

5.5 CONTRASTE DE HIPÓTESIS

β

β

ˆ

ˆ

St = el contraste para un parámetro kβ


28

5.6 INTERVALO DE CONFIANZA

Prob ( ) λσβσ λλ −=+− 1ˆ,,ˆ 22 tbtb kk con (n-k) g.l.

5.7 CONTASTE DE SIGNIFICATIVIDAD DE LA REGRESIÓN

Si todos los β̂ son cero, el coeficiente de correlación múltiple también lo será:

))(1()1(],1[ 2

2

knRkRknkF

−−−

=−− donde 020 == βH

Si F es alto, la hipótesis se rechaza.

6. BONDAD DE AJUSTE El objetivo del análisis de regresión es dar cuenta (explicar) de las variaciones de y.

Es decir, la variación total de y:∑ −i i yy 2)( .

Sea ⎥⎦

⎤⎢⎣

⎡ −= '10 ii

nIM , entonces la suma de cuadrados totales se puede escribir como:

yMy 0' . Así

εεββεεββ 'ˆ''ˆ'ˆ''ˆ' 00000 +=+= xMxMMxMxyMy

entonces, SCT=SCR+SCE y se define el coeficiente de ajuste como:

yMyee

SCTSCR

SCTSCER

0

2

''11 −=−==

El problema de 2R es que si añaden variables a la regresión, éste no puede

reducirse. Por ello, se necesita una medida de ajuste que penalice el exceso de

regresores. El 2R ajustado es dicha medida:

)1/()'()/()'(1

0

2

−−

−=nyMykneeR

7. ESTIMADOR DE MÁXIMA VEROSIMILITUD Consideremos que tenemos una muestra de “n” observaciones independientes de

una misma distribución que no conocemos pero que queremos descubrir, );( θixf .

Si cada dato viene de );( θixf y éstos son independientes, su distribución conjunta

(la densidad de la muestra) viene de:


29

);()...;();( 21 θθθ nxfxfxfL =

Esta es la función de verosimilitud que mide la probabilidad que los datos que

disponemos vengan de una misma distribución );( θixf .

Propuesta base: ¿Por qué no buscamos el θ que hace máxima la probabilidad que

los datos vengan de );( θixf ?

Ejemplo elemental. Supongamos que los datos son tomados independientemente y

corresponden a “robos de bicicletas en la Universidad”. La muestra es :

{5,0,1,1,0,3,2,3,4,1}. Supongamos que creemos que la distribución que mejor

representa los datos es la Poisson. Entonces:

!);(

i

x

i xexf

iθθ

θ−

=

Así la función de verosimilitud es:

360.207!);,...,,(

201010

11021

θθθ

θθ −

=

−

==∏e

xexxxf

i i

xi

Podemos optimizar la función, pero resulta más fácil optimizar el logaritmo de la

función de verosimilitud. Entonces,

360.207loglog2010);,...,,(log 1021 −+−= θθθxxxf

Buscamos aquel θ que hace más probable que los datos vengan de una Poisson.

Lo que se resuelve de manera elemental mediante cálculo para obtener 2ˆ =θ . Se

debe comprobar que la segunda derivada sea negativa para asegurar que θ̂ es un

máximo.

Ese es el estimador de máxima verosimilitud y es óptimo. Es insesgado, de varianza

mínima, asintóticamente normal e invariante.

Si la distribución que utilizamos es multivariada, θ̂ será un vector.

7.1 LÍMITE CRAMER-RAO Suponiendo que la densidad satisface ciertas restricciones, la varianza de un

estimador lineal insesgado de un parámetro θ es siempre o igual a:

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛

⎥⎥⎦

⎤

⎢⎢⎣

⎡⎟⎠

⎞⎜⎝

⎛∂

∂−=⎟

⎟⎠

⎞⎜⎜⎝

⎛⎥⎦

⎤⎢⎣

⎡

∂∂

−=

−

−21

2

21 )(ln)(ln)]([

θθ

θθ

θLELEI

El límite Cramer-Rao en el ejemplo de la poisson sería:


30

222

2 )(lnθθ

θθθ nxL i −

=Σ

=∂

∂

La utilidad de Cramer-Rao es que so algún estimador insesgado lineal alcanza dicho

límite, entonces éste será óptimo.

7.2 ESTIMACIÓN EFICIENTE (Máximo Verosímil) Hemos estudiado la función de verosimilitud. Ahora, la usaremos para derivar un

estimador crucial y, además, para entender lo que hace cada tipo de test.


31

EJERCICIOS ADICIONALES 1. Suponga que tiene una muestra con 150 datos, que provienen de una normal con

media y varianza desconocidos. Suponga que un cuarto de los datos es menor que

5 y tres cuartos de ellos son menores a 10. Obtenga una expresión para estimar µ y 2σ .

150=n ~ N(µ , 2σ )

P(x<5)=0,25 25,05=⎟

⎠

⎞⎜⎝

⎛ −<

σµzP

P(x<10)=0,75 75,010=⎟⎠

⎞⎜⎝

⎛ −<

σµzP

iz=−σµ5 (valor inferior) sz=

−σµ10 (valor superior)

σµ iz−= 5 (1) σµ sz−=10 (2)

Igualando (1) y (2):

σσ si zz −=− 105

5)( =− is zzσ

is zz −=

5σ y el segundo resultado es:

is

i

is

s

zzz

zzz

−−=

−−=

55510µ

2. Suponga que tiene 2 parámetros insesgados, estimados independientemente

),( 21 φφ con sus respectivas varianzas ),( 21 ηη ¿Qué combinación lineal de ambos

parámetros ),( 21 φφθ F= es un estimador insesgado de varianza mínima de θ ?

2111ˆ)1(ˆ φφ aaS −+= la ecuación que identifica la combinación lineal

))1(,cov(2)1()( 21122

1121 φφηη aa aaaaaSV −+−+=

22

1121 )1()( ηη aaSV −+=

Varianza mínima:

1

)(aSV

∂∂ 0)1)(1(22 2111 =−−+= ηη aa

0)1( 22

1121 =−− ηη aa

11

2 )(aaSV∂∂

∂ 021 =+= ηη que es positiva, entonces es un mínimo.


32

Despejando a1:

021211 =+− ηηη aa

21

21 ηη

η+

=a

Por lo tanto la respuesta es:

221

11

21

2 ˆˆ φηη

ηφ

ηηη

++

+=S

3. Sea una muestra de n observaciones de {y} con distribución xexf θθ −=)( .

Encuentre el estimador de Máximo Verosimilitud. Demuestre que éste es un máximo.

Obtenga la varianza.

La ecuación de densidad conjunta será:

⋅⋅⋅⋅⋅= −−− 321 xxx eeeL θθθ θθθ ixeL Σ−= θθ

Aplicando logaritmos a la ecuación de verosimilitud:

∑−= ixnL θθlnln

Maximizando:

0ln=−=

∂∂

∑ ixnLθθ

∑

=ix

nθ el estimador MV.

2

2 lnθθθnL

−=∂∂

∂ negativo, es máximo.

La varianza (asintótica) aplicando Cramer-Rao:

2

2

)(lnθ

θθθ

nILE ==⎥⎦

⎤⎢⎣

⎡

∂∂∂−

4. Encuentre el estimador de la varianza de los residuos y demuestre que se

distribuye como 2χ .

La primera parte la pueden hacer…

La chi-cuadrado:

εεσ Mkn 'ˆ)( 2 =−


33

σε

σε

σσ Mkn 'ˆ)( 2

2

=− donde ),0( 2σσε N→ (luego N(0,1), es obvio

verdad?)

Entonces: )(ˆ)( 2

2

2

knkn −→− χσσ

REPASO DE MATRICES - … · Apuntes de Econometría EMI – Ingeniería Comercial 1 REPASO DE...

Documents

Transcript of REPASO DE MATRICES - … · Apuntes de Econometría EMI – Ingeniería Comercial 1 REPASO DE...