Download - A4-Connectivity Project - Huanuco

Huánuco – Enero de 2013

Año de la Inversión para el Desarrollo

Rural y la Seguridad Alimentaria

Desarrollo Econométrico

[Regresión Multivariable, Gompertz]

INSTALACIÓN, AMPLIACIÓN Y MEJORAMIENTO

DE LOS SERVICIOS DE INTERNET DE ALTA

CAPACIDAD EN LAS CAPITALES DE DISTRITO Y

LOCALIDADES ADYACENTES DE LA

REGIÓN HUÁNUCO

TEMAS ABARCADOS:

Anexo IV

[Detalle Metodológico del Proyecto]

“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria”

DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO

DIRECCIÓN DE TELECOMUNICACIONES Página 2




Desarrollo Econométrico del Proyecto

Durante el desarrollo del estudio de campo del proyecto, se hizo necesario contar con un análisis

sistémico de pronóstico de oferta y demanda futura de los servicios públicos de

telecomunicaciones, las cuales desde el punto de vista metodológico se han clasificado en tres

categorías [5]:

• Modelos Cualitativos

• Modelos de Series de Tiempo

• Modelos Causales

Técnicas de Pronóstico

Modelos Cualitativos

Modelos de Series de Tiempo

Modelos Causales

Método de

Entrevista Delphi

Consultas a

Proveedores

Método de

Encuestas

Promedio Móvil

Suavizamiento

Exponencial

Proyección de

Tendencias

Regresión

Simple

Regresión

Múltiple

Figura A-IV.1: Modelos de pronósticos utilizados para el análisis de la

oferta y demanda futura de servicios de Telecomunicaciones.

A continuación, una breve explicación de las técnicas más representativas del modelo

cualitativo:

1) Método de Entrevista Delphi : Este proceso de grupo iterativo permite realizar

pronósticos a los expertos, quienes se encuentran ubicados en diferentes lugares




dentro de la estructura organizacional de las Municipalidades Provinciales, Distritales

y Locales. Hay tres tipos diferentes de participantes en el proceso Delphi: quienes

toman las decisiones del pronóstico, el equipo de analistas de campo y quienes

responden las entrevistas. El grupo que toma las decisiones generalmente de un

grupo reducido de expertos que llevan a cabo el pronóstico. El personal de equipo de

analistas de campo, ayuda a quienes toman las decisiones mediante la preparación,

distribución, recolección y resumen de una serie de cuestionarios y resultados de

entrevistas. Quienes responden son un grupo de personas cuyo juicio se valora y se

solicita. Este grupo proporciona aportes a quienes toman las decisiones del modelado

del pronóstico. Para nuestro estudio de campo se utilizó esta técnica para recabar

información de las autoridades Municipales a través de Entrevistas, quienes

definieron las matrices FODA para cada distrito, conjuntamente con su apreciación

respecto a los alcances del proyecto.

2) Consultas a Proveedores : De acuerdo con ese enfoque, cada empresa proveedora

de servicios de Telecomunicaciones estima cuál será el nivel de ventas en su zona de

operaciones, así como las tecnologías emergentes de mayor aceptación en el

mercado; estos pronósticos se revisan para asegurarse de que son realistas y

entonces se combinan a nivel distrital, regional y nacional para llegar a un pronóstico

general. En nuestro caso, se utilizó este enfoque con la finalidad de recabar las

tendencias tecnológicas en lo que respecta a la red de acceso inalámbrico con

tecnología 4G-LTE y su evolución futura a la integración de las Redes de Nueva

Generación NGN. Entre los principales proveedores consultados figuran:

a. Huawei Technologies

b. ZTE Corporation

c. Cisco Systems

3) Método de Encuestas : Cuando se aplica este método, se solicitan aportaciones de

los consumidores actuales o potenciales con relación a sus planes futuros de compra.

Esta técnica no sólo puede ayudar a preparar un pronóstico sino también a mejorar el

diseño del producto o servicio y a planear nuevos. Para el presente estudio de campo,

se desarrollaron encuestas de campo tanto socio económicos, como de servicios de

telecomunicaciones.




Modelos de Pronósticos de Series de Tiempo : Tratan de pronosticar el futuro

mediante el empleo de datos históricos. Suponen que lo que sucederá en el futuro es una

función de lo que ha sucedido en el pasado. En otras palabras, los modelos de series de

tiempo observan lo que ha sucedido durante un periodo y utilizan una serie de datos

pasados para realizar el pronóstico. En consecuencia, si tratamos de pronosticar la

demanda del servicio de consultoría TIC para el desarrollo de Micro Controladores en las

PYMES, utilizamos la información de tendencia de la demanda de las semanas

anteriores para realizar el pronóstico.

1) Promedio Móvil : Los promedios móviles son útiles si se puede suponer que las

demandas del mercado mantendrán una cierta estabilidad a lo largo del tiempo. Este

procedimiento tiende a ponderar las irregularidades en el corto plazo de las series de

tiempo.

Un pronóstico de promedio móvil para el periodo n, el cual sirve como una estimación

de la demanda del siguiente periodo, se expresa de la siguiente manera:

Pronósticodepromediomóvil � ��ó��

Ecuación A-IV.1: Pronóstico de Promedio Móvil.

Lo cual equivale a escribir matemáticamente lo siguiente:

F! � "!#$ % "!#& %⋅⋅⋅ %"!#(�

Ecuación A-IV.2: Cálculo del Promedio Móvil.

Dónde:

Ft = Pronóstico para el periodo t.

Yt = Valor real en el período t.

n = número de periodos para promediar.




2) Suavizado Exponencial : Es un método de pronóstico fácil de utilizar y que se

maneja eficientemente mediante el uso de aplicaciones ofimáticas orientadas hacia

temas de econometría, tales como Excel, SPSS, Matlab, entre otros. Existen varias

variantes referido a las fórmulas de suavizado exponencial utilizado en el análisis de

regresión, entre las más utilizadas se destacan:

Tipo de

Pronóstico de

Series de

Tiempo

Característica Aplicaciones Típicas en

el Estudio de Campo

Regresión Lineal Si la relación entre las dos

variables está determinada por

una recta de la forma:

y=mx+b=b0+b1*X.

Pronóstico de PBI,

usuarios de telefonía fija,

telefonía pública, etc.

Regresión

Exponencial

Semi/Logarítmica

Si la relación entre las dos


una expresión de la forma:

" � )*+ ó

" � )�,-.

Pronóstico de crecimiento

poblacional, Índice de

Penetración de Servicios,

etc.

Regresión

Exponencial

Gompertz

Si la relación entre las dos


una expresión de la forma:

"! � �./#01234.

Pronóstico de servicios

públicos telefonía móvil,

internet, etc.

Cuadro A-IV.1: Detalle de Variantes de Pronóstico utilizadas en el

Suavizado Exponencial.

3) Proyección de Tendencias : Esta técnica ajusta una línea de tendencia a una serie

de puntos de datos históricos y entonces proyecta la línea hacia el futuro para

pronósticos de mediano y largo plazo. Existen varias ecuaciones matemáticas de

tendencias que pueden desarrollarse por ejemplo la aproximación lineal, exponencial,

cuadrática, etc. En nuestro caso de estudio se ha utilizado una línea de tendencia




lineal, en el cual la variable independiente (X) es el período considerado. El modelo

se describe a continuación:

Y6 � b8 % b$*

Ecuación A-IV.3: Cálculo de la Proyección de Tendencia.

Dónde:

Y6 = Valor pronosticado.

b8 �Ordenada al origen.

b$ �Pendiente de la línea.

X � Período (X=1, 2, 3,…, n).

Usualmente se aplica el método de mínimos cuadrados, para encontrar la línea que

minimiza la suma de los errores cuadrados. Este enfoque produce una línea recta que

minimiza la suma de los cuadrados de las distancias verticales desde la línea hasta

cualquiera de las observaciones reales a pronosticar. El método de mínimos

cuadrados es una técnica de análisis de regresión que no debe entenderse como un

procedimiento para establecer una relación de causa y efecto entre las variables. Este

procedimiento solo indica cómo o en qué medida las variables están relacionadas una

con otra. Para efectuar conclusiones acerca de una relación de causa y efecto, el

especialista debe basarse técnicas de pruebas de significancia tales como Prueba t,

Prueba F, Intervalo de confianza, entre otros.

Modelos de Pronósticos Causales : Incorporan las variables o factores que podrían

influir en la cantidad pronosticada por el modelo. En nuestro caso de estudio, la oferta-

demanda de los servicios públicos de Telecomunicaciones en los Distritos y Localidades

adyacentes, depende de la infraestructura existente, tipo de tecnología (2G, 3G, 4G, 5G),

estación del año, de los proyectos financiados por el MTC-FITEL, número de convenios

suscritos con las instituciones académicas entre otras. De esta forma, un modelo causal

intentaría incluir factores que consideren estos parámetros. Este tipo de modelos también

podría incluir datos de oferta-demanda anteriores como las de series de tiempo, pero

también incluyen otros factores. La función del analista consiste en desarrollar la mejor




relación estadística entre la oferta-demanda o la variable que se desea pronosticar y el

grupo de variables independientes. El modelo causal cuantitativo más común es el

análisis de regresión simple.

1) Regresión Simple : El análisis de regresión lineal simple (RLS) permite estudiar una

relación estocástica entre dos variables X e Y, donde los valores posibles de Y se

pueden asociar con cualquier valor de X. A continuación se detalla el modelo

poblacional de la regresión lineal simple:

": � ;8 % ;$*: % <: Ecuación A-IV.4: Modelo de Regresión Lineal Simple.

Dónde:

β8, β$: Coeficientes de regresión a estimarse; β8 es denominado intercepto y β$es

denominado pendiente.

": : Variable respuesta, explicada, variable pronosticada para la i-ésima

observación.

*:: Variable independiente, explicativa, predictora, regresora, etc.

<:: Variable aleatoria no observable que puede tomar cualquier valor, se le conoce

como variable perturbadora o error estadístico. Esta variable representa a las

demás variables no consideradas en el modelo, a los errores de muestreo y

cualquier otro aspecto no especificado en el modelo.

El supuesto es que la variable aleatoria Y está formada por una parte predecible la

cual es función lineal de X y una parte no predecible que es el error aleatorio, este

error aleatorio (<:) incluye efectos de todos los otros factores no considerados en

el modelo. Asimismo se debe tener en cuenta que la variable explicativa X debe

ser considerada como fija, es decir, X es una variable matemática medida sin

error.

A continuación se listan los supuestos asumidos en el modelo de regresión lineal

simple:




Supuesto N° 1: En promedio el valor esperado de los errores <: es Cero (0), es

decir, hay errores por exceso y por defecto que en promedio se anulan.

@A<:|*:C � 0

Ecuación A-IV.5: Valor Esperado de los Errores <�.

Supuesto N° 2: El error en la i-ésima observación no depende del error cometido

en la j-ésima observación, cuando esta suposición no es satisfecha se tiene un

problema de autocorrelación.

EFGHIJHKLH MEFGN<�,<OP � QR.<� S @.<�44N<O S @.<O4PTQN<�<OP � U, J V W

Ecuación A-IV.6: Covarianza.

Esto quiere decir que <: y <Xno están correlacionados. También se conoce como

la independencia de las observaciones.

Supuesto N° 3: La varianza de los errores para cada, es un número constante;

representa el supuesto de homo cedasticidad o igual dispersión, es decir, que las

poblaciones tienen igual varianza. Esto es:

Y.<�|*�4 � @Z<� S @.<�4[& � @Z<�[& � \&

Ecuación A-IV.7: Varianza de los errores <� para cada *�.

En situaciones prácticas, lo que está al alcance del investigador de campo es una

muestra de valores de Y correspondiente a las X’s fijos, por consiguiente la tarea

es la estimación de los parámetros ;8] y ;$] utilizando la información de la muestra

recopilada.

El modelo de regresión lineal de la muestra se describe a continuación:




"̂6 � ;8] %;$]*: % �: Ecuación A-IV.8: Modelo de Regresión de Muestra Estimada.

Dónde:

β8]: Término constante, es la ordenada en el origen o intercepto y se interpreta

como el valor estimado o predicho de Y cuando X es 0.

β$]: Pendiente, es el cambio pronosticado en Y cuando hay un cambio unitario en

X.

�:: Término Residual.

"̂6 : Variable respuesta, variable de la i-ésima muestra de campo.


Para la estimación de los parámetros de regresión ;8] y ;$] se emplea el método de los

mínimos cuadrados ordinarios (MCO), que consiste en minimizar las sumas de los

cuadrados residuales.

Se sabe que:

": � "̂6 % �: ⇒ �: � ": S "̂6

Ecuación A-IV.9: Error Residual de la Regresión de Muestra Estimada.

Esto requiere decir que el error de la muestra es la diferencia entre el valor observado y

el valor estimado. Con el método de mínimos cuadrados ordinarios se desea minimizar la

siguiente expresión:

` �a�:&(:b$

� aN": S ;8]S ;$]*:P&(:b$

Ecuación A-IV.10: Error Cuadrático Medio.




Derivando la expresión respecto a ;8] y ;$] se obtiene:

c`c;8] � S2aN": S ;8] S ;$]*:P(:b$c`c;$] � S2aN*:": S *:;8]S ;$]*:&P

(:b$

Ecuación A-IV.11: Primeras Derivadas Parciales de Q respecto a ;8] y ;$] .

Igualando a cero las expresiones de la ecuación anterior, y luego lo ordenamos para

obtener las siguientes ecuaciones normales:

a":(:b$

� �;8]% ;$]a.*:4(:b$

a*:":(:b$

� ;8]a.*:4(:b$

% ;$]aN*:&P(:b$

Ecuación A-IV.12: Ecuaciones Normales.

Al despejar los valores de ;8] y ;$] de las expresiones de la ecuación anterior se tiene:

;$] � �∑ .*:":4(:b$ S∑ .*:4(:b$ ∑ .":4(:b$�∑ N*:&P(:b$ S N∑ .*:4(:b$ P& ;8] �fg S ;$]h̅

Ecuación A-IV.13Valores de ;8] y ;$].

Para verificar si los valores hallados son mínimos, se obtiene la segunda derivada:

c&`c&;8] � 2� j 0c&`c&;$] � 2aN*:&P j 0(

:b$

Ecuación A-IV.14: Segundas Derivadas Parciales de Q respecto a ;8] y ;$] .

Como los valores son siempre positivos, entonces los valores de los estimadores

hallados son mínimos. De acuerdo con el teorema de Gauss-Markov [27, 28], se puede

concluir que los estimadores mínimos cuadrados hallados son óptimos o de mínima




varianza dentro de la clase de estimadores insesgados que son funciones lineales de las

observaciones.

A continuación se detallan las ecuaciones matemáticas más útiles respecto a los

parámetros econométricos relevantes para el cálculo de la verificación del modelo de

regresión lineal simple:

YN;8]P � \k&� % h̅& l \k&∑ .h: S h̅4&(:b$ m n��o. @��á��N;8]P � rYN;8]PYN;$]P � \k&∑ .h: S h̅4&(:b$ n��o. @��á��N;$]P � rYN;$]P

n��:\k& � �k& � ∑ .�:4&(:b$� S 2 � ∑ N": S "̂6P&(:b$� S 2 � ∑ ":& S ;8]∑ ":(:b$ S ;$]∑ *:":(:b$(:b$ � S 2

Ecuación A-IV.15: Cálculo de la Varianza y la Desviación Estándar de los

Estimadores ;8] y ;$] .

Los intervalos de confianza para los parámetros ;8] y ;$] vienen dados por las siguientes

expresiones basadas en la función de distribución de T Student:

;8 ∈ ⟨;8] ∓ �.$#v/&,(#&4�.;8]4⟩;$ ∈ ⟨;$]∓ �.$#v/&,(#&4�.;$]4⟩ Ecuación A-IV.16: Cálculo del Intervalo de confianza para el Término Constante ;8 y

la Pendiente ;$

Con la finalidad de saber que tan bien predice la variable estímulo a la variable respuesta,

es importante analizar la variación de la variable Y. La variación total de los valores

observados de Y alrededor de su media puede ser dividida en dos: una atribuible al

modelo de regresión (variación explicable) y la otra a factores aleatorios (variación no

explicable), tal como se muestra en la siguiente expresión:

∑ .": S "g4&(:b$ ⇓Y��ó�z��{.�|z4=

∑ N"̂6 S "gP&(:b$ ⇓Y��ó�@h�{��.�|}4+

∑ N": S "~P&(:b$ ⇓Y��ó��@h�{��.�|@4




Ecuación A-IV.17: Variación Total de los Valores Observados de Y alrededor de su

Media.

Dónde:

�|z � ∑ .": S "g4&(:b$ : Suma de Cuadrados Total (SCT). Expresa las desviaciones

de las observaciones respecto al promedio total. Si SCT tiende al valor cero, se

concluye que no existe variabilidad en la variable respuesta.

�|} � ∑ N"̂6 S "gP&(:b$ : Suma de Cuadrados de la Regresión (SCR). Expresa las

desviaciones de los valores ajustados respecto al promedio de los valores de Y. Si

el valor de SCR se aproxima al valor de SCT, se concluye que le modelo

propuesto es adecuado.

�|@ � ∑ N": S "~P&(:b$ : Suma de Cuadrados del Error (SCE). Expresa las

desviaciones de los valores observados respecto a los valores ajustados. Si SCE

tiende a cero, entonces todas las observaciones caen en la línea de regresión, por

consiguiente el modelo es adecuado.

Usualmente esta partición se representa en una tabla llamada Tabla de Análisis de

Varianza, conocida también como Anova ó Anva, la cual se muestra a continuación:

Fuente de

Variación

Grados

de

Libertad

Suma de Cuadrados Cuadrado Medio �U

Debido a la

Regresión

1 �|} � aN"̂6 S "gP&(:b$

|�} � �|}1

�8 � |�}|�@

Debido al Error n-2 �|@ � aN": S "~P&(:b$

|�@ � �|@� S 2 � �k&




Total n-1 �|z � a.": S "g4&(:b$

Cuadro A-IV.2: Tabla de Análisis de Varianza (Anova) para el

Modelo de Regresión Simple.

Para verificar la validez estadística del modelo de regresión lineal simple propuesto, se utiliza

lo siguiente:

a) Coeficiente de determinación: }&.

b) Coeficiente de Correlación Lineal Simple: r.

c) Pruebas de Significación: Pruebas T y F.

a) Coeficiente de Determinación ( �� E��E�): Indica en qué porcentaje la variable estímulo

explica a la variable respuesta. Este coeficiente expresa la relación entre dos tipos de

variación:

• V1=Variación de los valores de Y alrededor de la línea de regresión.

• V2=Variación de los valores de Y alrededor de su propia media.

Por consiguiente }& expresado en porcentaje, mide la variación total en Y explicada

por el modelo de regresión. Por ser }&cociente entre dos sumas de cuadrados, luego

de multiplicarlo por 100 %, el mínimo valor que puede tomar es 0 y el máximo valor

que puede tomar es 100%.

}& 1 100% � �|}�|z 1 100% � Y1Y2 1 100%

Ecuación A-IV.18: Coeficiente de Determinación }&.

b) Coeficiente de Correlación Lineal Simple: (r): Es una medida que indica el grado de

asociación lineal entre dos variables; se obtiene de la siguiente expresión:




� � ∑ *:":(:b$ S .∑ *:(:b$ 4.∑ ":(:b$ 4��∑ *:&(:b$ S N∑ *:(:b$ P&� �∑ ":&(:b$ S N∑ ":(:b$ P&�

Ecuación A-IV.19: Coeficiente de Correlación Lineal Simple �.

En el caso de la regresión lineal simple, se cumple que � � �√}&. En un modelo de

regresión lineal simple, el signo del coeficiente de correlación corresponde al signo de la

pendiente ;$]. El rango de r es: S1 � � � 1.

Si el coeficiente de correlación es positivo y tiende a 1, se dice que hay una relación

directa y significativa entre las variables, si el coeficiente de correlación es negativo y

tiende a -1, se dice que hay una relación inversa y significativa entre las variables, si el

coeficiente es cero no existe relación entre las variables.

c) Pruebas de Significación de las Variables (Prueb as T y F):

i. Prueba T : Las pruebas individuales o pruebas T son independientes para cada

parámetro del modelo de regresión lineal simple. El procedimiento se detalla a

continuación:

i. Hipótesis:

�8: ;: � 0 (la variable Xi no es significativa en el modelo)

�$: ;: V 0 (la variable Xi si es significativa en el modelo)

ii. Especificación del nivel de significación o riesgo:

� y suposiciones

iii. Obtención de la estadística de prueba:

�8 � ;6̂ S ;:�N;6̂ P � ;6̂�N;6̂ P Tal que Ho es verdadera, donde:




β6̂ : Estimador.

�Nβ6̂ P: Error estándar del estimador.

iv. Región crítica (RC) y regla de decisión (RD)

}| � ⟨S∞, ��∝&,(#&�⟩ ∪ ⟨��$#∝&,(#&�,∞⟩ Rechazar Ho si �8 ⊂ }|, es decir, si se cumple:

�8 � ��∝&,(#&�ó �8 j ��$#∝&,(#&� También se puede calcular y utilizar el P_value definido como:

�_o�{�� 2 1 �N�.(#&4 j �8P. v. Si �8, valor de la estadística de prueba, pertenece a la región crítica, se

rechaza la hipótesis nula; en caso contrario no se rechaza (�8).

ii. Prueba F : Esta prueba nos permite determinar si el modelo lineal es apropiado o

aceptable para explicar la relación entre las variables de estudio. El procedimiento

se detalla a continuación:

i. Hipótesis por probar:

�8: ;: � 0 (el modelo no es apropiado)

�$: ;: V 0 (el modelo si es apropiado)


� y suposiciones


�8 � |�}|�@ ∼ �.$,(#&4 Tal que Ho es verdadera.





}| � ⟨�.$#v,$,(#&4,∞⟩.��|�{��{�n��4 ��2í!:�� .$#v,$,(#&4

También se puede calcular y utilizar el P_value definido como:

�_o�{�� N�.$,(#&4 j �8P. v. Si �8 j ��2í!:�� se rechaza la hipótesis nula (�8); en caso contrario no se

rechaza (�8). Si �_o�{�� ∝, entonces se rechaza la hipótesis nula (�8).

2) Regresión Múltiple (Variante Lineal) : En este modelo de análisis de regresión lineal

múltiple (RLM), la variable dependiente se encuentra relacionada en forma lineal con

dos o más variables regresoras o independientes. El modelo de RLM con k variables

regresoras se puede representar de la siguiente manera:

": � ;8 % ;$*:$ % ;&*:& %⋯% ; *: % <:� � 1,2,… , �

Ecuación A-IV.20: Modelo de Regresión Poblacional Lineal Múltiple.

Dónde:

β8: Intercepto.

β$, … , β : Coeficientes de regresión.

n: Tamaño de la muestra.


<:: Variable aleatoria no observable que puede tomar cualquier valor, se le conoce

como variable perturbadora o error estadístico. Esta variable representa a las

demás variables no consideradas en el modelo, a los errores de muestreo y

cualquier otro aspecto no especificado en el modelo.

La función de regresión población se debe interpretar como la media o valor

esperado de Y condicionado a los valores fijos de X. Como se considera una




muestra de n observaciones, donde cada observación considera a las k variables

regresoras, se obtiene entonces un conjunto de ecuaciones lineales, como a

continuación se detalla:

"$ � ;8 % ;$*$$ % ;&*$& %⋯% ; *$ % <$"& � ;8 % ;$*&$ % ;&*&& %⋯% ; *& % <&"( � ;8 % ;$*($ % ;&*(& %⋯% ; *( % <(

Ecuación A-IV.21: Conjunto de Ecuaciones Lineales del

Modelo de Regresión Lineal Múltiple.

En forma abreviada se tiene:

": � ;8 %a;X*:X

Xb$% <:

nó��:� � 1,2,… , �

Ecuación A-IV.22: Modelo Abreviado de

Regresión Poblacional Lineal Múltiple.

Este sistema de ecuaciones se puede expresar usando un sistema de ecuaciones

matriciales, dónde:

Y: Vector columna de observaciones de la variable respuesta de orden (nx1).

X: Matriz � 1 .¢ % 14 de las variables explicativas.

;: Vector .¢ % 14 1 1de parámetros desconocidos.

<: Vector columna de variables de perturbación de orden � 1 1.

En forma abreviada se tiene:

Yn11�Xn1.k%14β.k%1411%Un11 Ecuación A-IV.23: Modelo Abreviado Matricial de

Regresión Lineal Múltiple.




A continuación se listan los supuestos asumidos en el modelo de regresión lineal

múltiple (RLM):

Supuesto N° 1: En promedio el valor esperado de los errores <es Cero (0), es

decir, hay errores por exceso y por defecto que en promedio se anulan.

@.<:4 � 0

Ecuación A-IV.24: Valor Esperado de los Errores <�. Supuesto N° 2: Los errores <$, <&, … , <( son independientes y tienen varianza

constante.

¥HI.¦4 � Q.¦¦§4 � ¨�© Ecuación A-IV.25: Matriz de Varianza - Covarianza.

Supuesto N° 3: La matriz *(1. ª$4 es no estocástica, lo cual implica que está

formada por números fijos.

Supuesto N° 4: La matriz * tiene un rango igual al número de columnas de la

matriz, en este caso es ¢ % 1. Esto significa que tiene ¢ % 1 columnas linealmente

independientes; es decir, que no existe una relación lineal exacta entre las

variables X.

La variabilidad de los valores observados de Y alrededor de su media, puede ser

atribuida a dos causas: una atribuible al modelo de regresión (variación explicable) y la

otra a factores aleatorios (variación no explicable), tal como se muestra en la siguiente

expresión:

a.": S "g4&(:b$

�⇓

aN"̂6 S "gP&(:b$ ⇓

% aN": S "~P&(:b$ ⇓Y��{��{��{��

Y��{��{��Y��{��{��«��ó�




Ecuación A-IV.26: Detalle de Variabilidad de Y alrededor de su Media.

Dónde:

�|z � ∑ .": S "g4&(:b$ : Suma de Cuadrados Total (SCT). Expresa las desviaciones

de las observaciones respecto al promedio total. Si SCT tiende al valor cero, se

concluye que no existe variabilidad en la variable respuesta.

�|} � ∑ N"̂6 S "gP&(:b$ : Suma de Cuadrados de la Regresión (SCR). Expresa las

desviaciones de los valores ajustados respecto al promedio de los valores de Y. Si

el valor de SCR se aproxima al valor de SCT, se concluye que le modelo

propuesto es adecuado.

�|@ � ∑ N": S "~P&(:b$ : Suma de Cuadrados del Error (SCE). Expresa las

desviaciones de los valores observados respecto a los valores ajustados. Si SCE

tiende a cero, entonces todas las observaciones caen en la línea de regresión, por

consiguiente el modelo es adecuado.

Usualmente esta partición se representa en una tabla llamada Tabla de Análisis

de Varianza, conocida también como Anova ó Anva, la cual se muestra a

continuación:

Fuente de

Variación

Grados

de

Libertad

Suma de

Cuadrados

Cuadrado Medio

�U

P_Value

Debido a la

Regresión

K �|} � aN"̂6 S "gP&(:b$

|�} � �|}¢

�8� |�}|�@

�.� j �84

Debido al

Error

n-k-1 �|@ � aN": S "~P&(:b$

|�@ � �|@� S ¢ S 1 � �k&




Fuente de

Variación

Grados

de

Libertad

Suma de

Cuadrados

Cuadrado Medio

�U

P_Value

Total n-1 �|z � a.": S "g4&(:b$

Cuadro A-IV.3: Tabla de Análisis de Varianza (Anova) para el

Modelo de Regresión Múltiple.

Para obtener los estimados del modelo de regresión lineal múltiple, la información

disponible al investigador del estudio de campo, es una muestra de valores de Y

correspondiente a X’s fijos, por consiguiente la tarea es la estimación de los

parámetros basándose en la información de la muestra.

": � ;8]% ;$]*:$ % ;&]*:& %⋯% ; ]*: % �:": � "̂6 % �:� � 1,2,… , �

Ecuación A-IV.27: Estimadores del Modelo de Regresión Lineal Múltiple.

Por consiguiente, la ecuación de regresión estimada es:

"̂6 � ;8] % ;$]*:$ % ;&]*:& %⋯% ; ]*: "̂6 � ;8]%a;¬6*:X

Xb$�: � N": S "̂6P� � 1,2,… , �" � *; % �

Ecuación A-IV.28: Detalle de los Estimadores del

Modelo de Regresión Lineal Múltiple.




Dónde:

;: Vector de estimadores del vector de parámetros (k+1)x1.

�: Vector de residuales o errores.

El objetivo es determinar los valores del vector ; de tal manera que los residuales

sean los más pequeños posibles, el método más adecuado para lograrlo es el de

mínimos cuadrados. Luego de la aplicación del método se obtiene la siguiente

expresión matricial para los estimadores:

®6 � .¯§¯4#°¯§±

Ecuación A-IV.29: Estimadores con el Método de Mínimos

Cuadrados del Modelo de Regresión Lineal Múltiple.

Dónde:

;: Vector de estimadores de mínimos cuadrados.

.¯§¯4: Matriz simétrica, para que tenga inversa su determinante debe ser diferente de

cero.

Las propiedades de los estimadores obtenidos por el método de mínimos cuadrados,

según el teorema de Gauss-Markov [27] son:

Propiedades (RLM) Detalle

Insesgamiento @N;P � ;

Varianza Mínima YN;P � \&.*§*4#$

Estimación de la

Varianza Poblacional a

partir de la Varianza de

la Muestra

�k& � ∑ �:&(:b$� S ¢ S 1 � �|@� S ¢ S 1 � |�@




Propiedades (RLM) Detalle

Intervalos de Confianza ;6̂ S ��$#v&,(# #$��N;6̂ P � ;: � ;6̂ % ��$#v&,(# #$��N;6̂ Pó;: ∈ ⟨;6̂ ∓ ��$#v&,(# #$��.;6̂ 4⟩

Cuadro A-IV.4: Tabla de Propiedades de los Estimadores del

Modelo de Regresión Múltiple.

Para verificar la validez estadística del modelo de regresión lineal múltiple propuesto, se

utiliza lo siguiente:

a) Coeficiente de determinación múltiple: }&.

b) Prueba Global o prueba del modelo de regresión lineal múltiple: Prueba F.

c) Prueba Individual o prueba de cada coeficiente ;:: Prueba T.

a) Coeficiente de Determinación Múltiple ( �� E��E�): Se define como el porcentaje de la

variación total de los valores de la variable respuesta Y, que es explicada por el conjunto

de variables *$, *&, *², … , * .

Como se sabe, 0 � }& � 1; cuando toma valores cercanos a cero (0) peor será el ajuste

del plano de regresión a los datos; cuanto más se acerque a la unidad, o al 100% en

caso de }& 1 100%, mejor será el ajuste.

}& 1 100% � �|}�|z 1 100% � ∑ N": S "̂6P&(:b$∑ .": S "g4&(:b$ 1 100%

Ecuación A-IV.30: Coeficiente de Determinación Múltiple }&.




b) Prueba de Significación del Modelo – Prueba F: La prueba de significación del modelo

sirve para determinar si el modelo de regresión lineal múltiple, con las variables

independientes utilizadas, es apropiado o no. El procedimiento de esta prueba se detalla

a continuación:

i. Las Hipótesis por probar:

�8: ;$ � ;& � ⋯ � ; � 0 (el modelo no es apropiado)

�$: ³{��;: V 0 (el modelo si es apropiado), i=1,.,k


� y suposiciones de la distribución de la variable


�8 � |�}|�@ ∼ �. ,(# #$4, ��8��o��


}| � ⟨�.$#v, ,(# #$4,∞⟩ ��2í!:�� .$#v, ,(# #$4


�_o�{�� N�. ,(# #$4 j �8P. v. Valor del estadístico empleando Anova y la regla de decisión:

Si �8 j ��2í!:�� se rechaza la hipótesis nula (�8);

Si �_o�{�� ∝, entonces se rechaza la hipótesis nula (�8).

c) Prueba Individual de las Variables - Prueba T:




La prueba individual conocida también como la prueba de significación de las

variables, tiene el siguiente procedimiento:

i. Hipótesis:

�8: ;: � 0 (la variable Xi no influye en el modelo)

�$: ;: V 0 (la variable Xi si influye en el modelo)


� y suposiciones de la distribución de la variable.


�8 � ;6̂ S ;:�N;6̂ P ∽ �.(# #$4 Tal que Ho es verdadera, donde:

β6̂ : Estimador.

�Nβ6̂ P: Error estándar del estimador.

iv. Región crítica (RC):

}| � ⟨S∞, ��∝&,(# #$�⟩ ∪ ⟨��$#∝&,(# #$�,∞⟩ v. Regla de Decisión (RD): Rechazar Ho si �8 ⊂ }|, es decir, si se cumple:

�8 � ��∝&,(# #$�ó �8 j ��$#∝&,(# #$�


�_o�{�� 2 1 �N�.(# #$4 j �8P. En resumen, en este anexo se ha desarrollado a detalle las ecuaciones matemáticas de los

métodos econométricos más relevantes utilizados en el estudio de campo.