13c. Tarea 3_Regresiones_Claudia Suárez

17
Lima, Marzo de 2015 Claudia Suárez G. Curso: Métodos Cuantitativos Profesor Paúl Castillo B. ENDES A APLICACIÓN DE REGRESIONES MÚLTIPLE Tarea 3 MAESTRÍA EN FINANZAS

description

Tarea de Métodos Cuantitativos

Transcript of 13c. Tarea 3_Regresiones_Claudia Suárez

Aplicacin de Regresiones Mltiple

Claudia Surez G.

Curso: Mtodos Cuantitativos Profesor Pal Castillo B.

Tarea 3EndesaAplicacin de Regresiones MltipleMaestra en Finanzas

Pregunta 1: Modelo para explicar el Precio al que se han vendido las viviendas de la muestra Housing.wf1

a. Comience resumiendo la informacin muestral relativa a cada variable: valores mnimo y mximo, rango de variacin, aspecto de la distribucin de frecuencias, naturaleza de la variable (discreta/continua)

A fin de obtener la informacin solicitada por cada variable (12 en total), se ingresa a la variable y en la pestaa View se selecciona Descriptive Statistics & Tests/Histogram and Stats.

Precio:

Variable continua

Tamao en pies cuadrados:

Variable continua

Nmero de dormitorios:

Variable Discreta

Nmero de baos:

Variable Discreta

Nmero de depsitos:

Variable Discreta

Con acceso directo a avenida (1 s):

Variable Discreta

Con cuarto recreacional (1 s):

Variable Discreta

Con stano amoblado (1 s):

Variable Discreta

Con agua caliente y calefaccin (1 s):

Variable Discreta

Con aire acondicionado (1 s):

Variable Discreta

Nmero de garajes:

Variable Discreta

Localizacin en vecindario preferido de la ciudad (1 s):

Variable Discreta

b. Contine examinando el grado de relacin entre variables explicativas: Es comn la informacin que aportan cada dos de ellas? Para saberlo, si las dos variables son continuas, utilice un grfico scatter

Grfico scatter para las variables Precio y tamao de la propiedad que son las dos variables continuas.Se seleccionan las dos variables y se abren as a group. Luego en View/Graph seleccionar scatter. El resultado muestra cierta correlacin positiva entre ambas variables.

Asimismo, antes de construir el modelo, hemos creado otros grficos scatter-matrix (an cuando son con variables discretas), a fin de determinar si a primera vista, el precio se ve influenciado por dichas variables. Debajo de cada cuadro, se consigna nuestra primera impresin con las siguientes leyendas:

+Pareciera haber correlacin positiva

?No sabemos si hay correlacin

-Pareciera no haber correlacin

++?++?

-??-+-

c. Modelo

A fin de determinar el modelo, se han ido agregando las variables, una a una, con el propsito de ver cmo varan: el PValue, el R2, el R2 Ajustado y los criterios de informacin Akaike y Schwarz. A continuacin se muestra el Excel con los resultados parciales. A partir del Modelo 10 se retir la variable bedrooms debido a su elevado P Value y a partir del Modelo 12 se retir la constante por tener un P Value elevado, superior a 2.5%.

Con los resultados obtenidos, se eligi el Modelo 13 como el modelo que mejor explica la variable Precio. En dicho Modelo, los P Value son de 0% o cercanos al 0%, el R2 Ajustado es el ms alto y los criterios de informacin son ms bajos respecto de los otros 12 modelos.

Resultados de los 13 modelos

R20.2870770.3702690.3978560.428190.455390.56110.606150.61910.627960.626120.631020.671250.67123

R2 Ajustado0.2857660.367950.3945230.423960.450350.556210.601020.613430.621720.620550.624820.665110.66571

N de Modelo12345678910111213

c 34,136.19 5,612.60 -3,617.45 -1395.981423.46-6689.95-6265.01-5485.13-6447.45-2932.61-3140.47-497.34*

lotsize 6.60 6.05 5.42 5.004754.330933.850063.923173.798773.895843.943773.96963.595873.57247

bedrooms 10,567.35 10,927.11 10581.19969.015534.242522.42378.921814.1*

driveway 13,320.81 11281.99664.089803.617221.916794.336575.926151.436198.26259.626097.97

prefarea1141411534.811453.91166810737.49522.499579.339859.789431.789463.48

garagepl5528.264508.84954.445083.075020.895131.274968.554355.324372.53

bathrms18934.916313.815689.715138.515723.415488.114924.214819

stories7389.597465.428407.638970.148961.127128.87079.34

recroom8151.155598.715525.35583.164440.414474

fullbase6036.366426.396364.695846.515788.58

gashw8991.3212949.412944.5

airco12605.912639.4

Akaike22.8900322.7696122.7284822.680522.635422.423222.318622.288822.26922.270222.260722.148922.1453

Schwarz22.9057922.7932522.7622.719922.682722.478422.381722.359822.347822.341122.339522.235622.2241

*Pvalue>5%

Resultados del Modelo 13:

Dependent Variable: PRICE

Method: Least Squares

Date: 03/06/15 Time: 22:11

Sample: 1 546

Included observations: 546

VariableCoefficientStd. Errort-StatisticProb.

LOTSIZE3.5724710.32473411.001220.0000

DRIVEWAY6097.9741826.0983.3393470.0009

PREFAREA9463.4771661.2165.6967180.0000

GARAGEPL4372.531833.62345.2452120.0000

BATHRMS14818.991331.79411.127090.0000

STORIES7079.335822.34858.6086800.0000

RECROOM4474.0011892.3932.3642020.0184

FULLBASE5788.5831540.7123.7570830.0002

GASHW12944.523220.0584.0199650.0001

AIRCO12639.411545.5058.1781750.0000

R-squared0.671229Mean dependent var68121.60

Adjusted R-squared0.665709S.D. dependent var26702.67

S.E. of regression15438.93Akaike info criterion22.14532

Sum squared resid1.28E+11Schwarz criterion22.22412

Log likelihood-6035.671Hannan-Quinn criter.22.17612

Durbin-Watson stat1.600803

Pregunta 2: Modelo que explique el logaritmo del precio utilizando el logaritmo de la parcela

Dependent Variable: LOG(PRICE)

Method: Least Squares

Date: 03/06/15 Time: 22:20

Sample: 1 546

Included observations: 546

VariableCoefficientStd. Errort-StatisticProb.

C6.4685320.27674123.373960.0000

LOG(LOTSIZE)0.5421790.03265016.605730.0000

R-squared0.336383Mean dependent var11.05896

Adjusted R-squared0.335163S.D. dependent var0.371985

S.E. of regression0.303307Akaike info criterion0.455515

Sum squared resid50.04544Schwarz criterion0.471276

Log likelihood-122.3557Hannan-Quinn criter.0.461676

F-statistic275.7503Durbin-Watson stat1.085913

Prob(F-statistic)0.000000

Para la segunda parte, podra haberse aadido las dems variables en este modelo de logaritmos, pero no entran con logaritmo, ah tener en cuenta que los resultados se interpretan diferente.

Pregunta 3: Mejor Modelo en base a los criterios de informacin y de calidad de residuoa

El mejor modelo en base a los criterios de informacin es el Modelo 13 de la pregunta N1, tal como resulta de la Tabla en Excel denominada Resultados de los 13 modelos.En cuanto al mejor modelo en base a la calidad de residuo, pasamos a examinar los residuos del Modelo 13 y a verificar que cumplan con los siguientes criterios: (i) que sean normales y (ii) que no sean heterocedsticos. Dado que no estamos ante datos de series de tiempo sino de corte transversal, no vamos a analizar si se presenta el problema de autocorrelacin. (Esto de que la autocorrelacin solo se analiza en series de tiempo lo tena anotado de la prctica con Sergio, pero el profesor ha dicho que s se puede verificar si hay correlacin serial incluso en datos de corte transversal). Para ello utilizaremos los tests de residuos en Eviews.

a. Residuos

No hay residuos significativos.

b. Test de Normalidad

Cmo se corrige esto?La falta de normalidad podra obedecer a: (i) no haber usado el modelo logaritmo en las otras variables (ii) heterocedatiscidad; (iii) correlacin serial o (iv) por valores extremos. Aplicando las correcciones, debera mejorar, hay que volver a comprobar. Para eliminar valore extremos, se usan dummies.

c. Test de Heterocedasticidad

Heteroskedasticity Test: White

F-statistic6.171092Prob. F(10,535)0.0000

Obs*R-squared56.46647Prob. Chi-Square(10)0.0000

Scaled explained SS135.0265Prob. Chi-Square(10)0.0000

Test Equation:

Dependent Variable: RESID^2

Method: Least Squares

Date: 03/06/15 Time: 22:42

Sample: 1 546

Included observations: 546

VariableCoefficientStd. Errort-StatisticProb.

C8325072.637159060.1306590.8961

LOTSIZE^21.6605470.7862872.1118830.0352

DRIVEWAY^28576676.650774540.1317920.8952

PREFAREA^28081829.538569390.1500610.8808

GARAGEPL^257643848118926814.8470020.0000

BATHRMS^220640180135504391.5232110.1283

STORIES^2-65168.276048661.-0.0107740.9914

RECROOM^24936833.613141440.0805170.9359

FULLBASE^282008036510969261.6049500.1091

GASHW^22.01E+081.04E+081.9393750.0530

AIRCO^251880379501985721.0335030.3018

R-squared0.103418Mean dependent var2.34E+08

Adjusted R-squared0.086660S.D. dependent var5.22E+08

S.E. of regression4.99E+08Akaike info criterion42.91256

Sum squared resid1.33E+20Schwarz criterion42.99925

Log likelihood-11704.13Hannan-Quinn criter.42.94645

F-statistic6.171092Durbin-Watson stat1.954034

Prob(F-statistic)0.000000

En este caso, los P Value son 0 y debemos rechazar la hiptesis nula, lo que significa que debemos rechazar que hay homocedasticidad y, por lo tanto hay heterocedasticidad. Dicha heterocedasticidad puede ser explicada por la variable garajes.

Para corregir el modelo, en Estimate, en la pestaa Options modificar el Coefficient covariance matrix por White. Estos son los resultados:

Dependent Variable: PRICE

Method: Least Squares

Date: 03/06/15 Time: 22:58

Sample: 1 546

Included observations: 546

White heteroskedasticity-consistent standard errors & covariance

VariableCoefficientStd. Errort-StatisticProb.

LOTSIZE3.5724710.3641229.8111810.0000

DRIVEWAY6097.9741590.3273.8344160.0001

PREFAREA9463.4771886.9995.0150930.0000

GARAGEPL4372.531970.03764.5075890.0000

BATHRMS14818.991655.8428.9495220.0000

STORIES7079.335806.85258.7740150.0000

RECROOM4474.0012119.5212.1108550.0352

FULLBASE5788.5831737.6023.3313630.0009

GASHW12944.524305.0723.0068070.0028

AIRCO12639.411629.4587.7568210.0000

R-squared0.671229Mean dependent var68121.60

Adjusted R-squared0.665709S.D. dependent var26702.67

S.E. of regression15438.93Akaike info criterion22.14532

Sum squared resid1.28E+11Schwarz criterion22.22412

Log likelihood-6035.671Hannan-Quinn criter.22.17612

Durbin-Watson stat1.600803

Los nuevos resultados del modelo, determinan que deba excluirse la variable Cuarto Recreacional, al tener un P Value superior a 2.5%. Los nuevos resultados ajustado son:

Dependent Variable: PRICE

Method: Least Squares

Date: 03/06/15 Time: 23:04

Sample: 1 546

Included observations: 546

White heteroskedasticity-consistent standard errors & covariance

VariableCoefficientStd. Errort-StatisticProb.

LOTSIZE3.6140960.3676799.8294730.0000

DRIVEWAY6062.9381591.5983.8093390.0002

PREFAREA9670.9891871.2745.1681320.0000

GARAGEPL4303.557974.10584.4179560.0000

BATHRMS14835.661653.2068.9738730.0000

STORIES7130.428814.75838.7515870.0000

FULLBASE7024.2401674.3844.1951180.0000

GASHW12942.934273.2793.0288060.0026

AIRCO12956.661659.8267.8060350.0000

R-squared0.667801Mean dependent var68121.60

Adjusted R-squared0.662852S.D. dependent var26702.67

S.E. of regression15504.76Akaike info criterion22.15203

Sum squared resid1.29E+11Schwarz criterion22.22295

Log likelihood-6038.504Hannan-Quinn criter.22.17975

Durbin-Watson stat1.587278

Debe anotarse que este Modelo 14 que corrige la calidad del error, tiene un R2 y un R2 Ajustado, ligeramente ms bajo que el Modelo 13, en tanto que un Akaike ligeramente ms alto. No importa si el R2 ajustado baja un poco y un criterio de informacin aumenta ligeramente. Hay que sopesar eso con los PValues de las variables explicativas.

Pregunta 4: 3 opciones para que un comprador acceda a viviendas de hasta USD 75,000

Considerando los resultados del Modelo 14, se ponderan las ofertas de viviendas que se pueden conseguir por aproximadamente USD 75,000 y estos son los resultados:

Posibles compradores

N de Modelo14c1c2c3

c

lotsize3.614096380049006700

bedrooms

driveway6062.938010

prefarea9670.989001

garagepl4303.557121

bathrms14835.66222

stories7130.428200

recroom

fullbase7024.24001

gashw12942.93010

airco12956.66100

PRECIO 74,925.96 74,993.37 74,884.55

El nmero de dormitorios puede ser variable y puede o no tener cuarto de recreacin.

Ahora bien, acudiendo a la data real, es posible encontrar las ofertas por el valor de USD 75,000, siendo estos los resultados:

En mi modelo corr las cifras reales y me daban precios mayores que USD 75,000. El profesor dijo que eso no necesariamente significaba que el modelo estaba mal, salvo que la diferencia sea muy exagerada. Podra significar que en realidad los valores a los que se podan vender las casas eran ms altos que lo que en realidad se vendan.

Pregunta 5: Tabla de 12 viviendas y precios estimados

Datos para 12 Viviendas

N de Modelo14V1V2V3V4V5V6V7V8V9V10V11V12

c

lotsize3.614096500051005202530654125520563157435858597560956217

bedrooms

driveway6062.938010101010101

prefarea9670.989010101010101

garagepl4303.557222222222222

bathrms14835.66222222222222

stories7130.428101010101010

recroom

fullbase7024.24111111111111

gashw12942.93111111111111

airco12956.66111111111111

PRECIO 96,403 105,368 97,133 106,113 97,893 106,887 98,683 107,693 99,505 108,532 100,361 109,405

7Tarea 3: Aplicacin de Regresin Mltiple| MTODOS CUANTITATIVOS