5 Macro Bayesiana Presentation_COMPLETA

ContenidoMotivacion

Incorporando la incertidumbre en la toma de decisionesProblemas de identificacion

Metodos Bayesianos en Macroeconomıa

Alvaro J. Riascos VillegasUniversidad de los Andes y Quantil

Febrero 2012

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

ContenidoMotivacion


1 Motivacion

2 Incorporando la incertidumbre en la toma de decisiones

3 Problemas de identificacion


ContenidoMotivacion


Motivacion

La estadıstica Bayesiana es un conjunto de metodos deinferencia que permiten incorporar informacion inicial demodelos y parametros con informacion muestral en una formacoherente a traves del teorema de Bayes.Los principales retos son:

1 Incorporar adecuadamente la incertidumbre en un problema dedecision.

2 Identificacion: Existen dos valores diferentes de los parametrosque generen la misma distribucion de los datos observados. Losproblemas de identificaicion se manifiestan en multiplesmaximos de la funcion de verosimilitud. La informacion inicialpuede servir para discriminar.

3 Problemas de especificacion: Existe un comprmiso entrecoherencia teorica y ajuste a los datos.

4 No linealidades: La linealizacion de la ecuaciones puede generarproblemas de identificacion.


ContenidoMotivacion


Incorporando la incertidumbre en la toma de decisiones

Un banquero central Bayesiano.

Considere el siguiente modelo.1 Curva de Phillips: yt = θπt + εot donde y es a brecha del

producto, πt es la inflacion εot es ruido blanco normal (mediacero y varianza uno) y θ es un parametro desconocido.

2 Demanda agregada: πt = Mt + εdt donde Mt esla cantidad dedinero y εdt es ruido blanco normal (media cero y varianza uno)y representa un choque de demanda.

Los choques son independientes entre ellas y a lo largo deltiempo.

La polıtica monetaria se especifica como: Mt = −εdt + δεot . Esdecir la polıtica monetarıa reacciona contra los choques dedemanda y acomoda los choques de oferta.


Incorporando la incertidumbre en la toma de decisiones

El espacio de estados es Θ.

El espacio de acciones es ∆.Un elemento del espacio deacciones se denota por δ.

Una funcion del espacio de datos observados Ξ en el espaciode acciones se dice que es una regla de decision δ.

Supongamos que la funcion de perdida:

L(θ, δ) = E[y2t + π2t

](1)

Donde el valor esperado se calcula con respecto a ladistribucion de las innovaciones.

Observese que la funcion de perdida depende unicamente delparametro y una accion.

Polıtica optima desde un punto de vista clasico

El Banquero Clasico se plantea el problema de ecoger unaregla de decision que minimice el riesgo frecuentista:

R(θ, δ) = E[L(θ, δ)

]

donde el valor esperado se calcula con la distribucion muestral.

La solucion a este problema δθ depende de θ.


Observese que de haberse sustituido θ por un estimador θ, porejemplo MLE, la solucion hubiera sido de la forma:

δplug−in = − θMLE

1+θ2MLE

En general esta solucion no coincide con la solucion optimaclasica. Es decir δθ 6= δplug−in

Puesto que la solucion optima depende de θ es necesariointroducir algun criterio para comparar soluciones.


Una posibilidad es encontrar una regla de decision minimax.Esto es, que minimice la perdida en el peor de los casos:

minδmaxθr(θ, δ) (2)

Un criterio mınimo que debe satisfacer un regla optima es noser inadmisible. Es decir, no ser dominada por otra regla dedecision δ0. Es decir que no exista una regla de deision tal que:

r(θ, δ0) ≥ r(θ, δ) (3)

con desigualdad estricta para por lo menos un valor delparametro θ.


En general este problema es no trivial.

Considere el siguiente ejemplo. Tenemos un vector aleatorio Yque se distribuye normal con media θ desconocida y matriz devarianza convarianza la identidad. El objetivo es estimar θ.

Considere la siguiente funcion de perdida:

L(θ, δ) =∑

wi (δi − θi) (4)

Se puede demostrar que el estimador OLS de θ es la solucionminimax.

Ademas si el vector Y tiene dimension mayor o igual a 3entonces la solucion OLS no es admisible. El estimador James- Stein domina el estimador OLS.


En general, la solucion clasica es deficiente en la medida deque el verdadero parametro no es observado.

Es dificil comparar las soluciones.

El riesgo frecuentista promedia sobre todas las observacionesaun aquellas que no se han realizado.

Polıtica optima desde un punto de vista Bayesiano

Para poner en conetexto la aproximacion Bayesiana,supongamos por un instante que conocemos θ (o quesimplmente asumimos que θ es un parametro). En ese caso lasolucion optima desde el punto de vista clasico es:

δopt = − θ

1 + θ2(5)

Al consultar con los expertos A y B estos opinan que θ = 110 y

θ = 1 respectivamente lo cual implica dos reglas de decisiondiferentes.

Supongamos que tomador de decisiones tiene una distribucioninicial sobre el parametro P(θ = 1

10) = 34 y P(θ = 1) = 1

4 .


Ahora supongamos que la distribucion conjunta muestral de lainflacion y el producto es i.i.d con distribucion la que se derivade la curva de Phillips y la demanda agregada (suponiendouna polıtica monetaria pasiva con anterioridad a la toma dedecisiones. Es decir Mt = 0).

Supongamos que los resultados de inflacion y brecha sonrespectivamente 2 % y 0,25 %.

No es dificil demostrar que la posterior sobre θ = 110 es

aproximadamente 0,61 y sobre θ = 1 es aproximadamente0,39.

Si el tomador de decisiones basa su decision en aquel expertoque tiene mayor probabilidad de acertar este segurıa larecomendacion del experto A.

Sin embargo, si su decision se basa en una aproximacionBayesiana entonces basarıa su decision en la perdida esperadaBayesiana (expost).


La perdida esperada con respecto a la distribucion expost es:

R(θ, δ) = Eθ

(E[L(θ, δ)

])(6)

Si calculamos la perdida esperada del de las dos reglas dedecision, es facil ver que la recomendacion del experto B esmejor.

Mejor aun, el tomador de decisiones podrıa escoger a reglaque minimice la perdida esperada.


En efecto, si minimizamos R(θ, δ) obtenemos:

δB = − E [θ|z]1+E [θ2|z]

donde z = (π, y).

Se puede demostrar que la perdida esperada Bayesiana esaproximadamente −0,32

Para mas detalles de este calculo vease: El Banquero CentralBayesiano en www.webpondo.org

ContenidoMotivacion


Problemas de identificacion

Por ejemplo, si la version linealizada de un modelo DSGE es:

yt = θEt [xt+1] + ut (7)

con θ ∈ (0, 1) y ut es ruido blanco, entonces la unica solucionestable de la anterior ecuacion es yt = ut y θ no esidentificable.

El analisis Bayesiano permite comparar modelos de formanatural.


ContenidoMotivacion

Priors para BVARsEl modelo DSGE

El modelo VARVerosimilitud

PriorsPosterior

Pronosticos

Metodos Bayesianos en Macroeconomıa II

Alvaro J. Riascos VillegasUniversidad de los Andes y Quantil

Febrero 2012


ContenidoMotivacion



PriorsPosterior

Pronosticos

1 Motivacion

2 Priors para BVARs

3 El modelo DSGE

4 El modelo VAR

5 Verosimilitud

6 Priors

7 Posterior

8 Pronosticos


ContenidoMotivacion



PriorsPosterior

Pronosticos

Motivacion

La estadıstica Bayesiana es un conjunto de metodos deinferencia que permiten incorporar informacion inicial demodelos y parametros con informacion muestral en una formacoherente a traves del teorema de Bayes.


Priors para BVARs

Los principales retos son:1 Incorporar adecuadamente la incertidumbre en un problema de

decision.2 Identificacion: Existen dos valores diferentes de los parametros

que generen la misma distribucion de los datos observados. Losproblemas de identificaicion se manifiestan en multiplesmaximos de la funcion de verosimilitud. La informacion inicialpuede servir para discriminar.

3 Problemas de especificacion: Existe un comprmiso entrecoherencia teorica y ajuste a los datos.

4 No linealidades: La linealizacion de la ecuaciones puede generarproblemas de identificacion.

ContenidoMotivacion



PriorsPosterior

Pronosticos

Priors para BVARs

Consideramos el problema de imponerle restricciones flexiblesa un VAR utilizando las restricciones estruturales de losmodelos DSGE.

Intuitivamente consiste en generar datos artificiales de unmodelo DSGE y ajustar un modelo VAR a los datos realesaumentados con los datos simulados.

El papel de la prior puede controlarse aumentando oreduciendo la proporcion de datos simulados como proporcionde los datos observados.


Priors para BVARs

El problema de sobre parametrizacion de los VARs se puederesolver usando shrinkage. Sin embargo las priors (Minessota,g-Zellner, etc.) estan mas motivadas por expectativas,regularidades empıricas, etc. y no tanto por la teoricaeconomica.

Priors para BVARs

En general las priors de un modelo Bayesiano se puedeninterpretar como una forma de anadir informacion ficticia a losdatos reales. Esto es la motivacion formal para la metodologıautilizada a continuacion.

El metodo que vamos a estudiar toma en serio lasrestricciones que se derivan de la teorıa economica.

Vamos a considerar un modelo estandar DSGE con rigidecesnominales.

ContenidoMotivacion



PriorsPosterior

Pronosticos

El modelo DSGE

El modelo consiste de un agente representativo con funcion deutilidad que depende del consumo con relacion a un stock dehabito de consumo y saldos reales de dinero.Los agente demandas saldos nominales, bonos, paganimpuestos de suma fija, reciben beneficios de las empresas ysalario.Los precios del bien de consumo son rıgidos y fijados por uncontinuo de firmas en competencia imperfecta.El Banco Central fija su polıtica usando una regla de Taylorque depende de la tasa de interes rezagada, brecha e inflacion.La economıa esta sujeta a choques de productividad, gastopublico y las tasas de interes.


El modelo DSGE

El modelo linealizado se reduce a tres ecuaciones: curva dePhillips, demanda agragada y la regla de polıtica (3 variables).

El numero total de parametros θ del modelo en formareducida es 13.

ContenidoMotivacion



PriorsPosterior

Pronosticos

El modelo VAR

Utilizamos un modelo VAR estandar como los estudiadosanteriormente:

Yt = ν + A1Yt−1 + ...+ ApYt−p + εt (1)

que se puede expresar de forma equivalente como:

yt = (IK ⊗ Z )β + εt (2)

donde yt es la vectorizacion de Y , Z es una matriz K × T ,εt = N(0,Σ⊗ IT ) y ⊗ es el producto directo o producto deKronecker de dos matrices.


ContenidoMotivacion



PriorsPosterior

Pronosticos

Verosimilitud

El VAR tiene una funcion de verosimilitud de la forma:

p(Σ,Θ |Y ) (3)

Ahora si simulamos una cantidad T ∗ = λT de datosartificiales usando el modelo DSGE obtenemos unos datosY ∗(θ) con funcion de verosimilitud de la forma:

p(Σ,Θ |Y ∗(θ)) (4)

donde esta funcion tiene una forma muy similar y depende devarios momentos de la forma Y ∗′Y ∗,Y ∗′X ∗


Verosimilitud

La verosimilitud de todos los datos reales y simulados es:

p(Σ,Θ |Y ,Y ∗(θ)) = p(Σ,Θ |Y ) p(Σ,Θ |Y ∗(θ)) (5)

Esto sugiere que p(Σ,Θ |Y ∗(θ)) puede interpretarse como unaprior de Σ y Θ.

Ahora la dependencia de la verosimilitud de los datosartificiales de la simulacion especıfica hace convenientesustituir los momentos muestrales de los que depende, por lospoblacionales. Estos momentos poblacionales dependen de θ yλ pueden ser calculados analıticamente.

ContenidoMotivacion



PriorsPosterior

Pronosticos

Priors

En la implementacion de Del Negro y Schorfeide se sustituyelos momentos muestrales por los poblacionales.

En definitiva, la ((prior)) de Σ y Θ que se deriva del modeloDSGE se escribe de la forma:

P(Σ,Θ |θ) (6)

y es igual a p(Σ,Θ |Y ∗(θ)) con los momentos muestralessustituidos por los poblaciones. Ademas lo parametrospoblacionales dependen de λ.


Priors

Se puede demostrar que la prior anterior de los parametros delVAR satisface:

1 Σ |θ es Wishart invertida.2 Φ |Σ, θ es Normal.

La prior para los parametro del modelo DSGE se escogencomo en la siguiente tabla.

Priors

dsge.pdf

DEL NEGRO AND SCHORFHEIDE

Policy analysis with a DSGE-VAR is discussed in Sections 4.3 and 4.4. First, we construct impulse response functions to study the effects of modest inter- ventions (Leeper and Zha, 2003) in terms of unanticipated deviations from the monetary policy reaction function. The DSGE model is used to obtain an iden- tification scheme for the VAR. Second, we use the DSGE-VAR to predict the effects of a policy rule change. Whereas in the context of VARs the analysis of regime changes is generally subject to the Lucas' critique, our approach can be seen as a weighted average of two extremes: (i) using the DSGE model to forecast the effects of the policy change (X = oo), and (ii) using the VAR to make forecasts (X = 0), thereby ignoring the effects of the policy intervention. In our framework, the choice of the prior weight X reflects the degree of mis- specification of the structural model. We try to predict the impact of the change from the Martin-Burns-Miller regime to the Volcker-Greenspan regime using the DSGE-VAR. The results suggest that the approach is promising, at least in some dimensions.

4.1. Prior and Posterior of 0. All empirical results are generated with the prior distribution reported in Table 1. The model parameters In y, In r*, In r*, o R,

ag, and Oa are scaled by 100 to convert their units into percentages. The priors for the quarterly steady-state growth rate, inflation rate, and real interest rate are fairly diffuse and have means of 0.5%, 1.0%, and 0.5%, respectively. With 90% prior probability the risk aversion parameter r is between 1.2 and 2.8, whereas the slope of the Phillips curve K is between 0.06 and 0.51. The latter interval

TABLE 1 PRIOR DISTRIBUTIONS FOR DSGE MODEL PARAMETERS

Name Range Density Mean SD

In y JR Normal 0.500 0.250 In 7r* JR Normal 1.000 0.500 In r* IR+ Gamma 0.500 0.250 K /R+ Gamma 0.300 0.150 r JR+ Gamma 2.000 0.500 lrJ IR+ Gamma 1.500 0.250 f 2 /R+ Gamma 0.125 0.100 PR [0,1) Beta 0.500 0.200 Pg [0.1) Beta 0.800 0.100 Pz [0,1) Beta 0.300 0.100 CrR JR+ Inv. Gamma 0.251 0.139 ag R+ Inv. Gamma 0.630 0.323 aoz R+ Inv. Gamma 0.875 0.430

NOTES: The model parameters In y, In 7r*, In r*, r R, og, and orz are scaled by 100 to convert them into percentages. The Inverse Gamma priors are of the form p(a I v, s) oc c-v-le-s /2a,2 where v = 4 and s equals 0.2, 0.5, and 0.7, respectively. Approximately 1.5% of the prior mass lies in the indeterminacy region of the parameter space. The prior is truncated in order to restrict it to the determinacy region of the DSGE model (SD is standard deviation).

656

Priors

Las priors reflejan la la calibraciones estandar de losparametros del modelo siendo flexibles en su valor (reflejadoen la desviacion estandar de la prior).

Priors

En conclusion la prior conjunta de todos los parametros seexpresa ası:

P(Σ,Θ, θ) = P(Σ,Θ |θ)P(θ) (7)

= P(Θ |Σ, θ)P(Σ |θ)P(θ) (8)

es decir, el producto de una normal, por una Wishart por laspriors de la tabla.

ContenidoMotivacion



PriorsPosterior

Pronosticos

Posterior

La posterior de los parametros (usando Metropolis - Hasting)para diferentes valores de λ es como indica la siguinte tabla.

Observes que la actualizacion de los dato es mayor cuando segeneran mas datos del modelo DSGE.


Posterior

dsge.pdf

PRIORS FROM DSGE MODELS FOR VARS

TABLE 2

POSTERIOR OF DSGE MODEL PARAMETERS: 1959:III-1979:II

Prior Posterior, . = 1 Posterior, - = 10

Name CI (Low) CI (High) CI (Low) CI (High) CI (Low) CI (High)

In y 0.101 0.922 0.473 1.021 0.616 1.045 In r* 0.219 1.863 0.433 1.613 0.553 1.678 In r* 0.132 0.880 0.113 0.463 0.126 0.384 K 0.063 0.513 0.101 0.516 0.081 0.416 T 1.197 2.788 1.336 2.816 1.684 3.225 Vf 1.121 1.910 1.011 1.559 1.009 1.512 '2 0.001 0.260 0.120 0.497 0.150 0.545

PR 0.157 0.812 0.530 0.756 0.550 0.747

NOTES: We report 90% confidence intervals (CI) based on the output of the Metropolis-Hastings Algorithm. The model parameters In y, In zr*, and In r* are scaled by 100 to convert them into percentages.

is consistent with the values that have been used in calibration exercises, e.g., Clarida et al. (2000). The priors for the policy parameters V1 and 1V2 are centered at Taylor's (1999) values.12 The prior is truncated at the indeterminacy region of the parameter space.

As stressed in Section 3, our procedure also generates posterior estimates for the DSGE model parameters. Such estimates are presented in Table 2 for the sample period 1959:III11-1979:II11. To illustrate that the extent of learning about 0 depends on the weight X of the DSGE model prior, Table 2 reports 90% posterior confidence sets for X = 1 and X = 10. A comparison of prior and posterior intervals indicates that for X = 1 the data lead to a modest updating. The confidence intervals for most parameters shrink. For instance, the prior confidence interval for the interest rate smoothing parameter PR ranges from 0.15 to 0.81, whereas the posterior interval narrows to [0.21, 0.54]. The parameter that characterizes the responsiveness of the central bank to inflation is revised downward, whereas the confidence interval for the output coefficient shifted upwards. The posterior means for Vf1 and 1V2 are 1.3 and 0.3, respectively. The updating is slightly more pro- nounced for X = 10, when the artificial sample size is 10 times as long as the actual sample.

4.2. Forecasting Results. The objective of this subsection is to show that VARs with DSGE model priors produce forecasts that improve on those obtained using unrestricted VARs, and are competitive with those obtained using the popular Minnesota prior. The Minnesota prior shrinks the VAR coefficients to univariate unit root representations. Although it has been empirically successful, e.g.,

12 Since the inflation rate and the interest rate in the DSGE model are quarter to quarter, the value of Vr2 corresponds to one-fourth of the value obtained in univariate Taylor rule regressions that use annualized interest rate and inflation data.

657

ContenidoMotivacion



PriorsPosterior

Pronosticos

Pronosticos

La siguiente grafica muestra las ganacias relativas de shrinkhacia la prior del modelo DSGE.


Pronosticos

vs lambda.pdfPRIORS FROM DSGE MODELS FOR VARS

real GDP growth inflation

20

o 10 .- ..

0

1qua

quarters

Fed Fund multivariate statistic

20 -

0o 10-

0 .

lnflO1 4qua2 lnf 1.81 quarters ahead nf10

NOTES: The plot shows the percentage gain (loss) in RMSEs relative to an unrestricted VAR. The rolling sample is 1975:III-1997:III (90 periods). At each date in the sample, 80 observations are used in order to estimate the VAR.

FIGURE 1

FORECASTING PERFORMANCE AS A FUNCTION OF THE WEIGHT OF THE PRIOR

oo, where X = oo means forecasting with the VAR approximation of the DSGE model.

By definition the gain for X = 0 is zero. As the weight of the prior is increased we observe a substantial gain in the forecast performance. The surface for the multivariate statistic is fairly flat for values of X between 0.5 and 5, but then deteriorates

sharply as . approaches infinity. Overall our performance measures have an inverse U-shape as a function of the hyperparameter X. This indicates that there is a benefit from shrinking the VAR estimates toward the DSGE model restrictions without dogmatically imposing them. The ex post optimal X for long-run forecasts tends to be larger than for short-run forecasts. In order to obtain accurate forecasts over long horizons one has to estimate powers of the autoregressive coefficients (. The large sampling variance of these estimates can be reduced by increasing the weight of the prior. However, once the length of the artificial saniple relative to the actual sample exceeds 2, the variance reduction is dominated by an increased bias and the forecasting accuracy generally deteriorates. Interestingly, the deterioration is not sharp at all: In particular, for inflation and the interest rate

10

o 5

quarters ahead

659

o0

5 Macro Bayesiana Presentation_COMPLETA

Documents

Transcript of 5 Macro Bayesiana Presentation_COMPLETA