manual de stata 11 para economistas estandarizado.pdf

download manual de stata 11 para economistas estandarizado.pdf

of 158

Transcript of manual de stata 11 para economistas estandarizado.pdf

  • Apreciad@ participante, Es grato dirigirnos a Usted para saludarle y a la vez darle la cordial bienvenida al Instituto de Informtica de la Pontificia Universidad Catlica del Per InfoPUC. En esta oportunidad usted se integra a nuestra familia del InfoPUC por medio del Curso de Extensin Stata 11 para Economistas. Durante su permanencia en el InfoPUC le pedimos el mayor compromiso para este curso de extensin, el cual ha sido diseado con un enfoque eminentemente prctico, con casos reales que complementan el aprendizaje de las herramientas de computacin y enfocados al quehacer del profesional que las empresas requieren. Sin ms por el momento nos despedimos, confiando en que lo aprendido en este curso, y en los futuros cursos que desee llevar con nosotros, le sern de gran utilidad en su desempeo profesional. Atentamente,

    Francisco Njar Vsquez Director del Instituto de

    Informtica

  • 5 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    INDICE

    1. Introduccin al STATA ............................................................................................. 7

    1.1. Qu puedo hacer con STATA 11.0? ............................................................... 7

    1.2. Presentaciones de STATA ............................................................................. 13

    1.3. Entorno de trabajo .......................................................................................... 13

    1.4. Recursos del STATA ...................................................................................... 19

    1.5. Ayuda en STATA: Comandos Help, Search y Findit ....................................... 20

    2. Manejo de datos .................................................................................................... 23

    2.1. Creando una nueva base de datos ................................................................. 23

    a. Administracin de la memoria ................................................................... 23

    b. Manejo de directorios................................................................................ 24

    c. Iniciar una sesin de STATA ..................................................................... 25

    d. Abrir y guardar una base de datos ............................................................ 26

    e. Principales comandos: .............................................................................. 26

    f. Ejemplo: .................................................................................................... 27

    g. Estructura de comandos ........................................................................... 30

    2.2. Subconjuntos de datos: comandos if y in ................................................... 31

    2.3. Generando y reemplazando variables ............................................................ 33

    2.4. Uso de funciones ............................................................................................ 36

    2.5. De numrico a String y viceversa ................................................................... 39

    2.6. Ejercicio: Mi primer Do File ............................................................................. 43

    2.7. Ejercicio: Mi primer Log File ........................................................................... 43

    3. Elaboracin de Grficos .......................................................................................... 45

    3.1. Caractersticas de la base de datos: ............................................................... 48

    3.2. Ejercicios mediantes do files .......................................................................... 49

    3.3. Histogramas y Kernels ................................................................................... 53

    3.4. Do File para la elaboracin de Histogramas y Kernels ................................... 56

    3.5. Box plots ........................................................................................................ 58

    3.6. Comando Graph: Scatter - Twoway ................................................................ 60

    4. Modelos lineales ..................................................................................................... 69

    4.1. Mnimos cuadrados ordinarios ........................................................................ 69

    4.2. Regresiones robustas ..................................................................................... 77

    4.2.1. Regresin por mnima desviacin absoluta ...................................... 79

  • 6 Instituto de Informtica

    INDICE

    4.2.2. Regresin robusta ............................................................................ 80

    5. Variable dependiente limitada ................................................................................ 85

    5.1. Dependiente binaria ....................................................................................... 85

    5.2. Variable dependiente politmica ..................................................................... 98

    5.2.1. Logit multinomial .............................................................................. 98

    5.2.2. Probit o Logit ordenado .................................................................. 103

    6. Datos de panel .................................................................................................... 107

    6.1. Controlando la heterogeneidad dentro de un panel ...................................... 107

    6.2. Panel Dinmico ............................................................................................ 123

    7. Introduccin a la programacin ............................................................................ 137

    7.1. Macros local y global .................................................................................... 137

    7.2. Procedimientos sistemticos: forvalues y foreach ......................................... 138

    7.3. Escalares y matrices .................................................................................... 140

    7.3.1. Escalares ....................................................................................... 140

    7.4. Matrices ........................................................................................................ 141

    7.5. Modulo MATA ............................................................................................... 142

    7.6. Comandos return y ereturn ........................................................................... 143

    8. Anlisis de datos con diseo muestral complejo .................................................. 145

    8.1. Especificacin del Diseo Muestral: SVYSET .............................................. 146

  • 7 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    1. Introduccin al STATA

    1.1. Qu puedo hacer con STATA 11.0?

    Stata es un software de anlisis estadstico y economtrico, el cual sirve de herramienta

    para el anlisis de informacin en diversas disciplinas tales como las ciencias sociales,

    medicina y otras. Stata es un paquete de tratamiento de datos de apariencia similar a

    otro software estadsticos, en el sentido de ejecutar de manera secuencial comandos

    digitados por el usuario dentro de una sesin. Inicialmente se cre con la finalidad de

    analizar los datos de seccin cruzada. Sin embargo, en los ltimos aos ha alcanzado

    notoriedad y potencialidad abarcando campos de la micro y macro econometra. A

    travs del foro de discusin - Statalist y la permanente difusin de nuevos comandos

    que incorporan complejas tcnicas estadsticas y economtricas ha cautivado a muchos

    usuarios por su versatilidad y constante actualizacin. Entre las potencialidades del stata

    se destaca la facilidad para manipular y describir con grandes bases de datos, donde la

    principal restriccin es el tamao de la memoria de la computadora. Posee diversas

    aplicaciones predefinidas: paneles, logit, probit, etc. Asimismo, posee una excelente

    herramientas para realizar grficos.

    En la versin 11 se destacan las siguientes funcionalidades:

    Imputacin Mltiple (MI)

    Proporciona una serie de mtodos que permiten realizar anlisis de datos

    incompletos, datos que faltan algunos valores, brindando funcionalidades para

    las etapas de imputacin y estimacin.

    Entre ellas estn:

    o Imputacin univariada

    o Imputacin multivariada

  • 8 Instituto de Informtica

    Introduccin al STATA

    o Panel de control para MI.- Permite unificar las funcionalidades del

    comando mi y gua al usuario desde que inicia hasta el trmino del

    anlisis, es decir desde la etapa de examinar los valores faltantes hasta

    realiza estimaciones e inferencia sobre imputaciones mltiples

    Examine.- Se utiliza para chequear los patrones de valores

    incompletos y determinar el mtodo de imputacin adecuado

    Setup.- Para establecer las caractersticas de los valores que se desea

    imputar. Si los datos ya han sido imputados se debe obviar esta etapa

    Impute.- Se utiliza para crear imputaciones. Se puede imputar una o

    ms variables simultneamente mediante la seleccin o combinacin

    de los mtodos regresin, ajuste de medias predictivas, regresiones

    logstica , ordinal logstica y multinomial logstica y MVN

    Manage.- Para realizar el manejo de los datos

    Estimate.- Para ajustar el modelo y combinar los resultados

    Test.- Para realizar test de hiptesis

    Series de Tiempo multivariadas

    Representa o estima un amplio rango de procesos de series de tiempo

    multivariable. Stata 11 a diferencia de otros programas no necesita que el

    usuario especifique si el modelo es estacional o no, sino es automtico

  • 9 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Entre ellos estn:

    o Modelos de espacio de estados

    o Modelos de factor dinmico

    o Modelos GARCH multivariados donde los usuarios pueden analiza las

    interacciones de varias series a la vez

    Datos de panel y modelos mixtos

    o Estructuras de error en covarianzas

    o Test de races unitarias

    o Errores estndar y BLUPs

    Nueva interfaz

    o Manejador de variables

    o Vista activa de los datos

    o Filtros de datos y de variables

    o Sintaxis coloreada

    o Plegado de cdigo

    o Marcadores

  • 10 Instituto de Informtica

    Introduccin al STATA

    Mtodo de los momentos generalizado (GMM)

    o Modelos lineares y no lineares

    o Estimadores en una etapa , en dos etapas e iterativos

    o Datos de seccin cruzada, series de tiempo y datos de panel

    o Variables instrumentales para datos de panel

    Documentacin PDF.- Donde los manuales estn integrados con el sistema de

    ayuda de Stata

    o Distribuida con cada copia de Stata

    o Contiene todos los manuales

    o Integrada con los archivos de ayuda

    Anlisis marginales

    o Estimacin de medias marginales

    o Mrgenes predictivos

    o Efectos marginales promedio

    Fuentes en Grficos

    o Itlica y negrita

    o Letras griegas

    o Smbolos matemticos

    o Subndices y superndices

    o Fuentes mltiples

    Regresin para riesgos en competencia.- Permite manejar modelos de

    duracin o supervivencia cuando los individuos se enfrentan ms de un tipo de

    riesgo.

    o Variables que varan en el tiempo

    o Grficos de incidencia acumulativa

    o Razn de sub riesgo

    Variables factoriales

    o Interacciones

    o Trminos polinomiales

    o Creacin automtica de indicadores

    Estadsticas exactas

    o Regresin logstica para variable dependiente binaria

    o Regresin de Poisson para datos de conteo

    o Pruebas exactas y pruebas conjuntas

  • 11 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    o Predicciones con intervalos de confianza exactos

    Entre otras funciones tiene

    o Diez generadores de nmeros aleatorios

    o Ms funciones de distribucin y de densidad

    o DIFBETAs, valores de desplazamiento de verosimilitud y estadsticos

    LMAX para regresin de Cox

    o Errores normales , GED y t de Student en ARCH

    o Test multivariados

    o Derivadas numricas

    o Arreglos asociativos

    o Funciones para cdigos Soundex

    o Programacin orientada a objetos

    Figura N 1: Editor de Grficos en STATA

  • 12 Instituto de Informtica

    Introduccin al STATA

    Figura N2: Grficos en Stata Per: Niveles del Sistema de Focalizacin de

    Hogares, a nivel distrital: Niveles con mayor frecuencia en cada distrito

    Figura N 3: Reportes de STATA: Anlisis estadstico en general

  • 13 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    1.2. Presentaciones de STATA

    Las diferentes presentaciones de STATA se caracterizan segn el tipo de usuario y

    recursos del computador. Las versiones Stata/SE, Intercooled Stata y Small Stata varan

    segn el tamao de la base de datos de anlisis:

    Stata/MP Stata: para computadoras multiprocesador y de ncleo dual

    Stata/SE Stata: para grandes bases de datos

    Intercooled Stata: versin estndar de Stata

    Small Stata comnmente utilizada por estudiantes.

    1.3. Entorno de trabajo

  • 14 Instituto de Informtica

    Introduccin al STATA

    El despliegue de Stata 11 presenta cuatro ventanas diferentes:

    Tabla N1: Ventanas de STATA

    Review Aqu aparecen los comandos que han sido utilizados durante la sesin. Solo los resultados ms recientes son visibles en esta pantalla.

    Command Sirve para utilizar Stata de forma interactiva, es decir se emplea para crear las lneas de comandos y llevar a cabo las aplicaciones disponibles en el software.

    Variables Nos informa sobre las variables que estn disponibles en nuestra base de datos para realizar las diversas aplicaciones

    Results Esta nos permite visualizar los resultados (outputs) de los estadsticos que pedimos calcular o de los modelos que solicitamos estimar.

    Figura N4: Entorno de STATA

    Review Comandos

    Resultados Variables

  • 15 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    El tamao y posicin de las ventanas puede ser configurado segn las preferencias del

    usuario y las cuales se pueden realizar siguiendo los siguientes pasos:

    1. Se selecciona el Men Edit, en la opcin Preferences, se elige General

    Preferences

    2. En la pestaa Windowing se configura e ingresa los valores que se desea.

    Tambin podemos modificar el color de fondo o las fuentes de la ventana Stata Results

    siguiendo los siguientes pasos:

    1. En el Men Edit se selecciona la opcin Preferences

    2. Se elige la opcin de General Preferences

  • 16 Instituto de Informtica

    Introduccin al STATA

    3. Se elige la pestaa Result Colors y se personaliza el color que se desea en la casilla

    de Color Scheme

    Otras ventanas importantes son:

    Stata Editor permite navegar y modificar los datos como si fuese una hoja de

    Excel.

    Stata Viewer permite acceder a informacin en lnea y tambin a la ayuda del

    programa.

    Stata Graphs presenta el ltimo grfico realizado.

    Stata Do-file Editor es una ventana separada en Windows y funciona como un

    editor de textos que permite ejecutar una lista de comandos.

    Stata Browser permite visualizar los datos, mas no modificarlo Men de

    Comandos Desde la versin 8 del Stata, todos los comandos (excepto los de

    programacin) han sido implementados con cuadros de dilogo y se pueden

    acceder a ellos desde el men principal, el cual est organizado por tpicos:

    Figura N5: Comandos de STATA

  • 17 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Seleccionamos una opcin desde los mens Data, Graphics o Statistics y llenamos la

    caja o cuadro de dilogo correspondiente:

    Por ejemplo, para acceder al cuadro de dilogo siguiente, utilizamos la ruta que

    presentamos a continuacin, la cual se encuentra en los mens desplegables:

    PASOS

    1. Seleccionar el men Statistics y elegir la opcin Linear models and related

    2. Seleccionar la opcin de Linear regression

    Figura N6: Anlisis Estadstico a travs del Men desplegable

    Esta forma de trabajar con el programa de manera interactiva es lo que Stata llama GUI

    (Graphic User Interface), lo cual es una mejora con respecto de las versiones anteriores.

  • 18 Instituto de Informtica

    Introduccin al STATA

    Stata permite trabajar de manera interactiva y por medio de comandos (al igual que

    RATS 6), debido a que cada ventana se encuentra asociada a un comando.

    La barra de Herramientas

    Adems, Stata presenta una barra de herramientas que permite realizar operaciones

    usuales como abrir un archivo, grabarlo, imprimir o ver alguna ventana en particular..

    Figura N7: Barra de Herramientas

  • 19 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    1.4. Recursos del STATA

    Stata permite la actualizacin constante de sus comandos a travs programas escritos

    en un lenguaje llamado ado-file. Dichos comandos y las nuevas tcnicas son

    realizados por los propios usuarios y presentados a travs de la lista de STATA:

    StataList, de suscripcin gratuita.

    Desde el siguiente link http://www.stata.com/statalist/, se discuten las ltimas tcnicas y

    rutinas programadas en Stata, dicha informacin mantiene una base de datos desde el

    ao 1997, todos los items posteados en StataList han sido ubicados en el Boston

    College Statistical Software Components (SSC).

    Algunos otros recursos en la red:

    http://www.stata.com/

    http://www.stata.com/support/faqs/

    http://statcomp.ats.ucla.edu/stata/

    Figura N8: Portal del STATALIST

  • 20 Instituto de Informtica

    Introduccin al STATA

    1.5. Ayuda en STATA: Comandos Help, Search y Findit

    Comando help

    Este es uno de los comandos ms importantes de Stata, pues presenta la sintaxis de los

    comandos as como ejemplos de cmo se usan. Para pedirle ayuda a Stata sobre un

    comando se escribe en la ventana de comandos help seguido del nombre del comando

    que queramos conocer. A continuacin se muestran los siguientes ejemplos:

    help if

    help summarize

    help regression

    help tabulate

    Se observa que las dos primeras letras del nombre del comando estn subrayadas, esto

    indica que en lugar de escribir el comando como summarize se puede escribir su (o

    cualquier forma intermedia).

  • 21 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Se va a utilizar la siguiente sintaxis simplificada

    Notemos que todo lo que va entre corchetes es optativo y que en la sintaxis de los

    comandos primero se ponen las variables, luego el peso, los condicionales (if) preceden

    a los rangos (in) y les siguen las opciones despus de un coma:

    [varlist] es la lista de variables.

    [if] Debe estar seguida de una expresin lgica para que los datos que slo

    cumplan con la condicin puedan ser incluidos en dicho anlisis.

    [in] permite se indica el rango de los datos que se desea analizar.

    [weight] son los pesos o ponderaciones.

    [options] Son las opciones de cada comando que se est utilizando

    command [varlist] [if] [in] [weight] [, options]

    ]

  • 22 Instituto de Informtica

    Introduccin al STATA

  • 23 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    2. Manejo de datos

    2.1. Creando una nueva base de datos

    a. Administracin de la memoria

    Las bases de datos pueden variar de tamao. Por defecto Stata nicamente lee

    archivos hasta de 10mb (mximo espacio de los datos) de hasta 5000 variables.

    Si se intenta leer un archivo ms grande sale el siguiente mensaje de error.

    no room to add more observations r(901);

    Se puede utilizar el comando memory1 para asignar suficiente memoria para el

    archivo. Por ejemplo si tenemos un archivo de 18 mb por lo menos debemos de

    asignar 20 mb (debemos de tomar en cuenta la creacin de nuevas variables).

    set memory 20m (20480k)

    Se puede hacer permanente esta configuracin de la siguiente manera:

    set memory 20m, permanent

    Adicionalmente el comando matsize permite establecer el nmero de variables que

    pueden ser incluidos en las estimaciones realizadas por Stata. El uso de este comando

    puede ser til en ciertas aplicaciones.

    Por ejemplo, si al estimar una regresin anova, aparece un error matsize too small. Este problema se puede superar mediante el comando set matsize. La mayor configuracin es de 800.

    set matsize 800

    Se puede hacer este cambio permanente de la siguiente manera

    1 El comando set memory slo se puede utilizar en las versiones estndar (Stata/IC), estndar + base de datos

    extensas (Stata/SE) y en la versin Stata/SE + procesamiento paralelo (Stata/MP). No es aplicable en la versin

    para estudiantes de pregrado (Small Stata). En la versin Stata/SE el lmite de variables independientes es

    11,000 (matsize) mientras que el lmite de la memoria es igual al del sistema operativo

  • 24 Instituto de Informtica

    Manejo de Datos

    set matsize 800, permanent

    b. Manejo de directorios

    Stata se instala por defecto en C:\STATA\ y guarda los datos con los que se trabaje en

    C:\DATA\ salvo que dicha configuracin de archivos haya sido cambiada. Para conocer

    con que directorio est trabajando Stata se utiliza el comando pwd

    Con el comando sysdir se pueden visualizar los directorios que STATA emplea para

    guardar el programa y la informacin. Con el comando cd podemos cambiar de

    directorio donde se guardan los datos, aunque estos cambios solo sern validos por la

    sesin en uso.

    Para crear un nuevo directorio se emplea el comando mkdir:

    mkdir sesion21012006

  • 25 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    c. Iniciar una sesin de STATA

    STATA permite guardar un registro de los comandos y los resultados. Para crear un

    archivo de bitcora se usa el comando log using:

    log using bitcora

    Por defecto se guarda en el directorio en uso y en formato SMCL (que es el que usa

    STATA) para presentar los resultados.

    Para parar momentneamente el registro de la bitcora:

    log off

    Para reanudar el registro de la bitcora:

    log on

    Este comando ser registrado:

    tab rep78

    Para detener la bitcora:

    log close

    Para reanudar una bitcora:

    log using bitcora, append

    Para sobrescribir una bitcora:

    log using bitacora, replace

    Para ver una bitcora:

    type bitacora.smcl

    Si lo nico que se desea es guardar los comandos debe emplearse cmdlog. Esta

    opcin es especialmente til cuando lo que se busca es crear un archivo do.

    cmdlog using C:\infopuc\cursos\stata\sesion02\comusados

  • 26 Instituto de Informtica

    Manejo de Datos

    d. Abrir y guardar una base de datos

    La forma como STATA carga los datos a la memoria es similar a la de un procesador de

    textos o a la de una hoja de clculo. No se realizan los cambios hasta que el usuario

    explcitamente los guarda.

    Cuando se emplea el comando use, los datos se cargan a la memoria del ordenador.

    Para guardar los datos se debe emplear el comando save. Es recomendable no

    sobrescribir los datos y trabajar en un directorio diferente del donde se encuentran los

    datos originales. Los datos pueden ser cargados al programa utilizando el comando use

    seguido por la ruta en donde se encuentra la base de datos.

    use C:\infopuc\cursos\stata\sesion02

    use "C:\infopuc\cursos\stata\sesion02\auto.dta"

    save "C:\infopuc\cursos\stata\sesion02\sesion07022005\auto_r.dta

    e. Principales comandos:

    COMANDO DESCRIPCIN

    help Ayuda de programa stata, para

    comandos.

    log Uso de archivos de bitcora

    use Abrir una base de datos en stata

    (extensin .dta)

    edit Ingreso de datos por medio de

    ventana de Stata Editor

    codebook Muestra variables con estadsticos

    descriptivos

    describe Describe contenido de datos en

    memoria o sobre el disco

  • 27 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    save Guarda los datos en disco con

    extensin *.dta

    List

    Lista de valores de variable

    ... if ... Selecciona observaciones cumpliendo

    cierta condicin para la ejecucin del

    comando

    drop

    Borrar variable o dato en memoria

    keep Borra variables o datos no

    seleccionados

    label variable

    Comando de etiqueta de variables

    label define Primer paso para etiquetar valores de

    una variable

    label values Segundo paso para etiquetar valores

    de una variable

    f. Ejemplo:

    El ejercicio consiste en abrir una base de datos de nombre sumaria_2008, la cual se encuentra grabada en el siguiente directorio:

    C:\sesion1

    1. En primer lugar se indica la ruta del directorio de trabajo a travs del comando cd:

    cd c:\Clase 2010

  • 28 Instituto de Informtica

    Manejo de Datos

    2. Una vez que se ha definido la carpeta de trabajo, se invocar la base de datos a

    travs del comando use

    use sumaria_2008.dta

    Al abrir la base de datos se cargar la ventana de variables. Para pedir ayuda sobre el

    comando se deber invocar la ayuda del Stata:

    help use

    Figura N: Uso del Comando Use a travs del HELP

    3. Para conocer el contenido de las base se emplearn los comandos describe y

    codebook:

    El comando describe es empleado para describir el contenido de datos en la memoria

    del computador. Brinda la siguiente informacin:

  • 29 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Contenido de la data: C:\Clase 2010\sumaria_2008.dta

    Numero de observaciones, variables

    Fecha y tamao de la memoria empleada

    Nombre de la variable, tipo de almacenaje (string o numrica), y la etiqueta

    de la variable

    Figura N: Comando Describe

    4. Otras formas de abrir una base de datos Al digitar en la lnea de comandos la siguiente sintaxis

    use sumaria_2008 in 1/10

    Se le indica al STATA la apertura de los 10 primeros registros de la base de datos. Este

    tipo de rdenes se aplicar cuando se desee realizar una exploracin a la base de

    datos, sin necesidad de cargar la base completa.

    De la misma manera, es posible aplicar filtros que indiquen que parte de la base de

    datos ser utilizada. En la base sumaria_2008, la variable mieperho representa el total

    de miembros del hogar. Por lo que s est interesado en conocer solo las caractersticas

    de los hogares con ms de 8 miembros, se aplicar el siguiente filtro:

    use sumaria_2008 if mieperho>8

  • 30 Instituto de Informtica

    Manejo de Datos

    En muchas ocasiones, slo sern de nuestro inters alguno de las variables contenidas

    en la base de datos. Para ello se emplear la siguiente sintaxis:

    use conglome vivienda hogar ubigeo using sumaria_2008

    Donde los comandos empleados son use y using, mientras que las variables de inters

    son conglomerado, vivienda y hogar. Como en los casos anteriores, la base de datos se

    denomina sumaria_2008. Cabe mencionar que no ha sido necesario incorporar el

    nombre del directorio, debido a que eso fue establecido lneas arriba a travs del

    comando cd.

    g. Estructura de comandos

    En funcin al anlisis de datos que se desee realizar, la estructura de la sintaxis

    cambiar con la finalidad de elaborar reportes segn las necesidades del investigador.

    Por ejemplo, el comando summarize brinda reportes de los principales estadsticos de la

    base de datos. Dicho comando es empleado de las siguientes maneras:

    summarize gashog2d if gashog2d>10000

  • 31 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    bys mes: summarize price if gashog2d>1000

    summarize gashog2d,detail

    2.2. Subconjuntos de datos: comandos if y in

    Stata posee los siguientes conectores lgicos y relacionales, as como los operadores

    aritmticos:

    Conectores relacionales

    < menor que

    mayor que

    >= mayor o igual que

    != diferente a , tambin puede usarse ~=

    () parntesis para indicar el orden de evaluacin

  • 32 Instituto de Informtica

    Manejo de Datos

    Conectores lgicos

    & y

    | o

    Operadores aritmticos

    + Suma

    - Resta

    * Multiplicacin

    / Divisin

    ^ Potencia

    + Concatenacin de cadenas alfanumricas

    Ejemplos

    sysuse auto, clear

    Stata posee un conjunto de bases de datos que se encuentran instaladas en la carpeta

    de instalacin. La forma de llamar a dichas bases de datos es a travs del comando

    syuse. En este caso se har uso de la base auto.dta, la cual recoge informacin sobre

    el precio de automviles, dicha base est compuesta por 74 observaciones y 12

    variables.

    sum price if price>1000 & price

  • 33 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Al ejecutar dicha orden en la ventana de comandos, se solicita al STATA el reporte de

    los estadsticos de la variable Price, indicando las siguientes restricciones: siempre que

    el precio sea mayor de 1000 y menor de 6000. A travs del smbolo & se ejecutarn

    ambos filtros.

    sum price if ~(price>1000&price

  • 34 Instituto de Informtica

    Manejo de Datos

    Aparece el siguiente cuadro de dilogo se escribe logeduc

    Luego pulsamos en Create el cual nos va a llevar al siguiente cuadro de dilogo Ahora elegimos la opcin Mathematical y vamos a la opcin logaritmo natural ln() le

    damos doble clic y en los parntesis escribimos educ luego pulsamos el botn OK en

    ambos cuadros de dilogo y tenemos nuestra nueva variable creada.

    Ahora generemos un ratio

    ratio = educ\meduc

    Repetimos el proceso con la diferencia que en Generate variable escribimos ratio.

    Luego pulsamos Create y usando la calculadora del costado definimos nuestro ratio

    doble clic y nuestra nueva variable esta creada:

  • 35 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Y finalmente creamos una nueva variable:

    tt= ((educ+100)\ln(feduc-4))

    Volvemos a repetir el proceso y tenemos nuestra nueva variable tt.

    Nota : Observemos que por defecto las nuevas variables que hemos creado tienen

    formato float.

    En el cuadro de dilogo expression builder podemos insertar las variables a

    transformar hacindoles click en la ventana de variables.

    Estas nuevas variables aparecen al final de la Ventana Stata Editor

  • 36 Instituto de Informtica

    Manejo de Datos

    Si la variable ya existe usaremos el comando replace.

    2.4. Uso de funciones

    Otras funciones para usar con generate:

    generate y=abs(x) valor absoluto|x|

    gen y=exp(x) exponencial, ex

    El comando egen

    Es una extensin del comando generate. Este comando me va a permitir calcular

    expresiones ms complejas, tales como: medias, desviaciones estndar, promedios

    mviles, variables estandarizadas, etc.

    Ejemplo

    Generemos una serie que sea igual al valor mximo de la variable educ

    egen max_X =max(educ)

  • 37 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Pasos

    1. En el men Data, se selecciona la opcin de Create or change data

    2. Se elige la opcin Create new variable (extended)

    En Generate variable escribimos max_X en Egen function elegimos la opcin

    Maximum ponemos el cursor en el casillero Expresin y le damos un clic en la ventana

    de variables a educ luego pulsamos OK y tenemos nuestra serie creada con el valor

    mximo de la variable educ

    Generemos una serie que sea igual a la mediana de la variable educ

    egen median_X =median(educ)

  • 38 Instituto de Informtica

    Manejo de Datos

    Ahora para esta nueva serie repetimos el proceso anterior pero ahora elegimos la

    opcin Median.

    Generemos una serie de precios que sea estandarizada, de media cero y varianza 1

    egen std_X =std(educ),mean(0) std(1)

    Elegimos la opcin Standardized values en media digitamos 0 y en desviacin 1 OK

  • 39 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    El comando replace

    Nos da la posibilidad de modificar alguna de las variables disponibles

    replace tt= tt\100

    2.5. De numrico a String y viceversa

    a. Conversin de Variables string a Variables numricas Existen varios mtodos para convertir variables string a variables numricas. Uno

    de ellos es utilizando el comando destring

    destring [varlist] , {generate(newvarlist) | replace}

    Por ejemplo:

    destring cumple , generate(cumplenum)

    Otra forma de convertir variables string a variables numricas es realizando los

    siguientes pasos:

  • 40 Instituto de Informtica

    Manejo de Datos

    1. En el men Data , se debe elegir la opcin Create or Change data

    2. Seleccionar la opcin Other Variable Transformation commands

    3. Luego elegir la opcin Convert variables from string to numeric

    4. Aparece el siguiente cuadro

    Otra forma de convertir variables de cadena a variables numricas, siempre y

    cuando la variable de cadena no contenga nmeros almacenados como string, se

    puede utilizar el comando encode:

    La sintaxis de encode es de la siguiente manera

    encode [varname] [if] [in] , generate(newvar)

    La primera lnea abre el dataset con extensin dta que para este caso es auto.

    En la segunda lnea codifica la variable string make a variable numrica llamada

    num

    sysuse auto, clear

    encode make, generate(num)

  • 41 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Otra forma de convertir una variable string a variable numrica es mediante el

    comando real(s)

    Por ejemplo

    gen n2 = real (str2)

    Si tenemos una variable Xstr su conversin a variable numrica Xnum puede ser

    obtenida de la siguiente forma:

    generate double Cumplenum = real(Cumple)

    b. De una variable numrica a una variable string

    Se utiliza los mismos procedimientos pero utilizando el comando tostring. La

    sintaxis es la siguiente

    tostring [varlist] , {generate(newvarlist) | replace}

    Por ejemplo:

    tostring num , generate(a2)

    Otra forma de realizar la conversin de variables numricas a cadenas es

    realizando los siguientes pasos:

    1. En el men Data se selecciona la opcin Create or change data

    2. Se elige la opcin Other variable-transformation commands

    3. Se selecciona la opcin de Convert variables from numeric to string

  • 42 Instituto de Informtica

    Manejo de Datos

    4. Se ingresa los valores que se van a configurar en la ventana

    Otro mtodo para codificar una variable numrica a string se utiliza el comando

    decode , el cual se basa en los principios de encode

    decode varname [if] [in] , generate(newvar)

    Por ejemplo

    decode num , generate(a2)

    Si quisiramos ver la lista y asignacin de los valores de las variables entonces

    digitamos el siguiente comando:

    label list num

    Podemos generar una nueva variable que contenga algn subconjunto de los

    nombres de las caractersticas generadas por alguna variable anterior.

    Por ejemplo se desea generar una variable string de nombre a2 que contiene

    como caractersticas los caracteres 2 a 4 de la variable make

    generate str4 a2 = substr( make,2,4)

  • 43 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    2.6. Ejercicio: Mi primer Do File

    sysuse auto,clear

    generate jose = 0

    generate precio2 = price2

    list precio2 price

    Dicotmica que identifique a los carros que cuestan ms de 6000

    g dico=1 if price>6000

    replace dico=0 if price6000

    sum price if forei==0

    sum price if forei==1 by foreign: sum Price

    2.7. Ejercicio: Mi primer Log File

    /* Una forma de pone comentarios*/

    clear

    cd c:\clase1

    set mem 100m

  • 44 Instituto de Informtica

    Manejo de Datos

    use sumaria_2008

    log using jose,text replace

    des gashog2d /*abreviatura de describe*/

    sum gashog2d

    log close

  • 45 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    3. Elaboracin de Grficos

    A continuacin veremos cmo introducir algunos comandos bsicos en Stata 11,

    incluyendo histogramas, grficos de caja, ploteos y matrices de ploteos. El propsito de

    esta seccin es entender los fundamentos de los grficos y dar los elementos para

    generar y modificar estos. Usaremos el mdulo de empleo e ingresos de la 2Nacional de

    Hogares del ao 2007 (mdulo 500).

    La base de datos se denomina enaho01a_2007_500.dta, la cual se encuentra

    almacenada en la carpeta C:\Clases 2010 del directorio de trabajo. Como en la mayora

    de aplicaciones frecuentes esto se puede hacer por dos medios:

    1. Usando el men desplegable siguiendo los siguientes pasos:

    a. En el men Graphics, se selecciona la opcin twoway graph (scatter, line..)

    b. Se selecciona el botn de Create

    2 Para mayor informacin de la base de datos, revisar la pgina web del Instituto Nacional de Estadstica e

    Informtica - INEI: www.inei.gob.pe

  • 46 Instituto de Informtica

    Elaboracin de Grficos

    c. Se selecciona las variables las cuales se desea graficar y el tipo de grfico que

    se requiere

    2. Trabajando con un *.do

    A continuacin se iniciar la seccin de grficos mediante un ejemplo, en el cual se

    indique las diversas opciones del editor de grficos del STATA 11

  • 47 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Es posible cambiar la apariencia de los grficos a travs del men del Stata Graph

    realizando los siguientes pasos:

    1. En el Menu Edit seleccionar la opcin Apply new scheme tal como lo indica la

    figura

    2. Se selecciona el nuevo esquema

    Los grficos se pueden editar directamente y las posibilidades de tipo y

    presentacin de grficos slo est limitado por la imaginacin. Los usos

    frecuentes de carcter exploratorio de los datos son a travs de las densidades y

    los diagramas de cajas

  • 48 Instituto de Informtica

    Elaboracin de Grficos

    3.1. Caractersticas de la base de datos:

    La base de datos es posible descargarla desde la seccin Microdatos de la

    pgina web del INEI. Una vez dentro de la seccin, pulsar la tecla Enter para

    acceder a las bases de datos que dispone el INEI

    Una vez dentro del sistema, pulsar la opcin Encuesta: Condiciones de Vida y

    Pobreza ENAHO, en la casilla ao sealar el 2007, y en el periodo indicar el

    periodo anual (enero diciembre), se desplegar un conjunto de bases de datos

    tal como se detalla a continuacin.

    Para seleccionar la base de datos se escoge la fila 5 correspondiente al modulo

    de empleo e ingresos, y en la columna selecciona el botn de Descargar, se

    cuentan con las opciones para obtener la base de datos en formato de SPSS o

    DBF.

  • 49 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Posteriormente, se deber emplear un convertidor de bases de datos como el

    Stat Transfer o el DBMS Copy con la finalidad de migrar el formato de bases dato

    de SPPS o DBF hacia el STATA.

    Un vez que la base de datos se encuentre en formato de STATA, se proceder a

    la creacin del do file conteniendo las sintaxis que permitan ejecutar los diversos

    tipos de grficos que permite el STATA. A continuacin se abrir una ventana

    vaca de do- file la cual se grabar bajo el nombre de 0_anatomia_grafico.do, tal

    como se muestra a continuacin.

    En dicho do file se realizar la digitacin de las rdenes correspondientes.

    3.2. Ejercicios mediantes do files

    Una vez que disponemos de la base de datos, enaho01a_2007_500.dta dentro

    del directorio de trabajo se proceder a completar el do file respectivo.

    En primer lugar se definen aspectos del entorno de trabajo. A travs del comando

    Clear, se borrar de la memoria las bases de datos que estuvieran abiertas.

    Clear

    Asimismo, se procede a especificar el tamao de la memoria virtual de la PC que

    se dispondr para el trabajo. Debido a que la base de datos contiene ms de 65

    mil variables. Como regla, se le asignar un tamao de memoria similar al

    tamao del archivo expresado en megabytes.

    set mem 100m

    Es importante especificar el directorio de trabajo a travs del comando cd:

    cd "C:\Clases 2010"

  • 50 Instituto de Informtica

    Elaboracin de Grficos

    A travs del comando use se abrir la base de datos, ntese que la inclusin de

    comentarios en el do file se realiza incluyendo el smbolo (*) al inicio de la lnea.

    use "enaho01a_2007_500.dta"

    Dentro de las opciones para realizar grficos es posible indicar los estilos de

    presentacin de los grficos predeterminados por el Programa.

    A travs del comando 'Scheme' nos permite cambiar el formato del grfico. Para

    ver todas las posibilidades que tiene Stata incorporados digitar en la ventana de

    comandos:

    help schemes

    Los siguientes tipos de esquemas se encuentran predeterminados, en el presente

    ejercicio se escoger la segunda opcin, la cual alude a los estilos de grficos del

    STATA Journal:

    set scheme s1color

    set scheme sj

    set scheme s1rcolor

    set scheme economist

    set scheme s2color

    A continuacin se realizar el grafico del Ingreso Laboral segn sexo para ello se

    emplear un grafico de dispersiones tipo scatter. Se ensayarn los diversos

    esquemas de presentacin activando la casilla correspondiente. Las variables de

    trabajo son las siguientes: i524a1 p208a p207, las cuales tendrn una inspeccin

    a travs del comando codebook:

    codebook i524a1 p208a p207

  • 51 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    El resultado del codebook se indica a continuacin:

  • 52 Instituto de Informtica

    Elaboracin de Grficos

    Los filtros sobre las variables de anlisis se realizaran a travs de las siguientes

    sintaxis:

    *Grfico 1: Ingreso en la ocupacin principal y edad de los hombres

    scatter i524a1 p208a if p207==1

    *Grfico 2: Ingreso en la ocupacin principal y edad de los mujeres

    scatter i524a1 p208a if p207==2

    Una vez realizados el scatter del ingreso laboral segn edad y sexo se proceder

    a emplear el comando twoway para realizar el grfico del ingreso laboral para

    ambos sexos:

    *Grfico 3: Ingreso en la ocupacin principal y edad de las mujeres y los hombres

    twoway

    (scatter i524a1 p208a if p207==1) ///

    (scatter i524a1 p208a if p207==2)

    *Grfico 4: Lo mismo que 3

    tw (sc i524a1 p208a if p207==1) ///

    (sc i524a1 p208a if p207==2)

    *Grfico 5: Lo mismo que 4

    tw (sc i524a1 p208a if p207==1) ///

    (sc i524a1 p208a if p207==2) ///

    , ///

    title("Ttulo: Ingreso de la ocup. princ. y edad segn sexo") ///

    subtitle("Subttulo: Ingesos anualizados") /// ytitle("Ingreso")

    xtitle("Edad") ///

    note("Nota: Elaboracin propia a partir de la ENAHO 2007") ///

    legend(title(Leyenda) order(1 "Hombres" 2 "Mujeres"))

    text(200000 80 "Comentario")

  • 53 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    3.3. Histogramas y Kernels

    a. Histogramas hist -

    Los Histogramas consisten en una herramienta grfica que permite ilustrar las

    discontinuidades de la informacin que se solucionan agrupando los datos. Lo

    anterior pasa por decidir cuantas barras o _CLASES_ emplear, o lo que es lo

    mismo decidir cunto es el ancho de banda. Como regla prctica el nmero de

    CLASES se aproxima por la raz cuadrada del nmero de datos empleados, en

    nuestro caso es aprox. igual a 256:

    display sqrt(65549)

  • 54 Instituto de Informtica

    Elaboracin de Grficos

    Histograma

    El nmero de CLASES puede modificarse con la opcin bin del comando -hist-

    . Otra opcin interesante es acompaar el grfico con la curva normal que se

    ajusta a los datos.

    Histograma con ajuste normal

  • 55 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    b. Kernel kdensity

    En trminos sencillos los kernels permiten suavizar nuestros histogramas

    tratando de conservar la forma de la distribucin de nuestros datos. Esto se

    consigue fijando ventanas alrededor de un punto y al interior ponderando los

    casos tal que el peso sea menor cuanto ms alejado se encuentre del punto

    central de la ventana, el efecto del suavizamiento se consigue al desplazar la

    ventana.

    Al igual que los histogramas hay que elegir el nmero de barras o

    equivalentemente cuanto es el ancho de banda 2 Esa no es la nica decisin,

    tambin hay que decidir qu funcin de distribucin a usar.

    Para el primer punto se suele usar la sugerencia de Silverman (1986) el cual

    busca minimizar el valor esperado del error al cuadrado (opcin por defecto en

    stata)

    El kernel es la funcin de distribucin que se usa para suavizar el histograma.

    Bajo ciertas circunstancias se puede probar que el Kernel conocido como

    Epanechnikov tiene un criterio optimizador (opcin por defecto en stata)

  • 56 Instituto de Informtica

    Elaboracin de Grficos

    3.4. Do File para la elaboracin de Histogramas y Kernels

    Clear

    set mem 100m

    use "enaho01a_2007_500"

    *1 etapa: hist p208a,freq

    *2 etapa: hist p208a,freq normal

    *3 etapa: hist p208a,freq normal kden

    *4 etapa: Distribucin de la edad en un slo grfico

    tw (kdensity p208a if p207==1) (kdensity p208a if p207==2)

    kdensity p208a if p207==1, name (jose1,replace)

    kdensity p208a if p207==2, name (jose2,replace)

    graph combine jose1 jose2,rows(1)

    graph drop _all

  • 57 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    *6 etapa:

    kdensity p208a, name(jose1,replace) title(Epanechnikov)

    kdensity p208a, name(jose2,replace) kernel(gauss) title(Gausiano)

    kdensity p208a, name(jose3,replace) kernel(cosine) title(Coseno)

    graph combine jose1 jose2 jose3,rows(1)

    graph drop _all

    *7 etapa:

  • 58 Instituto de Informtica

    Elaboracin de Grficos

    kdensity p208a, name(jose4,replace) title("Ancho de banda ptimo",size(*.8))

    kdensity p208a, name(jose5,replace) bwidth(3.558) title("Doble del Ancho de

    banda ptimo",size(*.8))

    kdensity p208a, name(jose6,replace) bwidth(0.8895) title ("Mitad de la banda

    ptimo",size(*.8))

    graph combine jose4 jose5 jose6,rows(1)

    graph drop _all

    3.5. Box plots

    Junto con el histograma o los kernels, los diagramas de cajas son probablemente

    las herramientas grficas ms importantes para realizar un anlisis univariado

  • 59 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Algunas definiciones antes de empezar:

    Mediana o percentil 50.- Valor que divide la muestra en partes iguales Percentil

    25.- Debajo de este valor se encuentra el 25% de los datos

    Percentil 75 .- Similar al anterior

    Rango intercuartilico IQR = P75 - P25

    Outlier.- En un sentido ms flexible es un dato con un valor muy alejado

    formalmente.

    A continuacin se trabajar con el do file: 2_graph box.do

    clear

    set mem 100m

    use "enaho01a_2007_500"

    *1 Etapa: distribucin del ingreso

    graph box i524a1

    *2 Etapa: identificando a los "outliers"

    egen id=group(conglo vivienda hogar codperso)

    graph box i524a1, marker(1,mlabel(id)) scheme(s1color)

    graph drop _all

  • 60 Instituto de Informtica

    Elaboracin de Grficos

    *3 Etapa:

    graph hbox i524a1, scheme(s1color) over(p207)

    graph drop _all

    3.6. Comando Graph: Scatter - Twoway

    Comando Graph

    Los comandos que generan grficos son:

  • 61 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Comando Graph Twoway

    Los miembros de la familia de los grficos twoway son llamados plottypes

    [graph] twoway plot [if exp] [in range] [, twoway_options]

    Donde plot es definido de la siguiente forma:

    [(] plottype varlist ..., options [)] [||]

  • 62 Instituto de Informtica

    Elaboracin de Grficos

    Grfico Twoway Scatter

    [twoway] scatter varlist [weight] [if exp] [in range] [,

    marker_options

    marker_placement_option

    marker_label_options

    connect_options

    axis_selection_options

    composite_style_option twoway_options ]

    Grfico Twowat Line

    [twoway] line varlist [if exp] [in range] [, line_options ]

    Opcin Combine

    En la misma rea de grficos, combina 2 o ms grficos (pueden ser de diferentes

    tipos.

    graph combine name [name ...] [, combine_options ]

    Opciones de marcador

    Modifica los marcadores y/o sus etiquetas para ajustarse a las preferencias del usuario.

    marker label option

    Grficos de pie

    Se utilizan cuando nos interesa analizar proporciones.

    graph pie yvars [weight] [if exp] [in range] [, options ]

    Grficos de barras

    Se pueden realizar grficos con barras verticales y horizontales.

    graph bar yvars [weight] [if exp] [in range] [, options ]

    graph hbar yvars [weight] [if exp] [in range] [, options ]

  • 63 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Grfico de puntos

    graph dot yvars [weight] [if exp] [in range] [, options ]

    Grfico Twoway HIstogram

    twoway histogram varname [weight] [if exp] [in range]

    [, [discrete_options|continuous_options] common_options ]

    Grfico Twoway Kdensity

    twoway kdensity varname [if exp] [in range] [, kdensity_options line_options]

    Para mayores detalles, revisar el libro: Mitchel, M. (2004); A visual guide to Stata

    graphics, University of California, Los Angeles. A Stata Press Publication Disponible en

    el siguiente vnculo:

    http://www.stata-press.com/books/vgsg.html

    Ejemplos:

    clear net from http://www.stata-press.com/data/vgsg

    net install vgsg

    help vguse

    set scheme vg_s2c

    vguse allstates.dta

    twoway (scatter propval100 popden) (lfit propval100 popden)

  • 64 Instituto de Informtica

    Elaboracin de Grficos

    twoway (scatter propval100 popden) (lfit propval100 popden)

    (qfit propval100 popden)

    twoway (scatter propval100 popden) (mspline propval100 popden)

    (fpfit propval100 popden) (mband propval100 popden) (lowess propval100 popden)

  • 65 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    twoway (lfitci propval100 popden) (scatter propval100 popden)

    vguse spjanfeb2001.dta

    twoway dropline close tradeday

  • 66 Instituto de Informtica

    Elaboracin de Grficos

    vguse sp2001ts.dta

    twoway tsrline high low, sort

    vguse spjanfeb2001.dta

    twoway bar close tradeday

  • 67 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    vguse allstates.dta

    graph matrix propval100 rent700 popden

    graph hbar popk, over (division)

  • 68 Instituto de Informtica

    Elaboracin de Grficos

    graph pie popk, over (region)

    vguse allstatesdc.dta

    twoway (lfitci ownhome pcturban80, stdf) (scatter ownhome pcturban80)

  • 69 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    4. Modelos lineales

    Probablemente en econometra el uso de modelos de regresin lineal y sus extensiones

    sea la metodologa ms empleada en la investigacin emprica. El conocimiento de

    estos y su estimacin es el objetivo de esta seccin.

    Mnimos cuadrados ordinarios (MCO) es el mtodo ms popular, mientras que una

    variante que contempla la presencia de heterocedasticidad y corrige su presencia son

    los mnimos cuadrados ponderados (MCP). Mientras que los estimadores bajo MCO

    tienen como objetivo minimizar la suma de los errores al cuadrado, minimizar la suma de

    los valores absolutos de los errores nos conduce al modelo de mnima desviacin

    absoluta (MDA) la generalizacin de este procedimiento se conoce como regresin

    cuantlica.

    De otro lado, la mala especificacin de un modelo, en particular la omisin de una

    variable relevante, podra provocar en los parmetros una situacin indeseada por los

    econometristas: parmetros insesgados y peor an, parmetros inconsistentes. Un

    procedimiento comnmente para lidiar con este problema es una regresin con variables

    instrumentales (VI). En lo que sigue se aborda cada uno de los temas mencionados.

    4.1. Mnimos cuadrados ordinarios

    regress

    Otra vez recurrimos a la ENAHO 2008 para presentar una regresin lineal simple con

    r6 como variable dependiente:

    reg r6 edad r11h

  • 70 Instituto de Informtica

    Modelos Lineales

    Tarea 1: Interprete todos los estadsticos reportados en el output anterior teniendo

    en cuenta que r6 es el ingreso laboral mensual, edad son los aos cumplidos y

    r11h son las horas mensuales laboradas.

    xi:

    El prefijo xi: permite agregar fcilmente variables categricas en un modelo de

    regresin. Imagine que se plantea la hiptesis que las lneas de regresin para cada

    dominio geogrfico tienen distinto intercepto:

    xi: reg r6 edad r11h i.dominio

  • 71 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Distinto intercepto y distinta pendiente

    xi: reg r6 i.dominio*r11h

  • 72 Instituto de Informtica

    Modelos Lineales

    Trminos de interaccin:

    xi: reg r6 i.dominio*i.sexo

  • 73 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Tarea 2: Cree las dicotmicas que sean necesario, compruebe e interprete todos

    los resultados anteriores.

    predict

    Debe tener en cuenta que cuando existe un missing en una de las variables que

    intervienen en la regresin, todo ese registro se pierde al realizar la estimacin as

    existan observaciones en el resto de variables. Si por alguna razn el objetivo es

    quedarse con el conjunto de variables en los cules no exista ningn missing en el

    conjunto de datos se puede ejecutar lo siguiente:

    regress postestimation

    Almacenamiento de informacin

    Luego de estimar una regresin el software almacena las estimaciones en objetos que

    luego pueden ser fcilmente empleados.

    . ereturn list

    scalars:

    reg r6 edad r11h

    keep if e(sample)

    reg r6 edad r11h estat ovtest /*Test RESET de Ramsey (variables omitidas)*/

    estat ic /*Criterios de informacin*/

    estat vif /*Factor de inflacin de varianza*/

  • 74 Instituto de Informtica

    Modelos Lineales

    e(N) = 45232

    e(df_m) = 2

    e(df_r) = 45229

    e(F) = 1265.502981280802

    e(r2) = .0529942555816602

    e(rmse) = 370.1935843435196

    e(mss) = 346857383.838377

    e(rss) = 6198330958.394218

    e(r2_a) = .0529523795399869

    e(ll) = -331683.1548708656

    e(ll_0) = -332914.5987825873

    e(rank) = 3

    macros:

    e(cmdline) : "regress r6 edad r11h"

    e(title) : "Linear regression"

    e(marginsok) : "XB default"

    e(vce) : "ols"

    e(depvar) : "r6"

    e(cmd) : "regress"

    e(properties) : "b V"

    e(predict) : "regres_p"

    e(model) : "ols"

    e(estat_cmd) : "regress_estat"

    matrices:

    e(b) : 1 x 3

    e(V) : 3 x 3

    functions:

    e(sample)

  • 75 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Por ejemplo, usando la calculadora de Stata se puede digitar en la lnea de comandos

    display e(r2)- para reportar el R cuadrado de la regresin.

    Tambin pueden invocarse los parmetros estimados de otra manera: Por ejemplo, en

    promedio el ingreso mensual para una persona que tiene 30 aos y trabaja 48 horas a la

    semana, asumiendo que existe causalidad en el modelo y este se encuentra

    correctamente especificado es:

    Correlacin Serial

    Slo aplica cuando la fuente de datos es temporal, si ese es el caso STATA exige que

    los datos sean declarados como temporales con el comando -tsset-.

    - Durbin-Watson. Test de autocorrelacin de primer orden

    . tsset qtrs

    . regress Y X1 X2 X3

    . estat dwatson

    . estat

    dwatson

  • 76 Instituto de Informtica

    Modelos Lineales

    - Correccin de Autocorrelacin

    MCP Usando el mtodo de Cochrane

    Errores estndar sugeridos por Newey-West

    Donde lag(#) especifica el orden de la autocorrelacin

    Heterocedasticidad

    Test de White

    Mnimos cuadrados ponderados

    Comando wls0

    (http://www.ats.ucla.edu/stat/stata/ado/analysis/wls0.htm para mas detalles y un

    ejemplo)

    Errores estndar corregidos por heterocedasticidad

    . prais Y X1 X2 X3, corc

    . newey Y X1 X2 X3, lag(#)

    . regress Y X1 X2 X3

    . estat imtest, preserve white

    . regress Y X1 X2 X3, robust

  • 77 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    4.2. Regresiones robustas

    Una vez que se ha establecido que existe una relacin lineal entre dos

    variables Y y X, todava queda la tarea de determinar cul es la mejor recta

    que refleja esta relacin? O lo que es lo mismo Cul es la ecuacin que

    describe estos datos? Ya que se observa y se asume una relacin lineal los

    datos deben seguir una ecuacin de la forma: Y = mX +b

    El problema requiere la determinacin de los coeficientes m y b. Se podran

    hacer conjeturas sobre que nmeros deberan ser, pero estas deben ser "lo

    mejor posible. Pero, Qu se entiende por "mejor posible"?3. Lo anterior

    implica la descripcin de un criterio para medir el error entre "la mejor" lnea y

    los datos. Una vez que el criterio ha sido especificado, entonces el objetivo es

    reducir al mnimo este error. La lnea con el mnimo error de los datos es la

    "mejor" lnea.

    La regresin por mnimos cuadrados ordinarios es el procedimiento ms

    utilizado debido a su simplicidad y facilidad de clculo. Como se sabe la

    medida de error de este mtodo es el cuadrado de la desviacin de los datos

    de la lnea de regresin respecto a los Y observados (e2). El objetivo es

    minimizar la sumatoria de los errores al cuadrado obtenindose "la mejor"

    lnea. La desventaja del mtodo es que es muy sensible a valores atpicos.

    3 Se debe notar que a no ser que su sea una relacin lineal exacta entre X e Y, entonces ms de una

    lnea podra describir estos datos.

  • 78 Instituto de Informtica

    Modelos Lineales

    Por ejemplo utilizando la base auto (que se encuentra por defecto en la

    carpeta Stata) en el modelo hipottico: mpg=a+m*weight se tendra:

    Tarea 3: Cree el mismo grfico utilizando la opcin predict y tambin generando la

    variable predicha con la forma de recuperar coeficientes visto lneas arriba

    (_b[variable]).

    El problema que presenta este mtodo es que las observaciones que se encuentren

    ms alejadas de la recta de ajuste reciben una mayor ponderacin. Si se decide

    excluirlas, van a afectar fuertemente a los estimadores. Existen por lo menos dos formas

    de estimar una lnea que no est altamente influenciada por valores atpicos, estas

    metodologas descansan en lo que literatura se conoce como regresiones robustas.

    sysuse auto

    twoway (lfit mpg weight) (scatter mpg weight)

  • 79 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    4.2.1. Regresin por mnima desviacin absoluta

    Este mtodo es muy similar al mtodo de mnimos cuadrados. La diferencia

    es que la medida de error de este mtodo es el valor absoluto de la

    desviacin de los datos de la lnea de regresin respecto a los Y observados

    (|e|). Aunque parece un mtodo ms simple de describir al error, su proceso

    de minimizacin es complicado. Los algoritmos iterativos que reducen al

    mnimo el error se basan en la programacin lineal. Este mtodo es menos

    sensible a outliers si se compara con el mtodo de la regresin mnimo

    cuadrtica. Cuando el criterio de minimizacin es alcanzado el 50% de los

    residuos son negativos. En forma anloga al modelo de regresin simple, en

    la que la esperanza de Y dado X viene a ser la recta de mejor ajuste

    (E(Y/X)=XB), en este tipo de modelos la recta estimada es la mediana de Y

    condicionada a X (Q(Y/X)0.50= XB).

    En Stata el comando qreg, cuando no se especifica el cuantil con el que debe trabajar, estima por defecto al modelo, que en el caso general es conocido como regresin cuantlica.

    qreg

  • 80 Instituto de Informtica

    Modelos Lineales

    4.2.2. Regresin robusta

    La idea bsica de este tipo de estimacin es calcular los estimadores que

    minimicen la siguiente funcin:

    w(e)e2

    Donde w(.) es una funcin de ponderacin que se introduce para reducir

    (e incluso eliminar) el efecto de residuos elevados. Por tanto se definen los

    pesos w(.) de tal forma que tomen valores pequeos para residuos

    grandes. El proceso de estimacin es iterativo comenzando por una

    regresin simple de la cual se derivan los primeros errores y tambin los

    primeros ponderadores que son reestimados las veces que sean

    necesarios para que la mxima diferencia entre el ltimo y el penltimo

    ponderador sea mnima.

    . qreg mpg weight

    . g mediana=_b[_cons]+_b[weight]*weight

    . tw (scatter mpg weight) (line mediana weight)

  • 81 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    En Stata el comando rreg permite obtener estimaciones robustas de

    acuerdo al siguiente procedimiento: Excluye a las observaciones que

    tengan una distancia de Cook mayor a uno (esto lo realiza asignando un

    peso de 0 a dichos registros). Utiliza dos funciones de ponderacin:

    Huber y Biweights, ambas funciones de ponderacin son usadas porque

    los ponderadores de Huber tiene problemas cuando se encuentra con

    outliers muy elevados mientras que Biweights algunas veces falla al

    converger o tiene mltiples soluciones. Los ponderadores iniciales de

    Huber mejoran el comportamiento del estimador Biweight.

    La caracterstica del ponderador a lo Huber es que los casos con errores

    pequeos reciben un peso de 1, los dems casos tienen ponderadores

    inversamente proporcional al tamao de los residuos. De otro lado, los

    pesos Biweight, para errores pequeos, asignan una ponderacin que

    decrece exponencialmente con el tamao del error, a los dems casos se

    le asigna un peso de 0.

    Donde:

    ei = yi - XiB; ui = ei/s;

    s = M/0.6745;

    M = mediana (|ei mediana(ei)|);

    ch y cb son constantes predeterminadas

  • 82 Instituto de Informtica

    Modelos Lineales

    . rreg mpg weight, genwt(w)

    Huber iteration 1: maximum difference in weights = .79065466

    Huber iteration 2: maximum difference in weights = .16435086

    Huber iteration 3: maximum difference in weights = .07997553

    Huber iteration 4: maximum difference in weights = .02086117

    Biweight iteration 5: maximum difference in weights = .2751323

    Biweight iteration 6: maximum difference in weights = .12290063

    Biweight iteration 7: maximum difference in weights = .06995163

    Biweight iteration 8: maximum difference in weights = .01619982

    Biweight iteration 9: maximum difference in weights = .00890816

  • 83 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    En el grfico anterior se muestra la recta de ajuste robusta acompaada

    de los ponderadores estimados, como se puede observar, mientras ms

    alejado de la recta de ajuste se encuentren los datos menor ponderacin

    le es asignado, llegando inclusive a ser cero.

    La comparacin de las tres rectas de ajuste nos permite comprobar la

    menor sensibilidad de los mtodos alternativos a la regresin simple.

    reg mpg weight

    g mco=_b[_cons]+_b[weight]*weight

    tw (line mco weight, clcolor(pink) clpat(dash)) ///

    (line mediana weight, clcolor(green) clpat(dot)) ///

    (line robusta weight, clcolor(blue)) (scatter mpg weight)

  • 84 Instituto de Informtica

    Modelos Lineales

  • 85 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    5. Variable dependiente limitada

    5.1. Dependiente binaria

    Cuando la variable dependiente toma dos valores, tpicamente 1 y 0. La

    estimacin de un modelo con esta caracterstica empleando la metodologa

    MCO convencional se conoce como el modelo de probabilidad lineal, sin

    embargo su estimacin presenta los siguientes problemas:

    Predicciones fuera de muestra (nada garantiza que las predicciones del

    modelo se encuentren en el intervalo de 0 a 1)

    La perturbacin aleatoria no sigue una distribucin normal

    Presencia de problema de heterocedasticidad

    Caminos alternativos que superan los problemas anteriores se basan en

    estimaciones no lineales bajo la metodologa de mxima verosimilitud. Los

    modelos tipo probit y logit asumen que el trmino de error aleatorio siguen

    una distribucin normal y logstica respectivamente, su estimacin es

    precisamente empleando los comandos -probit- y -logit-, y como se sabe los

    efectos marginales, al no ser un modelo lineal, se estiman evaluando la

    expresin correspondiente en las medias de las variables explicativas.

    dprobit, estima un modelo probit por mxima verosimilitud, pero no reporta

    los coeficientes como este ltimo sino que reporta el cambio en la

    probabilidad ante un cambio infinitesimal en las variables continuas

    independientes y, por defecto, reporta el cambio discreto en la probabilidad

    para variables dummy.

  • 86 Instituto de Informtica

    Variable dependiente limitada

    Si se estima con datos agrupados, vea el comando bprobit descrito en [R]

    glogit

    Los comandos auxiliares pueden ser corridos despus de probit, logit o

    logistic; vea [R] logistic para una descripcin de esos comandos.

    Nota Tcnica

    Stata interpreta el valor 0 como resultado negativo (falla), y trata todos los

    otros valores (excepto missing) como resultados positivos (xito). Entonces,

    si su variable dependiente toma el valor de 0 y 1, 0 es interpretado como falla

    y 1 como xito. Si su variable dependiente toma el valor de 0,1 y 2; 0 es

    interpretado an como falla, pero 1 y 2 son tratados como xitos.

    Identificacin del modelo

    El comando probit tiene una caracterstica adicional y es probablemente la

    ms importante. Este revisa el modelo para la identificacin y si est

    subidentificado elimina las variables y observaciones necesarias para que

    proceda la estimacin.

    Ejemplo

    . describe

  • 87 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    . sum

  • 88 Instituto de Informtica

    Variable dependiente limitada

    . regress grade gpa tuce psi

    . probit grade gpa tuce psi

    Iteration 0: log likelihood = -20.59173

    Iteration 1: log likelihood = -13.315851

    Iteration 2: log likelihood = -12.832843

    Iteration 3: log likelihood = -12.818826

    Iteration 4: log likelihood = -12.818803

  • 89 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Podemos observar que todas las variables son significativas. El modelo es

    globalmente significativo pues es el (Prob > chi2 = 0.0014) y el ajuste del

    Pseudo R2 es 0.3775, lo cual para cortes transversales es aceptable.

    matrix coeficientes=e(b)

    matrix list coeficientes

    Con el comando predict generamos una variable donde almacenamos la

    probabilidad predicha de que el alumno aumente su nota:

    predict probprobit, p

    Graficando la probabilidad predicha contra tuce (el resultado previo

    obtenido en un examen de economa)

  • 90 Instituto de Informtica

    Variable dependiente limitada

    Graficando la probabilidad predicha contra gpa (la nota global del alumno)

    Para obtener los efectos marginales empleamos el comando dprobit:

    . dprobit grade gpa tuce psi

    Iteration 0: log likelihood = -20.59173

    Iteration 1: log likelihood = -13.315851

    Iteration 2: log likelihood = -12.832843

    Iteration 3: log likelihood = -12.818826

    Iteration 4: log likelihood = -12.818803

  • 91 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    En este caso dF/dx se refiere al efecto marginal (en cuanto aumenta la

    probabilidad de que suba la nota del alumno promedio cuando las variables

    continuas aumentan en una unidad. Para las variables no continuas como psi,

    STATA calcula el cambio en la probabilidad ante un cambio discreto de una

    unidad (en el caso de psi, de pasar de no participar a participar en la nueva

    metodologa) Tambin muestra las medias y un intervalo de confianza para la

    prediccin.

    La interpretacin es como sigue: 0.5333471 es el aumento de la probabilidad

    (de que aumente la nota) para un alumno medio (gpa=3.117, tuce=21.938 y

    psi=0.438). Del mismo modo 0.4644 es el aumento en la probabilidad (de que

    aumente la nota) para un alumno medio (gpa=3.117, tuce=21.938) cuando

    recibe el nuevo mtodo de enseanza (pasa de tuce=0 a tuce =1). No olvidar

    que en todos los casos se debe incorporar la constante al calculo de .

    Para tratar las variables discretas del mismo modo que las continuas se

    emplea la opcin classic.

    . dprobit grade gpa tuce psi, classic

    Iteration 0: log likelihood = -20.59173

    Iteration 1: log likelihood = -13.315851

    Iteration 2: log likelihood = -12.832843

    Iteration 3: log likelihood = -12.818826

    Iteration 4: log likelihood = -12.818803

  • 92 Instituto de Informtica

    Variable dependiente limitada

    Para calcular la probabilidad de un aumento de la nota para un individuo de

    determinadas caractersticas deben definirse estas mediante una matriz. Por

    ejemplo, cul es la probabilidad de que un individuo con gpa=3, que obtuvo 20

    en su nota previa de economa (tuce=20) y que ha estado expuesto al nuevo

    mtodo de enseanza (psi=1) debemos emplear la opcin at

    Observe que el cuarto componente es la de la constante:

    matrix carac=[3, 20, 1, 1]

    dprobit grade gpa tuce psi, at(carac)

    . dprobit grade gpa tuce psi, at(carac)

    Iteration 0: log likelihood = -20.59173

    Iteration 1: log likelihood = -13.315851

    Iteration 2: log likelihood = -12.832843

    Iteration 3: log likelihood = -12.818826

    Iteration 4: log likelihood = -12.818803

  • 93 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Comando mfx

    Es la manera genrica de calcular efectos marginales, y no es de uso exclusivo a

    este tipo de estimaciones. La ventaja es ser flexible a la hora de calcular diversos

    variantes de los efectos de las explicativas sobre la variable dependiente

    . mfx compute

  • 94 Instituto de Informtica

    Variable dependiente limitada

    Calculando las elasticidades:

    . mfx compute,eyex

    Elasticities after dprobit

    Calculando semielasticidades:

    . mfx compute,dyex

    Elasticities after dprobit

    . mfx compute,eydx

    Elasticities after dprobit

  • 95 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Tabla de bondad de ajuste

    Comparando la capacidad del modelo lineal y el probit, se observa que ste

    ltimo slo es ligeramente superior al primero.

    . tab grade aciertoprobit

    . tab grade aciertolin

    Para contrastar la bondad de ajuste es preciso tabular que tan bien predice el

    modelo.

    Graficando el efecto marginal de psi

    Si se grafica (por ejemplo para cien puntos) el efecto de psi sobre la probabilidad

    de aumentar la nota, se puede graficar el efecto puro de psi sobre las medias

    (trazo continuo) mientras que los puntos son el efecto de psi para cada individuo

    en particular.

  • 96 Instituto de Informtica

    Variable dependiente limitada

    Por el contrario este grfico permite comparar el efecto predictivo del modelo

    para la variable psi.

  • 97 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Identificacin del modelo

    La variable potexp fue eliminada por ser colineal a las otras.

    . probit union age exp2 grade married lnwage potexp high

    note: potexp dropped due to collinearity

    Iteration 0: log likelihood = -521.79847

    Iteration 1: log likelihood = -465.83446

    Iteration 2: log likelihood = -463.72828

    Iteration 3: log likelihood = -463.71437

    Iteration 4: log likelihood = -463.71436

  • 98 Instituto de Informtica

    Variable dependiente limitada

    5.2. Variable dependiente politmica

    5.2.1. Logit multinomial

    Una variable es nominal es aquella donde sus categoras no se pueden

    ordenar. Ejemplos, de lo anterior son estado civil y condicin de actividad

    laboral. En el modelo logit multinomial, nosotros estimamos el conjunto

    de coeficientes (1), (2) y (3) correspondiente a cada categora del

    resultado.

    El modelo, sin embargo, no es identificado en el sentido de que hay ms

    de una solucin para (1), (2) y (3) que conduce a las mismas

    probabilidades para y=1, y=2 y y=3. Para identificar el modelo, uno de los

    (1), (2) y (3) es arbitrariamente fijada a 0. Si arbitrariamente se

    fija (1)=0, los coeficientes restantes (2) y (3) medirn el cambio

    relativo al grupo y=1.

    Si en lugar de fijar (1)=0, fijamos (2) =0, los coeficientes restantes

    (1) y (3) mediran el cambio relativo al grupo y=2. Los coeficientes

    diferiran porque tienen diferentes interpretaciones, pero las probabilidades

    predichas para y=1, 2 y 3 seran las mismas. Por lo tanto, cualquier

    parametrizacin sera una solucin.

  • 99 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Dado (1)=0, las ecuaciones se convierten en

    La probabilidad relativa de y=2 es

    Llamaremos este ratio como el riesgo relativo, y asumiremos despus que

    X y son vectores iguales a (x1,x2,x3 .. xk) y ( ),

    respectivamente. El ratio de riesgo relativo para un cambio unitario en Xi

    es entonces:

    As, el valor exponenciado de un coeficiente es un ratio de riesgo relativo

    para un cambio unitario en la variable correspondiente.

    Ejemplo

    Se tienen datos acerca del tipo de seguro de salud disponible para 616

    personas que sufren de depresin en Estados Unidos. El seguro es

    categorizado en dos planes: plan de indemnizacin y de prepago.

  • 100 Instituto de Informtica

    Variable dependiente limitada

    La tercera posibilidad es que no se tenga seguro alguno. Usted desea

    estudiar los factores demogrficos asociados a cada categora de seguro.

    Como introduccin a la muestra, uno de los factores demogrficos es la

    raza de los individuos, codificado como blanco o no blanco:

    use http://www.stata-press.com/data/r8/sysdsn3

    Se rechaza la hiptesis nula de que las columnas y las filas son

    independientes (prueba Chi cuadrado). Aunque en el cuadro el seguro

    aparece como Indemnity, prepaid y Uninsure, el seguro en realidad toma

    los valores de 1, 2 y 3. Los nombres aparecen porque las variables

    numricas del seguro han sido asociadas con ellos.

    Cuando se estima un modelo logit multinomial, usted puede sealar a

    mlogit la categora base que desea utilizar o puede permitir que mlogit

    escoja. Para ajustar un modelo de seguro sobre nonwhite, dejando que

    mlogit escoja la categora base, digitamos:

    .tabulate insure nonwhite, chi2 col

  • 101 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    mlogit insure nonwhite

  • 102 Instituto de Informtica

    Variable dependiente limitada

    El ratio de riesgo relativo de prepaid sobre la categora base (indemnity)

    es:

    Si se cambia el grupo base:

    . mlogit insure nonwhite, base(2)

    Multinomial logistic regression Number of obs = 616

    LR chi2(2) = 9.62

    Prob > chi2 = 0.0081

  • 103 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    5.2.2. Probit o Logit ordenado

    Una variable es ordinal cuando sus categoras pueden ser ordenadas:

    encuestas de opinin (de acuerdo o descuerdo), niveles de pobreza, entre

    otros. El modelo probit o logit ordenado se estima con el objetivo de

    determinar de forma paramtrica la probabilidad de pertenencia en cada

    una de las categoras contempladas. El modelo tiene la siguiente forma:

    Con Z como el conjunto de variables independientes y un residuo que se

    asume normalmente distribuido entre las observaciones en el caso se

    asuma normalidad o logstica en el otro caso. Con el fin de no obtener

    probabilidades negativas se normaliza tanto la media como la varianza de

    dentro del rango [0, 1]. De esta manera, si p1, p2 y p3 son los grupos

    determinados endgenamente determinados por el algoritmo propuesto

    por Esteban y otros (1999) se tiene

    donde los s son parmetros desconocidos a estimarse en el modelo.

    use http://www.ats.ucla.edu/stat/stata/examples/long/ordwarm2, clear

    describe

  • 104 Instituto de Informtica

    Variable dependiente limitada

    sum warm yr89 male white age ed prst

    Logit ordenado

    . ologit warm yr89 male white age ed prst

    Iteration 0: log likelihood = -2995.7704

    Iteration 1: log likelihood = -2846.4532

    Iteration 2: log likelihood = -2844.9142

    Iteration 3: log likelihood = -2844.9123

  • 105 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Del mismo modo el comando para el modelo probit ordenado es -oprobit-.

    Las siguientes lneas permiten estimar ambos modelos y compararlos:

    ologit warm yr89 male white age ed prst

    est store modelo1

    oprobit warm yr89 male white age ed prst

    est store modelo2

    est table modelo1 modelo2

  • 106 Instituto de Informtica

    Variable dependiente limitada

  • 107 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    6. Datos de panel

    En esta seccin se emplear la base nlswork.dta la misma que contiene una

    muestra de 4711 mujeres con trabajo remunerado de 14 a 26 aos cumplidos al

    ao 1968 y que fueron encuestadas a lo largo de 21 aos (1968-1988) excepto

    los aos 1974, 1976, 1979, 1981, 1984, y 1986. La variable dependiente en todas

    las estimaciones es el logaritmo del ingreso. Se recurrirn a algunos comandos

    que no estn cargados en Stata. Es importante entonces que antes de iniciar

    escribas en la lnea de comando (mientras ests conectado a Internet) las

    siguientes indicaciones:

    ssc install xtserial //Si este comando no funciona, intente: -findit xtserial-

    ssc install xttest2

    ssc install xttest3

    Los datos se encuentran alojados en la siguiente ruta:

    6.1. Controlando la heterogeneidad dentro de un panel

    Regresin agrupada (pooled ols)

    El enfoque ms simple de analizar datos tipo panel es omitir las

    dimensiones del espacio y el tiempo de los datos agrupados y slo

    calcular la regresin MCO usual. Este modelo se expresa como:

    use http://www.stata-press.com/data/r10/nlswork.dta

    des

    sum

    generate age2 = age*age generate black = (race==2)

  • 108 Instituto de Informtica

    Datos de Panel

    Donde i significa la i-sima unidad transversal (estado) y t el tiempo t

    (ao). Si tratamos de explicar la variable spend con las variables

    independientes de la clase pasada, basta con que indiquemos en la

    ventana de comandos de Stata:

    Efectos aleatorios

    La ecuacin (1) supone que el intercepto de la regresin es la

    misma para todas las unidades transversales. Sin embargo, es muy

    probable que necesitemos controlar el carcter individual de cada

    estado. El modelo de efectos aleatorios permite suponer que cada

    unidad transversal tiene un intercepto diferente. Este modelo se

    expresa como:

    Donde i + ui

    Es decir, en vez de considerar a como fija, suponemos que es una

    variable aleatoria con un valor medio y una desviacin aleatoria de

    este valor medio. Sustituyendo en i + ui (2) obtenemos:

    Stata estima el modelo de efectos aleatorios con el comando xtreg, re. En

    nuestro ejemplo, indicamos en la ventana de comandos:

    reg ln_wage age age2

    xtreg ln_wage age age2, re

  • 109 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Si analizamos la ecuacin (3), observamos que si la varianza de u es

    igual a cero, es decir u2 = 0, entonces no existe ninguna diferencia

    relevante entre (1) y (3). Cmo podemos saber si es necesario usar el

    modelo de efectos aleatorios o el de datos agrupados? Breusch y Pagan

    formularon la prueba conocida como Prueba del Multiplicador de Lagrange

    para Efectos Aleatorios. La hiptesis nula de esta prueba es que Si

    la prueba se rechaza, s existe diferencia entre (1) y (3), y es preferible

    usar el mtodo de efectos aleatorios4. La prueba de Breusch y Pagan se

    implementa en Stata con el comando xttest0 despus de la estimacin de

    efectos aleatorios.

    . xtreg ln_wage age age2, re

    . xttest0

    Breusch and Pagan Lagrangian multiplier test for random effects

    ln_wage[idcode,t] = Xb + u[idcode] + e[idcode,t]

    4 Recuerde que referencialmente una Hiptesis nula se rechaza si el p-value es pequeo, menor a 0.10, por

    ejemplo.

  • 110 Instituto de Informtica

    Datos de Panel

    El p-value nos indica que podemos rechazar la Ho; por lo tanto, los

    efectos aleatorios i u son relevantes y es preferible usar la estimacin

    de efectos aleatorios en vez de la agrupada.

    - Efectos fijos

    Otra manera de modelar el carcter individual de cada estado es a

    travs del modelo de efectos fijos. Este modelo no supone que las

    diferencias entre personas sean aleatorias, sino constantes o fijasy

    por ello debemos estimar cada intercepto ui . Cmo podemos permitir

    que el intercepto vare con respecto a cada estado? Una manera es la

    tcnica de las variables dicotmicas de interseccin diferencial, que

    se expresa de la siguiente manera5

    Donde es un vector de variables dicotmicas para cada estado. El modelo

    de efectos fijos puede ejecutarse en Stata con el comando:

    . xi: reg ln_wage age age2 i.idcode

    O

    . areg ln_wage age age2,a(idcode)

    El cual estima una dummy para cada estado.

    Una opcin ms sencilla es el comando

    xtreg: . xtreg ln_wage age age2, fe

    5 Como repasamos en clase, utilizar variables dicotmicas conduce al mismo resultado que si

    restamos a cada observacin la media de cada estado (demeaning the data).

  • 111 Pontificia Universidad Catlica del Per

    STATA 11 para economistas

    Qu modelo es mejor (1) (4)?

    En relacin con el modelo (4), el (1) es un modelo restringido, pues asume

    un intercepto comn para todos las personas (es decir, no incluye

    variables dicotmicas de cada persona). Por lo tanto, podemos utilizar una

    prueba F restrictiva para contestar la interrogante. La hiptesis nula es que

    v1= v2= vi =0 (o sea, que todas las variables dicotmicas estatales son

    iguales cero). Si la prueba se rechaza, significa que al menos algunas

    variables dicotmicas s pertenecen al modelo, y por lo tanto es necesario

    utilizar el mtodo de efectos fijos. La prueba F de significancia de los

    efectos fijos se reporta automticamente con el comando xtreg, fe.

    Al final del output de la estimacin de efectos fijos aparece:

    El p-value nos indica que podemos rechazar la Ho, por lo que es

    preferible usar el mtodo de efectos fijos al modelo agrupado.

    - Efectos fijos vs. aleatorios

    Las pruebas de Breusch y Pagan para efectos aleatorios, y la prueba F

    de significancia de los efectos fijos nos indican que tanto el modelo de

    efectos aleatorios como el de efectos fijos son mejores que el modelo

    agru