Temario 1.docx

24
ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL. FACULTAD DE CIENCIAS SOCIALES Y HUMANÍSTICAS. Investigación de Regresión Logística Curso de Economía Estadística Computarizada 261 Nombre del Profesor: PhD. Víctor Hugo González Fecha de entrega: 06/Diciembre/2013 Integrantes: Francisco Erazo P.

Transcript of Temario 1.docx

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL.

FACULTAD DE CIENCIAS SOCIALES Y HUMANÍSTICAS.

Investigación de Regresión Logística

Curso de Economía Estadística Computarizada 261

Nombre del Profesor: PhD. Víctor Hugo González

Fecha de entrega: 06/Diciembre/2013

Integrantes:

Francisco Erazo P.

Yael Negrete S.

Temario 11. Modelos variable dependiente limitada.

La expresión funcional del modelo de análisis de la regresión múltiple es y= F(X1, X2, -…, Xn). La regresión múltiple admite la posibilidad de trabajar con variables dependientes cuyo rango de valores está restringido (variables binarias con valores 0 y 1, y variables con valores enteros positivos, etc.). En general, los modelos que admiten variables dependientes con rango restringido denominado modelo de variable dependiente limitada.

La mayoría de las variables económicas que se analizan presentan valores que están limitados de alguna manera, en muchas ocasiones porque deben ser positivos. Por ejemplo, el salario por hora, los precios de las viviendas, y los tipos de interés nominales deben ser mayores que cero. Pero no todas esas variables requieren un trato especial. No suele ser necesario ningún modelo econométrico especial para tratar las variables que son estrictamente positivas pero que toman valores diferentes. Cuando la variable dependiente es discreta (modelo de elección discreta) y toma un reducido número de valores, no tiene sentido que la tratemos como si fuera una variable aproximadamente continua. El hecho de que la variable dependiente sea discreta no implica necesariamente que los modelos lineales no sean apropiados. Sin embargo, las respuestas binarias (modelo de elección binaria), suele utilizarse los modelos Logit y Probit y en ciertos casos el modelo lineal de probabilidad. También para respuestas múltiples (modelo de elección múltiple) se utilizan los modelos Logit y Probit.

Otro ejemplo importante de variable dependiente ilimitada es la variable de recuento, que toma valores enteros no negativos. Un modelo de datos de recuento es aquel que tiene como variable dependiente una variable discreta de recuento que toma valores enteros no negativos. Los modelos de regresión de Poisson son apropiados para analizar las variables de recuento.

En el análisis económico aparecen otros tipos de variables dependientes limitadas, especialmente cuando analizamos el comportamiento de individuos, familias, o empresas. Por ejemplo, supongamos que durante un año concreto una gran cantidad de familias de una región no realiza ninguna donación caritativa. Por tanto, la distribución de la población de las donaciones que realizan las familias está muy dispersa sobre valores positivos, pero con una alta concentración en el valor cero. Estamos aquí ante un ejemplo de solución de esquina, el modelo Tobit está diseñado explícitamente para variables dependientes que presentan soluciones de esquina. Estas variables valen cero para una proporción de la población considerable pero se distribuye de forma aproximadamente continua para los valores positivos.

Otro tipo de variables dependientes limitadas son las originadas por la censura de datos. Un modelo de regresión censurado es aquel cuya variable dependiente esta censurada por

encima (censura superior) o por debajo (censura inferior) de algún valor, es decir, la variable dependiente no se observa para una parte de la población. En los modelos de regresión censurados la variable dependiente subyacente es aproximadamente continua, pero está censurada inferior y superiormente, debido a la forma en que recopilamos los datos a las limitaciones institucionales.

Un modelo de regresión truncada es parecido a un modelo de regresión censurada, pero tiene alguna diferencia importante: es un modelo de regresión truncada, no disponemos de los datos acerca de algún segmento importante de la población y, quizá porque es costoso, ignora al resto de la población. Se trata de un caso particular del problema general de la selección muestral, donde observamos una muestra no aleatoria de la población subyacente.

Podemos usar los modelos de variables dependientes limitadas para series temporales y datos de panel, pero son más frecuentes en datos de corte transversal. Los problemas de la selección muestral surgen normalmente como datos de corte transversal y datos de panel.

a. Modelo lineal de probabilidad.

Se utiliza para denotar un modelo de regresión en el que la variable dependiente Y es dicotómica o binaria, y toma el valor de 1 o 0. Por motivos de aprendizaje, asumiremos una sola variable independiente (X).

La variable Y es una variable indicadora que denota la ocurrencia o no ocurrencia de un evento.

El modelo se describe como:

Con

La esperanza condicional , se interpreta como la probabilidad de que

suceda el evento, dado

El valor calculado de Y a través de la ecuación de regresión nos da la probabilidad estimada de que ocurre el evento, dado un valor específico para X. En la práctica, estas probabilidades estimadas pueden encontrarse fuera del rango admisible (0,1).

b. Modelos Probit y Logit.

El modelo de regresión de Probit y Logit

no se observa ( se conoce como variable latente).

Lo que se observa es una variable indicadora definida por:

La distinción entre la especificación (2) y el modelo de probabilidad lineal es que en este ultimo se analizan variables binarias tal como son, en tanto que en (2) se supone la existencia de una variable latente subyacente para que la que se observa una evidencia dicotómica. Ejemplo:

la persona tiene o no empleo.

la propensión o capacidad de encontrar empleo.

si la persona compra o no un auto.

el deseo o capacidad de adquirir un auto.

Por lo tanto, las variables explicativas de (2) contendrán variables que expliquen ambos elementos.

Supongamos que , esto nos permite fijar la escala de Combinando (2) y (3) obtenemos:

Donde F es la función de distribución acumulada de u.

Si la distribución de u es simétrica, entonces , la expresión anterior se puede escribir:

Los observados son solo realizaciones de un proceso binomial cuyas probabilidades

están dadas por (4) y que varian de un ensayo a otro (dependiendo de ), entonces la función de verosimilitud se puede escribir:

La forma funcional para F en (4) dependerá de la suposición en torno al termino de error u.

Se ha creado un problema de estimación porque es no lineal no solamente en sino

también en los ; entonces no se puede estimar mediante mínimos cuadrados ordinarios. En esta situación, es preciso recurrir al método de máxima verosimilitud para estimar los parámetros.

El método de máxima verosimilitud consiste en la maximización de la función de verosimilitud (5) para el modelo LOGIT Y PROBIT y esto se logra por medio de métodos no lineales de estimación. La función de verosimilitud es cóncava (no tiene múltiples máximos) y por lo tanto, cualquier valor inicial de los parámetros será útil. Es costumbre comenzar las iteraciones para el modelo LOGIT Y PROBIT con los estimados del modelo de probabilidad lineal.

Si la información disponible es sobre familias individuales, donde si una familia

posee una casa y si no la posee, entonces el modelo a estimar es (5) por el método de máxima verosimilitud.

Construcción de un modelo LOGIT O PROBIT.

Los requisitos para la construcción de un modelo LOGIT O PROBIT son:

Contar con una muestra representativa de clientes cumplidos e incumplidos, cuyo tamaño mínimo se establece vía criterios estadísticos.

Contar con suficiente información de los clientes contenida en sus solicitudes de crédito o expedientes.

Seleccionar las posibles variables explicativas de la probabilidad de default de los clientes, en base al conocimiento o experiencia previa y a procedimientos estadísticos (test de significancia individual).

Escoger el modelo más apropiado en base a test estadísticos sobre la "bondad de ajuste" o "calidad predictiva" del modelo.

2. Modelos de elección Discreta binaria

Dentro de los modelos de elección discreta en los que el conjunto de elección tiene sólo dos alternativas posibles mutuamente excluyentes, consideramos el modelo lineal de probabilidad, el modelo Logit y el modelo Probit.

Modelo Lineal de probabilidad

Partimos del modelo de regresión lineal habitual:

Una de cuyas hipótesis es:

Lo que nos lleva a escribir el modelo como:

Pero en el caso de los modelos de elección discreta en los que el conjunto de elección tiene sólo dos alternativas posibles mutuamente excluyentes, Y es una variable aleatoria de Bernouilli de parámetro p, lo que nos permite escribir:

Estamos ahora ante el modelo lineal de probabilidad, donde, por ejemplo, βi mide las variación en la probabilidad de “éxito” (Y=1) ante una variación unitaria en X1 (con todas las demás variables constantes).

Como Y es una variable aleatoria de Bernouillo:

Tenemos entonces:

Para cada observación V (ui) = (1-pi) ya que Y es una variable aleatoria de Bernouilli.

Estamos entonces ante un modelo con heteroscedasticidad porque la varianza del error no es constante, ya que para cada valor de X1 ….. Xk, la varianza del error tiene un valor diferente (V (u) no es constante). Además, Y es una variable de Bernouilli, con lo que tampoco se cumple la hipótesis de la normalidad. Ello obliga a estimar estos modelos por un método alternativo a mínimos cuadrados ordinarios, por ejemplo, utilizando estimadores máximo verosímiles, de mínimos cuadrados generalizados o robustos a la heteroscedasticidad (White).

Realizada la estimación del modelo lineal de probabilidad tenemos que:

Se puede interpretar como una estimación de la probabilidad “éxito” (de que Y=1). En

algunas aplicaciones tiene sentido interpretar como la probabilidad de éxito cuando

todas las Xj valen 0.

Otra limitación importante del modelo lineal de probabilidad es que para ciertas

combinaciones de las variables explicativas X1,…, Xk, las probabilidades estimadas

pueden ser mayores que cero o menores que uno.

a) Logit Multinomial

Este tipo de modelos es el que se utiliza con más frecuencia en los trabajos aplicados.

En este modelo los valores de las variables explicativas varían para cada individuo pero son constantes para cualquier alternativa, por lo que no se puede apreciar la influencia de la variable en cada alternativa a no ser que se introduzca una variable ficticia, multiplicada por los valores de Wi, que represente a cada alternativa. Para evitar problemas de singularidad, el número de variables ficticias a introducir en el modelo será igual al número de alternativas menos uno (J-1).

La formulación de un Logit Multinomial queda recogida a través de la siguiente ecuación:

(6)

donde j representa el índice asociado a cada alternativa y va desde 0 hasta (J-1). El vector de parámetros lleva asociado el subíndice correspondiente a la alternativa concreta analizada. Las ecuaciones estimadas proporcionan un conjunto de probabilidades para cada una de las alternativas que puede tomar un individuo i y tenga Xi como características individuales.

En el modelo Logit Multinomial existe una indeterminación cuando se trata de estimar el valor de los parámetros. Para solucionar este problema se normaliza el modelo tomando

para los parámetros que acompañan a la alternativa cero el valor cero,

Las probabilidades resultantes son

(7)

Donde se tiene que cumplir que

Para el caso sencillo de un modelo en el que la variable endógena presenta tres posibles alternativas de elección y sólo existe una variable explicativa en la modelización, la probabilidad asociada a cada una de las alternativas posibles de elección tomarían las siguientes expresiones:

(8)

Con

Y la matriz de diseño X vendrá expresada como:

b) Logit condicional

Cuando las variables explicativas que se utilizan para estimar las probabilidades asociadas a cada una de las posibles alternativas que presenta la variable endógena se refieren a

atributos de las distintas alternativas, y no a características específicas de los individuos, el modelo que se utiliza en la estimación es el llamado Logit Condicional.

En este caso, el valor de cada variable variará para cada alternativa y puede hacerlo o no para cada individuo.

La diferencia de este modelo con el Logit Multinomial es que en este caso solo existe un vector de parámetros a estimar, mientras que en el caso anterior existían tantos vectores como alternativas menos una. Es por ello, que en la formulación del modelo el vector de parámetros, al ser único, no lleva asociado ningún subíndice relacionado con la alternativa a la que acompaña, como ocurría en el caso anterior.

La otra diferencia hace referencia a que en este caso no existe ninguna indeterminación a la hora de estimar los parámetros, por lo que no es necesario igualar ningún vector b a cero.

La expresión formal del modelo queda definida como:

(9)

c) Logit Anidado

Uno de los problemas que se plantean en los modelos expuestos de respuesta múltiple es el de que se construyen bajo la hipótesis de presencia de alternativas irrelevantes o superfluas, según la cual la relación entre las probabilidades de decidir entre dos alternativas no depende del resto de las alternativas. Esta propiedad se debe al supuesto inicial de que las perturbaciones aleatorias del modelo son independientes, es decir, las perturbaciones afectan de la misma forma a la diferencia de utilidad entre cualquier par de alternativas. El caso contrario sería la presencia de autocorrelación en el modelo, lo cual se daría, por ejemplo, cuando un individuo percibe unas alternativas más similares entre sí que otras.

Si bien asumir la hipótesis de independencia de las alternativas irrelevantes simplifica el proceso de estimación, supone una restricción en la modelización del comportamiento de los individuos que no parece razonable en determinadas circunstancias. Así, esta propiedad carece de validez cuando algunas de las alternativas son sustitutivos cercanos, ya que en este caso existirían alternativas correlacionadas. Como alternativa para relajar la hipótesis de independencia de alternativas irrelevantes, se ha desarrollado el modelo Logit anidado o Logit jerárquico (que en terminología anglosajona es conocido como Nested Logit).

La construcción del modelo se realiza agrupando el conjunto de alternativas posibles en subgrupos y manteniendo la hipótesis de independencia de alternativas irrelevantes dentro de cada grupo y en la elección entre grupos. En este modelo, la elección de una de las alternativas posibles se realiza en dos o más etapas, definiéndose una estructura arbórea:

primero se escoge entre los conjuntos de alternativas y después se elige una alternativa específica perteneciente al conjunto seleccionado en principio.

Suponiendo que las J alternativas posibles pueden dividirse en L conjuntos de alternativas, y que las variables explicativas del modelo son Xj/l, las que se relacionan con las alternativas dentro de un grupo, y Zl, las que se relacionan con los conjuntos de alternativas, la forma matemática del modelo queda expresada como:

(10)

Donde

Uno de los aspectos problemáticos de este modelo radica en la especificación de la estructura arbórea. En algunos casos, la partición en subgrupos del conjunto de alternativas posibles se hace de modo natural. Sin embargo, en otros casos, dicha partición del conjunto de posibles alternativas se hace sin ningún criterio lógico, por lo que resulta preocupante que los resultados obtenidos dependan de cómo se han definido las ramas. De momento, no existe ningún contraste que permita seleccionar la mejor estructura arbórea de entre varias, por lo que muchos de los trabajos empíricos que estiman este modelo presentan los resultados supuestas distintas especificaciones de la estructura arbórea.

d) Probit Multinomial

Modelo Probit multinomial es una generalización del modelo Probit utilizado cuando hay varias categorías posibles que la variable dependiente puede caer. Como tal, es una alternativa a la Logit modelo como un método de clasificación multiclase. No se debe confundir con el multivariante modelo Probit, que se utiliza para modelar los resultados binarios correlacionados para más de una variable dependiente.

Se supone que tenemos una serie de observaciones Yi , para i = 1 ... n , de los resultados de las elecciones en múltiples sentidos de una distribución categórica de tamaño m. Junto con cada observación Yi es un conjunto de k valores observados X1, i , ..., Xk, i de variables explicativas (también conocidos como variables independientes)

Algunos ejemplos:

Los resultados observados podrían ser "tiene la enfermedad A, tiene la enfermedad B, tiene la enfermedad de C, no tiene ninguna de las enfermedades" para un conjunto de enfermedades raras con síntomas similares, y las variables explicativas podrían ser características de los pacientes que se consideran pertinentes (sexo, la raza, la edad, la presión arterial, índice de masa corporal, presencia o ausencia de diversos síntomas, etc).

Los resultados observados son los votos de la gente para un partido determinado o un candidato en una elección en múltiples sentidos, y las variables explicativas son las características demográficas de cada persona (por ejemplo, sexo, raza, edad, ingresos, etc.)

El modelo Probit multinomial es un modelo estadístico que se puede utilizar para predecir el resultado probable de un ensayo multi-modo inadvertido dadas las variables explicativas asociadas. En el proceso, el modelo trata de explicar el efecto relativo de las variables explicativas diferentes sobre los diferentes resultados.

Formalmente, el resultado Y i se describen como distribuidos categóricamente- datos, donde cada valor de resultado h para la observación i ocurre con una probabilidad no observada p i, h que es específica para la observación i en la mano, ya que está determinado por los valores de las variables explicativas asociadas con esa observación. Esto es:

O equivalente

Para cada uno de m valores posibles de h.

Probit multinomial se escribe a menudo en términos de un modelo de variable latente:

Donde

Entonces

Es decir

3. Modelo Logit y Probit ordenados

Los modelos de elección múltiple vistos hasta ahora no tienen en cuenta la naturaleza ordinal de Y. a veces en los modelos de elección múltiple Y es una respuesta ordenada y el valor asignado a cada alternativa no es arbitrario. Estamos entonces ante los modelos de respuesta ordenada. Por ejemplo, cuando Y puede reflejar la valoración de un crédito es una escala de 0 a 6.

Sea Y una variable des respuesta ordenada que toma valores (0, 1,2,…, J). El modelo Probit o Logit ordenado para Y (condicionando a unas variables explicativas X) se puede derivar de un modelo de variable latente.

Donde X no contiene constante, β contiene k parámetros y

puntos de corte desconocidos. Definimos:

la distribución condicional de Y dado X vendrá dada por:

Si j=1 tenemos que el Probit binario con la constante –α1 incluida dentro de (en los binarios solemos poner el punto de corte en cero ye estimar la constante). Los parámetros α y β se pueden estiamr por el método de máxima verosimilitud. Si en vez de emplear

utilizamos la logística Λ(.) tendremos el Modelo Logit Ordenado.

Para el Probit ordenado tenemos que los efectos parciales son:

El signo de βk solo determina el signo del efecto parcial para P (Y=0/X) y P (Y=J/X), pero no para el resto.

Podemos aplicar estos modelos de respuestas ordenada en casos en que Y tiene un sentido cuantitativo pero también nos interesa conocer la naturaleza de la respuesta ordenada discreta. En estos casos puede interesarnos conocer:

Donde ɑ0, ɑ1,…, ɑj son los valores que toma la variable. Una vez que estimemos las probabilidades podemos estimar E (Y/X) para cualquier valor de X que nos interese.

4. Modelos censurados. El modelo Tobit

Un determinado tipo muy especial de variables dependientes limitadas son las originadas por la censura de datos. Un modelo de regresión censurado es aquel cuya variable dependiente está censurada por encima (censura superior) o por debajo (censura inferior) de algún valor, es decir, la variable dependiente no se observa para una parte de la población. En los modelos de regresión censurados la variable dependiente subyacente es aproximadamente continua, pero está censurada inferior y superiormente, debido a la forma en que recopilamos los datos a las limitaciones institucionales.

Un caso particular de censura de datos se presenta cuando la variable dependiente vale cero para una gran parte de la población y es continua para los valores positivos. Estamos entonces ante modelo de variable limitada con solución de esquina. El modelo Tobit está diseñado explícitamente para variables dependientes que presentan soluciones de esquina. Estas variables valen cero para una proporción de población considerable pero se distribuye de forma aproximadamente continua para los valores positivos.

El modelo de regresión censurado Tobit o Tobit tipo I se expresa como sigue:

Que también puede escribirse como:

Hemos formulado el modelo Tobit en términos de una variable latente Y*, que satisface los supuestos del modelo de regresión clásico, distribución normal, homocedástica y con media condicional lineal.

La densidad de Y dado X es la misma que la de Y* dado X para los valores positivos.

Además sabemos que:

Por tanto, dada una muestra aleatoria de la población, podemos escribir el logaritmo de la función verosimilitud como:

Al maximizar la función verosimilitud obtenemos los estimadores MV de β y de α. Se puede obtener los errores estándar de los coeficientes estimados y construir estadísticos t de Student para contrastes. También se puede emplear el estadístico de Wald y RV.

a) Interpretación de los coeficientes en el modelo Tobit

Observamos que:

Y utilizando que si z , se tiene:

Ratio de Mills

Entonces, si realizamos estimaciones del modelo Tobit por MCO empleando sólo las observaciones para las que Y>0, omitiendo ceros, obtendríamos un estimulador de β insesgado e inconsistente, porque omitiríamos el radio de Mills que esta correlacionado con X.

En el modelo Tobit tenemos:

Por otro lado:

Y teniendo presente el valor del segundo término de la ecuación anterior en función del ratio de Mills, podemos escribir:

Estamos entonces ante una función no lineal de X y de β, que nos permite llegar a la conclusión de que si estimamos el modelo Tobit por MCO como un modelo lineal con todas las observaciones no tendremos estimadores consistentes.

b) Efectos parciales, modelo TOBIT con censura en los datos

Si Xj es una variable continua, el efecto parcial sobre el valor esperado de Y en la subpoblación de valores positivos dependerá de β1 y de un término entre 0 y 1 valdrá (*).

Podemos estimar este efecto parcial empleando las estimulaciones MV y de β y de α para los valores medios de x o para otros que sean de interés en nuestras aplicaciones. Si Xj es una variable binaria podemos calcular la diferencia entre E (Y/Y>, X) para Xj= 1 y Xj= 0. De forma similar se puede hacer para cualquier Xj, discreta.

Así mismo si X es una variable continua, podemos calcular el efecto parcial sobre el valor esperado de Y. Ese efecto parcial se puede descomponer en 2 partes, el efecto sobre el valor medio de Y en la parte positiva de la distribución y en el efecto sobre la probabilidad entre la otra parte de distribución. Tenemos (**):

Como:

Derivando se tiene (***):

Sustituyendo (*) y (***) en (**) se tiene:

Este valor de los efectos lo podemos estimar fácilmente estimando las aplicaciones MV DE β y de σ para los valores medios de X o para otros que sean de valor en nuestras aplicaciones.

El modelo Tobit está basado en los supuestos de normalidad y homocedasticidad en el modelo de la latente, cuando no se cumplen el problema no es solo la inconsistencia del estimador aplicaciones MV DE β y de  σ. Ni siquiera las expresiones de las esperanzas condicionales son las adecuadas se puede generalizar el modelo para permitir ciertas formas de heterocedasticidad y de no normalidad. También existen contrastes de ciertos tipos de normalidad y de heterocedasticidad como por ejemplo:

Pero para incumplimiento leve de los supuestos se piensa que el modelo Tobit puede generar una buena aproximación de los efectos parciales.

c) Estimación máximo verosímil del modelo Tobit truncado

Formulación:

Modelo regresión lineal para variables censuradas.

Sea y, variable censurada con punto de censura inferior a. Sea y*, variable aleatoria original subyacente.

Entonces:

y = a cuando y* ≤ a y = y* cuando y* > a

y* ~ N(µ,σ2)

Probabilidad censura:

P (y*≤a) = Φ {(a-µ)/σ} P (y*>a) = 1 – P (y*≤a) = 1 – Φ {(a-µ)/σ} = Φ {(µ-a)/σ}

Función de densidad de y:

P (y=a) = P (y*≤a) = Φ {(a-µ)/σ} cuando y* ≤ a y* ~ N (µ,σ2) cuando y* > a

Estimación:

Formulación del modelo:

E [yi*|xi] = X’β Pero... valores de y* desconocidos. Sólo se conocen valores de y censurada

Modelizar E [yi|xi] en función de E[yi*|xi]:

E [yi|xi] = E [yi*|xi]·P(yi*>a|xi)+a·P(yi*≤a|xi)

Estimación por máxima verosimilitud eficiente y consistente.

Función de verosimilitud:

Generalizable para y* con varios puntos de censura.

Interpretación:

Estudio de x asociada con y*.

Estimación β modelo Tobit representa directamente efecto marginal de x sobre y*.

Estudio de x asociada con y:

Ponderar estimaciones β por P(y* ≤a):

Bibliografía:

César Pérez López, Problemas Resueltos de Econometría, Thomson. Jordi Arcarons Bullich; Samuel Calonge Ramirez, Microeconometria: Introduccion

y Aplicaciones, Delta. http://sct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/files/presentaciontobias.pdf http://webs.uvigo.es/alvarez/teaching_archivos/ectria2_0708/tema_selection2.pdf http://www.icesi.edu.co/e_portafolio/artefact/file/download.php?

file=1537&view=286 http://www.uam.es/personal_pdi/economicas/rmc/econometria/pdf/

Intro_ANALISIS%20LOGIT.pdf

http://economia.uprrp.edu/notas%20de%20clase%207.pdf