Modelos de regresión logística incondicional

download Modelos de regresión logística incondicional

of 23

Transcript of Modelos de regresión logística incondicional

Modelos de regresin logstica incondicional (I)Parte I Parte II

ndice1. 2. 3. 4. 5. Introduccin Introduccin al modelo de regresin logstica Introduccin a la seleccin de variables Multicolinealidad Anexos

IntroduccinEsta nota pretende la introduccin, de la forma ms amena posible pero de forma extensa, de conceptos en relacin con el manejo de los modelos de regresin logstica incondicional, es decir, modelos basados en observaciones independientes. Existen modificaciones del modelo incondicional que nos permiten manejar datos dependientes, como ocurre para los estudios caso-control pareados. A lo largo del texto general aparecern las mnimas formulaciones necesarias, atendiendo principalmente a conceptos y estrategias de diseo. Aparte del texto general, en el apartado de Anexos, aparecern siempre que se crea necesario, explicaciones breves, ejemplos o bien desarrollos matemticos para que aquellos lectores que posean un conocimiento de clculo suficiente puedan desarrollar sus aplicaciones informticas propias. Os recomiendo la siguiente bibliografa: 1. Hosmer DW, Lemeshow S. Applied Logistic regression. John Willey & Sons, Inc. 2 Ed. 2000. 2. Carrasco JL, Hernn MA. Estadstica multivariante en las ciencias de la vida. Editorial Ciencia 3. Madrid. 1993.

3. Klinbaum DG, Kupper LL, Morgenstern H. Epidemiologic research. Principles and quantitative methods. Van Nostrand Reinhold. 1982.

Introduccin al modelo de regresin logsticaLos modelos de regresin son modelos estadsticos en los que se desea conocer la relacin entre:

Una variable dependiente cualitativa, dicotmica (regresin logstica binaria o binomial) o con ms de dos valores (regresin logstica multinomial). Una o ms variables explicativas independientes, o covariables, ya sean cualitativas o cuantitativas.

... siendo la ecuacin inicial del modelo de tipo exponencial, si bien su transformacin logartmica (logit) permite su uso como una funcin lineal. Como vemos, las covariables pueden ser cuantitativas o cualitativas. Las covariables cualitativas deben ser dicotmicas, tomando valores 0 para su ausencia y 1 para su presencia (esta codificacin es importante, ya que cualquier otra codificacin provocara modificaciones en la interpretacin del modelo). Pero si la covariable cualitativa tuviera ms de dos categoras, para su inclusin en el modelo deberamos realizar una transformacin de la misma en varias covariables cualitativas dicotmicas ficticias o de diseo (las llamadas variables dummy), de forma que una de las categoras se tomara como categora de referencia. Con ello cada categora entrara en el modelo de forma individual. En general, si la covariable cualitativa posee ncategoras, habr que realizar n-1 covariables ficticias. Un ejemplo con la covariable color de ojos:Categoras Azules (categora de referencia) Verdes Marrones F1 0 1 0 F2 0 0 1

En este ejemplo un sujeto de ojos azules (la categora de referencia), entrara en el modelo con F1=0 y F2=0, mientras que un sujeto con ojos verdes entrara con F1=1 y F2=0.

Por sus caractersticas, los modelos de regresin logstica permiten dos finalidades: 1. Cuantificar la importancia de la relacin existente entre cada una de las covariables y la variable dependiente, lo que lleva implcito tambin clarificar la existencia de interaccin y confusin entre covariables respecto a la variable dependiente (es decir, conocer la odds ratio para cada covariable). 2. Clasificar individuos dentro de las categoras (presente/ausente) de la variable dependiente, segn la probabilidad que tenga de pertenecer a una de ellas dada la presencia de determinadas covariables. En esta nota me ocupar nicamente de los modelos de regresin logstica binaria. Resultan los de mayor inters ya que la mayor parte de las circunstancias analizadas en medicina responden a este modelo (presencia o no de enfermedad, xito o fracaso, etc). Como hemos visto, la variable dependiente ser una variable dicotmica que se codificar como 0 1 (ausencia y presencia respectivamente). Este aspecto de la codificacin de las variables no es vanal (influye en la forma en que se realizan los clculos matemticos), y habr que tenerlo muy en cuenta si empleamos paquetes estadsticos que no recodifican automticamente nuestras variables cuando stas se encuentran codificadas de forma diferente (por ejemplo el frecuente uso de 1 para la presencia y -1 2 para la ausencia). La ecuacin de partida en los modelos de regresin logstica es como sigue:

Ecuacin 1 ... siendo P(y=1|X) la probabilidad de que y tome el valor 1 (presencia de la caracterstica estudiada), en presencia de las covariables X (aqu X es un conjunto de n covariables x1, x2, ... , xn-1, xn). Los componentes de esta ecuacin son:

1. 2. 3. 4.

b0 es la constante del modelo o trmino independiente n el nmero de covariables bi los coeficientes de las covariables xi las covariables que forman parte del modelo.

Es lo que se denomina distribucin logstica. En la siguiente imagen vemos un ejemplo de esta distribucin: la probabilidad de padecer enfermedad coronaria en funcin de la edad. Como puede verse, la relacin entre la variable dependiente (cualitativa dicotmica), y la covariable (edad, cuantitativa continua en este caso), no es definida por una recta (lo que correspondera un modelo lineal), sino que decribe una forma sigmoidea (distribucin logstica).

Figura 1 Si dividimos la expresin anterior de la Ecuacin 1 por su complementario, es decir, si construimos su odds (en el ejemplo de presencia o no de enfermedad, la probabilidad de estar enfermo entre la probabilidad de estar sano), obtenemos una expresin de de ms fcil manejo matemtico:

Ecuacin 2 Pero esta expresin an es difcil de interpretar. Su representacin grfica es como se ve en la Figura 2.

Figura 2 Si ahora realizamos su transformacin logartmica con el logaritmo natural, obtenemos una ecuacin lineal que es lgicamente de manejo matemtico an ms fcil y de mayor comprensin:

Ecuacin 3 En la expresin de la Ecuacin 3 vemos a la izquierda de la igualdad el llamado logit, es decir, el logaritmo natural de la odss de la variable dependiente (esto es, el logaritmo de la razn de proporciones de enfermar, de fallecer, de xito, etc). El trmino a la derecha de la igualdad es la expresin de un recta, idntica a la del modelo general de regresin lineal:

Ecuacin 4 Siguiendo el ejemplo de las Figuras 1 y 2, podemos representar el logit frente a la edad de la forma que se observa en la Figura 3.

Figura 3 Pero la regresin lineal presenta una diferencia fundamental respecto al modelo de regresin logstica. En el modelo de regresin lineal se asume que los errores estndar de cada coeficiente siguen una distribucin normal de media 0 y varianza constante (homoscedasticidad). En el caso del modelo de regresin logstica no pueden realizarse estas asunciones pues la variable dependiente no es continua (slo puede tomar dos valores, 0 1, pero ningn valor intermedio). Si llamamos al posible error de prediccin para cada covariable xi,, tendremos que el error cometido depender del valor que llegue a tomar la variable dependiente y, tal como vemos en la Ecuacin 5.

Ecuacin 5 Esto implica que sigue una distribucin binomial, con media y varianza proporcionales al tamao muestral y a P(y=1|xi) (la probabilidad de que y=1 dada la presencia de xi). Para la estimacin de los coeficientes del modelo y de sus errores estndar se recurre al clculo de estimaciones de mxima verosimilitud, es decir, estimaciones que maximicen la probabilidad de obtener los valores de la variable dependiente Y proporcionados por los datos de nuestra muestra. Estas estimaciones no son de clculo directo, como ocurre en el caso de las estimaciones de los coeficientes de regresin de

la regresin lineal mltiple por el mtodo de los mnimos cuadrados. Para el clculo de estimaciones mximo-verosmiles se recurre a mtodos iterativos, como el mtodo de Newton-Raphson. Dado que el clculo es complejo, normalmente hay que recurrir al uso de rutinas de programacin o a paquetes estadsticos. De estos mtodos surgen no slo las estimaciones de los coeficientes de regresin, sino tambin de sus errores estndar y de las covarianzas entre las covariables del modelo. El siguiente paso ser comprobar la significacin estadstica de cada uno de los coeficientes de regresin en el modelo. Para ello podemos emplear bsicamente tres mtodos: 1. El estadstico de Wald. Contrasta la hiptesis de que un coeficiente aislado es distinto de 0, y sigue una distribucin normal de media 0 y varianza 1. Su valor para un coeficiente concreto viene dado por el cociente entre el valor del coeficiente y su correspondiente error estndar. La obtencin de significacin indica que dicho coeficiente es diferente de 0 y merece la pena su conservacin en el modelo. En modelos con errores estndar grandes, el estadstico de Wald puede proporcional falsas ausencias de significacin (es decir, se incrementa el error tipo II). Tampo es recomendable su uso si se estn empleando variables de diseo. 2. El estadstico G de razn de verosimilitud. Se trata de ir contrastando cada modelo que surge de eliminar de forma aislada cada una de las covariables frente al modelo completo. En este caso cada estadstico G sigue una 2 con 1 grado de libertad (no se asume normalidad). La ausencia de significacin implica que el modelo sin la covariable no empeora respecto al modelo completo (es decir, da igual su presencia o su ausencia), por lo que segn la estrategia de obtencin del modelo ms reducido (principio de parsimonia), dicha covariable debe ser eliminada del modelo ya que no aporta nada al mismo. Esta prueba no asume ninguna distribucin concreta, por lo que es la ms recomendada para estudiar la significacin de los coeficientes. 3. La prueba Score. Su clculo para el caso de una nica variable viene dado por la Ecuacin 6.

Ecuacin 6 En el caso de mltiples covariables hay que utilizar clculo matricial, si bien no requiere un clculo iterativo (precisamente su rapidez de clculo sera su aspecto ms favorable). En contra del mismo dos aspectos: 1. Se sabe que este estadstico se incrementa conforme aumenta el nmero de covariables (es decir tiende a dar significacin con mayor frecuencia). 2. Este estadstico tambin asume una distribucin normal con media 0 y varianza 1. Al igual que en los casos anteriores, si alcanza significacin nos indica que la covariable debera permanecer en el modelo. Su uso en algunos paquetes estadsticos ha quedado relegado a la seleccin de variables en mtodos paso a paso (por la mayor rapidez de clculo). Cuando la covariable es cualitativa con n categoras (siendo n > 2), en el modelo se analizar la significacin de cada una de sus n-1 variables ficticias, as como la significacin global de la covariable comparando la presencia en bloque frente a la ausencia en bloque de sus n-1 covariables ficticias. En el siguiente ejemplo, tomado de Hosmer y realizado con SPSS, se analiza la variable edad (AGE) y la variable IVHX (usuario de drogas por va parenteral); sta segunda era una variable con tres categoras (nunca, previa y reciente), por lo que se crearon dos variables ficticias: IVHX(1) e IVHX(2); el resultado es una estimacin de los con sus errores estndar, la significacin para IVHX(1) e IVHX(2), y la significacin de IVHX considerada como la entrada frente a la salida en bloque del modelo de IVHX(1) e IVHX(2).

Figura 4 Una vez hemos estimado los coeficientes de regresin y sus correspondientes errores estndar debemos calcular los correspondientes intervalos de confianza para nuestras estimaciones. Cada intervalo de confianza se calcular bajo la hiptesis de que dichos coeficientes se distribuyen segn respectivas distribuciones normales, por lo que para un determinado coeficiente su intervalo de confianza al 95% vendr dado por la Ecuacin 7. IC95% de = [ - 1.96 EE), + 1.96 EE] IC95% de OR=[e(-1.96EE), e(+1.96EE)] Ecuacin 7 Junto a la significacin del estadstico que hayamos empleado para contrastar la significacin de los coeficientes de regresin, la inclusin de la unidad en el intervalo de confianza es, lgicamente, indicativa de la ausencia de significacin. En ocasiones nos encontraremos con modelos que nos llaman la atencin por la falta de sentido de sus estimaciones. Esta sorpresa suele venir dada por la presencia de estimaciones de grandes errores estndar, con frecuencia asociadas a estimaciones de coeficientes de regresin tambin anormalmente elevados. Las posibles causas de este hecho pueden ser: 1. Presencia de una frecuencia de 0 en una tabla de contingencia. Se refiere a la presencia de 0 en una de las celdas de la tabla de contingencia de Y x X. Cuando esto ocurre provoca en el clculo de la correspondiente odds la presencia de un 0 en el denominador (y por tanto no es calculable). Si esta covariable se intenta

introducir en el modelo de regresin que estemos diseando, nuestro software puede comportarse de forma incorrecta: desde excluirla por entender que predice perfectamente la variable dependiente, a incluirla y comunicar un error (porque la rutina de iteracin para el clculo de estimaciones de mxima verosimilitud o bien no llega a converger o bien llega al mximo de iteraciones prefijadas). Esta circunstancia puede y debe ser detectada durante el anlisis univariado. En el caso de tratarse de una variable cualitativa con ms de dos categoras, una solucin es colapsar dos de esas categoras. Tambin puede ocurrirnos que incluyamos interacciones que impliquen una excesiva estratificacin para la muestra que tenemos. El resultado puede ser una estimacin elevada del correspondiente coeficiente de regresin y de su error estndar. En el anlisis univariado, al realizar efectivamente las dos tablas de contingencia de la estratificacin, observaremos que alguna de las 8 celdas contiene el 0. Si no puede recurrir al colapso de categoras, puede decidirse disear una nueva variable que sea la combinacin de las dos covariables con sus correspondientes categoras, e incluirla como tal en el modelo. 2. Presencia de una o ms covariables que discriminan perfectamente las dos categoras de la variable dependiente. Algunos ejemplos servirn para explicar esta circunstancia: Si siempre que se administran antimicrobianos los sujetos con una determinada enfermedad infecciosa viven y siempre que no se administran mueren, la covariable antimicrobianos discrimina perfectamente a la variable muerte; o si siempre que se tienen ms de 65 aos se padece de cardiopata isqumica y por debajo no, la covariable edad discrimina perfectamente a la variable cardiopata isqumica. En la prctica esta circunstancia impide que se puedan realizar estimaciones de coeficientes por mxima verosimilitud, lo que no quiere decir que nuestro paquete estadstico necesariamente no de falsas estimaciones, como en el punto anterior. Este problema est en estrecha relacin con el tamao muestral y el nmero de covariables que se desean introducir en el modelo: la probabilidad de discriminacin completa es elevada en los modelos con muestras con tamaos muestrales pequeos, sobre todo

cuando una de las categoras de la variable dependiente est poco representada, y tanto ms cuanto mayor es el nmero de covariables introducidas en el modelo. 3. Multicolinealidad. Si bien existen pruebas que permiten comprobar la existencia de colinealidad entre covariables (que veremos ms adelante), cabe resear aqu que al igual que en los casos anteriores, los modelos con multicolinealidad entre las covariables introducidas llamarn nuestra atencin por la presencia de grandes errores estndar, y frecuentemente, estimaciones de coeficientes anormalmente elevadas. Sin embargo la multicolinealidad no afecta al sentido de las estimaciones (la multicolinealidad no har que aparezca significacin donde no la hay, y viceversa).

Introduccin a la seleccin de variablesPero, del conjunto de variables que podemos tener en un estudio, que variables deben introducirse en el modelo? El modelo debe ser aqul ms reducido que explique los datos (principio de parsimonia), y que adems sea clnicamente congruente e interpretable. Hay que tener en cuenta que un mayor nmero de variables en el modelo implicar mayores errores estndar. Deben incluirse todas aquellas variables que se consideren clnicamente importantes para el modelo, con independencia de si un anlisis univariado previo se demostr o no su significacin estadstica. Por otro lado, no debera dejarse de incluir toda variable que en un anlisis univariado previo demostrara una relacin "suficiente" con la variable dependiente. Como puede verse no se habla de significacin estadstica (p