Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

114
REGRESIÓN MÚLTIPLE La regresión múltiple es una de las técnicas analíticas multivariables principales. Pri- mero, por su pionera y amplia aplicación en la investigación empírica. Segundo, por proporcionar la base de técnicas analíticas posteriores, como el análisis discriminante o el modelado de ecuaciones estructurales. Esta es la razón de que se haya optado por su disposición, en el texto, en primer lugar. Antes de proseguir con su exposición, hay que señalar que lo dicho en este capí- tulo concierne exclusivamente al procedimiento de regresión más popular: la regresión lineal de mínimos cuadrados ordinarios. También conocido como procedimiento OLS (deí inglés “Ordinal Least Squares”). En el capítulo 2 se desarrolla la regresión logística, de aplicación más reciente y adecuada a variables muy usuales en la investigación so- cial: las variables cualitativas (o no métricas), a! ser su nivel de medición nominal u or- dinal. En este primer capítulo también se describen otros procedimientos de regresión de uso más restringido (subapartado 1.6.2). Todos los análisis de regresión, como técnicas analíticas multivariables de dependencia que son, se adecúan a un mismo propósito: el análisis de relaciones de dependen- cia (causa-efecto) entre los valores de una única variable dependiente (aquella cuya va- riabilidad el investigador desea analizar) y los correspondientes a dos o más variables independientes (también denominadas variables predíctoras o explicativas). Difieren, no obstante, en las características de las variables que se analizan, que determinan la ejecución de los análisis y los supuestos necesarios para su correcta realización. Con- cretamente, él análisis de regresión múltiple de mínimos cuadrados ordinarios tiene los siguientes objetivos principales: 1. Predecir los valores que adoptará la variable dependiente a partir de los valores conocidos de la serie más pequeña posible de variables independientes. Elío con- lleva la búsqueda de la ecuación que mejor represente la asociación lineal

description

Cea

Transcript of Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Page 1: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

REGRESIÓN MÚLTIPLE

La regresión múltiple es una de las técnicas analíticas multivariables principales. Pri­mero, por su pionera y amplia aplicación en la investigación empírica. Segundo, por proporcionar la base de técnicas analíticas posteriores, como el análisis discriminante o el modelado de ecuaciones estructurales. Esta es la razón de que se haya optado por su disposición, en el texto, en primer lugar.

Antes de proseguir con su exposición, hay que señalar que lo dicho en este capí­tulo concierne exclusivamente al procedimiento de regresión más popular: la regresión lineal de mínimos cuadrados ordinarios. También conocido como procedimiento OLS (deí inglés “Ordinal Least Squares”). En el capítulo 2 se desarrolla la regresión logística, de aplicación más reciente y adecuada a variables muy usuales en la investigación so­cial: las variables cualitativas (o no métricas), a! ser su nivel de medición nominal u or­dinal. En este primer capítulo también se describen otros procedimientos de regresión de uso más restringido (subapartado 1.6.2).

Todos los análisis de regresión, como técnicas analíticas multivariables de dependencia que son, se adecúan a un mismo propósito: el análisis de relaciones de dependen­cia (causa-efecto) entre los valores de una única variable dependiente (aquella cuya va­riabilidad el investigador desea analizar) y los correspondientes a dos o más variables independientes (también denominadas variables predíctoras o explicativas). Difieren, no obstante, en las características de las variables que se analizan, que determinan la ejecución de los análisis y los supuestos necesarios para su correcta realización. Con­cretamente, él análisis de regresión múltiple de mínimos cuadrados ordinarios tiene los siguientes objetivos principales:

1. Predecir los valores que adoptará la variable dependiente a partir de los valores conocidos de la serie más pequeña posible de variables independientes. Elío con­lleva la búsqueda de la ecuación que mejor represente la asociación lineal

Page 2: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

14 Análisis multivariable. Teoría y práctica en la investigación social

existente entre las variables incluidas en el análisis. A partir de dicha ecuación, y gracias a los coeficientes beta, puede también graduarse la aportación de ca­da variable independiente (X) en la predicción de la variable dependiente (Y).

Si bien, hay que hacer dos rnatizaciones. Primero, “el análisis de regresión es so­bre todo útil para la estimación de la magnitud de los efectos, no para la determi­nación de qué variables predictoras son relevantes” (Wittink, 1988:93). Segundo, “los análisis de regresión no pueden probar causalidad, sólo pueden justificar o con­tradecir supuestos causales” (Gunst y Masón, 1980:17). Depende de cómo se ha­ya especificado el modelo, de qué variables predictoras se han incluido, siempre acorde con consideraciones teóricas. Se precisa que las variables predictoras sean “relevantes” en la explicación y predicción de la variable dependiente.

2. Cuantificar la relación de dependencia mediante ei coeficiente de correlación R de Pearson y su cuadrado (el coeficiente de determinación). Este último coefi­ciente informa de la proporción de varianza de la variable dependiente (Y) que queda explicada por la conjunción de variables independientes (X) que con­forman la ecuación de regresión. La relevancia de dichas variables explicativas en la predicción de Y se mide, básicamente, con la ayuda de este coeficiente (el coeficiente de determinación).

3. Determinar el grado de confianza con que el investigador puede afirmar que la relación observada en los datos muéstrales es realmente cierta. Rara vez se ana­lizan datos poblacionales. La práctica común en la investigación empírica es ex­traer una muestra de la población de interés, mediante procedimientos que ga­ranticen su representatividad. De ello depende las posibilidades de inferencia de los datos analizados, a un nivel de probabilidad determinado (Cea, 1996).

En regresión múltiple, la significatividad del modelo en su conjunto se com­prueba mediante el estadístico de comprobación “F ” de Snedecor. La significa­tividad de cada uno de los coeficientes concretos que conforman la ecuación de re­gresión se mide, en cambio, con la ayuda de la razón “t” de Student. Ambas pruebas de significatividad permiten conocer las probabilidades de inferencia de los estadísticos muéstrales correspondientes a parámetros poblacionales -como se detalla en los subapartados 1.5,3 y 1.4.3, respectivamente-.

La consecución de estos tres objetivos fundamentales descansa en dos pilares bá­sicos, tradicionalmente referidos (véase Guillén, 1992):

1. El cálculo diferencial, analizado primeramente por Fermat, Leibniz y Newton, en el s. xvii; y, posteriormente, por DTUembert y Bernouilíi, en el s. xvm. Su aplicación permite cuantificar la relación existente entre variables. En el aná­lisis de regresión se hace uso, en especial, del principio de “mínimos cuadrados", enunciado en 1794 por Gauss. Éste sirve de fundamento al análisis de regresión lineal, en general.

2. La teoría de la probabilidad, cuyo principal desarrollo se produce, a partir del s. x v i i i , con las aportaciones fundamentales de Moivre, Bayes, Laplace y Pearson.

Page 3: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 15

Su uso ayuda a determinar el nivel de confianza con que puede afirmarse que los estadísticos estimados, en la muestra analizada, predicen adecuadamente las características correspondientes de la población objeto de estudio.

La exposición del análisis de regresión múltiple comienza, a diferencia del resto de téc­nicas analíticas multivariables reseñadas en este texto, con la enumeración y desarrollo de cada uno de los supuestos básicos. Éstos son de imprescindible cumplimiento para ga­rantizar la correcta realización del análisis de regresión lineal. Después, se procede al de­talle de cada uno de los componentes del análisis, así como de los diversos procedimien­tos alternativos para su realización. Como ya se dijo en la introducción, para facilitar la comprensión de la técnica analítica, la exposición teórica se acompaña de ejemplos prác­ticos. Principalmente, del análisis propio efectuado de una selección de ítems de la encuesta “Actitudes ante la inmigración”, de junio de 1996, del Centro de Investigaciones Socio­lógicas (C.I.S.); amén de otros ejemplos también con datos reales.

1.1. Supuestos básicos del análisis de regresión múltiple

La correcta aplicación del análisis de regresión múltiple de mínimos cuadrados or­dinarios (OLS) exige el cumplimiento de una serie de supuestos básicos. Su grado de cumplimiento garantiza la esencia del análisis: poder inferir los estadísticos obtenidos en la muestra analizada a sus correspondientes parámetros poblacionales. Estos su­puestos se resumen en los siguientes:

1. Tamaño de la muestra elevado.2. La variable dependiente ha de ser continua.3. Inclusión de variables independientes relevantes.4. Linealidad: la relación entre la variable dependiente y cada variable inde­

pendiente ha de ser lineal.5. Aditividad: los efectos de las variables independientes en la dependiente han de

poderse sumar entre sí.6. Normalidad: La distribución de los datos (tanto para la variable dependiente co­

mo las independientes) ha de corresponderse con la distribución normal.7. Homocedasticidad o igualdad de las varianzas de los términos de error en la se­

rie de variables independientes.8. Ausencia de colinealidad (o de correlación) entre las variables independientes.9. Independencia de los términos de error.

1.1.1. Tamaño muestral elevado

La finalidad de cualquier análisis estadístico no se limita a la descripción de los ca­sos de los que se ha recogido información. Éstos constituyen la muestra de la investi­gación. Ante todo, se quiere describir, a partir de las características observadas en la

Page 4: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

16 Análisis multivanable. Teoría y práctica en la investigación social

muestra, al conjunto de la población a la que ésta pertenece. La capacidad de inferencia de los resultados de la investigación se halla muy determinada por el tamaño de la muestra, además de] procedimiento seguido en su selección: si el procedimiento de se­lección de las unidades de la muestra ha sido aleatorio o no. La aleatoriedad garanti­za la equiprobabilidad, o igualdad en la probabilidad de ser elegido para participar en la muestra, de todas las unidades de la población de interés. También se exige que el procedimiento de selección de la muestra haya sido riguroso en todas sus fases.

Respecto al tamaño de la muestra, su cuantía incide directamente en la reducción del error de estimación y en la consiguiente signifícatividad de los resultados del aná­lisis. Por esta razón, se precisa que el tamaño de la muestra sea lo más elevado posible, para favorecer la signifícatividad de los estadísticos muéstrales.

La adecuación del tamaño de la muestra a las exigencias del análisis se comprueba en relación con el número de variables independientes (o predictoras) que se incluyen para la predicción de Y. En regresión lineal múltiple se barajan distintos ratios mínimos de observaciones precisas por cada variable independiente introducida en el análisis. El ratio más bajo, propuesto por autores como Afiti y Clark (1990:179), es al menos de 5 a 10 veces más casos que variables independientes o predictoras. Otros autores, como "la- bachnick y Fxdell (1989:128-129), elevan el ratio preciso a 20 veces más casos que va­riables independientes. De modo que, si el análisis incluye 6 variables predictoras, el ta­maño muestral mínimo para un correcto análisis ha de ser de 120 unidades muéstrales o casos. Cuando se opta por un procedimiento de regresión secuencial (o “por pasos”), el ratio de número de casos por variables aumenta a 40 casos por cada variable. En el su­puesto anterior se precisaría, por tanto, un tamaño muestral mínimo de 240 unidades.

El no cumplimiento de los ratios mínimos referidos suele corresponder a la ob­tención de errores de estimación elevados. Lo que revierte, negativamente, en la pér­dida de significativídad estadística y la consiguiente posibilidad de inferencia del modelo de regresión estimado a partir de la muestra analizada.

Además, si se quiere comprobar la validez del modelo obtenido siguiendo el pro­cedimiento llamado “validación cruzada”, es conveniente que el tamaño muestral sea in­cluso superior. Este procedimiento de validación se caracteriza por dividir la muestra to­tal en dos submueslras: la muestra de análisis y la muestra de validación. La muestra de análisis es la que se utiliza para la consecución del modelo de regresión. Una vez obte­nido éste, Sos resultados se validan con la muestra de validación. Lo habitual es destinar el 60% de la muestra total a la muestra de análisis, dejando el 40% restante para la va­lidación del modelo. También, puede optarse por afijar la misma proporción de casos en ambas submuestras. Este seccionamiento del tamaño muestral exige, obviamente, que el número de unidades muéstrales sea cuantioso. La muestra de análisis ha de cumplir los ratios mínimos de casos por variables referidos para facilitar la signifícatividad estadís­tica y consiguiente inferencia del modelo de regresión resultante.

Por las razones expuestas, se recomienda que, antes de proceder a realizar los aná­fisis, se compruebe eí tamaño muestral reaí disponible. Esta comprobación adquiere mayor relieve cuando se incluyen variables con una proporción considerable de “missing valúes” (o casos sin respuesta). Cuando esto acontece, la generalidad de los

Page 5: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo i: Regresión múltiple 17

paquetes estadísticos al uso eliminan para el análisis, de forma automática, todos los casos sin respuesta (“missing valúes”) en alguna de las variables consideradas, sal­vo que el investigador especifique lo contrario. En consecuencia, si el número de va­riables independientes es elevado, y cada una de ellas tiene una cierta cantidad de ca­sos sin respuesta (que necesariamente no corresponde a los mismos casos en todas las variables), la eliminación deliberada de dichos casos supone una merma cuantiosa en el tamaño de la muestra. Esta reducción adquiere mayor gravedad cuando el tamaño de la muestra no es elevado. La muestra final puede no cumplir los ratios mínimos re­queridos para el análisis. En cambio, en muestras elevadas, la eliminación de casos sin respuesta apenas tiene efecto en el análisis.

El no cumplimiento de los ratios casos por variables predictoras referidos puede, sin embargo, solventarse con alguna de las medidas siguientes:

a) Eliminar una o varias variables independientes. Este remedio drástico nor­malmente supone la eliminación de aquellas variables con menor capacidad pre- dictiva. Aquellas que presenten una menor correlación con la variable de­pendiente y, a su vez, tengan un número importante de casos sin respuesta.

b) Combinar variables independientes (con casos sin respuesta) relacionadas en una única variable (o inclusive más). Esta solución es menos drástica que la an­terior y suele suponer una pérdida menor de información.

E j e m p l o d e d is e ñ o m u e s t r a l

La encuesta analizada ex profeso para este texto (“Actitudes ante la inmigración’') fue realizada por el C.l.S. del 6 al 10 de junio de 1996 (estudio 2.214). El ámbito de la encues­ta fue nacional. Se incluyeron fas provincias insulares, aunque se excluyeron Ceuta y Meli- lla. El universo fue ia población española de ambos sexos de 18 y más años.

El tamaño de la muestra diseñado, para un nivel de confianza de! 95,5%, heterogenei­dad máxima (P = Q = 50) y un error máximo elegido para el conjunto de la muestra de ±2%, es 2.500 unidades muéstrales. Pero, finalmente se realizaron.2.493 entrevistas.

El procedimiento seguido para la selección de la muestra fue polietápico, estratificado por conglomerados, con selección de las unidades primarias de muestreo (municipios) y de las unidades secundarias (secciones) de forma aleatoria proporcional de las unidades últimas (in­dividuos) por rutas aleatorias y cuotas de sexo y edad. Al ser la afijación proporcional, no pro­cede su ponderación.

Los puntos de muestreo fueron 161 municipios elegidos aleatoriamente, tocando a 44 de las 50 provincias. Los estratos se formaron por el cruce de las 17 regiones autonómicas con ei tamaño de hábitat, dividido en 7 categorías: menos o igual a 2.000 habitantes; de 2.001 a 10.000; de 10.001 a 50.000; de 50.001 a 100.000; de 100.001 a 400.000; de 400.001 a1.000.000; más de 1.000.000 de habitantes.

Los cuestionarios se aplicaron mediante entrevista personal en los domicilios. Esta in­formación se detalla en la ficha técnica del citado estudio.

Page 6: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

18 Análisis multivariable. Teoría y práctica en la investigación social

Al ser ei procedimiento de selección muestral aleatoria, se garantiza la igual probabili­dad que tienen los individuos que componen la población de interés de participar en la mues­tra. Por lo que se cumple un requisito básico para la aplicación de un análisis de regresión lineal múltipSe: la selección aleatoria de la muestra. También se cumple otro de los requisitos básicos, cual es el tamaño muestra! elevado. La muestra final consta de 2.493 unidades muéstrales. Tamaño muestra! considerable, superior a ¡os mínimos exigidos, y que permi­te el seccionamiento de la muestra total en dos submuestras para propósitos de validación. Como después se verá, para la “validación cruzada” se decide dividir !a muestra total en dos submuestras de igual tamaño: la muestra de análisis y la muestra de validación. No hubo ne­cesidad de destinar el 60% de la muestra total a la muestra de análisis y el 40% a la mues­tra de validación, como es habitual. Incluso optando por eliminar del análisis los casos sin respuesta en alguna de las variables de interés, se está ante un tamaño muestral de 1.713 unidades.

1.1.2. Variables continuas: la creación de variables ficticias

Como técnica estadística multivariable de dependencia, el análisis de regre­sión (de mínimos cuadrados ordinarios o OLS) exige la existencia de una única va­riable dependiente y dos o más variables independientes. La variable dependiente ha de ser métrica (medida a nivel de intervalo o de razón) y continua. Una variable de­pendiente discreta viola el supuesto de que el error en el modelo de regresión está normalmente distribuido, con varianza constante. Si bien, Fox (1991: 63) advierte que “este problema sólo es serio en casos extremos -por ejemplo, cuando hay muy po­cas categorías de respuesta-, o donde una gran proporción de observaciones está en un número pequeño de categorías condicionales en los valores de las variables in­dependientes”.

Las variables independientes pueden, en cambio, ser continuas o dicotómicas. Aun- que se prefiere que sean métricas y continuas. Es decir, que se hallen medidas con pre­cisión numérica.

En consecuencia, cuando la variable dependiente es no métrica, hay que optar por otra técnica multivariable de dependencia, como la regresión logística, por ejemplo (ca­pítulo 2). El procedimiento de regresión de mínimos cuadrados ordinarios no es apropiado cuando la variable dependiente es dicotómica (con codificación binaria: 0 - 1 , u otra) y, en general, cualitativa.

Por el contrario, la existencia de variables independientes no métricas no invalida la aplicación del método de regresión de mínimos cuadrados ordinarios. Aunque, con la condición de que se hayan previamente traducido a variables ficticias (también co­nocidas como "dummy variables”). De otra forma, “la utilidad del modelo de re­gresión sería severamente limitada si todas las variables independientes utilizadas co­mo predictores tuviesen que estar medidas en una escala de intervalo. Los problemas de investigación que implican diferencias grupales son bastante corrientes. Por ejemJ pío, diferencias étnicas, sexuales, regionales, en la conducta, actitudes, características

Page 7: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo l: Regresión múltiple 19

socioeconómicas, etc.” (Hardy, 1993:1-2).-De lo que se trata es de comprobar si las va­riables independientes analizadas tienen efectos varios en los grupos diferenciados. Si no se quiere perder la información proporcionada por estas variables, habría que traducirías a una serie de variables ficticias para su utilización posterior en un análi­sis de regresión lineal.

En suma, un modelo de regresión lineal puede combinar variables cuantitativas con cualitativas. Pero, como su correcta aplicación exige que las variables estén medidas en una escala continua, toda aquella variable predictora que sea cualitativa (o categórica) habrá de ser transformada en una serie de variables ficticias, que facilite su tratamiento como continua,

Por variable ficticia se entiende una variable dicotomica que se crea a partir de una variable cualitativa (nominal u ordinal). Ésta puede ser dicotòmica (tiene sólo dos ca­tegorías, como la variable “sexo”, por ejemplo) o politómica (con más de dos categorías, como la variable “estado civil”). Para captar toda la información que contiene las “g” categorías de la variable, habrá que crear “g ■ 1” variables ficticias. Siempre habrá una variable ficticia menos que el número de categorías iniciales de la variable categórica (o cualitativa) original.

Aquella categoría que no se transforma en variable ficticia actúa en los análisis co­mo grupo de referencia. En general, se aconseja que la categoría elegida de referencia se halle bien definida y que contenga un número suficiente de casos. Quiere esto de­cir, que se desaconseja la consideración como grupo de referencia de categorías ge­néricas como “otros” o que se hallen escasamente representadas en la muestra.

La codificación binaria más aplicada en ia creación de variables ficticias consiste en la atribución de los códigos numéricos 0 y 1 en cada categoría de la variable. El có­digo 1 se asigna a los casos que pertenecen a una categoría concreta; el código 0 a aquellos que no pertenecen. De este modo la variable nominal “sexo”, medida ori­ginariamente con dos categorías, 1 varón y 2 mujer, se transforma en una única va­riable ficticia: 1 varón y 0 mujer, o a la inversa, 0 varón y 1 mujer. Depende de qué gru­po se tome de referencia. En el primer supuesto serían las mujeres, mientras que en el segundo los varones.

Alternativamente se puede aplicar otra codificación binaria: -1 y +1, donde el có­digo ™1 denota al grupo de referencia. Si bien esta última codificación es menos popular que la anterior. Por el contrario, el empleo de otros códigos numéricos, como 1 y 2, por ejemplo, no se considera apropiado (Hutcheson y Sofroniou, 1999). La razón está en que el procedimiento de regresión atribuye un significado específico a estos números: el grupo codificado 2 se interpretaría como 2 veces el valor del grupo codificado 1, cuando en realidad se trata de categorías distintas y no ordenadas (nominales). En cam­bio, la aplicación de los códigos 0 y 1 únicamente describe la presencia (1) o ausencia(0) de un atributo concreto de la variable en cuestión. En ningún caso reflej an un or­den cuantitativo de las categorías de las variables.

Cuando la variable incluye más de dos categorías (politómica), habría que crear tantas variables ficticias como número de categorías de la variable (“g”) menos 1. Un procedimiento a seguir se ilustra en el siguiente ejemplo:

Page 8: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

20 Análisis multivariable. Teoría y práctica en la investigación social

E jem plo de codificació n de variables ficticias ---------------------------

La variable categórica “estado civil", originariamente medida en 5 categorías: 1 soltero, 2 casado, 3 separado/divorciado, 4 viudo y 5 en pareja. Como variable nominal, necesaria­mente exige su previa transformación en variable ficticia para su incorporación al análisis de regresión lineal. Como esta variable incluye 5 categorías, son 4 las variables ficticias a crear. Arbitrariamente, se escoge una de las categorías de la variable para actuar de grupo de referencia. La única condición que se impone es que su presencia en la muestra no sea escasa. En este ejemplo se elige la categoría de “soltero" como grupo de referencia. La co­dificación resultante sería ia siguiente:

ESTADO CIVIL (Originai)

VARIABLES FICTICIASD1 D2 D3 D4

Soltero 0 0 0 0

Casado 1 0 0 0

Separado/divorciado 0 1 0 0

Viudo 0 0 1 0

En pareja 0 0 0 1

De este modo, la variable ficticia D1 = 1, si ia persona está casada; D1 = 0, si su estado civií es otro. D2 = 1, sí está separado o divorciado; D2 - 0 si su estado civil es otro. D3 = 1, si es viudo/a, D3 = 0, si su estado civil es otro. D4 = 1, si vive en pareja; D4 = 0, si su esta- do civil es otro. Los sujetos que puntúen 0 en todas ias cuatro variables ficticias, constituyen el grupo de referencia (los “soiieros”).

Si se desea comparar cada variable ficticia con e! promedio grupaS, se está ante un proce­dimiento de codificación llamado “desviación” (Hutcheson y Sofroniou, 1999). Este segundo procedimiento no difiere del anterior, salvo en ¡a codificación del grupo (o categoría) de referen­cia. Éste pasa a codificarse -1, en vez de 0 (para cada una de las cuatro variables ficticias crea­das), Lo que posibilita la comparación de cada grupo codificado 1 (variable ficticia) y el promedio de todos los grupos. Hecho que incide en que los coeficientes de regresión para las variables fic­ticias permanezcan constantes, indistintamente del grupo que se tome de referencia.

Hay que advertir, no obstante, que cuando se aplica este segundo procedimiento de co­dificación no puede omitirse ninguna de las g - 1 variables ficticias creadas a partir de la va­riabie categórica original. De otra forma se dificulta la comparación con el promedio grupa!.

Para cada una de estas cuatro variables ficticias (indistintamente de! procedimiento segui­do en su elaboración) se calcula un coeficiente de regresión, por separado. Cada una de estas variables actúa en el modelo como variable independiente. Lo que puede provocar un efecto no deseado: elevar la colinealidad, af poderse predecir e! vaior de cualquiera de dichas variables a partir del conocimiento de las otras tres variables. La colinealidad se trata en el subapartado 1.1.8.

Page 9: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo I: Regresión múltiple 21

Las variables ordinales (como la variable “clase social” o “satisfacción”) no precisan de su transformación en variables ficticias para su incorporación a un análisis de regresión lineal. De acuerdo con Afiíi y Clark (1990: 226), las variables ordinales “re­presentan variables con una escala latente”. Esto posibilita su tratamiento como varia­ble continua. Pero ello exige que los códigos numéricos asignados a cada categoría de la variable se correspondan con la cualidad que expresan. Así, por ejemplo, en la variable “clase social”, medida en cinco categorías: alta, media-alta, media, media-baja y baja; de­bería aplicarse una escala numérica en consonancia con el nivel de estatus correspon­diente. El código numérico más bajo, el 1, se aplicaría a la “clase social baja”. En cam­bio, el código numérico más elevado, el 5, a la categoría de “clase alta”. Y no a la inversa. Lo que facilita la interpretación de la variable en la ecuación de regresión.

Pero el investigador también puede optar por ignorar el orden latente de las varia­bles ordinales, tratándola a modo de variable nominal. Ello exige su transformación a tan­tas variables ficticias como número de categorías menos uno. En el ejemplo anterior, ten­dría que crearse 4 variables ficticias. Arbitrariamente se tomaría una de las categorías de la variable “clase social” como grupo de referencia. La categoría elegida puede ser la “cla­se social alta”. Las cuatro variables ficticias serían: clase media-alta (DI), media (D2), me­dia-baja (D3) y baja (D4). Si D I = 1, el individuo es de clase media-alta; DI = 0, no es de clase media-alta. Y así con las otras variables ficticias.

El proceder de esta segunda manera, transformando las variables ordinales en fic­ticias, tiene, no obstante, un inconveniente importante. La codificación ficticia no re­tiene información sobre el orden expreso en la variable. Las categorías de la variable cambian a variables no relacionadas. “El análisis consecuentemente pierde algún poder” (Hutcheson y Sofroniou, 1999: 92), al perderse el orden de las categorías de la variable ordinal. Por esta razón, se aconseja elegir la primera opción: dar a la variable ordinal el tratamiento de variable continua.

Por último, señalar una utilidad importante de transformar variables ordinales, e in­cluso de intervalo, en ficticias. Cuando se sospeche la existencia de una relación curvilínea entre dicha variable independiente con la dependiente. En este caso la transformación a variables ficticias tendría la utilidad de representar segmentos de la distribución de di­chas variables independientes. Lo que proporciona -de acuerdo con Hardy (1993)- una alternativa útil a la regresión polinomial o al uso de transformaciones.

1.1.3. Variables independientes relevantes

La solución de regresión depende bastante de qué variables independientes par­ticipen en el análisis. Tan importante es comprobar que no se ha excluido (de la base de datos) ninguna variable independiente que se estime “relevante” (en la predicción de la variable dependiente) como la no inclusión de variables “irrelevantes” .

En regresión, como en la generalidad de los análisis estadísticos, se busca la ob­tención de un modelo parsimonioso. Es decir, un modelo explicativo que incluya el me­nor numero posible de variables predictoras (o independientes). Pero, asimismo, és­

Page 10: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

22 Análisis multivariable. Teoría y práctica en la investigación social

tas han de mostrar “relevancia” en la predicción de la variabilidad de la variable de­pendiente. “El añadir variables innecesarias causa una pérdida en precisión de los coe­ficientes estimados en las variables relevantes” (Schroeder et al, 1986:17). Ello se de­be al aumento del error típico de la estimación (subapartados 1.4.2. y 1.5.2.), que ocasiona ia incorporación de variables “irreíevantes”, sin que ello se traduzca en una mejora en proporción de varianza de la variable dependiente explicada por las in­dependientes, medida mediante el coeficiente de determinación R 2 (subapartado1.5.1.). Por esta razón fundamental se desaconseja la inclusión de muchas variables in­dependientes en el análisis de regresión, a menos que muestren que son “relevantes” para la predicción de la variable dependiente.

La comprobación de si se han incluido variables predictoras “irrelevantes” puede hacerse siguiendo alguna de las opciones ya resumidas por Sánchez Camón (1995:412):

a) Comprobar cuánto mejora la explicación de la variable dependiente el hecho de que se incluya una nueva variable independiente (véase incremento en R2).

b) Mediante la realización de un contraste que permita conocer si el efecto de ca­da variable independiente es estadísticamente significativo.

-]~ E jem p lo d e s e l e c c ió n d e v a r ia b l e s in d e p e n d ie n t e s r e l e v a n t e s —

Del total de ítems que componen ia encuesta de “Actitudes ante la inmigración” de 1996 det C.I.S., se han escogido las siguientes variables (enunciadas con eí número de la pregunta con el que figura en ei cuestionario):

A. Variable dependiente;* P2G1: “Dígame, por favor, en una escala de 0 a 10, la simpatía que Vd. siente por los

norteafricanos (marroquíes, etc.), teniendo en cuenta que 0 significa ninguna simpa­tía y 10 mucha simpatía".

Se ha elegido esta variable por su carácter de “continua” . Se quiere conocer qué varia­bles ayudan a predecir el mayor o menor grado de simpatía hacia ios norteafricanos.

B. Variables independientes:* P210: “Dígame, por favor, en una escala de 0 a 10, la simpatía que Vd. siente por

ios latinoamericanos, teniendo en cuenta que 0 significa ninguna simpatía y 10 mucha simpatía".

* P306: “A Vd, te preocuparía mucho, bastante, poco o nada que un hijo o una hija su­ya se casara con un ciudadano de Marruecos u otro país norteafricano”. Mu­cho (1) Bastante (2) Poco (3) Nada (4) No sabe (8) No contesta (9).

* P506: “¿Hasta qué punto: mucho, bastante, poco o nada le importaría a Vd. tenercomo vecinos a una familia de ciudadanos de Marruecos u otro país norte- africano?”. Mucho (1) Bastante (2) Poco (3) Nada (4) N.s. (8) N.c. (9).

Page 11: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 23

• P11:

- P16:

• P19:

• P21:

• P2904:

• P33:

<• P37:

• P39:

• P41:• P42:• P43a:

• P49a;

• P51;

"¿Qué le parece a Vd. el número de personas procedentes de otros países que viven en España?”. Son demasiados (1) Son bastantes, pero no dema­siados (2) Son pocos (3) N.s. (8) N.c. (9).“En su opinión ¿cree que las leyes que regulan !a entrada y permanencia de extranjeros en España son demasiado tolerantes, más bien tolerantes, co­rrectas, más bien duras o demasiado duras?”. Demasiado tolerantes (1) Más bien tolerantes (2) Correctas (3) Más bien duras (4) Demasiado duras (5) No conoce la legislación en materia de inmigración (6) N.s. (8) N.c. (9).“Y, en genera!, ¿cree Vd. que se debería de tratar de regularizar la situación de los inmigrantes ilegales o por el contrario se les debería devolver a su país de origen?”. Se debería regularizar su situación (1) Se les debería devolver a su país (2) N.s. (8) N.c. (9).“¿Qué política cree Vd. que sería la más adecuada con respecto a los tra­bajadores inmigrantes?”. Facilitar la entrada de trabajadores inmigrantes (1) Facilitar la entrada sólo a aquellos que tengan un contrato de trabajo (2) Hacer muy difícil la entrada de trabajadores inmigrantes (3) Prohibir por completo la entrada de trabajadores inmigrantes (4) N.s. (8) N.c. (9).“El aumento de los inmigrantes favorece el incremento de la delincuencia en nuestro país”. De acuerdo (1) En desacuerdo (2) N.s. (8) N.c. (9).“¿Ha tenido Vd. alguna vez relación o trato con inmigrantes en España?” Sí (1) No (2) N.c. (9).“En estos últimos años se está produciendo en algunos países eurdpeos un cierto auge de partidos políticos de ideología racista que, como Le Pen en Francia, propugnan expulsar del país a ciertos colectivos por su raza o reli­gión (negros, mahometanos, judíos, etc,). ¿A Vd. este auge le parece muy po­sitivo, positivo, negativo o muy negativo?". Muy positivo (1) Positivo (2) Ne­gativo (3) Muy negativo (4) N.s. (8) N.c. (9).“Cuando se habla de política se utiliza normalmente las expresiones iz­quierda y derecha. En esta tarjeta hay una serie de casillas que van de izquierda a derecha. ¿En qué casilla se colocaría Vd.?Izda 01___________________________ 10 Dcha N.s (98) N.c. (99)“Sexo” Hombre (1) Mujer (2).“Cuántos años cumplió Vd. en su último cumpleaños?” ______N.c. (99).“¿Cuáles son los estudios de más alto nivel que Vd. ha cursado (con inde­pendencia de los que ha terminado o no?”. Algunos años de primarla (01) Es­tudios primarios (02) Bachillerato elemental (03) FP1 (04) Bachillerato su­perior (05) FP2 (06) Arquitecto e ingeniero técnico (07) Diplomado escuela universitaria (08) Estudios superiores de 2 o 3 años (09) Arquitecto e inge­niero superior (10) Licenciado universitario (11) Doctorado (12) Estudios de postgrado, master (13) Estudios no reglados (corte y confección, mecano­grafía...) N.s. (98) N.c. (99).“¿Con qué frecuencia asiste Vd. a misa u otros oficios religiosos sin contar las ocasiones relacionadas con ceremonias de tipo social, por ejemplo, bodas, co­muniones o funerales?’ Casi nunca (1) Varias veces al año (2) Alguna vez al mes (3) Casi todos los domingos o festivos (4) Varias veces a la semana (5) N.c, (9). “¿A qué dase social diría Vd, que pertenece?” Alta (1) Media-alta (2) Media- baja (3) Media-media (4) Baja-trabajadora (5) N.s. (8) N.c. (9).

Page 12: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

24 Análisis multivariable, Teoría y práctica en la investigación social

® P52: "Actualmente, entre todos los miembros del hogar y por todos los conceptos, ¿de cuántos ingresos netos disponen por término medio en su hogar al mes?” Menos de 50.000 pts. (01) 50.001-100.000 (02) 100.001-150.000 (03) 150.001-200.000 (04) 200.001-300.000 (05) 300.001-400.000 (06)400.001-500.000 (07) 500.001-750.000 (08) 750.000-1 millón de pts. (09) Más de 1 millón de pts. (10) N.c. (99).

• Tamuni: ‘Tamaño del hábitat “ Hasta 2.000 hab. (1) 2.001-10.000 (2) 10.001-50.000 (3)50.001-100.000 (4) 100.001-400.000 (5) 400.001-1.000.000 (6) Más de1.000.000 (7).

Del total de 18 variables inicialmente elegidas para la predicción de la variable depen­diente, 14 son finalmente las variables que participan en el análisis. Las 4 variables des­cartadas por mostrar muy escasa correlación (bivariable) con la variable dependiente son las siguientes: P33 (r = ,095), P49a (r = -,010), P51 (r = ,028) y Tamuni (r = ,015).

La mayoría de las variables elegidas son ordinales, exceptuando ias variables métricas P210, P39, P42 y P52 (en intervalos); y ias nominales P19, P2904 y P41.

Como ya se expuso, las variables ordinales no precisan de su transformación en va­riables ficticias para su incorporación como variables independientes en el análisis de re­gresión Uneal Estas variables representan variables en una escala latente que posibilita su tratamiento como variable continua. Para ello se precisa que los códigos numéricos asignados a cada categoría de la variable se correspondan con Sa cualidad que expresan. Esta correspondencia facilita la interpretación de la variable en la ecuación de regresión. Por esta razón, variables como P306, P506, P11 o P37, por ejemplo, se han recodifica- do para mantener la correspondencia necesaria entre el código numérico y la cualidad que expresa: Mucho (4) Bastante (3) Poco (2) Nada (1); Son demasiados (3) Son bastantes, pero no demasidos (2) Son pocos (1); Muy positivo (4) Positivo (3) Negativo (2) Muy ne­gativo (1).

La variable P43a (estudios) se ha agrupado en cinco categorías: Primarios o menos (1), EGB, FP1 (2) Bachillerato, FP2 (3) Medios (diplomado, técnico, superiores de 2 o 3 años) (4) Superiores (5).

Al estar agrupada la variable P52 (ingresos) en intervalos, se ha procedido previamen­te a calcular los puntos medios de los intervalos (la suma de sus límites, superior e inferior, dividida entre dos), como valores representativos de los mismos, para el cálculo de la media y demás estadísticos.

Las variables nominales P19, P2904 y P41 se han transformado en ficticias. A! tener ca­da una de ellas sólo dos categorías son tres las variables ficticias creadas: P41 (sexo) Varón(1) Mujer (0); P2904 (inmigrante delincuente) De acuerdo (1) En desacuerdo (0); P19 (re­gularizar inmigrantes) Sí (1) No (0). Recuérdese que el código numérico “0” designa al gru­po de referencia.

No se ha querido incluir más variables en el análisis porque la finalidad es obtener un mo­delo “parsimonioso”. La incorporación de variables innecesarias o que muestren ser “irrele­vantes” para la predicción de la variable dependiente suele ir acompañada de una pérdida de precisión de los coeficientes estimados en ias variables “ relevantes” (Schroeder et al., 1986), debido al aumento, que suele provocar, en ei error típico de las estimaciones de las variables "relevantes”.

Page 13: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 25

La relación entre la variable dependiente y cada variable independíenle ha de ser lineal. Esto significa que el efecto de cada variable independiente (Xf) en la depen­diente (Y), es el mismo, cualquiera que sea el valor de la variable independiente. O, di­cho con otros términos, para “cada variable independiente X;, la cantidad de cambio en el valor medio de Y asociado con un aumento de una unidad en X;, manteniendo todas las otras variables independientes constantes, es el mismo sin considerar el nivel de X;” (Berry y Feldman, 1985: 51).

Por el contrario, sí se observa que el cambio en el valor medio de la variable de­pendiente asociado con el incremento de una unidad en la variable independiente va­ría con el valor de la variable X; se dice que la relación entre la variable dependiente y la independiente es no lineal (no se ajusta a una recta). Cuando esto sucede, el mo­delo de regresión no logra captar “el modelo sistemático de relación entre las variables dependiente e independientes” (Fox, 1991:49).

En regresión múltiple, el cumplimiento de este cuarto supuesto puede fácilmente com­probarse de forma visual, con la ayuda de los gráficos de regresión parcial y los de residuos.

A) Gráficos de regresión parcial

Estos gráficos son de gran utilidad para conocer qué variables concretas incumplen el supuesto de linealidad. Muestran, para cada variable independíente, su relación con la dependiente. Para que el supuesto de linealidad se cumpla, la nube de puntos que corresponde a los valores de X; e Y en cada caso concreto, ha de ubicarse en tomo a una recta. Esta puede ser creciente o decreciente. Es creciente, cuando ambas variables, X. e Y, se hallan positivamente relacionadas; es decir, que el aumento del valor de la va­riable independiente supone igualmente un aumento en el valor de la variable de­pendiente. En cambio, la recta será decreciente si la relación entre las variables es ne­gativa: al aumento de valor de la variable independiente le sigue una disminución en el valor correspondiente a la variable dependiente. Véanse gráficos a y b en la figura 1.1.

Por el contrario, si se observa que la nube de puntos no sigue una misma pauta li­neal, creciente o decreciente, sino en forma de curva (habiendo un punto de inflexión en los datos, pasándose de una tendencia creciente a decreciente, o a la inversa) se es­tá ante una relación no lineal (gráfico c). Cuando esto acontece, es preciso realizar una transformación logarítmica en dicha variable independiente (log X.) para alcanzar la linealidad que exige el análisis de regresión lineal.

En cambio, si en el gráfico se observa que la nube de puntos no sigue ninguna pau­ta (ya sea lineal o curvilínea), significa que no existe ninguna relación entre las varia­bles dependiente e independiente. Eí cociente de correlación de ambas variables, co­mo en el supuesto anterior de relación curvilínea, se aproxima a cero (r = 0) -véanse subapartados 1.3.2. y 1.5.1™. Lo que lleva a reconsiderarla inclusión de dicha variable independiente en el análisis de regresión lineal (al mostrar no ser de utilidad en 1a pre­dicción de ja variable dependiente).

1.1.4. Linealidad

Page 14: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

26 Análisis multivariable. Teoría y práctica en la investigación social

a) Relación linea? positiva Y

b) Relación íineal negativaY

c) No-lineal(relación curvilínea)

Xd) Inexistencia de relación

entre las variables

Figura 1.1. Gráficos de regresión parcial.

Los ejes de los gráficos de regresión parcial pueden venir expresados en las uni­dades originales en que fueron medidas ambas variables o en sus correspondientes pun­tuaciones estandarizadas (unidades Z). Éstas resultan de tipificar la variable para neu­tralizar la incidencia de la unidad de medida. En este caso, los valores de las variables se localizan en el intervalo de “ -3” a “+3”.

A su utilidad en el análisis de la relación bivariable entre cada X(- e Y, hay que aña­dir que los gráficos de regresión parcial también muestran ser de utilidad en la de­tección de atípicos. Por atípico comúnmente se entiende todo caso que se distancie de la tendencia observada en la generalidad de los datos (véase subapartado 1.5.4.). En el gráfico de regresión parcial cualquier punto que se aleje de la nube de puntos identifica a un posible atípico, cuya confirmación precisa de otros procedimientos ana­líticos resumidos en el susodicho subapartado.

E j e m p l o d e c o m p r o b a c ió n d e l .s u p u e s t o d e l in e a u d a dMEDIANTE EL GRÁFICO DE REGRESIÓN PARCIAL

Para ilustrar e! uso del gráfico de regresión parcial en la comprobación def supuesto de iinealidad, se han seleccionado dos gráficos del total de realizados mediante el programa SPSS (versión 10.0).

Page 15: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 11

a)Gráfico de regresión parcial Variable dependiente: simpatía marroquí

Empatia fótíttú&ftáricana

b)Gráfico de regresión parcial Variable dependiente: simpatía marroquí

El primer gráfico a) refSeja la relación bivariable existente entre la variable dependiente “sim­patía por los norteafricanos: marroquíes, etc.” (P201) y la independiente “simpatía por los lati­noamericanos” (P210). Ambas variables se encuentran en la misma escala de medida. Sus va­lores van de 0 a 10. Del gráfico puede deducirse la existencia de una relación lineal positiva entre ambas variables, aunque no es perfecta. La simpatía mostrada hacia los latinoamericanos ayu­da a predecir la sentida hacia los norteafricanos (marroquíes, etc.). La valoración dada a este úl­timo colectivo de inmigrantes está positivamente relacionada con la dada a otro colectivo de in­migrantes: los latinoamericanos. Las personas que más simpatía sienten hacia los norteafricanos son, asimismo, los que más simpatía muestran hacia los latinoamericanos. Al aumento en ia va­loración hacia ios latinoamericanos le sigue normalmente una mayor valoración hacia los nor­teafricanos. Pero, la relación lineal positiva observada entre ambas variables no es perfecta. Si fuese perfecta, la nube de puntos se ajustaría a una recta ascendente. Este tipo de gráfico coin­cide con un coeficiente de correlación r = 1,0, que indica la existencia de una relación lineal po­sitiva perfecta entre ambas variables: conforme aumenta el valor de la variable independiente, se incrementa, asimismo, el de ia dependiente; ios valores attos y bajos en ambas variables coin­ciden. En cambio, la correlación existente entre (as dos variables referidas (simpatía por los la­tinoamericanos y simpatía por los norteafricanos) no es perfecta, aunque sí importante: “r = ,593”, como se verá posteriormente, en la matriz de correlaciones. Lo que explica que ia nube de pun­tos no sea totalmente lineal. La nube de puntos pierde la linealidad, a medida que disminuye la correlación entre las variables. Recuérdese que, cuando la correlación es nula, el gráfico de re­gresión parcial coincide con el mostrado en la figura 1.1 (gráfico d).

La existencia de puntos alejados de la nube de puntos principal informa de la existencia de atípleos a confirmar mediante otros procedimientos analíticos.

El gráfico b) es totalmente distinto al anterior. Ilustra la relación existente entre una variable independiente ficticia (“sexo") y la dependiente continua {“simpatía por los norteafricanos”). La variable “sexo" es una medida discreta convertida a ficticia mediante la codificación binaria “1” va­rón y “0” mujer. Ello afecta a que cuando se modela su relación con una variable dependiente con­tinua no resulta una recta de regresión, aunque las variables se hallen muy relacionadas. Por e! contrario, el gráfico de regresión parcial ofrece dos nubes de puntos principales, que corresponden a los valores de la variable dependiente para cada uno de ios dos valores posibles de la inde­pendiente 1 y 0. En general, el anáfisis de regresión con variables independientes ficticias posibilita

Page 16: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

28 Análisis multivariable. Teoría y práctica en la investigación social

el conocimiento de los valores predichos (o esperados) en la variable dependiente para cada uno de los subgrupos en la variable independiente. Lo que imposibilita su representación mediante una recta realizada desde una serie continua de valores.

B) Gráficos de residuos

A diferencia del gráfico de regresión parcial, el gráfico residuos no se Umita a re­laciones bivariables. Por el contrario, muestra los efectos combinados de todas las va­riables predictoras incluidas en la ecuación de regresión con la dependiente. Para lo cual se representan los residuos estandarizados o los estudentizados -explicados en el subapartado 1.1.10- contrajos valores predichos de la variable dependiente a partir de la ecuación de regresión (FK Estos valores se obtienen de sustituir (en la ecuación de regresión resultante de los análisis) los valores correspondientes de la variable inde­pendiente, en cada caso concreto. La diferencia entre el valor de la variable depen­diente observado en la'muestra (Y) y el predicho a partir de la ecuación de regresión (Y) es lo que se entiende por residuo (B¿). Si éste se halla dividido por ía desviación tí­pica, el residuo será estandarizado (E ). Los estudentizados (Ef.) se caracterizan por se­guir la distribución “t” de Student con N - p - 1 grados de libertad (siendo “N” el ta­maño de la muestra y “p” el número de variables independientes).

La figura 1.2 incluye distintas posibilidades de gráficos de residuos. Estos difieren de los gráficos de regresión parcial en dos aspectos importantes: uno, ahora se rela­cionan ios residuos con Y (los valores predichos de la variable dependiente), y no los valores de Y con X; como sucede en los gráficos de regresión parcial, dos, la nube de puntos ha de ser horizontal, y no ascendente ni descendente (según sea positivo o ne­gativo el coeficiente de regresión para la variable independiente). El supuesto de li- nealidad se cumple cuando los residuos se distribuyen aleatoriamente, próximos a la línea horizontal que parte de 0. Téngase presente que este gráfico se realiza con resi­duos estandarizados (Es.) y estudentizados (E,.). En cambio, cuando ia nube de puntos presenta una forma en curva, en vez de rectangular, el supuesto de Iinealidad no se cumple. Como sucede en los gráficos b) y c) incluidos en la figura 1.2.

a) Relación Hneal b) Relación no lineal c) Relación no finen!

10 20 30 40 50 y¡ 10 20 30 40 50 y- 10 20 30 40 50 í>.

Figura 1.2. Gráficos de residuos.

Berry y Feldman (1985: 54) proponen otra forma alternativa de comprobar el su­puesto de Iinealidad, que consideran más “rigurosa”. Consiste en dividir la muestra en

Page 17: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 29

varias submuestras que incluyan un rango de valores para la variable independiente. Si la regresión en cada submuestra, por separado, genera estimaciones de intercepto y de coeficientes de pendiente que difieran sustancialmente a través de las submuestras, se considera la relación entre las dos variables no lineal.

El incumplimiento del supuesto de linealidad no supone la invalidación del análisis de regresión, aunque sí lo debilita. Cuando acontece, la relación entre la variable de­pendiente con la independiente no queda suficientemente captada por e] coeficiente de regresión lineal. Para que esto no suceda, conviene aplicar alguno de los siguientes remedios contra la no linealidad:

a) La aplicación de métodos de regresión no lineal, como la regresión polinomial.b) La transformación logarítmica de la variable independiente (log X¿). La ecua­

ción de regresión que resulta de utilizar log X¡ en lugar de X¡ no presentaría nin­gún problema en la interpretación de los valores predichos de la variable de­pendiente (Y). Por esta razón, “la mayoría de los investigadores aceptan la transformación de loglfe, como razonable en estas situaciones” (Afifi y Clark, 1990:119).

1.1.5. Adiíividad

La predicción de la variable dependiente exige que los efectos de las distintas va­riables independientes puedan sumarse entre sí. Esto significa que, para cada variable independiente incluida en el modelo de regresión, la cantidad de cambio que provo­ca en la variable dependiente será el mismo, indistintamente de los valores de las otras variables independientes incluidas en la ecuación de regresión. Si, por el contrario, se observa que su influencia se ve afectada por los valores que presenten otras variables independientes, se está ante un modelo de regresión no aditivo (o interactivo). Ello acontece cuando las variables independientes interactúan unas con otras, al influir en la variable dependiente.

Berry y Feldman (1985) diferencian tres variedades de modelos de regresión no adi­tivos:

a) Modelo interactivo de variable ficticia. Cuando una de las variables indepen­dientes es dicotòmica (es decir, dispone de dos opciones de respuesta diferen­tes: sí-no, varón-mujer, aprobado-suspenso), el modelo es interactivo si la va­riable independiente está linealmente relacionada con la variable dependiente para ambos valores de la variable ficticia dicotòmica. No obstante, la pen­diente de la recta de regresión y el intercepto que caracterizan la relación lineal en­tre la variable dependiente y las independientes diferirán según sea el valor de la variable ficticia dicotòmica (D;).

b) Modelo multiplicativo. Si dos variables independientes, medidas a nivel de intervalo, interactúan en la variable dependiente, de modo que la pendiente

Page 18: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

30 Análisis rnultivariable. Teoría y práctica en la investigación social

de la relación entre cada variable independiente y la dependiente esté rela­cionada linealmente con el valor de la otra variable independiente.

c) Modelo interactivo no lineal. La resolución de este tipo de modelo exige tomar logaritmos en ambos lados de la ecuación de regresión. Es decir, tanto para la variable dependiente como para cada una de ias variables independientes, in­cluyendo la constante y el término de error.

En consecuencia, si se observa que el cambio en el valor de Y, relacionado con un pe­queño aumento en X ¡ depende del valor de X¡, significa que se está ante un modelo no li­neal. Por el contrario, cuando el cambio en Y, relacionado con un pequeño aumento en X£, está relacionado con el valor de otra variable independiente, el modelo es interactivo.

Tacq (1997) propone una sencilla comprobación del supuesto de aditividad. La con­fección de una ecuación de regresión que incluya todos los efectos multiplicativos entre dos variables independientes. Por ejemplo, Y = b0 + b1x1H-b2x2 + b3x1x2 + eL Esta ecua­ción se añade al modelo aditivo simple, que no contiene términos de interacción: Y = b0 + b¡ x, -!■ b;) x2 + e. Si el valor del estadístico F empírico (obtenido del modelo) es mayor que el correspondiente F teórico (que figura en la tabla de F, a unos grados de libertad y nivel de significación concretos) -véase subapartado 1.5.3- significa que la totalidad de los efectos de interacción ofrece una contribución significativa a la explicación de la variable dependiente. En este caso, el modelo aditivo no sería adecuado.

En resumen, con más de dos variables independientes en el modelo pueden in­cluirse varios términos producto para cada dos, tres o más variables. De esta forma ha­bría un refuerzo mutuo entre las variables independientes en la explicación de la va­riable dependiente. El modelo no sería aditivo, sino multiplicativo. La suma ponderada de los efectos de las variables independientes no explicaría el valor de la variable de­pendiente, sino los productos de las variables independientes con efectos interactivos.

1.1.6. Normalidad

El supuesto de normalidad es común a otras técnicas de análisis rnultivariable. Con­siste en la correspondencia de los datos (tanto relativo a la variable dependiente, co­mo a las independientes) con la distribución normal. Ello es importante porque per­mite el uso de los estadísticos “F” de Snedecor y “t” de Student, en la comprobación de la signifkañvidad del modelo de regresión en su conjunto (“F”) y de sus coeficientes por separado (“t”).

El incumplimiento de este supuesto es más probable cuando el análisis de regre­sión se realiza en una muestra de tamaño pequeño (inferior a los ratios mencionados en el subapartado 1.1.1). Conforme aumenta el tamaño de la muestra, y merced a la teoría del límite central, es más cierta ia correspondencia de la distribución de datos con la curva normal. De hecho, algunos autores, como Afifi y Clark (1990:116), afirman que “las salidas ligeras de este supuesto apreciablemente no alteran nuestras infe­rencias, si el tamaño muestral es suficientemente grande”.

Page 19: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 31

Como en otros supuestos de regresión, la forma más sencilla de comprobar éste es visual, con la ayuda de alguno de los gráficos siguientes:

A ) Histograma de residuos

Incluye los residuos, preferiblemente estandarizados, junto con las frecuencias de la variable. Para que el supuesto de normalidad se satisfaga, los residuos (aquellos da­tos que no logran ser explicados por el análisis de regresión, al no coincidir los valores observados con los predichos a partir de ía ecuación de regresión) han de estar nor­malmente distribuidos. El histograma, en suma, ha de tener una forma acampanada (de campana de Gauss). Su distribución ha de ser perfectamente simétrica, con media 0 y desviación típica 1. Si, por el contrario, se observa una agrupación exagerada de re­siduos, no en el centro, sino en un extremo de la distribución, ya sea en los valores po­sitivos o en los negativos, el supuesto de normalidad no se cumple.

- ^ EJEM PLO DE HISTOGRAMA DE RESIDUOS ---------------'--------------------------------- "

Para ilustrar la aplicación del histograma en la comprobación del supuesto de normalidad, a continuación se incluye el histograma correspondiente a los datos aquí analizados de la en­cuesta de “Actitudes ante fa inmigración”. El gráfico contiene las frecuencias de la variable de­pendiente Junto a los residuos estandarizados, para un tota! de 1.267 casos válidos. En él pue­de observarse que e¡ supuesto de normalidad prácticamente se cumple. La media de la distribución es “,05” y fa desviación típica “1,00”. Recuérdese que e! supuesto de normalidad exige que la distribución de datos sea perfectamente simétrica. Lo que significa que su me-

Histograjna Variable dependiente; simpatía marroquí

160-¡-----------------------------------------------------------

Regresión residuo tipificado

Page 20: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

32 Análisis multivariable. Teoría y práctica en la investigación social

dia aritmética ha de ser igual a “0,0” y su desviación típica igual a “1,0”. Si. se comparan los valores obtenidos con los de referencia, puede concluirse que la asimetría de la distribución observada es ligera. Como era de esperar por ei tamaño muestral analizado, en relación con ei número de variables predictoras incluidas en el análisis, ia distribución de los datos casi se corresponde con la curva norma!. Para un análisis más detallado del ligero apuntamiento y desviación hacia la derecha de la distribución observada ha de acudirse a los gráficos de pro­babilidad normal para variables predictoras concretas, y no para el conjunto de la distribución, además de estadísticos específicos de asimetría y curiosis. Éstos ayudan a comprobar la ex­tensión a la que la serie de puntuaciones observadas se desvían de ia distribución normal.

B) Gráfico de probabilidad normal

Algunas veces referidos como gráfico P - P . Difiere del histograma de residuos en que también puede aplicarse cuando el tamaño de la muestra analizada es pequeño. En él se compara la distribución observada de los residuos estandarizados1 (o tipificados) con la esperada bajo el supuesto de normalidad. Para ello se representan ambas dis­tribuciones de probabilidad acumuladas: la esperada y la observada. Si ambas distri­buciones coinciden, se obtiene una recta que forma un ángulo de 45°. Lo que signifi­ca que se está ante una distribución normal. Las salidas de la normalidad se producen cuando la distribución de datos se distancia de la diagonal definida por dicha recta.

Cuando la línea de puntos cae por debajo de la diagonal, la distribución es plati- cúrlica. Tanto más, cuanto más se distancie la línea de puntos de la diagonal. Este ti­po de distribución se caracteriza por una elevada dispersión de sus valores con respecto a la media de la distribución, lo cual dificulta su representatividad. La distribución de los datos presenta una forma achatada o plana, con escasos valores en su centro. El va­lor de curtosis correspondiente es negativo (inferior a 0). Por el contrario, si la línea de puntos se sitúa por encima de la diagonal, la distribución es leptocúrtica. Sus valores se hallan muy concentrados en torno a la media de la distribución, al haber muchos casos en su centro; su dispersión respecto de la media aritmética es muy pequeña, fa­voreciendo su representatividad. El valor de curtosis es en este caso positivo (supe­rior a 0).

Un arco sencillo por encima o por debajo de la diagonal indica, asimismo, asime­tría (positiva o negativa). La asimetría constituye un indicador de la agrupación de las frecuencias en la curva de una distribución, del grado en que coinciden las medidas de tendencia central (media, mediana y moda). La distribución es simétrica (o normal) cuando los valores de dichos estadísticos no difieren. Gráficamente, la nube de puntos se ajusta a la diagonal. Si se sitúa por encima de la diagonal, la distribución es asimé­trica a la derecha (o con sesgo positivo). Los casos se agrupan a la izquierda de la cur­va, al haber en la distribución mayor representación de los valores inferiores a la me­día. El valor de asimetría correspondiente es positivo (superior a 0).

Un arco por debajo de la diagonal informa, en cambio, que la distribución es asi­métrica negativa (o con sesgo negativo); tanto más, cuanto más se distancie la línea de

Page 21: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo i: Regresión múltiple 33

puntos de la diagonal definida por ambas probabilidades. En ias distribuciones asi­métricas negativas la agrupación de valores se produce a la derecha de la curva, al ha­ber una mayor presencia de valores superiores a la media en la muestra analizada. La asimetría en este caso toma un valor negativo. De detectarse algún tipo asimetría, es preciso examinar por separado cada variable para comprobar en cuáles se incumple el supuesto de normalidad.

E! gráfico P - Pde probabifidad normal de residuos estandarizados {o tipificados) de la misma distribución de datos analizada corrobora las conclusiones del histograma de residuos. Como puede observarse en el gráfico P - P adjunto, la nube de puntos se sitúa a lo largo de la diagonal (que resulta de comparar las distribuciones de probabilidad acumuladas obser­vadas y esperadas -para una distribución normal“ para los residuos estandarizados), sin dis- tanciamientos notorios. Lo que lleva a afirmar el cumplimiento del supuesto de normalidad. La asimetría a la derecha detectada es muy leve. Apenas se vislumbra un pequeño arco por encima de la diagonal en el rango semiintercuartílico de las probabilidades acumuladas.

Como ambos gráficos de residuos (P - P de probabilidad normal y el histograma de re­siduos) muestran el práctico cumplimiento det supuesto de normalidad rnultivariable, puede seguirse ía recomendación de Tabachnick y Fidell (1989: 79), según la cual, “en regresión múl­tiple, si los gráficos de residuos parecen normales, no existe razón para visualizar variables Individuales para comprobar la normalidad". No obstante, esta comprobación univariable pue­de ser deseable en busca de mejora de! modelo obtenido. Para lo cual habrá de seguirse otros procedimientos estadísticos y gráficos que se verán más tarde.

P - P D E PROBABILIDAD NORMAL

Gráfico P-P normal de regresión residuo tipificado Variable dependiente: simpatía marroquí

1,00

"O ca u*

£ 0,000,00 ,25 ,50 ,75 1,00

Prob. acum. observada

Page 22: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

34 Análisis multivariable. Teoría y práctica en la investigación social

® La normalidad también puede comprobarse con la ayuda de estadísticos. El de ma­yor aplicación es el estadístico W de Shapiro-Wilks (propuesto por ambos autores en 1965, en “An analysis of variance test for normality”, Biometrika 52:591-611). Este estadístico ha alcanzado una amplia aplicación en la comprobación del supuesto de normalidad, aun­que limitada a tamaños muéstrales pequeños (inferiores a 50 unidades). Su popularidad en gran parte se debe a su presencia en la mayoría de los paquetes estadísticos.

Su valor se obtiene a partir de los valores esperados de los residuos (E( = Y¡ - Y¿) de una distribución normal estándar. El rango de valores posibles va de 0,0 a 1,0. Un W - 1,0 significa el cumplimiento del supuesto de normalidad, mientras que un W - 0,0, su incumplimiento.

La generalidad de los paquetes estadísticos suelen ofrecer los valores de W acom­pañados de la probabilidad asociada (valor p), para comprobar la hipótesis nula que los datos se ajustan a una distribución normal. Cuando el valor de W es pequeño, pró­ximo a 0,0, así como el valor de p, se rechaza la hipótesis nula de que los datos se ha­llen normalmente distribuidos.

La comprobación del supuesto de normalidad también puede hacerse con el es­tadístico D de Kolmogorov-Smimov. Pero, únicamente cuando se analice un tamaño muestral elevado. Con este segundo estadístico de comprobación, la hipótesis nula de normalidad se rechaza a la inversa que con el anterior: para valores elevados de D (y no bajos), o un valor pequeño de p.

E j e m p l o d e c o m p r o b a c ió n d e l s u p u e s t o d e n o r m a l id a dMEDIANTE ESTADÍSTICOS

La comprobación del supuesto de normalidad no se ha limitado al análisis de los gráficos de residuos. También se ha acudido a estadísticos que describan la forma de la distribución, en qué medida coincide o se distancia de la curva normal. Como ia muestra analizada supera las 50 unidades, ei programa SPSS no calcula los valores correspondientes at estadístico de Shapiro-Wilks. Los valores de normalidad que ofrece son los valores D de KolmogorovSmir- nov, con una corrección de la significatividad de la normalidad de Liliiefors. Esta corrección es de utilidad cuando se aplican estimaciones muéstrales y se desconocen la media y la va- rianza poblacionales. Los valores D figuran con sus grados de libertad respectivos. Éstos son iguales al número de casos válidos (o con respuesta) en la variable concreta analizada.

Atendiéndonos a los datos que figuran en la tabla anexa puede observarse que, a ex­cepción de dos variables principales (“vecino marroquí” y “regularizar a inmigrantes”), que pre­sentan valores D próximos a “,5”, ia generalidad de las variables se sitúan por debajo de es­te valor. Especialmente, las variables “edad” (,097), “ideología política” (,139) y “simpatía hacia el marroquí” (,147), con valores D próximos a 0. Lo que significa su proximidad con la curva normal. Pero, la prueba de significatividad efectuada informa de lo contrario. Los niveles de significación de Liliiefors son, en todas las variables, “ ,000". Lo que supone el rechazo de la hipótesis nula de normalidad en todas las variables consideradas para el análisis. Esta

Page 23: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 35

conclusión no concuerda con la inspección anterior de los datos, aunque era de prever por el tamaño de la muestra de análisis.

Es sabido que en muestras grandes (superiores a 1.000 unidades) lo más habitúa! es que las pruebas de significatividad lleven al rechazo de la hipótesis nula. Y, dado que el tamaño muestral se halla presente en su cálculo (los grados de libertad), era de esperar esta no coincidencia en los resultados. Incíuso entre ios valores Dy su significatividad correspondiente. Como Hair et al. ("1999:65) afirman: “E! investigador debería siempre recordar que los tests de significación son menos útiles en muestras pequeñas (menores de 30) y muy sensibles para grandes muestras (superiores a 1.000 observaciones)” . Asimismo, Tabachníck y Fídeli (1989) desaconsejan eS uso de las pruebas de significatividad en la comprobación del supuesto de nor­malidad cuando la muestra sea grande. Los estadísticos de normalidad muestran adecuación en muestras pequeñas o moderadas, pero no en tamaños muéstrales elevados como el aquí analizado. Además, observan que “porque tos errores típicos de tanto asimetría como curtosis contienen N, con muestras grandes la hipótesis nula es probable que se rechace cuando exis­ten sólo desviaciones pequeñas de la normalidad” -como sucede en los datos aquí analizados-, A io que añaden: “En una muestra grande, una variable con asimetría significativa (o curtosis) con frecuencia no se desvía lo suficiente de la normalidad para hacer una diferencia realista en el análisis. En otras palabras, con muestras grandes los niveles de significatividad de asimetría y curtosis no son tan importantes como sus tamaños reales (peor cuanto más se distancien de 0) y apariencia real de la distribución” (Tabachnick y Fidel!, 1989:73-74).

Estas observaciones han ayudado a la interpretación de los resultados, a la no consideración de la significatividad, al contar con un número de casos válidos mínímo, en la peor de las sitúa- dones (en la variable "leyes de inmigración”), de 1.713 unidades. La prueba de normalidad de Kol- mogorov-Smimovse ha contrastado con los estadísticos descriptivos de asimetría y curtosis y me­díante los gráficos Q - Q normal para cada una de las variables consideradas.

Pruebas de normalidad3

Kolmogorov-Smimov*Estadístico 9* Sig.

Simpatía marroquí ,147 2.183 ,000Leyes inmigración ,208 1.713 ,000Ideología política ,139 1.804 ,000Sexo ,351 2.492 ,000Edad ,097 2.492 ,000Simpatía latinoamericano ,127 2.174 ,000Numero inmigrantes ,305 2.111 ,000Regularizar inmigrante ,471 2.171 ,000Entrada inmigrante ,346 2.288 ,000Partido racista ,385 2.237 ,000Casar con marroquí ,383 2.415 ,000Estudios ,221 2.281 ,000Ingresos ,240 1.793 ,000Vecino marroquí ,489 2.468 ,000Inmigrante delincuente ,378 2.138 ,000

a Corrección de la significación de Ulliefors.

Page 24: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

JÓ Análisis multivariable. Teoría y práctica en ¡a investigación social

Gráfico Q-Q norma] de leyes inmigración

Valor observado

c)Gráfico Q -Q normal de vecino marroquí

Vaior observado

e)Norm al gráfico Q -Q de vecino marroquí

Valor observado

b)

Gráfico Q-Q normal de ideología política

d)Gráfico Q-Q normal de ingreso

Valor observado

f )Norm al gráfico Q-Q de ingresos

Transformaciones: íog natural

Page 25: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 37

Como son muchas las variables analizadas, se han seleccionado gráficos Q - Q que muestran ajuste de la variable a la distribución normal y otros que muestran desajuste. Los gráficos Q - Q normal (o gráficos de cuantil-cuantil} son similares a los gráficos P - P, pero aplicados a variables individuales. Ayudan a identificar salidas de la normalidad no para el con­junto de las variables, sino en cada una de las variables de interés. Las puntuaciones figuran igualmente ordenadas y se comparan los valores observados para cada caso con el esperado bajo el supuesto de normalidad. Los gráficos a) y b) ejemplifican una buena corresponden­cia de (as variables con la distribución normal. La mayoría de los puntos coinciden con la dia­gonal, siendo mínimas las desviaciones (debidas a procesos aleatorios). En cambio, los grá­ficos c) y d) muestran discordancia con la distribución normal. Corresponden a las variables “vecino marroquí" e “ingresos” . Éstas son, precisamente, las dos variables con mayores ni­veles de asimetría (“2,677” y “2,824” con un error típico de “,049” y “,058”, respectivamente. Recuérdese que el error típico de asimetría es una medida de la extensión a la que la asi­metría puede variar como una función del tamaño de ¡a muestra) y de curtosis (“6,528” y “12,622”, con errores típicos de “,099” y “,116"). Se trata, en ambos casos, de distribuciones asimétricas a Sa derecha (la mayoría de ¡os valores se sitúan a la izquierda de la media) y lep- tocúrticas (demasiados casos en el centro de la distribución), especialmente la variable “in­gresos”. Las demás variables se distancian menos de la distribución norma!, con valores de asimetría y curtosis por debajo del valor de referencia “±,80” que expresa una asimetría (po­sitiva o negativa) y curtosis importante.

Para comprobar si la introducción de una transformación en dichas variables pudiese co­rregir su desviación de ía normalidad, se procede a su transformación logarítmica al estimarse importante su desviación de la normalidad (curtosis y asimetría positiva severa). Los gráficose) y f) corresponden a los gráficos Q - Q normal con las variables transformadas a sus lo­garitmos naturales. Si se comparan ambos gráficos con los habidos previo a la transforma­ción logarítmica de las variables (gráficos c) y d)), puede observarse que dicha transfor­mación no resuelve la no-normalidad en ia variable “vecino marroquí”, aunque sí en ía variable "ingresos”, al quedar la nube de puntos prácticamente ajustada a la diagonal. Lo que lleva a considerar esta última transformación en la solución de regresión. Una explicación posible an­te este dispar efecto de ia transformación de las variables es lo ya observado por Afifí y Clark (1990), que la efectividad de la transformación, al inducir normalidad, aumenta en variables cuya desviación típica es grande en relación con su media. La media de la variable “ingresos” es 143.991 pesetas al mes, siendo la desviación típica de 105.233 pesetas. En cambio, la me­dia de la variable “vecino marroquí” es 1,27 con una desviación de ,672.

® Los remedios más aplicados ante el incumplimiento del supuesto de normalidad, rnultivariable son los siguientes;

a) La transformación logarítmica de la variable dependiente (log Y), sobre todo, cuando la distribución de los residuos muestra asimetría positiva severa. Si di­cha asimetría es mediana, puede aplicarse la raíz cuadrada (VY).

b) La transformación cuadrada, si la asimetría es negativa.c.) También puede optarse por la transformación inversa, cuando la distribución de

los residuos muestra un incumplimiento grave del supuesto de normalidad.

Page 26: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

38 Análisis multivariable. Teoría y práctica en la investigación social

No obstante, Nourisis (1986) advierte que el estadístico “F”, empleado en la com­probación de hipótesis de significatividad del modelo de regresión en su conjunto, suele ser bastante insensible a las salidas “moderadas” de la normalidad. Por ello re­comienda adoptar alguno de los remedios referidos sólo cuando el incumplimiento del supuesto de normalidad sea importante. Afifi y Clark (1990; 67) proponen que las transformaciones para alcanzar normalidad no se lleven a cabo “si la desviación típica dividida por la media es inferior a l/4”. “Las transformaciones son más efectivas al inducir normalidad cuando ia desviación típica de la variable no transformada es grande rela­cionada con la media” (como sucede con la variable “ingresos” aquí analizada).

En caso de optar por la transformación, el análisis de regresión ha de realizarse con los datos transformados. Los resultados pueden compararse con aquéllos obtenidos con los datos no alterados. De esta forma puede observarse la ganancia adquirida con la transformación.

1.1.7. Homocedasticidad

Para que la relación de las variables independientes con la dependiente pueda medirse con rigor, se precisa que la varianza de los valores de la variable dependiente sea igual en cada valor de las variables independientes (o predictoras). Esto se conoce como homo­cedasticidad o igualdad de las varianzas de los términos de error residual en la serie de va­riables independientes. La variable dependiente ha de mostrar niveles iguales de varianza en los distintos valores de las variables independientes. En cambio, si la variabilidad en los términos de error de las distintas variables independientes no es constante, se dice que los residuos son heterocedásticos. Ello significa que su magnitud (de los residuos) aumenta o disminuye en fundón de los valores que adopten las variables independientes, o según cuá­les sean los valores predichos. La varianza de la variable dependiente se concentra en unos valores concretos de las variables independientes, lo que provoca que la predicción del va­lor de la variable dependiente sea mejor (de existir heterocedasíicidad), no en todos, si­no sólo en determinados valores de las variables independientes.

Aunque el supuesto de homocedasticidad es uno de los que más se incumplen ha­bitualmente (Hair et al, 1992; 1999), en el análisis de regresión lineal debe valorarse. Para que el análisis de la relación de dependencia sea correcto, la varianza de la va­riable dependiente no ha de concentrarse en unos valores determinados de las varia­bles independientes. Ello no sólo ocasiona diferencias en la predicción del valor de la variable dependiente, sino que en general se relaciona con la obtención de pruebas de significatividad (mediante los estadísticos “t” y “F”) cuyos resultados sean incorrectos. La posibilidad de que esto acontezca es mayor cuando se analizan datos seccionales (o transversales) que longitudinales; por ejemplo, en una encuesta convencional. Como Gujarati (1988; 319) observa: “En datos seccionales, se suele tratar con miembros de una población en un punto determinado en el tiempo, tales como consumidores in­dividuales o sus familias, empresas, industrias, o subdivisiones geográficas, tales como estados, países o ciudades, etc. Lo que es más, estos miembros pueden ser de diferentes

Page 27: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 39

tamaños, tales como empresas pequeñas, medias o grandes o renta alta, media o baja. En los datos de series temporales, por otro lado, las variables tienden a ser de ordenes similares de magnitud porque generalmente se recogen los datos para la misma enti­dad a lo largo de un período de tiempo”.

La figura 1.3 incluye situaciones de homocedasticidad a) y heterocedasticidad b) pa­ra un modelo de regresión simple. Incluye la probabilidad condicional de la variable dependiente (Y) para valores seleccionados de la variable independiente (X). Como puede observarse, la homocedasticidad se da cuando la varianza condicional de Y per­manece constante, indistintamente de los valores que tome la variable independiente. Si, por el contrario, la varianza no permanece constante, sino que aumenta conforme se incrementa el valor de la variable independiente se habla de heterocedasticidad. La figura 1.3b ilustra esta situación. En ella puede observarse como la varianza de los tér­minos de error se halla positivamente correlacionada con la variable independiente. La distribución pasa de ser leptocúrtica a cada vez más platicúrdca.

La homocedasticidad suele relacionarse con el supuesto de normalidad. De hecho se observa que “cuando el supuesto de normalidad multivariable se satisface, las re­laciones entre las variables son homocedásticas” (Tabachnick y Fidell, 1989:82). En ge­neral, la heterocedasticidad es más probable que acontezca cuando se da alguna o va­rias de las situaciones siguientes:

a) Se incumple el supuesto de normalidad.b) Las variables no se encuentran directamente relacionadas.c) Algunas de las variables son asimétricas mientras que otras no lo son.d) En determinadas variables independientes, las respuestas se concentran en un

número limitado de valores.

a) Términos de error homocedácticos b) Términos de error heterocedácticos

Figura 1.3. Homocedasticidad y heterocedasticidad.

Berry y Feidman (1985: 73) destacan tres situaciones en las cuales la heteroce­dasticidad se convierte en problema:

a) Cuando la variable dependiente está medida con error, y la cantidad de error varía con el valor de la variable independiente. Por ejemplo, la encuesta. En ella,

Page 28: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

40 Análisis multivariable. Teoría, y práctica en la investigación social

la unidad de análisis más habitual es el individuo y algunos de eSlos pueden aportar una información más adecuada que otros.

b) Cuando la unidad de análisis es un “agregado” y la variable dependiente la for­ma un promedio de valores para los objetos individuales que componen las uni­dades agregadas. Por ejemplo, el nivel de renta medra en alguna unidad agre­gada. Si el número de individuos seleccionados, en cada unidad agregada, para determinar el nivel de renta media, difiere a través de las unidades, la ade­cuación con la que está medida la variable dependiente también variará.

Los niveles de renta medios estimados a partir de una muestra grande de in­dividuos suelen caracterizarse por un menor error de medición que las medias ob­tenidas de una muestra pequeña. Esta aseveración se deduce del conocimiento de que la varianza de la distribución de una media muestral decrece cuando el tamaño de la muestra aumenta (Wonnacott y Wonnacott, 1972; 120-122).

c) La heterocedasticidad también puede preverse en las situaciones donde existe variación significativa en la variable dependiente. Berry y Feldman (1985) citan, como ejemplo ilustrativo, un modelo en el que la renta anual de la familia sea la variable independiente y sus gastos anuales en vacaciones la dependiente. Lo más razonable es esperar que en las familias con rentas bajas el gasto medio en vacaciones sea igualmente bajo. La variación en los gastos en todas ias familias es, en consecuencia, bastante pequeña. Debido a que las familias de rentas ba­jas han de gastar el grueso de su renta en cubrir las necesidades básicas, dejando muy pocos fondos para gastar en vacaciones. Pero, cuando la renta familiar au­menta, el gasto medio destinado a vacaciones no aumenta necesariamente. Lo que resulta en variación importante en los valores de la variable dependiente. Esta situación se conoce como heterocedasticidad.

La heterocedasticidad a veces se debe a errores de medición. En otras ocasiones es con­secuencia de la existencia de una interacción importante entre una variable independiente incluida en el modelo con otra ausente del mismo. Siguiendo el ejemplo de Berry y Feld- man (1985:75), “podría argumentarse que la cantidad de gasto de una familia para va­caciones está determinada no sólo por la renta de la familia, sino también por la satis­facción que sus miembros obtienen de las vacaciones, y el nivel de satisfacción y de renta puede esperarse que interactúen al determinar los gastos en vacaciones: entre las familias que obtienen poca satisfacción de las vacaciones podemos esperar que la renta tenga un débil efecto en los gastos en vacaciones, pero cuando la satisfacción obtenida aumenta, se puede esperar que la renta tenga un efecto más fuerte en el nivel de gastos”.

Al igual que la normalidad y otros supuestos de regresión, la heterocedasticidad puede detectarse mediante un gráfico de residuos. La figura 1.4 incluye gráficos de re­siduos estandarizados en distintas situaciones de homocedasticidad. En el eje vertical se sitúan ios residuos y en el horizontal los valores de la variable independiente. Ha­brá heterocedasticidad, cuando se observe aumento o disminución en los residuos con los valores de la variable independiente. Berry y Peldman (1985: 80) diferencian las tres situaciones expuestas en la figura 1.4.

Page 29: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 41

E*. E„

X, O X;

a) Homocedasticidad con una muestra grande

b) Homocedasticidad con c) Heterocedasticidad una muestra pequeña (varianzas de error

crecientes)Figura 1.4. Gráficos de residuos estandarizados para homocedasticidad.

Si el tamaño muestral es elevado, los residuos deberían repartirse por igual a lo lar­go de los valores de la variable independiente, como muestra la figura 1.4a, en dos líneas horizontales paralelas alrededor de 0, que es la media residual. En muestras pe­queñas, por el contrario, la varianza de los residuos de regresión no es idéntica en to­dos los valores de la variable independiente, aun habiendo homocedasticidad perfec­ta. La varianza será mayor en los valores próximos al centro de la distribución que en los extremos, como puede observarse en la figura 1.4b. Cualquier gráfico que se aleje de las dos variedades mencionadas muestra la violación del supuesto de homocedas­ticidad, como indica la figura 1.4c. En ella puede verse cómo la varianza de los residuos decrece con el aumento del valor de ía variable independiente.

Cuando se analiza la incidencia conjunta de varias variables independientes se ob­tienen gráficos a modo de los expuestos en la figura 1.5. Se trata de gráficos de residuos (preferiblemente estudentizados o estandarizados) contra los valores predichos de la va­riable dependiente (Y;); es decir, la combinación de las variables independientes que for­man la ecuación de regresión. En esta modalidad gráfica, los aumentos o disminuciones de los residuos de acuerdo con el valor predicho de la variable dependiente (V'-) expresan incumplimiento del supuesto de homocedasticidad (figuras 1.5b y 1.5c). De los tres tipos de gráficos quizás sea la figura 1.5c la que refleje la situación de heterocedasticidad más ha­bitual Este gráfico presenta una forma triangular. La figura L5b en forma de diamante, que también expresa heterocedasticidad, se da en situaciones de mayor variación de re­siduos hacia el centro de la distribución de Y que en los extremos.

-h3+2+10

-1-2-3

'«¡mm

Y¿

+3 +2 + 1 0

-1 -2 -3 ■Yi

a) Homocedasticidad b) Heterocedasticidad c) Heterocedasticidad

Figura 1.5. Gráficos de residuos estudentizados para homocedasticidad.

Page 30: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

42 Análisis multivariable. Teoría y práctica en la investigación social

El supuesto de homocedasticidad también puede comprobarse con la ayuda de es­tadísticos. Entre los más aplicados se encuentran los tres siguientes;

a) El test de Léveme. Propuesto en 1960 por Levane en un artículo titulado “Ro- . bust tests for equality of variances”. De su título puede deducirse la finalidadde la prueba: aplicar un análisis de varianza sobre el valor absoluto de las pun­tuaciones de desviación. Se trata de medir la igualdad de varianzas para un úni­co par de variables (simples o compuestas). Y se comprueba que su robustez mejora cuando se sustituyen las desviaciones alrededor de la mediana (\Y¡. - Yj) por las desviaciones alrededor de la media (í Y- - F;l). La significatividad se comprueba mediante el estadístico “F”. Éste se aplica para determinar si la hi­pótesis nula ( R j de homogeneidad de la varianza debe rechazarse. Esta hipótesis se rechaza cuando ei estadístico de Levene es significativo (habituaJmente, p < ,05). Lo que supone el incumplimiento del supuesto de homocedasticidad.

De acuerdo con Hair ei al. (1999:168), el uso de esta prueba (de Levene) “es particularmente recomendable porque es el que menos queda afectado por desviaciones de la normalidad, otro de los problemas que ocurren con fre­cuencia en la regresión”.

b) El test de Goldfield y Quant. Propuesto en 1965 por los autores susodichos, con­siste en la reordenación de las “n” observaciones de la muestra de forma cre­ciente, de acuerdo con la variable independiente que se sospeche que covariará con la varianza del término de error. Después se elimina un 25% de Jos casos del centro de la distribución. Igual número se elimina también de los casos que se hallan por debajo y por encima del medio de la distribución. Requiere, en con­secuencia, la división de ias observaciones en dos grupos. Para cada uno de ellos se realiza un análisis de regresión OLS. Después se comparan sus respectivas su­mas de residuos cuadrados (RSS) en relación con sus grados de libertad (véa­se subapartado 1.5.3). Si el cociente entre ambos muestra ser significativo, de acuerdo con el estadístico de comprobación F, puede afirmarse, al nivel de sig- nifteatividad elegido, eí incumplimiento del supuesto de homocedasticidad.

Esta prueba estadística muestra adecuación a tamaños muéstrales pequeños. También, cuando se asume que la varianza heterocedástica se encuentra positiva­mente relacionada con una de las variables predictoras en el modelo de regresión.

c) La d de Durbin-Watson. Este estadístico puede utilizarse igualmente en la comprobación del supuesto de homocedasticidad, además de en la compro­bación del supuesto de independencia de los términos de error. Esta prueba se aplica a residuos correlacionados serialmente, como se muestra en el suba­partado 1.1.9, En la comprobación del supuesto de homocedasticidad. su valor ha de estar comprendido entre 1,5 y 2,5 para poderse afirmar que existe ho­mocedasticidad (Freí y Ruloff, 1989).

A estos tres procedimientos de comprobación principales cabe añadir otros, aun­que de uso menos extendido. Destacan, por ejemplo, la prueba de Park, la de Gíejser

Page 31: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capitulo 1: Regresión múltiple 43

y la prueba de correlación de rango de Spearman. Una información detallada de las mismas se encuentra en Gujarati (1988).

E j í'JEMPLO DE COMPROBACION DEL SUPUESTO DE HOMOCEDASTICIDAD

El supuesto de homocedasticidad se ha comprobado, primero, para e( modelo de re­gresión en su conjunto; y, segundo, en cada variable predictora por separado. Para su com­probación se ha acudido no sólo a estadísticos, sino también a gráficos de residuos. No se olvide que la recomendación más extendida es el uso preferente de gráficos (Hair et a/. 1992; 1999). Particularmente, aquellos que incluyen residuos (diferencias entre los valores de Y ob­servados y los predichos a partir del modeio de regresión -véase subapartado 1.1.10-), en especial, en el análisis de regresión lineal, caracterizado por incluir variables métricas.

En ia comprobación conjunta del supuesto de homocedasticidad se observa, nuevamente, discordancia entre lo dicho por estadísticos de comprobación y lo reflejado en ios gráficos de residuos. Atendiendo a lo indicado en el estadístico d de Durbin-Watson, cuyo valor es 1,819, puede afirmarse, de acuerdo con lo dicho por Frei y Ruloff (1989), que el supuesto de ho- mocedasficidad se satisface. El valor del estadístico d se halla comprendido en el rango de valores que define el cumplimiento del supuesto de homocedasticidad de 1,5 a 2,5. Este re­sultado ya se preveía al haberse constatado, con anterioridad, la práctica correspondencia de la distribución de los datos con la curva normal.

La misma conclusión no puede extraerse, sin embargo, de la observación del gráfico de re­siduos conjunto, que incluye ios residuos estudentizados respecto a los valores tipificados de la variable dependiente predícha a partir del modelo de regresión expuesto en el gráfico a). Pa­ra que el supuesto de homocedasticidad se satisfaga plenamente, la nube de puntos no debe mostrar ninguna pauta creciente o decreciente. La banda que agrupa a los residuos ha de ser igual en amplitud en todos los valores de la variable dependiente predicha y en torno a la me­dia residual (0), como se muestra en la figura 1.5.a. Al haberse elegido los residuos estuden­tizados, el 95% de los mismos debería caer en el intervalo que va de -2 a +2 para que la for­ma del modelo fuese correcta. La mayoría de los puntos en el gráfico de dispersión a) se

a) Gráfico de dispersión Variable dependiente: simpatía marroquí

Regresión valor pronosticado tipificado

Page 32: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

44 Análisis rnultivariable. Teoría y práctica en la investigación social

concentran en dicho intervalo, aunque en menor proporción de ia recomendable. Además, se observa que la nube de puntos tiene igual amplitud, aunque muestra una continua tendencia li­neal decreciente. Si bien ésta no se ajusta plenamente a situaciones claras de heterocedasti­cidad, como las expuestas en las figuras 1.5b y 1.5c. En suma, de ia observación de dicho grá­fico no puede concluirse el cumplimiento satisfactorio del supuesto de homocedasticidad. Para mejorar el ajuste del modelo, podría probarse algún procedimiento de regresión alterna­tivo, como e! análisis de regresión de mínimos cuadrados ponderados. A tal fin, se escogerían pesos que fuesen proporcionales a la inversa de la varianza {subapartado 1.6.2).

Aunque distintos autores (Tabachnick y Fidell, 1989; Afifi y Clark, 1990) advierten que la existencia de heterocedasticidad no invalida el anáfisis de regresión linea!, aunque io debi­lite, es bueno buscar algún remedio a la misma. Afifi y Clark (1990: 116), por ejemplo, ob­servan que “el supuesto de homogeneidad de la varianza no es crucial para la recta de mí­nimos cuadrados. De hecho, las estimaciones de mínimos cuadrados de a y b son insesgadas si o no el supuesto es válido”.

El análisis por separado de las variables predictoras muestra ei pleno cumplimiento de! su­puesto de homocedasticidad en variables continuas como “edad” o “ingresos” y en variables fic­ticias como “sexo” o "identificación del inmigrante con delincuente”, por ejemplo. Esta conclusión se extrae tanto de la aplicación del estadístico de Levene como de la observación de ios gráfi­cos de dispersión correspondientes. Véase el gráfico b), de ia variable "edad”. Este gráfico ejem­plifica como ha de ser el gráfico de dispersión para mostrar homocedasticidad en una variable continua. La varianza de la variable dependiente ha de ser constante en tos distintos valores de la variable independiente. El gráfico c) (la variable “sexo”, dicotomizada en 1 varón y 0 mujer) se adecúa, en cambio, a la situación de análisis de una variable ficticia.

Por último, ios gráficos d) y e) para las variables “simpatía hacia latinoamericanos" y “es­tudios”, respectivemente, no muestran la satisfacción del supuesto de homocedasticidad. Si se atiende, además, a lo dicho por el estadístico de Levene, que figura a continuación, el incum­plimiento del supuesto de homocedasticidad es evidente en ambas variables. Recuérdese que en la prueba de Levene (aplicada para ia comprobación de la homocedasticidad en un único par de varianzas) el rechazo de la hipótesis nula de igualdad de varianzas se produce cuando el va­lor de este estadístico es significativo (p < ,05), a decir por la prueba de significativsdad de F. En

Page 33: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 45

ambas variables la significatividad del estadístico es inferior a dicho referente, lo que supone el rechazo de ia hipótesis nula. Se está ante variables que incumplen el supuesto de homoce- dasticidad La varianza de la variable dependiente difiere en los distintos valores de las dos va- riabies predictoras. Para la interpretación de los gráficos téngase además presente las unida­des de medición de ambas variables (expuestas en el subapartado 1.1.3).

En la tabla A figuran los valores del estadístico de Levene, ¡unto a su significatividad, en distintos supuestos: datos sin transformar o transformados (cuando las características y el nú» mero de casos en ios distintos valores de ambas variables lo permite), en busca de alcanzar igualdad en tas varianzas. Las transformaciones realizadas han sido tres: la logarítmica, la re­cíproca y ia transformación de raíz cuadrada. Mediante el estadístico de Levene se compara, por separado, la variabilidad de la variable dependiente (“simpatía hacia los norteafricanos: marroquíes...”) en los distintos valores de cada variable independiente. Aunque el programa

Tabla ADatos sin

transformar Levene Sig.

Transformación logarítmica

Levene Slg.Transformación

recíproca Levene Sig.

Transformac/ó/i raíz cuadrada

Levene Sig.Leyes inmigración

Media Mediana

1,8151,978

,053,032

3,0991,629

,001,094

8,1143,500

,000,000

1,4071,144

,171,325

Ideología política Media Mediana

2,0761,756

,024,065

2,2701,501

,013,135

2,4921,448

,006,155

2,0931,588

,023,106

SexoMediaMediana

3,602,678

,000,746

3,602,678

,000,746

Page 34: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

46 Análisis multivariable. Teoría y práctica en la investigación social

Datos sin transformar

Levene Sig.Transformación

logarítmica Levene Sig.

Transformación recíproca

Levene Sig.Transformación raíz cuadrada

Levene Sig.Edad

MediaMediana

1,1361,073

,331,379

.,868,626

,563,792

1,373,977

,189,462

,975,726

,464,700

Simpatía latinoamericano Media Mediana

25,03619,095

,000,000

29,57819,536

,000,000

Regularizar inmigrantes Media Mediana

22,1445,729

,000,000

22,1445,729

,000,000

Entrada inmigrantes Media Mediana

3,3921,689

,000,080

8,1143,129

,000,001

14,5184,293

,000,000

5,2322,381

,000,009

Partido racista Media Mediana

4,1282,402

,000,008

6,2432,543

,000,005

8,3042,707

,000,003

5,1272,461

,000,007

N.° inmigrantes Media Mediana

3,6291,941

,000,037

2,2141,888

,015,043

6,3652,430

,000,008

2,5021,794

,006,058

Casar con marroquí Media Mediana

25,8909,704

,000,000

32,4948,940

,000,000

39,9768,292

,000,000

28,6229,318

,000,000

EstudiosMediaMediana

3,0992,331

,001,011

1,0561,155

,394,319

2,576,954

,005,483

1,7411,684

,068,081

IngresosMediaMediana

,412,372

,941,959

,615,533

,801,867

1,8621,375

,047,188

,314,320

,978,976

Vecino marroquí Media Mediana

37,66018,686

,000,000

38,05915,921

,000,000

37,53813,112

,000,000

37,73517,437

,000,000

inmigrante delincuente Media Mediana

4,096,837

,000,593

4,096,837

,000,593

Page 35: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 47

SPSS (versión 10.0) facilita distintos vaíores del estadístico de Levene (basándose en ta me­dia, en la mediana, en ¡a mediana y con los grados de libertad corregidos, y en la media re­cortada), se ha decidido escoger, para simplificar la tabla, los valores de Levene corres­pondientes a la media y a la mediana con los grados de libertad corregidos. De esta forma puede comprobarse si realmente mejora su robustez, cuando se sustituyen ¡as desviaciones alrededor de la mediana por las desviaciones alrededor de la media.

De la lectura de !a tabía puede concluirse que las desviaciones respecto a la mediana se adecúan más, especialmente, en las variables ficticias, por las propias características de di­chas variables (variables dícotómicas). Hecho este inciso, hay que decir que ia significativi- dad del estadístico de Levene es, en genera!, superior cuando su cálculo se realiza a partir de fa media, que cuando se basa en la mediana, aun ajustando por grados de libertad.

En siete de las catorce variables predictoras analizadas se incumple el supuesto de ho­mocedasticidad, a decir por los resultados de ia aplicación de esta prueba estadística. El vaior del estadístico de Levene es bastante significativo (p < ,05), ¡o que supone el rechazo de la hi­pótesis nula de igualdad de varianzas. La varianza de la variable dependiente difiere en los dis­tintos valores de las siguientes variables independientes: "simpatía hacia latinoamericanos”, “re- gufarización de inmigrantes", “valoración de partidos de ideología racista”, “consideración dei número de inmigrantes”, “casarse con marroquí”, “estudios’’ y “tener por vecino a un marroqur'.

En la otra mitad de ias variables ¡a significatividad de este estadístico de comprobación es inferior (p >,05), ya sea respecto de la media o de ta mediana. Esto significa la aceptación de fa hipótesis nula. La varianza de la variable dependiente muestra constancia en dichas va­riables: “leyes inmigración”, “ideología política", “sexo”, “edad”, “entrada de inmigrantes”, “in­gresos” e “identificación det inmigrante con delincuente”.

De tas opciones barajadas para alcanzar la homocedasticidad en aquellas variables en las cuales la varianza de la variable dependiente difiere, sóio parece lograrse en dos varia- bies: “número de inmigrantes” y “estudios”. En la primera, la homocedasticidad puede lograrse mediante la aplicación de una transformación de raíz cuadrada. En cambio, respecto a la va­riable “estudios”, puede realizarse cualquiera de las tres transformaciones comprobadas. Si bien, normalmente se prefiere la transformación logarítmica como se detalla a continuación.

Si con la ayuda de estos estadísticos y/o de los gráficos de residuos referidos se de­tecta la existencia de heterocedasticidad, habrá que aplicar algún remedio que posibilite la aplicación de la regresión lineal a los datos de interés. Las opciones posibles son va­rias y dispersas; desde la aplicación de procedimientos de regresión distintos al estándar de mínimos cuadrados ordinarios (OLS), hasta transformaciones de la variable de­pendiente en busca de ía estabilidad de la varianza.

a) Schroeder et al. (1986: 77) aconsejan el empleo del procedimiento de regresión de mínimos cuadrados generalizados, para proporcionar pesos diferenciales a las observaciones y, de esta forma, burlar sus efectos en las pruebas de hipótesis. No obstante, son más los autores que se inclinan por el procedimiento de re­gresión de mínimos cuadrados ponderados (WLS): Chatterjee y Price (1977:49), Afifi y Clark (1990:116) o, más recientemente, Tacq (1997:131), por citar al­

Page 36: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

48 Análisis multivañable. Teoría y práctica en ia investigación social

gunos. Mediante este último procedimiento de regresión (expuesto en el su- bapartado 1.6.2) las estimaciones de los parámetros de regresión se realizan, co­mo su nombre indica, minimizando una suma ponderada de los cuadrados de los residuos. Esta suma se caracteriza porque ios pesos son inversamente pro­porcionases a la varianza de ios errores. Por ejemplo, si la varianza es una función lineal de X, el peso idóneo sería entonces 1/X.

b) Transformaciones de la variable dependiente en log Y, - fY o en 1/Y, para lograr ia estabilidad de su varianza. Con los valores transformados se procede a efectuar el análisis de regresión lineal.

Aunque estas transformaciones son defendidas por varios autores (como Gunst y Masón, 1980: 239; o Tacq, 1997:131), Afífi y Clark (1990:158) opinan que “las transformaciones de Y deberían evitarse cuando sea posible, porque tienden a oscurecer la interpretación de la ecuación de regresión”. A este respecto, Hair et al. (1992: 52) hacen las siguientes matizaciones:

1. Las frecuencias sugieren una transformación de raíz cuadrada.2. Las proporciones son mejor transformadas mediante la transformación ar-

coseno. Una nueva variable que sea igual a dos veces el arcoseno de la raíz cuadrada de la variable original.

3. El cambio proporcional se maneja mejor tomando el logaritmo de la va­riable.

4. La heterocedasticidad no sólo se debe a un tipo de variable. También puede resultar de la distribución de bien la variable independiente, bien la de­pendiente, Con frecuencia esto se ve mediante una distribución de los re­siduos en forma de cono. Si el cono se abre a la izquierda, toma la raíz cua­drada. Si, por el contrario, se abre a la derecha, es preferible el inverso.

Respecto a las transformaciones de Y, Nourisis (1986) pone el énfasis, principalmente, en cómo se presente la varianza o desviación de Y:

1. Cuando la varianza sea proporcional a la media de Y, para un valor X dado, es mejor utilizar la raíz cuadrada de Y, siempre y cuando todos los valores de Y; sean positivos.

2. Cuando la desviación típica sea proporcional a la media, prueba la trans­formación logarítmica.

3. Cuando la desviación típica sea proporcional al cuadrado de la media, em­plea el recíproco de Y.

4. Cuando Y sea una proporción o razón, nuevamente la transformación ar­coseno se presenta como la mejor opción para estabilizar la varianza de Y.

Por último, hay que destacar la recomendación dada ai efecto por McCullagh y Nel- der (1989). Estos autores advierten de que la heterocedasticidad puede ser el resulta­do del incumplimiento de los supuestos de normalidad y de linealidad. Por lo que, pue~

Page 37: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 49

de reducirse, e incluso eliminarse, si antes se ha aplicado alguna corrección a ambos in­cumplimientos. Pero esto no significa que la heterocedasticidad se resuelva con la apli­cación de las mismas correcciones de la normalidad y/o Iinealidad. Así se observa que para datos de frecuencia, que típicamente tienen errores de Poisson, una transfor­mación de Y1/2 aproxima heterocedasticidad (o varianza constante); Y 213 aproxima normalidad; y utilizar log Y provoca aditividad en los efectos sistemáticos.

1.1.8. Ausencia de colinealidad entre las variables independientes

Para que se puedan medir los efectos concretos de cada variable independiente en la dependiente es imprescindible la ausencia de colinealidad; es decir, de correlación en­tre las variables independientes incluidas en el modelo de regresión. La existencia de co­rrelación elevada entre dos o más variables independientes (multicolineaUdad) repercute, de manera directa, en los errores típicos de los coeficientes de regresión de dichas variable. Éstos se ven indebidamente incrementados, lo que provoca que la estimación de los coe­ficientes sea menos precisa (coeficientes infiabl.es), con el consiguiente aumento de los intervalos de confianza (a este respecto véase subapartado 1.4.2). El modelo de regresión puede ser significativo en su conjunto (en virtud de la razón “F”, que mide la significa­tividad del coeficiente de correlación cuadrada múltiple o coeficiente de determinación R2 -véanse subapartados 1.5.1 y 1.5.3-) y, en cambio, no ser significativos los coeficientes de regresión individuales de las variables muy colímales que lo componen.

La colinealidad elevada provoca, en suma, un aumento en la variabilidad de los coeficientes de regresión estimados (que informan de la cantidad de variación de Y por ca­da unidad de variación de X_„ manteniendo constante las demás variables independientes en el modelo). Este aumento del error típico de coeficiente suele suponer un incremento en la varianza explicada de Y (R2). Pero, al mismo tiempo, aumenta el error de estimación, con la pérdida consiguiente de significatividad estadística de los coeficientes de regresión de las variables muy colímales. Esta significatividad se mide con el estadístico “t” de Student, que se obtiene del cociente entre el coeficiente estimado y el error de estimación. De manera que, cuanto mayor sea el error de estimación, menor es el valor empírico de “t”, lo que determina la no significatividad estadística del coeficiente de regresión estimado.

A diferencia de otros supuestos de regresión, la multicolineaUdad afecta no tanto a la obtención del modelo (en la vertiente descriptiva), como a sus posibilidades de in­ferencia: la generalización de los estadísticos muéstrales a los correspondientes pa­rámetros poblacionales.

Pero la multicolineaUdad no debería concebirse como algo que o “existe” o “no exis­te”. “La multicolineaUdad existe en grados” (Berry y Feldman, 1985: 40). “Está presen­te en todos los análisis de regresión, ya que es improbable que las variables independientes estén totalmente no correlacionadas” (Schroeder et al 1986:76). Sirvan como ejemplo, variables muy habituales en la investigación social, como son las variables “nivel educa­tivo’' y “ocupación”. Ambas variables actúan como indicadores habituales de la posición social de un individuo. Sus valores se encuentran muy interrelacionados entre sí. Lo que

Page 38: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

50 Análisis multivariable. Teoría y práctica en la investigación social

eleva la correlación (colinealidad) entre ambas variables. Dicha correlación se convierte en problema sólo cuando es elevada; es decir, cuando una de las variables independien­tes comparte con otra (u otras) más de la mitad de su variabilidad. La multicolinealidad es perfecta si la variabilidad de dicha variable puede ser perfectamente predecida a partir del conocimiento de otras variables predictoras. Al no aportar ninguna información única al modelo de regresión, debería considerarse su no incorporación al modelo de re­gresión porque afectaría negativamente al cálculo de la ecuación de regresión.

La multicolinealidad puede detectarse en distintas fases del análisis de regresión: en los preámbulos, en la matriz de correlaciones, durante su ejecución, en los coeficientes de regresión y en sus errores típicos correspondientes. También mediante los estadís­ticos de tolerancia y el llamado factor de inflación de la varianza (FTV) y otros que a continuación se detallan.

• La matriz de correlación muestra la correlación entre cada variable indepen­diente, por separado, con la dependiente y, también, de las independientes en­tre sí. Un coeficiente de correlación entre dos variables independientes igual a0,0 indica ausencia completa de colinealidad. Mientras que una correlación de 1,0, colinealidad perfecta. A partir de 0,60 suele considerarse la colinealidad problemática. Y más, cuando la correlación supera el valor 0,80, que denota que ambas variables se hallan muy correlacionadas.

Pese a estos referentes comúnmente aceptados, Berry y Feldman (1985:42) reconocen que “es muy difícil definir un valor de corte que siempre sea apro­piado”. En muestras pequeñas, una correlación entre dos variables indepen­dientes de 0,70 puede repercutir negativamente en la estimación de los coefi­cientes. En muestras una correlación de 0,85 puede incluso afectar menos al cálculo de la ecuación de regresión.

Por su parte, Wittink (1988:89) matiza que “una correlación de 0,50 entre dos variables predictoras tiene poco impacto en el error típico. Pero una co­rrelación de 0,95 requiere casi tres veces tanta variación en X¿ (o tres veces el ta­maño de la muestra) comparado con tener correlación cero. Con una correlación de 0,99 requerimos casi siete veces tanta variación, o siete veces el tamaño de la muestra”. A partir de una correlación de 0,95 entre dos variables predictoras se está, en consecuencia, ante un problema grave de colinealidad. Este valor de cor­te es, no obstante, bastante elevado y se aleja del habitualmente propuesto co­mo indicativo de colinealidad problemática: 0,60 (Tacq, 1997); o, al menos, del valor 0,80 (Berry y Feldman, 1985; Hutcheson y Sofroniou, 1999).

En esta discusión de qué valor de correlación tomar como referente de co­linealidad problemática, téngase también presente una limitación inherente a la matriz de correlaciones. Ésta sólo muestra las relaciones individuales entre ca­da par de variables: independiente con independiente y de independiente con de­pendiente. Si se quiere en cambio comprobar el grado de relación entre cada va­riable independiente con las otras variables independientes, al mismo tiempo, habrá que acudir a otros procedimientos.

Page 39: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo í: Regresión múltiple 51

® La existencia de multicolinealidad también puede detectarse durante el análisis, cuando se observen errores típicos elevados en coeficientes de regresión de va­riables que se espera sean importantes predictores de la variable dependiente. La obtención de errores típicos inflados redunda en la pérdida de significativi- dad estadística de los coeficientes de regresión, como ya se ha mencionado.

No obstante, hay que precisar que la existencia de errores típicos elevados no siempre es indicativa de coUnealidad elevada. Puede ser consecuencia de haber estimado dicho coeficiente en un tamaño muestral pequeño y/o que la variable, en la muestra analizada, tenga una elevada varianza. Ambos aspectos, relacio­nados con los casos analizados, han de valorarse antes de atribuir, de forma au­tomática, errores típicos elevados a la existencia de multicolinealidad.

o Un procedimiento alternativo de comprobar la existencia de multicolineali­dad consiste en efectuar un análisis de regresión para cada variable indepen­diente por separado. En cada ocasión, una de las variables independientes actúa como variable dependiente. El resto continúa siendo independiente. Para cada una se calcula una ecuación de regresión. Después se comparan los distintos co­eficientes de determinación R2. Si el valor de éste se aproxima a 1,0, puede afir­marse que la variable en cuestión presenta un grado muy elevado de multico­linealidad con otras variables independientes. Un valor de R2 igual a 0,0 expresa, por el contrario, la total ausencia de multicolinealidad.

La detección del grado de multicolinealidad se considera más precisa si­guiendo este tercer procedimiento que con la comparación de correlaciones bi- variables, de dos variables por separado, mediante la matriz de correlación (Coo- per y Weekes, 1983; Berry y Feldman, 1985; Menard, 1995). Ello se debe, precisamente, a que se analiza de manera simultánea la correlación de cada va­riable independiente con las demás independientes (mediante el valor de R2).

A favor de este procedimiento de detección de multicolinealidad también es­tá la facilidad de su ejecución. La mayoría de los paquetes estadísticos propor­cionan, entre sus varias opciones, la posibilidad de obtener el valor del coefi­ciente R2 múltiple para cada variable independiente, por separado. Ya sea gracias al estadístico llamado Tolerancia, ya mediante su recíproco, el Factor de Inflación de la Varianza (FIV).

a) La tolerancia se define como la cantidad de variabilidad de la variable inde­pendiente que “no es” explicada por otras variables independientes. Su valor se obtiene restando a 1 la proporción de la varianza de dicha variable independiente que es explicada por las demás variables independientes o predictoras (¿?2;) .

TOL¿= 1 - / ^

Donde “R2” es la correlación múltiple cuadrada de la variable inde­pendiente X¡ (considerada como dependiente) y las otras variables in­dependientes.

Page 40: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Análisis multivariable. Teoría y práctica en la investigación social

TOL; tiene un rango de valores de 0,0 a 1,0. Un valor próximo a 1,0 de­nota ia ausencia completa de multicolineaUdad: la variable Xi no presenta nin­guna correlación con el resto de variables predictoras. Un valor de toleran­cia inferior a 0,20 es, en cambio, indicativo de un grado elevado de multicolineaUdad. Si el valor desciende a 0,10, la multicolineaUdad es muy alarmante y exige la adopción de alguna medida para reducirla. El valor 0,0 expresa multicolineaUdad perfecta: la varianza de la variable X; está total- mente determinada por los otros predictores.

En consecuencia, interesan valores de tolerancia elevados porque son in­dicativos de una baja multicolineaUdad. Cuando la colinealidad aumenta, el valor de tolerancia disminuye. Lo que repercute en la peor estimación del coeficiente de regresión, debido al incremento de su error típico.

b) El factor de inflación de la varianza (FIV, en inglés VIF) es el reverso de la “tolerancia’'. Su definición es la siguiente:

FIV- = TOLf = — —̂-t-1 -R ?

Ai ser inverso de tolerancia interesan valores de FJ V. bajos. Cuanto más se aproxime a 1,0 mejor. Un valor de FIV (o VIF) de 1,0 indica la inexistencia de relación entre las variables predictoras. Valores superiores a 10,0 expresan mul- ticolinealidad severa. En tolerancia el valor equivalente es 0,10, que exige una actuación al respecto. No obstante, se recomienda adoptar alguna medida con valores inferiores: un valor de FIV de 5 o más o de tolerancia de 0,2 o menos. En general, los valores de ambos estadísticos de colinealidad coinciden, cuando sólo hay dos variables independientes.

Antes de proceder al análisis de regresión, conviene especificar, en el pro­grama informático que se utilice, el grado de multicolineaUdad que se admite. Los puntos de corte más usuales son 0,30 para tolerancia y su equivalente para FIV: 10,0 (Afifi y Clark, 1990; Hair et al, 1992,1996; Graybill e lyer, 1994; Me- nard, 1995), Ambos valores corresponden a una correlación múltiple cuadrada superior a 0,90. Un nivel ya en sí bastante elevado, aunque inferior al aplicado, por defecto, en la mayoría de los programas, salvo que se especifique lo con­trario. En el programa SPSS, por ejemplo, el valor de tolerancia aplicado por de­fecto para excluir una variable del análisis es 0,01, Este valor es demasiado ba­jo ya que permite la incorporación, a la ecuación de regresión, de variables que tienen hasta el 99% de su varianza determinada por otras variables previamente incorporadas al modelo de regresión.La aplicación de un procedimiento de incorporación de variables ia depen­dientes secuencia! (o “por pasos”) -como se verá en el subapartado 1.6.1- permite comprobar la presencia de variables con elevado grado de colinealidad

Page 41: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 53

de una forma alternativa, aunque menos rigurosa que la anterior. Consiste en ob­servar si la incorporación de una nueva variable a la ecuación de regresión su­pone una variación importante en el coeficiente de regresión, de alguna (o al­gunas) variables independientes previamente introducidas en la ecuación. La entrada de una nueva variable suele provocar una variación en el valor de los coeficientes de las variables incorporadas en pasos previos. Esta variación será tanto mayor cuanto más correlacionada esté la variable con la recién incorpo­rada al modelo. Si la correlación es baja, apenas hay variación en el valor del coe­ficiente. Pero, cuando la colinealidad adquiere cierta magnitud, la variación es muy apreciable. No obstante, la mayoría de los paquetes estadísticos aplican, por defecto, valores de tolerancia que impiden la entrada de variables muy colinea- les (como se mencionó en el punto anterior).La multicolinealidad también puede comprobarse observando oscilaciones en los coeficientes de regresión (o coeficientes de pendiente “b”), siguiendo un pro­cedimiento que puede aplicarse en los análisis de regresión “no secuenciales”. Se divide la muestra del estudio en dos mitades. A continuación, se realiza un análisis de regresión en cada submuestra, por separado. Las variaciones en los coeficientes de ambas mitades se toman como indicios de multicolinealidad, Ésta es más grave, cuanto mayor es la diferencia entre los respectivos coefi­cientes.Un último procedimiento de detección de multicolinealidad atiende a los au- tovalores. Éstos expresan cuántas dimensiones distintas existen entre las variables independientes. Sus valores se obtienen de la matriz de productos cruzados de las variables independientes. Para que exista elevada multicolinealidad debe ha­ber varios autovalores próximos a 0. Esto acontece cuando la multicolinealidad es tan alta que pequeños cambios en los datos pueden provocar grandes cambios en las estimaciones de los coeficientes de regresión. Situación que suele coincidir con modelos de regresión con errores típicos elevados.

De los autovalores se obtiene el índice de condición (IC). Este índice se de­fine, en cada dimensión, como la raíz cuadrada del cociente entre el autovalor mayor y el menor. Cuando IC es superior a 30, la colinealidad es elevada. Si es mayor de 10, pero menor de 30, la colinealidad es moderada. Un valor inferior a 10 supone que se está ante variables de escasa colinealidad.

^ E j e Mp ÚO'DB COMPROBA CIÓN ÜE LA EXISTENCIA ÓÉ MÜLTiGOLÍNÉMj&Áb ■■

Para comprobar la existencia de multicolinealidad se procede, primero, al análisis de la matriz de correlaciones que figura en el subapartado 1.3.2. En esta matriz puede observar­se que la correlación más elevada (,573) se da entre las variables X10 (“casar con marroquí” : P306} y X13 {'Vecino marroquí"”; P506). La correlación es importante, aunque no alcanza el va­lor de referencia habitualmente aplicado para denotar una colinealidad elevada (que exigiría

Page 42: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

54 Análisis rnultivariable. Teoría y práctica en la investigación social

alguna actuación al respecto): >,80. Ambas variables se hallan relacionadas y de forma po­sitiva, si bien sólo comparten el 33% de su variabilidad (,5732). Las personas que manifies- tan que no les importaría tener como vecinos a una familia de ciudadanos de Marruecos u otro país norteafricano suelen coincidir, aunque no plenamente (al ser ta correlación de ,573), con aquellos que afirman que no les preocuparía que su hijo o hija se casase con un marroquí; y, a ¡a inversa.

Además, téngase presente que ai ser el tamaño de la muestra analizada bastante elevado (n = 2.492 individuos), los valores de referencia comúnmente adoptados para denotar una co- lineatidadapreciabie (,60) y severa o muy importante (,80, que supone que casi dos de las tres partes de la variabilidad de una de las variables puede predecirse por el conocimiento de! valor de la otra variable con la que se halla relacionada) pueden incluso aumentarse, de acuer­do con Berry y Feldman (1985). El efecto de la multicolinealidad en la obtención de la ecuación de regresión es menor cuando se analiza una muestra grande que cuando fa mues­tra es pequeña.

Las segundas variables más correlacionadas entre sí son Xn (“estudios”: P43a) y X12 (“in­gresos”: P52), con una correlación también positiva de ,471. Le sigue en importancia la co­rrelación negativa habida entre las variabfes X4 (“edad”: P42) y X ,, (“estudios”: P43a): -,442. Los “estudios” y los “ingresos” covarían de forma ascendente (conforme aumenta el nivel de estudios io normal es que se incremente el nivel de ingresos, y a la inversa), mien­tras que la “edad” y los “estudios” se encuentran negativamente relacionados (los niveles de estudios más bajos se dan, con mayor frecuencia, entre las personas de más edad; a medida que la edad del encuestado desciende, es más probable que su nivel de estudios sea superior, pero no en todos ios casos. La correlación entre ambas variables no es muy elevada: -,442).

En suma, de la lectura de la matriz de correlaciones se concluye que ninguna de las 14 variables independientes analizadas se halla, positiva o negativamente, correlacionada con otra variable independiente en una magnitud que aconseje la adopción de alguna medida pa­ra evitar ios efectos negativos de su inclusión en el análisis de regresión.

En el subapartado 1.4.2 se comprueba, asimismo, que ninguno de los coeficientes de re­gresión de las cinco variables predictoras que conforman el modelo de regresión final tiene un error típico elevado. Además, como se observa en el subapartado 1.6.1, donde se expone la obtención del modelo de regresión mediante procedimientos secuenciales, los coeficien­tes de regresión de las variables y sus errores típicos prácticamente coinciden en los distintos pasos. La incorporación de una nueva variable predictora apenas altera los coeficientes de variables previamente introducidas en la ecuación de regresión. Esta inaiteración apreciabie en los coeficientes y errores típicos correspondientes responde a la escasa correiación existente entre las sets variables que finalmente forman el modelo de regresión: X5, XtQ, X1f X6, X13 y X3. Las correlaciones bivariadas existentes entre cada par de estas seis variables pueden comprobarse en ia matriz de correlaciones referida (subapartado 1.3.2).

La comprobación de ta presencia de multicolinealidad sigue con el cálculo de los valores de tolerancia y el factor de inflación de la varianza (FiV), tanto para las variables incluidas co­mo en fas excluidas del modelo de regresión. Con ambos estadísticos puede comprobarse la correlación simultánea de cada variable independiente con el resto de variables inde­pendientes.

Primero, se caiculan los valores de tolerancia y FIV para las variables que forman el mo­delo de regresión. Los valores de ambos estadísticos se recogen en la tabla siguiente. En ella puede observarse que en ninguna variable los valores de tolerancia o de FIV alertan de la exis­

Page 43: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 55

tencia de multicolineaUdad importante. Todos Sos valores de tolerancia superan, y a gran dis ­tancia, el valor ,20, que denota un grado elevado de multicolineaUdad. La tolerancia más al­ta (,994) corresponde a la variable X3 (“sexo”). La correlación de esta variable con las cinco restantes es apenas perceptible. En la matriz de correlaciones se recogen dichas correla­ciones: -0 5 8 (X3 y X5), -,024 (X3.y X10) , ..,035 (X3 y X.), -,027 (X3 y X6), ,026 (X3 y X13).

Como era de prever, los valores de tolerancia más bajos se dan en las dos variables in­dependientes que mayor correlación presentaban entre ellas: X10 (,639) y X13 (,652). Que el valor de tolerancia de la variable X10 sea ligeramente inferior al obtenido en la variable X13 se debe a que la primera variable presenta una correlación, en general, ligeramente superior a X13 con cada una de !as cuatro variables predictoras restantes. Exactamente, éstas son las correlaciones entre cada par de variables: -,246 (X10 y X,) y -,227 (X13 y X,); -,024 (X10 y X3) y ,026 (X13 y X3); -,274 (X10 y x 5) y ,267 (X13 y Xs); ,233 (Xf0 y X6) y ,194 (X1S y X6). Com­pruébense dichas correlaciones en la matriz de correlaciones (subapartado 1.3.2),

Al definirse FIV como el recíproco de tolerancia, las conclusiones que pueden extraerse de los valores de dicho estadístico coinciden con las expuestas para la tolerancia. Todos los valores de FIV se sitúan muy por debajo del valor de referencia 5,0, que denota la existen­cia de multicolineaUdad importante. El valor de FIV más elevado se obtiene, como era de es­perar, en la variable X10 (1,566), El más bajo corresponde a la variable X3 (1,006), que deno­ta ia práctica inexistencia de multicolineaUdad en relación con dicha variable, al posicionarse próximo a 1,00.

Tabla A

Variables independientes en el modelo de regresión

Tolerancia Fados de inflación de la varianza

Xs: simpatía hacía latinoamericanos ,875 1,143X10: casarse con marroquí ,639 1,566X.,: leyes de inmigración ,842 1,187X6: n.° inmigrantes ,842 1,187X13: vecino marroquí ,652 1,534X3: sexo ,994 1,006

Los valores de tolerancia en las variables independientes excluidas del modelo de re­gresión son igualmente elevados. El más bajo se da en la variable Xa (,786) y el más alto en X4 (953). Los de FIV claramente bajos: el más alto en X8 (1,272) y el más bajo en X4 (1,049). De las variables excluidas del modelo interesa, sobre todo, conocer sus valores de toleran­cia mínimos. Éstos son los valores "mínimos’’ de tolerancia que ia variable tendría si se in­corporase al modelo de regresión. Denota su correlación con las variables ya incluidas al mo­delo. Lo normal es que los valores de tolerancia mínimos sean inferiores a los de tolerancia, como se observa en la tabla B a continuación. Pero, en todo caso, se sitúan muy por encima del valor de referencia de ,20. El valor de tolerancia mínima más bajo (,628) corresponde a la variable X14. La correlación de esta variable con las seis incluidas en el modelo de regresión es ligeramente superior a ia habida en cualquiera de las siete variables restantes excluidas del modelo, como puede observarse en la matriz de correlaciones.

Page 44: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

56 Análisis mullí-variable. Teoría y práctica en la investigación social

Tabla B

Variables excluidas del modelo de regresión

Tolerancia FIV Toleranciamínima

X2: ideología política ,949 1,053 ,63 6X4: edad ,953 1,049 ,634X7: regularizar inmigrante ,831 1,203 ,633Xa: entrada inmigrantes ,786 1,272 ,631Xg: partido racista ,890 1,124 ,635X?1: estudios ,915 1,093 ,638X12: ingresos ,928 1,077 ,637X14: inmigrante delincuente ,825 1,212 ,628

Un último diagnóstico de multicolinealidad realizado afecta a ios autovaiores y ai índice de condición (IC). Recuérdese que los autovaiores indican cuántas dimensiones distintas exis­ten entre ias variables independientes. Sólo en las dimensiones 6 y 7 ios autovaiores se si­túan próximos a 0. Pero, a decir por 1C, sólo en la dimensión 7 se obtiene un valor IC (20,139) situado en el intervalo de 10 (colinealidad moderada) a 30 (colinealidad severa). En las de­más dimensiones los valores iC son inferiores a 10. Ei valor de iC decrece, obviamente, con­forme disminuye la dimensión.

Atendiendo a las proporciones de la varianza de la estimada explicada por cada com­ponente principal asociado con cada autovalor sólo puede calificarse la colinealidad de problemática, cuando un componente asociado a un IC elevado contribuye sustancialmen­te a la varianza de dos o más variables. Esta situación no se da plenamente en los datos aquí analizados. De ia lectura de la tabla C se concluye que no es necesario reducir el modelo de regresión a 5 e incluso 4 variables independientes para conseguir un modelo más estable, aunque puede probarse. La dimensión 7 explica el 52% de ¡a varianza de la variable X6 y el 34% de la varianza de !a variable X5. Éstas son las mayores proporciones de varianza ex­plicada. En las otras variables (X10, X(3 y X3) es mínimo. Lo que no hace imperioso la eli­minación de la dimensión 7 del análisis de regresión iineai. La colinealidad detectada por cual­quiera de los procedimientos referidos es de escasa cuantía y no precisa de ninguna actuación al respecto para mejorar los resultados del análisis de regresión.

Tabla C

Dimensión Autovalor índice de condición

Proporciones de la varianzaConstante *5 XfQ *6 1̂3

1 5,855 1,000 ,00 ,00 ,00 ,00 ,00 ,00 ,002 ,497 3,432 ,00 ,00 ,03 ,00 ,00 ,01 ,883 ,349 4,097 ,00 ,04 ,15 ,08 ,00 ,08 ,084 ,108 7,371 ,00 ,03 ,04 ,43 ,25 ,07 ,005 ,102 7,565 ,00 ,00 ,74 ,01 .00 ,76 ,016 7.464E-02 8,857 ,00 ,59 ,03 ,19 ,23 ,03 ,007 1.444E-02 ■ 20,139 ,00 ,34 ,02 ,29 ,52 ,05 ,02

Page 45: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 57

® Cuando se detecte ia existencia de elevada colinealidad, ha de adoptarse algún remedio para evitar su negativa incidencia en los resultados del análisis de regresión. Entre los remedios más utilizados destacan dos: uno más radical, que supone la eli­minación de las variables muy colímales; y un segundo, más conservador, que defiende la combinación de variables colineales en una única variable latente (llámese índice, fac­tor o componente principal). También puede elegirse aumentar el tamaño de la muestra. Con ello se reduciría el error típico y, de esta forma, el efecto negativo de la multicolinealidad. Pero, como ello no siempre es posible, habrá que elegir alguna de las medidas siguientes:

e Eliminar las variables independientes que presenten un grado elevado de coli­nealidad. Éste es el remedio más drástico contra la multicolinealidad, por lo que provoca una amplia disparidad de opiniones.

Algunos autores, como Wittink (1988: 91, 93) advierten que “omitir una va­riable predictora relevante puede causar severos problemas. Tal omisión es un ejemplo de lo que se llama error de especificación”. “La validez (falta de sesgos) requiere la inclusión de las variables predictoras relevantes, mientras que la fia­bilidad (error típico pequeño) de las estimaciones de ios parámetros puede em­peorar si las variables predictoras están bastante correlacionadas.” Esto le lleva a defender la combinación de variables predictoras frente a su eliminación..

Otros autores afirman, en cambio, que esta solución no lleva a una gran pér­dida de información. Ello se debe a que “las variables independientes que estén bastante correlacionadas presumiblemente representan el mismo fenómeno” (Frei y Ruloff, 1989: 339).

En la decisión de adoptar o no esta medida radical ha de considerarse di­versos aspectos. Principalmente, el número de variables predictoras cuyo grado de colinealidad exige una actuación, qué proporción representan estas variables en el conjunto de las variables independientes y su relevancia en la investigación (para que su eliminación no redunde, negativamente, en un incremento del error de especificación).

0 Efectuar un análisis factorial exploratorio ( de componentes principales o de fac­tor común) con las variables independientes de interés. Esta solución supone em­plear, en el análisis de regresión, índices o variables latentes (los factores ob­tenidos del análisis factorial, ya sean componentes principales o factores comunes -véase capítulo 5-) integrados por indicadores bastante correlacionados (las va­riables predictoras colineales). Estos índices (o factores) actúan en el análisis de regresión como las variables independientes. Y, debido a que estos índices han de estar, por definición, incorrelacionados entre sí (unos índices o factores respecto de otros) y, en cambio, los indicadores (o variables empíricas) que lo componen, bastante correlacionadas, el problema de la multicolinealidad se re­suelve (Tacq, 1997).

Chatterjee y Price (1977: 172) matizan que “este método de análisis no resolverá la multicolinealidad si está presente, pero indicará aquellas funciones

Page 46: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

58 Análisis multivariable. Teoría y práctica en la investigación social

que son estimables y las dependencias estructurales que existen entre las va­riables explicativas”.

Este uso del análisis factorial con anterioridad al análisis de regresión lineal puede tener una doble finalidad: una, la identificación de variables indepen­dientes, que sean bastante colineales, para su exclusión del análisis de regresión; dos, la combinación de variables colineales en un único índice o factor. Estas apli­caciones del análisis factorial (relacionadas con ía redistribución de la varianza compartida por las variables independientes) se desarrollan en el capítulo 5, de­dicado al análisis factorial.

1.1.9. Independencia de los términos de error

Un último supuesto básico del análisis de regresión lineal concierne a la necesidad de que los términos de error no estén correlacionados. El valor de la variable depen­diente en cada caso concreto ha de ser independiente del resto. Si las observaciones son independientes unas de otras, ios residuos sucesivos tampoco han de estar correlacio­nados. En caso contrario, se tiene que hablar de correlación serial de los residuos, o de autocorrelación,

A diferencia de la heterocedasticidad (que es más habitual en diseños de investi­gación transversales o seccionales), la autocorrelación se produce, con mayor fre­cuencia, en los estudios longitudinales. Éstos se caracterizan porque la recogida de in­formación se produce de forma secuencial, en períodos de tiempo sucesivos, planificados en el proyecto de investigación. La finalidad es analizar la evolución del fenómeno que se investiga a lo largo del “tiempo”. Como la información referida a unas mismas variables se recoge en dos o más momentos temporales, el valor que pue­de tener una variable en un momento probablemente no es independiente del valor que dicha variable adquirió en un tiempo anterior. Esto se evidencia más, cuando los dos procesos de recogida de información acontecen en un período corto de tiempo; y, sobre todo, si el diseño de investigación es longitudinal de panel. El recoger un mismo tipo de información, de unas mismas personas, en tiempos sucesivos, puede producir el efecto no deseado del aprendizaje (Cea, 1996).

Schroeder et al. (1986) sintetizan en tres las causas principales de la autocorrelación:

1. La omisión de una variable explicativa importante.2. El empleo de una forma funcional incorrecta.3. La tendencia de los efectos a persistir a ío largo del tiempo o, para las variables

dependientes, a comportarse cíclicamente. Tal vez por ello la autocorrelación es más común en datos de series temporales.

Sánchez Carrión (1995: 417), por ejemplo, ilustra la autocorrelación con la si­guiente aseveración: lcLa inflación que pueda haber en un país en t¿ , t no es inde­pendiente de la inflación en t ”. Nourisis (1986: B-188), por su parte, expone el ejem-

Page 47: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1; Regresión múltiple 59

pío siguiente: “Supon que estudias ei tiempo de sobrevivencia después de una ope­ración como una función de la complejidad de la operación, la cantidad de sangre trans­ferida, la dosis de medicamentos y así. Además de estas variables, también es posible que la habilidad del cirujano aumente con cada .operación y que el tiempo de sobre­vivencia de un paciente esté influido por el número de pacientes tratados. En caso de que esto sea cierto, habrá autocorrelación”.

Asimismo, en un estudio sobre el éxito académico existirá autocorrelación, si se ob­serva que la calificación obtenida en un examen no sólo depende de las variables in­dependientes horas de estudio, asistencia a clase, cociente de inteligencia o motivación por la asignatura. También se ve afectado por el momento de corrección del examen: si es el primer examen que se corrige, o el último. Las calificaciones dadas a exámenes precedentes puede afectar a la obtenida en exámenes posteriores. La presencia de un buen examen (o trabajo) subconscientemente afecta a la calificación de los exámenes inmediatamente posteriores, al elevarse el nivel de exigencia del profesor. Igual­mente, el haber corregido, previamente, exámenes deficientes beneficia a exámenes me­diocres posteriores, al disminuir el grado de exigencia del profesor. El estado aními­co de éste también puede afectar a la calificación final del examen. Sobre todo, cuando éstos se corrigen en distintos períodos de tiempo. Si ello se demuestra, habrá autocorrelación. En su evaluación habrá que tener información adicional sobre el or­den en que se recogieron los datos en la muestra. Esta información no siempre está dis­ponible en los datos de encuesta. En este caso, habrá que acudir a gráficos de residuos y/o estadísticos al efecto.

Entre las consecuencias negativas de la autocorrelación destaca, en primer lugar, su efecto pernicioso en la significatividad de los coeficientes de regresión. La autoco­rrelación provoca una subestimación del error típico. Éste será inferior al habido realmente, si no existiese autocorrelación. La consecuencia inmediata es la obtención de un valor “t” inflado, superior al real. Éste indicará que el valor correspondiente del coeficiente de regresión es significativo estadísticamente, cuando en realidad no lo es. Lo que invalidará el modelo de regresión.

Para evitar la incidencia negativa de la autocorrelación, primero hay que proceder a su identificación. De nuevo, los gráficos de residuos son de gran ayuda para este pro­pósito. Los residuos ahora se disponen en orden secuencial. Especialmente, cuando los datos se recogen y graban secuencialmente. En este caso, los residuos se representan siguiendo la variable de secuencia en gráficos como los incluidos en la figura 1.6. En los ejemplos expuestos anteriormente, la variable de secuencia es el “orden” en que los pacientes son intervenidos quirúrgicamente y, en el otro ejemplo, el “orden” en que se corrigen los exámenes.

El supuesto de independencia de los términos de error se cumple, cuando los re­siduos se distribuyen de una forma aleatoria. Es decir, no muestran ninguna pauta con­sistente, como sucede en la figura 1.6a. En este gráfico se alternan los casos con resi­duos positivos con los negativos. Por el contrario, hay autocorrelación, cuando los residuos siguen una pauta discernible, a modo de la reflejada en la figura 1.6b. En él puede apreciarse como se pasa, secuencialmente, de residuos negativos elevados

Page 48: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

60 Análisis multivariable. Teoría y práctica en la investigación social

(-3,0) a positivos (3,0). El orden puede ser también el inverso: pasar de residuos ele­vados positivos (3,0) a negativos (-3,0). Estos últimos gráficos son característicos de si­tuaciones en que el orden de disposición del caso en la muestra analizada afecta a la información que de é! se obtenga, como sucede en los ejemplos antes expuestos.

Caso123

-3,0 0,0 3,0 Caso123

-3,0 0,0 3,0

a) Ausencia de autocorrelación b) Autocorrelación (o dependenciade las observaciones)

Figura 1.6. Gráfico de residuos para detectar autocorrelación de los términos de error.

La autocorrelación puede igualmente identificarse con la ayuda de estadísticos. El más aplicado, cuando se analizan datos secuenciales, es el coeficiente de Durbin-Wat- son. Este coeficiente se calcula a partir de los residuos estudentizados (Et), en cada ca­so, mediante la siguiente fórmula:

N

¿ ~ : _

IX(=1

Con el coeficiente de Durbin-Watson, así definido, se comprueba si la correlación serial (a cada residuo Et se le resta el inmediatamente precedente, Et_f) es nula. La au­tocorrelación es positiva (los términos de error se hallan positivamente correlaciona­dos) cuando la diferencia entre los residuos sucesivos es pequeña. El valor “d” co­rrespondiente es pequeño. En caso contrario, la autocorrelación es negativa. La diferencia entre los residuos sucesivos es grande. Lo que se materializa en un valor “d” elevado.

Como en todo contraste de hipótesis, el valor de “d” empírico, obtenido de la mues­tra, se compara con. el correspondiente valor “d” teórico, a un nivel de probabilidad concreto. La hipótesis nula de no autocorrelación entre los términos de error sucesi­vos se rechaza, cuando la diferencia entre ambos valores “d” es significativa a dicho ni­vel de probabilidad (p < ,05, usualmente). En general, cuando el valor “d" empírico es­tá comprendido en el rango de 1,5 a 2,5 no existe motivo de preocupación.

Page 49: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 61

Si se detecta autocorrelación en la distribución de datos, el remedio más habitual es la aplicación del método de regresión de mínimos cuadrados generalizados. Éste par­te de] método de regresión de mínimos cuadrados ordinarios, pero difiere -como se ve­rá en el subapartado 1.6.2- en utilizar variables que han sido transformadas.

1.1.10. El análisis de los residuos en la comprobación de los supuestos de regresión

Como el lector habrá podido constatar, el análisis de los residuos es de gran utili­dad en la comprobación de la mayoría de los supuestos de regresión. Especialmente, en regresión múltiple, cuando se analizan dos o más variables independientes. Ello se debe a la dificultad que supone reflejar en un gráfico bidimensional los valores de la variable dependiente para cada una de las variables independientes, de manera si­multánea.

En regresión lineal se entiende por residuo la diferencia entre los valores obser­vados en la variable dependiente (Y¡) y sus correspondientes valores predichos, a par­tir de la ecuación de regresión (Yf), para cada uno de los casos analizados (siendoi = 1,2, 3...n). Residuo es, parafraseando a Hutcheson y Sofroniou (1999: 24), “lo que queda una vez que un modelo se ha ajustado a los datos”: Ei = Yi -

No debe confundirse el residuo (denotado E¡ o r.p en algunos textos) con el error de predicción (s¡). El error de predicción -como se detalla en el subapartado 1.5.2- repre­senta la diferencia entre el valor verdadero de Y¡ en la población (no en ia muestra ana­lizada) y su correspondiente valor estimado mediante la ecuación de regresión. El valor real de la variable dependiente en la población puede diferir del observado en la mues­tra, lo que denota la existencia de error de medición en la investigación realizada.

Existe una amplia variedad de residuos, aunque todos ellos hacen referencia a la diferencia entre la respuesta observada y la predícha. Entre los más empleados se en­cuentran los siguientes:

a) Residuos brutos (o “raw residuals”)- Éstos se ajustan a lo que normalmente se entiende por residuo: la diferencia entre los valores de la variable dependien­te observados (Y¿) y los predichos (Y ), en cada caso concreto. Cuanto más gran­de sea dicha diferencia, peor es el ajuste a la ecuación de regresión.

Ei = Y r Y i

Si bien, téngase presente que los residuos brutos se hallan expresados en la unidad de medición de la variable dependiente. Lo que hace que su cuantía sea muy dispar. Superior en variables como ingresos, por ejemplo; e inferior en va­riables como antigüedad en el cargo. Depende de la unidad de medición de la variable dependiente.

b) Residuos estandarizados (o “standardized residuals”, o *ZRESID, en progra­mas como el SPSS). Tratan de paliar la deficiencia observada en los residuos

Page 50: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Análisis multivariable. Teoría y práctica en la investigación social

brutos, cuya cuantía se halla relacionada con la unidad de medición de la va­riable dependiente. Para ello se divide al residuo bruto (£.) por la estimación de su desviación típica (<r). De esta forma la magnitud del residuo queda expresada en unidades de desviación típica por encima (si el signo es positivo) o por de­bajo de la media (si es negativo).

Elò

Y , - Y :

\ N ~ p — l

Donde “N” representa el tamaño de la muestra (que también puede re­presentarse por “n”, para diferenciarlo del tamaño de la población); y “p", el nú­mero de variables independientes incluidas en la ecuación de regresión.

Esta tipificación de los residuos (que quedan convertidos a la misma unidad de medición: unidades de desviación típica) facilita su comprensión, además de la comparación de residuos y de modelos de regresión distintos.

Saber, por ejemplo, que un residuo bruto es igual a -849,25 apenas pro­porciona información. Sólo que el valor observado en la variable dependiente ( Yj) es inferior a su correspondiente valor predicho (F ¿). Y ello porque el signo de dicho residuo es negativo. Si su valor fuese positivo, indicaría lo opuesto: la Y¡ observada es superior a la predicha (Y¿).

Si se transforma el residuo bruto en estandarizado (al dividirse por la esti­mación de su desviación típica), su valor pasa de ser -849,25 a .3,0. Ello permiteconocer no sólo que el valor de Y¡ es inferior al correspondiente Y., sino tam­bién que es bastante superior a otros en valor absoluto. Alcanza su valor máximo. El rango de los residuos estandarizados va de -3,0 a +3,0, aproximadamente. Al estar estandarizados, estos residuos se caracterizan por ser su media 0 y su des­viación típica 1.

c) Residuos estudentizados (“Studentized residuals” o SDRESID, en notación SPSS). Se definen de forma similar a los estandarizados: el cociente del residuo bruto y su desviación típica estimada. A esta definición común (con el residuo es­tandarizado) se añade, no obstante, la consideración de la distancia de cada va­lor de ía variable independiente respecto de su media: “di ”, que expresa la distancia habida entre el punto i y el punto medio.

La variabilidad de los valores predichos no es igual en todos los puntos, si­no que varía con ios valores de la variable independiente y de la proximidad de ésta respecto de la media. La variabilidad en los valores predichos es menor, cuando la variable independiente se aproxima a la media. Por el contrario, au­menta para ios valores más extremos de la variable independiente. Estas con­sideraciones sobre la variabilidad cambiante se materializan en la formulación

Page 51: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1; Regresión múltiple 63

de los residuos estudentizados, al dividir el residuo bruto por la desviación típica estimada del residuo en ese punto.

Los residuos estudentizados se ajustan a ía distribución “t” de Student, con N - p *1 grados de libertad. Los valores “d¿ ” también suelen denotarse uh. (GraybiU e Iyer, 1994; Gunst y Masón, 198Ó). Esta cantidad -que suele igual­mente referirse “leverage”- indica el elemento “i” de la diagonal de la matriz H (también llamada “hat matriz” y las cantidades íih¡ ”, “hat valúes”). Las ob­servaciones con un valor “h¡ ¿ > 2¡)/n” deberían examinarse como observaciones potencialmente muy influyentes en la ecuación de regresión. Lo mismo acon­tece con valores de “E t> 2”.

d) Residuo eliminado estudentizado (“Studentized deleted residuals”). Difiere del anterior en que, aí calcular el error típico residual, no se incluye el iésimo re­siduo (~ i). De esta forma se obtiene una distribución del estadístico “t” de Stu­dent con “N - p - 2” grados de libertad.

Los valores de cualquiera de estos cuatro residuos se añaden a gráficos que facilitan la comprobación inmediata de ios supuestos de regresión. Los gráficos de residuos más comunes son los que representan los residuos (ya sean brutos, estandarizados o estü- dentizados) contra:

• Una de las variables independientes (X¡).® Los valores predichos de ia variable dependiente (Y¡),• La suma ponderada Y¡ de las variables independientes (X-).

De estos gráficos, el más empleado es el segundo: el gráfico de residuos contra los valores de Y.. En él, tanto los residuos como los valores predichos de la variable de­pendiente se hallan estandarizados. Para que refleje el cumplimiento de los su­puestos de regresión, este gráfico no ha de mostrar ningún modelo sistemático en consideración al valor de Y¡ (como ha podido constatarse en los subapartados an­teriores).

, La adecuación del modelo de regresión puede, asimismo, comprobarse mediante el llamado “casewtse p lo t”. Éste constituye igualmente un gráfico de residuos, aunque para cada caso concreto y de una forma estandarizada. Como proporciona información de cada uno de los casos analizados (su valor predicho, Y¡, con sus residuos corres­

Page 52: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

64 Análisis multivariable. Teoríú y práctica en la investigación social

pondientes), su uso se complica cuando el tamaño muestxal es elevado. El número de páginas del gráfico aumenta con el número de casos analizados. Lo que dificulta su lec­tura e interpretación.

O . La obtención del modelo de ¡regresión múltiple; fases principales

Como en cualquier procedimiento analítico, la consecución de un modelo de re­gresión lineal incluye varias fases. Desde los “preámbulos", que abarca todas las tareas referidas a la preparación de los datos, hasta la fase final de interpretación del modelo de regresión obtenido. La interpretación de los resultados acontece una vez que ha con­cluido la evaluación de la adecuación predictiva del modelo, tanto desde la vertiente estadística como la lógico-sustantiva. El modelo de regresión ha de ser teóricamente plausible, además de significativo desde el punto de vista estadístico. De no ser así, ha­brá que remitirse a las fases iniciales del análisis, en busca de causas posibles de la no significatividad detectada en el modelo. Para este propósito es imprescindible com­probar si se han cumplido cada uno de los supuestos básicos de regresión. En caso afir­mativo, habrá que remitirse al modelo teórico y a su operacionalización. En caso ne­gativo, habrá que buscar algún remedio que posibilite la obtención de un modelo de regresión adecuado.

La figura 1.7 esquematiza, a modo de gráfico, las fases principales de un análisis de regresión lineal múltiple. Es un esquema genérico. Como se verá en el apartado 1.6, la consecución de un modelo de regresión lineal difiere según el procedimiento que se ha­ya seguido en la incorporación de variables independientes a la ecuación de regresión. Si se ha optado por un procedimiento instantáneo o, por el contrario, se ha seguido uno secuencial (o “por pasos”)- y, dentro de ellos, qué variedad ha sido la finalmente ele­gida (“hacia delante”, “hacia atrás” o “paso a paso de inclusión y eliminación de va­riables”).

1.3. La preparación de los datos para el análisis

Como muestra la figura 1.7, los preámbulos del análisis de regresión lineal inclu­yen diversas tareas a realizar previas a la ejecución, propiamente dicha, del análisis de regresión. Comprende la elaboración de un modelo de regresión teórico, la selección de los casos a analizar, la comprobación de los supuestos básicos de regresión, la de­puración de los datos e indagación exploratoria. Los supuestos básicos de regresión li­neal ya se expusieron en el apartado 1.1. En él también se hizo referencia a aspectos relacionados con la muestra de análisis (subapartado 1.1.1), aunque no a otras tareas que componen, igualmente, los preámbulos al análisis de regresión.

Lo primero es elaborar un modelo teórico. El tener un modelo teórico de partida, diseñado a partir del marco teórico de la investigación, es básico en regresión, como en cualquier procedimiento analítico. Ayuda a decidir qué variables independientes ele-

Page 53: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo .1: Regresión múltiple 65

PREÁMBULOS DEL ANÁLISIS DE REGRESIÓN MÙLTIPLE1°

Elaboración de un modelo de regresión teórico en consonancia con ei marco teórico de la investigación Selección de los casos a analizarComprobación de los supuestos básicos para un análisis de regresión linealDepuración de ios datos: tratamiento de los “casos sin respuesta” (o datos incompletos)Indagación exploratoria. Incluye el análisis de correlaciones biva- riables a partir de la matriz de correlaciones

REPLANTEAR

2 0

ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN

° Obtención de los coeficientes de regresión s El error típico de los coeficientes ° La significatividad de los coeficientes

LA EVALUACIÓN DEL MODELO DE REGRESIÓN OBTENIDO

® Ei ajuste del modelo de regresión* El error de predicción° La significatividad del modelo de regresión, desde la vertiente es­

tadística y lógico-sustantiva ® La detección de casos “atfpicos”

„ 4.0 INTRODUCCIÓN DE MODIFICACIONES

CONCLUSIÓN DEL ANÁLISIS: presentación de resultados

gir para la predicción de la variable dependiente, además de ios casos a analizar. La ex­periencia de otros investigadores que hayan analizado el mismo problema de inves­tigación contribuye a evitar errores cometidos en estudios anteriores. Esta expenen-

Figura 1.7. Fases principales de un análisis de regresión mííitiple.

Page 54: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

66 Análisis multivariable. Teoría y práctica en la investigación social

cía se convierte en un referente crucial en todo diseño de investigación (Cea, 1996). En las fases finales de la investigación, también es crucial la mediación de un marco teórico. Éste sirve de marco de referencia al que acudir en la interpretación de los re­sultados del análisis.

A continuación se desarrollan otros dos aspectos no tratados: el tratamiento de los casos “sin respuesta” y la matriz de correlaciones.

1.3.1. Depuración de los datos: el tratamiento de los casos “sin respuesta”

Una vez concluida la recogida de información de la muestra elegida, procede realizar tareas preliminares de depuración de los datos que se han recogido. Incluye la eliminación de errores de grabación, además de algunas decisiones clave, como la re­ferida al tratamiento de los casos sin respuesta en una o en varias variables de la in­vestigación.

El análisis de regresión precisa, como la generalidad de las técnicas analíticas, de datos “completos” en todas las variables incluidas en el análisis. Pero, en la práctica in­vestigadora, esto no sucede siempre. Es frecuente encontrar variables de las que se ca­rece de información en algunos casos de la muestra. Cuando esto acontece, ha de adop­tarse alguna medida que evite los efectos negativos que la inclusión de datos incompletos tiene en el análisis. Fundamentalmente, la sobreestimación de los errores típicos de los coeficientes de las variables afectadas. Esta sobreestimación redunda, de manera negativa, en la significatividad de los coeficientes de regresión y, más am­pliamente, en el ajuste global del modelo de regresión.

Las actuaciones posibles ante datos incompletos dependen de varios aspectos: el ta­maño de la muestra, la proporción que en ella representen los datos incompletos, si és­tos afectan a una o a varias variables y, por último, si se hayan distribuidos de forma alea­toria. “La negativa sistemática de los sujetos a responder un tipo de pregunta particular en una encuesta puede distorsionar seriamente los resultados” (Hutcheson y Sofroniou, 1999:18).

Si la proporción de datos incompletos es pequeña en una muestra elevada y éstos se distribuyen de forma aleatoria, la mejor opción puede ser eliminarlos del análisis. Pero, cuando estas condiciones no se cumplen, la aplicación de este remedio radical a los datos incompletos no es recomendable. Primero, porque puede suponer una re­ducción drástica del tamaño muestral, que haga peligrar la validez estadística de los resultados del análisis. Y, segundo, porque puede provocar la obtención de re­sultados sesgados.

Además, téngase presente que, para efectuar el análisis de regresión, se eliminan de la matriz de datos inicial todos aquellos casos que no aporten información en al me­nos una de las variables consideradas. La merma del tamaño muestral original es más drástica cuantas más variablesse incluyan en el estudio y no coincidan los casos sin res­puesta en todas las variables. Según estimaciones de Jaccard y Wan (1996) la reducción en el tamaño muestral puede llegar incluso a suponer su reducción a la mitad, cuando

Page 55: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Captalo 1: Regresión múltiple 67

se incluyen 15 variables y cada una de ellas tiene, al menos, un 5% de sus valores sin respuesta.

- La eliminación de los casos sin respuesta tampoco es una solución recomendable, cuando estos casos no son azarosos Al contrario, se ajustan a un perfil determinado, que les diferencia de aquellos que sí aportan información. Tómese, por ejemplo, dos variables: “ingresos” y “categoría profesional”. Si se observa que personas de distintas categorías profesionales no declaran igualmente sus ingresos -las personas de cate­gorías profesionales superiores son, por ejemplo, los más reacios a informar de sus in­gresos-, no se está ante datos incompletos al azar. La eliminación de estos casos del análisis supondrá, salvo que representen una baja proporción en el conjunto de la muestra, la obtención de resultados sesgados, además de estimaciones de parámetros inconsistentes. Por esta razón se aconseja que, antes de proceder a eliminar del aná­lisis a los casos sin respuesta, se compruebe si aquellos casos que no aportan infor­mación en variables de interés se ajustan a un mismo perfil. De ser así, habrá que de­sestimar su eliminación de la muestra de análisis y optar por otro remedio a la “no respuesta”.

Cuando no se cumplen las circunstancias referidas de tamaño muestral elevado y/o baja proporción de casos sin respuesta, y éstos no se distribuyen al azar, sino que reúnen unas mismas características, es habitual elegir alguno de los remedios si­guientes:

® La imputación a partir de los casos de los que se tiene información. Se trata de sustituir estos valores sin respuesta por otros que tendrán tratamiento de valo­res observados reales. Los valores se imputan siempre bajo el supuesto de cuál habría sido el valor dado a la variable por ese caso o sujeto si hubiese da­do una respuesta. A tal fin pueden seguirse distintos procedimientos.

1. Reemplazar los valores sin respuesta (“missing values”) en una variable por la media de los valores observados en dicha variable, antes de proceder al análisis. Esta solución es especialmente útil, cuando se quiere hacer uso de los datos incompletos y las intercorrelaciones existentes entre las variables son pequeñas. La ventaja principal es que todos los casos de la muestra original intervienen en la obtención del modelo de regresión. El inconveniente sería los sesgos que su aplicación puede introducir en las estimaciones de los pa­rámetros de regresión.

2. Tomar los valores de respuesta dados por otros casos que han proporcio­nado respuestas similares en otras variables. Se trata de atribuir a los casos sin respuesta ía dada por otros individuos de similares características, que han proporcionado las mismas respuestas que ellos en las demás variables. Esta atribución de respuesta es más arriesgada que la solución anterior. In­dividuos con similares características no tienen por qué ser plenamente coincidentes.

Page 56: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

68 Análisis multivariable. Teoría y práctica en la investigación social

3. Predecir cuál habría sido la respuesta del sujeto, partiendo de la información que sí proporcionó en otras variables. Esta predicción puede llevarse a efecto mediante una ecuación de regresión, que analice el valor que co­rresponderá a la variable en cuestión, considerando las respuestas que dicho sujeto dio en otras variables.

Este tercer procedimiento de imputación es una opción deseable cuando existen correlaciones elevadas entre las variables consideradas (Afifi y Clark, 1990). Pese a ello, su aplicación puede introducir sesgos en el análisis, como sucede con los demás procedimientos de imputación.

Incluir los casos sin respuesta, en una o en varias variables, con el código “mis- sing valué”. Si los datos son continuos, estos valores sin respuesta suelen codi­ficarse como valores extremos (por ejemplo, 99 o 0), En estas circunstancias, es­ta opción no parece ser muy útil. Pero sí, en cambio, cuando se analizan variables ficticias. La consideración de ios datos incompletos “como una res­puesta separada a una cuestión junto con otras respuestas puede ser una opción interesante. Algunas veces, en los datos de encuesta, el hecho de que un sujeto no responda una cuestión particular puede ser una parte de información útil a analizar” (Afifi y Clark, 1990: 224).El investigador también puede considerar la eliminación del análisis de cualquier variable que presente una proporción elevada de casos sin respuesta. A menos que ésta se estime crucial en la predicción de la variable dependiente.Un último remedio que puede evitar la incidencia negativa en la merma de la muestra original que puede suponer la eliminación de los casos sin respuesta, sin acudir a la imputación, es la eliminación del análisis sólo de los casos que no apor­ten información en la variable que se analiza; es decir, sólo cuando se estimen los parámetros de la variable afectada por la no respuesta. Que el caso se elimíne de dicho análisis no supone su eliminación de otros análisis que afecten a otras va­riables de las que sí proporciona información. Este proceder ofrece la gran ven­taja de suponer una reducción sensiblemente menor del tamaño muestral que la eliminación total del caso, indistintamente de la variable que se analice, sin ne­cesidad de recurrir a la imputación. De ahí que haya sido ésta la actuación se­guida en el análisis de los datos aquí expuestos.

E je m p l o d e t r a t a m ie n t o d e l o s c a s o s *s in r e s p u e s t a

ES tratamiento dado a ios casos "sin respuesta” en ia encuesta aquí analizada ha sido el último mencionado; realizar eí análisis de regresión sólo con aquellos casos que sí propor­cionan información en ias variables de interés. Al ser e! tamaño de la muestra original bas­tante elevado (n = 2.492 casos), no era imperioso recurrir a la imputación. Se quería con ello

Page 57: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 69

evitar los sesgos que toda suposición de cuál habría sido la respuesta dada puede introdu­cir en la estimación de los parámetros. Pero, proceder a la eliminación de todo caso que no aportase información en alguna de las variables incluidas en el estudio suponía una reduc­ción drástica en eí tamaño de la muestra origina!, bastante superior a ia mitad (n = 692}. Es­ta drástica merma en el tamaño muestral, por encima de las predicciones de Jaccard y Wan (1996), se debe no sólo al número de variables elegidas para el análisis (15), sino también a que los casos "sin respuesta” no coinciden en todas fas variables. La desestimación de los casos “sin respuesta", aunque sólo sea en una de tas variables seleccionadas para el aná­lisis, provoca esta reducción tan llamativa en el tamaño muestral, cuando se analizan con­juntamente las variables. Sin duda la reducción habría sido menor, sí los casos “sin respuesta" no se hubiesen distribuido a! azar en ia muestra, adecuándose a un mismo perfil en la ma­yoría de las variables.

En cambio, la eliminación parcial del caso sin respuesta del anáfisis, sólo cuando afec­ta a la variable que se analiza, supuso una reducción sensiblemente menor en el tamaño de ia muestra original a 1.280 casos. Esta reducción se debió al cruce de las dos variables con más casos sin respuesta: “leyes inmigración’' (P18), con un tota) de 1.713 casos válidos; y la variable “ingresos” (P52), declarados sólo por 1.793 de los 2.492 encuestados. Pese a ello, el tamaño muestral continúa siendo elevado y posibilita, para la comprobación de la va­lidez de los resultados, eí seccionamiento aleatorio de la muestra a la mitad (aproximadamente 640 casos en cada submuestra: de anáfisis y de validación).

1.3.2. Indagación exploratoria: la matriz de correlaciones

Antes de comenzar el análisis de regresión, propiamente, es conveniente hacer in­dagación exploratoria en los datos a analizar. Se precisa conocer si, con la información reunida, puede llevarse a cabo un análisis de regresión. Además de la comprobación de los supuestos básicos de regresión, ya referidos, procede realizar análisis univariables de cada una de las variables de interés por separado. En especial, se analizan sus me­dias y desviaciones típicas. Recuérdese que la regresión lineal exige que las variables se ajusten a una escala continua. Por lo que, la media y la desviación típica se convierten en las medidas de tendencia central y de dispersión más representativas, y dos esta­dísticos principales cuyos valores se revisan.

E je m p l o d e in d a g a c ió n e x p l o r a t o r ia u n ivar iab le-MEDIA Y DESVIACIÓN TÍPICA

A continuación figuran las medias y desviaciones típicas de las variables analizadas en la muestra total. Para su interpretación se recomienda la relectura del subapartado 1.1.3. En

Page 58: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

70 Análisis rnultivariable. Teoría y práctica en la investigación social

Estadísticos descriptivos

MediaDesviación

típica N

Simpatía marroquí 5,9629 2,7276 2.183Leyes inmigración 2,6947 1,0354 1,713Ideología politica 4,6729 1,9595 1.804Sexo ,4811 ,4997 2.492Edad 44,9330 18,1276 2.492Simpatía latinoamericano 7,1693 2,2478 2.174Número inmigrantes 2,2260 ,6284 2.111Regularizar inmigrante ,7568 ,4291 2.171Entrada inmigrante 1,9069 ,6305 2,288Partido racista 1,4242 ,5692 2.237Casar con marroquí 1,6729 1,0094 2.415Estudios 2,1482 1,1990 2,281ingresos 143.991,0 105.233,1459 1.793Vecino marroquí 1,2670 ,6723 2.468Inmigrante delincuente ,5716 ,4950 .2.138

él se describe cada una de las variables; si son continuas o ficticias, además de los códigos numéricos dados a cada uno de sus valores. Esta información es de gran interés en ta in­terpretación de estos estadísticos descriptivos.

Además, observóse como el tamaño muestral (N) varía en cada variable, ai excluirse del análisis los casos sin respuesta sólo en la variable a la que afecta. En las variables “sexo" y “edad" se dispone de información de todos los casos de ia muestra original. Pero, en otras va­riables, como “leyes inmigración” (P16) e “ingresos” (P52), los casos analizados se reducen considerablemente. En ia variable “ingresos” ia reducción no sorprende, debido a la reticencia normalmente mostrada a ia declaración específica de los ingresos, aun pidiéndose que se den de forma aproximada. En ía variable “leyes inmigración” tampoco, al haberse incluido como opción de respuesta (en la valoración de las leyes que regulan la entrada y permanencia de extranjeros en España) “no conoce la legislación en materia de inmigración”.

Por último, señalar que la mayor desviación típica de ia variable “ingresos”, seguida a dis­tancia de ia variable “edad”, se debe a la unidad de medición de ambas variables: pesetas y años. En las otras variables el rango de valores posibles se restringe a 11 como máximo (en las variables “simpatía marroquí” y “simpatía latinoamericano”: la escala de valores va de 0 [ninguna simpatía] a 10 [mucha simpatía]); y en las variables ficticias (“sexo” [P41], “regularizar inmigrante” [P19] e “inmigrante delincuente” [P2904]) se reduce a los valores 1 y 0 (el grupo de referencia).

A la indagación exploratoria univariable le sigue la bivariable que analiza la re­lación habida, por separado, entre cada dos variables. Primero, se quiere conocer el grado de relación de cada variable independiente con la dependiente para decidir

Page 59: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 71

la pertinencia de su inclusión en el análisis. Si una variable independiente muestra una mínima correlación con la dependiente, se puede reconsiderar su inclusión en el análisis. Segundo, se comprueba la relación habida entre cada dos variables in­dependientes. La finalidad es comprobar el grado de colinealidad existente entre ellas y si éste puede afectar negativamente a los resultados del análisis (como ya se dijo en el subapartado 1.1,8). Toda esta información la proporciona la matriz de co­rrelaciones.

La matriz de correlaciones incluye las correlaciones bivariadas de cada una de las variables que participan en el análisis. Esta matriz se caracteriza por ser cuadrada y si­métrica. Los mismos valores se sitúan por encima y por debajo de la diagonal de la ma­triz (que resulta del cruce de una variable por sí misma). Por esta razón, en algunos programas estadísticos sólo se dan los valores que se hallan a un lado de la diagonal (por encima o por debajo), para no proporcionar información redundante.

En ía matriz de correlaciones la diagonal siempre está compuesta por unos. Incluye la correlación de cada variable, ya sea dependiente o independiente, consigo misma. De ahí que la correlación sea siempre 1,0, el valor máximo posible. Las variables figuran en el mismo orden en filas y en columnas. La variable dependiente puede estar en la últi­ma fila y columna, o en la primera, depende del programa que se utilice. Sus valores se cruzan con cada una de las variables independientes, de lo que se obtiene un coeficien­te de correlación producto-momento de Pearson (“r”). Éste constituye una medida basada en la covarianza entre dos variables relacionada con la dispersión de sus respectivas dis­tribuciones. Concretamente, se obtiene del cociente entre la covarianza de “X” e “Y” y la raíz cuadrada de las varianzas de “X” e “Y”, para todo valor i = (1,2,3...N), siendo “N” (o “n”) el tamaño de la muestra. Dos fórmulas alternativas son las siguientes:

S 2x - -í-i------ X 2 = Varianza de X, siendo cuadrado de la media de X

S 2y = -i2~ ----- Y 2 ~ Varianza de Y, siendo “ Y 2 ”el cuadrado de la media de Y

N

donde Sxy = ------ X Y = Covarianza de X en Y

N

Page 60: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

72 Análisis rnultivariable, Teoría y práctica en la investigación social

Mediante cualquiera de estas fórmulas se obtiene un coeficiente que expresa eí gra­do y la dirección de la relación existente entre dos variables (“X” e “Y”, cuando se mi­de la relación de cada variable independiente con la dependiente; o de “X” y “X ”, si ía relación es entre dos variables independientes). Su valor oscila de -1,0 a 1,0. El va­lor 0,0 expresa inexistencia de relación entre las variables; +1,0 correlación perfecta po­sitiva (conforme aumenta eí valor de una variable se incrementa, igualmente, el valor de la otra); y -1,0 correlación perfecta negativa (el incremento de una variable provoca la disminución de la otra).

La figura 1.8 contiene la composición de una matriz de correlaciones. En ella aparece cada coeficiente de correlación entre cada par de variables, indistintamente de si actúan de dependiente o de independientes. La diagonal está formada por unos y, a ambos lados de eíía, se sitúan los mismos coeficientes. Es igual, por ejemplo, la co­rrelación de la variable X t con X 2 (r12) que a la inversa (r2í), de la variable X 2 con X v Las correlaciones entre variables ficticias equivalen a los coeficientes phi (<p) y se re­lacionan con x 1 (chi-cuadrado), porque <j> - Ambos estadísticos miden la relación entre variables cualitativas en una tabla de contingencia 2x2. Ello afecta a que la corre­lación entre este tipo de variables se interprete como ía proporción de casos que en ese grupo es mayor (signo positivo) o menor (signo negativo) que la proporción de casos en los otros grupos.

X , x 2 x s . . . . X , Y

X , 1 r u r J3 . . .

x 2 r 2l 1 r 23 - • • • r 2p

x 3 l 32 1 ; . • •

X , f p2 r * ■ ■ I T py

Y r y t r >6 • • ryp 1

Figura 1.8. Matriz de correlaciones.

Una forma de analizar la matriz de correlaciones es determinar un valor de corte, por ejemplo, una correlación igual o superior a 0,50, o incluso inferior: 0,40. Sea cual fuere el valor que se escoja, se procede a señalar todas aquellas correlaciones cu-

Page 61: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 73

ya correlación sea de igual o superior magnitud que el valor tomado de corte. Esto ayu­da a tener una primera impresión de las interrelaciones existentes entre las variables. Se insiste en que 1a relación es exclusivamente entre dos variables y no se tiene en con­sideración la influencia, a su vez, con otras variables.

Si la relación es entre dos variables independientes, recuérdese que todo valor igual o superior a ±0,80 se considera indicativo de una elevada correlación entre las varia­bles (se está ante variables muy colímales). Son funciones casi perfectas una de otra, lo que demanda la adopción de alguna de las medidas contra la multicolineaUdad re­feridas en el subapartado 1.1.8. También puede tomarse como referente de colineali­dad importante toda correlación igual o superior a ±0,60.

Asimismo, puede darse la situación de correlaciones inferiores a las esperadas. EUo puede deberse a la existencia de una relación no lineal entre las variables o, simple­mente, a la presencia de outliers (casos “atípleos’'). Para descartar ambas explicacio­nes a la baja correlación entre las variables hay que proceder a la comprobación de los supuestos de regresión (apartado 1.1) y, en su caso, a la detección de “atípleos” (véa­se subapartado 1.5.4).

Por último, advertir de que las correlaciones demasiado bajas pueden deberse, igualmente, a valores extremos de la media y desviación típica de la variable. “Si las me­dias de las variables para una muestra dada son números muy grandes y las desvia­ciones típicas muy pequeñas, entonces los programas de ordenador pueden producir matrices de correlación cuyos valores son demasiado pequeños” (Hutcheson y So- froniou, 1999:18). Esta tercera explicación tendrá, asimismo, que comprobarse, lo que exige un análisis univariable de las variables afectadas.

E j e m p l o , d e m a t r iz d e c o r r e l a c ió n

En el subapartado 1.1.8 se hizo referencia a la matriz de correlaciones, a su aplicación en la comprobación del grado de colinealidad existente entre dos variables independientes. A lo expuesto en el susodicho subapartado hay que añadir comentarios referidos, princi­palmente, a las correlaciones de cada variable independiente con la dependiente.

En la salida original del programa SPSS (versión 10.0) figura la matriz de correlaciones completa, junto a la significatividad (unilateral) de cada correlación bivariable y eí tamaño muestra! en el que se han calculado. Para facilitar su exposición y lectura, se ha decidido ex­poner la matriz de correlaciones como se hace en un informe de resultados. Las correlaciones bivariables sólo aparecen una vez, no repitiéndose a ambos lados de ia diagonal. Recuérdese que la correlación entre la variable X, y X2 es igual a la habida entre X2 y X.,. Lo mismo su­cede con las demás variables.

Page 62: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

74 Análisis multivariable. Teoría y práctica en la investigación social

Matriz de correlaciones

Y x, x2 x3 x, x 5 x 6 x7 xe x9 x 10 x „ x ,a X13 X,4

Y 1,000 ,302 -,115 -.050 -113 ,593 -.297 ,281 -,294 -.216 -47 6 ,140 ,057 -.396 -,268{,000} (,000) (.010) (.000) (,000) (,000) (.000) (.000) (,000) (,000) (.000) (.012) {,000) (,000)

x, 1,000 -,181 -.035 -12 9 ,196 -,337 ,286 -,368 -141 -,246 ,184 ,156 -,227 -,289(.000) (,076) (,000) {,000) (,000) (,000) (.000) {,000) (,000) (,000) (.000) (.000) (,000)

X2 1,000 -,031 ,118 -.048 ,140 -,111 ,136 ,170 ,147 -,052 ,037 ,117 ,149'(,098) (,000) (,024) (,000) (,000) (.000) (.000) (.000) (.017) (.086) {,000) (,000)

x3 1,000 “ ,058 -009 —,027 -,039 ,046 ,021 -,024 ,080 ,107 ,026 ,055(,002) (,330) (.106) (.035) (.015) (.160) (.116) (,000) (.000) (.102) (.005)

X4 1,000 -,102 ,141 -,089 ,117 ,097 ,163 „442 -,291 ,124 ,201(,000) (,000) (.000) {,000) (,000) (,000) (.000) (.000) (,000) (.000)

xs 1,000 -,230 ,228 -.246 -219 -27 4 ,120 ,085 ",267 -,199(,000) (.000) (,000) (,000) (,000) (,000) (.000) (.000) (,000)1,000 -,283 ,275 ,183 ,233 -.254 -.223 ,194 ,316

(.000) (.000) (,000) (,000) (,000) (.000) (,000) (,000)*7 1,000 -,388 -,199 -,265 ,175 ,118 -,249 -,268

(.000) (,000) (,000) (,000) (,000) (.000) (,000)1,000 ,257 ,290 -,154 -,139 ,266 ,309

(.000) (,000) (,000) (.000) (,000) (.000)x 8 1,000 ,239 “ ,128 -070 ,261 ,179

(.000) (.000) (,002) (.000) (.000)X,o 1,000 -.114 -,023 ,573 ,271

(.000) (.169) (,000) {,000)x „ 1,000 ,471 -,095 -,204

(.000) (.000) (.000)1,000 -,041 -.117

(.041) (,000)X,3 1,000 ,207

(.000)*,4 1,000

* Las cifras entre paréntesis corresponden a la significatividad de tas correiacíones bivariabies respectivas.• Y: “simpatía hacia norteafricano (marroquí,..)’’ (P201); X,: "Seyes inmigración" (P16); X¿. “ideología política” (P39);

X3: "sexo” (P41); X4: “edad” (P42); Xa: "simpatía hacia latinoamericanos" (P210); Xe: “número de inmigrantes” (P1 1}; X7: “regularizar a inmigrantes” (P19); Xa: "entrada inmigrantes” (P21); X9: “partido racista" (P37); X10; “ca­sar con marroquí" (P306); Xt1: "estudios” (P43a); Xl2'. "ingresos” (P52); X13: Vecino marroquí" (P506); X,4: “in­migrante delincuente” (P2904).

Debajo de cada correlación y entre paréntesis está la significatividad (unilateral) de ca­da correlación. Corno puede observarse, la mayoría de las correlaciones habidas son bastante significativas, af ser p < ,05 (la probabilidad de error en !a estimación es inferior al 5% en la mayoría de las situaciones). La significatividad es muy elevada en todos los coeficientes de correlación de cada variable independiente con la dependiente, pero no en todos Sos coefi­cientes de correlación entre dos variables independientes. La significatividad es inferior al va­lor tomado habitualmente de referencia en las correlaciones entre las variables: X, y X3 (,075), X2 y X3 (,098), Xs y X5a (,088), X3 y X5 (,330), X3 y X6 (.106), X3 y X9 (,160), X3 y X10 (,116), X3 y X13 (,102), X10 y X12 (,169). Afecta, sobre todo, a la variable ficticia X3 (“sexo”), a su correlación con siete variables (la mitad de las consideradas). La correlación con estas va­riables es, asimismo, muy baja, siendo la más alta de -,035, que corresponde a su correla­ción con ia variable X1. Con las otras seis variables las correlaciones son, inclusive, más ba­jas. Estas bajas correlaciones significan que apenas existen diferencias entre ios varones y las mujeres en las variables referidas.

Page 63: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 75

Recuérdese que ía variable “sexo”es una variable ficticia que, al tener codificación binaria (1 varón, 0 mujer), su relación con fas otras variables no se ajusta a una recta de regresión, aunque realmente las variables estén muy relacionadas. En las variables ficticias, el coeficiente de correlación producto-momento de Pearson (“r") no expresa el grado de relación existen­te entre dos variables, sino la proporción de casos que en ese grupo (el codificado 1) es ma­yor (signo-positivo) o menor (signo-negativo1) que ia proporción de casos en el grupo de re­ferencia (codificado 0). Por ejemplo, !a correlación de X3 con Y de -,050 significa que la proporción de varones (codificados 1) que muestran “simpatía hacia los norteafricanos (marroquíes...)’1 es muy ligeramente inferior a la de mujeres (el grupo de referencia, a! co­dificarse 0). En cambio, la correlación positiva de la variable X3 con X12 de ,107 indica la pro- porción en que los “ingresos" de los varones superan a los declarados por las mujeres. A la vista de ambas correlaciones, que son bastante significativas y de escasa cuantía, puede con­cluirse que existen más diferencias entre los varones y las mujeres en los "ingresos" decla­rados (a favor de los varones) que en la ‘‘simpatía'1 manifestada hacia los norteafricanos (li­geramente superior en las mujeres). Es en la variable “ingresos” donde ias diferencias por género son superiores (aunque con escasa magnitud: ,107). Respecto a las otras variables, las diferencias por género son apenas perceptibles. La correlación más baja se da entre la variable X3 y X5 (-.009). En ia manifestación del grado de “simpatía hada ios latinoamericanos” las diferencias entre los varones y las mujeres son nulas (inclusive inferiores a las registra­das en ta variable Y: “simpatía norteafricano”) e, igualmente, en dirección negativa (míni­mamente superior en las mujeres).

Las otras dos variables ficticias (X7 y X14) muestran una mayor correíación con Y que X3. En la variable X7 (“regularizar a inmigrantes”) la correlación es positiva y ligeramente supe­rior (,281). Entre las personas que creen que sí “se debería tratar de regularizar la situación de ios inmigrantes ilegales” (grupo codificado 1) ia proporción de casos que muestran más simpatía hacia los norteafricanos es ,281 superior a la habida entre los contrarios a ía re- gularización (el grupo de referencia). Asimismo, ta correlación de X14 e Y de -,268, significa que entre aquellos que están de acuerdo en que “el aumento de los inmigrantes favorece el aumento de la delincuencia en nuestro país” aquellos que muestran simpatía hacia los norteafricanos son en una proporción de ,268 inferiores a los que están en desacuerdo con dicha aseveración. En este último grupo (eí grupo de referencia) es superior el grado de sim­patía manifestado hacia los norteafricanos, aun no siendo excesiva en magnitud.

De las catorce posibles variables predictoras consideradas Xs (“simpatía hacia latinoa­mericanos”) es fa variable más correlacionada con Y (“,593). La correlación habida entre am­bas variables es positiva e importante, aunque no perfecta. Las simpatías mostradas hacia los latinoamericanos y norteafricanos covarían en ia misma dirección. Ambas variables es­tán positivamente relacionadas, lo que significa que tos aumentos (o disminuciones) en sim­patía hacia los latinoamericanos suelen coincidir, aunque no siempre, con aumentos (o dis­minuciones) igualmente en ia simpatía manifestada hacia los norteafricanos. Para que la correlación entre ambas variables fuese perfecta (y la coincidencia de sus valores total en to­dos los casos) su valor debería aproximarse a 1,0. No obstante, la correlación entre ambas variables es importante y puede afirmarse que ésta será la primera variable que formará la ecuación de regresión, la que más ayuda a predecir el valor de Y.

X10 (“casar con marroquí”) es la segunda variable en importancia que muestra una mayor correíación con Y, aunque en dirección negativa (-,476). El signo de! coeficiente res­ponde a cómo está definida esta variable. El valor más alto (4) corresponde a aquellos que afirman que “le preocuparía mucho que un hijo o una hija suya se casara con un ciudadano

Page 64: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

76 Análisis multivariable. Teoría y práctica en la investigación social

de Marruecos u otro país norteafricano"; el valor más bajo (1), a aquellos que declaran que no les preocuparía "nada" dicho matrimonio. Hecha esta especificación, el signo del coeficiente no sorprende. La simpatía mostrada hacia los norteafrícanos varía inversamente con la pre- ocupación de que un hijo o hija se casase con un marroquí. A medida que aumenta la preocupación hacia un posible matrimonio con un marroquí u otro ciudadano de un país nor­teafricano, desciende Sa simpatía hacia este grupo de personas. Ésta es menor entre los que dicho matrimonio tes preocuparía “mucho” o “bastante” que entre aquellos a ios que les pre­ocuparía “poco” o “nada”. La relación entre ambas variables es lineal, aunque no perfecta. A partir de ¡a matriz de correlaciones puede predecirse que ésta será la segunda variable en for­mar la ecuación de regresión, al ser la segunda más correlacionada con Y, cumpliendo a su vez la condición de estar apenas correlacionada con X5. La correlación (muy significativa) ha­bida entre las variables X10 y X5 es leve (-,274). Se trata de dos variables poco collneales. La inclusión de una de ellas en ia ecuación de regresión no restringe la incorporación de la otra.

Como se verá posteriormente, la incorporación de variables predictoras a la ecuación de regresión está determinada no sólo por la correlación que dicha variable tenga con la de­pendiente, sino también de la tenida con variables independientes previamente introducidas en la ecuación (por mostrar una mayor correlación con Y).- En suma, para poder predecir que la variable X13 (ia tercera más correlacionada con Y: -,396) y X1 (la cuarta, ,302), por ejemplo, van a formar parte de la ecuación de regresión, habrá antes que observar cuáles son las correlaciones de estas dos variables entre sí y con las variables previamente indicadas como posibles integrantes de la ecuación. Un grado elevado de colinealidad con variables ya en la ecuación dificulta la incorporación de nuevas variables, aun estando muy correlacionadas con Y. Como se señaló en el subapartado 1.1.8, en el análisis de regresión se trata de evi­tar la multicolineaUdad y con ello la redundada en la predicción de Y. Para más información reléase dicho subapartado. En los siguientes se volverá a hacer referencia a esta matriz de correlaciones para la interpretación deí modelo de regresión.

1.4. La eí: isa cío n de regresión

En el análisis de regresión lineal múltiple la relación entre la variable dependiente (Y) y la serie de variables independientes se expresa como una función lineal de las va­riables independientes (X.). Dicha función conforma la ecuación siguiente para i = 1,23—n observaciones muéstrales:

Y. - a + b ,X u + b2X 2l + b3X v + ........+ bpX p¡ +

Esta ecuación permite predecir el valor de la variable dependiente, en cada caso concreto (Y;), a partir de unos valores determinados de la serie de variables inde­pendientes que muestran relación con la dependiente.

Como dicha predicción es rara vez exacta, al tratarse generalmente de datos muéstrales, la ecuación también incluye un término de perturbación (e(.). Éstos son, en suma, sus componentes:

Page 65: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo I: Regresión múltiple 77

“Xj, X 2, X y.. X. ” las distintas variables predictoras de las que se ha obtenido infor­mación en ía muestra analizada.

“a”: también denominado “&0”. Identifica la constante o el intercepto de la recta de re­gresión. Es el punto donde la recta (o el piano) de regresión “intercepta”, o sea, corta el eje Y, De ahí su referencia de “intercepto”. También se le conoce co­mo “constante” porque su valor denota el valor promedio de Y cuando las va­riables independientes son nulas; es decir, iguales a cero. Pero, téngase presente que no siempre el valor cuantitativo del intercepto tiene una interpretación directa. Esto sucede, habitualmente, cuando presenta un valor negativo. Rara vez, en el mundo real, un valor de Y puede ser inferior a 0 (salarios, calificación académica, lloras de estudio, por ejemplo). En estas circunstancias de valores de “a” (o “b0”) negativos, su cuantía no es directamente interpretable, aunque continúa sien­do imprescindible para la predicción de Y.

En caso de variables independientes ficticias (véase subapartado 1.1.2), el in­tercepto (o constante) refleja el valor predicho de la variable dependiente para el grupo de referencia. Ello se debe a que todas las variables pericias son iguales a ce­ro para el grupo de referencia (0 varón, i mujer; 0 suspenso, 1 aprobado, por ejem­plo). Su valor se interpreta como la frecuencia media de la variable dependiente para el grupo que se ha codificado 0.

“bv &2— bp” son los coeficientes de pendiente parcial o de regresión parcial. En regre­sión simple, cuando sólo hay una variable independiente, su valor representa la pendiente de la recta de regresión. En regresión múltiple, con dos o mas variables independientes, su valor identifica la pendiente del hiperplano de regresión con respecto a su respectiva variable independíente (X ). Separan el efecto de cada va­riable independiente en la dependiente del resto. Esto se debe a que su cuantía ex­presa el cambio promedio en la variable dependiente asociado a una unidad de cambio en X , cuando el resto de las variables independientes se mantienen constantes (esto se conoce como control estadístico).

En variables independientes ficticias (con codificación binaria 0 - 1) el coe­ficiente de pendiente en cada una de las variables ficticias estima la diferencia en el valor de Y entre el grupo en cuestión y el grupo de referencia. En variables con sólo dos categorías, como sexo, el valor de dicho coeficiente se convierte en la di­ferencia en las medias entre el primer grupo (el codificado 1) y el segundo grupo (el codificado 0). Si los “varones” actúan, por ejemplo, como grupo de referencia (codificado 0), el coeficiente “b” asociado a “mujer” (con el código 1) denota la diferencia en Y entre “mujeres” y “varones”. En general, los casos que puntúen 0 en cada una de las “g - 1 ” variables ficticias creadas se toman como grupo de re­ferencia, respecto al cual se comparan los coeficientes de regresión de cada una de .las variables ficticias formadas a partir de una variable cualitativa. Por esta razón se recomienda seleccionar como grupo de referencia aquel que haga más signifi­cativa la interrelación de los respectivos coeficientes de pendiente.

Como los coeficientes de pendiente suelen estimarse de datos muéstrales, siempre habrá una variación en su valor, dependiendo de la muestra que se ana­

Page 66: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

78 Análisis multivariable. Teoría y práctica en la investigación social

lice. Esa variación se cuantifica mediante ei “error de estimación” o error típico de los coeficientes de regresión (véase subapartado 1,4.2).

“e/’: el término de error aleatorio que se añade a la ecuación de predicción de Y. El mo­delo de regresión, en similitud a otros modelos estadísticos, es un modelo pro- babilístico y no determinístico. Rara vez la relación causa-efecto detectada entre las variables es exacta. Por lo que debe cuantificarse la magnitud del error de pre­dicción de Y a partir de la serie de variables independientes incorporadas al modelo predictivo.

La denominación “aleatorio” le viene de la convicción de que los errores de­ben seguir un modelo aleatorio. Esto quiere decir que se sitúan, de forana aleatoria, alrededor de la recta de regresión, con un valor esperado de cero (E(e¡) = 0) y una varianza constante ai. (subapartado 1.5.2).

A partir de la ecuación de regresión puede predecirse el valor de la variable de­pendiente en cada caso concreto (Y;). Para ello se sustituye, en la ecuación, los valores que presenta dicho caso en cada una de las variables independientes. Estos valores se multiplican por sus respectivos coeficientes de regresión. Se suman todos los produc­tos y se añade el error de predicción, a partir del cual se calculan los intervalos de con­fianza (como se expone en los subapartados correspondientes). Toda inferencia se rea­liza en términos de probabilidad. “Cualquiera que sea el método utilizado en la contrastación de hipótesis, los resultados nunca son ciertos, sino aproximaciones en tér­minos de probabilidad” (Goode y Hatt, 1952:87).

La finalidad de la regresión múltiple no es únicamente descriptiva: cuantificar el grado de relación existente entre una serie de variables independientes y una sola va­riable dependiente. Es también ínferencial. De ios coeficientes de regresión, estimados en la muestra analizada, se persigue su generalización al conjunto de población de la cual se ha extraído la muestra. Ello exige el cumplimiento de los supuestos de regre­sión resumidos en el apartado 1.1.

Para ia población, la ecuación de regresión múltiple se formula igualmente, salvo que los parámetros de regresión pasan a denominarse con letras del alfabeto griego. Los símbolos “a ” (alpha) y “/?’( beta) nombran, respectivamente a la constante (o in­tercepto) y a los coeficientes de regresión (o de pendiente). Su valor se obtiene a par­tir de sus correspondientes estimaciones muéstrales, aunque se halla estandarizado (ex­presado en unidades de desviación típica). Todas las variables independientes tienen ahora el mismo promedio y cantidad de variación. Sus respectivos coeficientes beta se hallan en unidades de desviación típica, y no en la unidad de medición original de la variable, lo que facilita ia comparación de los coeficientes: el conocimiento de qué va­riable afecta más a la predicción de la variable dependiente. Para su estandarización se divide cada coeficiente b por su desviación típica. ue ” (epsííón) ahora nombra al error de estimación.

Y ¡ - a + p lX l¡ + pt X 2i + fi.3X 3i -f... + f}pX pi + e,

Page 67: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo J: Regresión múltiple 79

Si ei investigador prevé la posibilidad de que el efecto de una variable predictora en Y dependa de los valores de otra variable independiente, ha de añadir a la ecuación de regresión el efecto de un término de interacción al modelo original, a modo del si­guiente, donde X 2i X 3 ” denota el término de interacción.

Y¡ = a + & X tt + p ,X 2i + & X 3l + & X 2ÍX 3¡ + £¡

Las interacciones pueden afectar a más de dos variables predictoras. En realidad, puede haber tantas interacciones como variables predictoras, si sus efectos en la va­riable dependiente son interactivos ( y no aditivos). El coeficiente “/J4” de la ecuación anterior indica el cambio en “X 2” por líX 3’% mientras se controla por los otros térmi­nos en el modelo. La interpretación de los términos de interacción se complica, no obs­tante, al aumentar las interacciones incluidas en el modelo de regresión, que cada vez se hace más complejo. Para evitar la complejidad innecesaria se recomienda no pro­ceder de forma rutinaria, sino incluir sólo aquellas interacciones que muestren ser sig­nificativas. Dos razones principales, destacadas por Gunst y Masón (1980: 38-39), apoyan esta recomendación:

a) El número de interacciones posibles para modelos de regresión con varias variables predictoras puede ser elevado. Con sólo 5 variables predictoras exis­ten 10 posibles términos de interacción de 3 variables, 5 de 4 variables y 1 de 5 variables. La consideración de todas estas interacciones resultaría en un modelo complejo con 36 términos, sin que esto redunde, necesariamente, en una mejora sustancial de ajuste a los datos.

b) Los términos de interacción a veces repiten información proporcionada por las variables predictoras individuales. Si la redundancia inducida por los términos de interacción es demasiado fuerte, se pueden distorsionar las estimaciones de los coeficientes para las variables predictoras individuales. Esta redundancia se identifica con la multicolinealidad (referida en el subapartado 1,1.8).

Pero, si no se incluyen interacciones que realmente existen, los parámetros esti­mados para los otros términos del modelo pueden verse afectados. Para obviarlo, una práctica empleada comúnmente consiste en añadir el producto liX i X " en la ecuación de regresión para representar posibles interacciones (Afifi y Clark, 1990). Éstas pue­den darse entre dos o más variables continuas o entre una continua y una. ficticia. En este último caso, se comprueba si la respuesta a un cambio en una variable indepen­diente continua difiere entre los grupos clasificados de acuerdo con la variable ficticia. No obstante, se insiste en la conveniencia de que sólo se incluyan aquellas interacciones que muestren ser significativas.

A continuación se detalla cada uno de los integrantes de la ecuación de regresión, junto con los procedimientos principales seguidos en su estimación.

Page 68: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

80 Análisis rnultivariable. Teoría y práctica en la investigación social

1.4.1. Estimación de los coeficientes de regresión

El procedimiento de estimación de los coeficientes de regresión más aplicado, siem­pre que se satisfagan todos los supuestos básicos de regresión, es el método de mínimos cuadrados ordinarios (OLS). Este método de estimación fue primeramente enuncia­do por Legendre en 1805, si bien Gauss lo venía aplicando desde 1795. Su nombre le viene de su propia finalidad: la obtención de una recta que haga mínima la distancia que separa, simultáneamente, a todos los puntos de datos de la recta (o hiperplano en regresión múltiple). Estos puntos representan la conjunción de los valores de las distintas variables independientes (X ) con la dependiente (F¿), en cada caso obser­vado en el estudio, y se reflejan en un gráfico de dispersión.

Para la consecución de la recta que “mejor” ajuste a los datos (aquella que haga mí­nima la distancia de los puntos respecto de ella) se emplea la suma de los valores cua­drados de las distancias verticales. Más conocido como la suma de los errores cuadrados

(denotado SSE): SSE = ¿ é f - ¿ (Y , “ % ?M i-i

Si los errores no se elevan al cuadrado, las distancias por encima de la recta de re­gresión anularían a las que se sitúan por debajo de la recta. Cuanto más se aproximen los puntos (de los datos) a la recta, mejor es el ajuste del modelo, al ser mínima la su­ma de los términos de error al cuadrado. En cambio, cuanto más se distancien los pun­tos, peor es el ajuste.

La representación gráfica de la aplicación del principio de mínimos cuadrados es más sencilla en regresión simple (cuando sólo se analiza el efecto de una variable in­dependiente en 1a dependiente) que en regresión múltiple (donde un plano sustituye a la recta de regresión). Conforme aumenta eí número de variables predictoras, la re­presentación gráfica se complica considerablemente, en relación con el número de va­riables independientes implicadas. Con tres variables independientes, se tiene un plano en un espacio tridimensional, debido a que el número de variables indepen­dientes es tres. La localización de este plano está determinada por ios valores de "a, bv h%... b n. Estos se obtienen mediante la aplicación del método de mínimos cuadrados ordinarios. Es decir, considerando la desviación de cada valor respecto a la medía de la variable en cuestión. La figura 1.9 ilustra la representación del principio de mínimos cuadrados ordinarios cuando se analiza una única variable independiente, al ser en es­te contexto más visual y fácilmente comprensible. También se incluye la representación cuando son dos las variables independientes consideradas (regresión múltiple). Con más de tres variables la representación gráfica se vuelve demasiado compleja y de difícil comprensión.

Los puntos representan en el gráfico de regresión simple los valores observados deY para cada valor de X en cada caso observado; en el gráfico de regresión múltiple, los valores observados de Y para cada combinación de valores de las dos variables inde­pendientes (Xj y X2). De lo que se trata es de buscar una recta (regresión simple') o un plano (regresión múltiple) que haga mínima la suma de ias diferencias, elevadas al cuadrado, entre los valores observados de Y (en la muestra) y los estimados medíante la

Page 69: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo I: Regresión múltiple 81

ecuación de regresión (TQ, para cada caso concreto (i -1 ,2 ,3 ... n). Dichas diferencias constituyen Jos errores de predicción (“e/’)- Existe uno para cada punto. Su valor informa de la distancia habida entre ei punto y la recta o plano. Rara vez se logra un ajuste per­fecto de los puntos a la recta o plano, por to que siempre existe error. Lo que se quiere es que sea lo menor posible, que la distancia habida entre ambos valores sea mínima.

Y

X

a) Regresión simple b) Regresión múltipleFigura 1.9. Representación del principio de mínimos cuadrados ordinarios.

Cuando se comprueban los efectos conjuntos de 4 o más variables predictoras en la dependiente, la representación gráfica del principio de mínimos cuadrados ordinarios se hace casi imposible. La función lineal que se estima en este caso se llama hiperplano y, como reconoce Tacq (1997:116), “escapa a nuestra imaginación”. Para el caso general de “p” variables predictoras se precisaría ajustar un hiperplano p-dimensional a un grá­fico de “p + 1” dimensiones. El principio, no obstante, es el mismo.

En resumen, mediante la regresión de mínimos cuadrados ordinarios se pretende bus­car los valores de los coeficientes de regresión (a, bv bp), que minimicen la suma de las desviaciones cuadradas de las observaciones, “Y”, de los valores predichos de la va­riable dependiente (Y ). En ei caso de una única variable independiente (regresión sim­ple), los valores de los coeficientes “a” y “b” se obtienen de las ecuaciones siguientes:

X c X í - x m - y )i*i______________

i t í x t - x )

Covarianza de XY / Varianza de X

Una vez conocido “b” se procede al cálculo de “a”:

a - Y - b X

Pero, cuando se dispone de dos o más variables predictoras (regresión múltiple), las fórmulas para ia estimación de ios coeficientes de regresión se complican. Requieren

Page 70: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

la aplicación del álgebra de matrices. Siguiendo la formulación del álgebra de matriz, la ecuación de regresión queda así definida:

Y ' = X * B'+ e '

Donde: “ Y es un vector n-dimensional de la variable dependiente.“X*” = (1, X ., X 2, X y .., X ) contiene una columna de V unos y una co­

lumna de “n” observaciones en cada una de las “p” variables inde­pendientes,

“B'” es un vector de p + 1 dimensiones (siendo “p” el número de variables predictoras) de los parámetros deí modelo: a, Pr, fi2, f í y fíp-

“e e s un vector de los “n” términos de error aleatorios.

En regresión se diferencian los coeficientes de regresión estandarizados (conocidos como coeficientes beta) de los no estandarizados (los coeficientes dependiente “b ”). Ambos proporcionan más información que el coeficiente de correlación:

* El coeficiente de correlación (“r”) indica el grado de relación lineal existente en­tre dos variables y la dirección de la misma. Si el signo es positivo, las dos va­riables covarían en la misma dirección: el aumento de una de ellas provoca el au­mento de la otra (por ejemplo, a más horas de estudio, mejor resultado académico; o a menos horas de asistencia a clase, peor calificación en el examen). El signo negativo significa, por el contrario, que ambas variables covarían en di­recciones opuestas: conforme se incrementa el valor de una de ellas, disminuye el valor de la otra (el aumento del número de cajetillas de tabaco filmadas al día supone la disminución de la esperanza de vida dei fumador, por ejemplo). Su va­lor expresa el grado de covariación entre ambas variables. En el subapartado 1.3.2 figuran las fórmulas aplicadas para su obtención.

® El coeficiente de pendiente “b ” (en regresión simple, de pendiente de la recta', en regresión múltiple, de pendiente del hiperplano de regresión con respecto a las “p” variables independientes) proporciona más información que el coefi­ciente anterior. Indica cuánto varía la variable dependiente cuando la inde­pendiente cambia en una unidad, controlándose, a su vez, eí efecto de las de­más variables independientes. Por lo que, muestra ser de especial utilidad para comprobar el impacto de una variable independiente en la dependiente y sus variaciones en las diferentes muestras. Esto último mediante el cálculo del error de estim ación de cada coeficiente “b '\

A este coeficiente también se le conoce como coeficiente de regresión parcial. Ello se debe a que su valor se ve afectado por la composición de las variables in­cluidas en ei análisis, exactamente, por las posibles interrelaciones que existan entre ellas. E l coeficiente para una variable concreta siempre se ajusta en fun­ción de las otras variables incluidas en la ecuación de regresión. La inclusión o exclusión de una de ellas suele conllevar una alteración en el valor de los coe­ficientes de las variables en la ecuación. De ahí la importancia de incluir en el

82 Análisis multivariable. Teoría y práctica en la investigación social

Page 71: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 83

análisis variables relevantes. A veces incluso ja omisión de variables que no sean significativas a un determinado nivel de significación (usualmente p < 0,05) pue­de ocasionar problemas en la interpretación de los coeficientes de pendiente, cu­yo valor se ve afectado por la omisión de variables.

Además, téngase presente que la magnitud de los coeficientes de pendiente tam­bién se halla afectada por ia unidad de medición de la variable. Lo que limita su aplicación en la comprobación de la importancia relativa de las diversas variables independientes a la predicción de la dependiente. Ello exige la conversión de las variables a una misma unidad de medición, es decir, su estandarización.

Por último, añadir que cuando la variable dependiente está expresada en lo­garitmos, los coeficientes se interpretan de una forma aproximada, en términos porcentuales. Nourisis (1986) lo ilustra con eí siguiente ejemplo: un coeficiente de regresión parcial de -,104 para la variable sexo, cuando las mujeres se codi­fican como 1, indica que los salarios (variable dependiente) de las mujeres se es­tima que sean cerca del 10% menos que el salario de los varones, después del ajuste estadístico para las otras variables independientes en el análisis.

• El coeficiente de regresión estandarizado (también referido como coeficiente be­ta) mide la variación en unidades de desviación típica de la variable dependiente por cada unidad de variación de la independiente, esta última también expre­sada en unidades de desviación típica. Para ello, cada puntuación “X ” se trans-

(X- — X -)forma en puntuaciones típicas: Z x¡ ------ ------ —■ , al igual que la variable Y:

{Y - Y )Z y - — ~----- , Después se procede a un nuevo cálculo de la ecuación de re-

Lj y

gresión, pero sin el intercepto (o constante). Las puntuaciones Z suponen des­viaciones respecto de la media, lo que implica su traducción al origen.

Los coeficientes beta se obtienen del producto de cada coeficiente “b” por el co­ciente entre la desviación típica de la variable independiente y la desviación típica

s Xide la variable dependiente: Py, x, ~ by.x,

En regresión simple, el valor del coeficiente beta coincide con el coeficien­te de correlación correspondiente (la relación entre las dos variables). En re­gresión múltiple, no. Su valor se ve afectado por la correlación existente entre la variable independiente respectiva con las demás predictoras incluidas en la ecuación. 1

A diferencia de los coeficientes “b”, los beta no deben ser mayores de 1, por­que son coeficientes estandarizados (con media cero y desviación típica uno). Si, alguna vez, se obtiene un coeficiente beta superior a 1, puede tomarse como in­dicio de la existencia de una importante colinealidad entre las variables.

Por último, insistir en que los coeficientes beta no se utilizan para predecir el valor de la variable dependiente, sino para comparar e inferir la importancia relativa de cada variable independiente en el modelo de regresión. La están-

Page 72: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

84 Análisis multivariable. Teoría y práctica en la investigación social

darización permite la comparabilidad directa de los distintos coeficientes de re­gresión, puede conocerse qué variable predice más el valor de la dependiente. Además, su valor también está afectado por la correlación existente entre las va­riables independientes en 1a ecuación, por lo que proporcionan una información más veraz del poder predictivo de cada variable independiente que el coeficiente de correlación y el de pendiente.

La importancia relativa de cada variable independiente puede igualmente com­probarse contrastando la variación, o incremento, del valor de R2, que provoca la in­corporación de dicha variable a la ecuación. .Para ello se resta el valor de R2 obtenido tras la incorporación de la variable del habido previo a la inclusión: es decir, R2 - R ^ , sien­do “R ^ n el cuadrado del coeficiente de correlación múltiple, cuando todas las variables exceptuando (“i”) se incorporan a la ecuación. La cantidad de cambio en el valor de R2 se interpreta como la proporción de información única aportada por la variable inde­pendiente correspondiente en la predicción de la variable dependiente.

La raíz cuadrada del aumento se conoce como el coeficiente de correlación parcial. Se define como la correlación existente entre una variable independiente y la variable dependiente cuando los efectos de las otras variables independientes se mantienen constantes. En caso de no existir correlación entre las variables independientes, el cam­bio en R2, cuando se introduce una nueva variable en la ecuación, es el cuadrado del coeficiente de correlación entre esa variable y la dependiente.

Si el coeficiente de correlación parcial de una variable se eleva al cuadrado, se obtiene cuánto supondría su incorporación al modelo de regresión en la proporción de va­rianza explicada de Y (R2). Concretamente, su valor expresa la proporción de la varianza no explicada que puede quedar explicada, si se incorpora la variable a la ecuación. Por ejemplo, si R2 = ,43 (que supone que queda un 57% de la varianza de Y sin explicar por las variables en la ecuación), un coeficiente de correlación parcial en una nueva variable de ,524 no significa que dicha variable explique el 52,4% de la varianza que previamente no ha quedado explicada. Si se eleva al cuadrado (,524z = ,275) se obtiene que el 27,5% del 57% de la varianza de Y no explicada puede quedar explicada si se incorpo­ra esa nueva variable a la ecuación. Su inclusión a la ecuación supone un aumento en por­centaje de varianza explicada de Y (R2) del 15,7%. Esta cantidad se obtiene de multi­plicar la proporción de varianza no explicada de Y por el cuadrado del coeficiente de correlación parcial de la variable: (1 - ,43) x ,275 = ,157.

Pero, únicamente se considera la incorporación (por muy pequeña que sea) de va­riables cuyo coeficiente de correlación parcial sea significativo estadísticamente. Su significatividad se mide mediante el estadístico “t” de Student, explicado en el su- bapartado 1.4.3.

1.4.2. El error típico de los coeficientes y los intervalos de confianza

En la evaluación de la importancia relativa de las variables independientes también ha de considerarse la variabilidad de los coeficientes de regresión estimados. Esta se mide me­

Page 73: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 85

diante el error típico (“standard error”), que constituye una medida de la variabilidad de las estimaciones de los coeficientes, a partir de la información extraída de una muestra.

El error típico dei coeficiente de regresión “b" (SEB) se define como la variación en ía estimación del valor del coeficiente de una a otra muestra (de iguales características) que pertenezcan a la misma población. Permite conocer la divergencia en las estimaciones de los coeficientes y equivale a 1a distribución de las estimaciones del coeficiente de re­gresión que resultaría, si se extrajesen repetidamente muestras, de un determinado ta­maño, de una misma población y, para cada una de ellas, se calculase el coeficiente de re­gresión, Como estos coeficientes estimados de muestras aleatorias varían de sus correspondientes valores poblacionales, el error mide, precisamente, cuál es esa variación. Esta información es imprescindible a efectos inferenciales (de los coeficientes estimados en una muestra a sus correspondientes parámetros poblacionales).

Eí cálculo del error típico de un coeficiente concreto (Sh ) se realiza mediante la si­guiente fórmula:

¡ X M - t y / i N - p - i )S , - K ; ----------1 ---------------

| I ( * , . - X ) 2( W )

Donde: “N" (o “n”) es el tamaño de 1a muestra.“p ,? el número de variables independientes en la ecuación.“rff la correlación múltiple cuadrada obtenida de la regresión de X\ en to­

das las otras variables independientes.

Cuanto más bajo sea su valor, mejor es la estimación del coeficiente “b”: menos va­riación habrá en muestras distintas de una misma población. Lo que repercute, ob­viamente, en su significatividad estadística. La obtención de errores típicos elevados sue­le ser, a decir de su fórmula, consecuencia de uno o varios de los aspectos siguientes:

a) Elevados errores de predicción de la variable dependiente,b) Elevada varianza de la variable independiente,c) Elevada correlación de la variable independiente correspondiente con otras va­

riables independientes (multicolineaUdad).d) Tamaño muestral bajo. Cuando no se cumplen los ratios número de casos por

variables predictoras a los que se hizo mención en el subapartado 1.1,1.e) Elevada correlación de la variable independiente con otras excluidas del mo­

delo.

A partir de error típico pueden calcularse los intervalos de confianza para cada coeficiente de regresión que haya mostrado ser significativo (subapartado 1.4,3), Pa­ra ello se multiplica el error por el valor teórico de “t” de Student, con “N - p - 1 ” gra­dos de libertad (siendo “p" eí número de variables predictoras en la ecuación de re­

Page 74: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

86 Análisis rnultivariable. Teoría y práctica en la investigación social

gresión), al nivel de probabilidad elegido. El nivel de significación más habitual es “a = ,05”. Adviértase que la distribución *‘t” se asemeja a la distribución normal cuanto más se aleja el tamaño muestral de 30 unidades.

Los intervalos de confianza para cada coeficiente de pendiente b se obtienen del mo­do siguiente;

Intervalo de confianza = b ± (i)(SE fí)

Donde “t” es el percentil 100 (l-et/2) de la distribución “t”, con KN - p - 1” grados de libertad. El límite inferior del intervalo viene dado por la diferencia del coeficiente estimado respecto al producto del valor “t” crítico y el error de estimación del coefi­ciente. El límite superior, en cambio, queda definido por la suma de dicho producto y el coeficiente de regresión. Para la constante, el intervalo de confianza se calcula del mismo modo y con los mismos grados de libertad:

Intervalo de confianza = a ± (J)(SEA)

El cálculo de los intervalos de confianza es preciso a efectos inferenciales. A par­tir de la estimación muestral de los coeficientes de regresión, el intervalo de confian­za, proporciona el rango de valores entre los que se halla dicho coeficiente en la po­blación. La inferencia se realiza a un nivel de significatividad determinado: el más usual (“a = ,05”) supone una probabilidad de acierto del 95% de que el parámetro pobla- cionaí esté incluido en el intervalo estimado.

1.4.3. La significatividad de los coeficientes de regresión

La contribución dé cada variable independiente al modelo de regresión se evalúa, primero, comprobando la significatividad estadística de cada coeficiente de regresión parcial por separado. El análisis de regresión se asienta en la teoría de la probabilidad, en las posibilidades de inferencia de los estadísticos calculados en una muestra a los co­rrespondientes parámetros poblacionales, lo que se refleja en la desestimación de cual­quier resultado que no satisfaga el requisito de la significatividad.

Por razones de coste económico y temporal, fundamentalmente, el investigador ra­ra vez recibe información de cada una de las unidades (personas, familias, viviendas, organizaciones...) que forman la población objeto de estudio, aunque ésta fuese de pe­queñas dimensiones. La práctica común es extraer una muestra del universo o pobla­ción de interés. Pero, si a partir de las estimaciones muéstrales se quiere inferir los co­rrespondientes parámetros poblacionales, la muestra ha de ser “representativa” de la población. Dicha “represe n latí vid a d ” está subordinada, esencialmente, al tamaño de la muestra y al procedimiento seguido en la selección de las unidades muéstrales. El tamaño de la muestra determina la probabilidad de tener estadísticos significativos,

Page 75: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 87

el procedimiento de selección, las posibilidades de generalización de los hallazgos del estudio. Para ello es imperativo que en la selección de la muestra se siga un procedi­miento aleatorio, que dé a cada unidad de la población la misma probabilidad de par­ticipar en la muestra. El azar permite la equiparación de la muestra a la población, la inclusión de toda la variedad de sus componentes.

Respecto a la significatividad estadística, rutinariamente se procede a su com­probación en todo estadístico calculado con datos muéstrales. Para ello se hace uso de los supuestos de la Estadística Inferencial: la prueba de hipótesis y la estimación de los parámetros poblacionales. En concreto, la evaluación de la significatividad de los coeficientes de pendiente (b ) comienza con la definición de una hipótesis nula (/70), so­bre un valor del parámetro poblacional ($). En la generalidad de las situaciones la hi­pótesis nula se formula en los siguientes términos: /3¿ -■ 0. De aceptarse, supondría la no significatividad estadística del coeficiente estimado, dado que el valor de dicho coeficiente siempre difiere de cero.

La hipótesis nula se contrasta con la hipótesis alternativa de que coeficiente de re­gresión es diferente de cero (H{, $ t- 0). Ésta es la hipótesis que el investigador espera corroborar con sus datos. Supone la significatividad estadística de los coeficientes es­timados, que siempre serán diferentes de cero, lo que significa que la variable inde­pendiente respectiva se halla linealmente relacionada con la dependiente. En cambio, un ¿0 = 0 indica ia independencia de ambas variables: el valor medio de la variable de­pendiente no cambia conforme lo hace la independiente.

El contraste de hipótesis siempre se realiza a un nivel de significación que el in­vestigador escoge. El más aplicado (“a = ,05”) supone una probabilidad de acierto del 95% o, lo que es igual, una probabilidad máxima del 5% de equivocarse al rechazar la

cuando ésta realmente es cierta. Otro nivel de significación muy usual es “a ~ ,01”, que conlleva una menor probabilidad de equivocación. Se reduce al 1%. Pese a ello, es­te último nivel de significación es menos aplicado que el anterior, al ser más restrictivo. Exige un valor “t” empírico superior para que el coeficiente estimado resulte signifi­cativo a una probabilidad de acierto del 99%. Esto puede provocar la desestimación, co­mo significativos, de coeficientes que se encuentren entre ambos niveles de significación. Por ejemplo, para 60 grados de libertad, a un nivel de significación a = ,05, el valor “t” teórico es 2,000; para un a ,01 el valor “t” teórico aumenta a 2,660, lo que supone un incremento apreciable en el valor mínimo para que la “t” empírica (la obtenida en la muestra analizada) sea significativa, y pueda inferirse a la población el coeficiente es­timado correspondiente. Como lo habitual es que el tamaño muestral supere los 100 ca­sos como mínimo, la distribución “t” se aproxima a ia normal (“z’% coincidiendo sus res­pectivos valores teóricos. Para un a = ,05 el valor “t ” teórico es 1,96; para un a ~ ,01, el valor “t” se eleva a 2,576.

La prueba de significación estadística consiste en comprobar si el valor “t” empí­rico se ubica dentro de la zona de aceptación de H 0. Esta zona queda definida por el correspondiente valor “t” teórico o crítico, que figura en ía tabla de la distribución “t” de Student, para una prueba bilateral (al incluirse tanto valores positivos como negati­vos), al nivel de significación elegido y para unos grados de libertad igual a “N - p - 1 ”.

Page 76: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

88 Análisis multivariable. Teoría y práctica en la investigación social

El valor “t” empírico, necesario para el contraste de hipótesis, se obtiene de ía división de cada coeficiente por su error:

Donde: “b ” es el valor estimado del coeficiente de pendiente o de regresión parcial,

‘73/’ el correspondiente coeficiente de pendiente en la población, bajo la hipótesis nula formulada: H0; /?¿ = 0.

“Sb ” el error típico estimado de “b/ ’.

Cuando la variable independiente es ficticia, la razón “t” para cada coeficiente b equivale a 1a razón “t” para ía diferencia entre la media del grupo codificado 1 y la me­dia del “grupo de referencia” (codificado 0), que actúa a modo de grupo de control.

En la salida de ordenador suele figurar los valores de la razón “t”, junto al coefi­ciente de regresión y su nivel de significación. Este ultimo ha de ser, al menos “<,05” para que sea significativa la “t” empírica y sea inferible el correspondiente coeficiente de regresión. En caso afirmativo, se procede al cálculo de los intervalos de confianza a modo de lo expuesto en el subapartado 1.4.2.

La significatividad deí intercepto (o constante) también puede comprobarse me­diante ía razón “t”, del mismo modo que el coeficiente de pendiente. La hipótesis nu­la se formula, igualmente, en términos de independencia: el valor del intercepto en la población es igual a cero (H0 : a - 0); frente a la alternativa que lo contradice. La “t” empírica se obtiene del cociente entre eí intercepto y su error de estimación (Sa):

a —at = -------

S.

Pero, a diferencia de los coeficientes de pendiente, los paquetes estadísticos no siempre proporcionan información referida a la prueba de hipótesis del intercepto es­timado en la muestra. Por último, se indica que eí cuadrado del estadístico “t” equivale al estadístico “F ”, con “p” y “N - p - 1 ” grados de libertad, lo que permite su uso al­ternativo para dicho contraste de hipótesis.

■: tZJEfolPLO DE ECUACIÓN DÉ REGRESIÓN.MÚLTIPLE

Tras realizar un procedimiento secuenciaI (o por “pasos”) de selección de variables pre­dictoras, que se describe en el subapartado 1.6.1, se obtiene el siguiente modelo de regre­sión, a partir de las variables consideradas. De fas 14 variables que ¡niciaimente se creia po­drían ayudar a la predicción de la variable dependiente (“simpatía hacia los noríeafricanos

Page 77: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltipla 89

[marroquíes, etc.]1’), só!o 6 muestran poder predictivo significativo. Especialmente, ¡as va­riables X5 (“simpatía hacia latinoamericanos”) y X10 (“casar con marroquí”), que son las dos variables que más varianza de Y logran explicar. La tabla A incluye los coeficientes estan­darizados y no estandarizados de las variables que conforman el modelo de regresión, jun­to a su significatividad.

Tabla A

Modelo de regresiónCoeficientes no estandarizados

Coeficientesestandarizados r Sig.

Intervalo de confianza para B al 95%

B Errortípico

Beta Limiteinferior

Límitesuperior

(Constante) 3,786 ,400 3,458 ,000 3,001 4,571Xs simpatía latinoamericano ,558 ,026 ,460 21,429 ,000 ,507 ,610X10 casar con marroquí ~,698 ,068 -.258 -10,281 ,000 -,832 -,565X, leyes inmigración ,261 ,058 ,099 4,527 ,000 ,148 ,374Xg número de inmigrantes -.356 ,095 -,082 -3,751 ,000 -,543 -.170X13 vecino marroquí -,348 ,101 -,086 -3,443 ,001 —,546 -,150X3 sexo -,265 ,110 -,049 -2,414 ,016 -,481 -,050

Primero figuran los coeficientes no estandarizados. Con ellos se confecciona la ecuación de regresión, que permite predecir el valor de la variable dependiente (en cada caso concreto) en función de unos valores concretos en las variables independientes que han mosírado re­levancia en la predicción de Y. La ecuación de regresión es la siguiente:

Y = 3,786 + ,558X5 - ,698X10 + ,261X, - ,356X6 - ,348X13 - ,265XS

® 3,786 es la constante o intercepto: el punto del hiperpiano que intercepta eí eje Y. Su valor denota el valor promedio de Y cuando el valor de las variables independientes es ce­ro. A veces, el valor de la constante no tiene interpretación directa. Sobre todo, cuando el va­lor es negativo. En esta ecuación, la constante tiene un valor positivo y podría interpretarse. En una escala de 0 (ninguna simpatía) a 10 (mucha simpatía), 3,786 es la simpatía prome­dio hacia ios norteafricanos (marroquíes...), cuando el encuestado manifiesta que no siente ninguna simpatía hacia los latinoamericanos (X5); no le preocupa que un hijo o hija suyo se case con un ciudadano de Marruecos (u otro país norteafricano) (X10); piensa que las leyes que regulan la entrada y permanencia de extranjeros en España son demasiado tolerantes (X,); le parece que son pocas las personas procedentes de otros países que viven en España (X6); no le preocupa tener como vecinos a una familia de ciudadanos de Marruecos u otro país norteafricano (X13); y es mujer (X3).

® Los coeficientes de pendiente parcial (que separan el efecto de cada variable inde­pendiente en la dependiente del resto) expresan el cambio promedio en la variable depen­diente para cada unidad de cambio en la variable dependiente respectiva, manteniéndose las demás variables independientes constantes. El valor promedio de Y aumenta cuando las va­riables X5 y X, se incrementan en una unidad. Ambas variables se hallan positivamente re­lacionadas con la variable dependiente. ES aumento en una unidad en ta escaía de 0 a 10 de

Page 78: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

90 Análisis multimríable. Teoría y práctica en la investigación social

“simpatía hacia latinoamericanos” provoca, a su vez, un aumento, aunque en menor cuantía, en la “simpatía hacia los norteafricanos". El incremento es de ,558. El valor promedio de Y también aumenta, aunque en una cantidad inferior (,261), conforme las leyes que regulan la entrada y permanencia de extranjeros en España pasan a percibirse como “duras” o “into­lerantes”. Recuérdese que los valores de esta variable van de 1 (demasiado tolerantes) a 5 (demasiado duras).

E! valor promedio de Y disminuye, en cambio, conforme aumentan los valores de las va­riables X10, Xe, X13 y X3. Estas cuatro variables están negativamente relacionadas con Y. La simpatía hacia los norteafricanos (Y) disminuye, situándose por debajo de su valor promedio (3,786, obtenido cuando las independientes son cero), al aumentar dichas variables en una unidad. La disminución en el valor de Y es de ,698, conforme aumenta la preocupación por un futuro casamiento con un marroquí (X10), manteniéndose las demás variables cons­tantes; de ,358, al aumentar la percepción sobre el número de inmigrantes como demasia­dos (X6); de ,348, si aumenta ia preocupación por tener como vecinos a una familia de ciu­dadanos de Marruecos (X13); y de ,265, si el individuo es varón.

Comparando estos coeficientes de regresión parcial con los coeficientes de correlación de cada una de las variables independientes con Y (matriz de correlaciones: subapartado 1.3.2), puede observarse que los signos de ambos coeficientes coinciden, pero no su valor. Los coeficientes de correlación se calculan para cada variable por separado, mientras que los coeficientes de regresión parcial para cada variable se ven afectados por la relación de dicha variable con las demás incluidas en la ecuación de regresión.

E! cálculo de la ecuación de regresión cumple una finalidad eminentemente predictiva. Se quiere predecir el valor de la variable dependiente en función de qué valores se presen­ten en una serie de variables independientes. Por ejemplo, una persona que reúna las ca­racterísticas siguientes:

- Manifieste una simpatía hacia los latinoamericanos (X5) de 7 en una escala de 0 (“nin­guna simpatía”) a 10 ("mucha simpatía").

- Le preocupa “bastante” (3) que un hijo o hija suya se case con un ciudadano de Ma­rruecos u otro país norteafricano (X10).

- Considera que las leyes que regulan la entrada y permanencia de extranjeros en Es­paña (X.) son “correctas” (3).

- Piensa que son “bastante, pero no demasiados” (2) las personas de otros países que viven en España (X6).

- Le preocupa “bastante" (3) tener como vecino a una familia de ciudadanos de Ma­rruecos u otro país norteafricano (X13),

--- Es varón (1) (X3).

Para una persona con estas características puede predecirse que su “simpatía hacia los norteafricanos” es:

Y= 3,786 + (,5S8)(7) + (-,698)(3) + (,261 )(3) + (-,356) (2) + (-,348)(3) + (-2 6 5 )0 ) = 4,36

Pero, como los coeficientes de regresión son estimaciones a partir de datos muéstrales, la predicción de Y (“simpatía hacia norteafricano”) nunca puede ser exacta. Hay que añadir el error de predicción (o error típico de la estimación a partir de las variables independientes incorporadas al modelo predictivo). Éste, como se expone en ei subapartado 1.5.2, es una me-

Page 79: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 9l

dtda de ia adecuación del modelo de regresión en la predicción de Y. Cuanto más se apro­ximen los valores de Y observados en fa muestra con los estimados por eí modelo de re­gresión, menor es eí error de predicción, lo que se traduce en una mayor precisión en ta es­timación de) valor promedio de Y. Como se verá en el susodicho subapartado, el error típico üe ia estimación en este modelo de regresión múltiple es 1,9595. Un valor pequeño en magnitud, que no significa necesariamente que el error de predicción sea pequeño. Para sa­ber si el error es elevado o bajo hay que analizarlo respecto a la variabilidad de Y, como se detalla en dicho subapartado. Aquí soto se avanza que, aunque la cuantía de error sea 1,9595, el error de predicción es elevado, a decir por la amplitud del intervalo en ia predicción de Y. De acuerdo con el modelo obtenido, para un nivel de significación de ,05 (que significa que hay un 5% de probabilidad de equivocarnos en la inferencia o, !o que es igual, la probabilidad de acierto es del 95%), ia “simpatía hacia los norteafricanos” de una persona que reúna las características señaladas es un valor comprendido en el intervalo que va de 0,519 a 8,201. Este intervalo es demasiado amplio e indica que el ajuste de los puntos al hiperplano no ha sido perfecto. La correspondencia entre ios valores observados de Y y ¡os estimados no se alcanza en algo más de ía mitad de los casos, como se verá en el apartado 1.5. El inten/a- io de confianza se ha obtenido restando (límite superior) y sumando (límite superior) al va­lor de Y estimado (9 - 4,36) el producto del error típico de la estimación (1,9595) y el valor teórico de t para e! nivel de significación escogido (,05) y sus grados de libertad correspon­dientes (N - p -1 ). Como el tamaño muestral es muy elevado, la distribución f de Student se apro­xima a la distribución normal, siendo el valor f teórico correspondiente 1,96.

* Además de los coeficientes de regresión, en la tabla A de resultados figuran ios erro­res típicos de cada uno de los coeficientes no estandarizados estimados. Estos errores ex­presan la variabilidad de dichos coeficientes si, en vez de ésta, se hubiesen analizados otras muestras del mismo tamaño extraídas de ia misma población. Como ei tamaño muestral es muy elevado (bastante superior a los ratios mínimos exigidos), y la multicolinealidad de las variables incluidas en la ecuación baja, al igual que sus varianzas, es de prever bajos erro­res típicos de ¡os coeficientes de regresión.

A diferencia del error de estimación de Y, ios errores típicos de los coeficientes son ba­jos, a excepción del correspondiente a la constante (que es ei más elevado: ,400). Existe po­ca variabilidad en los coeficientes estimados. De ¡os coeficientes de pendiente, b5 (,558) es el que presenta un menor error típico (,026) y b3 (,265) el mayor (,110), (o que se traduce en un intervalo de confianza más amplio a efectos de inferencia estadística.

• Las posibilidades de inferencia de los coeficientes estimados en ia muestra depende de su significatividad. Como se dijo en el subapartado 1.4.3, la significatividad de los coefi­cientes de regresión se comprueba mediante el contraste de hipótesis t de Student. Se com­paran (os valores í empíricos con la f teórica (o crítica) para “N - p - 1 ” grados de libertad, a un nivel de significación determinado. Los valores f empíricos se obtienen de dividir el coe­ficiente por su error típico. Por ejemplo, para X13: “t = -,348 / ,101 = -3,44”; igual para la cons­tante: 3,786 /,4Q0 = 9,46.

Como todos ios valores t empíricos superan el correspondiente valor t crítico (1,96, para un nivei de significación de ,05), se rechaza la hipótesis nula. Esto significa que todos ¡os coefí-

0,519

8,201

Page 80: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

92 Análisis multivariable. Teoría y práctica en la investigación social

cientes son significativos estadísticamente y, en consecuencia, inferibles a la población a la que pertenece ia muestra analizada. En la tabla A puede verse que la significatividad es plena. Sal­vo en la variable “sexo" (que es significativa a un nivel de ,05), los demás coeficientes, incluyendo ¡a constante, lo son a un nivel de ,01: la f empírica supera el valor teórico para ce =,01 (2,576).

A! ser todos los coeficientes significativos, se calculan los intervalos de confianza. En la tabla A figuran los límites inferiores y superiores de! intervalo de confianza para la inferencia de cada coeficiente a un nivel de confianza del 95%, que equivale a un nivel de significación o probabilidad de equivocarnos en la inferencia (de rechazar la hipótesis nula cuando real- mente es cierta) del 5%. Por ejemplo, para la variable Xg, hay un 95% de probabilidad de que su coeficiente de regresión parcial en la población sea un valor comprendido en el intervalo que va de ,507 (.558 - [1,96][,0261) a ,610 (,558 + [1,96][,026j). La estimación muestral es, exactamente, ,558. En consecuencia, el intervalo no es muy amplio. En Sas otras variables las oscilaciones son mayores.

® Los coeficientes de regresión parciales (no estandarizados) son de utilidad en la pre­dicción del valor promedio de Y. Si quiere conocerse la importancia relativa de cada variable independiente en la predicción de Y hay que acudir a coeficientes estandarizados o coefi­cientes beta. Los coeficientes no estandarizados se ven afectados por la unidad de medición de la variable, lo que dificulta la comparación entre ellos. Para ello hay que proceder a su es­tandarización, multiplicando cada coeficiente de pendiente (“b”) por el cociente de la desviación típica de la variable independiente y la desviación típica de la variable dependiente. Por ejem­plo, para X5 el coeficiente beta {"/?’) es igual a: ",558 - 2,2478/2,7276 = ,460”. Las desviaciones típicas de todas las variables analizadas se incluyen en el subapartado 1.3.2.

Los coeficientes beta se calculan para todas las variables independientes, pero no para la . constante porque las puntuaciones Z suponen desviaciones respecto de la media, lo que im­plica su traducción al origen. Su valor se ve afectado, al igual que los coeficientes no estan­darizados (“b”), por la correlación existente entre la variable independíente correspondiente y las demás independientes en la ecuación. Pero, a! estar todos los valores expresados en la mis­ma unidad de medición (unidades de desviación típica), permiten la comparación entre ellos y conocer qué variable independiente contribuye más a la predicción de Y. Ésta es su utilidad prin­cipal (la “comparación” de los efectos de cada variable predictora) y no la predicción de Y.

A diferencia de ios coeficientes “b”, los “j9’ han de tener un valor entre 0 y ±1. Todo valor su­perior a 1 indica la existencia de multicolineaUdad. El mayor coeficiente (i corresponde a Xs (,460). Precisamente, ésta es la variable independiente más correlacionada con Y (r = ,593). Le sigue en importancia X10 (-,258), la segunda más correlacionada con Y (r = -,476). X3 es, en cambio, ia variable de menor coeficiente fí (—049) y, a su vez, la menos correlacionada conY (r = -,050). Estas correlaciones figuran en la matriz de correlaciones (subapartado 1.3.2).

Pero, aunque en estas tres variables la correspondencia entre los coeficientes y ios de correlación sea cierta, no lo es en todas las variables. X13 es la cuarta variable independiente con mayor coeficiente /? (-,086), pero la tercera más correlacionada con Y (r = -,396). De la comparación de los coeficientes ¡} con ios coeficientes de correlación (en la matriz de co­rrelaciones), puede concluirse que la correlación bivariada con la variable dependiente no de­termina !a inclusión de la variable independiente en la ecuación de regresión. La variable X3 ("sexo”), por ejemplo, es de las 14 variables la menos correlacionada con Y, si bien logra ser incluida en la ecuación de regresión. En cambio, variables más correlacionadas con Y, como X7 (r - ,281) o X s {r = -,294) han quedado excluidas del modelo. La explicación a su exclu­sión está en la correlación que estas variables tienen con variables previamente incluidas en la ecuación de regresión, ai mostrar mayor poder predictivo de Y.

Page 81: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Captada 1: Regresión múltiple 93

° Del producto de los coeficientes beta y los coeficientes de correlación se extrae el por­centaje de varianza de Y que cada variable independiente logra explicar. En concreto, Sa con­tribución de cada variable independiente en la predicción del valor medio de Y. Ésta se mues­tra en ia tabla B.

Tabla B

Variables r P rx j3

,593 ,460 ,2728

^10 -476 -,258 ,1228,302 ,099 ,0299

*6 -,297 ",082 ,0243-,396 -.086 ,0341

x3 -,050 -,049 ,0025

48,64% es el porcentaje de varianza de Y que logra explicar eí modelo de regresión in­tegrado por estas seis variables independientes. X5 es la variable independiente que mayor proporción de varianza explica (27,28%), seguida por X10 (12,28%). Sólo estas dos variables predictoras explican ei 39,56% de la varianza de Y. Las cuatro variables restantes apenas con­tribuyen en la predicción de Y. X13 es la tercera variable predictora en importancia, pero a dis­tancia de las anteriores (explica el 3,41% de la varianza de Y); X.,, la cuarta, a! explicar el 2,99%. La variable “sexo" (X3) apenas es relevante en la predicción de Y: no logra explicar ni un 1% de su variabilidad (exactamente, el 0,25%). Aunque exista una mayor predisposi­ción en los varones a manifestar una menor simpatía hacia ios norteafricanos que en !as mu­jeres, ei conocimiento de la variable “seto” apenas es de utilidad para predecir Y. Respecto a la variable “simpatía norteafricanos” las diferencias por género son casi inapreciables, lo que puede llevar a reconsidererar su inclusión en el modelo de regresión.

• Al ser los coeficientes beta los que mejor representan la contribución de cada variable independiente en la predicción de Y, éstos son los coeficientes que normalmente se utilizan en la representación gráfica del modelo de regresión. En este modelo, como no se ha incluido ningún término de interacción, su representación gráfica es la siguiente:

Page 82: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

94 Análisis mitltívariable. Teoría y práctica en la investigación social

* Las otras ocho variables independientes analizadas han quedado excluidas del modelo de regresión. Ninguna de ellas presenta un coeficiente de regresión significativo, como puede verse en la tabla C. La signifícatividad de ios coeficientes supera el valor de referen­cia habitual de ,05, al ser los valores f empíricos inferiores a 1,96.

Además de la significatividad y el valor f, en la tabla se incluyen los coeficientes befa den­tro y de correlación pardal. Beta dentro es el coeficiente de regresión estandarizado que tendría la variable si se incorporase ai modelo de regresión. Todos elios son valores muy ba­jos, En cambio, el coeficiente de correlación parcial expresa la correlación de cada variable in­dependiente con ia dependiente, cuando los efectos de las otras variables independientes se mantienen constantes. Elevando su valor al cuadrado, se obtiene la proporción de varianza de la “no explicada" de Y por el modelo de regresión (51,36%) que quedaría explicada si dicha va­riable independiente se incluyese en eí modelo. Por ejemplo, X7 es la variable que mayor coe­ficiente de correlación parcial tiene (,051). Este coeficiente no significa que dicha variable (“re­gularizar a inmigrantes”) explique e! 5,1% de la varianza “sin explicar" de Y. Para conocer realmente qué proporción de varianza explica, hay que elevar dicho coeficiente al cuadrado: ,0512 = ,0026, Ei 0,26% del 51,36% de la varianza “no explicada” de Y sería explicada incor­porando la variable X7 ai modelo de regresión. Exactamente, “,5136 x ,0026 = ,0013”, una pro­porción de varianza totalmente insignificante. X7, al igual que las otras siete variables, no apor­ta nada a la predicción de Y. Su conocimiento no ayuda a reducir el error de predicción de Y.

Tabla C

Variables excluidas del modelo de regresión

Beta dentro t Sig. Correlaciónparcial

X2 ideología política -.018 -8 6 8 ,386 -,024X4 edad ,009 ,430 ,668 ,012X7 regularizar inmigrantes ,040 1,820 ,069 ,051Xa entrada Inmigrantes -.028 -1,233 ,218 -0 3 5X3 partido racista -,001 -0 4 7 ,963 -.001X n estudios ,012 ,586 ,558 ,016X t2 ingresos -,021 -1,026 ,305 -.029X 14 inmigrante delincuente -,038 -1,741 ,082 -,049

1.5. La evaluación del modelo

La evaluación del modelo de regresión incluye distintos aspectos relacionados con el ajuste del modelo y su significatividad (estadística y lógico-sustantiva). También se analizan los casos “atípleos”, aquellos que no han logrado explicarse con el modelo pre- dictivo obtenido.

1.5.1. E l ajuste del m odelo de regresión

Estimada la ecuación de regresión, interesa conocer lo bien que el modelo obte­nido logra predecir la variabilidad de la variable dependiente. Esto puede saberse, prí-

Page 83: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 95

mero, con la ayuda de gráficos, en los cuales se trata de comprobar lo bien que la nu­be de puntos se “ajusta” a la recta o plano de regresión. A estos gráficos se ha hecho referencia en páginas anteriores.

Pero, aunque los gráficos ayudan a visualizar el “ajuste”, la distancia que separa los puntos de la recta (o plano) se mide, de forma más precisa, mediante el coeficiente de correlación múltiple cuadrado (Rz). Éste constituye una medida de proximidad rela­tiva, empleada en el análisis de regresión para evaluar la bondad de ajuste del modelo. La proximidad se mide como ía proporción de varianza de ia variable dependiente que queda explicada por la recta (o plano) de regresión.

“i?2” también se refiere como coeficiente de determinación. Su valor expresa la pro­porción de variación total de la variable dependiente que es “determinada” o explicada por las variables independientes que conforman la ecuación de regresión. El rango de valores posibles va de 0,0 a 1,0. Un valor de R2 ~ 1,0 indica que el modelo de regresión logra explicar completamente la varianza de la variable dependiente. Esta situación se produce cuando todos los puntos caen en la recta (o plano) de regresión. En cambio, un R2 = 0,0 denota que ei modelo de regresión carece de poder predictivo. Ningún pun­to coincide con la recta de regresión. Ambas situaciones son, no obstante, difíciles de encontrar en la práctica investigadora. Tan improbable es obtener una ecuación de re­gresión que logre explicar toda la variabilidad de la variable dependiente, como con­seguir una que no explique nada. Lo habitual son valores intermedios.

El coeficiente de determinación es el cuadrado del coeficiente de correlación R. Es­te último expresa el grado en que la variación de la variable dependiente se halla re­lacionada con las variaciones, simultáneas, de las variables independientes en la ecua­ción. Cuando se considera sólo una variable independiente, el valor de “R ” figura acompañado de un signo (“+”, Éste informa si ambas variables se mueven en la misma dirección (signo positivo) o en direcciones contrarias (signo negativo) -como se expuso en los subapartados 1.3.2 y 1.4.1-.

Cuando se analiza la relación de dependencia con dos o más variables indepen­dientes, el valor del coeficiente de correlación R múltiple aparece sin signo (ni positi­vo ni negativo). Ello se debe a que se analiza, conjuntamente, la influencia de la serie de variables independientes en la dependiente. Lo normal es que no coincida la di­rección de la relación de cada variable independiente con la dependiente. Por eso, al analizarse su influencia conjunta, el signo se anula. El coeficiente R múltiple sólo indica el grado de correlación entre las variables afectadas, pero no la dirección de la relación entre ellas. Esta última información la proporciona los coeficientes de pendiente y los coeficientes de correlación bivariable (en la matriz de correlaciones).

La variación total de la variable dependiente (o suma total de cuadrados, TSS) con­sidera ias desviaciones de la variable dependiente observada en cada uno de los casos

N __

de la muestra (i - 1 ,2 ,3...N) respecto de la media de Y: (Y¡ - Y ) 1. Su valor es igual<=t

a la suma de dos partes; una, ía variación que queda explicada por la ecuación de re­gresión (o suma de cuadrados de regresión, RSS), que mide la desviación de cada va-

Page 84: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

96 Anàlisi? multivariable. Teoría y práctica en la investigación social

A' __

lor estimado de Y respecto de la media de Y: ^ (F¡ - Y )2; dos, la variación residual,<=i

ía que queda sin explicar por la ecuación (o suma de cuadrados residual, ESS), que con­sidera la desviación de cada valor observado de Y respecto ai predícho por el mode-

N

ío de regresión obtenido: ^ l(X¡ " ^¡Y -;=1

El coeficiente de determinación R2 múltiple, como medida de bondad de ajuste del modelo de regresión, se obtiene deí cociente entre la suma de cuadrados de regresión (RSS), la variación que queda explicada, y la variación total (TSS). Cuanto mayor es RSS respecto a TSS, mejor es el ajuste del modelo. El valor de R2 se halla muy próximo a 1,0. Los valores observados de Y coinciden con los predichos (Y¡). Los puntos se si­túan todos alineados en el plano de regresión. En caso contrario, su valor se aproxima a 0,0; los residuos (Ei = Y ¡- Y,') son muy elevados, siendo el ajuste extremadamente ma­lo. El conocimiento de las variables independientes no ayuda a la predicción de Y, aí ser variables totalmente independientes unas de otras. En este caso, el plano de re­gresión no ajusta los valores de Y mejor que su media.

N

RSSTSS = RSS + ESS

El valor de R2 se toma como medida de reducción proporcional en el estadístico de error. Mide la proporción (o porcentaje, si se multiplica por 100) en que el mode­lo de regresión reduce el error de predicción de Y, relacionado con predecir ía media de ía variable dependiente (Y ), Por ejemplo, un valor de R2 múltiple igual a ,613 sig­nifica que el 61,3% de la variación (sobre la media) en la variable dependiente es ex­plicada por la variación en las variables independientes, que conforman el modelo de regresión, sobre sus medias respectivas. El conocimiento de los valores de las variables independientes logra reducir en un 61,3% el error de predicción de la variable de­pendiente.

Un valor de R2 próximo a 0,0 no siempre se debe a la inexistencia de relación en­tre las variables independientes con la dependiente; también puede ocurrir que no se hayan incluido variables predictoras relevantes en el modelo. Berry y Feldman (1985) destacan otros dos factores como contribuyentes a una baja varianza explicada de Y:

a) Un elevado error de medición en las variables.b) Fallos en la especificación de la forma funcional de la ecuación de regresión.

Relacionado con esto, señalan dos limitaciones importantes de R2 como medida de bondad de ajuste (Berry y Feldman, 1985:15).

Page 85: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo l: Regresión múltiple 97

a) Su valor se halla determinado por la muestra analizada: las regresiones llevadas a cabo en dos muestras diferentes pueden producir idénticos coeficientes de pendiente parcial pero, en cambio, sus respectivos R2 pueden diferir considerablemente de una a otra muestra. Ello se debe a diferencias en la varianza de Y en las muestras.

b) El empleo de R 2 puede ser engañoso, si se intenta comparar la bondad de ajus­te relativa de diferentes modelos de regresión con un número distinto de va­riables independientes. La razón está en. que el valor de R2 siempre tiende a au­mentar (aunque sea poco) cuando se añaden nuevas variables a la ecuación, incluso cuando éstas apenas tienen efecto en la variable dependiente. De hecho, cuando el número de variables independientes (p) se aproxima al número de ca­sos de la muestra (N), el valor de R2 se aproxima a 1,0.

Para obviar esta última limitación, se introduce un ajuste en R 2 que corrige la so­breestimación de R2, cuando no se mantienen las debidas proporciones de número de casos por variables predictoras. El R2 ajustado (R2, también referido R2) queda defi­nido de la siguiente forma:

r I =N - p - 1

Donde: “R 2” es el coeficiente de determinación múltiple.“p” el número de variables independientes o predictoras.“N” (o “n”) el tamaño de la muestra analizada.

El valor de R2 generalmente coincide con el correspondiente a R2, salvo cuando el tamaño de la muestra es insuficiente en relación con las variables independientes en el análisis. Al menos debe haber 20, e incluso 10 casos por variable predictora (véase subapartado 1.1.1). Cuando se está próximo a estos límites mínimos, ei valor de R2 es inferior a R2. Tanto más, cuanto menor es la proporción de casos por variables pre­dictoras. Además, el valor de R 2 disminuye conforme se añaden variables indepen­dientes a la ecuación de regresión, a diferencia de R2, que siempre aumenta (aunque sea poco). Esta disminución en el valor de R2 responde a la ya referida merma en la proporción de casos por variable independiente que se precisa para la adecuada rea­lización de los análisis {R2 puede incluso tomar valores negativos).

Además de cumplir esta finalidad de “ajuste”, R2 es de utilidad en la comparación de modelos de regresión estimados en muestras diferentes y con diversas variables pre­dictoras.

1.5.2. El error de predicción

Otro estadístico de utilidad en la comprobación de la bondad de ajuste del modelo de regresión es el error típico de la estimación de Y (también denominado Se o a). És­

Page 86: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

98 Análisis rnultivariable. Teoría y práctica en la investigación social

ta es una medida de la adecuación dei modelo para la predicción de Y. Se define a par-•«

: la suma de las des-tir de la suma de errores cuadrados de regresión ^ (Y¡ ~ Y,)2

viaciones de cada valor Y observado respecto a su correspondiente valor predicho (Y¡) mediante la ecuación de regresión. Cuanto mayor es la distancia entre ambos valores, mayor es eí error de predicción.

Se = iN - p - 1

El error de predicción depende de la confluencia de varios factores. Principalmente, Jas variables independientes que se hayan incluido o excluido del modelo, y de la co­rrelación que exista entre ellas. Su valor aumenta conforme se incrementa la corre­lación entre las variables independientes, ya sea con otras incluidas en el modelo (co- linealidad), ya con aquellas que han quedado excluidas. El error de predicción se ve muy afectado por la exclusión de variables predictoras relevantes y, en general, por una incorrecta especificación de la relación entre las variables.

El conocimiento deí error de predicción (el error promedio en la predicción de la variable dependiente) interviene a efectos inferencíaíes: inferir, a partir del modelo de regresión, el valor de la variable dependiente en la población de interés. La inferencia se realiza en términos de probabilidad, la cual determina, junto al error, ta amplitud del intervalo de confianza para la predicción de Y. También afecta el tamaño de la mues­tra empleada en la estimación de los coeficientes de regresión, además del número de variables independientes utilizadas en la predicción de Y:

Intervalo de confianza = Y, ± (t x Se)

Donde “t” es el percentil “100(1-0/2)” de la distribución “t” de Student con “N - p - 1 ” grados de libertad. El valor de la variable dependiente estimado (Y;) se inter­preta como una estimación de la media de Y en las “p” variables independientes.

1.5.3. L a significatividad del modelo

Una vez estimado el error de predicción del modelo, corresponde la comprobación de su significatividad. En el subapartado 1.4.3 se trató la significatividad de los coeficien­tes de regresión estimados por separado (mediante la razón “t” de Student). Ahora se trata de comprobar si el efecto conjunto de todas las variables independientes que han mostrado ser relevantes en ia predicción de Y difiere significativamente de cero o no. La hipótesis nula adopta la siguiente formulación: “/ / 0; pl = fí2 = jU3 =... = j3 = 0”, ia

Page 87: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 99

media de Y es tan adecuada en la predicción de Y como el modelo de regresión. La hi­pótesis alternativa se formula, en cambio, en términos de desigualdad: ''//{, (i> = fl2 ~= ... - 0”. No se comprueba sí cada uno de los coeficientes “b” (se excluye el in­tercepto, “a”) es, individualmente, igual o diferente de cero, sino si tomados en conjunto son simultáneamente iguales (Hti) o diferentes de cero como dice el modelo esti­mado. El rechazo de la hipótesis nula, al nivel de significación elegido, supone la co­rroboración del modelo. Este es estadísticamente significativo. Después, habrá que comprobar si lo es, igualmente, desde la vertiente lógico-sustantivo, si tiene un significado lógico y se adecúa al modelo teórico tomado de referente.

La comprobación de la significatividad del modelo en su conjunto se realiza me­diante la razón “F”. Ésta se define como la razón (o cociente) entre varianza explicada de Y por el modelo de regresión y la varianza residual:

p R2/ p __ RSS/G.L. Regresión(1 - R 2) ¡ ( N - p - 1) ~ ESS/G.L. Residual

Los grados de libertad (g.l.) de regresión son iguales a “p” (número de variables in­dependientes en ei modelo); y g.l. residual a “N - p - 1 ”. Todos estos valores se incluyen en ia tabla ANOVA (análisis de varianza) en el análisis de regresión múltiple:

Fuente de variación

Suma de cuadrados

Grados de libertad

Mediacuadrática

Razón“F”

Significatividad“F”

Regresión

Residual

Total

/-i

í-1

£ c r ,- F )a¡=t

P

N - p - 1

N - 1

R S S / p

ESS / N - p - 1

TSS / N - 1

RSS/p

.......... *.................—Contraste de los valores "F” empí­rico y teórico, con p y N-p-1 grados de libertad a un nivel de significa­ción determinado

E S S / N - p - 1

El modelo de regresión adquiere significatividad estadística cuando la razón “F” em­pírica supera a la teórica a un nivel de significación concreto, usualmente, “,05”, que sig­nifica una probabilidad de acierto al rechazar la hipótesis nula deí 95%. Para que el re­chazo de la hipótesis nula sea posible, la significatividad asociada a la razón “F" ha de ser, al menos, “<,Ü5”. Lo que permitiría concluir que la predicción de la variable dependiente a partir de la ecuación de regresión estimada es significativa estadísticamente, no pu­diéndose atribuir a la casualidad. Por el contrario, cuando la significatividad de la razón “F” supera eí valor “,05” (si éste ha sido el niveí de significatividad elegido), se acepta la hipótesis nula. Lo que supone la no significatividad del modelo estimado. No hay evi­dencia suficiente para asegurar que la varianza explicada de la variable dependiente por el modelo de regresión no pueda atribuirse a variación muestral aleatoria.

Page 88: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

100 Análisis muhivarutbUi. Teoría y práctica en la investigación social

E j e m p l o d e c o m p r o b a c ió n d e l a j u s t e d e l m o d e l o d e r e g r e s ió n

Como ya se avanzó, ei modelo de regresión (estimado mediante ei procedimiento "pa­so a paso" de inclusión y eliminación de variables), integrado por las variables independientes X5, X10, Xv X6, X13 y X3, es estadísticamente significativo, a decir por la prueba de signifi- catividad F realizada. En la tabla A se descomponen sus integrantes.

Tabla A

Fuente de variación

Suma do cuadrados

Grados de libertad

Mediacuadrática

Razónttpu Signifícatividad«p*

Regresión 4627,827 6 771,304

Residual 4887,883 1273 3,840 200,879 ,000

Total 9515,710 1279 7,440

El coeficiente de correlación múltiple es igual a ,697, io que significa que ei grado de re­lación conjunta entre las seis variables independientes con la dependiente es muy importante. Recuérdese que un valor próximo a 1,0 indica correlación perfecta entre las variables. Este coeficiente no va acompañado de signo porque la dirección de la relación de cada variable independiente con la dependiente (positiva o negativa) no coincide. En las variables X5 y X1 es positiva, mientras en X10, X6, X13 y X3 es negativa. Elevando este coeficiente al cuadrado se obtiene el coeficiente de correlación múltiple cuadrado o coeficiente de determinación (R2): ,6972 = ,486. De acuerdo con este coeficiente, traducido a términos porcentuales, el 48,6% de ¡a variación (sobre la media) en la variable dependiente es explicada por la variación en las variables independientes que integran el modelo de regresión, sobre sus medias. Esto sig­nifica que ei conocimiento del valor de las variables independientes iogra reducir en un 48,6% el error de predicción de Y, cantidad nada desdeñable. Casi la mitad de la varianza de Y es explicada por la conjunción de seis variables predictoras. El ajuste de la nube de puntos al hi­perplano es bueno, aunque no perfecto. Queda un 51,4% de su variabilidad sin explicar, al estar afectada por otras variables no consideradas.

R2 se obtiene de! cociente entre ia suma de cuadrados de regresión (la variación expli­cada) y ia suma de cuadrados total (varianza total de Y): 4627,827 / 9515,710 = ,486.

El coeficiente R2 ajustado, que corrige la sobreestimación de Ff- cuando el tamaño muestral es pequeño en relación con el número de variables independientes analizadas, ape­nas difiere del anterior, debido a que la proporción de casos por cada variable independiente es muy elevada: = ,484 . Este valor se obtiene aplicando la fórmula siguiente:

Page 89: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 101

El error típico de estimación de Y se calcula, en cambio, a partir de la suma de cuadra­dos residual {la variación residual de Y, la que queda sin explicar por el modelo de regresión).. Mide el desajuste de la nube de puntos respecto af hiperplano: ía no coincidencia entre los valores Y observados en ia muestra con los estimados por la ecuación de regresión. En es­te modelo, ei error típico de la estimación ha sido 1,9595. Su valor se obtiene mediante ia si­guiente ecuación:

... ^ f4W T883N - p - 1 ~ V1280 - 6 - 1 ~ ’

Como ya se vio en el subapartado 1.4.3, ei valor del error determina la amplitud de los in­tervalos de confianza en la predicción de Y, a un nivel de probabilidad determinado.

Por úítimo, el modelo de regresión estimado en ia muestra es inferibie a! universo, al ser significativo estadísticamente. La F empírica (200,879) supera bastante su correspondiente valor teórico (2,10), para un nivei de significatividad de ,05 y 6 y 1.273 grados de libertad. Eí rechazo de ía hipótesis nula (la media de Y es tan adecuada en ia predicción de Y como el modelo de regresión) era predecible por el elevado tamaño de la muestra. La F empírica es eí resultado de la razón siguiente:

F « RSS/P = 4627,827/6 = 771,304 = ^ESS/N - p — 1 4887/1273 3,840

« En una comprobación posterior de la validez det modelo de regresión, se procedió a ia división aleatoria de ía muestra total en dos submuestras iguales: la muestra de análisis y la de validación. En ambas se obtuvieron resultados similares, aunque no idénticos, que se resumen en la siguiente tabla:

Tabla B

Fuente de Suma de Grados Media Razón Slgn. Ajuste del modelovariación cuadrados libertad cuadrática «p. "F" de regresión

ANÁLISIS • ANÁLISISRegresión 2.421,903 5 484,381 R ,721Residual 2.241,519 629 3,564 135,924 ,000 R2 ,519Total 4.663,422 634 7,356 R2a ,516

Error típico est. 1,8878VALIDACIÓN » VALIDACIÓN

Regresión 2.337,153 5 467,431 R ,717Residual 2.207,797 619 3,567 131,053 ,000 Ra ,514Total 4.544,951 624 7,284 ,510

Error típico est. 1,8886

En ambas submuestras, el modelo de regresión es bastante significativo, al ser la pro­babilidad de error al rechazar ía hipótesis nula (cuando en realidad es cierta) inferior al 1%.

Page 90: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

102 Análisis mullivariable. Teoría y práctica en la investigación social

Ei porcentaje de varianza explicada es prácticamente igual: 51,6% en ía muestra de análisis y 51%, en ía muestra de validación (de acuerdo con eí estadístico R cuadrado corregido o ajustado, R2,). El error típico de la estimación también es similar (1,8878 en la muestra de aná­lisis y 1,8886 en la muestra de validación) y ligeramente inferior al obtenido con la muestra entera. Obsérvese que elio se debe a que el modeío de regresión obtenido tras la división aleatoria de la muestra total logra un mejor ajuste {la aproximación de'la nube de pinitos'al hiperplano es mayor) que cuando se analiza la muestra en su conjunto (en esta ocasión el va­lor R2a es ,484, que es igual a un 48,4% de varianza explicada). Además, adviértase que el modelo antes incluía seis variables independientes. Ahora, se obtiene un modelo que explica un 3,2% más de la variabilidad de Y (ía muestra de análisis), pero con sólo cinco variables in­dependientes. La variable “sexo” (X3) queda excluida del modelo, ai dejar de ser significati­va en la predicción de la variable dependiente. Las otras cinco variables independientes con­firman, en cambio, su poder predictivo en la ecuación de regresión. Si bien, la variable X13 ("vecino marroquí”) muestra ahora mayor contribución a la predicción de fa variable depen­diente que ta variable X6 (“número de inmigrantes”).

Respecto a la eliminación de la variable X3 ésta era de esperar, no sólo porque dicha va­riable es, de ias incluidas en el modelo, la menos correlacionada con Y, sino sobre todo por­que su incorporación al modelo suponía un ligero incremento en los niveles de colinealidad, a decir por su valor en el índice de condición (subapartado 1.1.8). La tabla C detalla ia com­posición, bastante similar, del modelo de regresión en ambas submuestras. Además, la con­tribución de sus cinco variables explicativas en ia predicción de Y (“simpatía hacia nortea- fricanos: marroquíes...’’} es parecida a ia extraída en la muestra total. Para comprobar lo dicho, compárense estos resultados con los incluidos en ei subapartado 1.4.3.

Tabla C

Modelo efe regresión

Coeficientes no estandarizados

Coeficientesestandarizados

t Sig.TB Error

típico Beta

. MUESTRA DE ANÁLISIS(Constante) 3,595 ,536 6,705 ,000X5 simpatía latinoamericano ,589 ,035 ,494 16,598 ,000X 10 casar con marroquí - 5 1 5 ,096 -,192 -5 ,387 ,000X1 leyes inmigración ,211 ,079 ,080 2,651 ,008X)3vecino marroquí -4 1 7 ,135 —.106 -3 ,098 ,002X6número de inmigrantes -,358 ,130 -0 8 4 -2,752 ,006

. MUESTRA DE VALIDACIÓN(Constante) 3,238 ,583 5,554 ,000Xs simpatía latinoamericano ,586 ,036 ,487 16,193 ,000X t0 casar con marroquí -,540 ,096 -,202 -5,628 ,000X., leyes inmigración ,302 ,083 ,114 3,651 ,000X13vecino marroquí -4 8 8 ,139 -,122 -3,499 ,001X,:núnnem de inmigrantes -,284 ,136 -,066 -2 ,097 ,036

Page 91: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 103

La evaluación del modelo de regresión incluye también la detección de “atípicos” (o “outliers”). Por “atípico” se entiende toda observación que no ha quedado bien re­presentada por el modelo de regresión. Son observaciones no coincidentes con el res­to de los casos analizados, y van acompañadas de residuos elevados: existe una gran dis­paridad entre la respuesta observada (Y) y la predicha a partir de la ecuación de regresión (Y). Su presencia apenas influye en la adecuación del modelo, si sólo afec­ta a unos casos esporádicos, Pero cuando son varios los casos afectados, urge la adop­ción de alguna medida para paliar los efectos negativos que su presencia tiene en ia re­solución del modelo de regresión.

La detección o identificación de “atípicos” puede efectuarse con ayuda de gráficos y/o estadísticos concretos. Los gráficos de residuos constituyen una vía rápida y sencilla para detectar “atípicos”. Entre los gráficos más aplicados en la detección de “atípicos” destaca el histograma de frecuencias de residuos estudentizados. Este gráfico ya fue des­crito, en general, en el subapartado 1.1.6. Puede realizarse con residuos estandarizados o estudentizados. En la identificación de “atípicos” se prefiere, no obstante, los residuos estudentizados (Et ) con preferencia a los estandarizados (E, ) (Sen y Srivastava, 1990). Medíante ambos tipos de residuos, toda observación con residuos superior a 2 (desviaciones típicas) se considera un posible “atípico”. Este valor de referencia res­ponde al nivel de significación más aplicado en la investigación empírica: ,05 (que su­pone una probabilidad de acierto del 95%). A este nivel de significación, el valor “z ” y “í” teóricos (siempre que los grados de libertad de este ultimo sea superior a 120) es 1,96. De este modo, todo residuo (estandarizado o estudentizado) superior a este va­lor se identifica como estadísticamente significativo. Su confirmación precisa, no obstante, un análisis más profundo. Cuando el residuo es mayor de 3, su calificación co­mo “atípico” es más clara. En el histograma todos los casos con valores superiores a 3,16 o menores dé -3,16 aparecen en el intervalo etiquetado “out” (fuera).

En la identificación de “atípicos” también es de gran utilidad el gráfico de líneas de residuos estudentizados. En este gráfico, toda observación con residuos positivos o ne­gativos muy elevados (se aplican los mismos valores de referencia que en el histograma) se consideran “atípicos”; es decir, observaciones que no han quedado bien represen­tadas en la ecuación de regresión. La figura 1.10 incluye el gráfico de líneas de residuos estudentizados que corresponde al análisis de regresión aquí realizado para la mues­tra total.

Otro gráfico que puede ayudar en la detección de “atípicos”, de más reciente apli­cación, es el gráfico de residuos brutos, E i (en el eje vertical) y eliminados, Ef_i:¡ (en el horizontal). Estos últimos reflejan el cambio en el ajuste de la ecuación de regresión cuando el caso “i” es eliminado. A diferencia del gráfico de residuos estandarizados, en este gráfico, la nube de puntos debería aproximarse a una recta, desde el origen, de 45°, con una pendiente de 1. Tbdo caso que se aleje de dicha recta se considera un po­tencial “atípico”. Tanto más, cuanto mayor sea su distancia a la recta. La figura 1.11 ilus­tra la aplicación de esta modalidad gráfica con los datos aquí analizados (la muestra to-

1.5.4. La detección de “atípleos"

Page 92: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

104 Análisis rnultivariable. Teoría y práctica en la investigación social

tal). La nube de puntos se ajusta a la recta de 45° y pocos puntos se distancian de ella. Si se compara con ei gráfico de la figura 1.10, ia identificación de posibles “atí- picos” se evidencia más en el gráfico de líneas de residuos estudentizados que en este último.

OP-a

251 501 751 1.001 1.251 1.501 1.751 2.001 2.251 126 376 626 876 1.126 1.376 1.626 1.876 2.126 2,376

Numero de caso

Figura LIO. Gráfico de líneas de residuos estudentizados.

10“

o»JbCflo=5rs<n<UOS

-10 -

-10 -0 10 Residuos eíímüaados

Figura 1.1L Gráfico de residuos brutos (o no estandarizados) y eliminados.

A estos gráficos hay que añadir los gráficos de regresión parcial, que permiten la iden­tificación de “atípicos”, pero para cada relación de la variable dependiente con cada in-

Page 93: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 105

dependiente, por separado. Asimismo, es de utilidad el gráfico de residuos parcial que considera la correlación parcial de cada variable independiente con la dependiente, des­pués de eliminar el efecto de las otras variables predictoras en el modelo. A veces, tam­bién se aplican el gráfico de caja en la identificación de “atípleos”, pero su uso es menos habitual. En este último gráfico, los datos se representan en una caja alrededor de la me­dia. Todo caso que se sitúe lejos de la caja se considera un posible “atípico”. La figura 1.12 incluye el gráfico correspondiente a los datos del ejemplo.

Residuos estudentizados

Figura 1.12. Gráfico de caja con residuos estudentizados.

® Además de los gráficos, existen estadísticos específicos que ayudan a identificar, de forma más precisa, el grado al que una observación es un “atípico”. Entre los más aplicados destacan los siguientes:

- La distancia D ¡ de Cook, algunas veces también referid a“ C ” (Nourisis, 1986; Graybill e Iyer, 1994), se define como función de los residuos estudentizados eli­minados (jE^a o SDRESID), definido en el subapartado 1.1.10, y los elementos de la diagonal, uhn”, de la matriz H, mediante la expresión siguiente:

D,f p2

p + xK i

i - h

Esta distancia se calcula para cada una de las N observaciones que componen la muestra. Mediante ella se comprueba la cantidad en que varían las estimacio­nes de los coeficientes de regresión, si la observación “i” se elimina del análisis. Concretamente, proporciona una medida de la distancia entre el valor del coefi­ciente de pendiente cuando se utilizan todas las observaciones en el cálculo de la

Page 94: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

106 Análisis multivariable. Teoría y práctica en la investigación social

ecuación de regresión y cuando se omite la observación “i”. Toda observación que presente un valor elevado, D¡ > Fp t ( N p j a un nivel de significación concreto (normalmente, “,05”), se considera un posible “atípico” (y se recomienda un exa­men riguroso). Los casos con mayores valores de distancia coinciden con aquéllos cuya eliminación provoca una mayor variación eñ los coeficientes de regresión. Es­to suele acontecer bien cuando la observación presenta un residuo estudentizado muy elevado, o bien cuando la razón “h, J (1 -■ h- ¿)” es también elevada. Esto úl­timo se conoce como valores “leverage”. Se obtienen de comparar la distancia del valor de un caso desde las medias de todas las variables independientes. Los ca­sos con valores “leverage” superiores a “2p/N” (donde “p” es el número total de coeficientes, incluyendo el intercepto) se consideran “atípicos".

Cook y Weisberg (1982) proponen que toda observación con una distancia de Cook superior a 1 es un posible “atípico”. Hutcheson y Sofroniou (1999) prefie­ren no utilizar ese valor de referencia genérico, e incluso conservador. Proponen un punto de referencia calculado a partir del cociente siguiente: “4 / (N - p)”.

■ La medida de distancia de Welsch-Kuhn, más conocida como DFFITS, mide si­multáneamente la influencia en el coeficiente de regresión y en la varianza. Guarda bastante similitud con la distancia de Cook:

DFH TS, =

Toda observación que presente un valor absoluto de DFFITS > 't(p iÑ se considera un posible “atípico”.

® La detección de “atípicos” también puede limitarse a un diagnóstico por caso. Se identifican los casos con un residuo estandarizado (ZRESID) superior a un valor da­do. Lo más habitual (y así lo aplica el programa SPSS, por ejemplo, por defecto) es fi­jarlo en 3. Se suele escoger este punto de referencia (o de corte) porque, si los datos es­tán normalmente distribuidos, la probabilidad de alcanzar un valor superior a 3 es bastante baja. Además, ya se dijo que todo caso con un residuo estandarizado superior a +3,0 o inferior a -3,0 es un claro “atípico”. Cuando el residuo se sitúa entre 2,0 y 3,0, se precisa confirmación por otros procedimientos.

~j E je m p l o d e identificación d e “a t íp ic o s “

La aplicación de gráficos en la identificación de atípicos ya se ha ilustrado en las figuras1.10, 1.11 y 1.12, además del histograma y de los gráficos de regresión parcial descritos en páginas precedentes. A continuación figuran Sos “atípicos" obtenidos tras fijar como punto de ‘'corte“ todo residuo estandarizado (o tipificado) superior a +3,0 o inferior a -3,0.

Page 95: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 107

Diagnósticos por casoa

Número de caso

Residuotip.

Simpatíamarroquí

Valorpronosticado

Residuobruto

246 - 4,284 ,00 8,3941 - 8,3941353 - 3,224 ,00 6,3181 -6,3181369 - 3,263 ,00 6,3946 - 6,3946698 4,217 10,00 1,7374 8,2626727 -3,438 ,00 6,7365 - 6,7365

1.017 3,137 9,00 2,8528 6,14721.149 3,339 10,00 3,4570 6,54301.195 3,356 10,00 3,4233 6,57671.497 -4 ,015 ,00 7,8677 - 7,86771.501 -3,419 ,00 6,7001 - 6,70011.556 -3 ,665 ,00 7,1820 -7,18201.834 - 3,081 2,00 8,0378 - 6,03781.920 3,322 9,00 2,4903 6,50972.143 3,408 10,00 3,3228 6,67722.280 - 3,041 ,00 5,9586 - 5,9586

a Variable dependiente: simpatía marroquí.

Como puede apreciarse en la tabla, los casos atípleos coinciden con aquéllos cuyo valor pronosticado se distancia bastante de su valor observado en la variable dependiente. Lo que explica qué sus residuos (brutos o estandarizados) sean muy elevados. En total son 15 los casos claramente no explicados por el modelo de regresión. En los gráficos coinciden con pun­tos alejados del conjunto de datos. (Si el punto de corte se hubiese fijado en 2,48 serían los casos identificados como posibles “atípleos”.) A la identificación de los “atípleos” le sigue la adopción de alguna medida, en busca de alcanzar alguna mejora en el modelo. A este res­pecto, téngase presente que la proporción de “atípleos” es muy pequeña en el conjunto de la muestra. Además, la distancia de Caok {con un valor medio de ,001) indica que, al ser un va­lor muy pequeño, la exclusión de dichos “atípleos” del cálculo de los estadísticos de regresión no afectaría a un cambio sustancial de sus coeficientes de regresión.

® Tras la identificación de atípleos, procede la adopción de alguna medida al respecto, en busca de alcanzar alguna mejora en el modelo de regresión. Lewis-Beck (1980) resumen a cuatro las actuaciones posibles ante la existencia de “atípicos”:

a) Excluir del análisis los casos que muestren ser “atípicos”. Éstos pasarían a en­grosar la lista de “missing valúes” (o casos sin respuesta). El principal incon­veniente de esta solución radical es la reducción que puede producir en el ta­maño de la muestra (y la consiguiente pérdida de información). Salvo que el número de “atípicos” sea escaso, siendo su presencia en la muestra mínima.

Page 96: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

108 Análisis rnultivariable. Teoría y práctica en la investigación social

b) Efectuar dos ecuaciones de regresión: una con “atípicos” incluidos y otra sin ellos. Siguiendo este proceder no habría pérdida de información. Pero presenta el inconveniente principal de duplicar los análisis con unas mismas variables.

c) Transformar la variable afectada por "atípicos”. Ésta se considera una op­ción óptima. Supone el cálculo de una única ecuación de regresión, no-varian­do el tamaño de la muestra.

d) Aumentar el tamaño de la muestra para comprobar si los “atípicos” son real­mente “atípicos” o si, por el contrario, se ajustan a la realidad de un mode­lo más general (quizás no lineal). Los inconvenientes principales de esta ac­tuación son el coste económico y la dificultad que supone abarcar más unidades muéstrales.

Antes de tomar alguna (o varias) de estas medidas, tal vez debiera seguirse la re­comendación de Gunst y Masón (1980) de comprobar si los “atípicos” se deben a erro­res de grabación. Hutcheson y Sofroniou (1999) señalan a datos incorrectamente grabados y a indicadores de “missing valúes” incorrectamente especificados en eí pro­grama utilizado, como dos posibles razones de “atípicos”. En caso afirmativo, estos errores pueden corregirse de forma inmediata. Habría que remitirse a la fuente de in- formación general para, a continuación, corregir el valor mal grabado por el correcto en la base de datos. En caso negativo, habría que decidir qué hacer con ios “atípicos”. .i; Sin duda, la decisión se verá bastante afectada por la proporción que representen los “atípicos” en la muestra analizada.

1.6. Variaciones en el análisis áe regresión

El procedimiento de regresión expuesto en páginas precedentes es el ordinario, aunque existen variaciones al mismo. Primero, en función de cómo se seleccionen las. variables predictoras para constituir el modelo de regresión, si se ha seguido un pro­cedimiento secuencial (o “por pasos”) y, en caso afirmativo, cuál de ellos. También hay ■ que hacer referencia a alternativas principales al procedimiento de mínimos cuadra- ;, dos ordinarios (OLS), de gran utilidad cuando se incumplen uno o varios de los su­puestos básicos para ia regresión OLS. Cada uno de estos contenidos se desarrollan en los subapartados siguientes.

1.6.1. Los procedimientos secuenciales de selección de variables predictoras

En ¡a realización de un análisis de regresión es habitual partir de una serie amplia de variables independientes (o predictoras). El objetivo principal es seleccionar un gru-: po reducido de ellas que muestren una contribución significativa a ia predicción de la variable dependiente. Se busca un modelo sencillo, parsimonioso y, a la vez, fácil de m-, terpreíar. Todo lo cual incide en la decisión de aplicar algún procedimiento secuencial

Page 97: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 109

de selección de variables predictoras. Sobre todo, cuando la investigación es explo­ratoria y es elevado el número de variables independientes cuyo poder predictivo quie­re comprobarse. En cambio, cuando la investigación es confirmatoria, los procedi­mientos secuenciales no son de utilidad. La finalidad no es efectuar una selección de variables en función de su poder predictivo, sino corroborar un modelo concreto obtenido en indagaciones precedentes.

Tres son los procedimientos esenciales de selección secuencial de variables pre­dictoras:

a) Inclusión secuencial de variables “hacia delante” (“forward”).b) Eliminación progresiva de variables “hacia atrás” (“backward”).c) El procedimiento “paso a paso” ("stepwise”) de inclusión y eliminación de va­

riables.

Las dos primeras opciones pueden considerarse casos especiales del tercer pro­cedimiento, que es más utilizado. A favor de la primera opción está el menor número de cálculos que supone su realización. Pero, la segunda opción (la eliminación pro­gresiva de variables) suele tratar mejor el problema de la multicolinealidad que la pri­mera opción. Por esta razón algunos autores, como Chatterjee y Price (1977), por ejem­plo, recomiendan su utilización con preferencia al procedimiento de inclusión secuencial de variables “hacia delante”. Pero, veamos en qué consiste cada uno de es­tos procedimientos secuenciales.

A) Inclusión secuencial de variables “hacia delante"

El análisis comienza con el modelo más sencillo: aquel que sólo incluye la constante (o intercepto). A continuación, el programa procede a la selección “secuencial” de va­riables, en función del grado de relación que éstas manifiesten con la variable de­pendiente y su significatividad. También afecta el grado de colinealidad de las varia­bles independientes candidatas a ser incluidas en 1a ecuación de regresión con aquellas variables que previamente han sido incorporadas.

La selección de variables predictoras es “secuencia!”. En cada paso se incorpora una nueva variable a la ecuación de regresión, lo que suele ocasionar una alteración en los coeficientes de regresión respecto al paso anterior. Dicha variación en los coefi­cientes es mayor cuando la variable recién incorporada a la ecuación presenta un gra­do de colinealidad elevado con una o varias de las variables predictoras que previa­mente fueron introducidas en la ecuación de regresión. Si la colinealidad es elevada, puede incluso suponer la pérdida de significatividad de variables que, en pasos ante­riores, mostraron poder predictivo en la explicación de la variable dependiente. Pero, a diferencia de! tercer procedimiento secuencial, de inclusión y eliminación de varia­bles, en éste no se contempla la eliminación de variables previamente incluidas en la ecuación de regresión, de un paso a otro.

Page 98: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

110 Análisis multivariable. Teoría y práctica en la investigación social

La primera variable que se incluye es aquella que muestra una correlación simple más alta con la variable dependiente, indistintamente de si la correlación es positiva o ne­gativa. Esta información la proporciona la matriz de correlaciones (subapartado 1.3.2). En el primer paso, se está ante un modelo de regresión simple, compuesto por una so­la variable independiente. Si el modelo muestra ser significativo, de acuerdo con la ra­zón “F” (subapartado 1.5.3), se comprueba si puede incorporarse otra variable inde­pendiente a la ecuación. A tal fin, se examinan bs correlaciones parciales de las variables independientes no incluidas en la ecuación con la dependiente y su significatividad. En­tre aquellas variables cuya correlación parcial sea significativa, de acuerdo con la razón “t” (subapartado 1,4.3), se escoge la variable que presente la correlación parcial más ele­vada con la variable dependiente. Si se desea saber qué ocurrirá si dicha variable se in­cluyese en la ecuación, la mayoría de los programas estadísticos, como el SPSS, ofrecen el coeficiente de regresión estandarizado (a veces llamado “beta in” o “beta dentro”).

Tras cada incorporación de una variable a la ecuación de regresión, se comprueba la significatividad del modelo. El análisis prosigue hasta que el modelo deja de ser sig­nificativo estadísticamente, o hasta que no queden variables independientes que muestren tener un efecto significativo en la predicción de la variable dependiente.

En el programa estadístico se fija un valor mínimo de F para que la variable in­dependiente pueda incluirse en la ecuación y su correspondiente valor “p”. Este último expresa la significatividad del estadístico “F”. Por ejemplo, en el programa SPSS el va­lor mínimos de Fpara entrar (“F-to-enter” o “F-in”) y el criterio de probabilidad aso­ciado a este estadístico por defecto son, respectivamente, F > 3,84 y p < 0,05. Éstos son los valores que se aplican, mientras el investigador no especifique lo contrario.

Bendel y Afifi (1977) compararon varios valores “F-to-enter” mínimos, aplicados ha­bitualmente en este procedimiento de selección de variables (“forward” o “hacia de­lante”). Un valor que recomiendan es el percentil “F” que corresponde a un valor p = 0,15. Utilizar el criterio usual de p - 0,05 es demasiado bajo y con frecuencia excluye del modelo a variables relevantes en la predicción de Y. Es mejor opción aplicar niveles de significatividad de 0,15 e incluso 0,20. Esto repercute negativamente en un riesgo ma­yor de rechazar la hipótesis nula, cuando es cierta; es decir, afirmar que una relación es cierta, cuando en realidad no lo es. La probabilidad de equivocación se eleva al 20%. Pe­ro, por el contrario, disminuye el riesgo de desacierto al rechazar la hipótesis nula, cuando en realidad es falsa (es decir, de no encontrar una relación que realmente es cier­ta). Si el tamaño muestral es elevado, el valor de F mínimo para entrar que recomiendan es el percentil 85 de la distribución F, con 1 e infinitos grados de libertad. O, lo que es igual, un valor F mínimo de 2,07 y no el habitual de 3,84, que es más restrictivo.

Tomar un valor mínimo de F elevado (F> 4,0, por ejemplo) supone dar una menor oportunidad a La variable para incorporarse a la ecuación de regresión. Se consegui­ría un modelo de regresión más restrictivo, aunque con mayor nivel de significatividad.

En la valoración de los valores de F de entrada mínimos, téngase además presente que la significatividad del modelo no se ve sólo afectada por el nivel de riesgo que el investi­gador asume de equivocarse. También influye los grados de libertad asociados a la suma de cuadrados de regresión y la suma de cuadrados residual (véase subapartado 1,5.3).

Page 99: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 111

Por último, añadir que tras la incorporación de una nueva variable, se produce un aumento en el valor de Ti1. El incremento varía en relación con la correlación existente entre dicha variable con la dependiente, una vez considerada su correlación con las de­más predictoras en la ecuación. Cuanto mayor sea la correlación de la nueva variable predicíora con el resto de predictoras y menor su correlación con la .dependiente, me­nor será el incremento en R z de un paso a otro. Lo que también puede afectar a que el error típico de la estimación no disminuya, como es de esperar, sino que aumente. To­do lo cual afecta en la disminución del valor “F ’ empírico de un paso a otro. De ahí la reiterada recomendación de no incorporar variables independientes que sean irrele­vantes en la predicción de Y, ya que provocan un aumento en el error de predicción sin haber logrado incrementar la proporción de varianza explicada de la variable de­pendiente.

B) Eliminación progresiva de variables “hacia atrás ”

Este segundo procedimiento es el contrario al anterior. El análisis comienza con todas las variables independientes incluidas en el modelo. Después se procede a la eliminación “secuencial” (una a una) de las variables que muestren menor rele­vancia en la predicción de Y. La primera variable en ser eliminada es aquella que muestra una menor contribución a la reducción de la suma de errores cuadrados, lo que suele coincidir con presentar un valor “í” no significativo. Tras cada eliminación, se recaicula la ecuación de regresión con las variables independientes que aún per­manecen en ella. El proceso de eliminación y reestimación del modelo concluye cuan­do todas las razones “f” son significativas; es decir, cuando las razones “í” absolutas mínimas son superiores a “t os(w _ (depende del nivel de significación elegido; 0,05,0,10 o superior).

En el programa SPSS se aplica por defecto el criterio usual de un valor F mínimo para permanecer en la ecuación (“F-to-remove”, “F-out” o “F para salir”) de 2,71, que equivale a la probabilidad máxima asociada (“P-out”) de 0,10. Toda variable cuyo va­lor F no sobrepase dicho valor (2,71), siendo su significatividad superior a 0,10, se con­vierte en candidata a ser eliminada del modelo de regresión. Sí se quiere un modelo menos restrictivo, a costa de aumentar el error de rechazar la hipótesis nuh (cuando en realidad es cierta), puede seguirse la recomendación de Afifi y Clark (1990) de re­ducir el valor de MF para salir” a 1,07.

Como en el procedimiento anterior, tras la eliminación de una variable, se recal- culan los Fparciales para las variables predictoras que quedan en la ecuación. El pro­ceso concluye cuando ninguna Fparcial es inferior a la cuantía mínima de F fijada pa­ra permanecer en la ecuación.

C) El procedimiento "paso a paso" de inclusión y eliminación de variables

Este tercer procedimiento de selección secuencial de variables predictoras es una combinación de los dos precedentes. Es un proceso de selección “hacia delante”

Page 100: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

112 Análisis rnultivariable. Teoría y práctica en la investigación social

que incorpora los criterios de eliminación “hacia atrás”. Añade al primer procedimiento la posibilidad de eliminar, en un paso posterior, una variable predíctora introducida en un paso anterior. La incorporación y eliminación de variables se ve sobre todo afectada por el grado de colinealidad existente entre ias variables independientes. Por esta ra­zón se incluye, como criterio adicional para la incorporación de variables a la ecuación, su nivel de tolerancia (por ejemplo, TOL¡> 0,01).

Como en ei procedimiento de inclusión de variables “hacia delante”, el proce­dimiento “paso a paso” comienza con sólo el intercepto (o constante). En cada paso se van incoiporando variables independientes a ia ecuación de regresión (una a una). La variable escogida será aquella que cumpla ios mismos criterios que en la selección “hacia delante”. Pero, a diferencia de la selección “hacia delante”, en el procedi­miento “paso a paso” de inclusión y eliminación de variables no se considera defi­nitiva la incorporación de una nueva variable al modelo. Su aportación a la predic­ción de Y es constantemente re valúa da, tras la incorporación de una nueva variable predíctora al modelo de regresión. Para la exclusión de una variable predictora se si­guen los mismos criterios que en la eliminación “hacia atrás”. No obstante, hay que advertir que si quiere evitarse que una misma variable sea continuamente introdu­cida y eliminada del modelo de regresión, hay que fijar un valor “F para entrar” mí­nimo superior al correspondiente valor máximo de “F para salir”. O, lo que es igual, “P-in” ha de ser inferior a “P-out”. Recuérdense los valores mínimos reco­mendados por Afifi y Clark (1990), por ser muy útiles en ía práctica, de 2,07 en “F para entrar” y 1,07 en “F para salir”; o los aplicados convencionaímente de 3,84 y 2,71, respectivamente.

Si quiere examinarse la secuencia completa hasta que se introducen todas las va­riables, será conveniente establecer un valor “F para entrar” mínimo pequeño (por ejemplo, 0,1, que corresponde a un valor “P-in” de 0,99). Lo que lleva inevi­tablemente a fijar un valor “F para saiir” máximo inferior a 0,1. Después de exa­minar esta secuencia, puede hacerse una segunda corrida utilizando otros valores F. Para más información, véase Nourisis, 1986; Afifi y Clark, 1990; o Graybiil e lyer, 1994.

Como en todo procedimiento secuencial, el modelo de regresión se vuelve a es­timar tras la incorporación y/o eliminación de una variable predictora. Esta reconsi­deración de la contribución de las variables independientes a la predicción de Y lleva a la recomendación de este procedimiento para propósitos eminentemente explora­torios (Graybiil e íyer, 1994). Cuando ei investigador desea la inclusión de variables independientes concretas, con el propósito de comprobar una teoría, o a efectos pu­ramente comparativos con otros estudios, puede forzar ía incorporación de las varia­bles de interés al modelo de regresión. En la mayoría de los programas estadísticos se ofrece la posibilidad de “forzar” la inclusión de variables, al comienzo o después del proceso de selección secuencia!. Además, cualquiera de los tres procedimientos de se­lección de variables secuencial permite experimentar con diferentes combinaciones de variables independientes en la búsqueda de aquella combinación de variables que me­jor logre predecir el valor de la variable dependiente.

Page 101: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo ]: Regresión múltiple 113

, E j e m p l o d e p r o c e d im ie n t o s e c u e n c ia l d e s e l e c c ió n

DE VARIABLES. PREDICTORAS : ■

En la búsqueda de un modelo de regresión que ayude a predecir la "simpatía hacia los norteafricanos (marroquíes, etc)”, se escoge el procedimiento “paso a paso” de inclusión y eli­minación de variables, por considerarlo más adecuado a los propósitos del estudio. Se busca la obtención de un modelo parsimonioso, que evite la incorporación de variables muy colineales. Los valores mínimos de "Fpara entraf y “Fpara salii!l seguidos son los aplicados por defecto en el programa SPSS: 3,84 y 2,71, respectivamente, que equivalen a las pro­babilidades de F "de entrada” de 0,05 y “de salida” de 0,10. Se busca un modelo altamente significativo y no se juzga necesario disminuir las exigencias de entrada y de eliminación de variabies. Sobre todo, cuando se alcanza un modelo de regresión que logra explicar eí 48,4% de ia varianza de la variable dependiente, incluyendo seis variables predlctivas en la ecua­ción de regresión. En la tabla A se resume el modelo:

Tabla A

Modelo R R cuadradoR cuadrado corregida

Error tip. de ía estimación

Cambio en R cuadrado

1 ,593a ,351 ,351 2,1979 ,3512 ,676b ,457 ,457 2,0106 ,1063 ,688c ,473 ,472 1,9821 ,0164 ,692d ,479 ,477 1,9721 ,0065 ,696® ,484 ,482 1,9632 . ,0056 ,697' ,486 ,484 1,9595 ,002

a Variables predictoras: (constante), simpatía latinoamericano',6 Variables predictoras: (constante), simpatía iatino- amertcano, casar con marroquí;0 Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración;ú Variabies predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes;e Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes, vecino marroquí;' Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes, vecino marroquí, sexo.

El análisis comienza con una única variable predictora (“simpatía hacia latinoamericanos;”) que es, de las 14 consideradas, la más correlacionada con la variable dependiente ("simpatía hacia norteafricanos”), como se vio en la matriz de correlaciones (subapartado 1,3.2). La se­gunda en entrar es “casar con marroquí”, que cumple la doble condición de ser la segunda variable independiente más correlacionada con Y, estando, a su vez, poco correlacionada con ia variable antes introducida (r = —,274). En total son seis las variables independientes incluidas en el modelo de regresión. Ninguna de ellas es expulsada tras la incorporación de una nue­va variable porque, como ya se señaló en la matriz de correlaciones y cuando se describió la colinealidad entre las variables independientes, son pequeñas las correlaciones existen­tes entre las variables independientes.

La primera variable en formar el modelo de regresión se distingue además por ser la va­riable que explica el mayor porcentaje de varianza de Y (35,1%, de acuerdo con el coeficiente

Page 102: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

114 A nálisis m ultivariable. Teoría y práctica en la investigación socia l

fí cuadrado corregido). Como es usual, tras cada incorporación de una nueva variable, au­menta la proporción de variabilidad explicada y desciende el error típico de ía estimación, aun­que en menor proporción de lo deseable. Ello se debe al poco poder predictivo de las cuatro últimas variables que se incorporan al modelo. Si la segunda variable (“casar con marroquí”) provoca un aumento en R de! 10,6%, la tercera ('leyes inmigración”) sólo dei 1,6%. Las otras tres, inclusive menos: el 0,6%, 0,5% y 0,2%, respectivamente. Estas últimas cuatro variables predictoras (“leyes inmigración”, “n.° inmigrantes”, ‘Vecino marroquí' y “sexo”) apenas reducen el error de predicción de la variable dependiente (“simpatía hacia norteafricano”), aunque son incorporadas al modelo de regresión porque su contribución a la predicción de Y, aunque mí­nima, es significativa (p < 0,05).

En la tabla B se resume e! análisis de varianza (ANOVA) para comprobar la signifi- catlvidad del modelo de regresión en su globalidad. Al haber un total de 1.280 casos válidos, la razón Fes significativa en los seis modelos obtenidos en cada paso, aunque su valor des­ciende de 691,815 en e! primer modelo a 200,879 en el modelo 6 (integrado por las seis va­riables predictoras). El descenso es más acusado a partir del tercer paso y responde, fun­damentalmente, al escaso poder predictivo de las nuevas variables que se incorporan al modelo de regresión. Tras una nueva incorporación disminuye ligeramente la propor­ción de casos por variables predictoras en el modelo, pero apenas aumenta la proporción de varianza explicada en la variable dependiente. Esta mínima mejora en el ajuste de! mo­delo es la causa principal del descenso en la razón F. Pese a ello, el modelo de regresión múltiple final, con seis variables predictoras, sigue siendo estadísticamente significativo, al ser el valor de F empírico bastante superior ai valor F teórico (2,10) correspondiente, pa­ra 6 (número de variables independientes) y 1.273 (tamaño muestral menos número de coe­ficientes calculados incluida la constante) grados de libertad y un nivel de significación de 0,05. La significatividad estadística del modelo era predecible por el elevado tamaño de la muestra analizada.

En la tabla B obsérvese, además, ios cambios habidos, en cada paso, en ¡as sumas de cuadrados de regresión y residual, como medidas de ajuste del modelo de regresión (o de adecuación entre la nube de puntos y el hiperplano de regresión).

La tabla C describe la composición de! modelo de regresión obtenido en cada paso. El primer modelo es de regresión simple, al estar integrado por una sola variable independiente (Xs). Ésta es la variable más correlacionada con la variable dependiente, (r = ,593). Si se ele­va su correlación parcial al cuadrado (.5932 =,351), se obtiene que dicha variable explica el 35,1 % de la varianza de Y. Esta información coincide con la dada en la tabla A (,351 es el va­lor R 2 corregido en ei primer modelo).

Además, obsérvese que su coeficiente beta (j35=.593) coincide con su coeficiente de co­rrelación con Y (como consta en la matriz de correlaciones). Esta coincidencia entre los coeficientes beta y de correlación sólo se produce en regresión simple, cuando la ecuación de regresión incluye una única variable independiente. Si son dos o más las variables pre­dictoras, ambos coeficientes difieren. Ello se debe a que, mientras el coeficiente de correlación mide la correlación de ia variable independiente con la dependiente, sin considerar ías demás variables predictoras, tos coeficientes de regresión (estandarizados o no) se ven afectados por la correlación de la variable independiente con las demás incluidas en el modelo de re­gresión, Cuanto mayor sea su correlación, más diferirán ambos coeficientes.

La colinealidad (o correlación entre las variables independientes) es, asimismo, la ra­zón principal de las variaciones en los coeficientes de pendiente (estandarizados o no) de un modelo a otro. E! cambio en la magnitud del coeficiente es mayor cuanto más córrela-

Page 103: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 115

cionada esté la variable con la recién incorporada al modelo. Como las variables aquí ana­lizadas no presentan un grado elevado de colinealidad (como se comprobó en el suba­partado 1.1.8), los coeficientes de pendiente apenas varían con la incorporación de una nue­va variable predictora al modelo de regresión. Las mayores variaciones se producen en la constante (o intercepto), especialmente, cuando se pasa de! modelo 1 (con una sola variable independiente) al modelo 2 (que incluye dos variables predictoras): de ,807 cambia a 3,147. Este cambio es lógico ya que se pasa de una recta a un plano (de dos dimensiones) de re­gresión. Recuérdese que la constante es el punto de la recta (o piano) que “intercepta” el eje Y. La variación en la constante es menor entre el modelo 5 (3,616) y e¡ modelo 6 (3,786).

Tabla B

Anovas

Modelo Suma de cuadrados 9l

Mediacuadrática F Sig.

1 Regresión 3341,993 1 3341,993 691,815 ,000aResidual 6173,717 1278 4,831Total 9515,710 1279

2 Regresión 4353,291 2 2176,646 538,425 ,000bResidual 5162,419 1277 4,043Tota! 9515,710 1279

3 Regresión 4502,713 3 1500,904 382,038 ,000oResidual 5012,997 1276 3,929Total 9515,710 1279

4 Regresión 4556,983 4 1139,246 292,926 ,000dResidual 4958,727 1275 3,889Total 9515,710 1279

5 Regresión 4605,457 5 921,091 238,984 ,000aResidual 4910,253 1274 3,854Total 9515,710 1279

6 Regresión 4627,827 6 771,304 200,879 ,000'Residua! 4887,883 1273 3,840Total 9515,710 1279

a Variables predictoras: (constante), simpatía latinoamericano. b Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí. c Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración. d Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, núm. inmi­

grantes.® Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, núm. inmi­

grantes, vecino marroquí.( Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, núm. inmi­

grantes, vecino marroquí, sexo.9 Variable dependiente: simpatía marroquí.

Page 104: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

116 Análisis multivariable. Teoría y práctica en la investigación social

Tabla C

ModeloCoeficientes no estandarizados

Coef.Estándar

Beta

f Sig.Intervalo confianza

95% Correlaciónparcial

Tolerancia FIV

B Error tip. Límiteinferior

Límitesuperior

Constante ,807 ,201 4,019 ,000 ,413 1,201xs ,719 ,027 ,593 26,302 ,000 ,665 ,773 ,593 1,000 1,000

Constante 3,147 ,236 13,340 ,000 2,684 3,610x5 ,606 ,026 ,500 23,322 ,000 ,555 ,658 ,547 ,925 1,081X ,o -.916 ,058 -,339 -15,816 ,000 -1,030 -,802 -,405 ,925 1,081

Constante 2,256 ,274 8,237 ,000 1,718 2,793X 5 ,584 ,026 ,482 22,579 ,000 ,534 ,635 ,534 ,907 1,102X ,0 -,843 ,058 -,312 —14,448 ,000 -,957 -,728 -.375 ,886 1,128X, ,344 ,056 ,131 6,167 ,000 ,234 ,453 ,170 ,921 1,085

Constante 3,267 ,384 8,506 ,000 2,513 4,020X5 ,570 ,026 ,470 21,912 ,000 ,519 ,621 ,523 ,888 1,126X 10 -,815 ,059 -,301 “ 13,925 ,000 -,929 -,700 -.363 ,872 1,147X t ,284 ,058 ,108 4,907 ,000 ,170 ,397 ,136 ,850 1,177X6 -.357 ,096 -082 -3,736 ,000 -,544 -,169 -,104 ,844 1,185

Constante 3,616 ,395 9,159 ,000 2,842 4,391x 5 ,559 ,026 ,461 21,416 ,000 , 508 ,610 ,514 ,875 1,143X,0 —,690 ,068 -,255 -10,156 ,000 -.824 -,557 -.274 ,640 1,562X, ,267 ,058 ,101 4,633 ,000 ,154 ,381 ,129 ,844 1,185* 6 -,347 ,096 -.080 -3,662 ,000 -,534 -,161 -,102 ,844 1,185X 13 -,358 ,101 —,088 -3,546 ,000 -,557 -.160 -,099 ,653 1,531

Constante 3,786 ,400 9,458 ,000 3,001 4,571x 5 ,558 ,026 ,460 21,429 ,000 ,507 ,610 ,515 ,875 1,143x 10 -698 ,068 -,258 -10,281 ,000 -,832 -,565 -.277 ,639 1,566x , ,261 ,058 ,099 4,527 ,000 ,148 ,374 ,126 ,842 1,187

-,356 ,095 -082 -3,751 ,000 -,543 -,170 -105 ,842 1,187X 13 -,348 ,101 -086 -3,443 ,001 -,546 -.150 -.096 ,652 1,534x3 -,265 ,110 -,049 -2,414 ,016 -,481 -,050 -,067 ,994 1,006

Y: “simpatía hacía norteaíricano {marroquí...)" (P201); X,: "¡eyes inmigración" (P16); X3: “sexo" (P41); X5: “simpatía ¡ia- cia latinoamericanos" (P210); X6: “número de inmigrantes” (P11); X13: "casar con marroquí' (P306); X13: “vecino ma­rroquí1 (P506).

Respecto a los coeficientes de pendiente, la mayor variación en su vaior se registra en X5, entre el modelo 1 (.719) y eí modelo 2 (,606). En el modelo 1 es ella ia única variable pre- dictora, mientras que en el modelo 2 está acompañada por la variable X10. Aunque la co­rrelación entre ambas variables (X5 y X10) es pequeña (r = -,274), ¡a inclusión de la variable X1Q provoca un descenso lógico en los coeficientes (no estandarizado y estandarizado) de X£.__ Por su parte, la variable X10 experimenta una mayor alteración en su coeficiente de pendiente entre el modelo 4 (b10 - -815) y el modelo 5 (b10 = -,690). Este descenso en ¡a contribución^ de X10 en la predicción de Y se debe a su correlación con la variable recién incorporada, X13:

Page 105: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 117

r = ,573, Ésta es ¡a mayor correlación habida entre las variables predictoras (véase matriz de correlaciones), aunque se sitúa aún tejos del valor ,80, que incita a ia adopción de alguna me­dida que evite su incidencia negativa en el análisis de regresión. Los valores de tolerancia y FIV confirman (o dicho sobre colinealidad. Los valores de tolerancia más bajos y de FIV más altos se dan- en estas dos variables, aunque distan bastante de los valores que alertan de una colinealidad severa: ,20 en tolerancia y 5,0 en FIV.

Los errores típicos de los coeficientes son relativamente bajos, saivo los correspon­dientes a la constante, lo que concuerda con la variación de los coeficientes. Los errores típicos más elevados en ía estimación de los coeficientes se dan en ias variables Xg, X13 y X6, siendo en estas variables donde la amplitud de los intervalos de confianza es mayor. Pese a ello, la contribución de todas las variables predictoras en el modelo es significati­va estadísticamente y, en consecuencia, ínferible al universo o población de la que se ha extraído fa muestra. Los coeficientes no se han obtenido por mera casualidad, al ser sus valores t empíricos superiores ai correspondiente valor teórico (1,96), con una probabilidad de error del 5%. Además, la incorporación de una nueva variable no ha supuesto, en nin­gún modelo, la expulsión de ninguna variable ya integrada en ía ecuación de regresión. Compruébese lo dicho en la tabla C.

Las razones que llevan a incluir o a excluir a una variable del modelo de regresión se encuentran en la tabla D. En ella figuran ias variables independientes que quedaron ex­cluidas del modelo de regresión en cada paso, junto a sus coeficientes beta dentro y su sig­nificatividad, los coeficientes de correlación pardal y las medidas de colinealidad (tolerancia y FIV).

Del primer modelo de regresión quedaron excluidas todas las variables excepto Xs. Una vez comprobado que el modelo de regresión simple con ia variable X5 es significativo es­tadísticamente, se pasa a analizar si de las 13 variables excluidas del modelo, alguna pue­de ser incorporada. Salvo la variable Xia, cuyo valor t empírico (,308) es inferior al co­rrespondiente teórico (1,96), cualquiera de las doce variables restantes es una posible candidata a ser incluida en el modelo de regresión. Pero, en cada paso, sólo puede ser ele­gida una. La variable finalmente seleccionada es X10 por ser la que mayor contribución muestra en la predicción de Y. El coeficiente de regresión estandarizado que esta variable tendría si se incorporase a la ecuación de regresión (beta dentro) es el más elevado (-339). Compruébese en la tabla C que este valor coincide con el coeficiente beta que la variable X10 presenta cuando se añade a la ecuación de regresión (modelo 2). Asimismo, su co­rrelación parcial (-,405) es la más alta. Elevándola al cuadrado (-,405a - ,164), se obtie­ne que el 16,4% del 64,9% de varianza de Y no explicada por el primer modelo (tabla A) quedaría explicada con la inclusión de la variable X10. La proporción de varianza que que­daría explicada es exactamente: ,649 x ,164 = ,1064. X10 explica el 10,64% de la varian­za Y. Sumando esta proporción a la explicada por Xs (,351 + ,106 = ,457), se obtiene que ambas variables explican conjuntamente el 45,7% de fa varianza de Y. Éste es precisa­mente el valor de R3 corregido que corresponde ai modelo 2 (,457), que incluye como va­riables predictoras a X 5 y X1Q.

En e! siguiente paso se elige a la variable X., por ias mismas razones anteriores. Ob­sérvese que en este segundo paso ¡a contribución de la variable X4 en ta predicción de Y de­ja de ser significativa.

E! análisis de regresión concluye en el paso 6, a¡ no haber ninguna variable cuya con­tribución a la predicción de Y sea significativa. Los valores t empíricos de las ocho variables excluidas del modelo de regresión son todos inferiores a 1,96.

Page 106: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

118 Análisis multivariable. Teoría y práctica en la investigación social

Tabla D

ModeloBefa

dentro f SigCorrelación

parcial Tolerancia FIV Toleranciamínima

.X, ,193a 8,636 ,000 ,235 ,962 1,040 ,962X2 -,087a -3,867 ,000 -,108 ,998 1,002 ,998X3 -,044a -1,977 ,048 -.055 1,000 1,000 1,000x 4 -,053a -2,334 ,020 -,065 ,990 1,011 ,990Xa -,169a -7,475 ,000 -,205 ,947 1,056 ,947X7 ,155a 6,797 ,000 ,187 ,948 1,055 ,948XB -,158a -6,922 ,000 -,190 ,940 1,064 ,940Xg -,090a -3,932 ,000 -.109 ,952 1,050 ,952*io -,339a -15,816 ,000 -,405 ,925 1,081 ,925X11 ,069a 3,063 ,002 ,085 ,985 1,015 ,985x ia ,007a ,308 ,758 ,009 ,993 1,007 ,993X,s -,256a -11,505 ,000 -.306 ,929 1,077 ,929

- ,157a -6,934 ,000 -,190 ,960 1,041 ,960

xi ,131b 6,167 ,000 ,170 ,921 1,085 ,886X2 - ,042a -2,026 ,043 -,057 ,978 1,022 ,907X3 -,0 5 4 t! -2,609 ,009 -,073 ,999 1,001 ,924X4 -,0 0 7 b -,326 ,745 “,009 ,970 1,031 ,907X6 - .1 12b -5,271 ,000 -1 4 6 ,916 1,092 ,895x 7 ,086b 3,992 ,000 ,111 ,904 1,107 ,882Xa -,082b -3,777 ,000 -,105 ,886 1,129 ,872X9 ..,028b -1,287 ,198 -,036 ,918 1,090 ,891x 1, ,042b 1,999 ,046 ,056 ,978 1,022 ,917*ia ,007b ,340 ,734 ,010 ,993 1,007 ,919x » -,104b -4,125 ,000 -,115 ,659 1,517 ,656X„ -,085b -3,944 ,000 -,110 ,910 1,099 ,876

X2 -,024e -1,133 ,258 -,032 ,958 1,046 ,876*3 —,049e -2,399 ,017 -,067 ,998 1,002 ,885x 4 ,004e ,201 ,841 ,006 ,963 1,039 ,873X6 -,082e -3,736 ,000 -1 0 4 ,844 1,185 ,844x 7 ,060o 2,751 ,006 ,077 ,860 1,162 ,860Xa -,046e -2,043 ,041 -.057 ,805 1,243 ,805x 9 -,019e -.896 ,371 -,025 ,914 1,095 ,860x ,i ,023e 1,103 ,270 ,031 ,956 1,046 ,884x « —,012° -,561 ,575 -,016 ,972 1,029 ,886X,3 -,091e -3,632 ,000 „101 ,654 1,530 ,646X,4 -,058e -2,672 ,008 -,075 ,864 1,157 ,856

x 2 -,018" -871 ,384 -.024 ,951 1,052 ,836■*8 —,0S2d -2,557 ,011 -,071 ,996 1,004 . ,843X4 ,010d ,492 ,623 ,014 ,957 1,045 ,839X, ,048d 2,187 ,029 ,061 ,838 1,193 ,822Xs -,036'J -1,604 ,109 „,045 ,792 1,262 ,791x 9 - .0 1 21* -,553 ,581 -,015 ,906 1,104 ,837

,008d ,402 ,687 ,011 ,921 1,086 ,813*ia -,026d -1,263 ,207 -,035 ,940 1,064 ,816x í3 —,088d -3,546 ,000 -,099 ,653 1,531 ,640*14 -,044d -1,963 ,050 -,055 ,829 1,207 ,809

Page 107: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 119

Modelo Betadentro t Sig Correlación

parcial Tolerancia FiV Toleranciamínima

X2 - ,0 1 6e -.788 ,431 -.022 ,950 1,052 ,637X -,049® -2,414 ,016 -,067 ,994 1,006 ,639X, ,012e ,567 ,571 ,016 ,957 1,045 ,636X-, ,042® 1,912 ,056 ,054 ,832 1,201 ,635Xs -.030® - 1 ,33P ,182 -,037 ,788 1,270 ,633X9 -,002e -.097 ,923 -,003 ,890 1,123 ,637X n ,008a ,386 ,700 ,011 ,921 1,086 ,640X 12 -.027* -1,286 ,199 -,036 ,940 1,064 ,639* 1 4 ™,042e -1,887 ,059 -,053 ,828 1,208 ,630

X2 ~,018f -,868 ,386 -,024 ,949 1,053 ,,636x4 ,009* ,430 ,668 ,012 ,953 1,049 ,634X7 ,040' 1,820 ,069 ,051 ,831 1,203 ,633x a -,028 ' -1,233 ,218 -,035 ,786 1,272 ,631x 9 -,0 0 1 f -,047 ,963 -.001 ,890 1,124 ,635X,1 ,012' . ,586 ,558 ,016 ,915 1,093 ,638x 12 -.021 ' -1,026 ,305 -,029 ,928 1,077 ,637

-,038 f -1,741 ,082 -,049 ,825 1,212 ,628

° a Variables predictoras: (constante), simpatía latinoamericano; b Variables predictoras: {constante), simpatía ía!i~ noamericano, casar con marroquí; c Variables predictoras: (constante), simpatía latinoamericano, casar con ma­rroquí, leyes inmigración;d Variables predictoras; (constante), simpatía Satinoamericano, casar con marroquí, le­yes inmigración, n.° de inmigrantes; e Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes, vecino marroquí;' Variables predicíofas: (constante), simpatía la­tinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes, vecino marroquí, sexo.

• Y: “simpatía hacía norteafricano {marroquí...)'' (P201); X(: “leyes inmigración'1 (P16); Xa: “ideología política" (P39); X : “sexo" (P41); X4; “edad1’ (P42); X5; “simpatía hacia latinoamericanos” (P210); Xe: 'Inúmero de inmigrantes' (P11); Xr: “regularizara inmigrantes" (P19); Xa: "entrada inmigrantes" {P21); X9: “partido racista" (P37); Xt0: “casar con ma­rroquí" (P306); X „: “estudios'’ (P43a); X12: “ingresos" (P52); X13: “vecino marroquí” (PSQ6); X14: “inmigrante delin­cuente" (P2904).

1.6.2, Alternativas a la regresión de mínimos cuadrados ordinarios

El análisis de regresión expuesto en este capítulo resulta de la aplicación del principio de “mínimos cuadrados ordinarios” (OLS). El incumplimiento de alguno o varios de sus supuestos básicos puede llevar, sin embargo, a la aplicación de procedi­mientos de regresión alternativos. A continuación se resumen rasgos diferenciadores de opciones alternativas más habituales:

A ) Regresión de mínimos cuadrados ponderados

El análisis de regresión de mínimos cuadrados ponderados (WLS) se presenta co­mo una alternativa .deseable cuando se incumplen, principalmente, dos de los supuestos básicos de ia regresión de mínimos cuadrados ordinarios: homocedasticidad e inde­pendencia de los términos de error (subapartados 1.1.7 y 1.1.9, respectivamente).

Page 108: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

120 Análisis rnultivariable. Teoría y práctica en la investigación social

Como su nombre indica, este procedimiento de regresión se caracteriza por “pon­derar” los datos por el recíproco de su varianza, de forma que los “pesos” sean inversa­mente proporcionales a la varianza de los errores. De esta manera se logra una cierta re­distribución de la varianza: “Las observaciones con varianzas más grandes tienen menos impacto en las observaciones asociadas con varianzas pequeñas” (Nourisis, 1994:223).

Si se quiere, se especifica un rango de potencia (el rango usual va de 0 a 3) y un in­cremento (por ejemplo, 0,2). En programas como el SPSS, por ejemplo, el rango de po­tencia aplicado por defecto va de -2 a +2, y el incremento es 075. Después se evalúa la función de “log-likelihood” para todas las potencias incluidas en el rango; y se procede a la selección de la potencia que haga máxima la función de máxima verosimilitud (“log-likelihood”). La variable independiente (elevada a una potencia 0,1,2 o 3) que logre un mayor “log-likelihood” se introduce en la ecuación de regresión. Después se calculan los coeficientes de regresión.

Esto se hace para la variable independiente que se haya escogido como variable de ponderación, al observarse (por ejemplo, mediante un gráfico bivariable de cada variable independiente con la dependiente) que la variabilidad de la variable dependiente no se mantiene constante para todos los valores de la variable independiente. Por el contrario, se halla relacionada con la magnitud de dicha variable independiente, que aumenta o dis­minuye (recuérdese el ejemplo del “gasto en vacaciones”, cuando se observa una mayor variabilidad entre las personas de un mayor nivel de ingresos que entre aquellos de un nivel de renta inferior), lo que supone la existencia de heterocedasticidad.

Las mejoras de la regresión de mínimos cuadrados ponderados respecto al pro­cedimiento de mínimos cuadrados ordinarios no son tanto en los coeficientes de re­gresión, sino en el error típico de los coeficientes. Éstos suelen ser inferiores a los ob­tenidos en la regresión OLS. Ello significa una mejor estimación de los parámetros, más precisa, con la menor varianza posible.

B) Regresión no lineal: regresión polinómica y la estimaciónde máxima verosimilitud

Cuando los datos a analizar no cumplen el supuesto de linealidad, habrá que op­tar por un procedimiento de regresión “no lineal”. Sea el caso, por ejemplo, de la re­gresión logística (véase capítulo 2) y, en general, de la estimación de parámetros (in­tercepto, coeficientes de pendiente, errores de estimación) mediante el método de máxima verosimilitud (ML). Se trata de encontrar la serie de estimaciones de pará­metros que haga máxima la probabilidad de ocurrencia (véase el capítulo referido).

Pero ésta no es la única solución ante la “no linealidad”. Existen otras que resul­tan de transformaciones en la ecuación de regresión, que permiten la aplicación del principio de mínimos cuadrados ordinarios. Entre estas transformaciones destaca la transformación logarítmica de la variable dependiente, añadiendo 1 a ia variable de­pendiente para, a continuación, tomar el logaritmo natural. La razón de añadir 1 es evi­tar tomar eí logaritmo natural de 0, que es indefinido. Medíante esta transformación, la ecuación de regresión adopta la forma siguiente: ln(F + 1) = a + + fi2X 2 + - + /L-Vp;

Page 109: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo i: Regresión múltiple 121

o equivalentemente: (Y + 1) = ea * + - + &pxp. Esto es igual a: Y = £<* + &*! +... i-PpXp-i; siendo “e” la base del logaritmo natural, que es igual a 2,72.

Otras transformaciones son la polinómica y ía exponencial. Ambas permiten la apli­cación del principio de mínimos cuadrados ordinarios, cuando se incumple el su­puesto de linealidad. En la polinómica, la variable dependiente se considera una función de una variable independiente y una o más potencias de dicha variable:

y = a + + ¡52X \ + P3X \ + ... + Pmx ,»+ e

Así se habla de modelo polinómico de orden 2, cuando la variable independiente se eleva al cuadrado (Y = a + [ííX l + j32X \ + e); y de orden 3, si se eleva al cuadrado y al cubo (Y = a + + ^ X \ + &X ̂+ e).

La transformación polinómica se muestra apropiada cuando se observa que la re­lación entre una variable independiente y la dependiente cambia de signo, conforme aumenta el valor de la variable independiente. En cambio, la transformación expo­nencial se adecúa más cuando la relación entre la variable independiente con ía de­pendiente aumenta o disminuye en magnitud, ai cambiar el valor de la variable in­dependiente (y no tanto de signo). Depende del coeficiente de pendiente: si es mayoro inferior a 1,0. Si es mayor de 1,0, la pendiente crece; si es inferior, disminuye.

En la regresión exponencial la estimación de los coeficientes exige tomar logarit­mos a ambos lados de la ecuación. Ésta adopta la forma siguiente:

log Y = log a + j3(log X) + íog e

Una última transformación la ofrece el modelo hiperbólico (o recíproco), definido co­mo: Y - a + ¡i (1 íX) i- £. Berry y Feldman (1985) destacan como característica díferen- dadora de este último modelo que, cuando el valor de la variable independiente X au­menta infinitamente, el valor esperado de Y se aproxima a “a ”. El valor esperado de Y será inferior a “ce” cuando “/J”es negativo. Y si “/3” es positivo, el valor esperado de Y se­rá mayor que “a ”; y se aproximará a “a ” desde arriba (y no desde abajo, como sucede cuando “/?’ es negativo). Una información más detallada de estas transformaciones se en­cuentra en textos especializados, como el de Berry y Feldman (1985) y el más reciente de Menard (1995). La transformación logarítmica y su repercusión en el análisis de regresión se incluyeren el siguiente capítulo, dedicado al análisis logit.

LECTURAS COMPLEMENTARIAS

Allison, P. D. (1.999). Múltiple regression, California, Sage.Berry, W. D. (1993). Understanding regression assumptions, Newbury Park, Sage. Fox, J, (1991), Regression diagnosücs, Newbury Park, Sage.Graybill, F. A. e Iyer, H. K. (1994). Regression analysis. Concepta, and applications, Ca­

lifornia, Duxbury Press.Guillen, M. E (1992). Análisis de regresión múltiple, Madrid, CIS, Cuaderno Meto­

dológico n. ° 4.

Page 110: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

122 Análisis multivariable. Teoría y práctica en la investigación social

Hair, I F., Anderson, R, E., Tathan, R. L. y Black, W. C. (1999). Análisis multívariante, 5.a edición, Madrid, Prentice Hail.

Hardy, M. A. (1993). Regression with dummy variables, Newbury Park, Sage. Lewis-Beck, M, S. (1980). Applied regression. An introduction, Beverly Hills, Sage. Miles, J. y Shevlin, M. (2000). Applying regression and correlation, Newburry Park, Sage. Sen, A. y Srivastava, M. (1990). Regression analysis: theory; methods and applications,

Nueva York, Springer-Verlag.

EJERCICIOS PROPUESTOS

1. Con la misma base de datos, se quiere predecir el valor de la variable “ingresos” a partir de cuatro variables independientes: sexo, edad, estudios y tamaño del municipio. Comenta cada uno de los siguientes resultados:

Correlaciones

Ingresos Sexo E dad Estudios M unicipio

Correlación de Pearson Ingresos 1,000 ,107 -,291 ,471 ,239Sexo ,107 1,000 -,058 ,080 -,003Edad -,291 “,058 1,000 -,442 -,032Estudios ,471 ,080 -,442 1,000 ,228Municipio ,239 -,003 -,032 . ,228 1,000

Sig. (unilateral) Ingresos ,000 ,000 ,000 ,000Sexo ,000 ,002 ,000 ,432Edad ,000 ,002 ,000 ,053Estudios ,000 ,000 ,000 ,000Municipio ,000 ,432' ,053 ,000

N Ingresos 1.793 1,792 1.792 1.614 1.793Sexo 1.792 2.492 2.491 2.280 2.492Edad 1.792 2.491 2.492 2.280 2.492Estudios 1.614 2.280 2.280 2.281 2.281Municipio 1.793 2.492 2.492 2.281 2.493

Resumen del modeloe

M odelo R R cuadrado R cuadrado corregida

E rror tip. de la estim ación

Durbin-Watson

1 ,471a ,222 ,222 92.838,31132 ,490b ,240 ,240 91.767,48283 ,501c ,251 ,250 91.155,76644 ,506d ,256 ,254 90.881,5199 1,856

* Variables predictoras: (constante), estudios. b Variabíes predictoras: (constante), estudios, municipio, c Variables predictoras: (constante), estudios, municipio, edad. d Variables predictoras: (constante), estudios, municipio, edad, sexo. c Variables predictoras: (constante), ingresos.

Page 111: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1; Regresión múltiple 123

A N O V A

M odeloSuma de

cuadradosGrados de

libertadMedia

cuadrática F Significación

Regresión 3.969E+Í2 1 3,969E+12 460,455 ,000Residual ■ 1,389E+13 1612 8.619E+Ö9

Regresión 4,296E+12 2 2.148E+12 255,052 ,000Residual 1.357E+13 1611 8,421E+09

Regresión 4,484E+12 3 1,495E+12 179,889 ,000Residual l,338E-¡-13 1610 8.3Ö9E+09

Regresión 4,573E+12 4 1,143E+12 138,415 ,000Residual 1,329E+13 1609 8.259E+09

Coeficientestt

M odeloCoeficientes no estandarizados

Coefic.estándar. t Sig.

Estadísticos de colinealidad

B E rror tip. Beta Tolerancia FIV

1 (Constante) 55123,S24 4539,826 12,142 ,000Estudios 41368,712 1927,874 ,471 21,458 ,000 1,000 1,000

2 (Constante) 52539,797 4506,572 11,658 ,000Estudios 38590,370 1957,089 ,440 19,718 ,000 ,948 1,055Municipio 2,344 E-02 ,004 ,139 6,232 ,000 ,948 1,055

3 (Constante) 91911,243 9399,107 9,779 ,000Estudios 33973,633 2172,209 ,387 15,640 ,000 ,759 1,317Municipio 2,483 E-02 ,004 ,147 6,627 ,000 ,942 1,061Edad. -666,821 138,975 -,115 -4,764 ,000 ,800 1,250

4 (Constante) 85163,544 9594,543 8,876 ,000Estadios 33515,980 2170,175 ,382 15,444 ,000 ,756 1,322Municipio 2,508 E-02 ,004 ,149 6,712 ,000 ,942 1,062.Edad -656,238 139,591 -,113 —4,701 ,000 ,800 1,250Sexo 14889,155 4545,079 ,071 3,276 ,001 ,993 1,008

" Variable dependiente: ingresos.

Page 112: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Frec

uenc

ia

124 Análisis multivariable. Teoría y práctica en la investigación social

Variables excluidas11

M odelo Betadentro

í Sig, Correlaciónparcial

Estadísticos de colinealidad

Tolerancia FTVTolerancia

mínima

í Sexo ,070a 3,185 ,001 ,079 ,994 1,006 ,994Edad -,102a - 4,204 ,000 - ,104 ,805 1,242 ,805Municipio ,139a 6,232 ,000 ,153 ,948 1,055 ,948

2 Sexo ,073b 3,364 ,001 ,084 ,993 1,007 ,942Edad - ,115b - 4,764 ,000 -,118 ,800 1,250 ,759

3 Sexo ,071c 3,276 ,001 ,081 ,993 1,008 ,756

3 Variables predictoras en el modelo: (constante), estudios. b Variables predictoras en el modelo: (constante), estudios, municipio. c Variables predictoras en ei modelo: (constante), estudios, municipio, edad. d Variable dependiente: ingresos,

Histograma Gráfico de regresión parcialVariable dependiente: ingresos Variable dependiente: ingresos

Regresión residuo tipificado Edad

2. En la investigación “Las consecuencias psicosociales del cuidado informal a per­sonas mayores” de Julián Montoro Rodríguez (Revista Internacional de So­ciología (RIS), mayo-agosto, 1999:7-29) se analizan las consecuencias del cui­dado asistencial en los cuidadores derivadas de la ayuda informal a personas mayores con dependencia o discapacidad. Las variables independientes son: a) por parte del cuidador: edad (en años), género (mujer = 1), situación laboral (trabaja tiempo parcial o completo = 1), posición subjetiva respecto de la cla­se social (baja =1, media/baja =2, media =3, media/alta =4, alta =5), salud subjetiva (muy mala =1, mala =2, regular =3, buena =4, muy buena =5), tiem­po como cuidador (meses), horas semanales de dedicación a actividades rela­cionadas con el transporte, ios asuntos bancarios o legales, las comidas y lim-

Page 113: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

Capítulo 1: Regresión múltiple 125

pieza de la casa y el cuidado personal, y la relación de parentesco (cónyuge =1);b) por parte de la persona mayor dependiente: edad (años), género (mujer =1) y la corresídencia (vive con familia = 1). Se realiza un análisis de regresión múl­tiple (tras un análisis factorial para resumir los indicadores) “paso a paso” de in­clusión y eliminación de variables. En la medición de los factores que influyen en ía actitud depresiva de los cuidadores (N = 202) se obtienen los siguientes re­sultados en cada uno de los cuatro pasos de que consta el análisis (coeficientes beta). Coméntese los resultados.

Variables independientes Depresión ; actitud

M odelos I II III IV

Factores de contexto Persona mayor:

Edad Género Corresídencia

Cuidador:

-,13*-,12*

-,13**

Edad ,19** ,18** ,17** ,23***GéneroTrabaja

,12* ,13* ,11*

Ciase social subjetiva -,24*** -.25*** -,20***Salud subjetiva -,33*** -,34*** -,29*** -,22***Tiempo como cuidador Dedicación horas semanales Relación familiar: Esposo/a

-.11* -,12** -11** -,12**

R cuadrado ajustado ,23 ,23 ,32 ,41Cambio en R cuadrado ,27*** ,27*** ,10*** ,08***T estF 6,50*** 5,60*** 6,30*** 7,60***

* p < ,10; ** p < ,05; ***¿? < ,01

3. En eí estudio de Joan Font (1992) “La abstención en las grandes ciudades, Ma­drid y Barcelona” (REIS, n.° 58:123-139), se obtienen los resultados siguientes. Coméntese.

Participación Madrid = 75,4 - 0,5 Paro + 0,13 Asociación + 0,12 Estudios + 0,02 tamaño población Error St. 0,19 0,06 1,08 0,05C oef.T 2,7 2,2 1,6 0,4Error Y = 3,7 R2 = 0,51 Grados de libertad = 22

Participación Barcelona = 76,4 - 0,39 Inmigración + 0,15 Trabajo - 0,17 Estudios - 0,39 Paro Error St. 0,15 0,06 0,13 0,18C oef.T 2,2 2,5 1,3 2,5Error Y = 2,5 R2 = 0,56 Grados de libertad = 22

Page 114: Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple

126 Análisis rnultivariable. Teoría y práctica en la investigación social

4. Pedro L. Iriso y David-Sven Reher obtienen en su estudio de 1987 “La fecun­didad y sus determinantes en España, 1887-1920. Un ensayo de interpretación” (REIS, n.° 39: 45-118) varios modelos explicativos de la fecundidad matrimonial en España para el mundo urbano y rural, mediante la aplicación del análisis de regresión lineal. Coméntense los siguientes resultados referidos a la fecundidad matrimonial rural de 1900:

Matriz de betas y de correlaciones simples para fecundidad matrimonial rural, 1900

11 10 9 8 7 6 5 4 3 2 Î

Jornaleros (11) ,402 ,595 ,320 ,207 -.153 ,561 ,242 -,150 -,167 ,013(,402*) (,651*) (.681*) (,445*) (.321) (,565*) (,608*) (-,085) (,048) (-.396*)

Pob. no agr. rural (10) ,140 ,267 -,087 -,158 -,493 -,013 -,661 ,057 -,210(,377*) {,532*) (,101) (,131) (-,106) (.282) (-,429*) (-,324) (-,110)

Migración (9) ,396 ,596 ,244 ,340 -,057 - ,047 ,276(,703*) (,576*) (,481*) (,483*) (.526*) (,279) (-,424*)

Urbanización prúv. (8) -,065 ,586 ,058 ,376 ,538 -.056 ,215(,420*) (,561*) (,352*) (,611*) (,058) (,186) (-,316)

Razón act, masculina (7) ,049 -,118 ,166 - -,161 -,679(,458*) (.230) (.459*) (,300) (-,507*)

Mercado matr. (6) - - ,335 -

,115 (.614*)Analfabetismo (5) (,416*) -,059 ,175 - 3 9

(,120) (,204) (-,527*)Secularización prov. (4) - ,099 -,051

(,354*) (-,442*)5<U(3) ,760 ,825

(,751*) (-1,03)Npcialidad (Im) (2) -,176

(-,412*)Fecun. Matr. ( y (1)

M il tiple R ,402 ,663 ,802 ,671 ,635 ,727 ,684 ,558 ,917 ,859

• “Jornaleros" y “población agraria” se expresan en tanto por ciento, “Migración”: el valor 1,000 expresa un saldo migratorio nulo; un valor por debajo de 1,000 indica emigración, “Urbanización”: porcentaje de población que vive en cascos urbanos de más de 5,000 habitantes, “Ratón de actividad”: población masculina en edades activas / población masculina en eda­des no activas, “Mercado matrimonial”: razón de mascuiinidad en tomo a la edad media al casarse, “Analfabetismo”: por­centaje de población > 10 años que no sabe leer ni escribir, “Secularización”: porcentaje de voto a la izquierda, “3 q,)” = fallecidos entre 0 y 5 años por mil nacidos, “Nupcialidad” = Im, “Fecundidad matrimonial" =

' « Entre paréntesis: correlaciones simples. Sin paréntesis: coeficientes beta.• El asterisco (®) indica que la correlación es significativa para p » ,01.

1 (.576) ,396 (,703)

Migración

,586 p ----------------------------------Mercado matrimonial

,679(-,507)

(-.527)

Sólo se incluyen las relaciones (beta) que directa o indirectamente explican la variable dependiente en más de 0,300o (-0,300). Entre paréntesis, correlaciones simples; sin paréntesis, los coeficientes beta.