CUADERNO DE CÁTEDRA Nº 5 - catedras.fsoc.uba.ar N5... · El Cuaderno de Cátedra Nº 3...

25 UBA Sociales ANIVERSARIO 1988 – 2013 FACULTAD DE CIENCIAS SOCIALES

CARRERA DE SOCIOLOGÍA – UBA METODOLOGÍA DE LA INVESTIGACIÓN

CÁTEDRA: COHEN

CUADERNO DE CÁTEDRA Nº 5

“Análisis Descriptivo de los Datos”

Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid

1

Cuaderno de cátedra Nº 5 “Análisis Descriptivo de los Datos” Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid

1. Introducción

En este Cuaderno de Cátedra se presentarán algunas nociones elementales de análisis descriptivo de datos producidos con un enfoque cuantitativo. Si bien en algunos manuales de metodología de la investigación y estadística social la denominación “estadística descriptiva” alude al análisis univariado, el presente documento se referirá al análisis que vincula variables entre sí, advirtiendo que para cumplir cabalmente objetivos descriptivos no es suficiente con conocer la distribución de cada variable por separado, sino que se requiere complejizar el análisis introduciéndose en las relaciones entre variables1. Este Cuaderno de Cátedra se concentrará en la etapa de análisis cuantitativo de datos organizados en tablas, para objetivos descriptivos, de relaciones bivariadas de cualquier nivel de medición. En primer lugar, se presentará un marco general del análisis descriptivo en investigaciones con abordajes cuantitativos, de modo tal de situar el tema de este trabajo en el proceso general de investigación social. En los siguientes apartados se presentarán la prueba de hipótesis de ji cuadrado, los coeficientes de asociación y la lectura de porcentajes, en tanto herramientas cuyo uso conjunto permite aprovechar su complementariedad. El Cuaderno de Cátedra Nº 3 “Elaboración y análisis de distintos tipos de cuadros” profundiza el proceso de elaboración e interpretación de cuadros, por lo cual se recomienda su lectura previa. El Cuaderno Nº 1 “La aplicación de técnicas multivariadas en Ciencias Sociales” avanza sobre el análisis de más de dos variables simultáneamente, desarrollando contenidos necesarios para comprender cómo extender al análisis multivariado las herramientas desarrolladas en el presente cuaderno. En el anexo del Cuaderno, se presenta el desarrollo de un ejemplo de aplicación de las herramientas desarrolladas a continuación.

1 El análisis descriptivo requiere del estudio de las relaciones entre variables, dado que el análisis de cada variable por separado no es suficiente a tal fin. Complementariamente con ello, el análisis de las relaciones entre dos variables no implica alcanzar una explicación del fenómeno en estudio. Para tal fin se requiere emprender un análisis multivariado. Ver cuaderno de cátedra número 1.

2

2. Análisis descriptivo de datos cuantitativos Un proceso de producción de conocimiento puede tener distintos tipos de objetivos, de acuerdo con los cuales se elaborará un adecuado desarrollo metodológico de investigación. Los objetivos, en tanto metas que orientan el avance de una investigación, permiten llevar a cabo la producción de los datos adecuados para intentar responder a los interrogantes que dieron origen al proceso (Cohen y Gómez Rojas, 2003). Los objetivos de tipo descriptivo implican que la meta consiste en llegar a representar el objeto de estudio, delineando sus principales características, refiriendo sus componentes y dando cuenta del comportamiento de algunos de sus atributos y relaciones más relevantes. El aspecto principal de la descripción para la producción de conocimiento científico reside en poder establecer vínculos entre conceptos. Los datos, a pesar de su origen etimológico (del latín datum, lo dado), son construidos siempre desde una perspectiva teórica, para responder a una determinada problemática, mediante la aplicación de técnicas y procedimientos que también implican supuestos teóricos. Puede advertirse que expresiones tales como “recolección de datos” poseen connotaciones que pueden contribuir al error de pensar los datos sólo en su contenido informativo, olvidando que el mismo resulta inseparable de la elaboración conceptual y operativa del investigador. Una vez realizada la etapa de relevamiento, cuando se trabaja con un abordaje cuantitativo, se elabora una matriz que clasifica cada caso según el valor que asume en cada variable, constituyéndose una estructura tripartita de los datos (Galtung, 1973). Esta matriz de datos contiene de manera desagregada toda la información que ha sido registrada en la etapa de trabajo de campo y a partir de la cual será posible pasar a la etapa del análisis de los datos. Las variables de una matriz de datos, cabe destacar, no son sino aquellos conceptos que se ha decidido que debían ser considerados en el relevamiento a partir de los interrogantes, los objetivos, las hipótesis y el marco teórico de la investigación. La matriz vuelve visible la estructura tripartita de los datos -unidades de análisis, variables y categorías-, lo que resulta ventajoso puesto que “poniendo diferentes referentes del mismo tipo en sus filas y la misma secuencia de propiedades en sus columnas, permite relacionar rápida y sistemáticamente un sinnúmero de estados de los mismos objetos/sujetos en distintas propiedades, controlando así si existe una relación cualquiera entre esas propiedades” (Marradi, Archenti y Piovani, 2010: 5). Esta ventaja tiene como contracara un costo semántico, derivado del supuesto atomista, que implica asumir que cada caso puede descomponerse en propiedades, que los estados en una propiedad pueden separarse de su

3

detentador y que los datos con el mismo valor en la misma variable son asimilables entre ellos (Op.cit., pp.5-6). De cualquier manera, con la matriz por sí sola no es posible avanzar en el análisis. Es necesario retomar los interrogantes, objetivos e hipótesis para determinar qué es lo que ha de analizarse. Es necesario decidir cuáles son las variables de estudio cuyo comportamiento merece ser observado individualmente por presentar interés en sí mismo y cuáles variables interesan para ser observadas en su relación con otras. En este último caso, el hecho de que haya relaciones entre variables que se consideren relevantes para analizar obedece a la existencia de hipótesis, es decir, supuestos acerca de los posibles vínculos entre conceptos susceptibles de ser confrontados con los datos. Para comenzar a describir cuantitativamente una población, pueden emplearse análisis univariados, es decir, del comportamiento de cada una de las variables de interés por separado, mediante distribuciones de frecuencias absolutas, relativas y acumuladas, gráficos, medidas de tendencia central, de posición y de dispersión, como un primer modo de analizar y caracterizar los casos con los que contamos en un proceso de investigación. Por ejemplo, cuando las unidades de análisis son personas puede ser interesante describir la distribución de los casos según variables sociodemográficas como sexo, edad, lugar de residencia, estado civil, máximo nivel educativo alcanzado, etc. También puede ser relevante observar el comportamiento de las variables de estudio, aquellas en las que se enfoquen las preguntas y objetivos, y que en los análisis bivariados frecuentemente pasarán a ser las variables dependientes, cuya variación se procurará comprender. El análisis univariado brinda, entonces, un panorama introductorio sobre cómo se comportan los fenómenos, a partir de la descripción de las distribuciones de cada variable por separado. Es a partir del análisis bivariado que se vuelve posible describir las relaciones entre variables del fenómeno en estudio. Cuando se decide qué es relevante observar de la relación entre dos o más variables es porque se ha propuesto una hipótesis de trabajo. Si bien estas hipótesis surgen de nuestro enfoque teórico, a lo largo del proceso de investigación puede que surjan otras, producto del avance de nuestro conocimiento en la problemática. En el proceso de construcción de las tablas que concentran nuestros datos es donde nuestras hipótesis comienzan a verse reflejadas. Si bien su contrastación permite avanzar en la producción de conocimiento, generalmente no agotan en sí mismas los objetivos de investigación, sino que es el conjunto de estas hipótesis de trabajo, contrastadas en las tablas que se producen, con la articulación teórica y la ilación lógica que le

4

confieren quienes investigan, lo que puede dar respuesta a los interrogantes y cumplir los objetivos. Las hipótesis, constituidas por relaciones entre conceptos del marco teórico, permiten vincular este universo conceptual con los datos. Los datos son producto de un proceso teórico de construcción y sólo desde la teoría pueden ser interpretados, siendo las hipótesis las mediaciones imprescindibles que expresan lo que desde la teoría se espera que ocurra con los datos producidos. En el momento de planear el análisis, el protagonismo lo tienen las hipótesis, que permiten avanzar en el procesamiento para obtener las tabulaciones previstas a fin de cumplir los objetivos y responder los interrogantes. Se deben determinar las variables que deben ser relacionadas y, preferentemente, tener en claro de qué modo se espera que se vinculen las categorías de las variables entre sí. El tipo de hipótesis, el nivel de medición de las variables, los roles que cumplen las variables en la hipótesis, la cantidad de casos con que se trabaje y la cantidad de categorías de las variables -y su posible reagrupamiento en otros sistemas de categorías- son todos aspectos que entran en juego en las posibilidades y restricciones de tratamiento estadístico de los datos. El plan de análisis2 implica una labor de previsión y reflexión sobre las estrategias de análisis y el detalle de procedimientos que deben llevarse a cabo para cumplir los objetivos. El plan de análisis cuantitativo contiene un plan de cuadros, esto es, las decisiones relativas a todas las tablas que se confeccionarán, formalizando las hipótesis que se tengan, en torno a las cuales se han de interpretar los datos producidos. Cada tabla que se elaborará tiene su razón de ser en que hay un supuesto teórico acerca de lo que ocurrirá con los datos. Si en lugar de darle formato de procesamiento a las hipótesis se procediera observando todos los cruces posibles de variables, esta sería una tarea no sólo innecesaria y engorrosa, sino ante todo carente de relevancia teórica, que tendría como resultado datos desconectados de la teoría, que por sí solos no pueden constituir un avance en la producción de conocimiento científico. Una vez que se ha procesado y tabulado los datos según el plan de análisis, se está en condiciones de avanzar en el análisis para cumplir los objetivos. “La producción de evidencia empírica es una condición necesaria pero no suficiente para llevar a cabo una investigación; los datos construidos u obtenidos deben ser

2 El plan de análisis expresa aquellos supuestos que nos hemos planteado respecto a las maneras en que las variables van a comportarse en función de las vinculaciones que establezcamos a partir de cómo esperamos que se conecten sus categorías. Esto es, en función de las hipótesis de trabajo que nos hayamos propuesto tendremos como resultado un determinado plan de análisis que expresará luego la manera en que se presentarán en los cuadros nuestras variables.

5

analizados a la luz de la teoría que guía y da sustento al estudio” (Sautu, 2010: 128). Tanto la producción de datos como las decisiones relativas al análisis deben entenderse en el marco de lo que constituye una estrategia teórico-metodológica de contrastación del universo de conceptos con el fenómeno de estudio, para la resolución de los problemas de investigación que se plantean desde una perspectiva teórica con determinado estado de conocimiento acumulado (Cohen, 1997). Cuando se trabaja con abordajes cuantitativos, se utilizan habitualmente herramientas estadísticas para el análisis, pero es necesario no asimilar por completo análisis cuantitativo y análisis estadístico. “No hay nada más técnico (en el sentido de conocimiento objetivado, impersonal, basado en procedimientos normados, recurrentemente aplicables y ampliamente aceptados) en la investigación estándar que sus herramientas de análisis (estadístico) (…) Esto no significa que las técnicas estadísticas resuelvan por sí solas los múltiples y complejos aspectos que encierra la mediación entre un conjunto de informaciones empíricamente construidas y algún tipo de interpretación de éstas” (Marradi, Archenti y Piovani, 2010: 264). En el mismo sentido, Blalock (1986) recuerda que la estadística no comprende problemas como los de medición, sino que las consideraciones estadísticas intervienen en decisiones relativas a la construcción de la muestra y a la manipulación de cifras, dando por supuesto el cumplimiento de requisitos en la medición. El hecho de que la estadística sólo intervenga en algunas decisiones técnicas del muestreo y análisis no debe entenderse como si el investigador pudiera llevar a cabo su trabajo sin conocimiento de estadística y delegar en un especialista el análisis estadístico, sino que los problemas del análisis han de anticiparse, influyendo las consideraciones estadísticas a lo largo de todo el proceso de investigación. Teoría, metodología y técnicas deben articularse reflexivamente, atendiendo a la coherencia y ejerciendo vigilancia epistemológica. El clásico concepto de espacio de propiedades, desarrollado por Barton (1973), resulta elemental para aprehender los fundamentos de la metodología cuantitativa y el recurso a las técnicas estadísticas. Pensar en términos de un espacio de propiedades significa que las celdas que devienen de la combinación de dos o más atributos pueden comprenderse de manera análoga a los puntos establecidos a partir de un sistema de coordenadas. Cada espacio de propiedades clasifica un subconjunto de casos que presentan simultáneamente las dos o más propiedades cuya combinación genera el espacio. A partir de la distribución de los casos en los espacios de propiedades, con el auxilio del cálculo de porcentajes, es posible examinar las relaciones entre variables mediante una lectura comparativa de las frecuencias.

6

3. Tres recursos para el análisis de relaciones entre variables Siguiendo a García Ferrando (1995: 218), se puede caracterizar la relación entre dos variables según la existencia de asociación, la fuerza, la dirección y la naturaleza de la misma. La existencia de asociación implica que la distribución de una variable difiere de algún modo entre las categorías de la segunda variable, alejándose de la independencia estadística3, lo cual puede determinarse a partir del análisis de diferencias porcentuales y de la comparación de las frecuencias esperadas con las observadas, mediante la prueba de hipótesis de ji cuadrado, esta última para los casos en que se trabaje con muestras probabilísticas. El grado o fuerza de la asociación varía según cuánto se aleje la relación de la independencia estadística. Como las diferencias porcentuales y la comparación entre frecuencias observadas y esperadas no varían de una forma predeterminada, se han establecido algunos coeficientes estandarizados, que varían de forma fija entre un valor mínimo –cero- y un máximo –uno-, facilitando su interpretación. Estos coeficientes permiten conocer también, cuando las variables son como mínimo de nivel de medición ordinal, la dirección de la asociación, que puede ser positiva, cuando los valores altos de una variable se corresponden con los valores altos de la otra -y los valores bajos con los valores bajos-, o negativa, -cuando los valores altos de una variable se corresponden con los bajos de la segunda -y viceversa-4. Por último, la naturaleza es la forma general en que se distribuyen los datos en un cuadro, que puede ser lineal o diagonal, curvilineal o rinconal e irregular; esta última forma sólo puede ser examinada mediante la lectura analítica del cuadro, ya que las medidas resumen de asociación no permiten medirla sino que la presuponen en las operaciones que realizan para calcular la fuerza. Siguiendo esta lógica, un primer paso en el análisis de los datos5 en función de una hipótesis puede darse mediante el test de significación estadística de ji cuadrado (χ2) que permite establecer si existe relación estadísticamente significativa entre las variables o si hay independencia estadística. El ji cuadrado

3 Entendida como la inexistencia de relación entre las variables analizadas. Ello refiere a que cualquiera sea el valor que asuma una variable en estudio A, la variable B se mantendrá constante. 4 Es importante aclarar que en las asociaciones observadas para variables de nivel de medición nominal, éstas también poseen un sentido en cuanto a su relación, pero este no puede interpretarse a partir de un signo positivo o negativo, sino que se hace observable a partir del modo en que se distribuyen las frecuencias al interior de la tabla. 5 Si bien en este artículo hemos propuesto una secuencia de estas herramientas no implican en sí mismas un orden ni jerarquía preestablecida.

7

nos permite testear si las relaciones entre las variables e hipótesis observadas en una muestra probabilística puede ser extrapolada al universo con un determinado nivel de confianza. Esta prueba de hipótesis define el escenario estadístico en que se trabaja, por eso constituye un buen primer paso en el análisis. Queda definido así el contexto respecto a la existencia o no de una relación estadísticamente significativa, e independientemente del resultado del test6, es posible contar con un panorama de la fuerza y el sentido de la relación entre variables mediante coeficientes de asociación, los cuales son medidas resúmenes estandarizadas que permiten conocer grosso modo qué ocurre con una relación entre variables. En una única medida se sintetiza la intensidad de la relación y, en algunas de ellas, permite conocer también el sentido. Este sentido o dirección de la relación puede ser positivo -cuando ambas variables crecen o decrecen conjuntamente- o negativo -cuando una crece mientras la otra decrece- cuyo nivel de medición es ordinal o mayor. Con la prueba de hipótesis y los coeficientes de asociación ya se cuenta con una primera aproximación global y sintética de la relación estudiada. Con la lectura analítica de porcentajes es posible conocer en detalle cómo se distribuyen las unidades de análisis en los espacios de propiedades generados por la tabulación cruzada de variables de cualquier nivel de medición. Dado que en la mayoría de los casos las covariaciones no son perfectas ni lineales, la lectura de porcentajes permite analizar las particularidades de cada cuadro con respecto a la forma de distribución de unidades de análisis en los espacios de propiedad, visualizando, por ejemplo, de qué modo una hipótesis puede tender a corroborarse parcialmente, en distinta medida para algunas categorías de la variable dependiente que para otras. En lo que sigue, se presentará cada una de estas tres herramientas de análisis descriptivo de relaciones bivariadas: ji cuadrado, coeficientes de asociación y lectura de porcentajes. Este conjunto de recursos usados en combinación permiten realizar un análisis exhaustivo de lo que ocurre en los datos para cada hipótesis de trabajo, complementando la información global que proporcionan la prueba de hipótesis y los coeficientes con la lectura desagregada de las distribuciones porcentuales en los espacios.

6 Cabe destacar que si en una investigación las relaciones entre variables observadas no pueden ser extrapolables al universo –no son estadísticamente significativas-, pueden igualmente ser teóricamente relevantes para la población a partir de la cual se han construido los datos.

8

Ji cuadrado como prueba de significación estadística Cuando dos variables están relacionadas varían conjuntamente en algún grado, existiendo covariación o varianza en común. Cuando la covariación o varianza en conjunto de ambas variables alcanza su nivel máximo -en que toda la varianza de una variable coincide con la varianza de otra- existe una asociación perfecta. Por la complejidad y multicausalidad del mundo social, no es habitual en ciencias sociales encontrar asociaciones perfectas entre variables. De hecho, cuando se constata una asociación perfecta, es necesario dilucidar por qué ocurre, contemplando la posibilidad de que se trate, por ejemplo, de dos indicadores de un mismo concepto. No obstante, la asociación perfecta es muy útil en tanto situación extrema con la cual confrontar los datos con que se dispone en una tabla bivariada. Cuando hay asociación perfecta cada categoría de una variable se encuentra asociada con una sola categoría de la otra. En una tabla, los casos se concentran en la diagonal y el resto de los espacios de propiedades tendrán cero casos, con lo cual las diferencias porcentuales serán del 100%. El caso opuesto a la asociación perfecta es el de independencia estadística, en que no hay ninguna covariación entre las variables, de modo tal que los casos se distribuyen en la tabla bivariada al igual que lo harían en una distribución univariable, con lo cual las diferencias porcentuales serán de 0%. El test de ji cuadrado nos permite saber si la relación observada entre determinadas variables en nuestra muestra puede ser inferible, bajo determinados niveles de confianza, al universo de estudio. Para ello pone en relación la hipótesis nula con la hipótesis de trabajo. Una hipótesis nula es una hipótesis que afirma la independencia estadística, es decir, la ausencia de asociación entre variables, lo contrario a lo que afirma la hipótesis de trabajo7. Cuando se trabaja con muestras aleatorias el test de hipótesis de ji cuadrado8 permite decidir si puede rechazarse la hipótesis nula para un nivel de confianza dado. Si se rechaza la hipótesis nula, se está descartando, asumiendo determinado riesgo, que se trate de una situación de independencia estadística y se está aceptando que hay alguna asociación estadística entre las variables de la hipótesis de trabajo, con determinado nivel de confianza. No rechazar la hipótesis nula implica que la hipótesis de trabajo no es

7 Ambas hipótesis se excluyen mutuamente: el rechazo de la hipótesis nula implica que puede aceptarse, con determinados niveles de confianza, la hipótesis de trabajo. En este caso, lo que rechazamos es la hipótesis de independencia estadística y por tanto, implica que la relación entre las variables observadas en la muestra es inferible al universo en estudio. El no rechazo de la hipótesis nula a cierto nivel de confianza, implica que no puede afirmarse que esa relación ocurra también en el universo, lo que no significa que no tenga relevancia teórica. 8 Existen otros tipos de test de hipótesis, aquí sólo tomamos uno de ellos.

9

estadísticamente significativa para determinado nivel de confianza, mas no implica necesariamente que se acepte la hipótesis nula ni que deba darse por finalizado el análisis de la relación. El ji cuadrado no permite analizar las categorías o valores de las variables, sino cómo las unidades de análisis se distribuyen en los espacios de propiedades, por lo cual puede ser utilizado con variables de cualquier nivel de medición. Se utiliza para relaciones entre variables nominales u ordinales, puesto que existen otras pruebas para variables intervalares. El ji cuadrado compara frecuencias absolutas, no porcentajes. Opera a partir de la comparación entre las frecuencias observadas y las frecuencias esperadas. Las frecuencias observadas son simplemente los casos relevados distribuidos en los espacios de una tabla. Las frecuencias esperadas son aquellas que cabría esperar si hubiese independencia estadística. Para cada espacio de propiedad de un cuadro, la frecuencia esperada se obtiene multiplicando las frecuencias marginales entre sí y dividiendo el producto por el total de casos. De este modo, se obtiene una distribución de los casos en el cuadro que mantiene las frecuencias marginales observadas de cada variable pero distribuye los casos en los espacios de propiedades, de modo tal que las frecuencias condicionales sean las que cabría esperar por meras desviaciones en la muestra en ausencia de asociación en la población. Es posible elaborar una tabla de frecuencias esperadas o datos teóricos y compararla con la tabla de frecuencias observadas o datos reales. Si no se observa diferencia entre las mismas se puede decir que hay una ausencia de asociación entre las dos variables o independencia estadística. Si hay diferencia entre las frecuencias observadas y esperadas, es necesario evaluar si los datos reales se alejan lo suficiente de la independencia estadística como para rechazar la hipótesis nula con un nivel de confianza razonable. Para ello, se realiza el cálculo del ji cuadrado. Siendo Fo las frecuencias observadas y Fe las frecuencias esperadas, la fórmula de ji cuadrado es:

χ2 = ∑ (Fo−Fe)2

Fe

El residual o diferencia entre frecuencias observadas y esperadas de cada espacio se eleva al cuadrado, anulando los signos negativos. Para normalizar los residuos elevados al cuadrado de cada espacios de propiedad, se divide por la frecuencia esperada. Al sumar los resultados se obtiene el ji cuadrado empírico (Xe2), que puede adoptar valores desde cero hasta infinito. Cuanto más pequeño sea el valor

10

de ji cuadrado, más fácil es no estar en condiciones de rechazar la hipótesis nula. Como el valor de ji cuadrado aumenta con el tamaño de la muestra, no habiendo un límite superior, para decidir el rechazo o no rechazo de la hipótesis nula, es necesario compararlo con el ji cuadrado teórico (Xt2). El ji cuadrado teórico, crítico o de tabla proviene de una distribución estadística que relaciona valores teóricos de ji cuadrado con sus posibilidades de ocurrencia por el sólo efecto del error muestral. La distribución teórica de ji cuadrado permite conocer cuál es el valor con el que comparar el ji cuadrado empírico, según los grados de libertad de la tabla y el nivel de confianza con que se decida trabajar. Los grados de libertad de una tabla se determinan según la mínima cantidad de frecuencias condicionales que necesitan conocerse para poder calcular las restantes, para frecuencias marginales dadas. Se calcula multiplicando la cantidad de columnas menos uno por la cantidad de filas menos uno [GL= (c-1) x (f-1)]. Por ejemplo, una tabla de dos columnas por dos filas tiene un grado de libertad. El nivel de confianza es el complemento del riesgo. Este último es la probabilidad de rechazar la hipótesis nula siendo esta verdadera, o lo que es lo mismo, la probabilidad de cometer error de tipo I. El error de tipo I consiste en aceptar la hipótesis de trabajo, cuando en realidad la relación no existe en el universo bajo estudio. La situación inversa es el error de tipo II, o probabilidad de no rechazar la hipótesis nula siendo esta falsa. En el error de tipo II se rechaza la hipótesis de trabajo, cuando sí es estadísticamente significativa. En ambas situaciones no se trata de errores en tanto decisiones desacertadas por la impericia del investigador, sino que son errores estadísticos, probabilidades que quienes investigan asumen como riesgos propios de los instrumentos estadísticos que se utilizan. Por convención, suele trabajarse con un 95% de confianza en Ciencias Sociales, lo cual equivale a decir que el riesgo o significación más habitual es de 0.05. El cálculo del error de tipo II es más complejo porque requiere de la utilización de supuestos adicionales. Si al comparar los valores obtenidos, el ji cuadrado teórico es mayor al ji cuadrado empírico (Xt2 > Xe2) la hipótesis nula no puede ser rechazada, por lo que la hipótesis de trabajo no es aceptada. Por el contrario, si el ji cuadrado teórico es menor o igual al ji cuadrado empírico (Xt2 ≤ Xe2) la hipótesis nula se rechaza y se acepta la hipótesis de trabajo, considerando que existe una relación estadísticamente significativa entre las variables. En la actualidad, los paquetes estadísticos informáticos como el SPSS -Statistical Package for the Social Sciences- además de arrojar el valor de ji cuadrado

11

empírico para un cuadro determinado, calculan la significación empírica o p-valor, que indica la probabilidad de que sea cierta la hipótesis nula en la población para determinado ji cuadrado empírico. El nivel de significación teórico con el que se compara habitualmente es 0.05 -eventualmente 0.01-, de modo tal que los niveles de significación empírica menores indicarán que se está en condiciones de rechazar la hipótesis nula. La ventaja de utilizar este procedimiento operativo para hacer la prueba de hipótesis es que se puede conocer con exactitud y sin necesidad de consultar la tabla de la distribución teórica de ji cuadrado con qué nivel de confianza se puede rechazar la hipótesis nula. Por ejemplo, si el p-valor fuera de 0.007, se determina que la hipótesis nula puede rechazarse con 99.3% de confianza. Cuando se analiza el valor que asume ji cuadrado, éste está indicando simplemente si la relación supuesta entre las variables en la hipótesis de trabajo es estadísticamente significativa o no. Con esto, se define estadísticamente el contexto en que se trabaja con la hipótesis, de modo tal que si la asociación entre variables es estadísticamente significativa se puede realizar una inferencia estadística de la muestra al universo de estudio. Ello quiere decir que se puede rechazar con determinado nivel de confianza que la hipótesis nula sea cierta en el universo y que la asociación en los casos analizados se deba solamente a errores muestrales. Cuando el ji cuadrado teórico es mayor al ji cuadrado empírico y la hipótesis nula no puede ser rechazada, la hipótesis de trabajo no puede ser aceptada como estadísticamente significativa. La ausencia de significación estadística puede deberse a diversos motivos, tales como el modo de construir las variables, una insuficiente cantidad de casos, las características de la estrategia de medición, etc. El hecho de que no haya significación estadística en la relación entre las variables analizadas, no impide avanzar en la producción de conocimiento y que no pueda estarse frente a un caso de “significación” teórica y sociológica. A los fines sociológicos, la situación en que el ji cuadrado no asume significación no menoscaba la relevancia teórica de una hipótesis y, en contrapartida, el hecho de que una relación entre variables sea estadísticamente significativa no es suficiente por sí mismo para producir conocimiento científico. Cabe destacar que este Test de Hipótesis no es útil para el análisis si es tomado aisladamente de los otros recursos con los que contamos como lo son los Coeficientes de Asociación y la Lectura Porcentual que veremos a continuación.

12

Asociación y medidas de asociación La asociación es una forma de covariación entre variables, medida a partir de cómo se distribuyen las unidades de análisis en los espacios de propiedades. Las medidas de asociación, a diferencia de las de correlación, no operan con las categorías o valores de las variables. Por este motivo, pueden ser utilizadas con variables de cualquier nivel de medición, a diferencia del coeficiente de correlación que requiere variables cuantitativas. Los coeficientes de asociación (también conocidos como coeficientes no paramétricos) no permiten realizar inferencias al universo, sino que indican la fuerza de la relación en la muestra que se analiza. Los coeficientes de asociación son medidas resumen de la fuerza de la asociación entre variables y, algunos de ellos, permiten también conocer la dirección. A diferencia del ji cuadrado (que como veremos más adelante no tiene límite superior de variación, puesto que su valor depende de la cantidad de casos) los coeficientes de asociación son estandarizados, variando entre cero, que indica independencia estadística y uno, que indica asociación perfecta9. Phi (ϕ) y V de Cramer (V) son coeficientes derivados de ji cuadrado, con lo cual operan a partir de las diferencias entre frecuencias observadas y esperadas. El primero es el resultante de dividir el valor de ji cuadrado por la cantidad de casos [ϕ = √(χ2 / n)], de modo tal que quede un valor estandarizado entre 0 y 1. Como en tablas de más de dos por dos el valor de Phi puede superar la unidad, V de Cramer incorpora un factor de corrección en su fórmula para poder ser utilizado en cuadros de cualquier cantidad de categorías. No obstante, por suponer una definición exigente de asociación perfecta, V tiende a subestimar el grado de relación, lo cual debe ser tenido en cuenta en la interpretación del valor de este coeficiente, de la misma manera que, como se desarrollará, en la interpretación de los coeficientes rinconales debe tenerse presente que pueden asumir altos valores por la definición menos restrictiva de asociación (García Ferrando, 1995). Algunos coeficientes, como Tau-b (Τb), Q de Yule (Q) y Gamma (γ) operan en base a la reducción proporcional del error. La relación entre las variables puede entonces también ser interpretada como la proporción en que se reduce el error de predicción de las categorías de la variable dependiente cuando se conoce su distribución en las categorías de la independiente, contra el error de predicción

9 Como veremos más adelante en el documento, en los cuadros con un alto número de casos el ji cuadrado tiende a ser significativo, una de las razones por las cuales es nodal examinar la fuerza de la asociación mediante los coeficientes.

13

cuando sólo se conoce la distribución univariada de la variable dependiente (García Ferrando, 1995: 233; Roales Riesgo, 1999). Algunos coeficientes pueden llevar signo positivo o negativo, de modo que varían entre -1 y 1, pasando por 0, siendo -1 asociación perfecta negativa y 1 asociación perfecta positiva. El signo indica el sentido de la relación, el cual sólo resulta pertinente cuando se trabaja con ambas variables de nivel de medición como mínimo ordinal. La elección del coeficiente adecuado depende del nivel de medición de las variables, del tipo de hipótesis y, en algunas situaciones, del tamaño del cuadro. Las variables que hemos seleccionado, las categorías de éstas que hemos definido y las relaciones que hemos establecido en nuestras hipótesis son producto del enfoque teórico a partir del cual hemos abordado el fenómeno de estudio. -Nivel de medición de las variables. Si son nominales con cuadros de más de dos por dos se utiliza V de Cramer; si son nominales u ordinales en cuadros de dos por dos se utiliza Phi y Q de Yule y si son ordinales en cuadros de más de dos por dos se utiliza Tau b y Gamma. La elección de Tau-b es recomendable cuando las tablas son cuadradas, es decir, poseen el mismo número de filas que de columnas. -Tipo de hipótesis. Las hipótesis rinconales son aquellas que tienen una sola condición acerca del modo en que se vinculan las variables, es decir, relacionan una categoría de la variable dependiente con una categoría de la variable independiente. Son hipótesis menos exigentes, puesto que para que haya asociación perfecta en una tabla de dos por dos alcanza con que una sola frecuencia sea cero. Si la hipótesis es rinconal se utiliza Q o Gamma, que son coeficientes curvilineales. En la interpretación de los valores de estos coeficientes, debe tenerse presente que los mismos se basan en una definición menos restrictiva de asociación perfecta, relativa a una hipótesis rinconal, que puede cumplirse a la perfección poniendo una sola condición. Las hipótesis diagonales son más exigentes puesto que para corroborarse, los casos deben concentrarse en la diagonal de una tabla, y para que exista asociación perfecta no puede haber ningún caso en los espacios fuera de la diagonal. Por ejemplo, si la hipótesis es diagonal se utiliza Phi, coeficiente lineal, que pone dos condiciones para que haya asociación perfecta en tablas de dos por dos, por lo cual se necesitarían dos espacios de propiedad con cero casos. Para

14

hipótesis diagonales de cuadros de más de 2x2, utilizaremos Tau b, coeficiente lineal10. -Tamaño del cuadro. Q y Phi se utilizan para cuadros de dos por dos. Si los cuadros tienen más categorías, se utiliza Gamma en lugar de Q y Tau-b en lugar de Phi.

COEFICIENTES DE ASOCIACIÓN11

Hipótesis

Lineal Curvilineal

Tipo de Variable

Nominal - Más de 2x2 V de Cramer (V)

Nominal/Ordinal - 2x2 Phi (ϕ)

Q de Yule (Q)

Ordinal - Más de 2x2 Tau b (Τb) Gamma (γ)

El valor que arroje un coeficiente de asociación ha de ser interpretado según cuánto se aproxime al 0 y al 1 (o menos 1), independencia estadística y asociación perfecta positiva o negativa, respectivamente. A medida que los coeficientes comienzan a alejarse de 0 están expresando algún tipo de relación entre las variables. Ahora bien, el valor de un coeficiente de asociación en un análisis determinado no puede ser interpretado aisladamente, sino en función de las comparaciones que establezca. Dichas comparaciones12 intentarán mostrar las maneras en que nuestra variable dependiente se encuentra afectada por diferentes variables independientes. En este sentido, no existen valores altos, medios o bajos en los análisis de los coeficientes, sino que el valor que la covariación entre las variables adopte será interpretado a la luz del valor que adquiera otra covariación. Los fenómenos que estamos analizando no se explican por la influencia de una sola variable ni son estáticos.

10 Los coeficientes de asociación y su exigencia para los tipos de variables e hipótesis constituyen modelos ideales. La elección del tipo de variable y la hipótesis propuesta dependerá de la teoría con la que hayamos abordado nuestro fenómeno en estudio. 11 Existen otros coeficientes de asociación, pero estos cinco cubren las alternativas de uso habitual. 12 Para que las comparaciones respecto a la fuerza de incidencia de distintas variables independientes sean correctas, es necesario realizarlas con el mismo coeficiente, preferentemente para variables nominales si hay por lo menos una de dicho nivel de medición.

15

También el conocimiento teórico acumulado sobre el comportamiento del fenómeno contribuirá a determinar cuán alto o bajo es el resultado, en relación con expectativas teóricas o derivadas de la experiencia previa. En consecuencia, el proceso de conocimiento que implica acercarnos a nuestro fenómeno de estudio compromete el análisis y la comparación de un número significativo de variables dadas por nuestro marco teórico de análisis. De esta manera, la comparación se vuelve una instancia nodal de nuestro proceso de construcción del conocimiento y la selección de variables y su interpretación posibilita subordinar los recursos técnicos a las decisiones teórico-metodológicas, contribuyendo a la producción de conocimiento teóricamente relevante. Lectura analítica de porcentajes La lectura de tablas de contingencia permite un análisis cuantitativo refinado, analítico y artesanal. Los cuadros o tablas de contingencia surgen de la tabulación simultánea de dos o más variables, en función de las hipótesis. Una vez que se tiene una tabla con las frecuencias absolutas distribuidas en los espacios de propiedades, es necesario calcular porcentajes para poder realizar comparaciones válidas con mayor facilidad. Porcentualizar es una manera de estandarizar las frecuencias condicionales para liberarlas de los efectos de las diferencias de los marginales y hacer comparable una parte respecto al todo (Baranger, 1999). No obstante, es necesario saber sobre qué total de casos han sido calculados los porcentajes, ya sea para poder reporcentualizar agrupando categorías o, más importante, para tener los debidos recaudos en la interpretación de porcentajes calculados sobre pocos casos. Generalmente, los porcentajes pueden presentarse sin decimales o con un decimal. La cantidad de decimales con la cual pueda trabajarse depende de la cantidad de casos, lo cual debe tenerse en cuenta para evitar que los porcentajes aparenten un nivel de exactitud que no pueden tener cuando se trabaja con una muestra pequeña. Los porcentajes pueden ser calculados sobre el total (n) de una tabla, sobre los subtotales de fila -asumiendo que se dispuso allí variable dependiente- o sobre los subtotales de columna -asumiendo que se trata de la variable independiente-. Si se procura conocer qué porcentaje de la población puede ser clasificado en dos o más atributos simultáneamente -por ejemplo, varón y de nivel educativo alto- es necesario calcular los porcentajes sobre el total de la tabla. Si se busca describir perfiles de la población y subpoblaciones, en ocasiones puede ser útil calcular los porcentajes de filas, es decir, aquellos calculados en el

16

sentido de la variable dependiente. Estos porcentajes sólo pueden servir a los fines descriptivos univariados de las características de distintos subgrupos. La variable dependiente no opera como tal sino como si fuera una constante, por ejemplo, qué porcentaje de los que tienen nivel educativo alto son varones, brindando así una idea de la composición interna o perfil de cierto subgrupo. Para realizar una lectura en función de las hipótesis es necesario calcular los porcentajes en el sentido de la variable independiente y leerlos comparando en el sentido de la variable dependiente (Zeisel, 1974). De este modo, podemos analizar la influencia de la variable independiente sobre la dependiente. Por ejemplo, saber qué porcentaje de los varones tiene nivel educativo alto, al comparar con el porcentaje que tienen las mujeres en dicho nivel educativo, permite a partir de las diferencias porcentuales aproximarse a la incidencia de la variable sexo en el nivel educativo alcanzado. Esta distribución porcentual bivariable pone en relación las distribuciones condicionales con una distribución global de la variable dependiente. La distribución de la variable dependiente dentro de las categorías de la variable independiente permite examinar las condiciones que se supone que influyen en cómo se distribuye. La variable independiente puede ser entendida como condición que hace probable cierto resultado, por lo cual es necesario comparar diferentes condiciones -categorías de la variable independiente- para resultados equivalentes -de una misma categoría de la variable dependiente-, examinando qué le ocurre a la variable de estudio cuando se le “aplica” cada una de las categorías de la variable independiente. La lectura de un cuadro puede comenzarse por las frecuencias marginales de la variable dependiente, que no son más que la distribución univariada de esa variable, es decir, su distribución sin tomar en cuenta las categorías de la variable independiente. Luego, los marginales pueden ser útiles para comparar con cada frecuencia condicional, examinando qué ocurre con la distribución de la variable dependiente cuando está presente la variable independiente. Si las distribuciones de la variable dependiente en cada categoría de la variable independiente son las mismas que la distribución univariada, en principio no habría asociación entre las variables. Lo central de la lectura de cuadros bivariados es la lectura de las frecuencias condicionales, comparando en el sentido de la variable dependiente. Según lo que establezca la hipótesis, se procederá a comparar el porcentaje de casos que corresponde a una categoría de la variable dependiente entre la subpoblación de una categoría de la variable independiente, con el porcentaje de casos de otra

17

subpoblación -delimitada por otra categoría de la variable independiente- que corresponde a la misma categoría de la variable dependiente. Esta es la comparación básica a partir de la cual se van introduciendo complejizaciones, según la cantidad de categorías que tenga el cuadro. Cuando se trata de un cuadro de dos por dos, bastará con comparar dos porcentajes para leer el cuadro por completo, puesto que habiendo leído los dos porcentajes de una categoría de la variable dependiente, los de la otra categoría de la variable dependiente son complementarios. La diferencia entre los dos porcentajes comparados será la diferencia porcentual o épsilon (ε) que sintetiza todo el cuadro, indicando la fuerza de la relación. A medida que se trate de un cuadro más grande, se van abriendo las posibilidades de comparaciones. Probablemente no sea necesario leer todos los porcentajes cuando haya muchas categorías de las variables, siendo siempre la hipótesis lo que orientará la lectura, indicando qué espacios de propiedad son los más relevantes según las expectativas teóricas. En los cuadros de más de dos por dos, ya no habrá una única diferencia porcentual sino varias y por ende ninguna de ellas sintetizará en una única medida la fuerza de toda la relación. Cabe poner de relieve que si bien la lectura porcentual permite analizar minuciosamente un cuadro, no debe perderse de vista el panorama general del plan de análisis, de modo que los avances parciales en el conocimiento a partir de la interpretación de cada cuadro, puedan ser articulados de un modo coherente y enfocado en dar cumplimiento a los objetivos, confrontando con los datos producidos el conjunto de supuestos que se decidió someter a contrastación en la investigación. La lectura de un cuadro no debe ser entendida como un fin en sí mismo sino como un medio para el análisis e interpretación de los resultados “enmarcado en un proceso teórico metodológico, evitando así miradas fragmentadas del proceso de investigación” (Aguilar, Alonso, Kleidermacher y Vázquez, 2013: 23).

4. Reflexiones finales El proceso de construcción del dato finaliza al elaborarse los cuadros, a partir de las variables que se pongan en relación y de la forma en que sean categorizadas. Las distintas posibilidades de agrupar y reagrupar categorías en distintos sistemas de categorías implican variaciones en las distribuciones de casos en los espacios de propiedades generados y, por lo tanto, en la fortaleza de las hipótesis. Al examinar qué ha ocurrido con cada hipótesis sustantiva y los resultados de un

18

cuadro, se está en la etapa del análisis, en que la teoría y los datos se vinculan y confrontan mediante las hipótesis. El análisis de relaciones entre dos variables se sirve de la prueba de hipótesis de ji cuadrado, de los coeficientes de asociación y de la lectura analítica de los cuadros, en tanto herramientas que en conjunto permiten analizar y comenzar a dar respuesta a objetivos descriptivos. La prueba de ji cuadrado, permite establecer si existe relación estadísticamente significativa entre las variables y complementada por los coeficientes de asociación, permite examinar la fuerza de la relación y su sentido. La naturaleza de la relación entre variables, es decir, si se aproxima a una forma lineal, curvilineal o irregular, sólo puede ser examinada mediante la lectura porcentual analítica al interior del cuadro. Además, todo tipo de situaciones intermedias, variaciones sutiles y matices respecto al modo de relación entre las variables pueden ser descriptos pormenorizadamente mediante la lectura porcentual, lo cual resulta una gran ventaja para analizar “artesanalmente” datos sobre fenómenos sociales, los cuales si bien presentan regularidades, conservan cierta inestabilidad, indeterminación e irregularidad, que también deben ser analizadas. Así, todas las herramientas estadísticas presentadas, se utilizan en estrecha relación con la teoría. En primer lugar, porque ésta condiciona las hipótesis plateadas, las variables seleccionadas, las categorizaciones realizadas y las comparaciones establecidas. En segundo lugar, porque el análisis e interpretación de los resultados obtenidos, se realiza a la luz del marco teórico seleccionado y las preguntas y objetivos que guían la investigación.

19

5. Anexo: Ejemplo de análisis bivariado El uso diferencial del tiempo libre. Una aproximación desde género y clase En el marco del proyecto de investigación “Heterogeneidad de clase social: profundizando los comportamientos de clase de las parejas”1314, se indagó respecto del uso diferencial del tiempo libre, concebido como un aspecto del estilo de vida de las clases sociales. Se analizaron datos cuantitativos sobre la frecuencia y el placer que producen diferentes actividades de tiempo libre según clase social y según género. El objetivo del trabajo fue describir el uso del tiempo libre de varones y mujeres que trabajan, contándose con información sobre la clase social. Para trabajar el concepto de clase, se utilizó el esquema de Goldthorpe. Enfocamos al tiempo libre como una de las expresiones de los consumos y estilos de vida de las personas, cuyas características dependen en gran medida de la clase y el género. Así, se indagó sobre las diferencias en torno al uso de este tiempo libre, según género y clase social, teniendo como hipótesis de trabajo que cuanto más alta es la clase social es mayor y más variado el tiempo libre, y que el tiempo libre de las mujeres es contaminado o interrumpido por responsabilidades familiares o tareas domésticas que pueden incluso ser realizadas simultáneamente a la actividad de ocio. A continuación se presenta como ejemplo, el análisis realizado para una de las variables de interés de la investigación que fue la frecuencia de uso de Internet como una actividad de tiempo libre. Así, la primera hipótesis de trabajo, planteaba: “Se espera una mayor frecuencia de uso en cuanto más alta sea la clase social.” VD: Frecuencia de uso de Internet en el tiempo libre Nivel de medición: Ordinal VI: Clase Social Nivel de medición: Ordinal Tamaño de la Tabla: 3x4 Grados de Libertad (gl): 6

13 Proyecto UBACyT de la programación 2010-2012, dirigido por la Dra. Gabriela Gómez Rojas, con sede en el Instituto de Investigaciones Gino Germani de la UBA.

20

Tipo de hipótesis: Diagonal o lineal En primer lugar se realizó la prueba de Ji Cuadrado para contrastar la hipótesis nula que plantearía que no existe relación entre la frecuencia de uso de internet y la clase social. Se eligió trabajar con un nivel de confianza del 95% (que es lo mismo que decir un nivel de significación de 0.05). Al buscar en la tabla de Ji Cuadrado, el valor teórico correspondiente a 0.05 de significación para 6 grados de libertad es de 12.592. Dado que el valor empírico de Ji cuadrado que arroja la prueba -como se observa en la tabla a continuación producida con el SPSS- es mayor al valor teórico (regla de decisión: Xe 121,839 > Xt 12,592), puede entonces rechazarse con un 95% de confianza la hipótesis nula que plantea que no hay asociación entre las variables, y por lo tanto la hipótesis de trabajo resulta significativa estadísticamente, lo que quiere decir que en el universo de estudio, la relación entre las variables también estaría ocurriendo15. Por otro lado, en la tabla a continuación también puede observarse que bajo la columna “Sig. Asintótica” se encuentra lo que conocemos como p-valor o significancia exacta. Dado que en este caso es prácticamente cero, podría también haberse rechazado la hipótesis nula a un nivel de confianza superior al 99% (regla de decisión: α= 0.05 > p valor= 0.00). Ambos métodos siempre conducen al mismo resultado del test. Sólo que el método del p-valor permite conocer la significancia exacta. Esto no implica no definir siempre a priori cuál es el valor de significancia α con el que se va a trabajar.

Pruebas de chi-cuadrado

Valor gl Sig. asintótica

(2 colas)

Chi-cuadrado de Pearson 121,839 6 ,000

Razón de verosimilitud 133,179 6 ,000

Asociación lineal por lineal

107,252 1 ,000

N de casos válidos 625

Más allá de la significancia estadística hallada, se procedió luego a analizar el coeficiente de asociación correspondiente para conocer la fuerza y sentido de la

15 Cabe aclarar que la prueba de Ji cuadrado no mide magnitudes. La relación es o no es significativa para el nivel de confianza dado. No es relevante por cuanto supera el valor de Ji empírico al teórico.

21

relación. Al ser dos variables ordinales en una tabla de más de 2 x 2, para hipótesis diagonal o lineal el coeficiente que correspondiente es el Tau-b.

Coeficientes de Asociación

Valor Error estándar

asintótico Aprox. S Aprox. Sig.

Nominal por Nominal Phi ,442 ,000

V de Cramer ,312 ,000

Ordinal por ordinal Tau-b de Kendall ,391 ,028 13,119 ,000

Gamma ,639 ,043 13,119 ,000


En primer lugar el signo positivo del coeficiente indica que la relación se da en el sentido planteado en la hipótesis, ambas variables se comportan en la misma dirección (cuando una aumenta, la otra también lo hace, y viceversa). En cuanto a la magnitud, observamos que es de 0.391. Si bien se aleja del cero que indica la no asociación, para poder analizar la fuerza de esta magnitud, debemos hacerlo de modo comparativo, luego de analizar el comportamiento del fenómeno ante otras variables independientes. Por último, realizaremos la lectura porcentual, presentada en la siguiente tabla de contingencia, en la cual, para poder realizar correctamente la lectura, los porcentajes fueron calculados en el sentido de la variable independiente (clase social). Frecuencia de tiempo libre en Internet por Clase Entrevistado. PEA, de 20 a 69 años. Total País, 2007.

% dentro de Clase Entrevistado

Clase Entrevistado

Total

I-III: Trabajadores

de cuello blanco

IV: Pequeña burguesía

V+VI: Trabajadores calificados

VII: Trabajadores no calificados

Frecuencia de actividades de tiempo libre: Pasar tiempo en Internet

Hasta Semanal 43% 17% 7% 5% 25%

Mensual o inferior

17% 12% 13% 5% 13%

Nunca 40% 71% 80% 90% 62%

Total 100% 100% 100% 100% 100%

288 146 61 130 625

Fuente: International Social Survey Program, ISSP, relevada a nivel nacional en el año 2007 por el CEDOP.

22

A partir de la lectura porcentual, podemos observar la tendencia decreciente en la frecuencia de uso a medida que se desciende en la clase social. La diferencia porcentual observada entre la frecuencia “hasta semanal” entre los Trabajadores de Cuello Blanco (43%) y entre los Trabajadores no calificados (5%) es de un 38%. También resulta interesante que al pasar de Trabajadores de Cuello Blanco, al segmento inmediatamente inferior –Pequeña Burguesía (17%)-, la diferencia porcentual es de 25 puntos porcentuales y ésta sólo es de a 10 puntos entre esta última y los Trabajadores Calificados (17% vs. 7%). Es decir que la herramienta de las diferencias porcentuales no limita como muchas veces aparece el análisis a la comparación entre categorías extremas, sino que justamente su riqueza consiste en poder analizar pormenorizadamente lo que ocurre en y entre los distintos espacios de propiedades generados en la tabla de contingencia. De igual modo, puede analizarse que en la categoría intermedia de frecuencia mensual o inferior, el descenso más pronunciado se observa entre las dos clases inferiores (8 puntos porcentuales entre 13% y 5%), manteniéndose en un rango similar los porcentajes para las clases intermedias. Al analizar el comportamiento de las clases para la categoría Nunca, casi en espejo a lo observado para la mayor frecuencia de uso, se produce un quiebre más marcado entre los Trabajadores de Cuello Blanco y la Pequeña Burguesía. Entre los primeros sólo representan al 40%, mientras que para los segundos este porcentaje asciende a 71%, presentando una diferencia porcentual de 31 puntos porcentuales. Se registra una tendencia ascendente de aproximadamente 10% en cada pasaje hacia las siguientes categorías. La segunda hipótesis de trabajo, plantea la relación entre la misma variable analizada en el caso anterior, pero en función del género, dado que se espera como ya se mencionó en el planteo general, que “las mujeres presentan una frecuencia de uso mensual o inferior, o nunca, mientras que los hombres utilizan Internet en su tiempo libre de manera semanal o con mayor frecuencia.” VD: Frecuencia de uso de Internet en el tiempo libre Nivel de medición: Ordinal VI: Género Nivel de medición: Nominal Tamaño de la Tabla: 3x2 Grados de Libertad (gl): 2

23

Tipo de hipótesis: Diagonal o lineal Al igual que lo planteado para la relación anterior, realizamos la prueba Ji Cuadrado, para conocer cuál es el contexto en el que nos encontramos (significación estadística o no). En este caso, al comparar el valor del Xe=0.937 contra el teórico Xt=5.991 –correspondiente a 95% de confianza y 2 grados de libertad-, concluimos que no puede rechazarse la hipótesis nula que plantea que no hay relación entre el género y el uso de internet en el tiempo libre, por lo cual no podemos descartar la independencia estadística a nivel poblacional. Si rechazáramos la hipótesis nula correríamos un riesgo del 62,6% de equivocarnos al tomar esa decisión, como indica el p-valor, (nivel de confianza de 41,4%), por lo cual al superar el nivel de riesgo o significancia establecido en este caso (5%). Vemos nuevamente que por el método del p-valor, tampoco podemos rechazar la hipótesis nula –y por tanto, aceptar la de trabajo-, para el nivel de confianza establecido.



(2 colas)

Chi-cuadrado de Pearson ,937 2 ,626

Razón de verosimilitud ,942 2 ,625


,181 1 ,670


Igualmente, dado que la independencia estadística no implica que la relación no pueda ser relevante teóricamente, se procedió con el análisis de fuerza y sentido a través del coeficiente de asociación V de Cramer, correspondiente al cuadro e hipótesis planteado (ordinal/nominal, más de 2x2, hipótesis diagonal). En este caso, al ser una de las variables de nivel de medición nominal, el signo del coeficiente no nos brinda información respecto del sentido de la relación (dado que no hay una necesariedad lógica en el orden de las categorías en la tabla). Esto lo analizaremos a partir de la lectura porcentual. Como se mencionó, luego se compararán los coeficientes de las distintas relaciones para poder dimensionar la fuerza. En este caso podemos adelantar que por el valor del V de Cramer de 0.39, matemáticamente muy próximo al valor cero se encuentra muy cerca de la independencia estadística.

24



asintótico Aprox. S Aprox. Sig.



Ordinal por ordinal Tau-b de Kendall -,012 ,039 -,316 ,752

Gamma -,024 ,076 -,316 ,752

N de casos válidos 625 Por último, el análisis de porcentajes, nos muestra que un cuarto de la muestra presenta una alta frecuencia de uso de internet, y esta proporción prácticamente se mantiene en el mismo nivel en ambos grupos (24% entre los hombres y 27% entre las mujeres), con una diferencia sólo de 3% entre ellos. Al analizar lo que ocurre con la categoría nunca, la diferencia entre hombres y mujeres, es aún menor, sólo del 1%, siguiendo ambos grupos una distribución prácticamente idéntica a la del total de la muestra. Estas diferencias porcentuales próximas a 0%, nos indican también, en línea a lo observado en la prueba de ji cuadrado y al valor del coeficiente V de Cramer, que no habría relación entre estas variables. El comportamiento de la variable dependiente, no se modifica ante los distintos géneros.

Frecuencia de tiempo libre en Internet por Género. PEA, de 20 a 69 años. Total País, 2007. % dentro de Género

Género

Total Hombre Mujer


Hasta Semanal 24% 27% 25%

Mensual o inferior 14% 12% 13%

Nunca 62% 61% 62%

Total 100% 100% 100%

387 238 625

Fuente: International Social Survey Program, ISSP, relevada a nivel nacional en el año 2007 por el CEDOP. Al avanzar en el análisis, y al observar que en este caso el género no resultaba una variable relevante para el caso del uso de Internet en el tiempo libre, se plantea desde los distintos abordajes teóricos sobre Tecnologías de Información y Comunicación (TICs), que para este tipo de consumo cultural/uso del tiempo libre, la franja etaria resulta una variable relevante a considerar.

25

Es por esto que se planteó una tercera hipótesis que plantea que “la frecuencia de uso de internet está influida por la edad de manera tal que entre los más jóvenes la frecuencia es mayor que entre los mayores”.

VD: Frecuencia de uso de Internet en el tiempo libre Nivel de medición: Ordinal VI: Tramo de Edad Nivel de medición: Intervalar Tamaño de la Tabla: 3x4 Grados de Libertad (gl): 6 Tipo de hipótesis: Diagonal o lineal Siguiendo la misma secuencia que para las relaciones anteriores, se realizó la prueba de Ji Cuadrado, definida a un 95% de confianza. Al igual que en el primer caso, el tamaño de la tabla define 6 grados de libertad, el valor de Ji empírico (17.654) supera al teórico, 12.592. Haciendo el análisis a partir del p-valor, comprobamos que puede rechazarse la hipótesis nula con una confianza del 99.993%, por lo cual podemos descartar para ese nivel la independencia estadística.



(2 colas)

Chi-cuadrado de Pearson 17,654 6 ,007

Razón de verosimilitud 19,064 6 ,004


10,074 1 ,002

N de casos válidos 625 El coeficiente adecuado para el nivel de medición de las variables, el tipo de hipótesis y el tamaño de la tabla es el Tau-b, que en este caso confirma el sentido positivo planteado en la hipótesis y tiene un valor de 0.118. Si bien como se mencionó el análisis de correlación es la técnica específica para variables de nivel de medición intervalar, y también existen otras técnicas como el análisis de varianza (ANOVA) para las relaciones entre variables categóricas e intervalares, las variables intervalares agrupadas, al utilizarse en tablas de contingencia, también pueden ser analizadas con análisis de asociación.

26



asintóticoa Aprox. Sb Aprox. Sig.



Ordinal por ordinal Tau-b de Kendall ,118 ,035 3,381 ,001

Gamma ,192 ,056 3,381 ,001


Finalmente, al realizar la lectura porcentual, se destaca entre los del tramo de edad superior una mayor proporción de quienes nunca usan, alcanzando un 79%, con una diferencia porcentual de 19% contra la categoría inmediatamente inferior, y alcanzando los 24 puntos porcentuales de diferencia al comprar con los más jóvenes. Al analizar la frecuencia de uso hasta semanal, y mensual o menos, se observan comportamientos similares entre los tres primeros tramos, produciéndose el descenso marcado también al pasar a la categoría de 55 a 69 años, entre quienes solo un 16% presenta frecuencia semanal o mayor, con una diferencia de 9% en comparación con los de 40 a 54 años, y de 14 puntos con respecto a los más jóvenes.

Frecuencia de tiempo libre en Internet por Tramos de Edad. PEA, de 20 a 69 años. Total País, 2007.

% dentro de Tramos de Edad

Tramos de Edad

Total 20 a 29 años

30 a 39 años

40 a 54 años

55 a 69 años


Hasta Semanal 30% 29% 25% 16% 25%

Mensual o inferior

15% 14% 15% 5% 13%

Nunca 55% 57% 60% 79% 62%

Total 100% 100% 100% 100% 100%

82 185 246 112 625

Fuente: International Social Survey Program, ISSP, relevada a nivel nacional en el año 2007 por el CEDOP. En conclusión, podemos decir que la variable que presenta mayor fuerza de asociación con la frecuencia de uso de internet en el tiempo libre, es la clase. Su

27

Tau-b era de 0.39 mientras que para edad este coeficiente es inferior (0.118). En estos casos en particular, los coeficientes fueron directamente comparados dado que coincidían por el tipo de hipótesis, el tamaño de los cuadros y el tipo de variables con el que se trabajo. Sin embargo, para la variable independiente sexo, el coeficiente que habíamos utilizado fue V de Cramer. Para comparar la fuerza de ésta variable independiente en relación a las otras con las que hemos trabajado (Edad y Clase Social) es necesario seleccionar un tipo de coeficiente que sea aplicable a las tres hipótesis planteadas. En dicho caso deberíamos realizar una comparación a partir de V de Cramer por tener un menor nivel de exigencia. Bajo estas condiciones el coeficiente asume un valor de 0.312 para la variable independiente clase social, 0.039 para la variable independiente sexo y un valor de 0.119 para la variable independiente edad. Podemos afirmar que dentro de las variables independientes seleccionadas, la variable clase social presenta mayor fuerza de asociación con la frecuencia de uso de internet en el tiempo libre.

28

6. Referencias bibliográficas

Aguilar, M., Alonso, C., Kleidermacher, G. y Vázquez, N. (2013) Elaboración y análisis de distintos tipos de cuadros. Cuaderno de Cátedra Nº 3 (mimeo).

Baranger, D. (1999) Construcción y Análisis de Datos. Introducción al uso de Técnicas Cuantitativas en la Investigación Social. Posadas: Editorial Universitaria de la Universidad Nacional de Misiones.

Barton, A. H. (1973) “Concepto de Espacio de atributos en Sociología”. En Boudon, R. y Lazarsfeld, P. Metodología de las Ciencias Sociales. Tomo I. Barcelona: Ed. Laia.

Blalock, H. (1986) Estadística social. México: Fondo de Cultura Económica.

Cohen, N. (1997) “La teoría y el método en la investigación social: el discurso y la práctica”. En Luxemburg - Revista de sociología, año 1 N° 2. Buenos Aires.

Cohen, N. y Gómez Rojas, G. (2003): “Los objetivos, el marco conceptual y la estrategia teórico-metodológica triangulando en torno al problema de investigación”. En Lago Martínez, G. Gómez Rojas y M. Mauro (coord.) En torno de las metodologías: abordajes cualitativos y cuantitativos. Buenos Aires: Proa XXI.

García Ferrando, M. (1995) Socioestadística. Introducción a la estadística en Sociología. Madrid: Alianza Universidad Textos.

Marradi, A.; Archenti, N. y Piovani, J. (2010) Metodología de las Ciencias Sociales. Buenos Aires: Cengage Learning.

Roales Riesgo, M. (comp.) (1999) Claves de la Estadística Descriptiva e Inferencial: Análisis Bivariado y Multivariado. Buenos Aires: Centro de Estudiantes de Ciencias Sociales UBA.

Sautu, R. (2003) Todo es Teoría. Objetivos y Métodos de Investigación. Buenos Aires: Editorial Lumiere.

Zeisel, H. (1974) Dígalo con números. Buenos Aires: Fondo de Cultura Económica.

29

CUADERNO DE CÁTEDRA Nº 5 - catedras.fsoc.uba.ar N5... · El Cuaderno de Cátedra Nº 3...

Documents

Transcript of CUADERNO DE CÁTEDRA Nº 5 - catedras.fsoc.uba.ar N5... · El Cuaderno de Cátedra Nº 3...