Models estadístics per a l´anàlisi de dades · Figura 5.1: Trajectòria de l´anàlisi...

Models estadístics

l´anàlisi de dades

“Cal tenir cura amb els llibres de salut, podem morir per culpa d´una errada” (Mark Twain)

En un article publicat a la revista Mass Communication and Society per Joseph Dominick i Roger

Wimmer (2003) s'adduïa que les noves generacions d'investigadors haurien de ser ensenyats a

pensar com analistes de dades i no tant com estadístics: el coneixement de les tècniques és

d'utilitat només si els investigadors tenen la capacitat d'identificar temes d'investigació rellevants i

enfocar de manera significativa les hipòtesis i preguntes d'investigació. Després de tot, un

investigador és una persona que intenta descobrir alguna cosa, que identifica un tema

d'investigació rellevant, desenvolupa una metodologia apropiada per a obtenir una sèrie de dades i

interpreta els resultats obtinguts (Igartúa, 2006). La posició d'aquests autors és, per tant, que el

que és substancial és conèixer l'aplicació de les tècniques estadístiques i en menor mesura el seu

fonament matemàtic o teòric. I aquest és precisament l'enfocament que s'adopta en aquesta

investigació. En aquest sentit, les principals habilitats sobre anàlisi de dades que ha de

desenvolupar un investigador són: saber quins tipus de tècniques estadístiques estan a la seva

disposició, conèixer quan s'ha d'utilitzar cadascuna d'elles, aprendre el maneig d'un paquet

informàtic d'anàlisi de dades i poder interpretar adequadament els resultats obtinguts amb l'ajuda

d'aquest programari estadístic. No obstant, això no implica que no hagi d'obtenir-se un nivell bàsic

de coneixements estadístics i precisament aquest capítol es dedica a això.

L´Estadística es pot definir com la ciència que aplica mètodes matemàtics per recopilar, organitzar,

sintetitzar i analitzar dades (Wimmer i Dominick, 1996). Constitueix una branca de les

matemàtiques i avui dia s'ha convertit en una eina bàsica en qualsevol disciplina científica, ja que

serveix d'ajuda en la presa de decisions tant en la investigació bàsica com en l'aplicada.

L'Estadística consta de dues parts fonamentals: Descriptiva i Inferencial. Les característiques

definitòries de cadascuna d´elles són, segons Vogt (2007), les següents:

Capítol

1. Introducció

E-Learning de les matemàtiques als IES de Catalunya

• Estadística Descriptiva: Descriu, analitza i representa un grup de dades utilitzant mètodes

numèrics i gràfics que resumeixen i presenten la informació continguda en ells.

• Estadística Inferencial: Recolzant-se en el càlcul de probabilitats i a partir de dades

mostrals, efectua estimacions, decisions, prediccions o altres generalitzacions sobre un

conjunt major de dades.

En aquest estudi anem a centrar-nos, principalment, en l'estadística descriptiva, la qual

s'encarrega de la recollida, ordenació i anàlisi de les dades d'una mostra. Wimmer i Dominck

(1996) han assenyalat que l'objectiu bàsic de l'estadística descriptiva consisteix en la reducció de

grans conjunts de dades amb l'objecte d'assolir una interpretació més senzilla de les mateixes. En

general tot treball empíric implica la recol·lecció de gran volum de dades, gràcies a l'aplicació de

determinades tècniques d'investigació. L'etapa posterior a la recollida de dades consisteix en la

seva ordenació i en l'obtenció dels denominats estadístics de resum, gràcies als quals es podran

extreure conclusions generals sobre l'objecte d'estudi. Una vegada fet això, l'analista podrà

conèixer com funciona o es comporta cadascuna de les variables del seu estudi. Perquè una de

les principals característiques de l'estadística descriptiva (i que la diferencia de l'estadística

inferencial) és que tracta d'analitzar de manera univariada les dades obtingudes en un estudi

específic. En aquest context, l'estadística descriptiva permet manegar tres tipus d'informació

bàsica de cadascuna de les variables per separat: la distribució de freqüències, la representació

gràfica i els estadístics de resum. Passem a continuació a explicar les principals característiques

de l'estadística descriptiva.

En aquesta investigació se suposa que s´està familiaritzat amb l´anàlisi descriptiu univariant i es

presentat una introducció a l´estadística descriptiva multivariant. Per ampliar el seu estudi es pot

consultar a Lattin, Carroll i Green (2003), Field (2005), Cohen, Manion i Morrison (2007), així com

Lebart (1995), Escofier i Pages (1992) i algunes aplicacions a Grande i Abascal (1994).

Quan en cada element de la població es mesura un conjunt de variables estadístiques direm que

s'ha definit una variable estadística multivariant, vectorial o multidimensional. Les variables que es

mesuren en cada element poden ser qualitatives o quantitatives.

2. Estadística descriptiva

3. Estadística descriptiva multivariant bàsica

Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades

• Vector de mitjanes: La mesura de centralizació més utilitzada per a descriure dades

multivariants és el vector de mitjanes, que té dimensió k i recull les mitjanes de cadascuna

de les k variables.

• Matriu de variances i covariances: La variabilitat de les dades i la informació relativa a les

relacions lineals entre les variables es resumeixen en la matriu de variances i covariances.

Aquesta matriu és quadrada i simètrica d'ordre k, on els termes diagonals són les

variances i els no diagonals, les covariances entre les variables.

• Matriu de correlació: Anomenarem matriu de correlació a la matriu quadrada i simètrica

que té uns en la diagonal i fora d'ella els coeficients de correlació entre les variables.

• Correlacions parcials: Es defineix la matriu de correlacions parcials com la matriu que

mesura les relacions entre parells de variables eliminant l'efecte de les restants.

• Variança generalitzada: Una mesura global escalar de la variabilitat conjunta de k

variables és la variança generalitzada, que és el determinant de la matriu de variànces i

covariances. La seva arrel quadrada es denomina desviació típica generalitzada.

Segons Peña (2002), l´anàlisi descriptiu ha d´aplicar-se sempre com a primer pas per comprendre

l´estructura de les dades i extreure la informació que contenen, abans de passar a mètodes més

complexos que tot seguit exposem com són els mètodes multivariants.

En un qüestionari es recull gran quantitat de dades a través de nombroses preguntes que

s'agrupen atenent a diversos criteris. El desenvolupament actual dels mètodes d'anàlisi

multivariant permet adoptar una aproximació global per a l'anàlisi de les dades de

qüestionaris (Figura 5.1). Únicament una anàlisi global, que tingui en compte nombroses

variables simultàniament, pot proporcionar informació de qualitat i assegurar la coherència

dels resultats (Grande i Abascal, 2005). És per això que en aquest treball utilitzarem

tècniques multivariants.

Figura 5.1: Trajectòria de l´anàlisi multivariant, en què té un pper principal l´anàlisis global de les dades

4.Mètodes multivariants

L'objectiu de l'anàlisi multivariant és buscar una tipologia de respostes i identificar les

característiques de cada grup (Lattin, Carroll i Green, 2003). No obstant això, l'anàlisi de

totes les preguntes simultàniament és difícilment interpretable. És important realitzar la

descripció de les observacions des d'un únic punt de vista per identificar les semblances

observades, i després utilitzar tota la informació disponible sobre els integrants de la mostra

per a interpretar les proximitats (Hair, Anderson, Tatham i Black, 1998).

Per a realitzar aquesta anàlisi s'utilitzen dues famílies de mètodes estadístics: l´anàlisi

factorial i els mètodes de classificació o anàlisi cluster. Aquests procediments poden ser

utilitzats de manera complementària per assolir una anàlisi el més profund possible de la

informació continguda en els grans fitxers de dades obtingudes a partir de les del

qüestionari.

El tractament global de la informació es realitza mitjançant anàlisi multivariant, aplicant diversos

mètodes de forma encadenada. Aquest procediment va ser formalitzat per L. Lebart mitjançant

el concepte de "Temascope" presentat com un encadenament de mètodes realitzat segons les

següents etapes (Grange i Lebart, 1994):

1. Elecció del tema actiu. Se seleccionen les preguntes relatives al tema objectiu de

l'estudi que han de formar un conjunt homogeni, mesurades en el mateix tipus

d'escala.

2. Descripció gràfica dels enquestats segons les seves semblances en el tema triat, actiu.

És a dir, semblances en les seves actituds, opinions o comportaments en relació a

l'objectiu que es tracta d'estudiar. Aquesta descripció gràfica situarà pròxims, sobre un

plànol, als enquestats que han respost de forma semblant al conjunt de preguntes del

grup actiu i permetrà detectar en què són semblants. En aquesta fase és quan

s´utilitzaran els mètodes de l'anàlisi factorial.

3. Ús de les qüestions que no responen a l'objectiu principal de l'estudi com variables

il·lustratives per a interpretar les proximitats entre els individus. És a dir, s'utilitza la

informació suplementària, com són les variables de caracterització, per a buscar les

raons per les quals els individus són semblants en la seva opinió, actitud i

comportament. Aquest objectiu s'assoleix posicionant els elements il·lustratius sobre

els plànols factorials. Aquesta informació no intervé en el càlcul dels factors que ja han

estat obtinguts en la fase anterior: únicament es projecten sobre els eixos. L'estudi de

la situació dels elements il·lustratius juntament amb els actius en els plànols factorials

ajuda a interpretar l'anàlisi realitzada i a detectar quins són les raons de les

semblances, no només descriure-les.

4. Es divideix -particiona- la mostra d'enquestats en grups homogenis en les qüestions

del tema actiu. Per a això s'utilitza l'Anàlisi Cluster. La classificació es realitza sobre els

individus descrits per les seves coordenades factorials en lloc de sobre les preguntes

actives. Això facilita la classificació, al ser els factors variables mètriques que recullen

la mateixa (o gairebé) informació que les variables actives inicials.

5. Descripció estadística del contingut de cada classe utilitzant tota la informació de

l'enquesta. És a dir, una vegada obtinguts els grups que tenen un comportament

homogeni en el tema actiu es descriuen les característiques de cada grup, no només

en aquest tema, sinó també en la resta de les qüestions recollides en l'enquesta. Es

procedeix a descriure les classes pels elements actius i pels il·lustratius, podent

seleccionar les qüestions, actives o il·lustratives més interessants per a definir o

diferenciar una classe d'unes altres.

6. Es posicionen els centres de gravetat de les classes sobre els plànols factorials

juntament amb les categories de resposta a qüestions actives i il·lustratives. Per a això

s'utilitza de nou la tècnica de projecció d'elements il·lustratius. La visió d'aquests nous

gràfics permet enriquir la interpretació

Aquest encadenament d'anàlisi permet obtenir informació global de l'enquesta, no només aspectes

parcials que poden estar interrelacionats i el seu estudi aïllat és incomplet.

L´origen històric de l´anàlisi multivariant es troba en els primers anys del segle XX. Sorgeix dins

del marc de la psicologia aplicada com una teoria matemàtica que tracta d'explicar el concepte

d'intel·ligència. És a dir, se suposa que la intel·ligència constitueix un compendi de diverses

habilitats i coneixements i se sol mesurar mitjançant aspectes o manifestacions parcials.

Spearman (1904) i Pearson (1901) van tractar de definir una variable que mesurés la quantitat

d'intel·ligència i que fos un compendi o resum (de fet una combinació lineal) dels components de la

mateixa. Això seria l'origen del que després es va denominar el mètode de les components

principals. Posteriorment s'han anat desenvolupant nombroses tècniques per a variables tant

quantitatives com categòriques.

L'anàlisi multivariant, en essència, es dedica a l'estudi de diverses variables de manera simultània

(Lattin, Carroll i Green, 2003). És a dir, es pren un objecte i no només es mesura un aspecte seu

sinó que es consideren diversos aspectes i es tracta de determinar la relació entre aquestes

mesures.

Amb el desenvolupament de la informàtica, s'ha fet possible desenvolupar i implementar

programes estadístics que contenen les tècniques multivariants; així, tots els programes d'aquest

tipus contenen una part important dedicada a aquestes tècniques (e.g. es pot veure en R,

STATGRAPHICS, SPSS, ...) (Field, 2005).

En definitiva, el desenvolupament teòric sorgit al segle XX juntament amb les aplicacions creixents

de l'estadística en la vida econòmica dels països han fet de les tècniques de l'anàlisi multivariant

juntament amb l'anàlisi de regressió, un dels instruments més emprats per a l'estudi de l'entorn

ambiental, econòmic i social (Marín, 2006).

Poden utilitzar-se un gran nombre de criteris per classificar les tècniques estadístiques d´anàlisi

multivariable. Tanmateix, un dels criteris més utilitzats és el relacionat amb el tipus de problema

d´investigació implicat: analitzar la dependència o la interdependència entre un grup de variables

(Cea D´Ancona, 2002; Lévy i Varela, 2003; Tacq, 1997).

Les tècniques dedicades a l´anàlisi de la dependència s´utilitzen per examinar la relació entre un

grup de variables predictores o independents i una o més variables de criteri o dependents. Són

els anomenats Mètodes Depenents. Subjeu en ells sempre un interès predictiu (Marín, 2006).

D´altra banda, els mètodes multivariables dedicats a l´anàlisi de la interdependència no

distingeixen entre variables dependents i independents. Otorguen el mateix estatus a totes les

variables, ja que el seu objectiu final és descriure l´estructura latent o subjacecnt a partir

d´analitzar el patró d´interrelacions entre les variables implicades. Són Mètodes Interdependents o

també anomenats Independents (Marín, 2006). Tenen un interès descriptiu.

El quadre següent (Figura 5.2) permet classificar les tècniques d´anàlisi estadístic de dades en

funció del tipus de variables que maneguen i de l´objectiu principal del seu tractament conjunt

(Pérez, 2006).

5. Tècniques multivariants. Classificació

Figura 5.2: Classificació de les tècniques multivariants segons Pérez (2006)

MÈTODES MULTIVARIANTS

Existeixen variables dependents

i independents?

SÍ NO

Classificació

Anàlisi cluster

Mètodes descriptius

Les variables són quantitatives?

o Anàlisi Factorial i Components principals

o Escalatge multidimensional

o Anàlisi de correspondències

o Escalatge multidimensional

SÍ NO

Anàlisi canònic

Regressió

Anàlisi de la

variança Anàlisi conjunt

Anàlisi discriminant

Les variables dependents, són

quantitatives?

Les variables dependents, són

quantitatives?

SÍ NO SÍ NO

SÍ NO

És quantitativa?

Més d´una

Quantes variables són independents?

Mètodes explicatius

Tot i que existeix una gran varietat de tècniques multivariants de dependència, en una primera

aproximació a aquesta àrea d´anàlisi estadístic, convé destacar els següents mètodes:

• Regressió múltiple: Estudia la dependència d´una variable en funció d´altres variables.

• Anàlisi discriminant: Es busca una funció lineal de diferents variables que permeti

classificar noves observacions que es presentin.

• Mètodes log-lineals i logit: Es prediuen números d´aparicions en caselles (recomptes) en

funció d´altres caselles. S´usen variables categòriques.

• Anàlisi de correlació canònica: Es pren un grup de variables i es tracta de predir els seus

valors en funció d´un altre grup de variables.

• Anàlisi multivariant de la variança: Es descomposa la variabilitat en una mesura d´un

conjunt de variables quantitatives en funció d´altres variables categòriques.

A l´igual que als mètodes de dependència, el nombre de tècniques multivariants d´independència

també és molt elevat. Entre les principals tècniques d´aquest grup convé destacar les següents :

• Anàlisi factorial: Com es veurà posteriorment, es fixa en explicar en termes de factors

ocults les variables originals.

• Anàlisi de components principals: Es tenen n variables quantitatives i es barregen

mitjançant combinacions lineals reduint-se a p < n variables que resumeixen la informació

per facilitar la interpretació.

• Anàlisi de correspondències: És semblant a l´anàlisi factorial, però amb variables

categòriques exclusivament.

• Anàlisi cluster: Tracta d´identificar grups naturals entre les observacions segons els seus

valors mesurats per les variables.

• Multidimensional scaling: Busca mapes dels objectes, situant-los segons una sèrie de

mètriques.

5.1. Mètodes dependents

5.2. Mètodes interdependents

La disponibilitat de grans volums de dades i l'ús generalitzat d'eines informàtiques ha transformat

l'anàlisi multivariant orientant-lo cap a determinades tècniques especialitzades englobades sota el

nom de Mineria de Dades o Data Mining.

El Data Mining pot definir-se com un procés de descobriment de noves i significatives relacions,

patrons i tendències a l'examinar grans quantitats de dades (Han i Kamber, 2006).

Les tècniques de Data Mining persegueixen el descobriment automàtic del coneixement contingut

en la informació emmagatzemada de manera ordenada en grans bases de dades. Aquestes

tècniques tenen com objectiu descobrir patrons, perfils i tendències a través de l'anàlisi de les

dades utilitzant tecnologies de reconeixement de patrons, xarxes neuronals, lògica difusa,

algorismes genètics i altres tècniques estadístiques avançades d'anàlisi multivariant de dades

(Han i Kamber, 2006).

Les tècniques estadístiques que utilitza el Data Mining coincideixen en la seva majoria amb les

tècniques estadístiques d'anàlisi multivariant de dades. Han i Kamber (2006) realitzen una

classificació inicial de les tècniques de Data Mining distingint entre tècniques de modelatge originat

per la teoria en les quals les variables poden classificar-se inicialment en dependents i

independents (similars a les tècniques de l'anàlisi de la dependència o mètodes explicatius de

l'anàlisi multivariant), tècniques de modelatge originat per les dades en les quals totes les variables

tenen inicialment el mateix estatus (similars a les tècniques de l'anàlisi de la interdependència o

mètodes descriptius de l'anàlisi multivariant) i tècniques auxiliars. A continuació s'exposen les

idees bàsiques que aquests autors realitzen sobre aquestes tècniques i es pot ampliar la

informació en Han i Kamber (2006).

Les tècniques de modelatge originat per la teoria especifiquen el model per a les dades sobre la

base d'un coneixement teòric previ. El model suposat per a les dades ha de contrastar-se després

del procés de Data Mining abans d'acceptar-lo com vàlid. Formalment, l'aplicació de tot model ha

de superar les fases d'identificació objectiva (a partir de les dades s'apliquen regles que permetin

identificar el millor model possible que ajusti les dades), estimació (procés de càlcul dels

paràmetres del model triat per a les dades en la fase d'identificació), diagnosi (procés de contrast

de la validesa del model benvolgut) i predicció (procés d'utilització del model identificat, benvolgut i

validat per a predir valors futurs de les variables depenents). Podem incloure entre aquestes

tècniques tots els tipus de regressió i associació, anàlisi de la variança i covariança, anàlisi

discriminant i sèries temporals. En les tècniques de modelatge originat per les dades no s'assigna

cap paper predeterminat a les variables. No se suposa l'existència de variables depenents ni

independents i tampoc se suposa l'existència d'un model previ per a les dades. Els models es

6.Tècniques emergents d´anàlisi multivariant:

Data Mining

creen automàticament partint del reconeixement de patrons. El model s'obté com barreja del

coneixement obtingut abans i després del Data Mining i també ha de contrastar-se abans

d'acceptar-se com vàlid. Per exemple, les xarxes neuronals permeten descobrir models complexos

i afinar-los a mesura que progressa l'exploració de les dades. Gràcies a la seva capacitat

d'aprenentatge, permeten descobrir relacions complexes entre variables sense cap intervenció

externa.

Per la seva banda, les tècniques de classificació extreuen perfils de comportament o classes, sent

l'objectiu construir un model que permeti classificar qualsevol nova dada. Així mateix, els arbres de

decisió permeten dividir dades en grups basats en els valors de les variables. Aquesta tècnica

permet determinar les variables significatives per a un element donat. El mecanisme de base

consisteix a triar un atribut com arrel i desenvolupar l'arbre segons les variables més significatives.

A més de les xarxes neuronals, els arbres de decisió i les tècniques de classificació (cluster, etc.),

podem incloure en aquest grup les tècniques de reducció de la dimensió (factorial, components

principals, correspondències, etc.), les tècniques d'escalament òptim i multidimensional i l'anàlisi

conjunta.

Abans d´aplicar qualsevol técnica d´anàlisi multivariant és precís realitzar una anàlisi prèvia de les

dades de què es disposa (Burns i Bush, 2000). Tal com Pérez (2006) argumenta, cal examinar les

variables individualment i estadística i les relacions entre elles, així com avaluar i solucionar

problemes en el disseny de la investigació i en la recollida de dades tals com el tractament de les

dades absents i la presència de dades atípiques.

El mateix autor segueix que és necessari fer un examen a fons de l´estructura de les dades i

recomana iniciar una anàlisi exploratòria de les dades amb gràfics (histogrames, diagrames de

barres, etc.) que permetin visualitzar la seva estructura. El pas següent sol ser examinar la

possible presència de dades absents i atípiques. L´us d´estadístics de resum és també molt

aconsellable prèviament a l´anàlisi multivariant (Igartúa, 2006). A continuació presentem un petit

resum relatiu a aquests pasos previs a realitzar a l´anàlisi multivariant; no obstant, es poden

consultar diversos autors (Burns i Bush, 2000; Lattin, Carroll i Green, 2003; (Hair, Anderson,

Tatham i Black, 1998) Igartúa, 2006; Pérez, 2006) per ampliar aquesta informació.

7. Análisi previ de les dades

Bàsicament es poden diferenciar dos tipus de representacions gràfiques: el diagrama de barres i

l´histograma. L´ús d´una i altra representació depèn del nivell de mesura adoptat per la variable

amb la que es vol construir un gràfic a partir de les dades de la investigació (Igartúa, 2006).

El diagrama de barres permet representar gràficament tots els resultats que s´obtenen a l´anàlisi

de dades. S´utilitza per realitzar representacions gràfiques de variables que adopten un nivell de

mesura nominal o ordinal. Aquest gràfic, que constitueix la representació d´una distribució de

freqüències més simple, consisteix en una sèrie de barres, una per cada categoria de la variable,

la longitud de la qual depèn del seu nombre de casos.

Per representar gràficament les variables amb un nivell de mesura d´interval o de raó s´utilitza

l´histograma. Aquest gràfic s´assembla al diagrama de barres, ja que també representa les

freqüències. Tanmateix, existeixen algunes diferències entre les dues representacions gràfiques:

Al diagrama de barres, cada categoria de la variable té la seva “barra” corresponent mentre que a

l´histograma, tret de què hagi un nombre molt reduït de valors, aquests s´agrupen en intervals per

ser representats amb un única barra.

Quan s´aplica un mètode d´anàlisi multivariant sobre les dades disponibles pot ser que no existeixi

informació per a determinades observacions i variables. Són les anomenades dades absents o

data missing (De Leeuw, 2001). La presència d´aquesta informació absent pot deure´rs a un

registre defectuós de la informació, a l´absència natural de la informació buscada o a una manca

de resposta (total o parcial).

Després de comprobar la presència de dades absents en una distribució cal detectar si aquestes

es distribueixen aleatòriament (Pérez, 2006). La simple presència de dades absents no implica

que lábsència dáquests sigui crítica per a lánàlisi estadística. Caldrà detectar que léfecte de les

dades absents és important mitjançant proves d´aleatorietat (De Leeuw, 2001).

Una prova per valorar les dades absents és el test conjunt d´aleatorietat de Little, contrast format

basat en la chi-quadrat, el p-valor de la qual indica si els valors perduts constitueixen o no un

conjunt de nombres aleatoris.

Una vegada que s´ha contrastat l´existència d´aleatorietat en les dades absents ja es pot prendre

una decisió per a aquestes dades abans de començar qualsevol anàlisi estadística amb elles.

7.1. Representacions gràfiques

7.2. Anàlisi de les dades absents

Lattin, Carroll i Green (2003) assenyalem que es pot començar incloent només en l'anàlisi les

observacions (casos) amb dades completes (files, els valors de les quals per a totes les variables,

siguin vàlids), és a dir, qualsevol fila que tingui alguna dada desapareguda s'elimina del conjunt de

dades abans de realitzar l'anàlisi. Aquest mètode es denomina aproximació de casos complets o

supressió de casos segons llista i sol ser el mètode per defecte en la majoria del programari

estadístic. Aquest mètode és apropiat quan no hi ha excessius valors perduts, perquè la seva

supressió provocaria una mostra representativa de la informació total. En cas contrari es reduiria

molt la grandària de la mostra a considerar per a l'anàlisi i no seria representativa de la informació

completa.

Altre mètode consisteix en la supressió de dades segons parella, és a dir, es treballa amb tots els

casos (files) possibles que tinguin valors vàlids per a cada parell de variables que es considerin en

l'anàlisi independentment del que succeeixi en la resta de les variables. Aquest mètode elimina

menys informació i s'utilitza sempre en qualsevol anàlisi bivariant o transformable en bivariant.

Altre mètode addicional consisteix a suprimir els casos (files) o variables (columnes) que pitjor es

comporten respecte a les dades absents. Novament és necessari sospesar la quantitat de dades a

eliminar. Ha de considerar-se sempre el que es guanya a l'eliminar una font de dades absents i el

que es perd al no comptar amb una determinada variable o conjunt de casos en l'anàlisi

estadística.

L'alternativa als mètodes de supressió de dades és la imputació de la informació mancant. La

imputació és el procés d'estimació de valors absents basat en valors vàlids d'altres variables o

casos de la mostra. Existeixen diferents mètodes d'imputació com són el mètode d'imputació per

substitució del cas, el mètode d'imputació de substitució per la mitjana, el mètode d'imputació de

substitució per la mediana, el mètode d'imputació per interpolació, el mètode d'imputació de

substitució per valor constant, el mètode d'imputació per regressió o el mètode d'imputació

múltiple.

Els casos atípics són observacions aïllades el comportament de les quals es diferencia clarament

del comportament mig de la resta de les observacions (Lattin, Carroll i Green, 2003).

Aquests mateixos autors diferencien els casos atípics segons categories. Existeix una primera

categoria de casos atípics formada per aquelles observacions que provenen d'un error de

procediment, com per exemple un error de codificació, error d'entrada de dades, etc. Aquestes

7.3. Anàlisi de valors atípics

dades atípiques, si no es detecten mitjançant filtrat, han d'eliminar-se o recodificar-se com dades

absents.

Una segona categoria de casos atípics contempla aquelles observacions que succeeixen com a

conseqüència d'un esdeveniment extraordinari existint una explicació per a la seva presència en la

mostra. Aquest tipus de casos atípics normalment es retenen en la mostra, tret que la seva

significància sigui només anecdòtica.

Una tercera categoria de dades atípiques comprèn les observacions extraordinàries per a les quals

l'investigador no té explicació. Normalment aquestes dades atípiques s'eliminen de l'anàlisi.

Una quarta categoria de casos atípics la formen les observacions que se situen fora del rang

ordinari de valors de la variable. Solen denominar-se valors extrems i s'eliminen de l'anàlisi si

s'observa que no són elements significatius per a la població.

Les pròpies característiques del cas atípic, així com els objectius de l'anàlisi que es realitza,

determinen els casos atípics a eliminar.

No obstant això, els casos atípics han de considerar-se en el conjunt de totes les variables

considerades. Per tant, cal analitzar-los des d'una perspectiva multivariant. Pot ocórrer que una

variable tingui valors extrems eliminables, però al considerar un nombre suficient d'altres variables

en l'anàlisi, l'investigador pot decidir no eliminar-los (Lattin, Carroll i Green, 2003).

Quan es tracta de detectar casos atípics en un context univariant, poden utilizar-se eines d´anàlisi

exploratori de dades, per exemple el gràfic de caixa i bigotis o boxplot (Peña, 2002). En aquest

gràfic, els valors atípics es presenten com punts aïllats en els extrems dels bigotis. Els valors

extrems solen aparéixer marcats amb una “x” (Field, 2005). No obstant, és més efectiu utilitzar un

contrast formal estadístic per detectar valors atípics, per exemple el test de Dixon o el test de

Grubs, els p-valors dels quals detecten valors atípics: Per a p-valors menors que 0,05, existeixen

valors atípics al 95% de confiança (Peña, 2002).

La distribució de freqüències o les representacions gràfiques d´aquestes constitueixen un bon

“resum” de la informació original, continguda a la matriu de dades (Igartúa, 2006). Malgrat això,

existeixen estadístics que sintetitzen molt més la informació sobre les dades. Als més bàsics

(mediana i moda) se sumen tot un repertori d´estadístics que se solen agrupar en tres grans blocs:

mesures de tendència central, mesures de variabilitat d´una distribució i mesures d´asimetria i

apuntament.

7.4. Estadístics de resum

Aquests estadístics responen a la pregunta de “quin és el resultat típic d´una distribució de

freqüències?” Per tant, permeten veure allò que és dominant, allò que és típic o la tendència de la

distribució de les dades. Aporten informació sobre el conjunt total de nombres que s´analitzen

mitjançant el càlcul d´una sola xifra que pot ser característica de la distribució completa.

Se solen utilizar tres xifres descriptores que expressen diferents versions de la tendència central:

la moda, la mediana i la mitjana. Uns altres estadístics de tendència central són els percentils.

• La moda : És la puntuació a la que correspon la freqüència máxima en una distribució de

freqüències; és el valor o categoria “que més es porta”, que més es repeteix en una

distribució de freqüències (encara que es pot donar el cas d´una distribució de freqüències

que presenti dos o més valors modals).

• La mediana : Amb les dades ordenades del valor inferior al superior, la mediana

s´interpreta com el valor de l´individu que ocupa el valor central de la distribució. És a dir,

aquell que deixa igual nombre d´individus per sobre que per sota. Dit d´una altra manera,

és el punt o valor que deixa per sobre i per sota d´ell el 50% de les observacions. Per

aquesta raó i quan s´utilitzin variables que adopten com a mínim un nivell de mesura

d´interval (variables quantitatives), la mediana dividirà l´àrea total de l´histograma

representat en dues àrees amb igual superficie.

• La mitjana : Matemàticament es defineix com la suma de totes les puntuacions obtingudes

en una variable, X, dividida pel nombre total de puntuacions, n.

1ii∑

A diferència de la mediana, el valor de cadascuna de les puntuacions de la distribució de

freqüències afecta de manera substancial a la mitjana. Per tant, una de les principals

característiques de la mitjana és que és sensible a la variació de les puntuacions

individuals d´una distribució de freqüències. Per això, no és recomanable utilizar la mitjana

com a índex de tendència central quan la distribució de freqüències és molt asimètrica, ja

sigui perquè hagi molts valors alts o ja sigui perquè hagi molts valors baixos. Com a regla

general, sempre que existeixin valors extrems en una distribució de freqüències, la mitjana

perdrà representativitat mentre que la mediana (que no es veu influenciada pels casos

extrems) es convertirà en la mesura d´elecció (Sánchez Carrión, 1995).

7.4.1. Estadístics de posició o tendència central

• Els percentils : El percentil k será aquell valor numèric que deixa per sota d´ell el k per 100

dels casos analitzats. La mediana és el percentil 50 (o segon quartil); mentre que el

percentil 25 (P25) sol anomenar-se primer quartil i el percentil 75 (P75) sol denominar-se

tercer quartil.

Els estadístics de tendència central indiquen on se situa un grup de puntuacions. Però es

necessiten altres estadístics que, a més a més de mostrar la tendència, indiquin com es desvien

els casos en relació a aquests valors centrals (Igartúa, 2006).

Els estadístics de dispersió són estadístics que mostren la variabilitat de la distribució. Indiquen si

les puntuacions d´una distribució es troba molt properes entre elles o molt allunyades; és a dir,

descriuen la forma en què els valors es disseminen a partir del punt central.

Existeixen diferents estadístics de dispersió; tanmateix aquí s´analitzaran únicament dos: la

variança i la desviació típica. Ambdós índexs són la base de moltes tècniques estadístiques més

complexes utilitzades en estadística inferencial.

Desviació típica : Si la mitjana és l´estadístic “estrella” a l´hora de veure la tendència d´unes

dades, la desviació típica (DT, SX) ho és quan es desitja conéixer la seva variabilitat (o grau

d´heterogeneïtat). Expressa la dispersió de la distribució i s´expressa en les mateixes unitats de

mesura de la variable. Es calcula a partir de la diferència que existeix entre cada valor individual i

la mitjana; matemàticament, la desviació típica, és igual a l´arrel quadrada de la mitjana de les

desviacions (al quadrat) de cada valor respecte a la mitjana1.

Aplicant la fórmula anterior, una desviació típica petita indicarà que la majoria de les puntuacions

de la distribució se situen molt properes a la mitjana; mentre que una desviació típica elevada

descriurà un conjunt de valors que estan disseminats en un ampli radi. Dit d´una altra forma, quan

els casos analitzats siguin molt semblants entre ells (molt homogenis), la desviació típica serà molt

petita; quan els casos siguin molt diferents (molt heterogenis), el valor de la desviació típica serà

molt gran.

1 Alguns textos d´estadística indiquen que ha de dividir-se entre n-1(correcció de Bessel) per comptes d´n (que representa el tamany de la mostra). Knapp (1970) indica que n és apropiat quan el que es busca és conèixer o descriure el grau de variació en les dades de la mostra amb la que es treballa. Es pot consultar: http://faculty.vassar.edu/lowry/webtext.html i Igartúa (2006).

7.4.2. Estadístics de variabilitat o dispersió

Variança : La variança (SX2) és el quadrat de la desviació típica. Segons el context de la

investigació se sol utilitzar com a mesura de dispersió la desviació típica o la variança.

El numerador de la fórmula anterior, ∑=

2i )XX( , es denomina suma de quadrats i, encara que

aquesta magnitud no sol ser definida com un indicador estadístic, sí forma part del càlcul d´altres

proves estadístiques com l´anàlisi de variança. En aquest sentit, la variança és un concepte

fonamental en investigació. Així, per saber si una variable independent explica bé una altra

variable dependent el que es fa és veure quin percentatge de la variació (variança) d´aquesta

queda explicada per la primera (Sánchez Carrión, 1995).

Amb la informació subministrada pels estadístics de tendència central i de dispersió es disposa ja

d´una imatge representativa de la distribució de les dades de l´estudi. Tanmateix, les distribucions

de freqüències també es caracteritzen per la forma que adopten. En aquest sentit, existeixen dos

criteris bàsics per analitzar la forma d´una distribució de freqüències: la seva simetria (skewness) i

el seu apuntament o curtosis (o kurtosis). Tanmateix, abans d´introduir ambdós conceptes

s´al·ludirà un altre terme central en Estadística: la corba o distribució normal.

La corba normal : És un tipus de corba de probabilitat d´enorme importància en Estadística degut,

fonamentalment, a la freqüència amb què diferents variables associades a fenòmens naturals i

quotidians segueixen, aproximadament, aquesta distribució. Les característiques de la distribució

normal són les següents:

1. És unimodal (té un sol pic) i presenta una forma de campana.

2. La mitjana d´una població distribuïda normalment es troba al centre de la seva corba

normal.

3. A causa de la simetria de la distribució normal de probabilitat, la mediana i la moda de la

distribució també es troben al centre, per tant, en una corba normal, la mitjana, la mediana

i la moda tenen el mateix valor.

4. Les dues cues o extrems d´una distribució normal de probabilitat s´extenen de manera

indefinida i mai no toquen l´eix horitzontal.

Simetria : Es diu que una distribució és simètrica si al doblegar-la sobre ella mateixa (a partir del

valor de la mediana), les dues meitats que s´obtenen se superposen completament. Per tant, quan

7.4.3. Mesures d´asimetria i apuntament

la forma de la distribució és simètrica la mitjana no només constituirà el centre de la distribució

sinó que coincidirà amb el valor de la mediana. I, si a més a més, la distribució de freqüències és

unimodal, la mitjana, la mediana i la moda coincidiran en un mateix valor. En canvi, una distribució

asimètrica sol definir-se com esbiaixada i es caracteritza per disposar del pic més elevat de la

distribució desplaçat o descentrat, al temps que presenta una cua més llarga que l´altra.

Curtosis : Mesura la densitat de les cues d´una distribució, en comparació amb la corba normal.

És una mesura de l´apuntament de la corba que es projecta a partir de les dades d´una distribució

de freqüències. En aquest sentit, una corba (construïda a partir de la distribució de freqüències)

que es presenti com “apuntada” será alta i estreta; anoment-la leptocúrtica (o supergaussiana). Pel

contrari, una corba poc “apuntada” será baixa i ampla, rebent el qualificatiu de platicúrtica (o

subgaussiana) ja que és menys apuntada que la corba normal. En aquest sentit, la corba normal

també s´anomena mesocúrtica.

El coeficient de curtosis mesura el grau de concentració que presenten els valors al voltant de la

zona central de distribució. Aquest índex adopta un valor de 0 quan la corba construïda a partir de

les distribucions de freqüències de la variable és normal. Els valors positius a l´índex de curtosis

indiquen que la corba és alta i estreta (letocúrtica); mentre que els valors inferiors a 0 assenyalen

que la corba és baixa i ampla (platicúrtica). Per tant, quan més s´allunyi de 0 el valor de la curtosis,

més gran será la probabilitat de què la variable analitzada no segueixi una distribució normal.

L'objectiu dels mètodes factorials és obtenir una representació gràfica simplificada de les

columnes i de les files d'una taula (Salvador i Gargallo, 2006). Aquesta representació s'efectua

construint unes variables sintètiques o factors a partir de les variables inicials o actives.

A través d'aquests mètodes s'obtenen subespais de dimensió reduïda que conserven el màxim de

la informació inicial de la taula. Aquests subespais s'obtenen en funció de l'estructura de

correlacions de les variables de la taula analitzada, no mitjançant la selecció de les variables més

representatives, sinó creant noves variables sintètiques, combinació lineal de les inicials

(Gremigni, Sommaruga i Peltenburg, 2008).

L'anàlisi consenteix una petita pèrdua d'informació per guanyar en significació i a més proporciona

representacions gràfiques (Vogt, 2007). Aquestes són representacions simplificades que poden

estar deformades per la qual cosa s'acompanyen d'indicadors de la qualitat de representació de

cada element (observació, variable o categoria) i quantitat d'informació que mantenen.

8. Mètodes factorials per a l´anàlisi de

qüestionaris

Les variables actives són les que recullen la informació sobre el tema objectiu de l'estudi i són les

úniques que intervenen en el càlcul de les distàncies o semblances entre els enquestats

(Zambrano, Meda i Lara, 2005).

Aquestes variables poden ser de qualsevol naturalesa, quantitatives o qualitatives. L'única

condició és que siguin homogènies, és a dir, totes de la mateixa naturalesa, quantitativa o

qualitativa i aquesta condiciona el mètode d'anàlisi (Cohen, Manion i Morrison, 2007). Així, si les

preguntes relatives a l'objectiu de l'estudi estan codificades com variables mètriques o

quantitatives, el mètode d'anàlisi serà l'Anàlisi de Components Principals (ACP) i si la codificació

és com variables qualitatives, el mètode adequat serà l'Anàlisi de Correspondències Múltiples

(ACM). Quan es tracta d'analitzar la relació entre les categories de dues preguntes i analitzar en

profunditat una taula de freqüències que creua dues variables categòriques relacionades s'utilitza

l'Anàlisi de Correspondències (ACOR) (Grande i Abascal, 2005).

Tipus de taules Mètode Estudia la relació entre

Quantitatives ACP Variables mètriques

Qualitatives ACOR Les categories de dues variables qualitatives

Qualitatives ACM Les categories de p variables qualitatives

Històricament, lÁCP és anterior a lÁCOR i a lÁCM i és pràctica habitual entre els investigadors

(Bedoya, Gutiérrez, Rico (2006); Curts i Tanguma (2007); Gremigni, Sommaruga i Peltenburg

(2008); Zambrano, Meda i Lara (2005)) que consideren una escala tipus de Likert o un diferencial

semàntic com escales mètriques.

Les limitacions de l´ACP són ben conegudes; únicament es pot utilitzar amb variables mètriques i

quan es considera que una escala de Likert de 1 a 5 com mètrica i està forçant que el desacord (2)

és la meitat que l'acord (4) el que suposa una deformació.

L´ACM està especialment dissenyat per a l'anàlisi de variables qualitatives o categòriques i permet

el tractament conjunt de preguntes. La limitació que totes les variables siguin categòriques no és

tan restrictiva, ja que qualsevol variable mètrica es pot convertir en categòrica. Per altra banda, no

s'exigeix que el nombre de categories de les preguntes sigui el mateix (Cohen, Manion i Morrison,

2007).

Encara que tots els mètodes tenen un objectiu comú es diferencien en el tipus de variables i el

tractament i per tant en la definició de semblança. Cadascun té les seves característiques i normes

d'interpretació pròpies. En el següent apartat es presenten el mètode de l´ACP i la forma d'utilitzar-

lo per a l'anàlisi d'enquestes.

L'anàlisi factorial és el nom genèric que es dóna a una classe de mètodes estadístics multivariants

el propòsit principal dels quals és treure a la llum l'estructura subjacent en una matriu de dades

(Salvador i Gargallo, 2006). Analitza l'estructura de les interrelacions entre un gran nombre de

variables no exigint cap distinció entre variables depenents i independents. Utilitzant aquesta

informació calcula un conjunt de dimensions latents, conegudes com factors, que busquen explicar

aquestes interrelacions. És, per tant, una tècnica de reducció de dades atès que si es compleixen

les seves hipòtesis, la informació continguda en la matriu de dades pot expressar-se, sense molta

distorsió, en un nombre menor de dimensions representades per aquests factors. Una anàlisi

factorial té sentit si es compleixen dues condicions: parsimònia i interpretabilitat2 (Lattin, Carroll i

Green, 2003).

Figura 5.3: La gènesi de l´anàlisi factorial és que, partint d´una sèrie de variables X1, X2, …, Xn es

reagrupen obtenint unes variables latents anomenades factors.

En aquest apartat donarem una visió general d'aquesta tècnica i aprendrem quins són els passos

a seguir a l'hora de realitzar una anàlisi factorial i, posteriorment, en el següent capítol, il·lustrarem

amb l'exemple que ens pertoca la seva aplicació.

2 Encara que es veurà més endavant, adelantem que segons el principi de parsimònia, els fenòmens han déxplicar-se amb el menor nombre délements possibles. Per tant, respecte a lánàlisi factorial, el nombre de factors ha de ser el més reduït possible i aquests han de ser susceptibles dínterpretació substantiva. Una bona solució factorial és aquella que resulta senzilla i interpretable (Franquet, 2008).

9.1. Introducció

9. Anàlisi Factorial i Anàlisi de Components

Principals

Com hem vist anteriorment, l'anàlisi factorial és una tècnica d'anàlisi multivariat que permet

analitzar la interdependència entre un grup de variables. Se sol utilitzar per examinar com

s'agrupen entre si un grup de variables, en funció del seu grau de correlació, amb el propòsit de

descobrir si comparteixen alguna estructura latent (Cea D'Ancona, 2002).

L'objectiu principal de l'anàlisi factorial és simplificar les nombroses i complexes relacions que es

poden trobar en un conjunt de variables quantitatives observades (De Vicente i Manera, 2003).

També se sol considerar que l'anàlisi factorial serveix per a identificar models de mesura, ja que

un dels seus objectius és el desenvolupament o construcció d'índexs o escales unidimensionals

(Stevens, 1992; Tacq, 1997). Els índexs o factors identificats en l'anàlisi són una combinació lineal

de les variables originals i es caracteritzen per estar correlacionats entre ells. D'aquesta manera,

l'anàlisi factorial informa a l'investigador sobre quines variables poden addicionar-se i ser

estudiades conjuntament perquè remeten a un mateix constructe.

Des d'un punt de vista matemàtic, un factor és una combinació lineal d'una sèrie de variables. Ara

bé, no cal confondre'l amb el concepte de factor en l'anàlisi de variança (Igartúa, 2006). En aquell

context un factor equivalia a una variable independent. En canvi, en l'anàlisi factorial no existeixen

variables depenents i independents, al ser una tècnica d'interdependència, i el concepte de factor

es refereix a un constructe latent, no observable a primera vista sinó que és inferit a partir de les

puntuacions d'un grup de variables correlacionades entre si. D'aquesta manera, un factor pot

definir-se en funció de la següent equació:

pkp33k22k11kk X·...X·X·X·F λ++λ+λ+λ=

On, Fk és el factor k que s´expressa com funció linial de p variables observades ( 1X fins Xp i on 1kλ fins

kpλ representen els pesos, coeficients o càrregues factorials de saturació de les diferents variables en

cadascun dels factors). El desenvolupament matemàtic de l'anàlisi factorial permet analitzar el grau

de correlació entre les p variables i a partir d'aquí extreure un nombre menor de factors. Per tant,

els factors es deriven de les correlacions existents entre les variables que s'inclouen en l'anàlisi.

L'objectiu bàsic serà buscar l'agrupament de les variables que manifestin una alta correlació entre

si, el que significarà que mesuren un constructe o variable latent denominat factor (Peña, 2002).

Per a la identificació de cada factor es tindrà en compte el grau de saturació de cada variable amb

cadascun dels factors extrets, de manera que aquelles variables que mostrin pesos ( λ ) més

elevats amb un factor es dirà que defineixen la seva estructura o estan associats a aquest factor.

9.2. Objectius de l´Anàlisi Factorial

De fet, els pesos o puntuacions factorials poden interpretar-se com coeficients de correlació entre

un factor donat i una determinada variable3.

En termes generals, existeixen dues modalitats d'anàlisi factorial; exploratori i confirmatori. En

l'anàlisi factorial exploratori no es coneixen els factors a priori, sinó que es determinen a partir

d'examinar la solució factorial. En canvi, en l'anàlisi factorial confirmatori es proposa a priori un

model teòric, segons el qual existeixen un nombre determinat de factors extrets a partir d'una sèrie

de variables específiques i del que es tracta és de verificar o comprovar que aquest model teòric

s'ajusta a les dades empíriques obtingudes (Bisquerra, 1989).

En aquest text, únicament es farà referència a l´anàlisi factorial exploratori, que és el que ens

interessa per a l´estudi. L´anàlisi factorial exploratori permetrà descobrir les dimensions fonamentals

que existeixen en un grup de variables (Curts i Tanguma, 2007). Precisament aquest fou, en el seu

origen, el propòsit principal de l´anàlisi factorial desenvolupat inicialment per Karl Pearson (en 1901),

qui va presentar la primera proposta del mètode de components principals, i Karl Spearman (en

1904). Tanmateix, els desenvolupaments posteriors, principalment gràcies al treball de Jöreskog

(en 1973), van permetre desenvolupar l´anàlisi factorial confirmatori, tècnica estretament

relacionada amb el model LISREL (Linear Structural Relationship) o model d´equacions

estructurals lineals, creat per Jöreskog i Sörbom en 1979 (Cea D'Ancona, 2002; De Vicente i

Manera, 2003; Lévy, 2003).

En definitiva, l'anàlisi factorial intenta identificar variables subjacents, o factors, que expliquin la

configuració de les correlacions dins d'un conjunt de variables observades (aquelles que realment

es mesuren) (Field, 2005). En aquest context, l'anàlisi factorial se sol utilitzar en la reducció de les

dades (de fet, l´SPSS ho defineix d'aquesta manera). També pot utilitzar-se per a inspeccionar les

variables que es van a utilitzar en anàlisis següents: per exemple, per a identificar la colinealitat

entre aquelles variables abans de realitzar una anàlisi de regressió lineal múltiple (Field, 2005).

Per poder efectuar una anàlisi factorial les variables han de ser mètriques, és a dir, adoptar un

nivell de mesura d'interval o de raó. Les variables qualitatives no són adequades per a l'anàlisi

factorial, tret que s'efectuï una transformació en elles convertint-les en variables dummy. Per

3 En realitat, són correlacions quan els factors no estan correlacionats entre ells, és a dir, quan són ortogonals (Bisquerra, 1989).

9.3. Modalitats de l´Anàlisi Factorial

9.4. Requisists de l´Anàlisi Factorial

exemple, per poder introduir en una anàlisi factorial la variable sexe caldria codificar-la com

variable dummy, adoptant els valors 1 (homes) i 0 (dones). En principi, aquelles dades amb les

quals es pot efectuar una anàlisi de correlació de Pearson seran també adequades per a l'anàlisi

factorial (Cea D'Ancona, 2002; Field, 2000; Foster, 2001).

Els mateixos autors anteriors argumenten que, en aquest sentit, s'ha estès l'ús de l'anàlisi factorial

amb variables mesurades amb escales d'intensitat (1=gens, fins a 5=molt, per exemple), escales

tipus Likert (1=total desacord, fins a 5=total acord) o per mitjà del diferencial semàntic d´Osgood,

encara que en realitat no adoptin, estrictament parlant, un nivell de mesura d'interval o de raó.

Un altre requisit indispensable per executar l'anàlisi factorial és comptar amb un nombre elevat de

casos (Vogt, 2007; Peña, 2002). Encara que la resposta a l'interrogant “quants casos són

suficients” ha rebut diferents respostes, s'han establert alguns criteris pertinents. En primer lloc,

almenys han d'existir 5 casos per variable inclosa en l'anàlisi. Si, per exemple, es desitja efectuar

una anàlisi factorial sobre una escala composta per 20 variables, seguint aquest criteri la

grandària de la mostra haurà de ser almenys de 100 casos. El principal problema al treballar amb

mostres petites és que els coeficients de correlació que es calculen per a l'extracció dels factors

poden resultar poc fiables (Cea D'Ancona, 2002; Stevens, 1992).

Seguint a Salvador i Gargallo (2006), Hair, Anderson, Tatham i Black (1998) i Lattin, Carroll i Green

(2003), siguin X1, X2, …, Xp les p variables objecte d´anàlisi que suposarem des d´ara en endavant,

que estan tipificades. Si no ho estiguessin, l´anàlisi es realitzaria de forma similar però la matriu

utilitzada per calcular els factors no seria la matriu de correlació sinó la de variances i covariances.

L´investigador mesura aquestes variables sobre n individus, obtenint la següent matriu de dades:

Subjectes Variables

X1, X2, …, Xp

X11 X12 … X1p

X21 X22 … X2p

X31 X32 … X3p

Xn1 Xn2 … Xnp

El model de l´anàlisi factorial ve donat habitualment per les equacions:

9.5. Model de l´Anàlisi Factorial

X1 = a11F1 + a12F2 +…+a1kFk + u1

X2 = a21F1 + a22F2 +…+a2kFk + u2

Xp = ap1F1 + ap2F2 +…+apkFk + up

on F1,…,Fk (k<p) són els factors comuns i u1,…up els factors unics o específics i els coeficients {aij;

i=1,…,p; j=1,...,k} les càrregues factorials.

Se suposa, a més a més, que els factors comuns estan a la vegada estandaritzats (E(Fi) = 0;

Var(Fi) = 1), els factors específics tenen mitjana 0 i estan incorrelats (E(ui) = 0; Cov(ui,uj) = 0 si i≠j;

j, i=1,…,p) i que ambdós tipus de factors estan incorrelats (Cov(Fi,uj) = 0, ∀i=1,..,k; j=1,…,p).

Si, a més a més, els factors estan incorrelats (Cov(Fi,Fj) = 0 si i≠j; j, i=1,…,k) estem davant un

model amb factors ortogonals. En cas contrari el model es diu que és de factors oblicus.

Expressant en forma matricial x = Af + u ⇔ X = FA' + U (1)

on x =

, X és la matriu de dades, A=

pk2p1p

k22221

k11211

a...aa

............

a...aa

és la matriu de

càrregues factorials i F=

pk2p1p

k22221

k11211

f...ff

............

f...ff

és la matriu de puntuacions factorials.

Utilitzant les hipòtesi anteriors es té que:

∑ =ψ+=ψ+=

1j i2ii

2iji ha)X(Var amb i=1, …, p

2i FaVarh i )u(Var ii =ψ reben els noms de comunalitat i especificitat de la variable Xi,

respectivament.

Per tant, la variança de cada una de les variables analitzades pot descomposar-se en dues parts:

una, la comunalitat, 2ih , que representa la variança explicada pels factors comuns i una altra la

especificitat, ψi, que representa la part de la variança específica de cada variable.

A més a més es té que:

∑∑ ∑== =

1jljij

1jjljjijli aaFa,FaCov)X,X(Cov ∀i≠l

Per la qual cosa són els factors comuns els que expliquen les relacions existents entre les

variables del problema. És per aquesta raó que els factors que tenen interès i són susceptibles

d´interpretació experimental són els factors comuns. Els factors únics s´inclouen en el model

donada la impossibilitat d´expressar, en general, p variables en funció d´un nombre més reduït k

de factors.

Segons diversos autors (Lattin, Carroll i Green, 2003; Field, 2005; Salvador i Gargallo, 2006);, les

fases a seguir en realitzar un anàlisi factorial són les següents:

Als apartats següents es presenta amb detall en què consisteix cadascuna d´aquestes etapes.

0. Formulació del problema

9.6. Fases de l´Anàlisi Factorial

En la formulació del problema ha d'abordar-se la selecció de les variables a analitzar així com la

dels elements de la població en la qual aquestes variables van a ser observades (Curts i

Tanguma, 2007). És important que aquestes variables recullin els aspectes més essencials de la

temàtica que es desitja investigar i la seva selecció haurà d'estar marcada per la teoria subjacent

al problema. Convé fer notar, finalment, que els resultats de l'anàlisi no tenen per qué ser

invariants a canvis d'origen i escala per la qual cosa s'aconsella, si les unitats de mesura de les

variables no són comparables, estandaritzar els dades abans de realitzar l'anàlisi (Salvador i

Gargallo, 2006).

1. Matriu de correlació

Una vegada formulat el problema i obtinguda la matriu de dades, X, el següent pas a realitzar és

l´examen de la matriu de correlacions mostrals R = (rij) on rij és la correlació mostral observada

entre les variables Xi i Xj. La finalitat d´aquest anàlisi és comprovar si les seves característiques

són les més adequades per realitzar una anàlisi factorial (Cohen, Manion i Morrison, 2007).

Un dels requisits que ha de complir-se perquè l'anàlisi factorial tingui sentit és que les variables

estiguin altament intercorrelacionades (Lattin, Carroll i Green, 2003). Per tant, si les correlacions

entre totes les variables són baixes, l'anàlisi factorial tal vegada no sigui apropiat.

A més, també s'espera que les variables que tenen correlació molt alta entre elles la tinguin amb el

mateix factor o factors. A continuació presentem diferents indicadors del grau d'associació entre

les variables.

2. Adequació de l´Anàlisi Factorial

És convenient sol·licitar algun procediment per esbrinar l'adequació de l'anàlisi factorial amb les dades que

s'estigui treballant (Lattin, Carroll i Green, 2003). Aquest tipus de procediments permeten comprovar la

qualitat de l'anàlisi, a partir de la matriu de correlacions entre les variables. Dos dels indicadors més

utilitzats per a comprovar l'adequació de l'anàlisi són la prova d´esfericitat de Bartlett i l'índex KMO (Kaiser-

Meyer-Olkin) (Cea D'Ancona, 2002; De Vicente i Manera, 2003; Wimmer i Dominick, 1996):

• En el context de lánàlisi factorial lésfericitat es refereix a léxistència de correlació entre

les variables considerades. La hipòtesi nul·la a la prova d´esfericitat de Bartlett planteja que les

variables no estan correlacionades; de forma estricta es planteja que la matriu de correlació, R,

es correspon amb la matriu identitat4 (aquella en la que la diagonal principal només hi ha uns i la

resta dels termes són zeros). En canvi, la hipòtesi alternativa planteja que les variables sí

estan correlacionades i, per tant, que la matriu de correlacions difereix de la matriu identitat.

4 Si la matriu de correlació és la identitat significa que les intercorrelacions entre les variables són zero.

≠≠

IRo1R:H

La prova désfericitat de Bartlett sóbté a partir dúna transformació del determinant de la

matriu de correlació. L´estadístic d´aquest test ve donat per:

+−−=

+−−−=p

1jjR )log(

nRlog)5p2(61

on n és el nombre d´individus de la mostra i jλ (j=1, …,p) són els valors propis d´R.

Per realitzar aquest contrast es recorre a la prova χ2 amb p(p-1)/2 graus de llibertat. L´obtenció

d´un valor estadísticament significatiu (p<0.05) en aquest estadístic de contrast suposarà el

refús de la hipòtesi nul·la i, per tant, la pertinència de l´anàlisi factorial.

• El coeficient de correlació parcial és un indicador de la força de les relacions entre dues

variables eliminant la influència de la resta. Segons Lattin, Carroll i Green (2003), si les

variables comparteixen factors comuns, el coeficient de correlació parcial entre parells de

variables serà baix, ja que s'eliminen els efectes lineals de les altres variables. Les

correlacions parcials són estimacions de les correlacions entre els factors únics i haurien

de ser pròxims a zero quan l'anàlisi factorial és adequat, ja que, aquests factors se suposa

que estan incorrelats entre ells. Per tant si existeix un nombre elevat de coeficients

d'aquest tipus diferents de zero és senyal que les hipòtesis del model factorial no són

compatibles amb les dades. Una forma d'avaluar aquest fet és mitjançant l'índex KMO

proposta per Kaiser, Meyer i Olkin. Aquesta mesura ve donada per:

∑∑ ∑∑

∑∑

≠ ≠ ≠ ≠

≠ ≠

ij ji ij ji

2)p(ij

KMO on )p(ijr és el coeficient de correlació parcial entre les

variables Xi i Xj eliminant la influència de la resta de les variables.

El que interessa en aquest cas és obtenir valors propers a 1, el que serà indicatiu que les

variables sí estan correlacionades entre elles. S'ha assenyalat que quan s'obtenen valors

inferiors a 0.50 s´ha de posar en dubte l'adequació de l'anàlisi. Cea D'Ancona (2002) ofereix

els següents valors de referència de l'índex KMO per a jutjar la qualitat de l'anàlisi factorial:

0.90 (molt bo), 0.80 (meritori), 0.70 (mig o normal), 0.60 (mediocre), 0.50 (menyspreable o

baix) i menor que 0.50 (totalment inacceptable).

• També es pot calcular una mesura d´adequació per a cada variable de forma similar a l índex

KMO amb l índex MSA. En aquesta prova només s´inclouen els coeficients de la variable que es

desitja comprovar. La fórmula és:

∑ ∑

≠ ≠

2)p(ij

MSA ; i=1, …, p

Un valor baix de MSA indica que les hipótesis fetes pel model de l´anàlisi factorial són poc

compatibles per al cas de la variable Xi.

• Altres dues opcions que poden resultar d'interès, encara que no són tan utilitzades, són

l'obtenció de la matriu de correlacions de totes les variables entre elles i el determinant de la

matriu de correlació (Lattin, Carroll i Green, 2003). La inspecció dels coeficients de correlació

permetrà examinar si les variables es troben relacionades i en quin grau; s'espera trobar

correlacions de 0.30 en endavant. Ara bé, és necessari comprovar si existeix algun problema

d'extrema multicolinealitat, que es presenta quan les variables estan altament

correlacionades. En aquest sentit, s'ha indicat que si s'observen correlacions de 0.80 o

superiors entre dues variables, convé eliminar una d'elles. S'actua d'aquesta manera perquè

si dues variables estan correlacionades de manera gairebé perfecta, la informació que s'obté

és redundant. D'altra banda, quan s'obté un valor del determinant de la matriu de correlacions

major que 0.00001 també es pot descartar la presència de correlacions excessivament

elevades entre les variables (Field, 2005).

3. Extracció i determinació de factors

Com ja hem comentat, l'objectiu de l'anàlisi factorial consisteix a determinar un nombre reduït de

factors que puguin representar a les variables originals. Per tant, una vegada que s'ha determinat

que l'anàlisi factorial és una tècnica apropiada per a analitzar les dades, ha de seleccionar-se el

mètode adequat per a l'extracció dels factors. Existeixen diversos mètodes cadascun d'ells amb

els seus avantatges i inconvenients per obtenir els factors comuns5.

En aquesta secció donarem una breu referència d´alguns d´ells; més concretament dels

implementats en el paquet estadístic Dyane, que és l´utilitzat al treball.

Mètode de les Components Principals: El mètode consisteix a estimar les puntuacions factorials

mitjançant les puntuacions tipificades de les k primeres components principals i la matriu de

càrregues factorials mitjançant les correlacions de les variables originals amb aquestes

components (Field, 2005). Aquest mètode té l'avantatge que sempre proporciona una solució.

L´autor anterior al·ludeix que, té l'inconvenient, no obstant això, que al no estar basat en el model

5 En realitat, encara que de manera genèrica se sol parlar d'anàlisi factorial, en funció del mètode d'extracció de factors seleccionat, és que apareixen els mètodes analítics següents: Anàlisis de components principals, eixos principals, mínims quadrats no ponderats, mínims quadrats generalitzats, màxima versemblança, alfa i imatge (per a una despcripció dels mateixos es pot consultar Cea D´Ancona, 2002). En el nostre cas seleccionem el mètode de components principals, un dels més utilitzats i pioner de l'anàlisi multivariant (Bisquerra, 1989).

d'anàlisi factorial pot dur a estimadors molt esbiaixats de la matriu de càrregues factorials,

particularment, si existeixen variables amb comunalitats baixes.

La comunalitat és la proporció de variança comuna d'una variable donada explicada pels factors

extrets en l'anàlisi (Lattin, Carroll i Green, 2003). Per comprendre millor aquest concepte cal

comprendre que, teòricament, la variança total en una determinada variable té dues components:

part de la variança serà compartida o estarà relacionada amb la variabilitat d'altra variable

(variança comuna) i altra part li serà específica i no serà compartida amb cap altra variable

(variança única)6.

Atès que en l'anàlisi factorial interessa descobrir dimensions subjacents o variables latents, gràcies a què

les variables estan correlacionades entre si (i per tant, comparteixin una gran quantitat de variança), és

convenient que els valors de les comunalitats obtingudes (que reflecteixen la variança comuna) siguin

elevats (Field, 2005). En aquest context, una variable que no presenta variança específica o única tindrà

un valor d´1; mentre que una variable que no comparteix la seva variança amb cap altra tindrà una

comunalitat de 0. Per tant, al realitzar una anàlisi factorial és fonamental conèixer quina és la proporció de

variança comuna present en les dades (Field, 2005). Existeixen diferents mètodes per a estimar els valors

de comunalitat de cada variable però el més utilitzat es basa en el càlcul de la correlació múltiple al

quadrat de cada variable amb les altres incloses en l anàlisi7.

Mètode de la Màxima Versemblança : Aquest mètode està basat en el model (1) adoptant, a més, la

hipòtesi de normalitat multivariant i consisteix en aplicar el mètode de la màxima versemblança (Lattin,

Carroll i Green, 2003). El mètode té l'avantatge sobre els dos anteriors que les estimacions obtingudes

no depenen de l'escala de mesura de les variables. A més, a l'estar basat en el mètode de la màxima

versemblança, té totes les propietats estadístiques d'aquest i, en particular, és assimptòticament no

esbiaixat, eficient i normal si les hipòtesis del model factorial són certes. Permet, a més, seleccionar el

nombre de factors mitjançant contrastos d'hipòtesis. Aquest mètode també es pot utilitzar en l'anàlisi

factorial confirmatori, on l'investigador pot plantejar hipòtesi com que algunes càrregues factorials són

nul·les, que alguns factors estan correlacionats amb determinats factors, etc. i aplicar tests estadístics

per a determinar si les dades confirmen les restriccions asumidse (Field, 2005). El seu principal

inconvenient radica que, al realitzar-se l'optimització de la funció de versemblança per mètodes

iteratius, si les variables originals no són normals, pot haver problemes de convergència sobretot en

mostres finites.

Existeixen altres mètodes d'extracció: mètode de mínims quadrats ponderats o mètode de mínims

quadrats generalitzats però s'exclou la seva explicació en aquest capítol per no utilitzar-se en la

6 Quan una variable presenta poca variança, és més difícil que pugui compartir variança amb altres variables, raó per la qual és recomanable que la mostra a la que sápliqui léscala que se sotmet lánàlisi factorial no sigui excesivament homogènia (Prat i Doval, 2003). 7Els diferents procediments d'extracció de factors difereixen en la forma d'estimar les comunalitats i, per tant, en les solucions factorials. No obstant això, Stevens (1992) ha assenyalat que amb 30 o més variables en l'anàlisi i amb comunalitats majors de 0,70 en totes elles és molt poc probable que difereixin entre si les diferents solucions factorials.

investigació. Si es desitja ampliar la informació referent a això es pot consultar en Lattin, Carroll i

Green (2003)

Determinació del número de factors

L'anàlisi factorial sol calcular una primera solució inicial en la que es mostra el nombre de factors

identificats i les saturacions de les variables en cadascun d'ells. A aquesta solució inicial se la

denomina matriu factorial.Per tal de determinar el nombre de factors cal treballar amb aquesta. La

matriu factorial pot presentar un nombre de factors superior al necessari per explicar l´estructura de les

dades originals. Generalment, hi ha un conjunt reduït de factors, els primers, que contenen gairebé tota

la informació (Salvador i Gargallo, 2006). Els altres factors solen contribuir relativament poc. Un dels

problemes que es plantegen consisteix a determinar el nombre de factors que convé conservar ja que

del que es tracta és de complir el principi de parsimònia. S'han donat diverses regles i criteris per a

determinar el nombre de factors a conservar. A continuació, llistem alguns dels més utilitzats, segons

Lattin, Carroll i Green (2003):

• Determinació a priori : Aquest és el criteri més fiable si les dades i les variables estan bé

triades i l'investigador coneix a fons el terreny que està tractant ja que, com ja vam

comentar anteriorment, l'ideal és plantejar l'anàlisi factorial amb una idea prèvia de quants

factors hi ha i quins són.

• Regla de Kaiser : Consisteix a calcular els valors propis de la matriu de correlacions i

prendre com nombre de factors el nombre de valors propis superiors a la unitat. Aquest

criteri és una reminiscència de l'anàlisi de components principals i s'ha comprovat en

simulacions que, generalment, tendeix a infraestimar el nombre de factors pel que es

recomana el seu ús per a establir un límit inferior. Un límit superior es calcularia aplicant

aquest mateix criteri però prenent com límit 0.7.

• Criteri del percentatge de la variança : També és una reminiscència de l'anàlisi de

components principals i consisteix a prendre com nombre de factors el nombre mínim

necessari perquè el percentatge acumulat de la variança explicat abasteixi un nivell

satisfactori que sol ser del 75% o el 80%. Té l'avantatge de poder-se aplicar també quan la

matriu analitzada és la de variances i covariances però no té cap justificació teòrica ni

pràctica.

• Gràfic de Sedimentació : Consisteix en una representació gràfica on els factors estan en

l'eix d'abscisses i els valors propis en el d'ordenades. Els factors amb variances altes se

solen distingir dels factors amb variances baixes. El punt de distinció ve representat per un

punt d'inflexió en la gràfica. Es poden conservar els factors situats abans d'aquest punt

d'inflexió. En simulacions aquest criteri ha funcionat bé però té l'inconvenient que depèn

de l´"ull" de l'analista sobre el gràfic.

• Criteri de divisió a la meitat : La mostra es divideix en dues parts iguals preses a l'atzar i

es realitza l'anàlisi factorial en cadascuna d'elles. Només es conserven els factors que

tenen alta correspondència de càrregues de factors en les dues mostres. És convenient,

no obstant això, abans d'aplicar-lo comprovar que no existeixen diferències significatives

entre les dues mostres pel que fa a les variables estudiades.

• Proves de significació : Ja s'ha comentat en la secció anterior i consisteix a aplicar

contrastos d'hipòtesis de models niats per a seleccionar aquest nombre. Aquest criteri es

pot calcular si el mètode utilitzat per a estimar els factors és el de màxima versemblança.

En la majoria dels estudis exploratorios k no pot ser especificat a la bestreta i, per tant,

s'utilitzen procediments seqüencials per a determinar k. Es comença amb un valor petit per

a k (usualment 1), els paràmetres en el model factorial són estimats utilitzant el mètode de

màxima versemblança. Si l'estadístic del test no és significatiu, acceptarem el model amb

aquest nombre de factors, en altre cas, s'augmenta k en un i es repeteix el procés fins que

s'arribi a una solució acceptable. El principal inconvenient d'aquest mètode és que està

basat en resultats assimptòtics i que, si el tamany de la mostra és gran, es corre el risc de

prendre k excessivament gran ja que el test detecta qualsevol factor per petit que sigui el

seu poder explicatiu.

4. Rotació de factors

Com hem dit anteriorment, l'anàlisi factorial sol calcular una primera solució inicial en la que es

mostra el nombre de factors identificats i les saturacions de les variables en cadascun d'ells. A

aquesta solució inicial se la denomina matriu factorial. No obstant això, aquesta solució inicial sol

oferir en ocasions problemes d'interpretació, pel que es procedeix a una operació matemàtica

denominada rotació (Lattin, Carroll i Green, 2003). Cal esmentar que l´anàlisi factorial s'assenta en

dos principis bàsics: parsimònia i interpretabilitat (Frasquet, 2008). El principi de parsimònia és

essencial en la identificació de factors: la solució factorial ha de ser senzilla, composta pel menor

nombre possible de factors o components. Però a més, els factors extrets han de ser susceptibles

d'interpretació substantiva (Cea D'Ancona, 2002). Precisament per a facilitar la interpretació de la

solució factorial es procedeix a la rotació dels factors amb la qual s'obtindrà la matriu factorial

rotada. Existeixen cinc mètodes de rotació disponibles, que es divideixen en dos grans grups:

rotació ortogonal (varimax, quartimax i equamax) i rotació obliqua (oblimin directe i promax). Els

mètodes de rotació ortogonal s'utilitzen quan l'investigador assumeix que els factors extrets no

estan correlacionats; dit d'una altra manera, es desitgen obtenir factors no correlacionats entre si.

En canvi, quan s'utilitza algun mètode de rotació obliqua s'assumeix que els factors estan

correlacionats o es desitja obtenir una solució factorial amb factors correlacionats entre si. Les

rotacions obliqües condueixen a interpretacions més complexes de la solució factorial, encara que

aquesta pot ser més realista.

5. Interpretació de factors

En la fase d'interpretació juga un paper preponderant la teoria existent sobre el tema (Lattin,

Carroll i Green, 2003; Hair, Anderson, Tatham i Black, 1998; Field, 2005; Cea D´Ancona, 2002). A

efectes pràctics, en la interpretació dels factors se suggereixen els dos passos següents:

0. Identificar les variables les correlacions de les quals amb el factor són les més elevades

en valor absolut.

1. Intentar donar un nom als factors. El nom ha d'assignar-se d'acord amb l'estructura de les

seves correlacions amb les variables. Si aquesta correlació és positiva (respectivament

negativa) la relació entre el factor i aquesta variable és directa (respectivament inversa).

Analitzant amb quines variables té una relació forta és possible, en molts casos, fer-se una

idea més o menys clara de quin és el significat d'un factor.

Una ajuda en la interpretació dels factors pot ser representar gràficament els resultats obtinguts

(Peña, 2002). La representació es fa prenent els factors dos a dos. Cada factor representa un eix

de coordenades. A aquests eixos se'ls denomina eixos factorials. Sobre aquests eixos es

projecten les variables originals. Les coordenades vénen donades pels respectius coeficients de

correlació entre la variable i el factor de manera que les variables saturades en un mateix factor

apareixen agrupades. Això pot ajudar a descobrir l'estructura latent d'aquest factor. Les variables

al final d'un eix són aquelles que tenen correlacions elevades només en aquest factor i, per tant,

ho descriuen. Les variables prop de l'origen tenen correlacions reduïdes en ambdós factors. Les

variables que no estan prop de cap dels eixos es relacionen amb ambdós factors.

Dues estratègies més poden ajudar a interpretar els factors: a) ordenar-los i b) eliminar les

càrregues baixes (Peña, 2002). Es pot ordenar la matriu factorial de tal forma que les variables

amb càrregues altes per al mateix factor apareguin juntes. L'eliminació de les càrregues factorials

baixes també facilita la interpretació dels resultats, al suprimir informació redundant. L'investigador

ha de decidir a partir de quin valor han d'eliminar-se les càrregues factorials. Ambdues possibilitats

poden utilitzar-se conjuntament de cara a una major facilitat interpretativa. En general, i com

consell, prendrem com significatives càrregues factorials superiors a 0.5 en valor absolut (Lattin,

Carroll i Green, 2003). No obstant això, conforme el factor és més tardà o el nombre de variables

és major elevarem el valor mínim de la càrrega factorial significativa.

6. Càlcul de puntuacions factorials

L'anàlisi factorial permet la identificació de factors i la seva interpretació, per descobrir variables

latents, però també és possible generar noves variables a partir de les denominades puntuacions

factorials (Field, 2005). Quan després d'interpretar la solució factorial s'extreuen un nombre

determinat de factors, aquests es poden convertir en noves variables en el fitxer o matriu de

dades. Aquest procediment és particularment convenient quan l'anàlisi factorial es completarà amb

altres tècniques d'anàlisi, com l'anàlisi de regressió múltiple (Igartúa, 2006).

Mètodes de càlcul de les puntuacions : Existeixen diversos mètodes d'estimació de la matriu F.

Diversos autors (Lattin, Carroll i Green, 2003; Fiels, 2005, Igartúa, 2006) apunten a què les

propietats que seria desitjable complissin els factors estimats són:

• cada factor estimat tingui correlació alta amb el veritable factor.

• cada factor estimat tingui correlació nul·la amb els altres factors veritables.

• els factors estimats siguin incorrelacionats dos a dos, és a dir, mútuament ortogonals si són

ortogonals.

• els factors estimats siguin estimadors esbiaixats dels veritables factors.

No obstant això, per la pròpia naturalesa dels factors comuns, el problema de la seva estimació és

complex. Es pot demostrar que els factors no són, en general, combinació lineal de les variables

originals. A més, en la majoria de les situacions, no existirà una solució exacta ni tan sols serà única.

Tres dels mètodes d'estimació més utilitzats són els següents: Mètode de regressió, Mètode de

Bartlett i Mètode d´Anderson-Rubin .

El mètode de regressió dóna lloc a puntuacions amb màxima correlació amb les puntuacions teòriques.

No obstant això, l'estimador és esbiaixat, no unívoc i, en el cas que els factors siguin ortogonals, pot

donar lloc a puntuacions correlades.

El mètode de Bartlett dóna lloc a puntuacions correlades amb les puntuacions teòriques, no

esbiaixades i unívoques. No obstant això, en el cas que els factors siguin ortogonals, pot donar lloc a

puntuacions correlades.

El mètode d´Anderson-Rubin dóna lloc a puntuacions ortogonals que estan correlades amb les

puntuacions teòriques. No obstant això, l'estimador és esbiaxat i no és unívoc.

7. Validació del model

L'últim pas en l'anàlisi factorial és estudiar la validesa del model. Aquesta validació ha de fer-se en

dues adreces: analitzant la bondat d'ajust del mateix i la generabilitat de les seves conclusions

(Salvador i Gargallo, 2006).

Bondat d'ajust

Una suposició bàsica subjacent a l'anàlisi factorial és que la correlació observada entre les

variables pot atribuir-se a factors comuns. Per tant, les correlacions entre variables poden deduir-

se o reproduir-se a partir de les correlacions estimades entre les variables i els factors. A fi de

determinar l'ajust del model, poden estudiar-se les diferències entre les correlacions observades

(com es donen en la matriu de correlació d'entrada) i les correlacions reproduïdes (com s'estimen

a partir de la matriu factorial). Aquestes diferències es coneixen com residus. Salvador i Gargallo

(2006) defineixen que, si el model factorial és adequat, llavors aquests residus han de ser petits.

Per contra, si existeix un percentatge elevat de residus superiors a una quantitat petita prefixada

(per exemple, 0.05), això serà indicatiu que el model factorial estimat no s'ajusta a les dades. Se

sap a més que hi ha més estabilitat en els resultats si el nombre de casos per variable és alt.

Generalitat dels resultats

També és adequat confirmar els resultats de la primera anàlisi factorial realitzant noves anàlisis

factorials sobre noves mostres extretes de la població objecte d'estudi i, cas de no ser possible

això últim, sobre submostres de la mostra original (Salvador i Gargallo, 2006). En cada cas

s'estudiaria quins factors dels calculats són replicats en les diferents anàlisis portades a terme.

Altra possibilitat és realitzar noves anàlisis factorials modificant les variables considerades bé sigui

eliminant aquelles variables que no tenen relació amb cap factor o eliminant les variables amb

relacions més fortes tractant de descobrir com es comporta la resta d'elles sense la seva

presència.

L´anàlisi de grups (cluster analysis) és un conjunt de tècniques estadístiques que serveixen per

determinar grups internament homogenis, però diferents entre ells, bé per agrupació d´unitats més

petites o per divisió de segments majors (Lattin, Carroll i Green, 2003). Aquestes tècniques

classifiquen individus o objectes tenint en compte totes les variables de l´anàlisi, ssense referir-se

al comportament d´una variable criteri específica, com en l´anàlisi AID -Automatic Interaction

Detection- (Detecció Automàtica d´Interaccions). Per determinar la similitud entre objectes

existeixen diverses mesures de distància (Sokal, 1977), però una de les més utilitzades és la

distància euclídea. Les tècniques d´anàlisi de grups s´apliquen en investigació social i de mercats

per definir tipologies i identificar segments de mercat (Bedoya, Gutiérrez i Rico, 2006; Punj i

Stewart, 1983; Saunders, 1994).

Existeix una gran varietat de tècniques d'anàlisis de grups. Pot distingir-se entre les ascendents

(building up) que construeixen els grups per agregació, a partir dels individus considerats un a un, i

10. Anàlisi de grups o anàlisi cluster

les descendents, que, al contrari de les anteriors, parteixen del conjunt total d'individus i ho

divideixen (breaking down) en grups més petits (Wind, 1978).

Dintre de les tècniques ascendents, cal destacar l'algorisme de Johnson (1967), que agrupa els

subjectes o objectes a partir de la matriu de distàncies euclidianes entre tots els parells d'ells.

L'agrupació s'efectua de forma seqüencial, de menor a major distància. Dintre de les tècniques

que segueixen l'enfocament de partició o descendents, cal citar l'algorisme de Howard-Harris, que

forma grups per divisió d'uns altres de grandària major, de manera també seqüencial, utilitzant el

criteri de la minimització de la variància intra-grups en cada nivell de la divisió (Lattin, Carroll i

Green, 2003).

També poden classificar-se els mètodes de cluster analysis en jeràrquics (els segments es formen

per agrupació o partició d'altres anteriors), no jeràrquics i mètodes basats en tècniques d'anàlisi

factorial. En aquest últim cas s'utilitza l'anàlisi de components principals o altres mètodes d'anàlisi

factorial per a trobar les dimensions subjacents en l'associació existent entre els individus (Lattin,

Carroll i Green, 2003). Els grups es determinen llavors de forma visual o bé d'acord amb els valors

obtinguts en els components o factors calculats (Green, Tull i Albaum, 1988).

La utilització del cluster analysis presenta alguns problemes, com són l'elecció de la mesura de

similitud, la determinació del nombre de grups o clusters a retenir (Arnold, 1979) i, en alguns

casos, l'elevat nombre d'operacions a realitzar (Funkhouser, 1983).

Encara que alguns algorismes de cluster analysis poden determinar els grups a partir de variables

no mètriques, la gran majoria requereixen variables mètriques. Les variables presents en aquest

treball són totes numèriques per la qual cosa aquest fet no suposa cap tipus de problema. A

continuació es presenten tres tipus de models que, a la vegada, són els més presents en els

paquets estadístics: l'ascendent, de Johnson; el descendent, de Howard-Harris; i el de

conglomerats de K-mitges.

L'algorisme de Johnson (1967) és una tècnica de cluster analysis ascendent i jeràrquica. Utilitza

com input la matriu de distàncies euclidianes entre tots els parells d'individus o objectes i els va

agrupant de forma seqüencial, segons la seva similitud o menor distància (Lattin, Carroll i Green,

2003).

La distància euclidiana és una mesura de la similitud o proximitat entre parells d'objectes, que sol

utilitzar-se en l'anàlisi de grups (Cea D´Ancona, 2002). Mesura la distància entre dos punts en un

10.1. Model ascendent (algorisme de Johnson)

espai geomètric d´n dimensions. Donats dos punts i i j, en un espai n-dimensional, la distància

entre ells, dij, es formula de la manera següent:

−= ∑=

kikij XXd

sent Xik y Xjk les projeccions dels punts i i j sobre la dimensió k (k = 1, 2, 3, ... n).

L'algorisme de Johnson inicia el procés d'agrupament considerant a cada subjecte o objecte com

un cluster. A continuació, pot seguir dos procediments bàsics d'encadenament dels elements: el

complet i el simple. Ambdós mètodes parteixen de la mateixa manera, buscant en la matriu de

distàncies entre tots els parells possibles dels n elements els dos més pròxims entre si (Lattin,

Carroll i Green, 2003). Aquest parell d'elements constituïx el primer cluster. El mètode

d'encadenament complet procedeix a continuació de la següent manera:

1. Cadascun dels n - 2 elements no agrupats és examinat com un candidat a unir-se al grup

inicialment format dels dos elements més pròxims. La mesura de la similitud entre els

candidats i el grup ve determinada per la major de les distàncies entre l'element candidat i

cadascun dels dos elements que formen el grup inicial.

2. Alternativament, es considera la formació d'un nou grup de dos elements entre els n - 2

elements no agrupats.

3. La decisió entre les dues alternatives s'efectua triant la menor de les dues distàncies

menors obtingudes en ambdós casos.

4. Aquest mateix procés es repeteix fins que tots els elements estan agrupats en un únic

5. En els processos d'agrupament posteriors al segon ha de considerar-se que un element

candidat a integrar-se en altre grup pot ser tant un subjecte o objecte individual com un

grup constituït per dos o més individus o objectes. En aquest últim cas, les distàncies

considerades són totes les possibles entre els integrants de cada grup, i es pren com

distància que representa la dissimilitud d'ambdós grups la major de totes elles.

El mètode d'encadenament simple és similar a l'anterior, amb la diferència de què es pren com

mesura representativa de la distància entre els elements candidats (individualment o formant ja

parteix d'un grup) i un grup anterior la menor de les distàncies entre els element de cada grup a

integrar-se i no la major, com es realitza en el mètode d'encadenament complet.

Un altre mètode d'encadenament que sol utilitzar-se és el de promig. En aquest mètode, com el

seu nom indica, es pren com mesura de distància entre els elements candidats i el grup

prèviament format per la mitjana aritmètica de les distàncies entre els elements d'un grup i els de

l'altre.

Per representar gràficament en un cluster analysis el procés d'agrupament dels subjectes o

objectes, a diferents nivells de similitud entre ells, s'empra un tipus de gràfic que presenta la forma

d'arbre i es denomina dendrograma. Cada subjecte o objecte està representat inicialment per una

branca final. Les unions de les branques de l'arbre en altres intermèdies representen les distàncies

a les quals es produeix l'agrupament.

L'algorisme de Howard-Harris és un mètode utilitzat en l'anàlisi de grups per a generar clusters o

grups homogenis. L'algorisme de Howard-Harris és del tipus descendent (breaking down), és a dir,

que divideix seqüencialment la totalitat d'individus de la mostra (la qual constitueixen el grup

inicial) en un nombre cada vegada major de grups (2, 3, 4, 5, ...), de manera que es minimitzi la

variància intragrups i es maximitzi la variància intergrups de les variables considerades.

A diferència de l'algorisme de Johnson, el de Howard-Harris pot aplicar-se a grans mostres i és

especialment indicat quan es disposa d'elles (Field, 2005). És per aquest motiu que serà l'utilitzat

en la present investigació.

En el procés de formació dels grups, l'algorisme comença per localitzar la variable que té major

variància (o desviació estàndard) i assigna els individus que estan per sobre del valor mig

d'aquesta variable a un cluster, i els quals estan per sota, a un altre. A continuació comprova, al

llarg d'un nombre especificat d'iteracions, que cada individu estigui inclòs en el grup amb el qual és

més afí (d'acord amb el perfil de totes les variables).

Aquesta comprovació s'efectua calculant la distància euclidiana de l'individu pel que fa als valors

mitjos del grup i assignant-lo al més pròxim, que pot ser diferent del grup al qual pertany

provisionalment, produint-se llavors una reassignació. Quan aquest procés finalitza, s'han generat

els dos primers grups. A continuació, per a procedir a crear un nou grup, l'algorisme selecciona

entre els dos formats anteriorment el que té major suma de quadrats (suma de quadrats de les

desviacions dels valors de les variables en els individus del grup pel que fa als valors mitjos del

grup). Dintre del grup seleccionat, localitza la variable amb major variància i divideix el grup en

dos, de forma igual a la descrita al principi, és a dir, separant els que estan per sobre dels que

estan per sota de la mitjana en la variable amb major variància. Amb els tres grups resultants,

realitza el mateix procés de comprovació i reassignació abans indicat fins que no es produeix cap

canvi de grup o conclou el nombre d'iteracions especificat. A continuació, per a formar quatre

grups, torna a generar un nou cluster de la mateixa manera que s'ha indicat anteriorment, i així

successivament.

10.2. Model descendent (algorisme de Howard-Harris)

El procés de divisió dels grups acaba quan s'ha arribat a el nombre de grups desitjat o la grandària

de tots ells està per sota d'un mínim especificat o ja no s'aconsegueix una reducció significativa en

la suma total de quadrats.

L'algorisme de Howard-Harris requereix un nombre elevat d'operacions, per la qual cosa un canvi

en la precisió numèrica de l'ordinador pot donar lloc a la formació de diferents grup (Funkhouser,

1983).

L'anàlisi de conglomerats de k-mitges, igual que altres tècniques d'anàlisis de grups, tracta

d'identificar grups de casos homogenis (individus o objectes) que tinguin comportaments,

característiques o atributs similars.

L'objectiu de l'algorisme és obtenir k grups de manera que es minimitzi la suma de quadrats

intragrupos (suma dels quadrats de les diferències entre els valors de les variables observades en

cada individu de la mostra respecte dels valors mitjos del grup al que pertany). Cada individu és

assignat inicialment al grup amb el qual presenta menor distància (mesura per la distància

euclidiana als valors mitjos del grup). L'assignació de cada individu es modifica i se l´integra en un

altre grup si amb això s'aconsegueix una reducció en la suma de quadrats intragrups. Cada

vegada que es reassigna un individu a un altre grup es calculen de nou les mitjanes del grup en

totes les variables seleccionades. Les reassignacions finalitzen quan ja no es produeix cap

transferència entre grups o s'ha arribat a el nombre màxim d'iteracions permeses (Hartigan, 1975;

Hartigan i Wong, 1979).

L'algorisme de k-mitges es diferencia dels altres dos (algorismes de Johnson i de Howard-Harris)

en què la selecció dels grups inicials no és efectuada de forma sistemàtica pel programa, sinó que

han d'especificar-se per l'usuari les característiques dels components dels grups inicials.

En aquest capítol hem vist com els mètodes multivariants són la solució per a l´anàlisi global de les

dades. A més a més de l´anàlisi estadística básica, hem comprovat que l'anàlisi factorial és una

tècnica estadística multivariant la finalitat de la qual és analitzar les relacions d'interdependència

existents entre un conjunt de variables, calculant un conjunt de variables latents, denominades

factors, que expliquen amb un nombre menor de dimensions, aquestes relacions. Per aquesta raó

11. Conclusions

10.3. Model de conglomerats de k-mitges

l'anàlisi factorial és una tècnica de reducció de dades que permet expressar la informació

continguda en un conjunt de dades amb un nombre menor de variables sense distorsionar aquesta

informació, la qual cosa augmenta el grau de manegabilitat i intel·ligibilitat de la mateixa. Per la

seva banda, l´anàlisi cluster és un conjunt de tècniques i algorismes la principal utilitat dels quals

és determinar grups internament homogenis, però diferents entre ells .

En aquesta lliçó hem estudiat què és i com portar a terme una anàlisi factorial i un anàlisi cluster

sobre un conjunt de dades quantitatives, la il·lustració dels passos a seguir amb l'anàlisi d'un cas

real es farà al proper capítol amb les dades recollides a l´enquesta de la investigació.

Convé insistir, finalment, en la importància que té realitzar un bon plantejament del problema pel

que fa a la selecció de les variables a analitzar. És molt convenient tenir un coneixement previ de

quins factors volem mesurar i triar les variables d'acord amb els mateixos. Actuant d'aquesta

manera l'anàlisi guanya en potència i generalitat augmentant significativament el grau de

intel·ligibilitat dels resultats obtinguts.

• Abascal, E. i Grande, I. (2005): Análisis de encuestas. Madrid. ESIC.

• Arnold, S. (1979): “A test for clusters”. En Journal of Marketing Research. XVI, 4,

novembre, Michigan. Ann Arbor. • Bedoya, E., Gutiérrez, J. i Rico, L. (2006): “Evaluación de actitudes hacia la integración de

calculadoras gráficas en el currículum de Educación Secundaria”. En Teoría de la Educación. Educación y Cultura en la Sociedad de la Información. Núm 7 (1) Universidad de Salamanca. http://www.usal.es/~teoriaeducacion

• Bisquerra, R. (1989): Introducción conceptual al análisis multivariable. Barcelona. PPU.

• Burns, A. i Bush, R. (2000): Marketing Researh. New Jersey, USA. Prentice Hall. • Cea D´Ancona, M.A. (2002): Análisis multivariable. Teoría y práctica en la investigación

social. Madrid. Síntesis.

• Cohen, L., Manion, L. i Morrison, K. (2007): Research Methods in Education. New York, Routledge.

• Curts, J. i Tanguma, J. (2007): “Preservice Teachers’ Technology Competence Survey

Skills Applying Technology in Educational Settings: An Exploratory Factor Analysis”. En C. Crawford et al. (Eds.): Proceedings of Society for Information Technology and Teacher Education International Conference 2007 (pp. 2980-2984). Chesapeake, VA: AACE.

• De Leeuw, E. D. (2001): “Reducing missing data in surveys: An overview of methods”. En

Quality and Quantity (Springer), nº35, num. 2, pp. 147-160.

Bibliografía

• De Vicente, M.A. i Manera, J. (2003): “El análisis factorial y por componentes principales” en Lévy, J.P. i Varela, J. (eds.): Análisis multivariable para las ciencias sociales. Madrid. Pearson-Prentice Hall, pp. 327-360

• Field, A. (2005): Discovering Statistics using SPSS. CA, USA. Sage Publications.. • Foster, J.J. (2001): Data analysis using SPSS for Windows versión 8 to 10. Londres. Sage.

• Franquet, J.M. (2008): El estudio operativo de la psicología. Una aproximación

matemática. UNED. Cooperativa Gráfica Dertosense.

• Funkhouser, G. R. (1983): “A Note on the Relability of Certain Clustering Algorithms”. En Journal of Marketing Research, XX, 1, febrer, pp. 99-102.

• Grangé, D. i Lebart, L. (1994): Traitments Statistiques des Enquêtes. Paris. Dunod.

• Green, P., Tull, D. i Albaum, G. (1988): Research for Marketing Decissions, 5a ed., Nova

Jersey, Prentice-Hall. • Gremigni, P., Sommaruga, M. I Peltenburg, M. (2008): “Validation of the Health Care

Communication Questionnaire (HCCQ) to measure outpatients’ experience of communication with hospital staff”. En Patient Education and Counseling. Volume 71, Issue 1, April 2008, pp. 57-64

• Hair, J., Anderson, R., Tatham, R. I Black, W. (1998): Multivariate Data Analysis.

Singapore. Pearson Education • Han, J. i Kamber, M. (2007): Data Mining. San Francisco, USA. Elsevier Inc.

• Hartigan, J.A. (1975): Clustering Algorithms. Nova York. John Wiley & Sons.

• Hartigan, J.A. i Wong, M.A. (1979): “A k-means clustering algorithm”. En Applied Statistics,

28, pp. 100-108. • Igartúa, J.J. (2006): Métodos cuantitativos de investigación en comunicación. Barcelona.

Bosch.

• Knapp, T. R. (1970): “N vs. N-1” en American Educational Research Journal, núm. 7, pp. 625-626.

• Lattin, J.M., Carroll, J. D. i Green, P.E. (2003): Analyzing Multivariate Data. USA.

Brooks/Cole. • Lévy, J.P. (2003): “Modelización y análisis con ecuaiones estructurales” en Lévy, J.P. i

Varela, J. (eds.): Análisis multivariable para las ciencias sociales. Madrid. Pearson-Prentice Hall, pp. 767-814.

• Marín Diazareque, J.M. (2006): Análisis Multivariante. Madrid. Ediciones de la Universidad

Carlos III.

• Peña, D. (2002): Análisis de datos multivariantes. Madrid. Mc Graw-Hill.

• Pérez, C. (2006): Técnicas de Análisis Multivariante de Datos. Madrid. Pearson Educación.

• Punj, G. i Stewart, D. (1983): “Cluster Analysis in Marketing Research: Review and

Suggestions for Application”, Journal of Marketing Research, XX, 2, maig, pp. 134-148.

• Salvador, M. i Gargallo, P. (2006): Análisis Factorial. Ediciones de la Universidad de Zaragoza.

• Sánchez Carrión, J.J. (1995): Manual de análisi de datos. Madrid. Alianza.

• Saunders, J. (1994): “Cluster Analysis” en Hooley, G.J. i Hussey, M.K., Quantitative

Methods in Marketing, Londres, Academic Press.

• Sokal, R. (1977): “Clustering and Classification: Background and Current Directions”, en Van Ryzin, R, Classification and Clustering, Nova York, Academic Press.

• Stevens, J. (1992): Applied multivariate statistics for the social sciences. Hillsdale, NJ,

Lawrence Erlbaum Associates. • Tacq, J. (1997): Multivariate analysis techniques in social science research. From problem

to analysis. Londres. Sage.

• Vogt, W. P. (2007): Quantitative research methods for professionals. Boston, MA. Pearson Education.

• Wimmer, R.D. i Dominick, J.R. (1996): La investigación científica de los medios de

comunicación. Una introducción a sus métodos. Barcelona. Bosch.

• Wind, Y. (1978): “Issues and Advances in Segmentation Research”, Journal of Marketing Research, XV, 3, agost, p. 31.

• Zambrano Guzmán, R., Meda, R. M. i Lara, B. (2005): “Evaluación de profesores

universitarios por parte de los alumnos mediante el Cuestionario de Evaluación de Desempeño Docente (CEDED)” En Revista de Educación y Desarrollo, núm. 4. Universidad de Guadalajara.

Models estadístics per a l´anàlisi de dades · Figura 5.1: Trajectòria de l´anàlisi...

Documents

Transcript of Models estadístics per a l´anàlisi de dades · Figura 5.1: Trajectòria de l´anàlisi...

ANÀLISI ENQUESTES DE MOBILITAT UdG · Anàlisi enquestes de mobilitat UdG, 2011 Juny de 2012 Pàgina 2 de 83 ÍNDEX 1. Dades Generals_____3 2. Col·lectiu 1: estudiants_____8 2.1.

Anàlisi multivariant de dades antropomètriques i proves ...

LES INUNDACIONS DE AL CAMP DE TARRAGONAgama.am.ub.es/presentaciones/csr2010/exposicion/joanieloi.pdf · Anàlisi de dades existents, mapes sinòptics de pressió a diferents escales,

La protecció de dades i altres qüestions derivades de l ...

Jordi Duch Frederic Guerrero-Solé - Institut de la ... · ha fet de les xarxes socials el seu espai de combat. L anàlisi i l explotació de dades massives ( big data ) s han convertit

Dades per al coneixement de l arqueologia i l historia de Juneda

RECULL DE DADES ESTADÍSTIQUES CURS 2002/2003 · recull de dades estadÍstiques curs 2002/2003 servei d´anÀlisi i planificaciÓ [sap]servei d´anÀlisi i planificaciÓ [sap] valÈncia

Anàlisi de dades i estadística descriptiva amb R i R-Commanderopenaccess.uoc.edu/webapps/o2/bitstream/10609/76225/1... · 2018-04-27 · FUOCc PID_00208267 5 Anàlisi de dades i

ACADÈMIA DE CIÈNCIES MÈDIQUES I DE LA SALUT …...2015-2016 9 Anàlisi de les dades de la Memòria corporativa del curs 2015-2016 Comparativa dades del curs 2014-2015 i el 2015-2016:

GRAU en C I enGInYeRIA De DADes...GRAU en CIÈnCIA I enGInYeRIA De DADes Amb aquest grau assoliràs expertesa en anàlisi i enginyeria de dades estructurades i no estructurades (text,

Metodologia de Disseny en Bases de Dades …...Metodologia de disseny Funcionalitat DBD. 2013 Grau en Enginyeria Informàtica 3 Anàlisi de requisits Arquitectura Programari … Si

EDUCACIÓ, ALIMENTACIÓ, TELEVISIÓ i …diposit.ub.edu/dspace/bitstream/2445/43090/1/00.MTMC...Educació, alimentació, televisió i publicitat: anàlisi de dades i interpretació

ESTUDIS DE GRAU D’ADMINISTRACIÓ I DIRECCIÓ D’EMPRESES ... · Microeconomia Anàlisi de Dades Econòmiques Introducció a l'Empresa Sistema fiscal Comptabilitat Financera II

Anàlisi de dades amb Excel

ACTIVITATS D’ADQUISICIÓ I ANÀLISI DE DADES PER A L'ÀREA DE ... › arc › sites › default › files › MA_Captacio_SA… · Blanc Negre brillant Negre mate Intensitat de

Ràtios - accid.org · 2. Anàlisi sectorial dels estats financers 2.1. Anàlisi amb dades sectorials Les diferents eines de l'anàlisi dels estats financers poden enriquir-se en

Anàlisi de l impacte visual dels parcs eòlics a la comarca ...

accio3 catàleg de cursos · Illustrator InDesing Moviemaker, creació i edició de vídeos . accio3, formació i serveis ... Powerpivot a la pràctica, analitzem dades Anàlisi de

Càlcul i anàlisi de dades massiu per al disseny d'enzims amb aplicacions a la indústria biotecnològica

Anàlisi dels impactes a l’exterior dels menjadors públics de … › relacionsinternacionalsicooperaci… · en els menús del mes de desembre. utilitzant les dades d’origen

ANÀLISI ENQUESTES DE MOBILITAT UdG · Anàlisi enquestes de mobilitat UdG, 2011 Juny de 2012 Pàgina 2 de 83 ÍNDEX 1. Dades Generals_3 2. Col·lectiu 1: estudiants_8 2.1.