Post on 20-Feb-2019
113
Models estadístics
per a
l´anàlisi de dades
“Cal tenir cura amb els llibres de salut, podem morir per culpa d´una errada” (Mark Twain)
En un article publicat a la revista Mass Communication and Society per Joseph Dominick i Roger
Wimmer (2003) s'adduïa que les noves generacions d'investigadors haurien de ser ensenyats a
pensar com analistes de dades i no tant com estadístics: el coneixement de les tècniques és
d'utilitat només si els investigadors tenen la capacitat d'identificar temes d'investigació rellevants i
enfocar de manera significativa les hipòtesis i preguntes d'investigació. Després de tot, un
investigador és una persona que intenta descobrir alguna cosa, que identifica un tema
d'investigació rellevant, desenvolupa una metodologia apropiada per a obtenir una sèrie de dades i
interpreta els resultats obtinguts (Igartúa, 2006). La posició d'aquests autors és, per tant, que el
que és substancial és conèixer l'aplicació de les tècniques estadístiques i en menor mesura el seu
fonament matemàtic o teòric. I aquest és precisament l'enfocament que s'adopta en aquesta
investigació. En aquest sentit, les principals habilitats sobre anàlisi de dades que ha de
desenvolupar un investigador són: saber quins tipus de tècniques estadístiques estan a la seva
disposició, conèixer quan s'ha d'utilitzar cadascuna d'elles, aprendre el maneig d'un paquet
informàtic d'anàlisi de dades i poder interpretar adequadament els resultats obtinguts amb l'ajuda
d'aquest programari estadístic. No obstant, això no implica que no hagi d'obtenir-se un nivell bàsic
de coneixements estadístics i precisament aquest capítol es dedica a això.
L´Estadística es pot definir com la ciència que aplica mètodes matemàtics per recopilar, organitzar,
sintetitzar i analitzar dades (Wimmer i Dominick, 1996). Constitueix una branca de les
matemàtiques i avui dia s'ha convertit en una eina bàsica en qualsevol disciplina científica, ja que
serveix d'ajuda en la presa de decisions tant en la investigació bàsica com en l'aplicada.
L'Estadística consta de dues parts fonamentals: Descriptiva i Inferencial. Les característiques
definitòries de cadascuna d´elles són, segons Vogt (2007), les següents:
Capítol
5
1. Introducció
E-Learning de les matemàtiques als IES de Catalunya
114
• Estadística Descriptiva: Descriu, analitza i representa un grup de dades utilitzant mètodes
numèrics i gràfics que resumeixen i presenten la informació continguda en ells.
• Estadística Inferencial: Recolzant-se en el càlcul de probabilitats i a partir de dades
mostrals, efectua estimacions, decisions, prediccions o altres generalitzacions sobre un
conjunt major de dades.
En aquest estudi anem a centrar-nos, principalment, en l'estadística descriptiva, la qual
s'encarrega de la recollida, ordenació i anàlisi de les dades d'una mostra. Wimmer i Dominck
(1996) han assenyalat que l'objectiu bàsic de l'estadística descriptiva consisteix en la reducció de
grans conjunts de dades amb l'objecte d'assolir una interpretació més senzilla de les mateixes. En
general tot treball empíric implica la recol·lecció de gran volum de dades, gràcies a l'aplicació de
determinades tècniques d'investigació. L'etapa posterior a la recollida de dades consisteix en la
seva ordenació i en l'obtenció dels denominats estadístics de resum, gràcies als quals es podran
extreure conclusions generals sobre l'objecte d'estudi. Una vegada fet això, l'analista podrà
conèixer com funciona o es comporta cadascuna de les variables del seu estudi. Perquè una de
les principals característiques de l'estadística descriptiva (i que la diferencia de l'estadística
inferencial) és que tracta d'analitzar de manera univariada les dades obtingudes en un estudi
específic. En aquest context, l'estadística descriptiva permet manegar tres tipus d'informació
bàsica de cadascuna de les variables per separat: la distribució de freqüències, la representació
gràfica i els estadístics de resum. Passem a continuació a explicar les principals característiques
de l'estadística descriptiva.
En aquesta investigació se suposa que s´està familiaritzat amb l´anàlisi descriptiu univariant i es
presentat una introducció a l´estadística descriptiva multivariant. Per ampliar el seu estudi es pot
consultar a Lattin, Carroll i Green (2003), Field (2005), Cohen, Manion i Morrison (2007), així com
Lebart (1995), Escofier i Pages (1992) i algunes aplicacions a Grande i Abascal (1994).
Quan en cada element de la població es mesura un conjunt de variables estadístiques direm que
s'ha definit una variable estadística multivariant, vectorial o multidimensional. Les variables que es
mesuren en cada element poden ser qualitatives o quantitatives.
2. Estadística descriptiva
3. Estadística descriptiva multivariant bàsica
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
115
• Vector de mitjanes: La mesura de centralizació més utilitzada per a descriure dades
multivariants és el vector de mitjanes, que té dimensió k i recull les mitjanes de cadascuna
de les k variables.
• Matriu de variances i covariances: La variabilitat de les dades i la informació relativa a les
relacions lineals entre les variables es resumeixen en la matriu de variances i covariances.
Aquesta matriu és quadrada i simètrica d'ordre k, on els termes diagonals són les
variances i els no diagonals, les covariances entre les variables.
• Matriu de correlació: Anomenarem matriu de correlació a la matriu quadrada i simètrica
que té uns en la diagonal i fora d'ella els coeficients de correlació entre les variables.
• Correlacions parcials: Es defineix la matriu de correlacions parcials com la matriu que
mesura les relacions entre parells de variables eliminant l'efecte de les restants.
• Variança generalitzada: Una mesura global escalar de la variabilitat conjunta de k
variables és la variança generalitzada, que és el determinant de la matriu de variànces i
covariances. La seva arrel quadrada es denomina desviació típica generalitzada.
Segons Peña (2002), l´anàlisi descriptiu ha d´aplicar-se sempre com a primer pas per comprendre
l´estructura de les dades i extreure la informació que contenen, abans de passar a mètodes més
complexos que tot seguit exposem com són els mètodes multivariants.
En un qüestionari es recull gran quantitat de dades a través de nombroses preguntes que
s'agrupen atenent a diversos criteris. El desenvolupament actual dels mètodes d'anàlisi
multivariant permet adoptar una aproximació global per a l'anàlisi de les dades de
qüestionaris (Figura 5.1). Únicament una anàlisi global, que tingui en compte nombroses
variables simultàniament, pot proporcionar informació de qualitat i assegurar la coherència
dels resultats (Grande i Abascal, 2005). És per això que en aquest treball utilitzarem
tècniques multivariants.
Figura 5.1: Trajectòria de l´anàlisi multivariant, en què té un pper principal l´anàlisis global de les dades
4.Mètodes multivariants
E-Learning de les matemàtiques als IES de Catalunya
116
L'objectiu de l'anàlisi multivariant és buscar una tipologia de respostes i identificar les
característiques de cada grup (Lattin, Carroll i Green, 2003). No obstant això, l'anàlisi de
totes les preguntes simultàniament és difícilment interpretable. És important realitzar la
descripció de les observacions des d'un únic punt de vista per identificar les semblances
observades, i després utilitzar tota la informació disponible sobre els integrants de la mostra
per a interpretar les proximitats (Hair, Anderson, Tatham i Black, 1998).
Per a realitzar aquesta anàlisi s'utilitzen dues famílies de mètodes estadístics: l´anàlisi
factorial i els mètodes de classificació o anàlisi cluster. Aquests procediments poden ser
utilitzats de manera complementària per assolir una anàlisi el més profund possible de la
informació continguda en els grans fitxers de dades obtingudes a partir de les del
qüestionari.
El tractament global de la informació es realitza mitjançant anàlisi multivariant, aplicant diversos
mètodes de forma encadenada. Aquest procediment va ser formalitzat per L. Lebart mitjançant
el concepte de "Temascope" presentat com un encadenament de mètodes realitzat segons les
següents etapes (Grange i Lebart, 1994):
1. Elecció del tema actiu. Se seleccionen les preguntes relatives al tema objectiu de
l'estudi que han de formar un conjunt homogeni, mesurades en el mateix tipus
d'escala.
2. Descripció gràfica dels enquestats segons les seves semblances en el tema triat, actiu.
És a dir, semblances en les seves actituds, opinions o comportaments en relació a
l'objectiu que es tracta d'estudiar. Aquesta descripció gràfica situarà pròxims, sobre un
plànol, als enquestats que han respost de forma semblant al conjunt de preguntes del
grup actiu i permetrà detectar en què són semblants. En aquesta fase és quan
s´utilitzaran els mètodes de l'anàlisi factorial.
3. Ús de les qüestions que no responen a l'objectiu principal de l'estudi com variables
il·lustratives per a interpretar les proximitats entre els individus. És a dir, s'utilitza la
informació suplementària, com són les variables de caracterització, per a buscar les
raons per les quals els individus són semblants en la seva opinió, actitud i
comportament. Aquest objectiu s'assoleix posicionant els elements il·lustratius sobre
els plànols factorials. Aquesta informació no intervé en el càlcul dels factors que ja han
estat obtinguts en la fase anterior: únicament es projecten sobre els eixos. L'estudi de
la situació dels elements il·lustratius juntament amb els actius en els plànols factorials
ajuda a interpretar l'anàlisi realitzada i a detectar quins són les raons de les
semblances, no només descriure-les.
4. Es divideix -particiona- la mostra d'enquestats en grups homogenis en les qüestions
del tema actiu. Per a això s'utilitza l'Anàlisi Cluster. La classificació es realitza sobre els
individus descrits per les seves coordenades factorials en lloc de sobre les preguntes
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
117
actives. Això facilita la classificació, al ser els factors variables mètriques que recullen
la mateixa (o gairebé) informació que les variables actives inicials.
5. Descripció estadística del contingut de cada classe utilitzant tota la informació de
l'enquesta. És a dir, una vegada obtinguts els grups que tenen un comportament
homogeni en el tema actiu es descriuen les característiques de cada grup, no només
en aquest tema, sinó també en la resta de les qüestions recollides en l'enquesta. Es
procedeix a descriure les classes pels elements actius i pels il·lustratius, podent
seleccionar les qüestions, actives o il·lustratives més interessants per a definir o
diferenciar una classe d'unes altres.
6. Es posicionen els centres de gravetat de les classes sobre els plànols factorials
juntament amb les categories de resposta a qüestions actives i il·lustratives. Per a això
s'utilitza de nou la tècnica de projecció d'elements il·lustratius. La visió d'aquests nous
gràfics permet enriquir la interpretació
Aquest encadenament d'anàlisi permet obtenir informació global de l'enquesta, no només aspectes
parcials que poden estar interrelacionats i el seu estudi aïllat és incomplet.
L´origen històric de l´anàlisi multivariant es troba en els primers anys del segle XX. Sorgeix dins
del marc de la psicologia aplicada com una teoria matemàtica que tracta d'explicar el concepte
d'intel·ligència. És a dir, se suposa que la intel·ligència constitueix un compendi de diverses
habilitats i coneixements i se sol mesurar mitjançant aspectes o manifestacions parcials.
Spearman (1904) i Pearson (1901) van tractar de definir una variable que mesurés la quantitat
d'intel·ligència i que fos un compendi o resum (de fet una combinació lineal) dels components de la
mateixa. Això seria l'origen del que després es va denominar el mètode de les components
principals. Posteriorment s'han anat desenvolupant nombroses tècniques per a variables tant
quantitatives com categòriques.
L'anàlisi multivariant, en essència, es dedica a l'estudi de diverses variables de manera simultània
(Lattin, Carroll i Green, 2003). És a dir, es pren un objecte i no només es mesura un aspecte seu
sinó que es consideren diversos aspectes i es tracta de determinar la relació entre aquestes
mesures.
Amb el desenvolupament de la informàtica, s'ha fet possible desenvolupar i implementar
programes estadístics que contenen les tècniques multivariants; així, tots els programes d'aquest
tipus contenen una part important dedicada a aquestes tècniques (e.g. es pot veure en R,
STATGRAPHICS, SPSS, ...) (Field, 2005).
En definitiva, el desenvolupament teòric sorgit al segle XX juntament amb les aplicacions creixents
de l'estadística en la vida econòmica dels països han fet de les tècniques de l'anàlisi multivariant
E-Learning de les matemàtiques als IES de Catalunya
118
juntament amb l'anàlisi de regressió, un dels instruments més emprats per a l'estudi de l'entorn
ambiental, econòmic i social (Marín, 2006).
Poden utilitzar-se un gran nombre de criteris per classificar les tècniques estadístiques d´anàlisi
multivariable. Tanmateix, un dels criteris més utilitzats és el relacionat amb el tipus de problema
d´investigació implicat: analitzar la dependència o la interdependència entre un grup de variables
(Cea D´Ancona, 2002; Lévy i Varela, 2003; Tacq, 1997).
Les tècniques dedicades a l´anàlisi de la dependència s´utilitzen per examinar la relació entre un
grup de variables predictores o independents i una o més variables de criteri o dependents. Són
els anomenats Mètodes Depenents. Subjeu en ells sempre un interès predictiu (Marín, 2006).
D´altra banda, els mètodes multivariables dedicats a l´anàlisi de la interdependència no
distingeixen entre variables dependents i independents. Otorguen el mateix estatus a totes les
variables, ja que el seu objectiu final és descriure l´estructura latent o subjacecnt a partir
d´analitzar el patró d´interrelacions entre les variables implicades. Són Mètodes Interdependents o
també anomenats Independents (Marín, 2006). Tenen un interès descriptiu.
El quadre següent (Figura 5.2) permet classificar les tècniques d´anàlisi estadístic de dades en
funció del tipus de variables que maneguen i de l´objectiu principal del seu tractament conjunt
(Pérez, 2006).
5. Tècniques multivariants. Classificació
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
119
Figura 5.2: Classificació de les tècniques multivariants segons Pérez (2006)
MÈTODES MULTIVARIANTS
Existeixen variables dependents
i independents?
SÍ NO
Classificació
Anàlisi cluster
Mètodes descriptius
Les variables són quantitatives?
o Anàlisi Factorial i Components principals
o Escalatge multidimensional
o Anàlisi de correspondències
o Escalatge multidimensional
SÍ NO
Anàlisi canònic
Regressió
Anàlisi de la
variança Anàlisi conjunt
Anàlisi discriminant
Les variables dependents, són
quantitatives?
Les variables dependents, són
quantitatives?
SÍ NO SÍ NO
SÍ NO
És quantitativa?
Més d´una
Quantes variables són independents?
Mètodes explicatius
Una
E-Learning de les matemàtiques als IES de Catalunya
120
Tot i que existeix una gran varietat de tècniques multivariants de dependència, en una primera
aproximació a aquesta àrea d´anàlisi estadístic, convé destacar els següents mètodes:
• Regressió múltiple: Estudia la dependència d´una variable en funció d´altres variables.
• Anàlisi discriminant: Es busca una funció lineal de diferents variables que permeti
classificar noves observacions que es presentin.
• Mètodes log-lineals i logit: Es prediuen números d´aparicions en caselles (recomptes) en
funció d´altres caselles. S´usen variables categòriques.
• Anàlisi de correlació canònica: Es pren un grup de variables i es tracta de predir els seus
valors en funció d´un altre grup de variables.
• Anàlisi multivariant de la variança: Es descomposa la variabilitat en una mesura d´un
conjunt de variables quantitatives en funció d´altres variables categòriques.
A l´igual que als mètodes de dependència, el nombre de tècniques multivariants d´independència
també és molt elevat. Entre les principals tècniques d´aquest grup convé destacar les següents :
• Anàlisi factorial: Com es veurà posteriorment, es fixa en explicar en termes de factors
ocults les variables originals.
• Anàlisi de components principals: Es tenen n variables quantitatives i es barregen
mitjançant combinacions lineals reduint-se a p < n variables que resumeixen la informació
per facilitar la interpretació.
• Anàlisi de correspondències: És semblant a l´anàlisi factorial, però amb variables
categòriques exclusivament.
• Anàlisi cluster: Tracta d´identificar grups naturals entre les observacions segons els seus
valors mesurats per les variables.
• Multidimensional scaling: Busca mapes dels objectes, situant-los segons una sèrie de
mètriques.
5.1. Mètodes dependents
5.2. Mètodes interdependents
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
121
La disponibilitat de grans volums de dades i l'ús generalitzat d'eines informàtiques ha transformat
l'anàlisi multivariant orientant-lo cap a determinades tècniques especialitzades englobades sota el
nom de Mineria de Dades o Data Mining.
El Data Mining pot definir-se com un procés de descobriment de noves i significatives relacions,
patrons i tendències a l'examinar grans quantitats de dades (Han i Kamber, 2006).
Les tècniques de Data Mining persegueixen el descobriment automàtic del coneixement contingut
en la informació emmagatzemada de manera ordenada en grans bases de dades. Aquestes
tècniques tenen com objectiu descobrir patrons, perfils i tendències a través de l'anàlisi de les
dades utilitzant tecnologies de reconeixement de patrons, xarxes neuronals, lògica difusa,
algorismes genètics i altres tècniques estadístiques avançades d'anàlisi multivariant de dades
(Han i Kamber, 2006).
Les tècniques estadístiques que utilitza el Data Mining coincideixen en la seva majoria amb les
tècniques estadístiques d'anàlisi multivariant de dades. Han i Kamber (2006) realitzen una
classificació inicial de les tècniques de Data Mining distingint entre tècniques de modelatge originat
per la teoria en les quals les variables poden classificar-se inicialment en dependents i
independents (similars a les tècniques de l'anàlisi de la dependència o mètodes explicatius de
l'anàlisi multivariant), tècniques de modelatge originat per les dades en les quals totes les variables
tenen inicialment el mateix estatus (similars a les tècniques de l'anàlisi de la interdependència o
mètodes descriptius de l'anàlisi multivariant) i tècniques auxiliars. A continuació s'exposen les
idees bàsiques que aquests autors realitzen sobre aquestes tècniques i es pot ampliar la
informació en Han i Kamber (2006).
Les tècniques de modelatge originat per la teoria especifiquen el model per a les dades sobre la
base d'un coneixement teòric previ. El model suposat per a les dades ha de contrastar-se després
del procés de Data Mining abans d'acceptar-lo com vàlid. Formalment, l'aplicació de tot model ha
de superar les fases d'identificació objectiva (a partir de les dades s'apliquen regles que permetin
identificar el millor model possible que ajusti les dades), estimació (procés de càlcul dels
paràmetres del model triat per a les dades en la fase d'identificació), diagnosi (procés de contrast
de la validesa del model benvolgut) i predicció (procés d'utilització del model identificat, benvolgut i
validat per a predir valors futurs de les variables depenents). Podem incloure entre aquestes
tècniques tots els tipus de regressió i associació, anàlisi de la variança i covariança, anàlisi
discriminant i sèries temporals. En les tècniques de modelatge originat per les dades no s'assigna
cap paper predeterminat a les variables. No se suposa l'existència de variables depenents ni
independents i tampoc se suposa l'existència d'un model previ per a les dades. Els models es
6.Tècniques emergents d´anàlisi multivariant:
Data Mining
E-Learning de les matemàtiques als IES de Catalunya
122
creen automàticament partint del reconeixement de patrons. El model s'obté com barreja del
coneixement obtingut abans i després del Data Mining i també ha de contrastar-se abans
d'acceptar-se com vàlid. Per exemple, les xarxes neuronals permeten descobrir models complexos
i afinar-los a mesura que progressa l'exploració de les dades. Gràcies a la seva capacitat
d'aprenentatge, permeten descobrir relacions complexes entre variables sense cap intervenció
externa.
Per la seva banda, les tècniques de classificació extreuen perfils de comportament o classes, sent
l'objectiu construir un model que permeti classificar qualsevol nova dada. Així mateix, els arbres de
decisió permeten dividir dades en grups basats en els valors de les variables. Aquesta tècnica
permet determinar les variables significatives per a un element donat. El mecanisme de base
consisteix a triar un atribut com arrel i desenvolupar l'arbre segons les variables més significatives.
A més de les xarxes neuronals, els arbres de decisió i les tècniques de classificació (cluster, etc.),
podem incloure en aquest grup les tècniques de reducció de la dimensió (factorial, components
principals, correspondències, etc.), les tècniques d'escalament òptim i multidimensional i l'anàlisi
conjunta.
Abans d´aplicar qualsevol técnica d´anàlisi multivariant és precís realitzar una anàlisi prèvia de les
dades de què es disposa (Burns i Bush, 2000). Tal com Pérez (2006) argumenta, cal examinar les
variables individualment i estadística i les relacions entre elles, així com avaluar i solucionar
problemes en el disseny de la investigació i en la recollida de dades tals com el tractament de les
dades absents i la presència de dades atípiques.
El mateix autor segueix que és necessari fer un examen a fons de l´estructura de les dades i
recomana iniciar una anàlisi exploratòria de les dades amb gràfics (histogrames, diagrames de
barres, etc.) que permetin visualitzar la seva estructura. El pas següent sol ser examinar la
possible presència de dades absents i atípiques. L´us d´estadístics de resum és també molt
aconsellable prèviament a l´anàlisi multivariant (Igartúa, 2006). A continuació presentem un petit
resum relatiu a aquests pasos previs a realitzar a l´anàlisi multivariant; no obstant, es poden
consultar diversos autors (Burns i Bush, 2000; Lattin, Carroll i Green, 2003; (Hair, Anderson,
Tatham i Black, 1998) Igartúa, 2006; Pérez, 2006) per ampliar aquesta informació.
7. Análisi previ de les dades
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
123
Bàsicament es poden diferenciar dos tipus de representacions gràfiques: el diagrama de barres i
l´histograma. L´ús d´una i altra representació depèn del nivell de mesura adoptat per la variable
amb la que es vol construir un gràfic a partir de les dades de la investigació (Igartúa, 2006).
El diagrama de barres permet representar gràficament tots els resultats que s´obtenen a l´anàlisi
de dades. S´utilitza per realitzar representacions gràfiques de variables que adopten un nivell de
mesura nominal o ordinal. Aquest gràfic, que constitueix la representació d´una distribució de
freqüències més simple, consisteix en una sèrie de barres, una per cada categoria de la variable,
la longitud de la qual depèn del seu nombre de casos.
Per representar gràficament les variables amb un nivell de mesura d´interval o de raó s´utilitza
l´histograma. Aquest gràfic s´assembla al diagrama de barres, ja que també representa les
freqüències. Tanmateix, existeixen algunes diferències entre les dues representacions gràfiques:
Al diagrama de barres, cada categoria de la variable té la seva “barra” corresponent mentre que a
l´histograma, tret de què hagi un nombre molt reduït de valors, aquests s´agrupen en intervals per
ser representats amb un única barra.
Quan s´aplica un mètode d´anàlisi multivariant sobre les dades disponibles pot ser que no existeixi
informació per a determinades observacions i variables. Són les anomenades dades absents o
data missing (De Leeuw, 2001). La presència d´aquesta informació absent pot deure´rs a un
registre defectuós de la informació, a l´absència natural de la informació buscada o a una manca
de resposta (total o parcial).
Després de comprobar la presència de dades absents en una distribució cal detectar si aquestes
es distribueixen aleatòriament (Pérez, 2006). La simple presència de dades absents no implica
que l´absència d´aquests sigui crítica per a l´anàlisi estadística. Caldrà detectar que l´efecte de les
dades absents és important mitjançant proves d´aleatorietat (De Leeuw, 2001).
Una prova per valorar les dades absents és el test conjunt d´aleatorietat de Little, contrast format
basat en la chi-quadrat, el p-valor de la qual indica si els valors perduts constitueixen o no un
conjunt de nombres aleatoris.
Una vegada que s´ha contrastat l´existència d´aleatorietat en les dades absents ja es pot prendre
una decisió per a aquestes dades abans de començar qualsevol anàlisi estadística amb elles.
7.1. Representacions gràfiques
7.2. Anàlisi de les dades absents
E-Learning de les matemàtiques als IES de Catalunya
124
Lattin, Carroll i Green (2003) assenyalem que es pot començar incloent només en l'anàlisi les
observacions (casos) amb dades completes (files, els valors de les quals per a totes les variables,
siguin vàlids), és a dir, qualsevol fila que tingui alguna dada desapareguda s'elimina del conjunt de
dades abans de realitzar l'anàlisi. Aquest mètode es denomina aproximació de casos complets o
supressió de casos segons llista i sol ser el mètode per defecte en la majoria del programari
estadístic. Aquest mètode és apropiat quan no hi ha excessius valors perduts, perquè la seva
supressió provocaria una mostra representativa de la informació total. En cas contrari es reduiria
molt la grandària de la mostra a considerar per a l'anàlisi i no seria representativa de la informació
completa.
Altre mètode consisteix en la supressió de dades segons parella, és a dir, es treballa amb tots els
casos (files) possibles que tinguin valors vàlids per a cada parell de variables que es considerin en
l'anàlisi independentment del que succeeixi en la resta de les variables. Aquest mètode elimina
menys informació i s'utilitza sempre en qualsevol anàlisi bivariant o transformable en bivariant.
Altre mètode addicional consisteix a suprimir els casos (files) o variables (columnes) que pitjor es
comporten respecte a les dades absents. Novament és necessari sospesar la quantitat de dades a
eliminar. Ha de considerar-se sempre el que es guanya a l'eliminar una font de dades absents i el
que es perd al no comptar amb una determinada variable o conjunt de casos en l'anàlisi
estadística.
L'alternativa als mètodes de supressió de dades és la imputació de la informació mancant. La
imputació és el procés d'estimació de valors absents basat en valors vàlids d'altres variables o
casos de la mostra. Existeixen diferents mètodes d'imputació com són el mètode d'imputació per
substitució del cas, el mètode d'imputació de substitució per la mitjana, el mètode d'imputació de
substitució per la mediana, el mètode d'imputació per interpolació, el mètode d'imputació de
substitució per valor constant, el mètode d'imputació per regressió o el mètode d'imputació
múltiple.
Els casos atípics són observacions aïllades el comportament de les quals es diferencia clarament
del comportament mig de la resta de les observacions (Lattin, Carroll i Green, 2003).
Aquests mateixos autors diferencien els casos atípics segons categories. Existeix una primera
categoria de casos atípics formada per aquelles observacions que provenen d'un error de
procediment, com per exemple un error de codificació, error d'entrada de dades, etc. Aquestes
7.3. Anàlisi de valors atípics
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
125
dades atípiques, si no es detecten mitjançant filtrat, han d'eliminar-se o recodificar-se com dades
absents.
Una segona categoria de casos atípics contempla aquelles observacions que succeeixen com a
conseqüència d'un esdeveniment extraordinari existint una explicació per a la seva presència en la
mostra. Aquest tipus de casos atípics normalment es retenen en la mostra, tret que la seva
significància sigui només anecdòtica.
Una tercera categoria de dades atípiques comprèn les observacions extraordinàries per a les quals
l'investigador no té explicació. Normalment aquestes dades atípiques s'eliminen de l'anàlisi.
Una quarta categoria de casos atípics la formen les observacions que se situen fora del rang
ordinari de valors de la variable. Solen denominar-se valors extrems i s'eliminen de l'anàlisi si
s'observa que no són elements significatius per a la població.
Les pròpies característiques del cas atípic, així com els objectius de l'anàlisi que es realitza,
determinen els casos atípics a eliminar.
No obstant això, els casos atípics han de considerar-se en el conjunt de totes les variables
considerades. Per tant, cal analitzar-los des d'una perspectiva multivariant. Pot ocórrer que una
variable tingui valors extrems eliminables, però al considerar un nombre suficient d'altres variables
en l'anàlisi, l'investigador pot decidir no eliminar-los (Lattin, Carroll i Green, 2003).
Quan es tracta de detectar casos atípics en un context univariant, poden utilizar-se eines d´anàlisi
exploratori de dades, per exemple el gràfic de caixa i bigotis o boxplot (Peña, 2002). En aquest
gràfic, els valors atípics es presenten com punts aïllats en els extrems dels bigotis. Els valors
extrems solen aparéixer marcats amb una “x” (Field, 2005). No obstant, és més efectiu utilitzar un
contrast formal estadístic per detectar valors atípics, per exemple el test de Dixon o el test de
Grubs, els p-valors dels quals detecten valors atípics: Per a p-valors menors que 0,05, existeixen
valors atípics al 95% de confiança (Peña, 2002).
La distribució de freqüències o les representacions gràfiques d´aquestes constitueixen un bon
“resum” de la informació original, continguda a la matriu de dades (Igartúa, 2006). Malgrat això,
existeixen estadístics que sintetitzen molt més la informació sobre les dades. Als més bàsics
(mediana i moda) se sumen tot un repertori d´estadístics que se solen agrupar en tres grans blocs:
mesures de tendència central, mesures de variabilitat d´una distribució i mesures d´asimetria i
apuntament.
7.4. Estadístics de resum
E-Learning de les matemàtiques als IES de Catalunya
126
Aquests estadístics responen a la pregunta de “quin és el resultat típic d´una distribució de
freqüències?” Per tant, permeten veure allò que és dominant, allò que és típic o la tendència de la
distribució de les dades. Aporten informació sobre el conjunt total de nombres que s´analitzen
mitjançant el càlcul d´una sola xifra que pot ser característica de la distribució completa.
Se solen utilizar tres xifres descriptores que expressen diferents versions de la tendència central:
la moda, la mediana i la mitjana. Uns altres estadístics de tendència central són els percentils.
• La moda : És la puntuació a la que correspon la freqüència máxima en una distribució de
freqüències; és el valor o categoria “que més es porta”, que més es repeteix en una
distribució de freqüències (encara que es pot donar el cas d´una distribució de freqüències
que presenti dos o més valors modals).
• La mediana : Amb les dades ordenades del valor inferior al superior, la mediana
s´interpreta com el valor de l´individu que ocupa el valor central de la distribució. És a dir,
aquell que deixa igual nombre d´individus per sobre que per sota. Dit d´una altra manera,
és el punt o valor que deixa per sobre i per sota d´ell el 50% de les observacions. Per
aquesta raó i quan s´utilitzin variables que adopten com a mínim un nivell de mesura
d´interval (variables quantitatives), la mediana dividirà l´àrea total de l´histograma
representat en dues àrees amb igual superficie.
• La mitjana : Matemàticament es defineix com la suma de totes les puntuacions obtingudes
en una variable, X, dividida pel nombre total de puntuacions, n.
n
X
X
n
1ii∑
==
A diferència de la mediana, el valor de cadascuna de les puntuacions de la distribució de
freqüències afecta de manera substancial a la mitjana. Per tant, una de les principals
característiques de la mitjana és que és sensible a la variació de les puntuacions
individuals d´una distribució de freqüències. Per això, no és recomanable utilizar la mitjana
com a índex de tendència central quan la distribució de freqüències és molt asimètrica, ja
sigui perquè hagi molts valors alts o ja sigui perquè hagi molts valors baixos. Com a regla
general, sempre que existeixin valors extrems en una distribució de freqüències, la mitjana
perdrà representativitat mentre que la mediana (que no es veu influenciada pels casos
extrems) es convertirà en la mesura d´elecció (Sánchez Carrión, 1995).
7.4.1. Estadístics de posició o tendència central
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
127
• Els percentils : El percentil k será aquell valor numèric que deixa per sota d´ell el k per 100
dels casos analitzats. La mediana és el percentil 50 (o segon quartil); mentre que el
percentil 25 (P25) sol anomenar-se primer quartil i el percentil 75 (P75) sol denominar-se
tercer quartil.
Els estadístics de tendència central indiquen on se situa un grup de puntuacions. Però es
necessiten altres estadístics que, a més a més de mostrar la tendència, indiquin com es desvien
els casos en relació a aquests valors centrals (Igartúa, 2006).
Els estadístics de dispersió són estadístics que mostren la variabilitat de la distribució. Indiquen si
les puntuacions d´una distribució es troba molt properes entre elles o molt allunyades; és a dir,
descriuen la forma en què els valors es disseminen a partir del punt central.
Existeixen diferents estadístics de dispersió; tanmateix aquí s´analitzaran únicament dos: la
variança i la desviació típica. Ambdós índexs són la base de moltes tècniques estadístiques més
complexes utilitzades en estadística inferencial.
Desviació típica : Si la mitjana és l´estadístic “estrella” a l´hora de veure la tendència d´unes
dades, la desviació típica (DT, SX) ho és quan es desitja conéixer la seva variabilitat (o grau
d´heterogeneïtat). Expressa la dispersió de la distribució i s´expressa en les mateixes unitats de
mesura de la variable. Es calcula a partir de la diferència que existeix entre cada valor individual i
la mitjana; matemàticament, la desviació típica, és igual a l´arrel quadrada de la mitjana de les
desviacions (al quadrat) de cada valor respecte a la mitjana1.
n
)XX(
S
n
1i
2i
X
∑=
−=
Aplicant la fórmula anterior, una desviació típica petita indicarà que la majoria de les puntuacions
de la distribució se situen molt properes a la mitjana; mentre que una desviació típica elevada
descriurà un conjunt de valors que estan disseminats en un ampli radi. Dit d´una altra forma, quan
els casos analitzats siguin molt semblants entre ells (molt homogenis), la desviació típica serà molt
petita; quan els casos siguin molt diferents (molt heterogenis), el valor de la desviació típica serà
molt gran.
1 Alguns textos d´estadística indiquen que ha de dividir-se entre n-1(correcció de Bessel) per comptes d´n (que representa el tamany de la mostra). Knapp (1970) indica que n és apropiat quan el que es busca és conèixer o descriure el grau de variació en les dades de la mostra amb la que es treballa. Es pot consultar: http://faculty.vassar.edu/lowry/webtext.html i Igartúa (2006).
7.4.2. Estadístics de variabilitat o dispersió
E-Learning de les matemàtiques als IES de Catalunya
128
Variança : La variança (SX2) és el quadrat de la desviació típica. Segons el context de la
investigació se sol utilitzar com a mesura de dispersió la desviació típica o la variança.
n
)XX(
S
n
1i
2i
2X
∑=
−=
El numerador de la fórmula anterior, ∑=
−n
1i
2i )XX( , es denomina suma de quadrats i, encara que
aquesta magnitud no sol ser definida com un indicador estadístic, sí forma part del càlcul d´altres
proves estadístiques com l´anàlisi de variança. En aquest sentit, la variança és un concepte
fonamental en investigació. Així, per saber si una variable independent explica bé una altra
variable dependent el que es fa és veure quin percentatge de la variació (variança) d´aquesta
queda explicada per la primera (Sánchez Carrión, 1995).
Amb la informació subministrada pels estadístics de tendència central i de dispersió es disposa ja
d´una imatge representativa de la distribució de les dades de l´estudi. Tanmateix, les distribucions
de freqüències també es caracteritzen per la forma que adopten. En aquest sentit, existeixen dos
criteris bàsics per analitzar la forma d´una distribució de freqüències: la seva simetria (skewness) i
el seu apuntament o curtosis (o kurtosis). Tanmateix, abans d´introduir ambdós conceptes
s´al·ludirà un altre terme central en Estadística: la corba o distribució normal.
La corba normal : És un tipus de corba de probabilitat d´enorme importància en Estadística degut,
fonamentalment, a la freqüència amb què diferents variables associades a fenòmens naturals i
quotidians segueixen, aproximadament, aquesta distribució. Les característiques de la distribució
normal són les següents:
1. És unimodal (té un sol pic) i presenta una forma de campana.
2. La mitjana d´una població distribuïda normalment es troba al centre de la seva corba
normal.
3. A causa de la simetria de la distribució normal de probabilitat, la mediana i la moda de la
distribució també es troben al centre, per tant, en una corba normal, la mitjana, la mediana
i la moda tenen el mateix valor.
4. Les dues cues o extrems d´una distribució normal de probabilitat s´extenen de manera
indefinida i mai no toquen l´eix horitzontal.
Simetria : Es diu que una distribució és simètrica si al doblegar-la sobre ella mateixa (a partir del
valor de la mediana), les dues meitats que s´obtenen se superposen completament. Per tant, quan
7.4.3. Mesures d´asimetria i apuntament
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
129
la forma de la distribució és simètrica la mitjana no només constituirà el centre de la distribució
sinó que coincidirà amb el valor de la mediana. I, si a més a més, la distribució de freqüències és
unimodal, la mitjana, la mediana i la moda coincidiran en un mateix valor. En canvi, una distribució
asimètrica sol definir-se com esbiaixada i es caracteritza per disposar del pic més elevat de la
distribució desplaçat o descentrat, al temps que presenta una cua més llarga que l´altra.
Curtosis : Mesura la densitat de les cues d´una distribució, en comparació amb la corba normal.
És una mesura de l´apuntament de la corba que es projecta a partir de les dades d´una distribució
de freqüències. En aquest sentit, una corba (construïda a partir de la distribució de freqüències)
que es presenti com “apuntada” será alta i estreta; anoment-la leptocúrtica (o supergaussiana). Pel
contrari, una corba poc “apuntada” será baixa i ampla, rebent el qualificatiu de platicúrtica (o
subgaussiana) ja que és menys apuntada que la corba normal. En aquest sentit, la corba normal
també s´anomena mesocúrtica.
El coeficient de curtosis mesura el grau de concentració que presenten els valors al voltant de la
zona central de distribució. Aquest índex adopta un valor de 0 quan la corba construïda a partir de
les distribucions de freqüències de la variable és normal. Els valors positius a l´índex de curtosis
indiquen que la corba és alta i estreta (letocúrtica); mentre que els valors inferiors a 0 assenyalen
que la corba és baixa i ampla (platicúrtica). Per tant, quan més s´allunyi de 0 el valor de la curtosis,
més gran será la probabilitat de què la variable analitzada no segueixi una distribució normal.
L'objectiu dels mètodes factorials és obtenir una representació gràfica simplificada de les
columnes i de les files d'una taula (Salvador i Gargallo, 2006). Aquesta representació s'efectua
construint unes variables sintètiques o factors a partir de les variables inicials o actives.
A través d'aquests mètodes s'obtenen subespais de dimensió reduïda que conserven el màxim de
la informació inicial de la taula. Aquests subespais s'obtenen en funció de l'estructura de
correlacions de les variables de la taula analitzada, no mitjançant la selecció de les variables més
representatives, sinó creant noves variables sintètiques, combinació lineal de les inicials
(Gremigni, Sommaruga i Peltenburg, 2008).
L'anàlisi consenteix una petita pèrdua d'informació per guanyar en significació i a més proporciona
representacions gràfiques (Vogt, 2007). Aquestes són representacions simplificades que poden
estar deformades per la qual cosa s'acompanyen d'indicadors de la qualitat de representació de
cada element (observació, variable o categoria) i quantitat d'informació que mantenen.
8. Mètodes factorials per a l´anàlisi de
qüestionaris
E-Learning de les matemàtiques als IES de Catalunya
130
Les variables actives són les que recullen la informació sobre el tema objectiu de l'estudi i són les
úniques que intervenen en el càlcul de les distàncies o semblances entre els enquestats
(Zambrano, Meda i Lara, 2005).
Aquestes variables poden ser de qualsevol naturalesa, quantitatives o qualitatives. L'única
condició és que siguin homogènies, és a dir, totes de la mateixa naturalesa, quantitativa o
qualitativa i aquesta condiciona el mètode d'anàlisi (Cohen, Manion i Morrison, 2007). Així, si les
preguntes relatives a l'objectiu de l'estudi estan codificades com variables mètriques o
quantitatives, el mètode d'anàlisi serà l'Anàlisi de Components Principals (ACP) i si la codificació
és com variables qualitatives, el mètode adequat serà l'Anàlisi de Correspondències Múltiples
(ACM). Quan es tracta d'analitzar la relació entre les categories de dues preguntes i analitzar en
profunditat una taula de freqüències que creua dues variables categòriques relacionades s'utilitza
l'Anàlisi de Correspondències (ACOR) (Grande i Abascal, 2005).
Tipus de taules Mètode Estudia la relació entre
Quantitatives ACP Variables mètriques
Qualitatives ACOR Les categories de dues variables qualitatives
Qualitatives ACM Les categories de p variables qualitatives
Històricament, l´ACP és anterior a l´ACOR i a l´ACM i és pràctica habitual entre els investigadors
(Bedoya, Gutiérrez, Rico (2006); Curts i Tanguma (2007); Gremigni, Sommaruga i Peltenburg
(2008); Zambrano, Meda i Lara (2005)) que consideren una escala tipus de Likert o un diferencial
semàntic com escales mètriques.
Les limitacions de l´ACP són ben conegudes; únicament es pot utilitzar amb variables mètriques i
quan es considera que una escala de Likert de 1 a 5 com mètrica i està forçant que el desacord (2)
és la meitat que l'acord (4) el que suposa una deformació.
L´ACM està especialment dissenyat per a l'anàlisi de variables qualitatives o categòriques i permet
el tractament conjunt de preguntes. La limitació que totes les variables siguin categòriques no és
tan restrictiva, ja que qualsevol variable mètrica es pot convertir en categòrica. Per altra banda, no
s'exigeix que el nombre de categories de les preguntes sigui el mateix (Cohen, Manion i Morrison,
2007).
Encara que tots els mètodes tenen un objectiu comú es diferencien en el tipus de variables i el
tractament i per tant en la definició de semblança. Cadascun té les seves característiques i normes
d'interpretació pròpies. En el següent apartat es presenten el mètode de l´ACP i la forma d'utilitzar-
lo per a l'anàlisi d'enquestes.
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
131
L'anàlisi factorial és el nom genèric que es dóna a una classe de mètodes estadístics multivariants
el propòsit principal dels quals és treure a la llum l'estructura subjacent en una matriu de dades
(Salvador i Gargallo, 2006). Analitza l'estructura de les interrelacions entre un gran nombre de
variables no exigint cap distinció entre variables depenents i independents. Utilitzant aquesta
informació calcula un conjunt de dimensions latents, conegudes com factors, que busquen explicar
aquestes interrelacions. És, per tant, una tècnica de reducció de dades atès que si es compleixen
les seves hipòtesis, la informació continguda en la matriu de dades pot expressar-se, sense molta
distorsió, en un nombre menor de dimensions representades per aquests factors. Una anàlisi
factorial té sentit si es compleixen dues condicions: parsimònia i interpretabilitat2 (Lattin, Carroll i
Green, 2003).
Figura 5.3: La gènesi de l´anàlisi factorial és que, partint d´una sèrie de variables X1, X2, …, Xn es
reagrupen obtenint unes variables latents anomenades factors.
En aquest apartat donarem una visió general d'aquesta tècnica i aprendrem quins són els passos
a seguir a l'hora de realitzar una anàlisi factorial i, posteriorment, en el següent capítol, il·lustrarem
amb l'exemple que ens pertoca la seva aplicació.
2 Encara que es veurà més endavant, adelantem que segons el principi de parsimònia, els fenòmens han d´explicar-se amb el menor nombre d´elements possibles. Per tant, respecte a l´anàlisi factorial, el nombre de factors ha de ser el més reduït possible i aquests han de ser susceptibles d´interpretació substantiva. Una bona solució factorial és aquella que resulta senzilla i interpretable (Franquet, 2008).
9.1. Introducció
9. Anàlisi Factorial i Anàlisi de Components
Principals
E-Learning de les matemàtiques als IES de Catalunya
132
Com hem vist anteriorment, l'anàlisi factorial és una tècnica d'anàlisi multivariat que permet
analitzar la interdependència entre un grup de variables. Se sol utilitzar per examinar com
s'agrupen entre si un grup de variables, en funció del seu grau de correlació, amb el propòsit de
descobrir si comparteixen alguna estructura latent (Cea D'Ancona, 2002).
L'objectiu principal de l'anàlisi factorial és simplificar les nombroses i complexes relacions que es
poden trobar en un conjunt de variables quantitatives observades (De Vicente i Manera, 2003).
També se sol considerar que l'anàlisi factorial serveix per a identificar models de mesura, ja que
un dels seus objectius és el desenvolupament o construcció d'índexs o escales unidimensionals
(Stevens, 1992; Tacq, 1997). Els índexs o factors identificats en l'anàlisi són una combinació lineal
de les variables originals i es caracteritzen per estar correlacionats entre ells. D'aquesta manera,
l'anàlisi factorial informa a l'investigador sobre quines variables poden addicionar-se i ser
estudiades conjuntament perquè remeten a un mateix constructe.
Des d'un punt de vista matemàtic, un factor és una combinació lineal d'una sèrie de variables. Ara
bé, no cal confondre'l amb el concepte de factor en l'anàlisi de variança (Igartúa, 2006). En aquell
context un factor equivalia a una variable independent. En canvi, en l'anàlisi factorial no existeixen
variables depenents i independents, al ser una tècnica d'interdependència, i el concepte de factor
es refereix a un constructe latent, no observable a primera vista sinó que és inferit a partir de les
puntuacions d'un grup de variables correlacionades entre si. D'aquesta manera, un factor pot
definir-se en funció de la següent equació:
pkp33k22k11kk X·...X·X·X·F λ++λ+λ+λ=
On, Fk és el factor k que s´expressa com funció linial de p variables observades ( 1X fins Xp i on 1kλ fins
kpλ representen els pesos, coeficients o càrregues factorials de saturació de les diferents variables en
cadascun dels factors). El desenvolupament matemàtic de l'anàlisi factorial permet analitzar el grau
de correlació entre les p variables i a partir d'aquí extreure un nombre menor de factors. Per tant,
els factors es deriven de les correlacions existents entre les variables que s'inclouen en l'anàlisi.
L'objectiu bàsic serà buscar l'agrupament de les variables que manifestin una alta correlació entre
si, el que significarà que mesuren un constructe o variable latent denominat factor (Peña, 2002).
Per a la identificació de cada factor es tindrà en compte el grau de saturació de cada variable amb
cadascun dels factors extrets, de manera que aquelles variables que mostrin pesos ( λ ) més
elevats amb un factor es dirà que defineixen la seva estructura o estan associats a aquest factor.
9.2. Objectius de l´Anàlisi Factorial
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
133
De fet, els pesos o puntuacions factorials poden interpretar-se com coeficients de correlació entre
un factor donat i una determinada variable3.
En termes generals, existeixen dues modalitats d'anàlisi factorial; exploratori i confirmatori. En
l'anàlisi factorial exploratori no es coneixen els factors a priori, sinó que es determinen a partir
d'examinar la solució factorial. En canvi, en l'anàlisi factorial confirmatori es proposa a priori un
model teòric, segons el qual existeixen un nombre determinat de factors extrets a partir d'una sèrie
de variables específiques i del que es tracta és de verificar o comprovar que aquest model teòric
s'ajusta a les dades empíriques obtingudes (Bisquerra, 1989).
En aquest text, únicament es farà referència a l´anàlisi factorial exploratori, que és el que ens
interessa per a l´estudi. L´anàlisi factorial exploratori permetrà descobrir les dimensions fonamentals
que existeixen en un grup de variables (Curts i Tanguma, 2007). Precisament aquest fou, en el seu
origen, el propòsit principal de l´anàlisi factorial desenvolupat inicialment per Karl Pearson (en 1901),
qui va presentar la primera proposta del mètode de components principals, i Karl Spearman (en
1904). Tanmateix, els desenvolupaments posteriors, principalment gràcies al treball de Jöreskog
(en 1973), van permetre desenvolupar l´anàlisi factorial confirmatori, tècnica estretament
relacionada amb el model LISREL (Linear Structural Relationship) o model d´equacions
estructurals lineals, creat per Jöreskog i Sörbom en 1979 (Cea D'Ancona, 2002; De Vicente i
Manera, 2003; Lévy, 2003).
En definitiva, l'anàlisi factorial intenta identificar variables subjacents, o factors, que expliquin la
configuració de les correlacions dins d'un conjunt de variables observades (aquelles que realment
es mesuren) (Field, 2005). En aquest context, l'anàlisi factorial se sol utilitzar en la reducció de les
dades (de fet, l´SPSS ho defineix d'aquesta manera). També pot utilitzar-se per a inspeccionar les
variables que es van a utilitzar en anàlisis següents: per exemple, per a identificar la colinealitat
entre aquelles variables abans de realitzar una anàlisi de regressió lineal múltiple (Field, 2005).
Per poder efectuar una anàlisi factorial les variables han de ser mètriques, és a dir, adoptar un
nivell de mesura d'interval o de raó. Les variables qualitatives no són adequades per a l'anàlisi
factorial, tret que s'efectuï una transformació en elles convertint-les en variables dummy. Per
3 En realitat, són correlacions quan els factors no estan correlacionats entre ells, és a dir, quan són ortogonals (Bisquerra, 1989).
9.3. Modalitats de l´Anàlisi Factorial
9.4. Requisists de l´Anàlisi Factorial
E-Learning de les matemàtiques als IES de Catalunya
134
exemple, per poder introduir en una anàlisi factorial la variable sexe caldria codificar-la com
variable dummy, adoptant els valors 1 (homes) i 0 (dones). En principi, aquelles dades amb les
quals es pot efectuar una anàlisi de correlació de Pearson seran també adequades per a l'anàlisi
factorial (Cea D'Ancona, 2002; Field, 2000; Foster, 2001).
Els mateixos autors anteriors argumenten que, en aquest sentit, s'ha estès l'ús de l'anàlisi factorial
amb variables mesurades amb escales d'intensitat (1=gens, fins a 5=molt, per exemple), escales
tipus Likert (1=total desacord, fins a 5=total acord) o per mitjà del diferencial semàntic d´Osgood,
encara que en realitat no adoptin, estrictament parlant, un nivell de mesura d'interval o de raó.
Un altre requisit indispensable per executar l'anàlisi factorial és comptar amb un nombre elevat de
casos (Vogt, 2007; Peña, 2002). Encara que la resposta a l'interrogant “quants casos són
suficients” ha rebut diferents respostes, s'han establert alguns criteris pertinents. En primer lloc,
almenys han d'existir 5 casos per variable inclosa en l'anàlisi. Si, per exemple, es desitja efectuar
una anàlisi factorial sobre una escala composta per 20 variables, seguint aquest criteri la
grandària de la mostra haurà de ser almenys de 100 casos. El principal problema al treballar amb
mostres petites és que els coeficients de correlació que es calculen per a l'extracció dels factors
poden resultar poc fiables (Cea D'Ancona, 2002; Stevens, 1992).
Seguint a Salvador i Gargallo (2006), Hair, Anderson, Tatham i Black (1998) i Lattin, Carroll i Green
(2003), siguin X1, X2, …, Xp les p variables objecte d´anàlisi que suposarem des d´ara en endavant,
que estan tipificades. Si no ho estiguessin, l´anàlisi es realitzaria de forma similar però la matriu
utilitzada per calcular els factors no seria la matriu de correlació sinó la de variances i covariances.
L´investigador mesura aquestes variables sobre n individus, obtenint la següent matriu de dades:
Subjectes Variables
X1, X2, …, Xp
1
2
3
.
.
.
n
X11 X12 … X1p
X21 X22 … X2p
X31 X32 … X3p
. . .
. . .
. . .
Xn1 Xn2 … Xnp
El model de l´anàlisi factorial ve donat habitualment per les equacions:
9.5. Model de l´Anàlisi Factorial
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
135
X1 = a11F1 + a12F2 +…+a1kFk + u1
X2 = a21F1 + a22F2 +…+a2kFk + u2
.
.
.
Xp = ap1F1 + ap2F2 +…+apkFk + up
on F1,…,Fk (k<p) són els factors comuns i u1,…up els factors unics o específics i els coeficients {aij;
i=1,…,p; j=1,...,k} les càrregues factorials.
Se suposa, a més a més, que els factors comuns estan a la vegada estandaritzats (E(Fi) = 0;
Var(Fi) = 1), els factors específics tenen mitjana 0 i estan incorrelats (E(ui) = 0; Cov(ui,uj) = 0 si i≠j;
j, i=1,…,p) i que ambdós tipus de factors estan incorrelats (Cov(Fi,uj) = 0, ∀i=1,..,k; j=1,…,p).
Si, a més a més, els factors estan incorrelats (Cov(Fi,Fj) = 0 si i≠j; j, i=1,…,k) estem davant un
model amb factors ortogonals. En cas contrari el model es diu que és de factors oblicus.
Expressant en forma matricial x = Af + u ⇔ X = FA' + U (1)
on x =
p
2
1
X
.
.
.
X
X
, f=
p
2
1
F
.
.
.
F
F
, u=
p
2
1
U
.
.
.
U
U
, X és la matriu de dades, A=
pk2p1p
k22221
k11211
a...aa
............
a...aa
a...aa
és la matriu de
càrregues factorials i F=
pk2p1p
k22221
k11211
f...ff
............
f...ff
f...ff
és la matriu de puntuacions factorials.
Utilitzant les hipòtesi anteriors es té que:
∑ =ψ+=ψ+=
k
1j i2ii
2iji ha)X(Var amb i=1, …, p
on
= ∑
=
k
1jjij
2i FaVarh i )u(Var ii =ψ reben els noms de comunalitat i especificitat de la variable Xi,
respectivament.
E-Learning de les matemàtiques als IES de Catalunya
136
Per tant, la variança de cada una de les variables analitzades pot descomposar-se en dues parts:
una, la comunalitat, 2ih , que representa la variança explicada pels factors comuns i una altra la
especificitat, ψi, que representa la part de la variança específica de cada variable.
A més a més es té que:
∑∑ ∑== =
=
=
k
1jljij
k
1j
k
1jjljjijli aaFa,FaCov)X,X(Cov ∀i≠l
Per la qual cosa són els factors comuns els que expliquen les relacions existents entre les
variables del problema. És per aquesta raó que els factors que tenen interès i són susceptibles
d´interpretació experimental són els factors comuns. Els factors únics s´inclouen en el model
donada la impossibilitat d´expressar, en general, p variables en funció d´un nombre més reduït k
de factors.
Segons diversos autors (Lattin, Carroll i Green, 2003; Field, 2005; Salvador i Gargallo, 2006);, les
fases a seguir en realitzar un anàlisi factorial són les següents:
Als apartats següents es presenta amb detall en què consisteix cadascuna d´aquestes etapes.
0. Formulació del problema
9.6. Fases de l´Anàlisi Factorial
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
137
En la formulació del problema ha d'abordar-se la selecció de les variables a analitzar així com la
dels elements de la població en la qual aquestes variables van a ser observades (Curts i
Tanguma, 2007). És important que aquestes variables recullin els aspectes més essencials de la
temàtica que es desitja investigar i la seva selecció haurà d'estar marcada per la teoria subjacent
al problema. Convé fer notar, finalment, que els resultats de l'anàlisi no tenen per qué ser
invariants a canvis d'origen i escala per la qual cosa s'aconsella, si les unitats de mesura de les
variables no són comparables, estandaritzar els dades abans de realitzar l'anàlisi (Salvador i
Gargallo, 2006).
1. Matriu de correlació
Una vegada formulat el problema i obtinguda la matriu de dades, X, el següent pas a realitzar és
l´examen de la matriu de correlacions mostrals R = (rij) on rij és la correlació mostral observada
entre les variables Xi i Xj. La finalitat d´aquest anàlisi és comprovar si les seves característiques
són les més adequades per realitzar una anàlisi factorial (Cohen, Manion i Morrison, 2007).
Un dels requisits que ha de complir-se perquè l'anàlisi factorial tingui sentit és que les variables
estiguin altament intercorrelacionades (Lattin, Carroll i Green, 2003). Per tant, si les correlacions
entre totes les variables són baixes, l'anàlisi factorial tal vegada no sigui apropiat.
A més, també s'espera que les variables que tenen correlació molt alta entre elles la tinguin amb el
mateix factor o factors. A continuació presentem diferents indicadors del grau d'associació entre
les variables.
2. Adequació de l´Anàlisi Factorial
És convenient sol·licitar algun procediment per esbrinar l'adequació de l'anàlisi factorial amb les dades que
s'estigui treballant (Lattin, Carroll i Green, 2003). Aquest tipus de procediments permeten comprovar la
qualitat de l'anàlisi, a partir de la matriu de correlacions entre les variables. Dos dels indicadors més
utilitzats per a comprovar l'adequació de l'anàlisi són la prova d´esfericitat de Bartlett i l'índex KMO (Kaiser-
Meyer-Olkin) (Cea D'Ancona, 2002; De Vicente i Manera, 2003; Wimmer i Dominick, 1996):
• En el context de l´anàlisi factorial l´esfericitat es refereix a l´existència de correlació entre
les variables considerades. La hipòtesi nul·la a la prova d´esfericitat de Bartlett planteja que les
variables no estan correlacionades; de forma estricta es planteja que la matriu de correlació, R,
es correspon amb la matriu identitat4 (aquella en la que la diagonal principal només hi ha uns i la
resta dels termes són zeros). En canvi, la hipòtesi alternativa planteja que les variables sí
estan correlacionades i, per tant, que la matriu de correlacions difereix de la matriu identitat.
4 Si la matriu de correlació és la identitat significa que les intercorrelacions entre les variables són zero.
E-Learning de les matemàtiques als IES de Catalunya
138
≠≠
==
IRo1R:H
IRo1R:H
1
0
La prova d´esfericitat de Bartlett s´obté a partir d´una transformació del determinant de la
matriu de correlació. L´estadístic d´aquest test ve donat per:
∑=
λ
+−−=
+−−−=p
1jjR )log(
611p2
nRlog)5p2(61
1nd
on n és el nombre d´individus de la mostra i jλ (j=1, …,p) són els valors propis d´R.
Per realitzar aquest contrast es recorre a la prova χ2 amb p(p-1)/2 graus de llibertat. L´obtenció
d´un valor estadísticament significatiu (p<0.05) en aquest estadístic de contrast suposarà el
refús de la hipòtesi nul·la i, per tant, la pertinència de l´anàlisi factorial.
• El coeficient de correlació parcial és un indicador de la força de les relacions entre dues
variables eliminant la influència de la resta. Segons Lattin, Carroll i Green (2003), si les
variables comparteixen factors comuns, el coeficient de correlació parcial entre parells de
variables serà baix, ja que s'eliminen els efectes lineals de les altres variables. Les
correlacions parcials són estimacions de les correlacions entre els factors únics i haurien
de ser pròxims a zero quan l'anàlisi factorial és adequat, ja que, aquests factors se suposa
que estan incorrelats entre ells. Per tant si existeix un nombre elevat de coeficients
d'aquest tipus diferents de zero és senyal que les hipòtesis del model factorial no són
compatibles amb les dades. Una forma d'avaluar aquest fet és mitjançant l'índex KMO
proposta per Kaiser, Meyer i Olkin. Aquesta mesura ve donada per:
∑∑ ∑∑
∑∑
≠ ≠ ≠ ≠
≠ ≠
+=
ij ji ij ji
2)p(ij
2ij
ij ji
2ij
rr
r
KMO on )p(ijr és el coeficient de correlació parcial entre les
variables Xi i Xj eliminant la influència de la resta de les variables.
El que interessa en aquest cas és obtenir valors propers a 1, el que serà indicatiu que les
variables sí estan correlacionades entre elles. S'ha assenyalat que quan s'obtenen valors
inferiors a 0.50 s´ha de posar en dubte l'adequació de l'anàlisi. Cea D'Ancona (2002) ofereix
els següents valors de referència de l'índex KMO per a jutjar la qualitat de l'anàlisi factorial:
0.90 (molt bo), 0.80 (meritori), 0.70 (mig o normal), 0.60 (mediocre), 0.50 (menyspreable o
baix) i menor que 0.50 (totalment inacceptable).
• També es pot calcular una mesura d´adequació per a cada variable de forma similar a l índex
KMO amb l índex MSA. En aquesta prova només s´inclouen els coeficients de la variable que es
desitja comprovar. La fórmula és:
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
139
∑ ∑
∑
≠ ≠
≠
+=
ji ji
2)p(ij
2ij
ji
2ij
irr
r
MSA ; i=1, …, p
Un valor baix de MSA indica que les hipótesis fetes pel model de l´anàlisi factorial són poc
compatibles per al cas de la variable Xi.
• Altres dues opcions que poden resultar d'interès, encara que no són tan utilitzades, són
l'obtenció de la matriu de correlacions de totes les variables entre elles i el determinant de la
matriu de correlació (Lattin, Carroll i Green, 2003). La inspecció dels coeficients de correlació
permetrà examinar si les variables es troben relacionades i en quin grau; s'espera trobar
correlacions de 0.30 en endavant. Ara bé, és necessari comprovar si existeix algun problema
d'extrema multicolinealitat, que es presenta quan les variables estan altament
correlacionades. En aquest sentit, s'ha indicat que si s'observen correlacions de 0.80 o
superiors entre dues variables, convé eliminar una d'elles. S'actua d'aquesta manera perquè
si dues variables estan correlacionades de manera gairebé perfecta, la informació que s'obté
és redundant. D'altra banda, quan s'obté un valor del determinant de la matriu de correlacions
major que 0.00001 també es pot descartar la presència de correlacions excessivament
elevades entre les variables (Field, 2005).
3. Extracció i determinació de factors
Com ja hem comentat, l'objectiu de l'anàlisi factorial consisteix a determinar un nombre reduït de
factors que puguin representar a les variables originals. Per tant, una vegada que s'ha determinat
que l'anàlisi factorial és una tècnica apropiada per a analitzar les dades, ha de seleccionar-se el
mètode adequat per a l'extracció dels factors. Existeixen diversos mètodes cadascun d'ells amb
els seus avantatges i inconvenients per obtenir els factors comuns5.
En aquesta secció donarem una breu referència d´alguns d´ells; més concretament dels
implementats en el paquet estadístic Dyane, que és l´utilitzat al treball.
Mètode de les Components Principals: El mètode consisteix a estimar les puntuacions factorials
mitjançant les puntuacions tipificades de les k primeres components principals i la matriu de
càrregues factorials mitjançant les correlacions de les variables originals amb aquestes
components (Field, 2005). Aquest mètode té l'avantatge que sempre proporciona una solució.
L´autor anterior al·ludeix que, té l'inconvenient, no obstant això, que al no estar basat en el model
5 En realitat, encara que de manera genèrica se sol parlar d'anàlisi factorial, en funció del mètode d'extracció de factors seleccionat, és que apareixen els mètodes analítics següents: Anàlisis de components principals, eixos principals, mínims quadrats no ponderats, mínims quadrats generalitzats, màxima versemblança, alfa i imatge (per a una despcripció dels mateixos es pot consultar Cea D´Ancona, 2002). En el nostre cas seleccionem el mètode de components principals, un dels més utilitzats i pioner de l'anàlisi multivariant (Bisquerra, 1989).
E-Learning de les matemàtiques als IES de Catalunya
140
d'anàlisi factorial pot dur a estimadors molt esbiaixats de la matriu de càrregues factorials,
particularment, si existeixen variables amb comunalitats baixes.
La comunalitat és la proporció de variança comuna d'una variable donada explicada pels factors
extrets en l'anàlisi (Lattin, Carroll i Green, 2003). Per comprendre millor aquest concepte cal
comprendre que, teòricament, la variança total en una determinada variable té dues components:
part de la variança serà compartida o estarà relacionada amb la variabilitat d'altra variable
(variança comuna) i altra part li serà específica i no serà compartida amb cap altra variable
(variança única)6.
Atès que en l'anàlisi factorial interessa descobrir dimensions subjacents o variables latents, gràcies a què
les variables estan correlacionades entre si (i per tant, comparteixin una gran quantitat de variança), és
convenient que els valors de les comunalitats obtingudes (que reflecteixen la variança comuna) siguin
elevats (Field, 2005). En aquest context, una variable que no presenta variança específica o única tindrà
un valor d´1; mentre que una variable que no comparteix la seva variança amb cap altra tindrà una
comunalitat de 0. Per tant, al realitzar una anàlisi factorial és fonamental conèixer quina és la proporció de
variança comuna present en les dades (Field, 2005). Existeixen diferents mètodes per a estimar els valors
de comunalitat de cada variable però el més utilitzat es basa en el càlcul de la correlació múltiple al
quadrat de cada variable amb les altres incloses en l anàlisi7.
Mètode de la Màxima Versemblança : Aquest mètode està basat en el model (1) adoptant, a més, la
hipòtesi de normalitat multivariant i consisteix en aplicar el mètode de la màxima versemblança (Lattin,
Carroll i Green, 2003). El mètode té l'avantatge sobre els dos anteriors que les estimacions obtingudes
no depenen de l'escala de mesura de les variables. A més, a l'estar basat en el mètode de la màxima
versemblança, té totes les propietats estadístiques d'aquest i, en particular, és assimptòticament no
esbiaixat, eficient i normal si les hipòtesis del model factorial són certes. Permet, a més, seleccionar el
nombre de factors mitjançant contrastos d'hipòtesis. Aquest mètode també es pot utilitzar en l'anàlisi
factorial confirmatori, on l'investigador pot plantejar hipòtesi com que algunes càrregues factorials són
nul·les, que alguns factors estan correlacionats amb determinats factors, etc. i aplicar tests estadístics
per a determinar si les dades confirmen les restriccions asumidse (Field, 2005). El seu principal
inconvenient radica que, al realitzar-se l'optimització de la funció de versemblança per mètodes
iteratius, si les variables originals no són normals, pot haver problemes de convergència sobretot en
mostres finites.
Existeixen altres mètodes d'extracció: mètode de mínims quadrats ponderats o mètode de mínims
quadrats generalitzats però s'exclou la seva explicació en aquest capítol per no utilitzar-se en la
6 Quan una variable presenta poca variança, és més difícil que pugui compartir variança amb altres variables, raó per la qual és recomanable que la mostra a la que s´apliqui l´escala que se sotmet l´anàlisi factorial no sigui excesivament homogènia (Prat i Doval, 2003). 7Els diferents procediments d'extracció de factors difereixen en la forma d'estimar les comunalitats i, per tant, en les solucions factorials. No obstant això, Stevens (1992) ha assenyalat que amb 30 o més variables en l'anàlisi i amb comunalitats majors de 0,70 en totes elles és molt poc probable que difereixin entre si les diferents solucions factorials.
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
141
investigació. Si es desitja ampliar la informació referent a això es pot consultar en Lattin, Carroll i
Green (2003)
Determinació del número de factors
L'anàlisi factorial sol calcular una primera solució inicial en la que es mostra el nombre de factors
identificats i les saturacions de les variables en cadascun d'ells. A aquesta solució inicial se la
denomina matriu factorial.Per tal de determinar el nombre de factors cal treballar amb aquesta. La
matriu factorial pot presentar un nombre de factors superior al necessari per explicar l´estructura de les
dades originals. Generalment, hi ha un conjunt reduït de factors, els primers, que contenen gairebé tota
la informació (Salvador i Gargallo, 2006). Els altres factors solen contribuir relativament poc. Un dels
problemes que es plantegen consisteix a determinar el nombre de factors que convé conservar ja que
del que es tracta és de complir el principi de parsimònia. S'han donat diverses regles i criteris per a
determinar el nombre de factors a conservar. A continuació, llistem alguns dels més utilitzats, segons
Lattin, Carroll i Green (2003):
• Determinació a priori : Aquest és el criteri més fiable si les dades i les variables estan bé
triades i l'investigador coneix a fons el terreny que està tractant ja que, com ja vam
comentar anteriorment, l'ideal és plantejar l'anàlisi factorial amb una idea prèvia de quants
factors hi ha i quins són.
• Regla de Kaiser : Consisteix a calcular els valors propis de la matriu de correlacions i
prendre com nombre de factors el nombre de valors propis superiors a la unitat. Aquest
criteri és una reminiscència de l'anàlisi de components principals i s'ha comprovat en
simulacions que, generalment, tendeix a infraestimar el nombre de factors pel que es
recomana el seu ús per a establir un límit inferior. Un límit superior es calcularia aplicant
aquest mateix criteri però prenent com límit 0.7.
• Criteri del percentatge de la variança : També és una reminiscència de l'anàlisi de
components principals i consisteix a prendre com nombre de factors el nombre mínim
necessari perquè el percentatge acumulat de la variança explicat abasteixi un nivell
satisfactori que sol ser del 75% o el 80%. Té l'avantatge de poder-se aplicar també quan la
matriu analitzada és la de variances i covariances però no té cap justificació teòrica ni
pràctica.
• Gràfic de Sedimentació : Consisteix en una representació gràfica on els factors estan en
l'eix d'abscisses i els valors propis en el d'ordenades. Els factors amb variances altes se
solen distingir dels factors amb variances baixes. El punt de distinció ve representat per un
punt d'inflexió en la gràfica. Es poden conservar els factors situats abans d'aquest punt
d'inflexió. En simulacions aquest criteri ha funcionat bé però té l'inconvenient que depèn
de l´"ull" de l'analista sobre el gràfic.
• Criteri de divisió a la meitat : La mostra es divideix en dues parts iguals preses a l'atzar i
es realitza l'anàlisi factorial en cadascuna d'elles. Només es conserven els factors que
E-Learning de les matemàtiques als IES de Catalunya
142
tenen alta correspondència de càrregues de factors en les dues mostres. És convenient,
no obstant això, abans d'aplicar-lo comprovar que no existeixen diferències significatives
entre les dues mostres pel que fa a les variables estudiades.
• Proves de significació : Ja s'ha comentat en la secció anterior i consisteix a aplicar
contrastos d'hipòtesis de models niats per a seleccionar aquest nombre. Aquest criteri es
pot calcular si el mètode utilitzat per a estimar els factors és el de màxima versemblança.
En la majoria dels estudis exploratorios k no pot ser especificat a la bestreta i, per tant,
s'utilitzen procediments seqüencials per a determinar k. Es comença amb un valor petit per
a k (usualment 1), els paràmetres en el model factorial són estimats utilitzant el mètode de
màxima versemblança. Si l'estadístic del test no és significatiu, acceptarem el model amb
aquest nombre de factors, en altre cas, s'augmenta k en un i es repeteix el procés fins que
s'arribi a una solució acceptable. El principal inconvenient d'aquest mètode és que està
basat en resultats assimptòtics i que, si el tamany de la mostra és gran, es corre el risc de
prendre k excessivament gran ja que el test detecta qualsevol factor per petit que sigui el
seu poder explicatiu.
4. Rotació de factors
Com hem dit anteriorment, l'anàlisi factorial sol calcular una primera solució inicial en la que es
mostra el nombre de factors identificats i les saturacions de les variables en cadascun d'ells. A
aquesta solució inicial se la denomina matriu factorial. No obstant això, aquesta solució inicial sol
oferir en ocasions problemes d'interpretació, pel que es procedeix a una operació matemàtica
denominada rotació (Lattin, Carroll i Green, 2003). Cal esmentar que l´anàlisi factorial s'assenta en
dos principis bàsics: parsimònia i interpretabilitat (Frasquet, 2008). El principi de parsimònia és
essencial en la identificació de factors: la solució factorial ha de ser senzilla, composta pel menor
nombre possible de factors o components. Però a més, els factors extrets han de ser susceptibles
d'interpretació substantiva (Cea D'Ancona, 2002). Precisament per a facilitar la interpretació de la
solució factorial es procedeix a la rotació dels factors amb la qual s'obtindrà la matriu factorial
rotada. Existeixen cinc mètodes de rotació disponibles, que es divideixen en dos grans grups:
rotació ortogonal (varimax, quartimax i equamax) i rotació obliqua (oblimin directe i promax). Els
mètodes de rotació ortogonal s'utilitzen quan l'investigador assumeix que els factors extrets no
estan correlacionats; dit d'una altra manera, es desitgen obtenir factors no correlacionats entre si.
En canvi, quan s'utilitza algun mètode de rotació obliqua s'assumeix que els factors estan
correlacionats o es desitja obtenir una solució factorial amb factors correlacionats entre si. Les
rotacions obliqües condueixen a interpretacions més complexes de la solució factorial, encara que
aquesta pot ser més realista.
5. Interpretació de factors
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
143
En la fase d'interpretació juga un paper preponderant la teoria existent sobre el tema (Lattin,
Carroll i Green, 2003; Hair, Anderson, Tatham i Black, 1998; Field, 2005; Cea D´Ancona, 2002). A
efectes pràctics, en la interpretació dels factors se suggereixen els dos passos següents:
0. Identificar les variables les correlacions de les quals amb el factor són les més elevades
en valor absolut.
1. Intentar donar un nom als factors. El nom ha d'assignar-se d'acord amb l'estructura de les
seves correlacions amb les variables. Si aquesta correlació és positiva (respectivament
negativa) la relació entre el factor i aquesta variable és directa (respectivament inversa).
Analitzant amb quines variables té una relació forta és possible, en molts casos, fer-se una
idea més o menys clara de quin és el significat d'un factor.
Una ajuda en la interpretació dels factors pot ser representar gràficament els resultats obtinguts
(Peña, 2002). La representació es fa prenent els factors dos a dos. Cada factor representa un eix
de coordenades. A aquests eixos se'ls denomina eixos factorials. Sobre aquests eixos es
projecten les variables originals. Les coordenades vénen donades pels respectius coeficients de
correlació entre la variable i el factor de manera que les variables saturades en un mateix factor
apareixen agrupades. Això pot ajudar a descobrir l'estructura latent d'aquest factor. Les variables
al final d'un eix són aquelles que tenen correlacions elevades només en aquest factor i, per tant,
ho descriuen. Les variables prop de l'origen tenen correlacions reduïdes en ambdós factors. Les
variables que no estan prop de cap dels eixos es relacionen amb ambdós factors.
Dues estratègies més poden ajudar a interpretar els factors: a) ordenar-los i b) eliminar les
càrregues baixes (Peña, 2002). Es pot ordenar la matriu factorial de tal forma que les variables
amb càrregues altes per al mateix factor apareguin juntes. L'eliminació de les càrregues factorials
baixes també facilita la interpretació dels resultats, al suprimir informació redundant. L'investigador
ha de decidir a partir de quin valor han d'eliminar-se les càrregues factorials. Ambdues possibilitats
poden utilitzar-se conjuntament de cara a una major facilitat interpretativa. En general, i com
consell, prendrem com significatives càrregues factorials superiors a 0.5 en valor absolut (Lattin,
Carroll i Green, 2003). No obstant això, conforme el factor és més tardà o el nombre de variables
és major elevarem el valor mínim de la càrrega factorial significativa.
6. Càlcul de puntuacions factorials
L'anàlisi factorial permet la identificació de factors i la seva interpretació, per descobrir variables
latents, però també és possible generar noves variables a partir de les denominades puntuacions
factorials (Field, 2005). Quan després d'interpretar la solució factorial s'extreuen un nombre
determinat de factors, aquests es poden convertir en noves variables en el fitxer o matriu de
E-Learning de les matemàtiques als IES de Catalunya
144
dades. Aquest procediment és particularment convenient quan l'anàlisi factorial es completarà amb
altres tècniques d'anàlisi, com l'anàlisi de regressió múltiple (Igartúa, 2006).
Mètodes de càlcul de les puntuacions : Existeixen diversos mètodes d'estimació de la matriu F.
Diversos autors (Lattin, Carroll i Green, 2003; Fiels, 2005, Igartúa, 2006) apunten a què les
propietats que seria desitjable complissin els factors estimats són:
• cada factor estimat tingui correlació alta amb el veritable factor.
• cada factor estimat tingui correlació nul·la amb els altres factors veritables.
• els factors estimats siguin incorrelacionats dos a dos, és a dir, mútuament ortogonals si són
ortogonals.
• els factors estimats siguin estimadors esbiaixats dels veritables factors.
No obstant això, per la pròpia naturalesa dels factors comuns, el problema de la seva estimació és
complex. Es pot demostrar que els factors no són, en general, combinació lineal de les variables
originals. A més, en la majoria de les situacions, no existirà una solució exacta ni tan sols serà única.
Tres dels mètodes d'estimació més utilitzats són els següents: Mètode de regressió, Mètode de
Bartlett i Mètode d´Anderson-Rubin .
El mètode de regressió dóna lloc a puntuacions amb màxima correlació amb les puntuacions teòriques.
No obstant això, l'estimador és esbiaixat, no unívoc i, en el cas que els factors siguin ortogonals, pot
donar lloc a puntuacions correlades.
El mètode de Bartlett dóna lloc a puntuacions correlades amb les puntuacions teòriques, no
esbiaixades i unívoques. No obstant això, en el cas que els factors siguin ortogonals, pot donar lloc a
puntuacions correlades.
El mètode d´Anderson-Rubin dóna lloc a puntuacions ortogonals que estan correlades amb les
puntuacions teòriques. No obstant això, l'estimador és esbiaxat i no és unívoc.
7. Validació del model
L'últim pas en l'anàlisi factorial és estudiar la validesa del model. Aquesta validació ha de fer-se en
dues adreces: analitzant la bondat d'ajust del mateix i la generabilitat de les seves conclusions
(Salvador i Gargallo, 2006).
Bondat d'ajust
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
145
Una suposició bàsica subjacent a l'anàlisi factorial és que la correlació observada entre les
variables pot atribuir-se a factors comuns. Per tant, les correlacions entre variables poden deduir-
se o reproduir-se a partir de les correlacions estimades entre les variables i els factors. A fi de
determinar l'ajust del model, poden estudiar-se les diferències entre les correlacions observades
(com es donen en la matriu de correlació d'entrada) i les correlacions reproduïdes (com s'estimen
a partir de la matriu factorial). Aquestes diferències es coneixen com residus. Salvador i Gargallo
(2006) defineixen que, si el model factorial és adequat, llavors aquests residus han de ser petits.
Per contra, si existeix un percentatge elevat de residus superiors a una quantitat petita prefixada
(per exemple, 0.05), això serà indicatiu que el model factorial estimat no s'ajusta a les dades. Se
sap a més que hi ha més estabilitat en els resultats si el nombre de casos per variable és alt.
Generalitat dels resultats
També és adequat confirmar els resultats de la primera anàlisi factorial realitzant noves anàlisis
factorials sobre noves mostres extretes de la població objecte d'estudi i, cas de no ser possible
això últim, sobre submostres de la mostra original (Salvador i Gargallo, 2006). En cada cas
s'estudiaria quins factors dels calculats són replicats en les diferents anàlisis portades a terme.
Altra possibilitat és realitzar noves anàlisis factorials modificant les variables considerades bé sigui
eliminant aquelles variables que no tenen relació amb cap factor o eliminant les variables amb
relacions més fortes tractant de descobrir com es comporta la resta d'elles sense la seva
presència.
L´anàlisi de grups (cluster analysis) és un conjunt de tècniques estadístiques que serveixen per
determinar grups internament homogenis, però diferents entre ells, bé per agrupació d´unitats més
petites o per divisió de segments majors (Lattin, Carroll i Green, 2003). Aquestes tècniques
classifiquen individus o objectes tenint en compte totes les variables de l´anàlisi, ssense referir-se
al comportament d´una variable criteri específica, com en l´anàlisi AID -Automatic Interaction
Detection- (Detecció Automàtica d´Interaccions). Per determinar la similitud entre objectes
existeixen diverses mesures de distància (Sokal, 1977), però una de les més utilitzades és la
distància euclídea. Les tècniques d´anàlisi de grups s´apliquen en investigació social i de mercats
per definir tipologies i identificar segments de mercat (Bedoya, Gutiérrez i Rico, 2006; Punj i
Stewart, 1983; Saunders, 1994).
Existeix una gran varietat de tècniques d'anàlisis de grups. Pot distingir-se entre les ascendents
(building up) que construeixen els grups per agregació, a partir dels individus considerats un a un, i
10. Anàlisi de grups o anàlisi cluster
E-Learning de les matemàtiques als IES de Catalunya
146
les descendents, que, al contrari de les anteriors, parteixen del conjunt total d'individus i ho
divideixen (breaking down) en grups més petits (Wind, 1978).
Dintre de les tècniques ascendents, cal destacar l'algorisme de Johnson (1967), que agrupa els
subjectes o objectes a partir de la matriu de distàncies euclidianes entre tots els parells d'ells.
L'agrupació s'efectua de forma seqüencial, de menor a major distància. Dintre de les tècniques
que segueixen l'enfocament de partició o descendents, cal citar l'algorisme de Howard-Harris, que
forma grups per divisió d'uns altres de grandària major, de manera també seqüencial, utilitzant el
criteri de la minimització de la variància intra-grups en cada nivell de la divisió (Lattin, Carroll i
Green, 2003).
També poden classificar-se els mètodes de cluster analysis en jeràrquics (els segments es formen
per agrupació o partició d'altres anteriors), no jeràrquics i mètodes basats en tècniques d'anàlisi
factorial. En aquest últim cas s'utilitza l'anàlisi de components principals o altres mètodes d'anàlisi
factorial per a trobar les dimensions subjacents en l'associació existent entre els individus (Lattin,
Carroll i Green, 2003). Els grups es determinen llavors de forma visual o bé d'acord amb els valors
obtinguts en els components o factors calculats (Green, Tull i Albaum, 1988).
La utilització del cluster analysis presenta alguns problemes, com són l'elecció de la mesura de
similitud, la determinació del nombre de grups o clusters a retenir (Arnold, 1979) i, en alguns
casos, l'elevat nombre d'operacions a realitzar (Funkhouser, 1983).
Encara que alguns algorismes de cluster analysis poden determinar els grups a partir de variables
no mètriques, la gran majoria requereixen variables mètriques. Les variables presents en aquest
treball són totes numèriques per la qual cosa aquest fet no suposa cap tipus de problema. A
continuació es presenten tres tipus de models que, a la vegada, són els més presents en els
paquets estadístics: l'ascendent, de Johnson; el descendent, de Howard-Harris; i el de
conglomerats de K-mitges.
L'algorisme de Johnson (1967) és una tècnica de cluster analysis ascendent i jeràrquica. Utilitza
com input la matriu de distàncies euclidianes entre tots els parells d'individus o objectes i els va
agrupant de forma seqüencial, segons la seva similitud o menor distància (Lattin, Carroll i Green,
2003).
La distància euclidiana és una mesura de la similitud o proximitat entre parells d'objectes, que sol
utilitzar-se en l'anàlisi de grups (Cea D´Ancona, 2002). Mesura la distància entre dos punts en un
10.1. Model ascendent (algorisme de Johnson)
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
147
espai geomètric d´n dimensions. Donats dos punts i i j, en un espai n-dimensional, la distància
entre ells, dij, es formula de la manera següent:
21
2
1
)(
−= ∑=
jk
n
kikij XXd
sent Xik y Xjk les projeccions dels punts i i j sobre la dimensió k (k = 1, 2, 3, ... n).
L'algorisme de Johnson inicia el procés d'agrupament considerant a cada subjecte o objecte com
un cluster. A continuació, pot seguir dos procediments bàsics d'encadenament dels elements: el
complet i el simple. Ambdós mètodes parteixen de la mateixa manera, buscant en la matriu de
distàncies entre tots els parells possibles dels n elements els dos més pròxims entre si (Lattin,
Carroll i Green, 2003). Aquest parell d'elements constituïx el primer cluster. El mètode
d'encadenament complet procedeix a continuació de la següent manera:
1. Cadascun dels n - 2 elements no agrupats és examinat com un candidat a unir-se al grup
inicialment format dels dos elements més pròxims. La mesura de la similitud entre els
candidats i el grup ve determinada per la major de les distàncies entre l'element candidat i
cadascun dels dos elements que formen el grup inicial.
2. Alternativament, es considera la formació d'un nou grup de dos elements entre els n - 2
elements no agrupats.
3. La decisió entre les dues alternatives s'efectua triant la menor de les dues distàncies
menors obtingudes en ambdós casos.
4. Aquest mateix procés es repeteix fins que tots els elements estan agrupats en un únic
grup.
5. En els processos d'agrupament posteriors al segon ha de considerar-se que un element
candidat a integrar-se en altre grup pot ser tant un subjecte o objecte individual com un
grup constituït per dos o més individus o objectes. En aquest últim cas, les distàncies
considerades són totes les possibles entre els integrants de cada grup, i es pren com
distància que representa la dissimilitud d'ambdós grups la major de totes elles.
El mètode d'encadenament simple és similar a l'anterior, amb la diferència de què es pren com
mesura representativa de la distància entre els elements candidats (individualment o formant ja
parteix d'un grup) i un grup anterior la menor de les distàncies entre els element de cada grup a
integrar-se i no la major, com es realitza en el mètode d'encadenament complet.
Un altre mètode d'encadenament que sol utilitzar-se és el de promig. En aquest mètode, com el
seu nom indica, es pren com mesura de distància entre els elements candidats i el grup
prèviament format per la mitjana aritmètica de les distàncies entre els elements d'un grup i els de
l'altre.
E-Learning de les matemàtiques als IES de Catalunya
148
Per representar gràficament en un cluster analysis el procés d'agrupament dels subjectes o
objectes, a diferents nivells de similitud entre ells, s'empra un tipus de gràfic que presenta la forma
d'arbre i es denomina dendrograma. Cada subjecte o objecte està representat inicialment per una
branca final. Les unions de les branques de l'arbre en altres intermèdies representen les distàncies
a les quals es produeix l'agrupament.
L'algorisme de Howard-Harris és un mètode utilitzat en l'anàlisi de grups per a generar clusters o
grups homogenis. L'algorisme de Howard-Harris és del tipus descendent (breaking down), és a dir,
que divideix seqüencialment la totalitat d'individus de la mostra (la qual constitueixen el grup
inicial) en un nombre cada vegada major de grups (2, 3, 4, 5, ...), de manera que es minimitzi la
variància intragrups i es maximitzi la variància intergrups de les variables considerades.
A diferència de l'algorisme de Johnson, el de Howard-Harris pot aplicar-se a grans mostres i és
especialment indicat quan es disposa d'elles (Field, 2005). És per aquest motiu que serà l'utilitzat
en la present investigació.
En el procés de formació dels grups, l'algorisme comença per localitzar la variable que té major
variància (o desviació estàndard) i assigna els individus que estan per sobre del valor mig
d'aquesta variable a un cluster, i els quals estan per sota, a un altre. A continuació comprova, al
llarg d'un nombre especificat d'iteracions, que cada individu estigui inclòs en el grup amb el qual és
més afí (d'acord amb el perfil de totes les variables).
Aquesta comprovació s'efectua calculant la distància euclidiana de l'individu pel que fa als valors
mitjos del grup i assignant-lo al més pròxim, que pot ser diferent del grup al qual pertany
provisionalment, produint-se llavors una reassignació. Quan aquest procés finalitza, s'han generat
els dos primers grups. A continuació, per a procedir a crear un nou grup, l'algorisme selecciona
entre els dos formats anteriorment el que té major suma de quadrats (suma de quadrats de les
desviacions dels valors de les variables en els individus del grup pel que fa als valors mitjos del
grup). Dintre del grup seleccionat, localitza la variable amb major variància i divideix el grup en
dos, de forma igual a la descrita al principi, és a dir, separant els que estan per sobre dels que
estan per sota de la mitjana en la variable amb major variància. Amb els tres grups resultants,
realitza el mateix procés de comprovació i reassignació abans indicat fins que no es produeix cap
canvi de grup o conclou el nombre d'iteracions especificat. A continuació, per a formar quatre
grups, torna a generar un nou cluster de la mateixa manera que s'ha indicat anteriorment, i així
successivament.
10.2. Model descendent (algorisme de Howard-Harris)
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
149
El procés de divisió dels grups acaba quan s'ha arribat a el nombre de grups desitjat o la grandària
de tots ells està per sota d'un mínim especificat o ja no s'aconsegueix una reducció significativa en
la suma total de quadrats.
L'algorisme de Howard-Harris requereix un nombre elevat d'operacions, per la qual cosa un canvi
en la precisió numèrica de l'ordinador pot donar lloc a la formació de diferents grup (Funkhouser,
1983).
L'anàlisi de conglomerats de k-mitges, igual que altres tècniques d'anàlisis de grups, tracta
d'identificar grups de casos homogenis (individus o objectes) que tinguin comportaments,
característiques o atributs similars.
L'objectiu de l'algorisme és obtenir k grups de manera que es minimitzi la suma de quadrats
intragrupos (suma dels quadrats de les diferències entre els valors de les variables observades en
cada individu de la mostra respecte dels valors mitjos del grup al que pertany). Cada individu és
assignat inicialment al grup amb el qual presenta menor distància (mesura per la distància
euclidiana als valors mitjos del grup). L'assignació de cada individu es modifica i se l´integra en un
altre grup si amb això s'aconsegueix una reducció en la suma de quadrats intragrups. Cada
vegada que es reassigna un individu a un altre grup es calculen de nou les mitjanes del grup en
totes les variables seleccionades. Les reassignacions finalitzen quan ja no es produeix cap
transferència entre grups o s'ha arribat a el nombre màxim d'iteracions permeses (Hartigan, 1975;
Hartigan i Wong, 1979).
L'algorisme de k-mitges es diferencia dels altres dos (algorismes de Johnson i de Howard-Harris)
en què la selecció dels grups inicials no és efectuada de forma sistemàtica pel programa, sinó que
han d'especificar-se per l'usuari les característiques dels components dels grups inicials.
En aquest capítol hem vist com els mètodes multivariants són la solució per a l´anàlisi global de les
dades. A més a més de l´anàlisi estadística básica, hem comprovat que l'anàlisi factorial és una
tècnica estadística multivariant la finalitat de la qual és analitzar les relacions d'interdependència
existents entre un conjunt de variables, calculant un conjunt de variables latents, denominades
factors, que expliquen amb un nombre menor de dimensions, aquestes relacions. Per aquesta raó
11. Conclusions
10.3. Model de conglomerats de k-mitges
E-Learning de les matemàtiques als IES de Catalunya
150
l'anàlisi factorial és una tècnica de reducció de dades que permet expressar la informació
continguda en un conjunt de dades amb un nombre menor de variables sense distorsionar aquesta
informació, la qual cosa augmenta el grau de manegabilitat i intel·ligibilitat de la mateixa. Per la
seva banda, l´anàlisi cluster és un conjunt de tècniques i algorismes la principal utilitat dels quals
és determinar grups internament homogenis, però diferents entre ells .
En aquesta lliçó hem estudiat què és i com portar a terme una anàlisi factorial i un anàlisi cluster
sobre un conjunt de dades quantitatives, la il·lustració dels passos a seguir amb l'anàlisi d'un cas
real es farà al proper capítol amb les dades recollides a l´enquesta de la investigació.
Convé insistir, finalment, en la importància que té realitzar un bon plantejament del problema pel
que fa a la selecció de les variables a analitzar. És molt convenient tenir un coneixement previ de
quins factors volem mesurar i triar les variables d'acord amb els mateixos. Actuant d'aquesta
manera l'anàlisi guanya en potència i generalitat augmentant significativament el grau de
intel·ligibilitat dels resultats obtinguts.
• Abascal, E. i Grande, I. (2005): Análisis de encuestas. Madrid. ESIC.
• Arnold, S. (1979): “A test for clusters”. En Journal of Marketing Research. XVI, 4,
novembre, Michigan. Ann Arbor. • Bedoya, E., Gutiérrez, J. i Rico, L. (2006): “Evaluación de actitudes hacia la integración de
calculadoras gráficas en el currículum de Educación Secundaria”. En Teoría de la Educación. Educación y Cultura en la Sociedad de la Información. Núm 7 (1) Universidad de Salamanca. http://www.usal.es/~teoriaeducacion
• Bisquerra, R. (1989): Introducción conceptual al análisis multivariable. Barcelona. PPU.
• Burns, A. i Bush, R. (2000): Marketing Researh. New Jersey, USA. Prentice Hall. • Cea D´Ancona, M.A. (2002): Análisis multivariable. Teoría y práctica en la investigación
social. Madrid. Síntesis.
• Cohen, L., Manion, L. i Morrison, K. (2007): Research Methods in Education. New York, Routledge.
• Curts, J. i Tanguma, J. (2007): “Preservice Teachers’ Technology Competence Survey
Skills Applying Technology in Educational Settings: An Exploratory Factor Analysis”. En C. Crawford et al. (Eds.): Proceedings of Society for Information Technology and Teacher Education International Conference 2007 (pp. 2980-2984). Chesapeake, VA: AACE.
• De Leeuw, E. D. (2001): “Reducing missing data in surveys: An overview of methods”. En
Quality and Quantity (Springer), nº35, num. 2, pp. 147-160.
Bibliografía
Cap. 5: Models quantitatius multivariants per a l´anàlisi de dades
151
• De Vicente, M.A. i Manera, J. (2003): “El análisis factorial y por componentes principales” en Lévy, J.P. i Varela, J. (eds.): Análisis multivariable para las ciencias sociales. Madrid. Pearson-Prentice Hall, pp. 327-360
• Field, A. (2005): Discovering Statistics using SPSS. CA, USA. Sage Publications.. • Foster, J.J. (2001): Data analysis using SPSS for Windows versión 8 to 10. Londres. Sage.
• Franquet, J.M. (2008): El estudio operativo de la psicología. Una aproximación
matemática. UNED. Cooperativa Gráfica Dertosense.
• Funkhouser, G. R. (1983): “A Note on the Relability of Certain Clustering Algorithms”. En Journal of Marketing Research, XX, 1, febrer, pp. 99-102.
• Grangé, D. i Lebart, L. (1994): Traitments Statistiques des Enquêtes. Paris. Dunod.
• Green, P., Tull, D. i Albaum, G. (1988): Research for Marketing Decissions, 5a ed., Nova
Jersey, Prentice-Hall. • Gremigni, P., Sommaruga, M. I Peltenburg, M. (2008): “Validation of the Health Care
Communication Questionnaire (HCCQ) to measure outpatients’ experience of communication with hospital staff”. En Patient Education and Counseling. Volume 71, Issue 1, April 2008, pp. 57-64
• Hair, J., Anderson, R., Tatham, R. I Black, W. (1998): Multivariate Data Analysis.
Singapore. Pearson Education • Han, J. i Kamber, M. (2007): Data Mining. San Francisco, USA. Elsevier Inc.
• Hartigan, J.A. (1975): Clustering Algorithms. Nova York. John Wiley & Sons.
• Hartigan, J.A. i Wong, M.A. (1979): “A k-means clustering algorithm”. En Applied Statistics,
28, pp. 100-108. • Igartúa, J.J. (2006): Métodos cuantitativos de investigación en comunicación. Barcelona.
Bosch.
• Knapp, T. R. (1970): “N vs. N-1” en American Educational Research Journal, núm. 7, pp. 625-626.
• Lattin, J.M., Carroll, J. D. i Green, P.E. (2003): Analyzing Multivariate Data. USA.
Brooks/Cole. • Lévy, J.P. (2003): “Modelización y análisis con ecuaiones estructurales” en Lévy, J.P. i
Varela, J. (eds.): Análisis multivariable para las ciencias sociales. Madrid. Pearson-Prentice Hall, pp. 767-814.
• Marín Diazareque, J.M. (2006): Análisis Multivariante. Madrid. Ediciones de la Universidad
Carlos III.
• Peña, D. (2002): Análisis de datos multivariantes. Madrid. Mc Graw-Hill.
• Pérez, C. (2006): Técnicas de Análisis Multivariante de Datos. Madrid. Pearson Educación.
• Punj, G. i Stewart, D. (1983): “Cluster Analysis in Marketing Research: Review and
Suggestions for Application”, Journal of Marketing Research, XX, 2, maig, pp. 134-148.
E-Learning de les matemàtiques als IES de Catalunya
152
• Salvador, M. i Gargallo, P. (2006): Análisis Factorial. Ediciones de la Universidad de Zaragoza.
• Sánchez Carrión, J.J. (1995): Manual de análisi de datos. Madrid. Alianza.
• Saunders, J. (1994): “Cluster Analysis” en Hooley, G.J. i Hussey, M.K., Quantitative
Methods in Marketing, Londres, Academic Press.
• Sokal, R. (1977): “Clustering and Classification: Background and Current Directions”, en Van Ryzin, R, Classification and Clustering, Nova York, Academic Press.
• Stevens, J. (1992): Applied multivariate statistics for the social sciences. Hillsdale, NJ,
Lawrence Erlbaum Associates. • Tacq, J. (1997): Multivariate analysis techniques in social science research. From problem
to analysis. Londres. Sage.
• Vogt, W. P. (2007): Quantitative research methods for professionals. Boston, MA. Pearson Education.
• Wimmer, R.D. i Dominick, J.R. (1996): La investigación científica de los medios de
comunicación. Una introducción a sus métodos. Barcelona. Bosch.
• Wind, Y. (1978): “Issues and Advances in Segmentation Research”, Journal of Marketing Research, XV, 3, agost, p. 31.
• Zambrano Guzmán, R., Meda, R. M. i Lara, B. (2005): “Evaluación de profesores
universitarios por parte de los alumnos mediante el Cuestionario de Evaluación de Desempeño Docente (CEDED)” En Revista de Educación y Desarrollo, núm. 4. Universidad de Guadalajara.