Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos...

15
Opcions Imprimir Recomanar Citació Estadístiques Metadades Similars textos universitaris de biblioteconomia i documentació número 27 desembre de 2011 ISSN 1575-5886 DL B-19.675-1998 Facultat de Biblioteconomia i Documentació Universitat de Barcelona inici presentació instruccions autors subscripció altres números cerca blok Captar les relacions que hi ha en les descripcions d'imatges: una investigació preliminar [ English version ] ALLEN C. BENSON, PH.D. Director de la Biblioteca i Professor U. S. Naval War College [email protected] Resum [ Abstract] Objectius. Les relacions tenen uns efectes notables, però mal entesos, sobre com es representen, s'estructuren i es processen els objectes d'informació en ambients computacionals. Aquest article presenta una investigació preliminar i un enfocament innovador sobre el problema de les relacions en el context del discurs arxivístic. Metodologia. S'examina com les eines ontològiques i tècniques d'anàlisi de continguts poden ser adaptades i millorades per ajudar els investigadors a identificar, captar i classificar les relacions expressades en les descripcions d'imatges. S'ofereix una visió addicional a partir de l'examen de les relacions des del punt de vista de tres contextos de descripció diferents: cercadors d'imatges, conservadors i catalogadors. S'analitza la naturalesa de les dades de la mostra, incloent-hi com es validen i com se'n determina la fiabilitat. Resultats. Es tenen en compte les limitacions d'investigacions anteriors sobre relacions i s'introdueix una metodologia nova dissenyada per ajudar els investigadors a predir amb eficàcia les relacions que ocorren en les descripcions textuals. 1 Introducció Aquest document presenta una investigació preliminar portada a terme com a part de la tesi doctoral de l'autor sobre el problema de les relacions. Es tracta d'un estudi de viabilitat dissenyat per avaluar els beneficis i les dificultats de l'ús de tècniques d'anàlisi de continguts i d'eines ontològiques per recollir exemples de relacions i després classificar-los en famílies de tipus de relacions. Les relacions són associacions entre dues o més entitats o classes d'entitats (Green, 2001, p. 3). Són la cola que manté units els conceptes i els significats de les paraules. Tot i que les relacions tenen un paper important en la manera com els éssers humans expressen les seves idees, se sap molt poc sobre com cal recollir, representar, estructurar i processar eficaçment la informació sobre les relacions en contextos computacionals. Per tant, és raonable, en aquest moment, formular algun tipus de metodologia per descobrir i estructurar la informació sobre les relacions, sobretot si tenim en compte que cada cop es confia més en les màquines perquè llegeixin quantitats ingents d'informació mesurada en termes d'exabytes i zettabytes i hi donin sentit com si fossin éssers humans. Aquest document s'adreça a dues audiències àmplies. En primer lloc, s'introdueixen les eines i una metodologia per a investigadors en biblioteconomia i documentació que estudiïn el problema de les relacions en les descripcions d'imatges. Tot i que el mètode aplicat no intenta implementar computacionalment cap tipus nou de maquinària descriptiva, proporciona el marc per construir un corpus de dades de tipus i d'exemples de relacions que condueix, d'una manera natural, al pas

Transcript of Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos...

Page 1: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

Opcions

Imprimir Recomanar Citacioacute Estadiacutestiques Metadades Similars

textos universitaris debiblioteconomia i documentacioacute

nuacutemero 27desembre de 2011

ISSN 1575 - 5886DL B - 19675 - 1998

Facultat de Biblioteconomia i Documentacioacute Universitat de Barcelona

inici bull presentacioacute bull instruccions autors bull subscripcioacute bull altres nuacutemeros bull cerca bull blok

Captar les relacions que hi ha en les descripcionsdimatges una investigacioacute preliminar[English version]

ALLEN C BENSON PHDDirector de la Biblioteca i ProfessorU S Naval War Collegeallenbensonusnwcedu

Resum [Abstract]

Objectius Les relacions tenen uns efectes notables perograve mal entesos sobre com es representensestructuren i es processen els objectes dinformacioacute en ambients computacionals Aquest article presentauna investigacioacute preliminar i un enfocament innovador sobre el problema de les relacions en el context deldiscurs arxiviacutestic

Metodologia Sexamina com les eines ontologravegiques i tegravecniques danagravelisi de continguts poden seradaptades i millorades per ajudar els investigadors a identificar captar i classificar les relacionsexpressades en les descripcions dimatges Sofereix una visioacute addicional a partir de lexamen de lesrelacions des del punt de vista de tres contextos de descripcioacute diferents cercadors dimatgesconservadors i catalogadors Sanalitza la naturalesa de les dades de la mostra incloent-hi com esvaliden i com sen determina la fiabilitat

Resultats Es tenen en compte les limitacions dinvestigacions anteriors sobre relacions i sintrodueix unametodologia nova dissenyada per ajudar els investigadors a predir amb eficagravecia les relacions que ocorrenen les descripcions textuals

1 Introduccioacute

Aquest document presenta una investigacioacute preliminar portada a terme com a part de la tesidoctoral de lautor sobre el problema de les relacions Es tracta dun estudi de viabilitat dissenyatper avaluar els beneficis i les dificultats de luacutes de tegravecniques danagravelisi de continguts i deinesontologravegiques per recollir exemples de relacions i despreacutes classificar-los en famiacutelies de tipus derelacions

Les relacions soacuten associacions entre dues o meacutes entitats o classes dentitats (Green 2001 p 3)Soacuten la cola que manteacute units els conceptes i els significats de les paraules Tot i que les relacionstenen un paper important en la manera com els eacutessers humans expressen les seves idees se sapmolt poc sobre com cal recollir representar estructurar i processar eficaccedilment la informacioacute sobreles relacions en contextos computacionals Per tant eacutes raonable en aquest moment formularalgun tipus de metodologia per descobrir i estructurar la informacioacute sobre les relacions sobretot sitenim en compte que cada cop es confia meacutes en les magravequines perquegrave llegeixin quantitats ingentsdinformacioacute mesurada en termes dexabytes i zettabytes i hi donin sentit com si fossin eacutessershumans

Aquest document sadreccedila a dues audiegravencies agravemplies En primer lloc sintrodueixen les eines i unametodologia per a investigadors en biblioteconomia i documentacioacute que estudiiumln el problema de lesrelacions en les descripcions dimatges Tot i que el megravetode aplicat no intenta implementarcomputacionalment cap tipus nou de maquinagraveria descriptiva proporciona el marc per construir uncorpus de dades de tipus i dexemples de relacions que condueix duna manera natural al pas

seguumlent possible una representacioacute basada en ontologies de continguts dimatges en sistemesbasats en el coneixement En segon lloc la metodologia que es descriu es pot adaptar a altresagraverees problemagravetiques relacionades amb la comprensioacute del llenguatge natural i la representacioacutebasada en ontologies Aquestes agraverees podrien ser des duna descripcioacute arxiviacutestica general fins aagravembits meacutes confusos com ara les cultures que creuen en deacuteus del Sol Sigui quin sigui el casaquest document emfatitza la utilitat de fer servir investigacions preliminars per solucionar elsinnombrables problemes en lenfocament analiacutetic de continguts abans de comenccedilar el cos principalde la recerca

Aquest document consta de set apartats que segueixen aquesta introduccioacute En el primer shiestudien les limitacions dinvestigacions pregravevies sobre relacions en la bibliografia de biblioteconomiai documentacioacute Els apartat seguumlents expliquen la mostra de dades i la metodologia de lainvestigacioacute aplicada i la construccioacute dun corpus de relacions Lapartat 6 descriu com es validenles dades i com sen determina la fiabilitat i lapartat 7 presenta conclusions i limitacionsinteressants de lestudi Finalment en lapartat 8 es presenten les conclusions finals

2 Esforccedilos previs

En aquest apartat sexposa la interessant activitat intelmiddotlectual evident en la bibliografia debiblioteconomia i documentacioacute que tracta de les relacions i el paper que tenen en lorganitzacioacute dela informacioacute especialment la informacioacute visual expressada en les descripcions dimatges Hi hamolta bibliografia dedicada a anomenar i classificar atributs i primitius visuals perograve molt pocsestudis empiacuterics intenten explicar les relacions existents en les descripcions dimatges de maneraque el potencial de les contribucions de la biblioteconomia i la documentacioacute a aquest debat podriaser considerable

La bibliografia meacutes primerenca daquesta revisioacute bibliogragravefica demostra que les relacions i la sevaclassificacioacute soacuten importants per crear associacions entre els documents i els conceptes dins delsdocuments A partir de la degravecada de 1980 Farradane (1980 a i 1980 b ) va presentar un esquemaque consta de nou categories de relacions que saplica a lanagravelisi de documents textuals Tot i quedibuixava distincions importants entre els conceptes i les relacions en general no feia una distincioacuteclara entre els problemes de processament del llenguatge natural i la nocioacute de representacioacutesimbogravelica Aixograve va donar lloc a problemes en la seva anagravelisi respecte de com calia representar lesambiguumlitats dels termes per exemple els muacuteltiples significats de la preposicioacute anglesa of

El passat ha estat testimoni de molts estudis sobre el problema de les relacions amb relacioacute a lesentitats externes a la semagraventica del contingut del document Shatford Layne va estudiar lesrelacions que hi ha entre els objectes en imatges en diferents formats i entre les imatges i elsdocuments textuals relacionats Alguns exemples inclouen les relacions entre les fotografiesdedificis els plagravenols arquitectogravenics corresponents i les biografies dels arquitectes (Shatford 1986Shatford 1994) Enser i McGregor (1993) van ser els primers investigadors a prestar latencioacutemerescuda a les descripcions dimatges tal com les expressa linvestigador dimatges El seu interegravespel problema de les relacions perograve se circumscriu a les relacions entre els tipus dusuaris i lesrelacions entre les categories generals dimatges que van definir com a uacuteniques i no uacuteniques

Keister (1994) va fer lobservacioacute criacutetica que les descripcions dimatges riques semagraventicament quees troben en les consultes dels cercadors dimatges com ara lhome assegut a la cadira amb lacapsa al cap no podien ser representades eficaccedilment pels catalogadors que usen sistemesdindexacioacute basats en paraules Aquesta investigadora no va oferir solucions immediates a aquestaquumlestioacute perograve les seves observacions suggereixen de manera evident que el problema de lesrelacions fa referegravencia en part a representacions i processos eacutes a dir com podrien elscatalogadors representar expressions semagraventicament riques en sistemes dinformacioacute de maneraque els investigadors poguessin trobar les imatges que volen Malgrat aquestes revelacions elsinvestigadors van continuar considerant el paper de les relacions dins de lestructura sintagravectica deloracioacute i van intentar recollir aquest significat en els sistemes dindexacioacute

Es va produir un canvi important en el pensament quan Svenonius (2000) va plantejar la ideadutilitzar les relacions per raonar els conceptes Aquesta investigadora es va imaginar magravequinescapaces de llegir documents i determinar categories temagravetiques (Svenonius 2000 p 49) Green(1996) i Bean i Green (2001) van compartir punts de vista similars i van comenccedilar a explorar comel raonament sobre les relacions podria millorar el proceacutes de descobriment i permetre als usuarisdescobrir informacioacute que altrament passaria desapercebuda Tanmateix Green va argumentar queel nombre i la complexitat dels tipus de relacions feia impracticable aquesta tasca i esperava que

professionals de la informacioacute poguessin aplicar duna manera coherent i eficaccedil relacions ensistemes dinformacioacute Aquest estudi i altres de posteriors confirmen aquesta opinioacute

En resum la veritat eacutes que se sap poc sobre la naturalesa i labast de les relacions expressades encontextos de descripcioacute recerca i recuperacioacute dimatges o sobre els problemes intelmiddotlectuals quecomporten aquestes activitats Sembla probable que una comprensioacute completa de les relacionsrepresentades en descripcions dimatges hauragrave dincloure les activitats de catalogadors cercadorsdimatges i conservadors situats en lentorn social dels arxius Els objectius de la investigacioacutepreliminar per tant se centren a desenvolupar un megravetode per predir ocurregravencies de relacions irepresentar-les duna manera que comporti efectivament que es poden representar en un entorn demagravequina

3 Mostra de dades

Les dades utilitzades en aquest estudi consisteixen en descripcions textuals dimatges obtingudesdels arxius de correspondegravencia de la Pittsburgh Photographic Library (PPL) La PPL es va crear el1950 a la University of Pittsburgh La seva missioacute principal ha estat la mateixa en els uacuteltims anysoferir als investigadors fotografies perquegrave les facin servir en articles de diaris i revistes xerradesfullets i altres publicacions que promoguin la histograveria i la cultura de Pittsburgh El 1961 la colmiddotleccioacutees va traslladar de la universitat a la seva seu actual la Carnegie Library of Pittsburgh El marccedil de2000 el fons total estimat de la biblioteca ascendia a 57008 cogravepies 58292 negatius 1234diapositives 310 plaques de llanterna magravegica i 13000 contactes fotogragravefics (PittsburghPhotographic 2000)

La Pittsburgh Photographic Library manteacute un arxiu de correspondegravencia en paper que data de 1963que conteacute 1673 documents Dins daquest conjunt hi ha un total de 180 documents relacionatsespeciacuteficament a solmiddotlicituds de fotografies que formen el corpus de dades daquest estudi Es vaseleccionar una mostra aleatograveria de 45 casos per analitzar-los Sen van fer servir 9 en lainvestigacioacute preliminar La resta 36 casos sanalitzen en la tesi de lautor

Examinar tota la quumlestioacute de les relacions a mesura que sexpressen naturalment en lestransaccions de referegravencies requereix que els liacutemits entre el contingut de les imatges i el llenguatgees vegi amb claredat En primer lloc la persona que busca una imatge presenta una consulta enquegrave descriu imatges conegudes desconegudes a vegades i possiblement que no existeixen Senpresenta una mostra en la figura 1

Figura 1 Correspondegravencia de la mostra dun investigador visual que solmiddotlicita fotografies a la Pittsburgh PhotographicLibrary

En segon lloc els conservadors exerceixen el paper de mediadors descrivint i interpretant elcontingut de les imatges durant el proceacutes de mediacioacute La figura 2 ilmiddotlustra un exemple de lacorrespondegravencia en quegrave el conservador ha de determinar el punt de vista dun fotogravegraf colmiddotlocantuna cagravemera a lescenari que vegi el puacuteblic des de lescenari

Figura 2 Correspondegravencia de mostra del conservador de la Pittsburgh Photographic Library en resposta a laconsulta de la persona que busca imatges

Finalment hi ha el catalogador la funcioacute del qual eacutes descriure les fotografies en els registres delcatagraveleg que soacuten consultats durant la recerca i la recuperacioacute del conservador i cercador dimatgesLes descripcions dels catalogadors com ara la que acompanya el contacte fotogragravefic en la figura 3no nomeacutes tenen dimensions interpretatives i estegravetiques Tambeacute tenen significats complementats enpart per normes de descripcioacute i procediments de processament locals

Figura 3 Lou Malkin Carnegie Library Directors Office 17 de desembre de 1973 Del catagraveleg de fotografies de laPittsburgh Photographic Library (Reproduiumlt amb permiacutes) Carnegie Library of Pittsburgh Tots els drets reservats

Estan prohibits la reproduccioacute o luacutes no autoritzats

La intencioacute de la investigacioacute preliminar no era necessagraveriament analitzar com aquests grupsdescriuen les relacions de maneres diferents encara que aquesta anagravelisi es va dur a terme dunamanera limitada durant la investigacioacute de la tesi Meacutes aviat la intencioacute era provar la viabilitatdaplicar lanagravelisi de continguts i lanagravelisi ontologravegica a muacuteltiples contextos dins dun agravembit Lapartat 3explica en part com linvestigador ho va dur a terme en lespai discursiu dels arxius Lenfocamentestagrave motivat per la creenccedila que la descripcioacute no eacutes un acte solitari sinoacute el resultat de pragravectiquessocials Animem els investigadors que estudiiumln altres agravembits problemagravetics a codificar i analitzar elsseus conjunts de dades en dimensions semblants muacuteltiples a partir de diferents marcs dereferegravencia

4 Metodologia de recerca

Lobjectiu fonamental de la investigacioacute era determinar els beneficis i les dificultats de luacutes detegravecniques danagravelisi de continguts i eines ontologravegiques per dur a terme la investigacioacute sobrerelacions Els objectius de lestudi eren tres 1) desenvolupar i perfeccionar un llibre de codis iformularis per recollir les relacions que ocorren en les descripcions en llenguatge natural 2)perfeccionar luacutes deines i de megravetodes ontologravegics per predir exemples de relacions i organitzar-losen famiacutelies de tipus de relacions i 3) provar la fiabilitat dins de la codificacioacute i la validesa delinstrument

Perquegrave fossin uacutetils en aquesta investigacioacute les eines danagravelisi de continguts i ontologravegiques es vanhaver de perfeccionar per a tasques especiacutefiques i adaptar als problemes particulars sobretot en elcas de lontologia Si lontologia en el sentit modern sha de convertir en una eina uacutetil enbiblioteconomia i documentacioacute necessita un problema pragravectic i especiacutefic per intentar resoldrel

La figura 4 mostra lenfocament metodologravegic desenvolupat durant la investigacioacute preliminar i la tesiposterior Els primers problemes que calia superar es mostren al principi del cicle de treball en eldiagrama El primer desafiament eacutes com sha de fonamentar empiacutericament la identificacioacute i capturade les relacions en les descripcions en llenguatge natural i despreacutes formalitzar-les en un llenguatgedordre superior perquegrave puguin ser utilitzades com a eines per respondre a les preguntesimportants de recerca La solucioacute eacutes comenccedilar amb lanagravelisi de continguts com una forma danagravelisidel llenguatge natural en unitats cada vegada meacutes petites fins a arribar al cor de la relacioacute idespreacutes recollir aquestes conclusions en un corpus de relacions previstes

Figura 4 Arquitectura del corpus i de la creacioacute dontologies

Linvestigador comenccedila utilitzant lanagravelisi de continguts per analitzar el llenguatge natural enproposicions meacutes formals Krippendorff (2004) defineix lanagravelisi de continguts com a researchtechnique for making replicable and valid inferences from texts (or other meaningful matter) to thecontexts of their use (p 18) Sutilitzen instruccions de codificacioacute i formularis danagravelisi decontinguts per codificar les dades de la mostra tant en la investigacioacute preliminar com en la tesi Lafigura 5 mostra un extracte de les instruccions de codificacioacute de relacions temporals

Figura 5 Una part de les instruccions de codificacioacute que ilmiddotlustra com es codifiquen les relacions temporals

Els formularis de codificacioacute es reuneixen en un corpus Un corpus mdashque eacutes essencialment unllibre de fulls de cagravelcul de mida tabloidemdash recull i registra els resultats de les anagravelisis delscontinguts En lapartat 6 es presenta una descripcioacute meacutes detallada del corpus

Una bateria deines ontologravegiques ofereix definicions formals i semiformals que ajuden a predir iclassificar exemples de relacions Algunes de les eines principals utilitzades per a lanagravelisiontologravegica dels tipus de relacions inclouen lanagravelisi de Cooper de les preposicions angleseslocatives (1968) lanagravelisi de Veda Storey de relacions de cas (1993) la biblioteca de relacionsdinclusioacute de classe dIDEF5 (Perakath 1994) la taxonomia de Winston Chaffin i Herrmann de lesrelacions part-tot (1987) lanagravelisi ontologravegica de relacions de Wand Storey i Weber (1999) irelacions de cas de Sowa (2000) Aquests recursos tenen un paper important en la construccioacute delentorn en quegrave es porta a terme lanagravelisi Ajuden a explicar com es determinen les relacions dacordamb paraules clau que sutilitzen per inferir les relacions

Lanagravelisi ontologravegica contribueix a determinar la categoria de relacions a quegrave pertany un exempleparticular Durant la codificacioacute i lanagravelisi de continguts de lestudi preliminar es van aplicar a prioriset tipus de relacions

1 Atribucioacute2 Cas3 Inclusioacute4 Metoniacutemia5 Espacial6 Sinoniacutemia7 Temporal

Tot i que estagrave fora de labast daquest document presentar els resultats de la tesi eacutes convenientassenyalar que durant lanagravelisi posterior es van afegir algunes categories a la llista i sen van treuredaltres La categoria de sinoniacutemia va desaparegraveixer Tot i que els sinogravenims soacuten relacions importantsper al processament del llenguatge natural i de components legravexics semagraventics no tenen lloc enontologies en quegrave els conceptes no han de ser ambigus La inclusioacute tambeacute va desaparegraveixer Encaraque el paper de la inclusioacute de classes en una ontologia eacutes fonamental per construir taxonomies(subtipus estagravendard i relacions de supertipus) lanagravelisi de les dades va demostrar que les relacionsdinclusioacute de classe no soacuten un fenomen expliacutecit en les descripcions dimatges Es va afegir el tipusde relacioacute dexemple per representar les relacions que associen exemples amb classes Finalmentes va descobrir que les relacions de parentiu es produeixen sovint en lagravembit de les descripcionsdimatges de manera que el parentiu es va afegir a la llista com una nova categoria de tipus derelacions

El proceacutes de descobriment de relacions que es mostra en la figura 4 eacutes circular perquegrave la realitateacutes complicada De vegades una formalitzacioacute no eacutes clara o no hi ha una regla que expliqui el tipusde relacioacute que sorgeix Daltres la relacioacute no eacutes prototiacutepica i en aquest cas linvestigador o beacuteassigna una relacioacute a una categoria sabent perfectament beacute que els atributs assignats a lacategoria no sapliquen en tots els casos o beacute crea una particioacute meacutes niacutetida que permeti entendreels casos liacutemit Al final linvestigador aconsegueix una ontologia de tipus de relacions

En resum selabora un conjunt bagravesic deines i sadapta a la investigacioacute sistemagravetica del problemade les relacions Aquestes inclouen lanagravelisi de continguts que sutilitza per analitzar el llenguatgenatural en afirmacions factuals meacutes formals un corpus que organitza i estructura lagravembit dinteregraves iuna bateria deines ontologravegiques que sutilitzen per analitzar i determinar els tipus de relacions

5 Construccioacute del corpus

En aquest apartat sexplica amb meacutes detall la naturalesa i el propogravesit dun corpus Un corpuslinguumliacutestic es defineix com the body of written or spoken material upon which linguistic analysis isbased (Oxford English dictionary online marccedil de 2011) El corpus recopilat en aquest estudi estagravedissenyat per a un propogravesit molt concret ajudar en lanagravelisi de les relacions expressades com apart del discurs en la PPL El corpus es crea manualment i funciona a traveacutes de tres etapesdanagravelisi

Primera etapa En la primera etapa danagravelisi es fa una lectura acurada de tot el contingut delincident Es determina quina part del text descriu el contingut de la imatge i despreacutes es grava comuna unitat semagraventica i shi assigna un nuacutemero dunitat semagraventica

Segona etapa La segona etapa de lanagravelisi consisteix a analitzar la unitat semagraventica en lesafirmacions factuals que representen les relacions Saplica una notacioacute especial anomenada prefixde notacioacute que estableix el terme de relacioacute al davant de manera que es pot veure fagravecilmentLlavors els arguments de relacioacute es colmiddotloquen entre paregraventesis separats per comes La figura 6 eacutesun extracte del corpus de relacions Ilmiddotlustra les unitats semagraventiques de la mostra juntament ambles afirmacions factuals corresponents

Figura 6 Mostra del corpus de relacions que ilmiddotlustra les unitats semagraventiques originals de la correspondegravencia delcercador dimatges (columna 5) i les afirmacions factuals que es van analitzar a partir del llenguatge natural original

(columna 8)

Tercera etapa La tercera i uacuteltima etapa danagravelisi en el corpus de relacions consisteix a analitzarles afirmacions factuals per determinar quins tipus de relacions hi soacuten presents i quins soacuten els seuscomponents (temes objectes de referegravencia llocs camins subjectes unitats temporals i aixiacutesuccessivament)

Sestudia el Corpus theoretical paradox de Schmied (1990) adoptant un enfocament basat enprocessos ciacuteclics En general la paradoxa de Schmied eacutes un dilema del tipus lou o la gallina Elcorpus de relacions resultant daquesta investigacioacute hauria de ser representatiu de la llenguautilitzada en els arxius fotogragravefics El problema perograve eacutes que per dur a terme aquesta tascalinvestigador ha de determinar aquestes variables empiacutericament per mitjagrave de lanagravelisi de resultatsdun corpus representatiu Aixiacute doncs les preguntes soacuten per on comenccedilar i quan parar

El megravetode per fer front a aquesta paradoxa adopta el punt de vista de Biber (1993 p 256) segonsel qual el disseny de corpus eacutes un proceacutes ciacuteclic Lestudi actual es va iniciar amb una investigacioacutepreliminar Durant lestudi pilot es van documentar les millores ciacutecliques i es va ampliar iperfeccionar labast de les variables fins que no es van poder detectar varietats addicionals Elscriteris de detencioacute segons el que descriuen Bauer i Aarts (2000 p 32ndash34) determinen que quansaconsegueix la saturacioacute eacutes el moment daturar el proceacutes ciacuteclic En lestudi pilot la saturacioacute va

arribar quan laddicioacute daltres tipus i exemples de relacions i les variables que les defineixen varepresentar nomeacutes una petita diferegravencia respecte de les representacions addicionals de les unitatssemagraventiques i de les afirmacions factuals

6 Validesa i fiabilitat

Se sap poc sobre com cal validar els models ontologravegics Eacutes a dir fins a quin punt un conjunt decompromisos ontologravegics representa fidelment un agravembit dinteregraves La prova de la validesa de lesrelacions previstes en aquest estudi eacutes el grau de precisioacute amb quegrave un exemple de relacioacute(afirmacioacute factual) coincideix amb la naturalesa i les caracteriacutestiques de les relacions ontologravegiquesdefinides en algun dels diversos recursos utilitzats Sutilitzen diferents fonts per a la validacioacute enaquest estudi (vegeu-ne la llista en lapartat 4) Les definicions de relacions en aquests estudisajuden a formar relacions dun a un mdashuna funcioacute de mapatgemdash a partir de les variablesexpressades i codificades en el discurs dels cercadors conservadors i catalogadors sobre elsfenogravemens que les relacions estan inferint

Weber (1990) assenyala que per fer inferegravencies vagravelides a partir dun text els procedimentsutilitzats per a la classificacioacute han de ser fiables estables i consistents La fiabilitat daquest estudies refereix a la consistegravencia del mesurament eacutes a dir el grau en quegrave els individus codifiquen elmateix conjunt de dades de la mateixa manera cada vegada utilitzant un conjunt dinstruccions decodificacioacute en les mateixes condicions En aquest estudi linvestigador es va fer cagraverrec de tota lacodificacioacute de manera que lanagravelisi de la fiabilitat dintracodificacioacute (en lloc dintercodificacioacute) en luacutesdun llibre de codis i de formularis es va portar a terme mitjanccedilant el model de fiabilitat prova isegona prova El mesurament de la fiabilitat eacutes el percentatge dacord entre la codificacioacute dunconjunt de dades en una data i el proceacutes repetit en una data posterior Es van utilitzarestadiacutestiques de Kappa que assignar +10 si la codificacioacute eacutes perfectament fiable i ndash10 quan luacutenicacord que hi ha eacutes fruit de latzar (Wood 2007 Stemler 2001 Shrout Fleiss 1979)

Entre el juliol i lagost de 2010 es va fer una avaluacioacute de la fiabilitat dintracodificacioacute per mesurarlacord en disset de les variables que es van mesurar en el formulari de codificacioacute El coeficient decorreccioacute per atzar per a totes les variables oscilmiddotla entre 0394 i 10 un rang en quegrave laconcentracioacute dacord respecte dels coeficients de Kappa es considera entre just i gairebeacute perfecte

7 Discussioacute

La investigacioacute preliminar demostra que una vegada perfeccionades amb lobjectiu concret de dura terme una investigacioacute sobre relacions les eines ontologravegiques i les tegravecniques danagravelisi decontinguts soacuten eficaces per identificar recollir i classificar els exemples de relacions que despreacuteses poden gravar en un corpus Respecte de la possibilitat que investigacions anteriors nofuncionessin per la seva dependegravencia respecte dels models dindexacioacute de paraules aquest estudipreliminar suggereix que un megravetode de base empiacuterica que utilitzi lanagravelisi de continguts i lontologiapot obtenir duna manera meacutes eficaccedil el significat de les relacions i la semagraventica que hi ha rerelestructura superficial de les paraules

Tanmateix les afirmacions que es poden fer durant la investigacioacute preliminar soacuten limitadesEntendre com els eacutessers humans expressen les relacions i les dificultats de captar i classificar elstipus de relacions eacutes una tasca difiacutecil Moltes vegades els problemes es resolen Daltres sorgeixenproblemes nous que nomeacutes poden ser abordats en investigacions posteriors En la discussioacute quesegueix linvestigador descriu quatre problemes que van sorgir durant la investigacioacute inicial que esvan convertir en agraverees meacutes especialitzades dinvestigacioacute en la tesi Inclouen quumlestionsrelacionades amb labast de lanagravelisi la inferegravencia pragmagravetica les relacions de cas i la previsioacute derelacions

71 Abast i definicioacute

El primer problema eacutes un problema dabast i de definicioacute eacutes a dir quines dades shan deconsiderar adequades per a lanagravelisi de continguts Lantropograveleg visual Malcolm Collier (2001 p 35)sosteacute que en el proceacutes danagravelisi de la informacioacute visual es descobreixen fenogravemens i relacions mai

vistos abans meacutes enllagrave dels liacutemits del que va percebre inicialment el fotogravegraf i el tema de la imatge

Durant les proves inicials de la tegravecnica danagravelisi de continguts nomeacutes es va analitzar el text escrit amagravequina Durant la segona prova la definicioacute de lagravembit dinteregraves es va ampliar per incloure-hi totesles dades visibles a la superfiacutecie del document que incloiumlen per exemple inscripcionsmanuscrites gargots i dibuixos molts dels quals es van considerar rellevants i que requerien unaidentificacioacute i classificacioacute en el formulari de codificacioacute

Aquesta observacioacute suggereix ladopcioacute dun proceacutes analiacutetic meacutes visual per descriure les imatgesque consideri lagravembit dinteregraves per incloure tant el text original com les inscripcions manuscrites enles cogravepies de les fotografies i altres documents relacionats En termes meacutes generals aixograve ens doacutenauna lliccediloacute sobre el valor de les investigacions preliminars per classificar els problemes de codificacioacuteen mostres petites abans de fer front a grans conjunts de dades

72 Inferegravencia pragmagravetica

El problema seguumlent es refereix a la importagravencia de la inferegravencia pragmagravetica i el paper que exerceixa lhora danalitzar continguts La inferegravencia eacutes un tipus de raonament que manipula lesproposicions conegudes per produir-ne de noves (Levesque Lakemeyer 2000) Linvestigador vaampliar aquesta definicioacute tenint en compte el que signifiquen o impliquen les paraules en diferentscontextos mdashla qual cosa es considera el costat pragmagravetic de la inferegravencia Lanagravelisi preliminar vamostrar que una gran quantitat del que es percep en el discurs de descripcioacute duna imatge de fetsinfereix i sextreu a partir de coneixements previs que el parlant i loient tenen sobre els incidentsde referegravencia

Per ajudar a situar el que senteacuten per una descripcioacute duna imatge i com es poden inferir fets apartir de coneixements impliacutecits tingueu en compte la fotografia histograverica que es mostra en la figura7 i la descripcioacute que lacompanya

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 2: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

seguumlent possible una representacioacute basada en ontologies de continguts dimatges en sistemesbasats en el coneixement En segon lloc la metodologia que es descriu es pot adaptar a altresagraverees problemagravetiques relacionades amb la comprensioacute del llenguatge natural i la representacioacutebasada en ontologies Aquestes agraverees podrien ser des duna descripcioacute arxiviacutestica general fins aagravembits meacutes confusos com ara les cultures que creuen en deacuteus del Sol Sigui quin sigui el casaquest document emfatitza la utilitat de fer servir investigacions preliminars per solucionar elsinnombrables problemes en lenfocament analiacutetic de continguts abans de comenccedilar el cos principalde la recerca

Aquest document consta de set apartats que segueixen aquesta introduccioacute En el primer shiestudien les limitacions dinvestigacions pregravevies sobre relacions en la bibliografia de biblioteconomiai documentacioacute Els apartat seguumlents expliquen la mostra de dades i la metodologia de lainvestigacioacute aplicada i la construccioacute dun corpus de relacions Lapartat 6 descriu com es validenles dades i com sen determina la fiabilitat i lapartat 7 presenta conclusions i limitacionsinteressants de lestudi Finalment en lapartat 8 es presenten les conclusions finals

2 Esforccedilos previs

En aquest apartat sexposa la interessant activitat intelmiddotlectual evident en la bibliografia debiblioteconomia i documentacioacute que tracta de les relacions i el paper que tenen en lorganitzacioacute dela informacioacute especialment la informacioacute visual expressada en les descripcions dimatges Hi hamolta bibliografia dedicada a anomenar i classificar atributs i primitius visuals perograve molt pocsestudis empiacuterics intenten explicar les relacions existents en les descripcions dimatges de maneraque el potencial de les contribucions de la biblioteconomia i la documentacioacute a aquest debat podriaser considerable

La bibliografia meacutes primerenca daquesta revisioacute bibliogragravefica demostra que les relacions i la sevaclassificacioacute soacuten importants per crear associacions entre els documents i els conceptes dins delsdocuments A partir de la degravecada de 1980 Farradane (1980 a i 1980 b ) va presentar un esquemaque consta de nou categories de relacions que saplica a lanagravelisi de documents textuals Tot i quedibuixava distincions importants entre els conceptes i les relacions en general no feia una distincioacuteclara entre els problemes de processament del llenguatge natural i la nocioacute de representacioacutesimbogravelica Aixograve va donar lloc a problemes en la seva anagravelisi respecte de com calia representar lesambiguumlitats dels termes per exemple els muacuteltiples significats de la preposicioacute anglesa of

El passat ha estat testimoni de molts estudis sobre el problema de les relacions amb relacioacute a lesentitats externes a la semagraventica del contingut del document Shatford Layne va estudiar lesrelacions que hi ha entre els objectes en imatges en diferents formats i entre les imatges i elsdocuments textuals relacionats Alguns exemples inclouen les relacions entre les fotografiesdedificis els plagravenols arquitectogravenics corresponents i les biografies dels arquitectes (Shatford 1986Shatford 1994) Enser i McGregor (1993) van ser els primers investigadors a prestar latencioacutemerescuda a les descripcions dimatges tal com les expressa linvestigador dimatges El seu interegravespel problema de les relacions perograve se circumscriu a les relacions entre els tipus dusuaris i lesrelacions entre les categories generals dimatges que van definir com a uacuteniques i no uacuteniques

Keister (1994) va fer lobservacioacute criacutetica que les descripcions dimatges riques semagraventicament quees troben en les consultes dels cercadors dimatges com ara lhome assegut a la cadira amb lacapsa al cap no podien ser representades eficaccedilment pels catalogadors que usen sistemesdindexacioacute basats en paraules Aquesta investigadora no va oferir solucions immediates a aquestaquumlestioacute perograve les seves observacions suggereixen de manera evident que el problema de lesrelacions fa referegravencia en part a representacions i processos eacutes a dir com podrien elscatalogadors representar expressions semagraventicament riques en sistemes dinformacioacute de maneraque els investigadors poguessin trobar les imatges que volen Malgrat aquestes revelacions elsinvestigadors van continuar considerant el paper de les relacions dins de lestructura sintagravectica deloracioacute i van intentar recollir aquest significat en els sistemes dindexacioacute

Es va produir un canvi important en el pensament quan Svenonius (2000) va plantejar la ideadutilitzar les relacions per raonar els conceptes Aquesta investigadora es va imaginar magravequinescapaces de llegir documents i determinar categories temagravetiques (Svenonius 2000 p 49) Green(1996) i Bean i Green (2001) van compartir punts de vista similars i van comenccedilar a explorar comel raonament sobre les relacions podria millorar el proceacutes de descobriment i permetre als usuarisdescobrir informacioacute que altrament passaria desapercebuda Tanmateix Green va argumentar queel nombre i la complexitat dels tipus de relacions feia impracticable aquesta tasca i esperava que

professionals de la informacioacute poguessin aplicar duna manera coherent i eficaccedil relacions ensistemes dinformacioacute Aquest estudi i altres de posteriors confirmen aquesta opinioacute

En resum la veritat eacutes que se sap poc sobre la naturalesa i labast de les relacions expressades encontextos de descripcioacute recerca i recuperacioacute dimatges o sobre els problemes intelmiddotlectuals quecomporten aquestes activitats Sembla probable que una comprensioacute completa de les relacionsrepresentades en descripcions dimatges hauragrave dincloure les activitats de catalogadors cercadorsdimatges i conservadors situats en lentorn social dels arxius Els objectius de la investigacioacutepreliminar per tant se centren a desenvolupar un megravetode per predir ocurregravencies de relacions irepresentar-les duna manera que comporti efectivament que es poden representar en un entorn demagravequina

3 Mostra de dades

Les dades utilitzades en aquest estudi consisteixen en descripcions textuals dimatges obtingudesdels arxius de correspondegravencia de la Pittsburgh Photographic Library (PPL) La PPL es va crear el1950 a la University of Pittsburgh La seva missioacute principal ha estat la mateixa en els uacuteltims anysoferir als investigadors fotografies perquegrave les facin servir en articles de diaris i revistes xerradesfullets i altres publicacions que promoguin la histograveria i la cultura de Pittsburgh El 1961 la colmiddotleccioacutees va traslladar de la universitat a la seva seu actual la Carnegie Library of Pittsburgh El marccedil de2000 el fons total estimat de la biblioteca ascendia a 57008 cogravepies 58292 negatius 1234diapositives 310 plaques de llanterna magravegica i 13000 contactes fotogragravefics (PittsburghPhotographic 2000)

La Pittsburgh Photographic Library manteacute un arxiu de correspondegravencia en paper que data de 1963que conteacute 1673 documents Dins daquest conjunt hi ha un total de 180 documents relacionatsespeciacuteficament a solmiddotlicituds de fotografies que formen el corpus de dades daquest estudi Es vaseleccionar una mostra aleatograveria de 45 casos per analitzar-los Sen van fer servir 9 en lainvestigacioacute preliminar La resta 36 casos sanalitzen en la tesi de lautor

Examinar tota la quumlestioacute de les relacions a mesura que sexpressen naturalment en lestransaccions de referegravencies requereix que els liacutemits entre el contingut de les imatges i el llenguatgees vegi amb claredat En primer lloc la persona que busca una imatge presenta una consulta enquegrave descriu imatges conegudes desconegudes a vegades i possiblement que no existeixen Senpresenta una mostra en la figura 1

Figura 1 Correspondegravencia de la mostra dun investigador visual que solmiddotlicita fotografies a la Pittsburgh PhotographicLibrary

En segon lloc els conservadors exerceixen el paper de mediadors descrivint i interpretant elcontingut de les imatges durant el proceacutes de mediacioacute La figura 2 ilmiddotlustra un exemple de lacorrespondegravencia en quegrave el conservador ha de determinar el punt de vista dun fotogravegraf colmiddotlocantuna cagravemera a lescenari que vegi el puacuteblic des de lescenari

Figura 2 Correspondegravencia de mostra del conservador de la Pittsburgh Photographic Library en resposta a laconsulta de la persona que busca imatges

Finalment hi ha el catalogador la funcioacute del qual eacutes descriure les fotografies en els registres delcatagraveleg que soacuten consultats durant la recerca i la recuperacioacute del conservador i cercador dimatgesLes descripcions dels catalogadors com ara la que acompanya el contacte fotogragravefic en la figura 3no nomeacutes tenen dimensions interpretatives i estegravetiques Tambeacute tenen significats complementats enpart per normes de descripcioacute i procediments de processament locals

Figura 3 Lou Malkin Carnegie Library Directors Office 17 de desembre de 1973 Del catagraveleg de fotografies de laPittsburgh Photographic Library (Reproduiumlt amb permiacutes) Carnegie Library of Pittsburgh Tots els drets reservats

Estan prohibits la reproduccioacute o luacutes no autoritzats

La intencioacute de la investigacioacute preliminar no era necessagraveriament analitzar com aquests grupsdescriuen les relacions de maneres diferents encara que aquesta anagravelisi es va dur a terme dunamanera limitada durant la investigacioacute de la tesi Meacutes aviat la intencioacute era provar la viabilitatdaplicar lanagravelisi de continguts i lanagravelisi ontologravegica a muacuteltiples contextos dins dun agravembit Lapartat 3explica en part com linvestigador ho va dur a terme en lespai discursiu dels arxius Lenfocamentestagrave motivat per la creenccedila que la descripcioacute no eacutes un acte solitari sinoacute el resultat de pragravectiquessocials Animem els investigadors que estudiiumln altres agravembits problemagravetics a codificar i analitzar elsseus conjunts de dades en dimensions semblants muacuteltiples a partir de diferents marcs dereferegravencia

4 Metodologia de recerca

Lobjectiu fonamental de la investigacioacute era determinar els beneficis i les dificultats de luacutes detegravecniques danagravelisi de continguts i eines ontologravegiques per dur a terme la investigacioacute sobrerelacions Els objectius de lestudi eren tres 1) desenvolupar i perfeccionar un llibre de codis iformularis per recollir les relacions que ocorren en les descripcions en llenguatge natural 2)perfeccionar luacutes deines i de megravetodes ontologravegics per predir exemples de relacions i organitzar-losen famiacutelies de tipus de relacions i 3) provar la fiabilitat dins de la codificacioacute i la validesa delinstrument

Perquegrave fossin uacutetils en aquesta investigacioacute les eines danagravelisi de continguts i ontologravegiques es vanhaver de perfeccionar per a tasques especiacutefiques i adaptar als problemes particulars sobretot en elcas de lontologia Si lontologia en el sentit modern sha de convertir en una eina uacutetil enbiblioteconomia i documentacioacute necessita un problema pragravectic i especiacutefic per intentar resoldrel

La figura 4 mostra lenfocament metodologravegic desenvolupat durant la investigacioacute preliminar i la tesiposterior Els primers problemes que calia superar es mostren al principi del cicle de treball en eldiagrama El primer desafiament eacutes com sha de fonamentar empiacutericament la identificacioacute i capturade les relacions en les descripcions en llenguatge natural i despreacutes formalitzar-les en un llenguatgedordre superior perquegrave puguin ser utilitzades com a eines per respondre a les preguntesimportants de recerca La solucioacute eacutes comenccedilar amb lanagravelisi de continguts com una forma danagravelisidel llenguatge natural en unitats cada vegada meacutes petites fins a arribar al cor de la relacioacute idespreacutes recollir aquestes conclusions en un corpus de relacions previstes

Figura 4 Arquitectura del corpus i de la creacioacute dontologies

Linvestigador comenccedila utilitzant lanagravelisi de continguts per analitzar el llenguatge natural enproposicions meacutes formals Krippendorff (2004) defineix lanagravelisi de continguts com a researchtechnique for making replicable and valid inferences from texts (or other meaningful matter) to thecontexts of their use (p 18) Sutilitzen instruccions de codificacioacute i formularis danagravelisi decontinguts per codificar les dades de la mostra tant en la investigacioacute preliminar com en la tesi Lafigura 5 mostra un extracte de les instruccions de codificacioacute de relacions temporals

Figura 5 Una part de les instruccions de codificacioacute que ilmiddotlustra com es codifiquen les relacions temporals

Els formularis de codificacioacute es reuneixen en un corpus Un corpus mdashque eacutes essencialment unllibre de fulls de cagravelcul de mida tabloidemdash recull i registra els resultats de les anagravelisis delscontinguts En lapartat 6 es presenta una descripcioacute meacutes detallada del corpus

Una bateria deines ontologravegiques ofereix definicions formals i semiformals que ajuden a predir iclassificar exemples de relacions Algunes de les eines principals utilitzades per a lanagravelisiontologravegica dels tipus de relacions inclouen lanagravelisi de Cooper de les preposicions angleseslocatives (1968) lanagravelisi de Veda Storey de relacions de cas (1993) la biblioteca de relacionsdinclusioacute de classe dIDEF5 (Perakath 1994) la taxonomia de Winston Chaffin i Herrmann de lesrelacions part-tot (1987) lanagravelisi ontologravegica de relacions de Wand Storey i Weber (1999) irelacions de cas de Sowa (2000) Aquests recursos tenen un paper important en la construccioacute delentorn en quegrave es porta a terme lanagravelisi Ajuden a explicar com es determinen les relacions dacordamb paraules clau que sutilitzen per inferir les relacions

Lanagravelisi ontologravegica contribueix a determinar la categoria de relacions a quegrave pertany un exempleparticular Durant la codificacioacute i lanagravelisi de continguts de lestudi preliminar es van aplicar a prioriset tipus de relacions

1 Atribucioacute2 Cas3 Inclusioacute4 Metoniacutemia5 Espacial6 Sinoniacutemia7 Temporal

Tot i que estagrave fora de labast daquest document presentar els resultats de la tesi eacutes convenientassenyalar que durant lanagravelisi posterior es van afegir algunes categories a la llista i sen van treuredaltres La categoria de sinoniacutemia va desaparegraveixer Tot i que els sinogravenims soacuten relacions importantsper al processament del llenguatge natural i de components legravexics semagraventics no tenen lloc enontologies en quegrave els conceptes no han de ser ambigus La inclusioacute tambeacute va desaparegraveixer Encaraque el paper de la inclusioacute de classes en una ontologia eacutes fonamental per construir taxonomies(subtipus estagravendard i relacions de supertipus) lanagravelisi de les dades va demostrar que les relacionsdinclusioacute de classe no soacuten un fenomen expliacutecit en les descripcions dimatges Es va afegir el tipusde relacioacute dexemple per representar les relacions que associen exemples amb classes Finalmentes va descobrir que les relacions de parentiu es produeixen sovint en lagravembit de les descripcionsdimatges de manera que el parentiu es va afegir a la llista com una nova categoria de tipus derelacions

El proceacutes de descobriment de relacions que es mostra en la figura 4 eacutes circular perquegrave la realitateacutes complicada De vegades una formalitzacioacute no eacutes clara o no hi ha una regla que expliqui el tipusde relacioacute que sorgeix Daltres la relacioacute no eacutes prototiacutepica i en aquest cas linvestigador o beacuteassigna una relacioacute a una categoria sabent perfectament beacute que els atributs assignats a lacategoria no sapliquen en tots els casos o beacute crea una particioacute meacutes niacutetida que permeti entendreels casos liacutemit Al final linvestigador aconsegueix una ontologia de tipus de relacions

En resum selabora un conjunt bagravesic deines i sadapta a la investigacioacute sistemagravetica del problemade les relacions Aquestes inclouen lanagravelisi de continguts que sutilitza per analitzar el llenguatgenatural en afirmacions factuals meacutes formals un corpus que organitza i estructura lagravembit dinteregraves iuna bateria deines ontologravegiques que sutilitzen per analitzar i determinar els tipus de relacions

5 Construccioacute del corpus

En aquest apartat sexplica amb meacutes detall la naturalesa i el propogravesit dun corpus Un corpuslinguumliacutestic es defineix com the body of written or spoken material upon which linguistic analysis isbased (Oxford English dictionary online marccedil de 2011) El corpus recopilat en aquest estudi estagravedissenyat per a un propogravesit molt concret ajudar en lanagravelisi de les relacions expressades com apart del discurs en la PPL El corpus es crea manualment i funciona a traveacutes de tres etapesdanagravelisi

Primera etapa En la primera etapa danagravelisi es fa una lectura acurada de tot el contingut delincident Es determina quina part del text descriu el contingut de la imatge i despreacutes es grava comuna unitat semagraventica i shi assigna un nuacutemero dunitat semagraventica

Segona etapa La segona etapa de lanagravelisi consisteix a analitzar la unitat semagraventica en lesafirmacions factuals que representen les relacions Saplica una notacioacute especial anomenada prefixde notacioacute que estableix el terme de relacioacute al davant de manera que es pot veure fagravecilmentLlavors els arguments de relacioacute es colmiddotloquen entre paregraventesis separats per comes La figura 6 eacutesun extracte del corpus de relacions Ilmiddotlustra les unitats semagraventiques de la mostra juntament ambles afirmacions factuals corresponents

Figura 6 Mostra del corpus de relacions que ilmiddotlustra les unitats semagraventiques originals de la correspondegravencia delcercador dimatges (columna 5) i les afirmacions factuals que es van analitzar a partir del llenguatge natural original

(columna 8)

Tercera etapa La tercera i uacuteltima etapa danagravelisi en el corpus de relacions consisteix a analitzarles afirmacions factuals per determinar quins tipus de relacions hi soacuten presents i quins soacuten els seuscomponents (temes objectes de referegravencia llocs camins subjectes unitats temporals i aixiacutesuccessivament)

Sestudia el Corpus theoretical paradox de Schmied (1990) adoptant un enfocament basat enprocessos ciacuteclics En general la paradoxa de Schmied eacutes un dilema del tipus lou o la gallina Elcorpus de relacions resultant daquesta investigacioacute hauria de ser representatiu de la llenguautilitzada en els arxius fotogragravefics El problema perograve eacutes que per dur a terme aquesta tascalinvestigador ha de determinar aquestes variables empiacutericament per mitjagrave de lanagravelisi de resultatsdun corpus representatiu Aixiacute doncs les preguntes soacuten per on comenccedilar i quan parar

El megravetode per fer front a aquesta paradoxa adopta el punt de vista de Biber (1993 p 256) segonsel qual el disseny de corpus eacutes un proceacutes ciacuteclic Lestudi actual es va iniciar amb una investigacioacutepreliminar Durant lestudi pilot es van documentar les millores ciacutecliques i es va ampliar iperfeccionar labast de les variables fins que no es van poder detectar varietats addicionals Elscriteris de detencioacute segons el que descriuen Bauer i Aarts (2000 p 32ndash34) determinen que quansaconsegueix la saturacioacute eacutes el moment daturar el proceacutes ciacuteclic En lestudi pilot la saturacioacute va

arribar quan laddicioacute daltres tipus i exemples de relacions i les variables que les defineixen varepresentar nomeacutes una petita diferegravencia respecte de les representacions addicionals de les unitatssemagraventiques i de les afirmacions factuals

6 Validesa i fiabilitat

Se sap poc sobre com cal validar els models ontologravegics Eacutes a dir fins a quin punt un conjunt decompromisos ontologravegics representa fidelment un agravembit dinteregraves La prova de la validesa de lesrelacions previstes en aquest estudi eacutes el grau de precisioacute amb quegrave un exemple de relacioacute(afirmacioacute factual) coincideix amb la naturalesa i les caracteriacutestiques de les relacions ontologravegiquesdefinides en algun dels diversos recursos utilitzats Sutilitzen diferents fonts per a la validacioacute enaquest estudi (vegeu-ne la llista en lapartat 4) Les definicions de relacions en aquests estudisajuden a formar relacions dun a un mdashuna funcioacute de mapatgemdash a partir de les variablesexpressades i codificades en el discurs dels cercadors conservadors i catalogadors sobre elsfenogravemens que les relacions estan inferint

Weber (1990) assenyala que per fer inferegravencies vagravelides a partir dun text els procedimentsutilitzats per a la classificacioacute han de ser fiables estables i consistents La fiabilitat daquest estudies refereix a la consistegravencia del mesurament eacutes a dir el grau en quegrave els individus codifiquen elmateix conjunt de dades de la mateixa manera cada vegada utilitzant un conjunt dinstruccions decodificacioacute en les mateixes condicions En aquest estudi linvestigador es va fer cagraverrec de tota lacodificacioacute de manera que lanagravelisi de la fiabilitat dintracodificacioacute (en lloc dintercodificacioacute) en luacutesdun llibre de codis i de formularis es va portar a terme mitjanccedilant el model de fiabilitat prova isegona prova El mesurament de la fiabilitat eacutes el percentatge dacord entre la codificacioacute dunconjunt de dades en una data i el proceacutes repetit en una data posterior Es van utilitzarestadiacutestiques de Kappa que assignar +10 si la codificacioacute eacutes perfectament fiable i ndash10 quan luacutenicacord que hi ha eacutes fruit de latzar (Wood 2007 Stemler 2001 Shrout Fleiss 1979)

Entre el juliol i lagost de 2010 es va fer una avaluacioacute de la fiabilitat dintracodificacioacute per mesurarlacord en disset de les variables que es van mesurar en el formulari de codificacioacute El coeficient decorreccioacute per atzar per a totes les variables oscilmiddotla entre 0394 i 10 un rang en quegrave laconcentracioacute dacord respecte dels coeficients de Kappa es considera entre just i gairebeacute perfecte

7 Discussioacute

La investigacioacute preliminar demostra que una vegada perfeccionades amb lobjectiu concret de dura terme una investigacioacute sobre relacions les eines ontologravegiques i les tegravecniques danagravelisi decontinguts soacuten eficaces per identificar recollir i classificar els exemples de relacions que despreacuteses poden gravar en un corpus Respecte de la possibilitat que investigacions anteriors nofuncionessin per la seva dependegravencia respecte dels models dindexacioacute de paraules aquest estudipreliminar suggereix que un megravetode de base empiacuterica que utilitzi lanagravelisi de continguts i lontologiapot obtenir duna manera meacutes eficaccedil el significat de les relacions i la semagraventica que hi ha rerelestructura superficial de les paraules

Tanmateix les afirmacions que es poden fer durant la investigacioacute preliminar soacuten limitadesEntendre com els eacutessers humans expressen les relacions i les dificultats de captar i classificar elstipus de relacions eacutes una tasca difiacutecil Moltes vegades els problemes es resolen Daltres sorgeixenproblemes nous que nomeacutes poden ser abordats en investigacions posteriors En la discussioacute quesegueix linvestigador descriu quatre problemes que van sorgir durant la investigacioacute inicial que esvan convertir en agraverees meacutes especialitzades dinvestigacioacute en la tesi Inclouen quumlestionsrelacionades amb labast de lanagravelisi la inferegravencia pragmagravetica les relacions de cas i la previsioacute derelacions

71 Abast i definicioacute

El primer problema eacutes un problema dabast i de definicioacute eacutes a dir quines dades shan deconsiderar adequades per a lanagravelisi de continguts Lantropograveleg visual Malcolm Collier (2001 p 35)sosteacute que en el proceacutes danagravelisi de la informacioacute visual es descobreixen fenogravemens i relacions mai

vistos abans meacutes enllagrave dels liacutemits del que va percebre inicialment el fotogravegraf i el tema de la imatge

Durant les proves inicials de la tegravecnica danagravelisi de continguts nomeacutes es va analitzar el text escrit amagravequina Durant la segona prova la definicioacute de lagravembit dinteregraves es va ampliar per incloure-hi totesles dades visibles a la superfiacutecie del document que incloiumlen per exemple inscripcionsmanuscrites gargots i dibuixos molts dels quals es van considerar rellevants i que requerien unaidentificacioacute i classificacioacute en el formulari de codificacioacute

Aquesta observacioacute suggereix ladopcioacute dun proceacutes analiacutetic meacutes visual per descriure les imatgesque consideri lagravembit dinteregraves per incloure tant el text original com les inscripcions manuscrites enles cogravepies de les fotografies i altres documents relacionats En termes meacutes generals aixograve ens doacutenauna lliccediloacute sobre el valor de les investigacions preliminars per classificar els problemes de codificacioacuteen mostres petites abans de fer front a grans conjunts de dades

72 Inferegravencia pragmagravetica

El problema seguumlent es refereix a la importagravencia de la inferegravencia pragmagravetica i el paper que exerceixa lhora danalitzar continguts La inferegravencia eacutes un tipus de raonament que manipula lesproposicions conegudes per produir-ne de noves (Levesque Lakemeyer 2000) Linvestigador vaampliar aquesta definicioacute tenint en compte el que signifiquen o impliquen les paraules en diferentscontextos mdashla qual cosa es considera el costat pragmagravetic de la inferegravencia Lanagravelisi preliminar vamostrar que una gran quantitat del que es percep en el discurs de descripcioacute duna imatge de fetsinfereix i sextreu a partir de coneixements previs que el parlant i loient tenen sobre els incidentsde referegravencia

Per ajudar a situar el que senteacuten per una descripcioacute duna imatge i com es poden inferir fets apartir de coneixements impliacutecits tingueu en compte la fotografia histograverica que es mostra en la figura7 i la descripcioacute que lacompanya

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 3: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

professionals de la informacioacute poguessin aplicar duna manera coherent i eficaccedil relacions ensistemes dinformacioacute Aquest estudi i altres de posteriors confirmen aquesta opinioacute

En resum la veritat eacutes que se sap poc sobre la naturalesa i labast de les relacions expressades encontextos de descripcioacute recerca i recuperacioacute dimatges o sobre els problemes intelmiddotlectuals quecomporten aquestes activitats Sembla probable que una comprensioacute completa de les relacionsrepresentades en descripcions dimatges hauragrave dincloure les activitats de catalogadors cercadorsdimatges i conservadors situats en lentorn social dels arxius Els objectius de la investigacioacutepreliminar per tant se centren a desenvolupar un megravetode per predir ocurregravencies de relacions irepresentar-les duna manera que comporti efectivament que es poden representar en un entorn demagravequina

3 Mostra de dades

Les dades utilitzades en aquest estudi consisteixen en descripcions textuals dimatges obtingudesdels arxius de correspondegravencia de la Pittsburgh Photographic Library (PPL) La PPL es va crear el1950 a la University of Pittsburgh La seva missioacute principal ha estat la mateixa en els uacuteltims anysoferir als investigadors fotografies perquegrave les facin servir en articles de diaris i revistes xerradesfullets i altres publicacions que promoguin la histograveria i la cultura de Pittsburgh El 1961 la colmiddotleccioacutees va traslladar de la universitat a la seva seu actual la Carnegie Library of Pittsburgh El marccedil de2000 el fons total estimat de la biblioteca ascendia a 57008 cogravepies 58292 negatius 1234diapositives 310 plaques de llanterna magravegica i 13000 contactes fotogragravefics (PittsburghPhotographic 2000)

La Pittsburgh Photographic Library manteacute un arxiu de correspondegravencia en paper que data de 1963que conteacute 1673 documents Dins daquest conjunt hi ha un total de 180 documents relacionatsespeciacuteficament a solmiddotlicituds de fotografies que formen el corpus de dades daquest estudi Es vaseleccionar una mostra aleatograveria de 45 casos per analitzar-los Sen van fer servir 9 en lainvestigacioacute preliminar La resta 36 casos sanalitzen en la tesi de lautor

Examinar tota la quumlestioacute de les relacions a mesura que sexpressen naturalment en lestransaccions de referegravencies requereix que els liacutemits entre el contingut de les imatges i el llenguatgees vegi amb claredat En primer lloc la persona que busca una imatge presenta una consulta enquegrave descriu imatges conegudes desconegudes a vegades i possiblement que no existeixen Senpresenta una mostra en la figura 1

Figura 1 Correspondegravencia de la mostra dun investigador visual que solmiddotlicita fotografies a la Pittsburgh PhotographicLibrary

En segon lloc els conservadors exerceixen el paper de mediadors descrivint i interpretant elcontingut de les imatges durant el proceacutes de mediacioacute La figura 2 ilmiddotlustra un exemple de lacorrespondegravencia en quegrave el conservador ha de determinar el punt de vista dun fotogravegraf colmiddotlocantuna cagravemera a lescenari que vegi el puacuteblic des de lescenari

Figura 2 Correspondegravencia de mostra del conservador de la Pittsburgh Photographic Library en resposta a laconsulta de la persona que busca imatges

Finalment hi ha el catalogador la funcioacute del qual eacutes descriure les fotografies en els registres delcatagraveleg que soacuten consultats durant la recerca i la recuperacioacute del conservador i cercador dimatgesLes descripcions dels catalogadors com ara la que acompanya el contacte fotogragravefic en la figura 3no nomeacutes tenen dimensions interpretatives i estegravetiques Tambeacute tenen significats complementats enpart per normes de descripcioacute i procediments de processament locals

Figura 3 Lou Malkin Carnegie Library Directors Office 17 de desembre de 1973 Del catagraveleg de fotografies de laPittsburgh Photographic Library (Reproduiumlt amb permiacutes) Carnegie Library of Pittsburgh Tots els drets reservats

Estan prohibits la reproduccioacute o luacutes no autoritzats

La intencioacute de la investigacioacute preliminar no era necessagraveriament analitzar com aquests grupsdescriuen les relacions de maneres diferents encara que aquesta anagravelisi es va dur a terme dunamanera limitada durant la investigacioacute de la tesi Meacutes aviat la intencioacute era provar la viabilitatdaplicar lanagravelisi de continguts i lanagravelisi ontologravegica a muacuteltiples contextos dins dun agravembit Lapartat 3explica en part com linvestigador ho va dur a terme en lespai discursiu dels arxius Lenfocamentestagrave motivat per la creenccedila que la descripcioacute no eacutes un acte solitari sinoacute el resultat de pragravectiquessocials Animem els investigadors que estudiiumln altres agravembits problemagravetics a codificar i analitzar elsseus conjunts de dades en dimensions semblants muacuteltiples a partir de diferents marcs dereferegravencia

4 Metodologia de recerca

Lobjectiu fonamental de la investigacioacute era determinar els beneficis i les dificultats de luacutes detegravecniques danagravelisi de continguts i eines ontologravegiques per dur a terme la investigacioacute sobrerelacions Els objectius de lestudi eren tres 1) desenvolupar i perfeccionar un llibre de codis iformularis per recollir les relacions que ocorren en les descripcions en llenguatge natural 2)perfeccionar luacutes deines i de megravetodes ontologravegics per predir exemples de relacions i organitzar-losen famiacutelies de tipus de relacions i 3) provar la fiabilitat dins de la codificacioacute i la validesa delinstrument

Perquegrave fossin uacutetils en aquesta investigacioacute les eines danagravelisi de continguts i ontologravegiques es vanhaver de perfeccionar per a tasques especiacutefiques i adaptar als problemes particulars sobretot en elcas de lontologia Si lontologia en el sentit modern sha de convertir en una eina uacutetil enbiblioteconomia i documentacioacute necessita un problema pragravectic i especiacutefic per intentar resoldrel

La figura 4 mostra lenfocament metodologravegic desenvolupat durant la investigacioacute preliminar i la tesiposterior Els primers problemes que calia superar es mostren al principi del cicle de treball en eldiagrama El primer desafiament eacutes com sha de fonamentar empiacutericament la identificacioacute i capturade les relacions en les descripcions en llenguatge natural i despreacutes formalitzar-les en un llenguatgedordre superior perquegrave puguin ser utilitzades com a eines per respondre a les preguntesimportants de recerca La solucioacute eacutes comenccedilar amb lanagravelisi de continguts com una forma danagravelisidel llenguatge natural en unitats cada vegada meacutes petites fins a arribar al cor de la relacioacute idespreacutes recollir aquestes conclusions en un corpus de relacions previstes

Figura 4 Arquitectura del corpus i de la creacioacute dontologies

Linvestigador comenccedila utilitzant lanagravelisi de continguts per analitzar el llenguatge natural enproposicions meacutes formals Krippendorff (2004) defineix lanagravelisi de continguts com a researchtechnique for making replicable and valid inferences from texts (or other meaningful matter) to thecontexts of their use (p 18) Sutilitzen instruccions de codificacioacute i formularis danagravelisi decontinguts per codificar les dades de la mostra tant en la investigacioacute preliminar com en la tesi Lafigura 5 mostra un extracte de les instruccions de codificacioacute de relacions temporals

Figura 5 Una part de les instruccions de codificacioacute que ilmiddotlustra com es codifiquen les relacions temporals

Els formularis de codificacioacute es reuneixen en un corpus Un corpus mdashque eacutes essencialment unllibre de fulls de cagravelcul de mida tabloidemdash recull i registra els resultats de les anagravelisis delscontinguts En lapartat 6 es presenta una descripcioacute meacutes detallada del corpus

Una bateria deines ontologravegiques ofereix definicions formals i semiformals que ajuden a predir iclassificar exemples de relacions Algunes de les eines principals utilitzades per a lanagravelisiontologravegica dels tipus de relacions inclouen lanagravelisi de Cooper de les preposicions angleseslocatives (1968) lanagravelisi de Veda Storey de relacions de cas (1993) la biblioteca de relacionsdinclusioacute de classe dIDEF5 (Perakath 1994) la taxonomia de Winston Chaffin i Herrmann de lesrelacions part-tot (1987) lanagravelisi ontologravegica de relacions de Wand Storey i Weber (1999) irelacions de cas de Sowa (2000) Aquests recursos tenen un paper important en la construccioacute delentorn en quegrave es porta a terme lanagravelisi Ajuden a explicar com es determinen les relacions dacordamb paraules clau que sutilitzen per inferir les relacions

Lanagravelisi ontologravegica contribueix a determinar la categoria de relacions a quegrave pertany un exempleparticular Durant la codificacioacute i lanagravelisi de continguts de lestudi preliminar es van aplicar a prioriset tipus de relacions

1 Atribucioacute2 Cas3 Inclusioacute4 Metoniacutemia5 Espacial6 Sinoniacutemia7 Temporal

Tot i que estagrave fora de labast daquest document presentar els resultats de la tesi eacutes convenientassenyalar que durant lanagravelisi posterior es van afegir algunes categories a la llista i sen van treuredaltres La categoria de sinoniacutemia va desaparegraveixer Tot i que els sinogravenims soacuten relacions importantsper al processament del llenguatge natural i de components legravexics semagraventics no tenen lloc enontologies en quegrave els conceptes no han de ser ambigus La inclusioacute tambeacute va desaparegraveixer Encaraque el paper de la inclusioacute de classes en una ontologia eacutes fonamental per construir taxonomies(subtipus estagravendard i relacions de supertipus) lanagravelisi de les dades va demostrar que les relacionsdinclusioacute de classe no soacuten un fenomen expliacutecit en les descripcions dimatges Es va afegir el tipusde relacioacute dexemple per representar les relacions que associen exemples amb classes Finalmentes va descobrir que les relacions de parentiu es produeixen sovint en lagravembit de les descripcionsdimatges de manera que el parentiu es va afegir a la llista com una nova categoria de tipus derelacions

El proceacutes de descobriment de relacions que es mostra en la figura 4 eacutes circular perquegrave la realitateacutes complicada De vegades una formalitzacioacute no eacutes clara o no hi ha una regla que expliqui el tipusde relacioacute que sorgeix Daltres la relacioacute no eacutes prototiacutepica i en aquest cas linvestigador o beacuteassigna una relacioacute a una categoria sabent perfectament beacute que els atributs assignats a lacategoria no sapliquen en tots els casos o beacute crea una particioacute meacutes niacutetida que permeti entendreels casos liacutemit Al final linvestigador aconsegueix una ontologia de tipus de relacions

En resum selabora un conjunt bagravesic deines i sadapta a la investigacioacute sistemagravetica del problemade les relacions Aquestes inclouen lanagravelisi de continguts que sutilitza per analitzar el llenguatgenatural en afirmacions factuals meacutes formals un corpus que organitza i estructura lagravembit dinteregraves iuna bateria deines ontologravegiques que sutilitzen per analitzar i determinar els tipus de relacions

5 Construccioacute del corpus

En aquest apartat sexplica amb meacutes detall la naturalesa i el propogravesit dun corpus Un corpuslinguumliacutestic es defineix com the body of written or spoken material upon which linguistic analysis isbased (Oxford English dictionary online marccedil de 2011) El corpus recopilat en aquest estudi estagravedissenyat per a un propogravesit molt concret ajudar en lanagravelisi de les relacions expressades com apart del discurs en la PPL El corpus es crea manualment i funciona a traveacutes de tres etapesdanagravelisi

Primera etapa En la primera etapa danagravelisi es fa una lectura acurada de tot el contingut delincident Es determina quina part del text descriu el contingut de la imatge i despreacutes es grava comuna unitat semagraventica i shi assigna un nuacutemero dunitat semagraventica

Segona etapa La segona etapa de lanagravelisi consisteix a analitzar la unitat semagraventica en lesafirmacions factuals que representen les relacions Saplica una notacioacute especial anomenada prefixde notacioacute que estableix el terme de relacioacute al davant de manera que es pot veure fagravecilmentLlavors els arguments de relacioacute es colmiddotloquen entre paregraventesis separats per comes La figura 6 eacutesun extracte del corpus de relacions Ilmiddotlustra les unitats semagraventiques de la mostra juntament ambles afirmacions factuals corresponents

Figura 6 Mostra del corpus de relacions que ilmiddotlustra les unitats semagraventiques originals de la correspondegravencia delcercador dimatges (columna 5) i les afirmacions factuals que es van analitzar a partir del llenguatge natural original

(columna 8)

Tercera etapa La tercera i uacuteltima etapa danagravelisi en el corpus de relacions consisteix a analitzarles afirmacions factuals per determinar quins tipus de relacions hi soacuten presents i quins soacuten els seuscomponents (temes objectes de referegravencia llocs camins subjectes unitats temporals i aixiacutesuccessivament)

Sestudia el Corpus theoretical paradox de Schmied (1990) adoptant un enfocament basat enprocessos ciacuteclics En general la paradoxa de Schmied eacutes un dilema del tipus lou o la gallina Elcorpus de relacions resultant daquesta investigacioacute hauria de ser representatiu de la llenguautilitzada en els arxius fotogragravefics El problema perograve eacutes que per dur a terme aquesta tascalinvestigador ha de determinar aquestes variables empiacutericament per mitjagrave de lanagravelisi de resultatsdun corpus representatiu Aixiacute doncs les preguntes soacuten per on comenccedilar i quan parar

El megravetode per fer front a aquesta paradoxa adopta el punt de vista de Biber (1993 p 256) segonsel qual el disseny de corpus eacutes un proceacutes ciacuteclic Lestudi actual es va iniciar amb una investigacioacutepreliminar Durant lestudi pilot es van documentar les millores ciacutecliques i es va ampliar iperfeccionar labast de les variables fins que no es van poder detectar varietats addicionals Elscriteris de detencioacute segons el que descriuen Bauer i Aarts (2000 p 32ndash34) determinen que quansaconsegueix la saturacioacute eacutes el moment daturar el proceacutes ciacuteclic En lestudi pilot la saturacioacute va

arribar quan laddicioacute daltres tipus i exemples de relacions i les variables que les defineixen varepresentar nomeacutes una petita diferegravencia respecte de les representacions addicionals de les unitatssemagraventiques i de les afirmacions factuals

6 Validesa i fiabilitat

Se sap poc sobre com cal validar els models ontologravegics Eacutes a dir fins a quin punt un conjunt decompromisos ontologravegics representa fidelment un agravembit dinteregraves La prova de la validesa de lesrelacions previstes en aquest estudi eacutes el grau de precisioacute amb quegrave un exemple de relacioacute(afirmacioacute factual) coincideix amb la naturalesa i les caracteriacutestiques de les relacions ontologravegiquesdefinides en algun dels diversos recursos utilitzats Sutilitzen diferents fonts per a la validacioacute enaquest estudi (vegeu-ne la llista en lapartat 4) Les definicions de relacions en aquests estudisajuden a formar relacions dun a un mdashuna funcioacute de mapatgemdash a partir de les variablesexpressades i codificades en el discurs dels cercadors conservadors i catalogadors sobre elsfenogravemens que les relacions estan inferint

Weber (1990) assenyala que per fer inferegravencies vagravelides a partir dun text els procedimentsutilitzats per a la classificacioacute han de ser fiables estables i consistents La fiabilitat daquest estudies refereix a la consistegravencia del mesurament eacutes a dir el grau en quegrave els individus codifiquen elmateix conjunt de dades de la mateixa manera cada vegada utilitzant un conjunt dinstruccions decodificacioacute en les mateixes condicions En aquest estudi linvestigador es va fer cagraverrec de tota lacodificacioacute de manera que lanagravelisi de la fiabilitat dintracodificacioacute (en lloc dintercodificacioacute) en luacutesdun llibre de codis i de formularis es va portar a terme mitjanccedilant el model de fiabilitat prova isegona prova El mesurament de la fiabilitat eacutes el percentatge dacord entre la codificacioacute dunconjunt de dades en una data i el proceacutes repetit en una data posterior Es van utilitzarestadiacutestiques de Kappa que assignar +10 si la codificacioacute eacutes perfectament fiable i ndash10 quan luacutenicacord que hi ha eacutes fruit de latzar (Wood 2007 Stemler 2001 Shrout Fleiss 1979)

Entre el juliol i lagost de 2010 es va fer una avaluacioacute de la fiabilitat dintracodificacioacute per mesurarlacord en disset de les variables que es van mesurar en el formulari de codificacioacute El coeficient decorreccioacute per atzar per a totes les variables oscilmiddotla entre 0394 i 10 un rang en quegrave laconcentracioacute dacord respecte dels coeficients de Kappa es considera entre just i gairebeacute perfecte

7 Discussioacute

La investigacioacute preliminar demostra que una vegada perfeccionades amb lobjectiu concret de dura terme una investigacioacute sobre relacions les eines ontologravegiques i les tegravecniques danagravelisi decontinguts soacuten eficaces per identificar recollir i classificar els exemples de relacions que despreacuteses poden gravar en un corpus Respecte de la possibilitat que investigacions anteriors nofuncionessin per la seva dependegravencia respecte dels models dindexacioacute de paraules aquest estudipreliminar suggereix que un megravetode de base empiacuterica que utilitzi lanagravelisi de continguts i lontologiapot obtenir duna manera meacutes eficaccedil el significat de les relacions i la semagraventica que hi ha rerelestructura superficial de les paraules

Tanmateix les afirmacions que es poden fer durant la investigacioacute preliminar soacuten limitadesEntendre com els eacutessers humans expressen les relacions i les dificultats de captar i classificar elstipus de relacions eacutes una tasca difiacutecil Moltes vegades els problemes es resolen Daltres sorgeixenproblemes nous que nomeacutes poden ser abordats en investigacions posteriors En la discussioacute quesegueix linvestigador descriu quatre problemes que van sorgir durant la investigacioacute inicial que esvan convertir en agraverees meacutes especialitzades dinvestigacioacute en la tesi Inclouen quumlestionsrelacionades amb labast de lanagravelisi la inferegravencia pragmagravetica les relacions de cas i la previsioacute derelacions

71 Abast i definicioacute

El primer problema eacutes un problema dabast i de definicioacute eacutes a dir quines dades shan deconsiderar adequades per a lanagravelisi de continguts Lantropograveleg visual Malcolm Collier (2001 p 35)sosteacute que en el proceacutes danagravelisi de la informacioacute visual es descobreixen fenogravemens i relacions mai

vistos abans meacutes enllagrave dels liacutemits del que va percebre inicialment el fotogravegraf i el tema de la imatge

Durant les proves inicials de la tegravecnica danagravelisi de continguts nomeacutes es va analitzar el text escrit amagravequina Durant la segona prova la definicioacute de lagravembit dinteregraves es va ampliar per incloure-hi totesles dades visibles a la superfiacutecie del document que incloiumlen per exemple inscripcionsmanuscrites gargots i dibuixos molts dels quals es van considerar rellevants i que requerien unaidentificacioacute i classificacioacute en el formulari de codificacioacute

Aquesta observacioacute suggereix ladopcioacute dun proceacutes analiacutetic meacutes visual per descriure les imatgesque consideri lagravembit dinteregraves per incloure tant el text original com les inscripcions manuscrites enles cogravepies de les fotografies i altres documents relacionats En termes meacutes generals aixograve ens doacutenauna lliccediloacute sobre el valor de les investigacions preliminars per classificar els problemes de codificacioacuteen mostres petites abans de fer front a grans conjunts de dades

72 Inferegravencia pragmagravetica

El problema seguumlent es refereix a la importagravencia de la inferegravencia pragmagravetica i el paper que exerceixa lhora danalitzar continguts La inferegravencia eacutes un tipus de raonament que manipula lesproposicions conegudes per produir-ne de noves (Levesque Lakemeyer 2000) Linvestigador vaampliar aquesta definicioacute tenint en compte el que signifiquen o impliquen les paraules en diferentscontextos mdashla qual cosa es considera el costat pragmagravetic de la inferegravencia Lanagravelisi preliminar vamostrar que una gran quantitat del que es percep en el discurs de descripcioacute duna imatge de fetsinfereix i sextreu a partir de coneixements previs que el parlant i loient tenen sobre els incidentsde referegravencia

Per ajudar a situar el que senteacuten per una descripcioacute duna imatge i com es poden inferir fets apartir de coneixements impliacutecits tingueu en compte la fotografia histograverica que es mostra en la figura7 i la descripcioacute que lacompanya

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 4: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

Figura 1 Correspondegravencia de la mostra dun investigador visual que solmiddotlicita fotografies a la Pittsburgh PhotographicLibrary

En segon lloc els conservadors exerceixen el paper de mediadors descrivint i interpretant elcontingut de les imatges durant el proceacutes de mediacioacute La figura 2 ilmiddotlustra un exemple de lacorrespondegravencia en quegrave el conservador ha de determinar el punt de vista dun fotogravegraf colmiddotlocantuna cagravemera a lescenari que vegi el puacuteblic des de lescenari

Figura 2 Correspondegravencia de mostra del conservador de la Pittsburgh Photographic Library en resposta a laconsulta de la persona que busca imatges

Finalment hi ha el catalogador la funcioacute del qual eacutes descriure les fotografies en els registres delcatagraveleg que soacuten consultats durant la recerca i la recuperacioacute del conservador i cercador dimatgesLes descripcions dels catalogadors com ara la que acompanya el contacte fotogragravefic en la figura 3no nomeacutes tenen dimensions interpretatives i estegravetiques Tambeacute tenen significats complementats enpart per normes de descripcioacute i procediments de processament locals

Figura 3 Lou Malkin Carnegie Library Directors Office 17 de desembre de 1973 Del catagraveleg de fotografies de laPittsburgh Photographic Library (Reproduiumlt amb permiacutes) Carnegie Library of Pittsburgh Tots els drets reservats

Estan prohibits la reproduccioacute o luacutes no autoritzats

La intencioacute de la investigacioacute preliminar no era necessagraveriament analitzar com aquests grupsdescriuen les relacions de maneres diferents encara que aquesta anagravelisi es va dur a terme dunamanera limitada durant la investigacioacute de la tesi Meacutes aviat la intencioacute era provar la viabilitatdaplicar lanagravelisi de continguts i lanagravelisi ontologravegica a muacuteltiples contextos dins dun agravembit Lapartat 3explica en part com linvestigador ho va dur a terme en lespai discursiu dels arxius Lenfocamentestagrave motivat per la creenccedila que la descripcioacute no eacutes un acte solitari sinoacute el resultat de pragravectiquessocials Animem els investigadors que estudiiumln altres agravembits problemagravetics a codificar i analitzar elsseus conjunts de dades en dimensions semblants muacuteltiples a partir de diferents marcs dereferegravencia

4 Metodologia de recerca

Lobjectiu fonamental de la investigacioacute era determinar els beneficis i les dificultats de luacutes detegravecniques danagravelisi de continguts i eines ontologravegiques per dur a terme la investigacioacute sobrerelacions Els objectius de lestudi eren tres 1) desenvolupar i perfeccionar un llibre de codis iformularis per recollir les relacions que ocorren en les descripcions en llenguatge natural 2)perfeccionar luacutes deines i de megravetodes ontologravegics per predir exemples de relacions i organitzar-losen famiacutelies de tipus de relacions i 3) provar la fiabilitat dins de la codificacioacute i la validesa delinstrument

Perquegrave fossin uacutetils en aquesta investigacioacute les eines danagravelisi de continguts i ontologravegiques es vanhaver de perfeccionar per a tasques especiacutefiques i adaptar als problemes particulars sobretot en elcas de lontologia Si lontologia en el sentit modern sha de convertir en una eina uacutetil enbiblioteconomia i documentacioacute necessita un problema pragravectic i especiacutefic per intentar resoldrel

La figura 4 mostra lenfocament metodologravegic desenvolupat durant la investigacioacute preliminar i la tesiposterior Els primers problemes que calia superar es mostren al principi del cicle de treball en eldiagrama El primer desafiament eacutes com sha de fonamentar empiacutericament la identificacioacute i capturade les relacions en les descripcions en llenguatge natural i despreacutes formalitzar-les en un llenguatgedordre superior perquegrave puguin ser utilitzades com a eines per respondre a les preguntesimportants de recerca La solucioacute eacutes comenccedilar amb lanagravelisi de continguts com una forma danagravelisidel llenguatge natural en unitats cada vegada meacutes petites fins a arribar al cor de la relacioacute idespreacutes recollir aquestes conclusions en un corpus de relacions previstes

Figura 4 Arquitectura del corpus i de la creacioacute dontologies

Linvestigador comenccedila utilitzant lanagravelisi de continguts per analitzar el llenguatge natural enproposicions meacutes formals Krippendorff (2004) defineix lanagravelisi de continguts com a researchtechnique for making replicable and valid inferences from texts (or other meaningful matter) to thecontexts of their use (p 18) Sutilitzen instruccions de codificacioacute i formularis danagravelisi decontinguts per codificar les dades de la mostra tant en la investigacioacute preliminar com en la tesi Lafigura 5 mostra un extracte de les instruccions de codificacioacute de relacions temporals

Figura 5 Una part de les instruccions de codificacioacute que ilmiddotlustra com es codifiquen les relacions temporals

Els formularis de codificacioacute es reuneixen en un corpus Un corpus mdashque eacutes essencialment unllibre de fulls de cagravelcul de mida tabloidemdash recull i registra els resultats de les anagravelisis delscontinguts En lapartat 6 es presenta una descripcioacute meacutes detallada del corpus

Una bateria deines ontologravegiques ofereix definicions formals i semiformals que ajuden a predir iclassificar exemples de relacions Algunes de les eines principals utilitzades per a lanagravelisiontologravegica dels tipus de relacions inclouen lanagravelisi de Cooper de les preposicions angleseslocatives (1968) lanagravelisi de Veda Storey de relacions de cas (1993) la biblioteca de relacionsdinclusioacute de classe dIDEF5 (Perakath 1994) la taxonomia de Winston Chaffin i Herrmann de lesrelacions part-tot (1987) lanagravelisi ontologravegica de relacions de Wand Storey i Weber (1999) irelacions de cas de Sowa (2000) Aquests recursos tenen un paper important en la construccioacute delentorn en quegrave es porta a terme lanagravelisi Ajuden a explicar com es determinen les relacions dacordamb paraules clau que sutilitzen per inferir les relacions

Lanagravelisi ontologravegica contribueix a determinar la categoria de relacions a quegrave pertany un exempleparticular Durant la codificacioacute i lanagravelisi de continguts de lestudi preliminar es van aplicar a prioriset tipus de relacions

1 Atribucioacute2 Cas3 Inclusioacute4 Metoniacutemia5 Espacial6 Sinoniacutemia7 Temporal

Tot i que estagrave fora de labast daquest document presentar els resultats de la tesi eacutes convenientassenyalar que durant lanagravelisi posterior es van afegir algunes categories a la llista i sen van treuredaltres La categoria de sinoniacutemia va desaparegraveixer Tot i que els sinogravenims soacuten relacions importantsper al processament del llenguatge natural i de components legravexics semagraventics no tenen lloc enontologies en quegrave els conceptes no han de ser ambigus La inclusioacute tambeacute va desaparegraveixer Encaraque el paper de la inclusioacute de classes en una ontologia eacutes fonamental per construir taxonomies(subtipus estagravendard i relacions de supertipus) lanagravelisi de les dades va demostrar que les relacionsdinclusioacute de classe no soacuten un fenomen expliacutecit en les descripcions dimatges Es va afegir el tipusde relacioacute dexemple per representar les relacions que associen exemples amb classes Finalmentes va descobrir que les relacions de parentiu es produeixen sovint en lagravembit de les descripcionsdimatges de manera que el parentiu es va afegir a la llista com una nova categoria de tipus derelacions

El proceacutes de descobriment de relacions que es mostra en la figura 4 eacutes circular perquegrave la realitateacutes complicada De vegades una formalitzacioacute no eacutes clara o no hi ha una regla que expliqui el tipusde relacioacute que sorgeix Daltres la relacioacute no eacutes prototiacutepica i en aquest cas linvestigador o beacuteassigna una relacioacute a una categoria sabent perfectament beacute que els atributs assignats a lacategoria no sapliquen en tots els casos o beacute crea una particioacute meacutes niacutetida que permeti entendreels casos liacutemit Al final linvestigador aconsegueix una ontologia de tipus de relacions

En resum selabora un conjunt bagravesic deines i sadapta a la investigacioacute sistemagravetica del problemade les relacions Aquestes inclouen lanagravelisi de continguts que sutilitza per analitzar el llenguatgenatural en afirmacions factuals meacutes formals un corpus que organitza i estructura lagravembit dinteregraves iuna bateria deines ontologravegiques que sutilitzen per analitzar i determinar els tipus de relacions

5 Construccioacute del corpus

En aquest apartat sexplica amb meacutes detall la naturalesa i el propogravesit dun corpus Un corpuslinguumliacutestic es defineix com the body of written or spoken material upon which linguistic analysis isbased (Oxford English dictionary online marccedil de 2011) El corpus recopilat en aquest estudi estagravedissenyat per a un propogravesit molt concret ajudar en lanagravelisi de les relacions expressades com apart del discurs en la PPL El corpus es crea manualment i funciona a traveacutes de tres etapesdanagravelisi

Primera etapa En la primera etapa danagravelisi es fa una lectura acurada de tot el contingut delincident Es determina quina part del text descriu el contingut de la imatge i despreacutes es grava comuna unitat semagraventica i shi assigna un nuacutemero dunitat semagraventica

Segona etapa La segona etapa de lanagravelisi consisteix a analitzar la unitat semagraventica en lesafirmacions factuals que representen les relacions Saplica una notacioacute especial anomenada prefixde notacioacute que estableix el terme de relacioacute al davant de manera que es pot veure fagravecilmentLlavors els arguments de relacioacute es colmiddotloquen entre paregraventesis separats per comes La figura 6 eacutesun extracte del corpus de relacions Ilmiddotlustra les unitats semagraventiques de la mostra juntament ambles afirmacions factuals corresponents

Figura 6 Mostra del corpus de relacions que ilmiddotlustra les unitats semagraventiques originals de la correspondegravencia delcercador dimatges (columna 5) i les afirmacions factuals que es van analitzar a partir del llenguatge natural original

(columna 8)

Tercera etapa La tercera i uacuteltima etapa danagravelisi en el corpus de relacions consisteix a analitzarles afirmacions factuals per determinar quins tipus de relacions hi soacuten presents i quins soacuten els seuscomponents (temes objectes de referegravencia llocs camins subjectes unitats temporals i aixiacutesuccessivament)

Sestudia el Corpus theoretical paradox de Schmied (1990) adoptant un enfocament basat enprocessos ciacuteclics En general la paradoxa de Schmied eacutes un dilema del tipus lou o la gallina Elcorpus de relacions resultant daquesta investigacioacute hauria de ser representatiu de la llenguautilitzada en els arxius fotogragravefics El problema perograve eacutes que per dur a terme aquesta tascalinvestigador ha de determinar aquestes variables empiacutericament per mitjagrave de lanagravelisi de resultatsdun corpus representatiu Aixiacute doncs les preguntes soacuten per on comenccedilar i quan parar

El megravetode per fer front a aquesta paradoxa adopta el punt de vista de Biber (1993 p 256) segonsel qual el disseny de corpus eacutes un proceacutes ciacuteclic Lestudi actual es va iniciar amb una investigacioacutepreliminar Durant lestudi pilot es van documentar les millores ciacutecliques i es va ampliar iperfeccionar labast de les variables fins que no es van poder detectar varietats addicionals Elscriteris de detencioacute segons el que descriuen Bauer i Aarts (2000 p 32ndash34) determinen que quansaconsegueix la saturacioacute eacutes el moment daturar el proceacutes ciacuteclic En lestudi pilot la saturacioacute va

arribar quan laddicioacute daltres tipus i exemples de relacions i les variables que les defineixen varepresentar nomeacutes una petita diferegravencia respecte de les representacions addicionals de les unitatssemagraventiques i de les afirmacions factuals

6 Validesa i fiabilitat

Se sap poc sobre com cal validar els models ontologravegics Eacutes a dir fins a quin punt un conjunt decompromisos ontologravegics representa fidelment un agravembit dinteregraves La prova de la validesa de lesrelacions previstes en aquest estudi eacutes el grau de precisioacute amb quegrave un exemple de relacioacute(afirmacioacute factual) coincideix amb la naturalesa i les caracteriacutestiques de les relacions ontologravegiquesdefinides en algun dels diversos recursos utilitzats Sutilitzen diferents fonts per a la validacioacute enaquest estudi (vegeu-ne la llista en lapartat 4) Les definicions de relacions en aquests estudisajuden a formar relacions dun a un mdashuna funcioacute de mapatgemdash a partir de les variablesexpressades i codificades en el discurs dels cercadors conservadors i catalogadors sobre elsfenogravemens que les relacions estan inferint

Weber (1990) assenyala que per fer inferegravencies vagravelides a partir dun text els procedimentsutilitzats per a la classificacioacute han de ser fiables estables i consistents La fiabilitat daquest estudies refereix a la consistegravencia del mesurament eacutes a dir el grau en quegrave els individus codifiquen elmateix conjunt de dades de la mateixa manera cada vegada utilitzant un conjunt dinstruccions decodificacioacute en les mateixes condicions En aquest estudi linvestigador es va fer cagraverrec de tota lacodificacioacute de manera que lanagravelisi de la fiabilitat dintracodificacioacute (en lloc dintercodificacioacute) en luacutesdun llibre de codis i de formularis es va portar a terme mitjanccedilant el model de fiabilitat prova isegona prova El mesurament de la fiabilitat eacutes el percentatge dacord entre la codificacioacute dunconjunt de dades en una data i el proceacutes repetit en una data posterior Es van utilitzarestadiacutestiques de Kappa que assignar +10 si la codificacioacute eacutes perfectament fiable i ndash10 quan luacutenicacord que hi ha eacutes fruit de latzar (Wood 2007 Stemler 2001 Shrout Fleiss 1979)

Entre el juliol i lagost de 2010 es va fer una avaluacioacute de la fiabilitat dintracodificacioacute per mesurarlacord en disset de les variables que es van mesurar en el formulari de codificacioacute El coeficient decorreccioacute per atzar per a totes les variables oscilmiddotla entre 0394 i 10 un rang en quegrave laconcentracioacute dacord respecte dels coeficients de Kappa es considera entre just i gairebeacute perfecte

7 Discussioacute

La investigacioacute preliminar demostra que una vegada perfeccionades amb lobjectiu concret de dura terme una investigacioacute sobre relacions les eines ontologravegiques i les tegravecniques danagravelisi decontinguts soacuten eficaces per identificar recollir i classificar els exemples de relacions que despreacuteses poden gravar en un corpus Respecte de la possibilitat que investigacions anteriors nofuncionessin per la seva dependegravencia respecte dels models dindexacioacute de paraules aquest estudipreliminar suggereix que un megravetode de base empiacuterica que utilitzi lanagravelisi de continguts i lontologiapot obtenir duna manera meacutes eficaccedil el significat de les relacions i la semagraventica que hi ha rerelestructura superficial de les paraules

Tanmateix les afirmacions que es poden fer durant la investigacioacute preliminar soacuten limitadesEntendre com els eacutessers humans expressen les relacions i les dificultats de captar i classificar elstipus de relacions eacutes una tasca difiacutecil Moltes vegades els problemes es resolen Daltres sorgeixenproblemes nous que nomeacutes poden ser abordats en investigacions posteriors En la discussioacute quesegueix linvestigador descriu quatre problemes que van sorgir durant la investigacioacute inicial que esvan convertir en agraverees meacutes especialitzades dinvestigacioacute en la tesi Inclouen quumlestionsrelacionades amb labast de lanagravelisi la inferegravencia pragmagravetica les relacions de cas i la previsioacute derelacions

71 Abast i definicioacute

El primer problema eacutes un problema dabast i de definicioacute eacutes a dir quines dades shan deconsiderar adequades per a lanagravelisi de continguts Lantropograveleg visual Malcolm Collier (2001 p 35)sosteacute que en el proceacutes danagravelisi de la informacioacute visual es descobreixen fenogravemens i relacions mai

vistos abans meacutes enllagrave dels liacutemits del que va percebre inicialment el fotogravegraf i el tema de la imatge

Durant les proves inicials de la tegravecnica danagravelisi de continguts nomeacutes es va analitzar el text escrit amagravequina Durant la segona prova la definicioacute de lagravembit dinteregraves es va ampliar per incloure-hi totesles dades visibles a la superfiacutecie del document que incloiumlen per exemple inscripcionsmanuscrites gargots i dibuixos molts dels quals es van considerar rellevants i que requerien unaidentificacioacute i classificacioacute en el formulari de codificacioacute

Aquesta observacioacute suggereix ladopcioacute dun proceacutes analiacutetic meacutes visual per descriure les imatgesque consideri lagravembit dinteregraves per incloure tant el text original com les inscripcions manuscrites enles cogravepies de les fotografies i altres documents relacionats En termes meacutes generals aixograve ens doacutenauna lliccediloacute sobre el valor de les investigacions preliminars per classificar els problemes de codificacioacuteen mostres petites abans de fer front a grans conjunts de dades

72 Inferegravencia pragmagravetica

El problema seguumlent es refereix a la importagravencia de la inferegravencia pragmagravetica i el paper que exerceixa lhora danalitzar continguts La inferegravencia eacutes un tipus de raonament que manipula lesproposicions conegudes per produir-ne de noves (Levesque Lakemeyer 2000) Linvestigador vaampliar aquesta definicioacute tenint en compte el que signifiquen o impliquen les paraules en diferentscontextos mdashla qual cosa es considera el costat pragmagravetic de la inferegravencia Lanagravelisi preliminar vamostrar que una gran quantitat del que es percep en el discurs de descripcioacute duna imatge de fetsinfereix i sextreu a partir de coneixements previs que el parlant i loient tenen sobre els incidentsde referegravencia

Per ajudar a situar el que senteacuten per una descripcioacute duna imatge i com es poden inferir fets apartir de coneixements impliacutecits tingueu en compte la fotografia histograverica que es mostra en la figura7 i la descripcioacute que lacompanya

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 5: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

Figura 2 Correspondegravencia de mostra del conservador de la Pittsburgh Photographic Library en resposta a laconsulta de la persona que busca imatges

Finalment hi ha el catalogador la funcioacute del qual eacutes descriure les fotografies en els registres delcatagraveleg que soacuten consultats durant la recerca i la recuperacioacute del conservador i cercador dimatgesLes descripcions dels catalogadors com ara la que acompanya el contacte fotogragravefic en la figura 3no nomeacutes tenen dimensions interpretatives i estegravetiques Tambeacute tenen significats complementats enpart per normes de descripcioacute i procediments de processament locals

Figura 3 Lou Malkin Carnegie Library Directors Office 17 de desembre de 1973 Del catagraveleg de fotografies de laPittsburgh Photographic Library (Reproduiumlt amb permiacutes) Carnegie Library of Pittsburgh Tots els drets reservats

Estan prohibits la reproduccioacute o luacutes no autoritzats

La intencioacute de la investigacioacute preliminar no era necessagraveriament analitzar com aquests grupsdescriuen les relacions de maneres diferents encara que aquesta anagravelisi es va dur a terme dunamanera limitada durant la investigacioacute de la tesi Meacutes aviat la intencioacute era provar la viabilitatdaplicar lanagravelisi de continguts i lanagravelisi ontologravegica a muacuteltiples contextos dins dun agravembit Lapartat 3explica en part com linvestigador ho va dur a terme en lespai discursiu dels arxius Lenfocamentestagrave motivat per la creenccedila que la descripcioacute no eacutes un acte solitari sinoacute el resultat de pragravectiquessocials Animem els investigadors que estudiiumln altres agravembits problemagravetics a codificar i analitzar elsseus conjunts de dades en dimensions semblants muacuteltiples a partir de diferents marcs dereferegravencia

4 Metodologia de recerca

Lobjectiu fonamental de la investigacioacute era determinar els beneficis i les dificultats de luacutes detegravecniques danagravelisi de continguts i eines ontologravegiques per dur a terme la investigacioacute sobrerelacions Els objectius de lestudi eren tres 1) desenvolupar i perfeccionar un llibre de codis iformularis per recollir les relacions que ocorren en les descripcions en llenguatge natural 2)perfeccionar luacutes deines i de megravetodes ontologravegics per predir exemples de relacions i organitzar-losen famiacutelies de tipus de relacions i 3) provar la fiabilitat dins de la codificacioacute i la validesa delinstrument

Perquegrave fossin uacutetils en aquesta investigacioacute les eines danagravelisi de continguts i ontologravegiques es vanhaver de perfeccionar per a tasques especiacutefiques i adaptar als problemes particulars sobretot en elcas de lontologia Si lontologia en el sentit modern sha de convertir en una eina uacutetil enbiblioteconomia i documentacioacute necessita un problema pragravectic i especiacutefic per intentar resoldrel

La figura 4 mostra lenfocament metodologravegic desenvolupat durant la investigacioacute preliminar i la tesiposterior Els primers problemes que calia superar es mostren al principi del cicle de treball en eldiagrama El primer desafiament eacutes com sha de fonamentar empiacutericament la identificacioacute i capturade les relacions en les descripcions en llenguatge natural i despreacutes formalitzar-les en un llenguatgedordre superior perquegrave puguin ser utilitzades com a eines per respondre a les preguntesimportants de recerca La solucioacute eacutes comenccedilar amb lanagravelisi de continguts com una forma danagravelisidel llenguatge natural en unitats cada vegada meacutes petites fins a arribar al cor de la relacioacute idespreacutes recollir aquestes conclusions en un corpus de relacions previstes

Figura 4 Arquitectura del corpus i de la creacioacute dontologies

Linvestigador comenccedila utilitzant lanagravelisi de continguts per analitzar el llenguatge natural enproposicions meacutes formals Krippendorff (2004) defineix lanagravelisi de continguts com a researchtechnique for making replicable and valid inferences from texts (or other meaningful matter) to thecontexts of their use (p 18) Sutilitzen instruccions de codificacioacute i formularis danagravelisi decontinguts per codificar les dades de la mostra tant en la investigacioacute preliminar com en la tesi Lafigura 5 mostra un extracte de les instruccions de codificacioacute de relacions temporals

Figura 5 Una part de les instruccions de codificacioacute que ilmiddotlustra com es codifiquen les relacions temporals

Els formularis de codificacioacute es reuneixen en un corpus Un corpus mdashque eacutes essencialment unllibre de fulls de cagravelcul de mida tabloidemdash recull i registra els resultats de les anagravelisis delscontinguts En lapartat 6 es presenta una descripcioacute meacutes detallada del corpus

Una bateria deines ontologravegiques ofereix definicions formals i semiformals que ajuden a predir iclassificar exemples de relacions Algunes de les eines principals utilitzades per a lanagravelisiontologravegica dels tipus de relacions inclouen lanagravelisi de Cooper de les preposicions angleseslocatives (1968) lanagravelisi de Veda Storey de relacions de cas (1993) la biblioteca de relacionsdinclusioacute de classe dIDEF5 (Perakath 1994) la taxonomia de Winston Chaffin i Herrmann de lesrelacions part-tot (1987) lanagravelisi ontologravegica de relacions de Wand Storey i Weber (1999) irelacions de cas de Sowa (2000) Aquests recursos tenen un paper important en la construccioacute delentorn en quegrave es porta a terme lanagravelisi Ajuden a explicar com es determinen les relacions dacordamb paraules clau que sutilitzen per inferir les relacions

Lanagravelisi ontologravegica contribueix a determinar la categoria de relacions a quegrave pertany un exempleparticular Durant la codificacioacute i lanagravelisi de continguts de lestudi preliminar es van aplicar a prioriset tipus de relacions

1 Atribucioacute2 Cas3 Inclusioacute4 Metoniacutemia5 Espacial6 Sinoniacutemia7 Temporal

Tot i que estagrave fora de labast daquest document presentar els resultats de la tesi eacutes convenientassenyalar que durant lanagravelisi posterior es van afegir algunes categories a la llista i sen van treuredaltres La categoria de sinoniacutemia va desaparegraveixer Tot i que els sinogravenims soacuten relacions importantsper al processament del llenguatge natural i de components legravexics semagraventics no tenen lloc enontologies en quegrave els conceptes no han de ser ambigus La inclusioacute tambeacute va desaparegraveixer Encaraque el paper de la inclusioacute de classes en una ontologia eacutes fonamental per construir taxonomies(subtipus estagravendard i relacions de supertipus) lanagravelisi de les dades va demostrar que les relacionsdinclusioacute de classe no soacuten un fenomen expliacutecit en les descripcions dimatges Es va afegir el tipusde relacioacute dexemple per representar les relacions que associen exemples amb classes Finalmentes va descobrir que les relacions de parentiu es produeixen sovint en lagravembit de les descripcionsdimatges de manera que el parentiu es va afegir a la llista com una nova categoria de tipus derelacions

El proceacutes de descobriment de relacions que es mostra en la figura 4 eacutes circular perquegrave la realitateacutes complicada De vegades una formalitzacioacute no eacutes clara o no hi ha una regla que expliqui el tipusde relacioacute que sorgeix Daltres la relacioacute no eacutes prototiacutepica i en aquest cas linvestigador o beacuteassigna una relacioacute a una categoria sabent perfectament beacute que els atributs assignats a lacategoria no sapliquen en tots els casos o beacute crea una particioacute meacutes niacutetida que permeti entendreels casos liacutemit Al final linvestigador aconsegueix una ontologia de tipus de relacions

En resum selabora un conjunt bagravesic deines i sadapta a la investigacioacute sistemagravetica del problemade les relacions Aquestes inclouen lanagravelisi de continguts que sutilitza per analitzar el llenguatgenatural en afirmacions factuals meacutes formals un corpus que organitza i estructura lagravembit dinteregraves iuna bateria deines ontologravegiques que sutilitzen per analitzar i determinar els tipus de relacions

5 Construccioacute del corpus

En aquest apartat sexplica amb meacutes detall la naturalesa i el propogravesit dun corpus Un corpuslinguumliacutestic es defineix com the body of written or spoken material upon which linguistic analysis isbased (Oxford English dictionary online marccedil de 2011) El corpus recopilat en aquest estudi estagravedissenyat per a un propogravesit molt concret ajudar en lanagravelisi de les relacions expressades com apart del discurs en la PPL El corpus es crea manualment i funciona a traveacutes de tres etapesdanagravelisi

Primera etapa En la primera etapa danagravelisi es fa una lectura acurada de tot el contingut delincident Es determina quina part del text descriu el contingut de la imatge i despreacutes es grava comuna unitat semagraventica i shi assigna un nuacutemero dunitat semagraventica

Segona etapa La segona etapa de lanagravelisi consisteix a analitzar la unitat semagraventica en lesafirmacions factuals que representen les relacions Saplica una notacioacute especial anomenada prefixde notacioacute que estableix el terme de relacioacute al davant de manera que es pot veure fagravecilmentLlavors els arguments de relacioacute es colmiddotloquen entre paregraventesis separats per comes La figura 6 eacutesun extracte del corpus de relacions Ilmiddotlustra les unitats semagraventiques de la mostra juntament ambles afirmacions factuals corresponents

Figura 6 Mostra del corpus de relacions que ilmiddotlustra les unitats semagraventiques originals de la correspondegravencia delcercador dimatges (columna 5) i les afirmacions factuals que es van analitzar a partir del llenguatge natural original

(columna 8)

Tercera etapa La tercera i uacuteltima etapa danagravelisi en el corpus de relacions consisteix a analitzarles afirmacions factuals per determinar quins tipus de relacions hi soacuten presents i quins soacuten els seuscomponents (temes objectes de referegravencia llocs camins subjectes unitats temporals i aixiacutesuccessivament)

Sestudia el Corpus theoretical paradox de Schmied (1990) adoptant un enfocament basat enprocessos ciacuteclics En general la paradoxa de Schmied eacutes un dilema del tipus lou o la gallina Elcorpus de relacions resultant daquesta investigacioacute hauria de ser representatiu de la llenguautilitzada en els arxius fotogragravefics El problema perograve eacutes que per dur a terme aquesta tascalinvestigador ha de determinar aquestes variables empiacutericament per mitjagrave de lanagravelisi de resultatsdun corpus representatiu Aixiacute doncs les preguntes soacuten per on comenccedilar i quan parar

El megravetode per fer front a aquesta paradoxa adopta el punt de vista de Biber (1993 p 256) segonsel qual el disseny de corpus eacutes un proceacutes ciacuteclic Lestudi actual es va iniciar amb una investigacioacutepreliminar Durant lestudi pilot es van documentar les millores ciacutecliques i es va ampliar iperfeccionar labast de les variables fins que no es van poder detectar varietats addicionals Elscriteris de detencioacute segons el que descriuen Bauer i Aarts (2000 p 32ndash34) determinen que quansaconsegueix la saturacioacute eacutes el moment daturar el proceacutes ciacuteclic En lestudi pilot la saturacioacute va

arribar quan laddicioacute daltres tipus i exemples de relacions i les variables que les defineixen varepresentar nomeacutes una petita diferegravencia respecte de les representacions addicionals de les unitatssemagraventiques i de les afirmacions factuals

6 Validesa i fiabilitat

Se sap poc sobre com cal validar els models ontologravegics Eacutes a dir fins a quin punt un conjunt decompromisos ontologravegics representa fidelment un agravembit dinteregraves La prova de la validesa de lesrelacions previstes en aquest estudi eacutes el grau de precisioacute amb quegrave un exemple de relacioacute(afirmacioacute factual) coincideix amb la naturalesa i les caracteriacutestiques de les relacions ontologravegiquesdefinides en algun dels diversos recursos utilitzats Sutilitzen diferents fonts per a la validacioacute enaquest estudi (vegeu-ne la llista en lapartat 4) Les definicions de relacions en aquests estudisajuden a formar relacions dun a un mdashuna funcioacute de mapatgemdash a partir de les variablesexpressades i codificades en el discurs dels cercadors conservadors i catalogadors sobre elsfenogravemens que les relacions estan inferint

Weber (1990) assenyala que per fer inferegravencies vagravelides a partir dun text els procedimentsutilitzats per a la classificacioacute han de ser fiables estables i consistents La fiabilitat daquest estudies refereix a la consistegravencia del mesurament eacutes a dir el grau en quegrave els individus codifiquen elmateix conjunt de dades de la mateixa manera cada vegada utilitzant un conjunt dinstruccions decodificacioacute en les mateixes condicions En aquest estudi linvestigador es va fer cagraverrec de tota lacodificacioacute de manera que lanagravelisi de la fiabilitat dintracodificacioacute (en lloc dintercodificacioacute) en luacutesdun llibre de codis i de formularis es va portar a terme mitjanccedilant el model de fiabilitat prova isegona prova El mesurament de la fiabilitat eacutes el percentatge dacord entre la codificacioacute dunconjunt de dades en una data i el proceacutes repetit en una data posterior Es van utilitzarestadiacutestiques de Kappa que assignar +10 si la codificacioacute eacutes perfectament fiable i ndash10 quan luacutenicacord que hi ha eacutes fruit de latzar (Wood 2007 Stemler 2001 Shrout Fleiss 1979)

Entre el juliol i lagost de 2010 es va fer una avaluacioacute de la fiabilitat dintracodificacioacute per mesurarlacord en disset de les variables que es van mesurar en el formulari de codificacioacute El coeficient decorreccioacute per atzar per a totes les variables oscilmiddotla entre 0394 i 10 un rang en quegrave laconcentracioacute dacord respecte dels coeficients de Kappa es considera entre just i gairebeacute perfecte

7 Discussioacute

La investigacioacute preliminar demostra que una vegada perfeccionades amb lobjectiu concret de dura terme una investigacioacute sobre relacions les eines ontologravegiques i les tegravecniques danagravelisi decontinguts soacuten eficaces per identificar recollir i classificar els exemples de relacions que despreacuteses poden gravar en un corpus Respecte de la possibilitat que investigacions anteriors nofuncionessin per la seva dependegravencia respecte dels models dindexacioacute de paraules aquest estudipreliminar suggereix que un megravetode de base empiacuterica que utilitzi lanagravelisi de continguts i lontologiapot obtenir duna manera meacutes eficaccedil el significat de les relacions i la semagraventica que hi ha rerelestructura superficial de les paraules

Tanmateix les afirmacions que es poden fer durant la investigacioacute preliminar soacuten limitadesEntendre com els eacutessers humans expressen les relacions i les dificultats de captar i classificar elstipus de relacions eacutes una tasca difiacutecil Moltes vegades els problemes es resolen Daltres sorgeixenproblemes nous que nomeacutes poden ser abordats en investigacions posteriors En la discussioacute quesegueix linvestigador descriu quatre problemes que van sorgir durant la investigacioacute inicial que esvan convertir en agraverees meacutes especialitzades dinvestigacioacute en la tesi Inclouen quumlestionsrelacionades amb labast de lanagravelisi la inferegravencia pragmagravetica les relacions de cas i la previsioacute derelacions

71 Abast i definicioacute

El primer problema eacutes un problema dabast i de definicioacute eacutes a dir quines dades shan deconsiderar adequades per a lanagravelisi de continguts Lantropograveleg visual Malcolm Collier (2001 p 35)sosteacute que en el proceacutes danagravelisi de la informacioacute visual es descobreixen fenogravemens i relacions mai

vistos abans meacutes enllagrave dels liacutemits del que va percebre inicialment el fotogravegraf i el tema de la imatge

Durant les proves inicials de la tegravecnica danagravelisi de continguts nomeacutes es va analitzar el text escrit amagravequina Durant la segona prova la definicioacute de lagravembit dinteregraves es va ampliar per incloure-hi totesles dades visibles a la superfiacutecie del document que incloiumlen per exemple inscripcionsmanuscrites gargots i dibuixos molts dels quals es van considerar rellevants i que requerien unaidentificacioacute i classificacioacute en el formulari de codificacioacute

Aquesta observacioacute suggereix ladopcioacute dun proceacutes analiacutetic meacutes visual per descriure les imatgesque consideri lagravembit dinteregraves per incloure tant el text original com les inscripcions manuscrites enles cogravepies de les fotografies i altres documents relacionats En termes meacutes generals aixograve ens doacutenauna lliccediloacute sobre el valor de les investigacions preliminars per classificar els problemes de codificacioacuteen mostres petites abans de fer front a grans conjunts de dades

72 Inferegravencia pragmagravetica

El problema seguumlent es refereix a la importagravencia de la inferegravencia pragmagravetica i el paper que exerceixa lhora danalitzar continguts La inferegravencia eacutes un tipus de raonament que manipula lesproposicions conegudes per produir-ne de noves (Levesque Lakemeyer 2000) Linvestigador vaampliar aquesta definicioacute tenint en compte el que signifiquen o impliquen les paraules en diferentscontextos mdashla qual cosa es considera el costat pragmagravetic de la inferegravencia Lanagravelisi preliminar vamostrar que una gran quantitat del que es percep en el discurs de descripcioacute duna imatge de fetsinfereix i sextreu a partir de coneixements previs que el parlant i loient tenen sobre els incidentsde referegravencia

Per ajudar a situar el que senteacuten per una descripcioacute duna imatge i com es poden inferir fets apartir de coneixements impliacutecits tingueu en compte la fotografia histograverica que es mostra en la figura7 i la descripcioacute que lacompanya

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 6: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

4 Metodologia de recerca

Lobjectiu fonamental de la investigacioacute era determinar els beneficis i les dificultats de luacutes detegravecniques danagravelisi de continguts i eines ontologravegiques per dur a terme la investigacioacute sobrerelacions Els objectius de lestudi eren tres 1) desenvolupar i perfeccionar un llibre de codis iformularis per recollir les relacions que ocorren en les descripcions en llenguatge natural 2)perfeccionar luacutes deines i de megravetodes ontologravegics per predir exemples de relacions i organitzar-losen famiacutelies de tipus de relacions i 3) provar la fiabilitat dins de la codificacioacute i la validesa delinstrument

Perquegrave fossin uacutetils en aquesta investigacioacute les eines danagravelisi de continguts i ontologravegiques es vanhaver de perfeccionar per a tasques especiacutefiques i adaptar als problemes particulars sobretot en elcas de lontologia Si lontologia en el sentit modern sha de convertir en una eina uacutetil enbiblioteconomia i documentacioacute necessita un problema pragravectic i especiacutefic per intentar resoldrel

La figura 4 mostra lenfocament metodologravegic desenvolupat durant la investigacioacute preliminar i la tesiposterior Els primers problemes que calia superar es mostren al principi del cicle de treball en eldiagrama El primer desafiament eacutes com sha de fonamentar empiacutericament la identificacioacute i capturade les relacions en les descripcions en llenguatge natural i despreacutes formalitzar-les en un llenguatgedordre superior perquegrave puguin ser utilitzades com a eines per respondre a les preguntesimportants de recerca La solucioacute eacutes comenccedilar amb lanagravelisi de continguts com una forma danagravelisidel llenguatge natural en unitats cada vegada meacutes petites fins a arribar al cor de la relacioacute idespreacutes recollir aquestes conclusions en un corpus de relacions previstes

Figura 4 Arquitectura del corpus i de la creacioacute dontologies

Linvestigador comenccedila utilitzant lanagravelisi de continguts per analitzar el llenguatge natural enproposicions meacutes formals Krippendorff (2004) defineix lanagravelisi de continguts com a researchtechnique for making replicable and valid inferences from texts (or other meaningful matter) to thecontexts of their use (p 18) Sutilitzen instruccions de codificacioacute i formularis danagravelisi decontinguts per codificar les dades de la mostra tant en la investigacioacute preliminar com en la tesi Lafigura 5 mostra un extracte de les instruccions de codificacioacute de relacions temporals

Figura 5 Una part de les instruccions de codificacioacute que ilmiddotlustra com es codifiquen les relacions temporals

Els formularis de codificacioacute es reuneixen en un corpus Un corpus mdashque eacutes essencialment unllibre de fulls de cagravelcul de mida tabloidemdash recull i registra els resultats de les anagravelisis delscontinguts En lapartat 6 es presenta una descripcioacute meacutes detallada del corpus

Una bateria deines ontologravegiques ofereix definicions formals i semiformals que ajuden a predir iclassificar exemples de relacions Algunes de les eines principals utilitzades per a lanagravelisiontologravegica dels tipus de relacions inclouen lanagravelisi de Cooper de les preposicions angleseslocatives (1968) lanagravelisi de Veda Storey de relacions de cas (1993) la biblioteca de relacionsdinclusioacute de classe dIDEF5 (Perakath 1994) la taxonomia de Winston Chaffin i Herrmann de lesrelacions part-tot (1987) lanagravelisi ontologravegica de relacions de Wand Storey i Weber (1999) irelacions de cas de Sowa (2000) Aquests recursos tenen un paper important en la construccioacute delentorn en quegrave es porta a terme lanagravelisi Ajuden a explicar com es determinen les relacions dacordamb paraules clau que sutilitzen per inferir les relacions

Lanagravelisi ontologravegica contribueix a determinar la categoria de relacions a quegrave pertany un exempleparticular Durant la codificacioacute i lanagravelisi de continguts de lestudi preliminar es van aplicar a prioriset tipus de relacions

1 Atribucioacute2 Cas3 Inclusioacute4 Metoniacutemia5 Espacial6 Sinoniacutemia7 Temporal

Tot i que estagrave fora de labast daquest document presentar els resultats de la tesi eacutes convenientassenyalar que durant lanagravelisi posterior es van afegir algunes categories a la llista i sen van treuredaltres La categoria de sinoniacutemia va desaparegraveixer Tot i que els sinogravenims soacuten relacions importantsper al processament del llenguatge natural i de components legravexics semagraventics no tenen lloc enontologies en quegrave els conceptes no han de ser ambigus La inclusioacute tambeacute va desaparegraveixer Encaraque el paper de la inclusioacute de classes en una ontologia eacutes fonamental per construir taxonomies(subtipus estagravendard i relacions de supertipus) lanagravelisi de les dades va demostrar que les relacionsdinclusioacute de classe no soacuten un fenomen expliacutecit en les descripcions dimatges Es va afegir el tipusde relacioacute dexemple per representar les relacions que associen exemples amb classes Finalmentes va descobrir que les relacions de parentiu es produeixen sovint en lagravembit de les descripcionsdimatges de manera que el parentiu es va afegir a la llista com una nova categoria de tipus derelacions

El proceacutes de descobriment de relacions que es mostra en la figura 4 eacutes circular perquegrave la realitateacutes complicada De vegades una formalitzacioacute no eacutes clara o no hi ha una regla que expliqui el tipusde relacioacute que sorgeix Daltres la relacioacute no eacutes prototiacutepica i en aquest cas linvestigador o beacuteassigna una relacioacute a una categoria sabent perfectament beacute que els atributs assignats a lacategoria no sapliquen en tots els casos o beacute crea una particioacute meacutes niacutetida que permeti entendreels casos liacutemit Al final linvestigador aconsegueix una ontologia de tipus de relacions

En resum selabora un conjunt bagravesic deines i sadapta a la investigacioacute sistemagravetica del problemade les relacions Aquestes inclouen lanagravelisi de continguts que sutilitza per analitzar el llenguatgenatural en afirmacions factuals meacutes formals un corpus que organitza i estructura lagravembit dinteregraves iuna bateria deines ontologravegiques que sutilitzen per analitzar i determinar els tipus de relacions

5 Construccioacute del corpus

En aquest apartat sexplica amb meacutes detall la naturalesa i el propogravesit dun corpus Un corpuslinguumliacutestic es defineix com the body of written or spoken material upon which linguistic analysis isbased (Oxford English dictionary online marccedil de 2011) El corpus recopilat en aquest estudi estagravedissenyat per a un propogravesit molt concret ajudar en lanagravelisi de les relacions expressades com apart del discurs en la PPL El corpus es crea manualment i funciona a traveacutes de tres etapesdanagravelisi

Primera etapa En la primera etapa danagravelisi es fa una lectura acurada de tot el contingut delincident Es determina quina part del text descriu el contingut de la imatge i despreacutes es grava comuna unitat semagraventica i shi assigna un nuacutemero dunitat semagraventica

Segona etapa La segona etapa de lanagravelisi consisteix a analitzar la unitat semagraventica en lesafirmacions factuals que representen les relacions Saplica una notacioacute especial anomenada prefixde notacioacute que estableix el terme de relacioacute al davant de manera que es pot veure fagravecilmentLlavors els arguments de relacioacute es colmiddotloquen entre paregraventesis separats per comes La figura 6 eacutesun extracte del corpus de relacions Ilmiddotlustra les unitats semagraventiques de la mostra juntament ambles afirmacions factuals corresponents

Figura 6 Mostra del corpus de relacions que ilmiddotlustra les unitats semagraventiques originals de la correspondegravencia delcercador dimatges (columna 5) i les afirmacions factuals que es van analitzar a partir del llenguatge natural original

(columna 8)

Tercera etapa La tercera i uacuteltima etapa danagravelisi en el corpus de relacions consisteix a analitzarles afirmacions factuals per determinar quins tipus de relacions hi soacuten presents i quins soacuten els seuscomponents (temes objectes de referegravencia llocs camins subjectes unitats temporals i aixiacutesuccessivament)

Sestudia el Corpus theoretical paradox de Schmied (1990) adoptant un enfocament basat enprocessos ciacuteclics En general la paradoxa de Schmied eacutes un dilema del tipus lou o la gallina Elcorpus de relacions resultant daquesta investigacioacute hauria de ser representatiu de la llenguautilitzada en els arxius fotogragravefics El problema perograve eacutes que per dur a terme aquesta tascalinvestigador ha de determinar aquestes variables empiacutericament per mitjagrave de lanagravelisi de resultatsdun corpus representatiu Aixiacute doncs les preguntes soacuten per on comenccedilar i quan parar

El megravetode per fer front a aquesta paradoxa adopta el punt de vista de Biber (1993 p 256) segonsel qual el disseny de corpus eacutes un proceacutes ciacuteclic Lestudi actual es va iniciar amb una investigacioacutepreliminar Durant lestudi pilot es van documentar les millores ciacutecliques i es va ampliar iperfeccionar labast de les variables fins que no es van poder detectar varietats addicionals Elscriteris de detencioacute segons el que descriuen Bauer i Aarts (2000 p 32ndash34) determinen que quansaconsegueix la saturacioacute eacutes el moment daturar el proceacutes ciacuteclic En lestudi pilot la saturacioacute va

arribar quan laddicioacute daltres tipus i exemples de relacions i les variables que les defineixen varepresentar nomeacutes una petita diferegravencia respecte de les representacions addicionals de les unitatssemagraventiques i de les afirmacions factuals

6 Validesa i fiabilitat

Se sap poc sobre com cal validar els models ontologravegics Eacutes a dir fins a quin punt un conjunt decompromisos ontologravegics representa fidelment un agravembit dinteregraves La prova de la validesa de lesrelacions previstes en aquest estudi eacutes el grau de precisioacute amb quegrave un exemple de relacioacute(afirmacioacute factual) coincideix amb la naturalesa i les caracteriacutestiques de les relacions ontologravegiquesdefinides en algun dels diversos recursos utilitzats Sutilitzen diferents fonts per a la validacioacute enaquest estudi (vegeu-ne la llista en lapartat 4) Les definicions de relacions en aquests estudisajuden a formar relacions dun a un mdashuna funcioacute de mapatgemdash a partir de les variablesexpressades i codificades en el discurs dels cercadors conservadors i catalogadors sobre elsfenogravemens que les relacions estan inferint

Weber (1990) assenyala que per fer inferegravencies vagravelides a partir dun text els procedimentsutilitzats per a la classificacioacute han de ser fiables estables i consistents La fiabilitat daquest estudies refereix a la consistegravencia del mesurament eacutes a dir el grau en quegrave els individus codifiquen elmateix conjunt de dades de la mateixa manera cada vegada utilitzant un conjunt dinstruccions decodificacioacute en les mateixes condicions En aquest estudi linvestigador es va fer cagraverrec de tota lacodificacioacute de manera que lanagravelisi de la fiabilitat dintracodificacioacute (en lloc dintercodificacioacute) en luacutesdun llibre de codis i de formularis es va portar a terme mitjanccedilant el model de fiabilitat prova isegona prova El mesurament de la fiabilitat eacutes el percentatge dacord entre la codificacioacute dunconjunt de dades en una data i el proceacutes repetit en una data posterior Es van utilitzarestadiacutestiques de Kappa que assignar +10 si la codificacioacute eacutes perfectament fiable i ndash10 quan luacutenicacord que hi ha eacutes fruit de latzar (Wood 2007 Stemler 2001 Shrout Fleiss 1979)

Entre el juliol i lagost de 2010 es va fer una avaluacioacute de la fiabilitat dintracodificacioacute per mesurarlacord en disset de les variables que es van mesurar en el formulari de codificacioacute El coeficient decorreccioacute per atzar per a totes les variables oscilmiddotla entre 0394 i 10 un rang en quegrave laconcentracioacute dacord respecte dels coeficients de Kappa es considera entre just i gairebeacute perfecte

7 Discussioacute

La investigacioacute preliminar demostra que una vegada perfeccionades amb lobjectiu concret de dura terme una investigacioacute sobre relacions les eines ontologravegiques i les tegravecniques danagravelisi decontinguts soacuten eficaces per identificar recollir i classificar els exemples de relacions que despreacuteses poden gravar en un corpus Respecte de la possibilitat que investigacions anteriors nofuncionessin per la seva dependegravencia respecte dels models dindexacioacute de paraules aquest estudipreliminar suggereix que un megravetode de base empiacuterica que utilitzi lanagravelisi de continguts i lontologiapot obtenir duna manera meacutes eficaccedil el significat de les relacions i la semagraventica que hi ha rerelestructura superficial de les paraules

Tanmateix les afirmacions que es poden fer durant la investigacioacute preliminar soacuten limitadesEntendre com els eacutessers humans expressen les relacions i les dificultats de captar i classificar elstipus de relacions eacutes una tasca difiacutecil Moltes vegades els problemes es resolen Daltres sorgeixenproblemes nous que nomeacutes poden ser abordats en investigacions posteriors En la discussioacute quesegueix linvestigador descriu quatre problemes que van sorgir durant la investigacioacute inicial que esvan convertir en agraverees meacutes especialitzades dinvestigacioacute en la tesi Inclouen quumlestionsrelacionades amb labast de lanagravelisi la inferegravencia pragmagravetica les relacions de cas i la previsioacute derelacions

71 Abast i definicioacute

El primer problema eacutes un problema dabast i de definicioacute eacutes a dir quines dades shan deconsiderar adequades per a lanagravelisi de continguts Lantropograveleg visual Malcolm Collier (2001 p 35)sosteacute que en el proceacutes danagravelisi de la informacioacute visual es descobreixen fenogravemens i relacions mai

vistos abans meacutes enllagrave dels liacutemits del que va percebre inicialment el fotogravegraf i el tema de la imatge

Durant les proves inicials de la tegravecnica danagravelisi de continguts nomeacutes es va analitzar el text escrit amagravequina Durant la segona prova la definicioacute de lagravembit dinteregraves es va ampliar per incloure-hi totesles dades visibles a la superfiacutecie del document que incloiumlen per exemple inscripcionsmanuscrites gargots i dibuixos molts dels quals es van considerar rellevants i que requerien unaidentificacioacute i classificacioacute en el formulari de codificacioacute

Aquesta observacioacute suggereix ladopcioacute dun proceacutes analiacutetic meacutes visual per descriure les imatgesque consideri lagravembit dinteregraves per incloure tant el text original com les inscripcions manuscrites enles cogravepies de les fotografies i altres documents relacionats En termes meacutes generals aixograve ens doacutenauna lliccediloacute sobre el valor de les investigacions preliminars per classificar els problemes de codificacioacuteen mostres petites abans de fer front a grans conjunts de dades

72 Inferegravencia pragmagravetica

El problema seguumlent es refereix a la importagravencia de la inferegravencia pragmagravetica i el paper que exerceixa lhora danalitzar continguts La inferegravencia eacutes un tipus de raonament que manipula lesproposicions conegudes per produir-ne de noves (Levesque Lakemeyer 2000) Linvestigador vaampliar aquesta definicioacute tenint en compte el que signifiquen o impliquen les paraules en diferentscontextos mdashla qual cosa es considera el costat pragmagravetic de la inferegravencia Lanagravelisi preliminar vamostrar que una gran quantitat del que es percep en el discurs de descripcioacute duna imatge de fetsinfereix i sextreu a partir de coneixements previs que el parlant i loient tenen sobre els incidentsde referegravencia

Per ajudar a situar el que senteacuten per una descripcioacute duna imatge i com es poden inferir fets apartir de coneixements impliacutecits tingueu en compte la fotografia histograverica que es mostra en la figura7 i la descripcioacute que lacompanya

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 7: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

Figura 5 Una part de les instruccions de codificacioacute que ilmiddotlustra com es codifiquen les relacions temporals

Els formularis de codificacioacute es reuneixen en un corpus Un corpus mdashque eacutes essencialment unllibre de fulls de cagravelcul de mida tabloidemdash recull i registra els resultats de les anagravelisis delscontinguts En lapartat 6 es presenta una descripcioacute meacutes detallada del corpus

Una bateria deines ontologravegiques ofereix definicions formals i semiformals que ajuden a predir iclassificar exemples de relacions Algunes de les eines principals utilitzades per a lanagravelisiontologravegica dels tipus de relacions inclouen lanagravelisi de Cooper de les preposicions angleseslocatives (1968) lanagravelisi de Veda Storey de relacions de cas (1993) la biblioteca de relacionsdinclusioacute de classe dIDEF5 (Perakath 1994) la taxonomia de Winston Chaffin i Herrmann de lesrelacions part-tot (1987) lanagravelisi ontologravegica de relacions de Wand Storey i Weber (1999) irelacions de cas de Sowa (2000) Aquests recursos tenen un paper important en la construccioacute delentorn en quegrave es porta a terme lanagravelisi Ajuden a explicar com es determinen les relacions dacordamb paraules clau que sutilitzen per inferir les relacions

Lanagravelisi ontologravegica contribueix a determinar la categoria de relacions a quegrave pertany un exempleparticular Durant la codificacioacute i lanagravelisi de continguts de lestudi preliminar es van aplicar a prioriset tipus de relacions

1 Atribucioacute2 Cas3 Inclusioacute4 Metoniacutemia5 Espacial6 Sinoniacutemia7 Temporal

Tot i que estagrave fora de labast daquest document presentar els resultats de la tesi eacutes convenientassenyalar que durant lanagravelisi posterior es van afegir algunes categories a la llista i sen van treuredaltres La categoria de sinoniacutemia va desaparegraveixer Tot i que els sinogravenims soacuten relacions importantsper al processament del llenguatge natural i de components legravexics semagraventics no tenen lloc enontologies en quegrave els conceptes no han de ser ambigus La inclusioacute tambeacute va desaparegraveixer Encaraque el paper de la inclusioacute de classes en una ontologia eacutes fonamental per construir taxonomies(subtipus estagravendard i relacions de supertipus) lanagravelisi de les dades va demostrar que les relacionsdinclusioacute de classe no soacuten un fenomen expliacutecit en les descripcions dimatges Es va afegir el tipusde relacioacute dexemple per representar les relacions que associen exemples amb classes Finalmentes va descobrir que les relacions de parentiu es produeixen sovint en lagravembit de les descripcionsdimatges de manera que el parentiu es va afegir a la llista com una nova categoria de tipus derelacions

El proceacutes de descobriment de relacions que es mostra en la figura 4 eacutes circular perquegrave la realitateacutes complicada De vegades una formalitzacioacute no eacutes clara o no hi ha una regla que expliqui el tipusde relacioacute que sorgeix Daltres la relacioacute no eacutes prototiacutepica i en aquest cas linvestigador o beacuteassigna una relacioacute a una categoria sabent perfectament beacute que els atributs assignats a lacategoria no sapliquen en tots els casos o beacute crea una particioacute meacutes niacutetida que permeti entendreels casos liacutemit Al final linvestigador aconsegueix una ontologia de tipus de relacions

En resum selabora un conjunt bagravesic deines i sadapta a la investigacioacute sistemagravetica del problemade les relacions Aquestes inclouen lanagravelisi de continguts que sutilitza per analitzar el llenguatgenatural en afirmacions factuals meacutes formals un corpus que organitza i estructura lagravembit dinteregraves iuna bateria deines ontologravegiques que sutilitzen per analitzar i determinar els tipus de relacions

5 Construccioacute del corpus

En aquest apartat sexplica amb meacutes detall la naturalesa i el propogravesit dun corpus Un corpuslinguumliacutestic es defineix com the body of written or spoken material upon which linguistic analysis isbased (Oxford English dictionary online marccedil de 2011) El corpus recopilat en aquest estudi estagravedissenyat per a un propogravesit molt concret ajudar en lanagravelisi de les relacions expressades com apart del discurs en la PPL El corpus es crea manualment i funciona a traveacutes de tres etapesdanagravelisi

Primera etapa En la primera etapa danagravelisi es fa una lectura acurada de tot el contingut delincident Es determina quina part del text descriu el contingut de la imatge i despreacutes es grava comuna unitat semagraventica i shi assigna un nuacutemero dunitat semagraventica

Segona etapa La segona etapa de lanagravelisi consisteix a analitzar la unitat semagraventica en lesafirmacions factuals que representen les relacions Saplica una notacioacute especial anomenada prefixde notacioacute que estableix el terme de relacioacute al davant de manera que es pot veure fagravecilmentLlavors els arguments de relacioacute es colmiddotloquen entre paregraventesis separats per comes La figura 6 eacutesun extracte del corpus de relacions Ilmiddotlustra les unitats semagraventiques de la mostra juntament ambles afirmacions factuals corresponents

Figura 6 Mostra del corpus de relacions que ilmiddotlustra les unitats semagraventiques originals de la correspondegravencia delcercador dimatges (columna 5) i les afirmacions factuals que es van analitzar a partir del llenguatge natural original

(columna 8)

Tercera etapa La tercera i uacuteltima etapa danagravelisi en el corpus de relacions consisteix a analitzarles afirmacions factuals per determinar quins tipus de relacions hi soacuten presents i quins soacuten els seuscomponents (temes objectes de referegravencia llocs camins subjectes unitats temporals i aixiacutesuccessivament)

Sestudia el Corpus theoretical paradox de Schmied (1990) adoptant un enfocament basat enprocessos ciacuteclics En general la paradoxa de Schmied eacutes un dilema del tipus lou o la gallina Elcorpus de relacions resultant daquesta investigacioacute hauria de ser representatiu de la llenguautilitzada en els arxius fotogragravefics El problema perograve eacutes que per dur a terme aquesta tascalinvestigador ha de determinar aquestes variables empiacutericament per mitjagrave de lanagravelisi de resultatsdun corpus representatiu Aixiacute doncs les preguntes soacuten per on comenccedilar i quan parar

El megravetode per fer front a aquesta paradoxa adopta el punt de vista de Biber (1993 p 256) segonsel qual el disseny de corpus eacutes un proceacutes ciacuteclic Lestudi actual es va iniciar amb una investigacioacutepreliminar Durant lestudi pilot es van documentar les millores ciacutecliques i es va ampliar iperfeccionar labast de les variables fins que no es van poder detectar varietats addicionals Elscriteris de detencioacute segons el que descriuen Bauer i Aarts (2000 p 32ndash34) determinen que quansaconsegueix la saturacioacute eacutes el moment daturar el proceacutes ciacuteclic En lestudi pilot la saturacioacute va

arribar quan laddicioacute daltres tipus i exemples de relacions i les variables que les defineixen varepresentar nomeacutes una petita diferegravencia respecte de les representacions addicionals de les unitatssemagraventiques i de les afirmacions factuals

6 Validesa i fiabilitat

Se sap poc sobre com cal validar els models ontologravegics Eacutes a dir fins a quin punt un conjunt decompromisos ontologravegics representa fidelment un agravembit dinteregraves La prova de la validesa de lesrelacions previstes en aquest estudi eacutes el grau de precisioacute amb quegrave un exemple de relacioacute(afirmacioacute factual) coincideix amb la naturalesa i les caracteriacutestiques de les relacions ontologravegiquesdefinides en algun dels diversos recursos utilitzats Sutilitzen diferents fonts per a la validacioacute enaquest estudi (vegeu-ne la llista en lapartat 4) Les definicions de relacions en aquests estudisajuden a formar relacions dun a un mdashuna funcioacute de mapatgemdash a partir de les variablesexpressades i codificades en el discurs dels cercadors conservadors i catalogadors sobre elsfenogravemens que les relacions estan inferint

Weber (1990) assenyala que per fer inferegravencies vagravelides a partir dun text els procedimentsutilitzats per a la classificacioacute han de ser fiables estables i consistents La fiabilitat daquest estudies refereix a la consistegravencia del mesurament eacutes a dir el grau en quegrave els individus codifiquen elmateix conjunt de dades de la mateixa manera cada vegada utilitzant un conjunt dinstruccions decodificacioacute en les mateixes condicions En aquest estudi linvestigador es va fer cagraverrec de tota lacodificacioacute de manera que lanagravelisi de la fiabilitat dintracodificacioacute (en lloc dintercodificacioacute) en luacutesdun llibre de codis i de formularis es va portar a terme mitjanccedilant el model de fiabilitat prova isegona prova El mesurament de la fiabilitat eacutes el percentatge dacord entre la codificacioacute dunconjunt de dades en una data i el proceacutes repetit en una data posterior Es van utilitzarestadiacutestiques de Kappa que assignar +10 si la codificacioacute eacutes perfectament fiable i ndash10 quan luacutenicacord que hi ha eacutes fruit de latzar (Wood 2007 Stemler 2001 Shrout Fleiss 1979)

Entre el juliol i lagost de 2010 es va fer una avaluacioacute de la fiabilitat dintracodificacioacute per mesurarlacord en disset de les variables que es van mesurar en el formulari de codificacioacute El coeficient decorreccioacute per atzar per a totes les variables oscilmiddotla entre 0394 i 10 un rang en quegrave laconcentracioacute dacord respecte dels coeficients de Kappa es considera entre just i gairebeacute perfecte

7 Discussioacute

La investigacioacute preliminar demostra que una vegada perfeccionades amb lobjectiu concret de dura terme una investigacioacute sobre relacions les eines ontologravegiques i les tegravecniques danagravelisi decontinguts soacuten eficaces per identificar recollir i classificar els exemples de relacions que despreacuteses poden gravar en un corpus Respecte de la possibilitat que investigacions anteriors nofuncionessin per la seva dependegravencia respecte dels models dindexacioacute de paraules aquest estudipreliminar suggereix que un megravetode de base empiacuterica que utilitzi lanagravelisi de continguts i lontologiapot obtenir duna manera meacutes eficaccedil el significat de les relacions i la semagraventica que hi ha rerelestructura superficial de les paraules

Tanmateix les afirmacions que es poden fer durant la investigacioacute preliminar soacuten limitadesEntendre com els eacutessers humans expressen les relacions i les dificultats de captar i classificar elstipus de relacions eacutes una tasca difiacutecil Moltes vegades els problemes es resolen Daltres sorgeixenproblemes nous que nomeacutes poden ser abordats en investigacions posteriors En la discussioacute quesegueix linvestigador descriu quatre problemes que van sorgir durant la investigacioacute inicial que esvan convertir en agraverees meacutes especialitzades dinvestigacioacute en la tesi Inclouen quumlestionsrelacionades amb labast de lanagravelisi la inferegravencia pragmagravetica les relacions de cas i la previsioacute derelacions

71 Abast i definicioacute

El primer problema eacutes un problema dabast i de definicioacute eacutes a dir quines dades shan deconsiderar adequades per a lanagravelisi de continguts Lantropograveleg visual Malcolm Collier (2001 p 35)sosteacute que en el proceacutes danagravelisi de la informacioacute visual es descobreixen fenogravemens i relacions mai

vistos abans meacutes enllagrave dels liacutemits del que va percebre inicialment el fotogravegraf i el tema de la imatge

Durant les proves inicials de la tegravecnica danagravelisi de continguts nomeacutes es va analitzar el text escrit amagravequina Durant la segona prova la definicioacute de lagravembit dinteregraves es va ampliar per incloure-hi totesles dades visibles a la superfiacutecie del document que incloiumlen per exemple inscripcionsmanuscrites gargots i dibuixos molts dels quals es van considerar rellevants i que requerien unaidentificacioacute i classificacioacute en el formulari de codificacioacute

Aquesta observacioacute suggereix ladopcioacute dun proceacutes analiacutetic meacutes visual per descriure les imatgesque consideri lagravembit dinteregraves per incloure tant el text original com les inscripcions manuscrites enles cogravepies de les fotografies i altres documents relacionats En termes meacutes generals aixograve ens doacutenauna lliccediloacute sobre el valor de les investigacions preliminars per classificar els problemes de codificacioacuteen mostres petites abans de fer front a grans conjunts de dades

72 Inferegravencia pragmagravetica

El problema seguumlent es refereix a la importagravencia de la inferegravencia pragmagravetica i el paper que exerceixa lhora danalitzar continguts La inferegravencia eacutes un tipus de raonament que manipula lesproposicions conegudes per produir-ne de noves (Levesque Lakemeyer 2000) Linvestigador vaampliar aquesta definicioacute tenint en compte el que signifiquen o impliquen les paraules en diferentscontextos mdashla qual cosa es considera el costat pragmagravetic de la inferegravencia Lanagravelisi preliminar vamostrar que una gran quantitat del que es percep en el discurs de descripcioacute duna imatge de fetsinfereix i sextreu a partir de coneixements previs que el parlant i loient tenen sobre els incidentsde referegravencia

Per ajudar a situar el que senteacuten per una descripcioacute duna imatge i com es poden inferir fets apartir de coneixements impliacutecits tingueu en compte la fotografia histograverica que es mostra en la figura7 i la descripcioacute que lacompanya

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 8: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

5 Construccioacute del corpus

En aquest apartat sexplica amb meacutes detall la naturalesa i el propogravesit dun corpus Un corpuslinguumliacutestic es defineix com the body of written or spoken material upon which linguistic analysis isbased (Oxford English dictionary online marccedil de 2011) El corpus recopilat en aquest estudi estagravedissenyat per a un propogravesit molt concret ajudar en lanagravelisi de les relacions expressades com apart del discurs en la PPL El corpus es crea manualment i funciona a traveacutes de tres etapesdanagravelisi

Primera etapa En la primera etapa danagravelisi es fa una lectura acurada de tot el contingut delincident Es determina quina part del text descriu el contingut de la imatge i despreacutes es grava comuna unitat semagraventica i shi assigna un nuacutemero dunitat semagraventica

Segona etapa La segona etapa de lanagravelisi consisteix a analitzar la unitat semagraventica en lesafirmacions factuals que representen les relacions Saplica una notacioacute especial anomenada prefixde notacioacute que estableix el terme de relacioacute al davant de manera que es pot veure fagravecilmentLlavors els arguments de relacioacute es colmiddotloquen entre paregraventesis separats per comes La figura 6 eacutesun extracte del corpus de relacions Ilmiddotlustra les unitats semagraventiques de la mostra juntament ambles afirmacions factuals corresponents

Figura 6 Mostra del corpus de relacions que ilmiddotlustra les unitats semagraventiques originals de la correspondegravencia delcercador dimatges (columna 5) i les afirmacions factuals que es van analitzar a partir del llenguatge natural original

(columna 8)

Tercera etapa La tercera i uacuteltima etapa danagravelisi en el corpus de relacions consisteix a analitzarles afirmacions factuals per determinar quins tipus de relacions hi soacuten presents i quins soacuten els seuscomponents (temes objectes de referegravencia llocs camins subjectes unitats temporals i aixiacutesuccessivament)

Sestudia el Corpus theoretical paradox de Schmied (1990) adoptant un enfocament basat enprocessos ciacuteclics En general la paradoxa de Schmied eacutes un dilema del tipus lou o la gallina Elcorpus de relacions resultant daquesta investigacioacute hauria de ser representatiu de la llenguautilitzada en els arxius fotogragravefics El problema perograve eacutes que per dur a terme aquesta tascalinvestigador ha de determinar aquestes variables empiacutericament per mitjagrave de lanagravelisi de resultatsdun corpus representatiu Aixiacute doncs les preguntes soacuten per on comenccedilar i quan parar

El megravetode per fer front a aquesta paradoxa adopta el punt de vista de Biber (1993 p 256) segonsel qual el disseny de corpus eacutes un proceacutes ciacuteclic Lestudi actual es va iniciar amb una investigacioacutepreliminar Durant lestudi pilot es van documentar les millores ciacutecliques i es va ampliar iperfeccionar labast de les variables fins que no es van poder detectar varietats addicionals Elscriteris de detencioacute segons el que descriuen Bauer i Aarts (2000 p 32ndash34) determinen que quansaconsegueix la saturacioacute eacutes el moment daturar el proceacutes ciacuteclic En lestudi pilot la saturacioacute va

arribar quan laddicioacute daltres tipus i exemples de relacions i les variables que les defineixen varepresentar nomeacutes una petita diferegravencia respecte de les representacions addicionals de les unitatssemagraventiques i de les afirmacions factuals

6 Validesa i fiabilitat

Se sap poc sobre com cal validar els models ontologravegics Eacutes a dir fins a quin punt un conjunt decompromisos ontologravegics representa fidelment un agravembit dinteregraves La prova de la validesa de lesrelacions previstes en aquest estudi eacutes el grau de precisioacute amb quegrave un exemple de relacioacute(afirmacioacute factual) coincideix amb la naturalesa i les caracteriacutestiques de les relacions ontologravegiquesdefinides en algun dels diversos recursos utilitzats Sutilitzen diferents fonts per a la validacioacute enaquest estudi (vegeu-ne la llista en lapartat 4) Les definicions de relacions en aquests estudisajuden a formar relacions dun a un mdashuna funcioacute de mapatgemdash a partir de les variablesexpressades i codificades en el discurs dels cercadors conservadors i catalogadors sobre elsfenogravemens que les relacions estan inferint

Weber (1990) assenyala que per fer inferegravencies vagravelides a partir dun text els procedimentsutilitzats per a la classificacioacute han de ser fiables estables i consistents La fiabilitat daquest estudies refereix a la consistegravencia del mesurament eacutes a dir el grau en quegrave els individus codifiquen elmateix conjunt de dades de la mateixa manera cada vegada utilitzant un conjunt dinstruccions decodificacioacute en les mateixes condicions En aquest estudi linvestigador es va fer cagraverrec de tota lacodificacioacute de manera que lanagravelisi de la fiabilitat dintracodificacioacute (en lloc dintercodificacioacute) en luacutesdun llibre de codis i de formularis es va portar a terme mitjanccedilant el model de fiabilitat prova isegona prova El mesurament de la fiabilitat eacutes el percentatge dacord entre la codificacioacute dunconjunt de dades en una data i el proceacutes repetit en una data posterior Es van utilitzarestadiacutestiques de Kappa que assignar +10 si la codificacioacute eacutes perfectament fiable i ndash10 quan luacutenicacord que hi ha eacutes fruit de latzar (Wood 2007 Stemler 2001 Shrout Fleiss 1979)

Entre el juliol i lagost de 2010 es va fer una avaluacioacute de la fiabilitat dintracodificacioacute per mesurarlacord en disset de les variables que es van mesurar en el formulari de codificacioacute El coeficient decorreccioacute per atzar per a totes les variables oscilmiddotla entre 0394 i 10 un rang en quegrave laconcentracioacute dacord respecte dels coeficients de Kappa es considera entre just i gairebeacute perfecte

7 Discussioacute

La investigacioacute preliminar demostra que una vegada perfeccionades amb lobjectiu concret de dura terme una investigacioacute sobre relacions les eines ontologravegiques i les tegravecniques danagravelisi decontinguts soacuten eficaces per identificar recollir i classificar els exemples de relacions que despreacuteses poden gravar en un corpus Respecte de la possibilitat que investigacions anteriors nofuncionessin per la seva dependegravencia respecte dels models dindexacioacute de paraules aquest estudipreliminar suggereix que un megravetode de base empiacuterica que utilitzi lanagravelisi de continguts i lontologiapot obtenir duna manera meacutes eficaccedil el significat de les relacions i la semagraventica que hi ha rerelestructura superficial de les paraules

Tanmateix les afirmacions que es poden fer durant la investigacioacute preliminar soacuten limitadesEntendre com els eacutessers humans expressen les relacions i les dificultats de captar i classificar elstipus de relacions eacutes una tasca difiacutecil Moltes vegades els problemes es resolen Daltres sorgeixenproblemes nous que nomeacutes poden ser abordats en investigacions posteriors En la discussioacute quesegueix linvestigador descriu quatre problemes que van sorgir durant la investigacioacute inicial que esvan convertir en agraverees meacutes especialitzades dinvestigacioacute en la tesi Inclouen quumlestionsrelacionades amb labast de lanagravelisi la inferegravencia pragmagravetica les relacions de cas i la previsioacute derelacions

71 Abast i definicioacute

El primer problema eacutes un problema dabast i de definicioacute eacutes a dir quines dades shan deconsiderar adequades per a lanagravelisi de continguts Lantropograveleg visual Malcolm Collier (2001 p 35)sosteacute que en el proceacutes danagravelisi de la informacioacute visual es descobreixen fenogravemens i relacions mai

vistos abans meacutes enllagrave dels liacutemits del que va percebre inicialment el fotogravegraf i el tema de la imatge

Durant les proves inicials de la tegravecnica danagravelisi de continguts nomeacutes es va analitzar el text escrit amagravequina Durant la segona prova la definicioacute de lagravembit dinteregraves es va ampliar per incloure-hi totesles dades visibles a la superfiacutecie del document que incloiumlen per exemple inscripcionsmanuscrites gargots i dibuixos molts dels quals es van considerar rellevants i que requerien unaidentificacioacute i classificacioacute en el formulari de codificacioacute

Aquesta observacioacute suggereix ladopcioacute dun proceacutes analiacutetic meacutes visual per descriure les imatgesque consideri lagravembit dinteregraves per incloure tant el text original com les inscripcions manuscrites enles cogravepies de les fotografies i altres documents relacionats En termes meacutes generals aixograve ens doacutenauna lliccediloacute sobre el valor de les investigacions preliminars per classificar els problemes de codificacioacuteen mostres petites abans de fer front a grans conjunts de dades

72 Inferegravencia pragmagravetica

El problema seguumlent es refereix a la importagravencia de la inferegravencia pragmagravetica i el paper que exerceixa lhora danalitzar continguts La inferegravencia eacutes un tipus de raonament que manipula lesproposicions conegudes per produir-ne de noves (Levesque Lakemeyer 2000) Linvestigador vaampliar aquesta definicioacute tenint en compte el que signifiquen o impliquen les paraules en diferentscontextos mdashla qual cosa es considera el costat pragmagravetic de la inferegravencia Lanagravelisi preliminar vamostrar que una gran quantitat del que es percep en el discurs de descripcioacute duna imatge de fetsinfereix i sextreu a partir de coneixements previs que el parlant i loient tenen sobre els incidentsde referegravencia

Per ajudar a situar el que senteacuten per una descripcioacute duna imatge i com es poden inferir fets apartir de coneixements impliacutecits tingueu en compte la fotografia histograverica que es mostra en la figura7 i la descripcioacute que lacompanya

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 9: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

arribar quan laddicioacute daltres tipus i exemples de relacions i les variables que les defineixen varepresentar nomeacutes una petita diferegravencia respecte de les representacions addicionals de les unitatssemagraventiques i de les afirmacions factuals

6 Validesa i fiabilitat

Se sap poc sobre com cal validar els models ontologravegics Eacutes a dir fins a quin punt un conjunt decompromisos ontologravegics representa fidelment un agravembit dinteregraves La prova de la validesa de lesrelacions previstes en aquest estudi eacutes el grau de precisioacute amb quegrave un exemple de relacioacute(afirmacioacute factual) coincideix amb la naturalesa i les caracteriacutestiques de les relacions ontologravegiquesdefinides en algun dels diversos recursos utilitzats Sutilitzen diferents fonts per a la validacioacute enaquest estudi (vegeu-ne la llista en lapartat 4) Les definicions de relacions en aquests estudisajuden a formar relacions dun a un mdashuna funcioacute de mapatgemdash a partir de les variablesexpressades i codificades en el discurs dels cercadors conservadors i catalogadors sobre elsfenogravemens que les relacions estan inferint

Weber (1990) assenyala que per fer inferegravencies vagravelides a partir dun text els procedimentsutilitzats per a la classificacioacute han de ser fiables estables i consistents La fiabilitat daquest estudies refereix a la consistegravencia del mesurament eacutes a dir el grau en quegrave els individus codifiquen elmateix conjunt de dades de la mateixa manera cada vegada utilitzant un conjunt dinstruccions decodificacioacute en les mateixes condicions En aquest estudi linvestigador es va fer cagraverrec de tota lacodificacioacute de manera que lanagravelisi de la fiabilitat dintracodificacioacute (en lloc dintercodificacioacute) en luacutesdun llibre de codis i de formularis es va portar a terme mitjanccedilant el model de fiabilitat prova isegona prova El mesurament de la fiabilitat eacutes el percentatge dacord entre la codificacioacute dunconjunt de dades en una data i el proceacutes repetit en una data posterior Es van utilitzarestadiacutestiques de Kappa que assignar +10 si la codificacioacute eacutes perfectament fiable i ndash10 quan luacutenicacord que hi ha eacutes fruit de latzar (Wood 2007 Stemler 2001 Shrout Fleiss 1979)

Entre el juliol i lagost de 2010 es va fer una avaluacioacute de la fiabilitat dintracodificacioacute per mesurarlacord en disset de les variables que es van mesurar en el formulari de codificacioacute El coeficient decorreccioacute per atzar per a totes les variables oscilmiddotla entre 0394 i 10 un rang en quegrave laconcentracioacute dacord respecte dels coeficients de Kappa es considera entre just i gairebeacute perfecte

7 Discussioacute

La investigacioacute preliminar demostra que una vegada perfeccionades amb lobjectiu concret de dura terme una investigacioacute sobre relacions les eines ontologravegiques i les tegravecniques danagravelisi decontinguts soacuten eficaces per identificar recollir i classificar els exemples de relacions que despreacuteses poden gravar en un corpus Respecte de la possibilitat que investigacions anteriors nofuncionessin per la seva dependegravencia respecte dels models dindexacioacute de paraules aquest estudipreliminar suggereix que un megravetode de base empiacuterica que utilitzi lanagravelisi de continguts i lontologiapot obtenir duna manera meacutes eficaccedil el significat de les relacions i la semagraventica que hi ha rerelestructura superficial de les paraules

Tanmateix les afirmacions que es poden fer durant la investigacioacute preliminar soacuten limitadesEntendre com els eacutessers humans expressen les relacions i les dificultats de captar i classificar elstipus de relacions eacutes una tasca difiacutecil Moltes vegades els problemes es resolen Daltres sorgeixenproblemes nous que nomeacutes poden ser abordats en investigacions posteriors En la discussioacute quesegueix linvestigador descriu quatre problemes que van sorgir durant la investigacioacute inicial que esvan convertir en agraverees meacutes especialitzades dinvestigacioacute en la tesi Inclouen quumlestionsrelacionades amb labast de lanagravelisi la inferegravencia pragmagravetica les relacions de cas i la previsioacute derelacions

71 Abast i definicioacute

El primer problema eacutes un problema dabast i de definicioacute eacutes a dir quines dades shan deconsiderar adequades per a lanagravelisi de continguts Lantropograveleg visual Malcolm Collier (2001 p 35)sosteacute que en el proceacutes danagravelisi de la informacioacute visual es descobreixen fenogravemens i relacions mai

vistos abans meacutes enllagrave dels liacutemits del que va percebre inicialment el fotogravegraf i el tema de la imatge

Durant les proves inicials de la tegravecnica danagravelisi de continguts nomeacutes es va analitzar el text escrit amagravequina Durant la segona prova la definicioacute de lagravembit dinteregraves es va ampliar per incloure-hi totesles dades visibles a la superfiacutecie del document que incloiumlen per exemple inscripcionsmanuscrites gargots i dibuixos molts dels quals es van considerar rellevants i que requerien unaidentificacioacute i classificacioacute en el formulari de codificacioacute

Aquesta observacioacute suggereix ladopcioacute dun proceacutes analiacutetic meacutes visual per descriure les imatgesque consideri lagravembit dinteregraves per incloure tant el text original com les inscripcions manuscrites enles cogravepies de les fotografies i altres documents relacionats En termes meacutes generals aixograve ens doacutenauna lliccediloacute sobre el valor de les investigacions preliminars per classificar els problemes de codificacioacuteen mostres petites abans de fer front a grans conjunts de dades

72 Inferegravencia pragmagravetica

El problema seguumlent es refereix a la importagravencia de la inferegravencia pragmagravetica i el paper que exerceixa lhora danalitzar continguts La inferegravencia eacutes un tipus de raonament que manipula lesproposicions conegudes per produir-ne de noves (Levesque Lakemeyer 2000) Linvestigador vaampliar aquesta definicioacute tenint en compte el que signifiquen o impliquen les paraules en diferentscontextos mdashla qual cosa es considera el costat pragmagravetic de la inferegravencia Lanagravelisi preliminar vamostrar que una gran quantitat del que es percep en el discurs de descripcioacute duna imatge de fetsinfereix i sextreu a partir de coneixements previs que el parlant i loient tenen sobre els incidentsde referegravencia

Per ajudar a situar el que senteacuten per una descripcioacute duna imatge i com es poden inferir fets apartir de coneixements impliacutecits tingueu en compte la fotografia histograverica que es mostra en la figura7 i la descripcioacute que lacompanya

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 10: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

vistos abans meacutes enllagrave dels liacutemits del que va percebre inicialment el fotogravegraf i el tema de la imatge

Durant les proves inicials de la tegravecnica danagravelisi de continguts nomeacutes es va analitzar el text escrit amagravequina Durant la segona prova la definicioacute de lagravembit dinteregraves es va ampliar per incloure-hi totesles dades visibles a la superfiacutecie del document que incloiumlen per exemple inscripcionsmanuscrites gargots i dibuixos molts dels quals es van considerar rellevants i que requerien unaidentificacioacute i classificacioacute en el formulari de codificacioacute

Aquesta observacioacute suggereix ladopcioacute dun proceacutes analiacutetic meacutes visual per descriure les imatgesque consideri lagravembit dinteregraves per incloure tant el text original com les inscripcions manuscrites enles cogravepies de les fotografies i altres documents relacionats En termes meacutes generals aixograve ens doacutenauna lliccediloacute sobre el valor de les investigacions preliminars per classificar els problemes de codificacioacuteen mostres petites abans de fer front a grans conjunts de dades

72 Inferegravencia pragmagravetica

El problema seguumlent es refereix a la importagravencia de la inferegravencia pragmagravetica i el paper que exerceixa lhora danalitzar continguts La inferegravencia eacutes un tipus de raonament que manipula lesproposicions conegudes per produir-ne de noves (Levesque Lakemeyer 2000) Linvestigador vaampliar aquesta definicioacute tenint en compte el que signifiquen o impliquen les paraules en diferentscontextos mdashla qual cosa es considera el costat pragmagravetic de la inferegravencia Lanagravelisi preliminar vamostrar que una gran quantitat del que es percep en el discurs de descripcioacute duna imatge de fetsinfereix i sextreu a partir de coneixements previs que el parlant i loient tenen sobre els incidentsde referegravencia

Per ajudar a situar el que senteacuten per una descripcioacute duna imatge i com es poden inferir fets apartir de coneixements impliacutecits tingueu en compte la fotografia histograverica que es mostra en la figura7 i la descripcioacute que lacompanya

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 11: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

Figura 7 Henry Fox Talbot Part del Queens College (Oxford) [The pencil of nature part 1 pl 1 sd] De lesreproduccions de Larry J Schaaf de The pencil of nature dH Fox Talbot fax de laniversari (New York Hans P

Kraus Jr Inc 1989) Utilitzada amb permiacutes

Impliacutecitament senteacuten que quan Talbot el fotogravegraf escriu sobre la superfiacutecie de ledifici i lesmarques deixades a les pedres de fet estagrave parlant de la part exterior de ledifici Tot i que Talbotno diu expliacutecitament que estagrave parlant de la superfiacutecie exterior les persones que llegeixen ladescripcioacute ho entenen aixiacute Aquest eacutes un exemple dinferegravencia pragmagravetica

En aquest cas la lliccediloacute eacutes que lanagravelisi del contingut eacutes efectiu per codificar i captar la informacioacutetextual perograve cal desenvolupar altres eines i megravetodes per generar i recollir el coneixement meacutesindirecte impliacutecit de fons Durant el curs de la investigacioacute de la tesi es va desenvolupar unsistema per abordar aquesta quumlestioacute a partir didees preexistents en intelmiddotligegravencia artificial ilinguumliacutestica Aixograve inclou els marcs de Minsky (1975 p 212) descrits com a data structuresrepresenting a stereotyped situation el raonament predeterminat de Fahlman (1979) ambexcepcions i en linguumliacutestica la semagraventica de marcs de Fillmore (1976)

73 El cas de les relacions de cas

Un dels tipus de relacions meacutes complexes recollides en aquest estudi les relacions de cas vaposar de manifest dos problemes durant lestudi preliminar En primer lloc els tipus i subtipus derelacions triats a priori per captar el significat no sempre reflectien el que els eacutessers humansexpressaven en el moacuten real Els recursos de lontologia esmentats anteriorment en lapartat 4tractaven les relacions de cas com un conjunt tancat perograve lanagravelisi duta a terme per aquestinvestigador va descobrir un conjunt molt meacutes gran de relacions de cas que el recollit perinvestigadors anteriors En segon lloc la bibliografia no proporcionava un sistema de representacioacutede relacions de cas com ara termes relacionals amb arguments similars als de les altres relacionsregistrades en el corpus Aquest era un problema de representacioacute que shavia de resoldre abansde passar a la tesi

Les relacions de cas si beacute soacuten uacutetils per descriure les experiegravencies quotidianes no formen part deles relacions estagravendard utilitzades en biblioteconomia i documentacioacute per estructurar vocabulariscontrolats Les relacions de cas normalment soacuten marcades en el llenguatge natural per locurregravenciade frases verbals Si reprenem una vegada meacutes la descripcioacute de la fotografia de Talbot de lafigura 7 Talbot assenyala the view is taken from the other side of the High Street looking North(la fotografia estagrave feta des de laltre costat de High Street mirant cap al nord) La forma verbaltaken (feta) eacutes el participi passat de take (fer) cosa que indica una activitat i la forma verballooking (mirant) eacutes el gerundi de look (mirar) i assenyala un segon esdeveniment Durant la tesilinvestigador va desenvolupar un sistema per representar relacions de cas en notacioacute de prefix(una notacioacute introduiumlda anteriorment en lapartat 6 i en la figura 6) Els dos esdeveniments descritsen la descripcioacute de Talbot es poden interpretar com lexpressioacute de les afirmacions factualsseguumlents

1 has_location(takeother side of High Street)[= tenen_ubicacioacute(feraltre costat de High Street)]

2 has_agent(takephotographer)[= tenen_agent(ferfotogravegraf)]

3 has_PointInTime(take4 September 1843)[= tenen_moment(fer4 de setembre de 1843)]

4 has_instrument(lookcamera)[= tenen_instrument(mirarcagravemera)]

5 has_direction(lookNorth)[= tenen_direccioacute(mirarnord)]

6 has_reference_object(lookChurch of St Peters)[= tenen_referegravencia_objecte(mirarEsgleacutesia de St Peters)]

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 12: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

Els dos primers es poden llegir com the take action has a location on the other side of High Street(laccioacute feta teacute una ubicacioacute a laltre costat de High Street) i the take action has an agent who is aphotographer (laccioacute feta teacute un agent que eacutes un fotogravegraf) Story (1993) ofereix una siacutentesi uacutetil deles interpretacions de diversos investigadors sobre les relacions de cas No obstant aixograve el conjuntde cinc relacions de cas que adopta aquesta autora no capten lessegravencia desdeveniments com elsque es produeixen en les descripcions dimatges

La solucioacute que sofereix tambeacute serveix com un marc per abordar el problema que sha presentat enel subapartat 73 eacutes a dir com es pot recollir el coneixement previ que no sindica expliacutecitament enla descripcioacute de la fotografia Les relacions de cas descrites meacutes amunt es poden utilitzar com unheuriacutestic per completar aquesta informacioacute de fons Per exemple una pregunta formulada per uninvestigador duna imatge que diu the photograph was taken on 24 September 1951 (la fotografiaes va fer el 24 de setembre de 1951) podria ampliar-se en un entorn de magravequina buscantconstruccions gramaticals que expressin coses com ara accions que retraten els fotogravegrafsubicacions espacials objectes de referegravencia i punts de vista i aixiacute successivament

En resum la investigacioacute preliminar va donar proves empiacuteriques que suggerien que les relacionsde cas formen un conjunt obert Aixograve va originar revisions en el formulari danagravelisi de continguts percaptar marcs de situacioacute i el que probablement seria un conjunt obert de relacions de casos Ameacutes la investigacioacute preliminar va obligar linvestigador a resoldre un problema de representacioacute deles relacions de cas que al seu torn va comportar la creacioacute dun sistema per generar i captarconeixement previ impliacutecit

74 Predir relacions

Finalment a mesura que avanccedilava el projecte de recerca principal van neacuteixer expectatives queconeixements nous proporcionarien maneres noves de mirar dades concretes Per exemple caliacomprovar si el conjunt de condicions necessagraveries i suficients de Cooper (1968) podria predir demanera exhaustiva expressions espacials en descripcions dimatges El seu enfocament sobre elproblema de la relacioacute espacial no tenia en compte luacutes de les preposicions en la descripcioacute daltrescamps semagraventics Per exemple aquests tres casos extrets de la mostra de dades fan servirpreposicions espacials en expressions no espacials

1 The old symphony founded in 1895 [la preposicioacute in indica moment i no pas contingent(contained by)]

2 Photo by [Clyde] Hare [la preposicioacute by indica autoria i no proximitat (near o next to)]

3 Horse car in operation [la preposicioacute in denota lestat del cotxe de cavalls i no pascontingent (contained by the operation)]

Les solucions no va aparegraveixer fins que no es va analitzar la mostra meacutes gran Finalmentlinvestigador es va inclinar cap a la linguumliacutestica i la hipogravetesi de relacions temagravetiques de Gruber(1965) explicada per Ray Jackendoff (1983) Gruber va descobrir que patrons gramaticals similarssestenen a traveacutes de camps semagraventics relacionats Per exemple la semagraventica de lexpressioacutelocativa in (en a) dacord amb Jackendoff suggereix un pseudoespai unidimensional o liacutenia detemps en lexpressioacute temporal founded in 1895 En altres paraules la ment sadapta als campsno espacials de quegrave la maquinagraveria ja disposa per reconegraveixer espais (Jackendoff 1983 p 188ndash189)

En resum aquest apartat mostra que els investigadors podrien ser capaccedilos de fer prediccionsutilitzant els axiomes i les normes ontologravegiques existents en analitzar mostres petites perograve quan estraslladen a grans conjunts de dades la varietat i el nombre dentitats que requereixen unaexplicacioacute poden augmentar i requerir una anagravelisi meacutes profunda En el cas de tenir regles per apreposicions que defineixen expressions espacials perograve no temporals linvestigador simplement vaclassificar aquests uacuteltims casos com a no explicables durant la investigacioacute preliminar Com queno sanalitzen els problemes no explicables durant la investigacioacute preliminar el conjunt derelacions de no explicables va sortir de mare durant la tesi i al final va caler fer marxa enrererevisar el formulari danagravelisi de continguts i tornar a comenccedilar amb lanagravelisi de dades

8 Conclusioacute

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 13: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

Aquest document revela els resultats dun estudi preliminar que investiga el problema de lesrelacions en la descripcioacute dimatges Els objectius de lestudi eren tres 1) desenvolupar iperfeccionar un llibre de codis i uns formularis per captar les relacions que ocorren en lesdescripcions en llenguatge natural 2) perfeccionar luacutes deines i de megravetodes ontologravegics perpreveure exemples de relacions i organitzar-los en famiacutelies de tipus de relacions i 3) provar lafiabilitat dintracodificacioacute i la validesa de linstrument

La investigacioacute demostra que el reconeixement de relacions semagraventiques en lanagravelisi dedescripcions dimatges no eacutes ni directe ni senzill de manera que hi ha una amenaccedila constant queles instruccions de codificacioacute detallades no puguin garantir les relacions que estan representadesamb precisioacute Lanagravelisi de continguts requereix una gran quantitat de petits passos sistemagravetics queinterrelacionin les observacions de fets expliacutecits i el coneixement inferencial Identificar un exempledun tipus de relacioacute particular en un text no eacutes una tasca trivial i exigeix una classe dinferegravenciadel tipus o o sobre la pertinenccedila de classe

Mentre que les enquestes i entrevistes estructurades ofereixen als participants opcions predefinidesque soacuten fagravecils de tabular aquest treball ha demostrat que quan sutilitzen transaccions dereferegravencies de la vida real com a conjunt de dades eacutes difiacutecil controlar o suprimir el queprobablement serien variacions molt desestructurades poc flexibles en el formulari Aixograve eacutes unreflex del fet que la gent normal mdashconservadors i usuaris darxiusmdash busca presenta preguntes i escomporta de maneres diferents

Sha assenyalat que els estudis preliminars de vegades responen a preguntes i daltres plantegenpreguntes noves En aquesta liacutenia el document aclareix quatre problemes especiacutefics que vansorgir 1) labast de les anagravelisis de continguts futures hauria de ser ampliat per incloure inscripcionspertinents a magrave trobades al marge dels documents de text 2) gran part del coneixement sobredescripcions dimatges eacutes impliacutecit i requereix que lanalista utilitzi la inferegravencia pragmagravetica percaptar coneixements previs 3) lanagravelisi ha danar meacutes enllagrave de lestructura superficial de lagramagravetica i la sintaxi i explorar relacions que a priori van meacutes enllagrave del conjunt de relacionsontologravegiques triat originalment per validar els tipus de relacions i finalment 4) la tasca de preveureles relacions es fa difiacutecil pels muacuteltiples significats associats a les preposicions Aixograve requereix usaranagravelisis que no es limiten a complir les condicions necessagraveries i suficients en el context dun campsemagraventic

Malgrat aquests desafiaments les proves suggereixen que per investigar en lagravembit de lanagravelisi deles relacions calen investigacions preliminars que vagin meacutes enllagrave de lesquema simple prova isegona prova Aixograve eacutes especialment cert a lhora dadaptar i de perfeccionar tegravecniques danagravelisi decontinguts i eines i megravetodes ontologravegics A meacutes sembla que hi ha arguments contundents peraplicar lanagravelisi de continguts i eines i megravetodes ontologravegics com a marc per analitzar i estructurar larecopilacioacute de dades El resultat eacutes un conjunt de relacions i conceptes rics semagraventicament recolliten un corpus dexemples de relacions

Allen C Benson eacutes director de la Biblioteca i professor de lEscola Naval de Guerra delsEstats Units Les opinions aquiacute expressades soacuten personals i no reflecteixen les de la Marinao el govern dels Estats Units

Bibliografia

Bauer M Aarts B (2000) Corpus construction a principle for qualitative data collection In MBauer G Gaskell (Eds) Qualitative researching with text image and sound (19-37) LondonSage

Bean C A (1996) Analysis of non-hierarchical associative relationships among medical subjectheadings (MeSH) Anatomical and related terminology Advances in Knowledge Organization 5 p80-86

Bean C A Green R (Ed) (2001) Relationships in the Organization of Knowledge DordrechtThe Netherlands Kluwer Academic Publishers

Biber D (1993) Representativeness in corpus design Literary and Linguistic Computing 8(4)243-257

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 14: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

Carnegie Library of Pittsburgh Pittsburgh Photographic Library (PPL) Preliminary Inventory(2000) [Unpublished manuscript]

Chaffin R Herrmann D J (1984) The similarity and diversity of semantic relations Memory ampCognition 12(2) p 134-141

Chaffin R Herrmann D J (1987) Relation element theory A new account of the representationand processing of semantic relations In D S Gorfein R R Hoffman (Eds) Memory and learning(221-245) Hillsdale NJ Lawrence Erlbaum Associates

Cooper G S (1968) A semantic analysis of English locative prepositions (Bolt Beranek ampNewman Report No 1587) Springfield VA Clearing House for Federal Scientific and TechnicalInformation lthttphandledticmil1002AD666444gt [Accessed 14032010]

Enser P G B McGregor C G (1993) Analysis of visual information retrieval queries BritishLibrary RampD Report 6104 The British Library Board

Fahlman S E (1979) NETL A System for Representing and Using Real-World KnowledgeCambridge Massachusetts MIT Press

Farradane J (1980a) Relational indexing Part I Journal of Information Science 1 p 267-276

Farradane J (1980b) Relational indexing Part II Journal of Information Science 1 p 313-324

Fillmore C J (1976) Frame semantics and the nature of language Annals of the New YorkAcademy of Sciences Conference on the Origin and Development of Language and Speech 28020-32

Graesser A C Goodman S M (1985) Implicit knowledge question answering and therepresentation of expository text In B K Britton J B Black (Eds) Understanding expository texta theoretical and practical handbook for analyzing explanatory text Hillsdale NJ LawrenceErlbaum Associates

Gruber J S (1965) Studies in lexical relations Doctoral Dissertation MIT Cambridge IndianaUniversity Linguistics Club Bloomington Ind Reprinted as part of Lexical structures in syntax andsemantics North-Holland Amsterdam 1976

Jackendoff R (1983) Semantics and cognition Cambridge Mass MIT Press

Keister L H (1994) User types and queries Impact on image access systems In R Fidel et al(Eds) Challenges in indexing electronic text and images (7-22) Medford NJ Learned Information

Krippendorff K (2004) Content analysis an introduction to its methodology Thousand Oaks CASage Publications

Minsky M (1974) A framework for representing knowledge Artificial Intelligence Memo No 306Cambridge MA Massachusetts Institute of Technology AI Laboratory

Oxford English Dictionary Online March 2011 Oxford University PresslthttpwwwoedcomviewEntry41873redirectedFrom=corpusgt [Accessed 28042011]

Perakath C B [et al] (1994) IDEF5 Method Report Knowledge Based Systems Inc

Pittsburgh Photographic Library (PPL) Preliminary Inventory Revision 19 (March 23 2000)lthttp21618318420exhibitppl_planhtmlgt [Accessed 12042009]

Proposal for the Establishment of the Civic Photographic Center under the Sponsorship of theAllegheny Conference on Community Development (December 1949 revised February 20 1950)Archives Service Center University of Pittsburgh Box 56 Folder File 1 A W Mellon Educationand Charitable Trust Pgh PA Records 1930-1980

Rothkegel R Wender K F Schumacher S (1998) Judging spatial relations from memory InC Freska C Habel KF Wender (Eds) Spatial cognition An interdisciplinary approach torepresentation and processing of spatial knowledge (p 79-105) Berlin Springer-Verlag

Schmied J (1990) Corpus linguistics and non-native varieties of English World Englishes 9(3)p 255-268

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD

Page 15: Captar les relacions que hi ha en les descripcions d ...bid.ub.edu/27/pdf/benson1.pdf · contextos de descripció, recerca i recuperació d'imatges, o sobre els problemes intel·lectuals

Shatford S (1986) Analyzing the subject of a picture A theoretical approach Cataloging ampClassification Quarterly 6(3) p 39-62

Shatford S (1994) Some issues in the indexing of images Journal of the American Society forInformation Science 45(8) p 583-586

Shrout P E Fleiss J L (1979) Intraclass correlations uses in assessing rater reliabilityPsychological Bulletin 86(2) p 420-428

Stemler S (2001) An overview of content analysis Practical Assessment Research ampEvaluation 7(17) lthttpPAREonlinenetgetvnaspv=7ampn=1gt [Accessed 15012010]

Story V C (1993) Understanding semantic relationships VLDB Journal 2 p 455-488

Svenonius E (2000) The intellectual foundation of information organization Cambridge MassMIT Press

Talbot William Henry Fox (1968) The pencil of nature New York NY Da Capo Press (Firstedition of The Pencil of Nature was published in London between 1844 and 1846 in six separatefascicles)

Wand Y Storey V Weber R (1999) An ontological analysis of the relationship construct inconceptual modeling ACM Transactions on Database Systems 24 (4) p 494-528

Weber R P (1990) Basic content analysis Newbury Park CA Sage Publications

Winston M Chaffin R Herrmann D (1987) A taxonomy of part-whole relations CognitiveScience 11 p 417-444

Wood J M (2007) Understanding and computing Cohens Kappa a tutorialWebPsychEmpiricist lthttpwpeinfopapers_tablehtmlgt [Accessed 14052010]

Data de recepcioacute 02052011 Data dacceptacioacute 11072011

Facultat de Biblioteconomia i DocumentacioacuteUniversitat de BarcelonaBarcelona desembre de 2011httpwwwubedubiblio bull Comentaris

Recomanar bull Citacioacute bull Estadiacutestiques bull MetadadesEls textos publicats a BiD estan subjectes a una llicegravencia de Creative Commons

Poliacutetica de privadesaUB bull Facultat bull BiD