Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una...

143
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009 ISSN: 1135-5948 Artículos Consultas Degradadas en Recuperación de Información Textual Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro ................................................................... 9 Sistema de recomendación para un uso inclusivo del lenguaje Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera ................................................ 17 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández ................................................................................................................... 25 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Sergio Navarro, Rafael Muñoz, Fernando Llopis ....................................................................................... 31 Detección de Web Spam basada en la Recuperación Automática de Enlaces Lourdes Araujo, Juan Martinez-Romo......................................................................................................... 39 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews Alexandra Balahur, Andrés Montoyo........................................................................................................... 47 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Manuel de la Villa, Manuel J. Maña ........................................................................................................... 55 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez........................................................................................ 63 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian Tommaso Caselli ........................................................................................................................................ 71 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto- Organizativos Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez ........................................................................... 79 Global joint models for coreference resolution and named entity classification Pascal Denis, Jason Baldridge ................................................................................................................... 87 AQA: a multilingual Anaphora annotation scheme for Question Answering E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra........................................ 97 Co-referential chains and discourse topic shifts in parallel and comparable corpora Costanza Navarretta ................................................................................................................................. 105 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Olga Uryupina ........................................................................................................................................... 113 Tesis Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas Felipe Sánchez-Martínez .......................................................................................................................... 123 Los Roles Semánticos en la Tecnología del Lenguaje Humano: Anotación y Aplicación P. Moreda ................................................................................................................................................. 125 Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia Sergio Ferrández Escámez....................................................................................................................... 127 On Clustering and Evaluation of Narrow Domain Short-Text Corpora David Eduardo Pinto Avendaño ................................................................................................................ 129 Reseñas Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). Text Resources and Lexical Knowledge Isabel Durán Muñoz .................................................................................................................................. 133 Información General XXV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ........................... 137

Transcript of Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una...

Page 1: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009

ISSN: 1135-5948

Artículos Consultas Degradadas en Recuperación de Información Textual Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro ................................................................... 9 Sistema de recomendación para un uso inclusivo del lenguaje Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera ................................................ 17 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández ................................................................................................................... 25 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Sergio Navarro, Rafael Muñoz, Fernando Llopis ....................................................................................... 31 Detección de Web Spam basada en la Recuperación Automática de Enlaces Lourdes Araujo, Juan Martinez-Romo......................................................................................................... 39 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews Alexandra Balahur, Andrés Montoyo........................................................................................................... 47 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Manuel de la Villa, Manuel J. Maña ........................................................................................................... 55 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez........................................................................................ 63 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian Tommaso Caselli ........................................................................................................................................ 71 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez........................................................................... 79 Global joint models for coreference resolution and named entity classification Pascal Denis, Jason Baldridge ................................................................................................................... 87 AQA: a multilingual Anaphora annotation scheme for Question Answering E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra........................................ 97 Co-referential chains and discourse topic shifts in parallel and comparable corpora Costanza Navarretta ................................................................................................................................. 105 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Olga Uryupina ........................................................................................................................................... 113 Tesis Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas Felipe Sánchez-Martínez .......................................................................................................................... 123 Los Roles Semánticos en la Tecnología del Lenguaje Humano: Anotación y Aplicación P. Moreda ................................................................................................................................................. 125 Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia Sergio Ferrández Escámez....................................................................................................................... 127 On Clustering and Evaluation of Narrow Domain Short-Text Corpora David Eduardo Pinto Avendaño ................................................................................................................ 129 Reseñas Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). Text Resources and Lexical Knowledge Isabel Durán Muñoz .................................................................................................................................. 133 Información General XXV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ........................... 137

Page 2: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos
Page 3: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009

ISSN: 1135-5948

Artículos Consultas Degradadas en Recuperación de Información Textual Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro ................................................................... 9 Sistema de recomendación para un uso inclusivo del lenguaje Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera ................................................ 17 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández ................................................................................................................... 25 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Sergio Navarro, Rafael Muñoz, Fernando Llopis ....................................................................................... 31 Detección de Web Spam basada en la Recuperación Automática de Enlaces Lourdes Araujo, Juan Martinez-Romo......................................................................................................... 39 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews Alexandra Balahur, Andrés Montoyo........................................................................................................... 47 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Manuel de la Villa, Manuel J. Maña ........................................................................................................... 55 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez........................................................................................ 63 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian Tommaso Caselli ........................................................................................................................................ 71 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez........................................................................... 79 Global joint models for coreference resolution and named entity classification Pascal Denis, Jason Baldridge ................................................................................................................... 87 AQA: a multilingual Anaphora annotation scheme for Question Answering E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra........................................ 97 Co-referential chains and discourse topic shifts in parallel and comparable corpora Costanza Navarretta ................................................................................................................................. 105 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Olga Uryupina ........................................................................................................................................... 113 Tesis Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas Felipe Sánchez-Martínez .......................................................................................................................... 123 Los Roles Semánticos en la Tecnología del Lenguaje Humano: Anotación y Aplicación P. Moreda ................................................................................................................................................. 125 Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia Sergio Ferrández Escámez....................................................................................................................... 127 On Clustering and Evaluation of Narrow Domain Short-Text Corpora David Eduardo Pinto Avendaño ................................................................................................................ 129 Reseñas Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). Text Resources and Lexical Knowledge Isabel Durán Muñoz .................................................................................................................................. 133 Información General XXV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ........................... 137

Impresos de Inscripción

Page 4: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos
Page 5: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Procesamiento del Lenguaje Natural, Revista nº 42, Marzo de 2009

ISSN: 1135-5948

Editores: Mariona Taulé Delor Mª Teresa Martín Valdivia Universitat de Barcelona Universidad de Jaén [email protected] [email protected] Mª Antonia Martí Antonín Mª Felisa Verdejo Maillo Universitat de Barcelona UNED [email protected] felisa@@lsi.uned.es Consejo de Redacción: L. Alfonso Ureña López Manuel Palomar Sanz Universidad de Jaén Universidad de Alicante [email protected] [email protected] Patricio Martínez Barco Mª Felisa Verdejo Maillo Universidad de Alicante UNED [email protected] [email protected] Consejo Asesor: José Gabriel Amores (Universidad de Sevilla). Toni Badía (Universitat Pompeu Fabra). Manuel de Buenaga (Universidad Europea de Madrid). Irene Castellón (Universitat de Barcelona). Arantza Díaz de Ilarraza (Euskal Herriko Unibertsitatea). Antonio Ferrández (Universitat d'Alacant). Mikel Forcada (Universitat d'Alacant). Ana García-Serrano (Universidad Politécnica de Madrid). Koldo Gojenola (Euskal Herriko Unibertsitatea). Xavier Gómez Guinovart (Universidade de Vigo). Julio Gonzalo (UNED). José Miguel Goñi (Universidad Politécnica de Madrid). José Mariño (Universitat Politècnica de Catalunya). M. Antonia Martí (Universitat de Barcelona). M. Teresa Martín (Universidad de Jaén). Patricio Martínez-Barco (Universitat d'Alacant). Raquel Martínez (UNED). Lidia Moreno (Universitat Politècnica de València). Lluís Padro (Universitat Politècnica de Catalunya). Manuel Palomar (Universitat d'Alacant). Ferrán Pla (Universitat Politècnica de València). German Rigau (Euskal Herriko Unibertsitatea). Horacio Rodríguez (Universitat Politècnica de Catalunya). Kepa Sarasola (Euskal Herriko Unibertsitatea). Emilio Sanchís (Universitat Politècnica de València). Mariona Taulé (Universitat de Barcelona). L. Alfonso Ureña (Universidad de Jaén). Felisa Verdejo (UNED). Manuel Vilares (Universidad de A Coruña). Ruslan Mitkov(Universidad de Wolverhampton, UK). Sylviane Cardey-Greenfield (Centre de recherche en linguistique et traitement automatique des langues, France). Leonel Ruiz Miyares (Centro de Linguistica Aplicada de Santiago de Cuba). Luis Villaseñor-Pineda (Instituto Nacional de Astrofísica, Óptica y Electrónica, México). Manuel Montes y Gómez (Instituto Nacional de Astrofísica, Óptica y Electrónica, México). Alexander Gelbukh (Instituto Politécnico Nacional, México). Nuno J. Mamede (Instituto de Engenharia de Sistemas e Computadores, Portugal). Bernardo Magnini (Fondazione Bruno Kessler, Italia) Revisores adicionales: Andrés Montoyo (Universitat d'Alacant). Anselmo Peñas (UNED). Zornitza Kozareva (Universitat d'Alacant). Jordi Turmo (UPC). Víctor Fresno (UNED). Antonio Balvet (Université Lille 3, France). Richard Evans (University of Woverhampton, UK). Roser Morante (University of Antwerp, Belgium). Rafael Muñoz (Universitat d'Alacant). Costanza Navarretta (CST - Center for Sprogteknologi, Denmark). Constantin Orasan (University of Wolverhampton, UK). Massimo Poesio (University of Essex, UK / Università di Trento, Italy). Marta Recasens (Universitat de Barcelona). Emili Sapena (UPC). Mihai Surdeanu (Stanford, CA, USA). Antal van den Bosch (Tilburg University, The Netherlands).

Page 6: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

ISBN: 1135-5948 Depósito Legal: B:3941-91 Editado en: Universidad de Jaén, 2009. Publicado por: Sociedad Española para el Procesamiento del Lenguaje Natural Departamento de Informática. Universidad de Jaén Campus Las Lagunillas, EdificioA3. Despacho 127. 23071 Jaén [email protected]

Page 7: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Artículos

Page 8: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos
Page 9: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Consultas Degradadas en Recuperacion de Informacion Textual∗

Corrupted Queries in Text Retrieval

Juan Otero PomboDepto. de InformaticaUniversidade de Vigo

Campus As Lagoas s/n32002 - Ourense

[email protected]

Jesus Vilares FerroDepto. de ComputacionUniversidade da CorunaCampus de Elvina s/n

15174 - A [email protected]

Manuel Vilares FerroDepto. de InformaticaUniversidade de Vigo

Campus As Lagoas s/n32002 - [email protected]

Resumen: En este artıculo proponemos dos alternativas para el tratamiento de con-sultas degradadas en aplicaciones de Recuperacion de Informacion en espanol. Laprimera de ellas es una estrategia basada en n-gramas de caracteres e independientedel conocimiento y recursos linguısticos disponibles. Como segunda alternativa, pro-ponemos a su vez dos tecnicas de correccion ortografica, integrando una de ellas unmodelo estocastico que debe ser entrenado previamente a partir de un texto etique-tado. Con el fin de estudiar su validez, se ha disenado un marco de pruebas sobre elque se han evaluado ambas aproximaciones.Palabras clave: n-gramas de caracteres, consultas degradadas, recuperacion deinformacion, correccion ortografica.

Abstract: In this paper, we propose two different alternatives to deal with degradedqueries on Spanish Information Retrieval applications. The first is based on charactern-grams, and has no dependence on the linguistic knowledge and resources available.In the second, we propose two spelling correction techniques, one of which has astrong dependence on a stochastic model that must be previously built from a PoS-tagged corpus. In order to study their validity, a testing framework has been designedand applied on both approaches for evaluation.Keywords: Character n-grams, degraded queries, information retrieval, spellingcorrection.

1. Introduccion

Los modelos clasicos de recuperacion deinformacion (ri) no contemplan, inicialmen-te, el caso de fenomenos de degradacion en lasconsultas del usuario tales como la introduc-cion de errores ortograficos o palabras desco-nocidas, bien sea de forma accidental, o por-que el termino que esta tratando de buscarpresenta ambiguedades ortograficas en la co-leccion. Es por tanto imperativo el estudio deeste problema dado que puede deteriorar deforma substancial el rendimiento del sistema.

En este sentido, muchos autores aplicandirectamente tecnicas de correccion de erro-

∗ Este trabajo ha sido parcialmente subvenciona-do por el Ministerio de Educacion y Ciencia yFEDER (a traves de los proyectos de investi-gacion HUM2007-66607-C04-02 y HUM2007-66607-C04-03), y por la Xunta de Galicia (a traves de losproyectos 05PXIC30501PN, 07SIN005206PR, INCI-TE07PXI104119ES y la ”Red Gallega de pln y ri”).

res en las formas lexicas de la consulta paraası dotar al sistema de cierta robustez. Es-ta estrategia es a menudo empleada para elanalisis de textos degradados en el ambitodel procesamiento del lenguaje natural (pln).Sin embargo, si bien las herramientas de pln,por lo general, toleran una primera adivina-cion poco eficiente en la que se interactua conel usuario mostrandole multiples alternativasde correccion para que sea este el que realicela eleccion final, esto no suele ocurrir en lossistemas de ri, lo que incrementa la comple-jidad del problema.

Por otra parte, las aproximaciones de co-rreccion ortografica (Savary, 2002) aplicanmodificaciones en las palabras con el fin deminimizar la distancia de edicion (Levensh-tein, 1966) entre ellas; esto es, el numero deoperaciones de edicion1 a aplicar para trans-

1Insercion, borrado o substitucion de un caracter,o transposicion de dos caracteres contiguos.

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 9-16 recibido 03-11-08, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 10: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

formar una cadena en otra.Trabajos mas recientes interpretan la co-

rreccion ortografica como una cuestion es-tadıstica, donde una consulta con errores esvista como una degeneracion probabilısticade una correcta (Brill y Moore, 2000). Es-ta aproximacion, conocida como modelo decanal ruidoso (Kernighan, Church, y Gale,1990),2 tambien proporciona formas de incor-porar informacion de pronunciacion para me-jorar el rendimiento por medio de la capturade similaridades en la pronunciacion de laspalabras (Toutanova y Moore, 2002).

Sin embargo, en este trabajo proponemosuna estrategia basada en n-gramas de carac-teres como alternativa para el tratamiento deconsultas degradadas en espanol, buscando,ademas, una metodologıa simple y que pue-da ser utilizada independientemente de la ba-se de datos documental considerada y de losrecursos linguısticos disponibles. Presentare-mos, tambien, dos aproximaciones basadas encorreccion ortografica no interactiva.

Este artıculo se estructura como sigue.En primer lugar, en la Seccion 2 describi-mos brevemente nuestra propuesta basada enn-gramas de caracteres. A continuacion, enla Seccion 3, se presentan las dos aproxima-ciones de correccion ortografica que han si-do comparadas con nuestra propuesta. En laSeccion 4 se describe nuestra metodologıa deevaluacion y los experimentos realizados. Fi-nalmente, la Seccion 5 contiene nuestras con-clusiones y propuestas de trabajo futuro.

2. Recuperacion de Texto

mediante N-Gramas de

Caracteres

Formalmente, un n-grama es una subse-cuencia de longitud n de una secuencia dada.Ası, por ejemplo, podemos dividir la palabra"patata" es los 3-gramas de caracteres su-perpuestos -pat-, -ata-, -tat- y -ata-. Es-te simple concepto ha sido redescubierto re-cientemente por el Johns Hopkins UniversityApplied Physics Lab (jhu/apl) (McNamee yMayfield, 2004a) de cara a la indexacion dedocumentos, y nosotros lo recuperamos ahorapara nuestra propuesta.

Al tratar con ri monolingue, la adapta-cion resulta sencilla ya que tanto las con-sultas como los documentos son simplemen-te tokenizados en n-gramas superpuestos en

2Noisy channel model en ingles.

lugar de palabras. Los n-gramas resultantesson entonces procesados como lo harıa cual-quier motor de recuperacion. Su interes vie-ne dado por las posibilidades que ofrecen, es-pecialmente en lengua no inglesa, al facilitarun modo alternativo para la normalizacion deformas de palabras y permitir tratar lenguasmuy diferentes sin procesamiento especıficoal idioma y aun cuando los recursos linguısti-cos disponibles son escasos o inexistentes.

Estarıamos, pues, ante un prometedorpunto de partida sobre el cual desarrollar unaestrategia de indexacion y recuperacion efec-tiva para el tratamiento de consultas degra-dadas. Ademas, la utilizacion de ındices basa-dos en n-gramas desmonta el principal argu-mento que justifica la integracion de metodosde correccion ortografica en aplicaciones deri robustas: la necesidad de una coincidenciaexacta con los terminos almacenados en losındices. De este modo, con el empleo de n-gramas en lugar de palabras completas, solose requerirıa la coincidencia en subcadenas deestas. En la practica, esto elimina la necesi-dad de normalizar los terminos, minimizandoademas el impacto de los errores ortograficos,a los que no se les prestarıa especial atencion.En general deberıa, ademas, reducir de formaconsiderable la incapacidad del sistema paramanejar las palabras desconocidas.

3. Correccion Ortografica

Con el fin de justificar el interes practicode nuestra propuesta de ri robusta basada enn-gramas de caracteres, introducimos tam-bien una aproximacion mas clasica asociadaa un corrector ortografico contextual (Otero,Grana, y Vilares, 2007), lo que nos permitedefinir un marco de pruebas comparativo. Enun principio aplicaremos un algoritmo globalde correccion ortografica sobre automatas fi-nitos, propuesto por Savary (Savary, 2002),que encuentra todas las palabras cuya dis-tancia de edicion con la palabra erronea seamınima.

Desafortunadamente, esta tecnica puededevolver varias reparaciones candidatas posi-bles que, desde un punto de vista morfologico,tengan una calidad similar, es decir, cuandoexistan varias palabras cuya distancia de edi-cion con la palabra erronea es la misma.

Sin embargo, es posible ir mas alla de lapropuesta de Savary aprovechando la infor-macion linguıstica contextual embebida enun proceso de etiquetacion con el fin de

Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro

10

Page 11: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

ordenar las correcciones candidatas. Habla-mos entonces de correccion ortografica con-textual, cuyo nucleo, en nuestro caso, es unetiquetador morfosintactico estocastico basa-do en una extension dinamica del algoritmode Viterbi sobre Modelos Ocultos de Mar-kov (Grana, Alonso, y Vilares, 2002) de se-gundo orden. Esta extension del algoritmode Viterbi original se aplica sobre retıculasen lugar de enrejados (ver Figura 1) ya queestas son mucho mas flexibles al ser represen-tadas las palabras en los arcos en lugar de enlos nodos. En el contexto de la correccion or-tografica, nos permite representar un par pa-labra/etiqueta en cada arco, y luego calcularla probabilidad de cada uno de los caminospor medio de una adaptacion de las ecuacio-nes del algoritmo de Viterbi.

trabajar/V presión/Ses/V

fáciles/Adj

fácil/Adj

bajo/V

bajo/P

bajo/Adj

baño/S

No/Adv sn

sn

sn

pl

sn

Figura 1: Alternativas de correccion or-tografica representadas en una retıcula.

Para ilustrar el proceso con un ejemplo,consideremos la frase “No es facile trabajarbaio presion”, cuya correccion esperada serıa“No es facil trabajar bajo presion”, dondelas palabras “facile” y “baio” son erroneas.Asumamos ahora que nuestro corrector or-tografico nos ofrece “facil”/Adjetivo singu-lar y “faciles”/Adjetivo plural como posiblescorrecciones para “facile”; y “bajo”/Adjetivosingular, “bajo”/Preposicion, “bajo”/Verbo y“bano”/Sustantivo singular para “baio”. Laejecucion del algoritmo de Viterbi dinamicosobre la retıcula asociada, mostrada en la Fi-gura 1, nos ofrecerıa tanto las etiquetas delas palabras como las correcciones mas pro-bables en el contexto de esa frase concreta, loque nos permitirıa obtener una lista ordenadade correcciones candidatas. De este modo ob-tendrıamos, para nuestro ejemplo, que las co-rrecciones deseadas, “facil”/Adjetivo singulary “bajo”/Preposicion, serıan las primeras op-ciones, ya que se corresponderıan con la se-cuencia de etiquetas correcta.

4. Evaluacion

Nuestra propuesta ha sido inicialmentetesteada para el espanol. Este idioma puede

ser considerado un ejemplo significativo dadoque muestra una gran variedad de procesosmorfologicos, lo que lo convierte en una len-gua difıcil para la correccion ortografica (Vi-lares, Otero, y Grana, 2004). Las caracterısti-cas mas diferenciadoras se encuentran en losverbos, con un paradigma de conjugacion al-tamente complejo. En el caso de sustantivosy adjetivos esta complejidad se extiende alnumero y al genero, con hasta 10 y 20 gru-pos de variacion respectivamente.

0

0.2

0.4

0.6

0.8

1

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

Pre

cisi

on (

P)

Recall (Re)

stm-noerr (MAP=0.2990)4gr-noerr (MAP=0.2667)

stm-10 (MAP=0.2461)stm-20 (MAP=0.2241)stm-30 (MAP=0.2049)stm-40 (MAP=0.1802)stm-50 (MAP=0.1482)stm-60 (MAP=0.1183)stm-70 (MAP=0.0863)stm-80 (MAP=0.0708)stm-90 (MAP=0.0513)

stm-100 (MAP=0.0174)

Figura 2: Precision vs. Cobertura para lasconsultas sin corregir (empleando stemming).

4.1. Procesamiento de Errores

La primera fase en el proceso de evalua-cion consiste en introducir errores ortografi-cos en el conjunto de consultas de prueba.Estos errores son introducidos de forma alea-toria por un generador de errores automaticode acuerdo con un ratio de error dado. Inicial-mente se genera un fichero maestro de errorescomo sigue. Para cada palabra de mas de 3caracteres de la consulta, se introduce en unaposicion aleatoria uno de los cuatro erroresde edicion descritos por Damerau (Damerau,1964). De este modo, los errores introduci-dos son similares a aquellos que cometerıa unser humano o un dispositivo ocr. Al mismotiempo se genera un valor aleatorio entre 0 y100 que representa la probabilidad de que lapalabra no contenga ningun error ortografico.De este modo obtenemos un fichero maestrode errores que contiene, para cada palabra,su forma erronea correspondiente, y un valorde probabilidad.

Todos estos datos hacen posible generarde una forma sencilla conjuntos de pruebadiferentes para distintos ratios de error, per-mitiendonos ası valorar el impacto de estavariable en los resultados. El procedimiento

Consultas Degradadas en Recuperación de Información Textual

11

Page 12: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

60 80 100 120 140 160 180−1

−0.5

0

0.5

1

∆ M

AP

T=10%

60 80 100 120 140 160 180−1

−0.5

0

0.5

1

∆ M

AP

T=20%

60 80 100 120 140 160 180−1

−0.5

0

0.5

1

∆ M

AP

T=50%

60 80 100 120 140 160 180−1

−0.5

0

0.5

1

QID

∆ M

AP

T=100%

Figura 3: Diferencias de map por consulta:consultas sin corregir vs. consultas originales(empleando stemming).

consiste en recorrer el fichero maestro de erro-res y seleccionar, para cada palabra, la formaoriginal en el caso de que su probabilidad seamayor que el ratio de error fijado, o la formaerronea en caso contrario. Ası, dado un ra-tio de error T , solo el T % de las palabras delas consultas contendran un error. Una carac-terıstica interesante de esta solucion es quelos errores son incrementales, ya que las for-mas erroneas que estan presentes para un ra-tio de error determinado continuaran estandopresentes para ratios de error mayores, evi-tando ası cualquier distorsion en los resulta-dos.

El siguiente paso consiste en procesar lasconsultas con errores y lanzarlas contra el sis-tema de ri. En el caso de nuestra propuestabasada en n-gramas no se precisan recursosextra, ya que el unico procesamiento necesa-rio consiste en tokenizar las consultas en n-gramas. Sin embargo, para las aproximacio-nes de correccion ortografica se necesita un

lexicon y, en el caso de la correccion contex-tual, tambien un corpus de entrenamiento eti-quetado manualmente para entrenar con el eletiquetador. En nuestros experimentos hemostrabajado con el corpus de espanol Multex-JOC (Veronis, 1999), que consta de alrede-dor de 200.000 palabras etiquetadas morfo-sintacticamente, y con su lexicon asociado,de 15.548 palabras.

0

0.2

0.4

0.6

0.8

1

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

Pre

cisi

on (

P)

Recall (Re)

stm-noerr (MAP=0.2990)4gr-noerr (MAP=0.2667)

stm-10 (MAP=0.2587)stm-20 (MAP=0.2537)stm-30 (MAP=0.2389)stm-40 (MAP=0.2262)stm-50 (MAP=0.2076)stm-60 (MAP=0.1806)stm-70 (MAP=0.1352)stm-80 (MAP=0.1345)stm-90 (MAP=0.1188)

stm-100 (MAP=0.0903)

Figura 4: Precision vs. Cobertura para lasconsultas corregidas mediante el algoritmo deSavary (empleando stemming).

4.2. Marco de Evaluacion

En nuestros experimentos se ha emplea-do el corpus de espanol de la robust task delclef 2006 (Nardi, Peters, y Vicedo, 2006),3

formado por 454.045 documentos (1,06 gb) y160 topics —a partir de los cuales generar lasconsultas— de los que hemos empleado uni-camente un subconjunto del mismo (trainingtopics) formado por 60 topics proporciona-dos por el CLEF especıficamente para tareasde entrenamiento y puesta a punto.4 Dichostopics estan formados por tres campos: tıtu-lo, un breve tıtulo como su nombre indica;descripcion, una somera frase de descripcion;y narrativa, un pequeno texto especificandolos criterios de relevancia. En cualquier ca-so unicamente hemos empleado el campo detıtulo para ası simular el caso de las consultascortas utilizadas en motores comerciales.

Partiendo de dicha coleccion de documen-tos se han generado dos ındices diferentes.Primeramente, para probar las propuestasbasadas en correccion ortografica, se ha usa-

3Estos experimentos han de considerarse no oficia-les, ya que los resultados no han sido evaluados porla organizacion.

4Topics C050-C059, C070-C079, C100-C109,C120-C129, C150-159 y C180-189.

Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro

12

Page 13: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

60 80 100 120 140 160 180−1

−0.5

0

0.5

1

∆ M

AP

T=10%

60 80 100 120 140 160 180−1

−0.5

0

0.5

1

∆ M

AP

T=20%

60 80 100 120 140 160 180−1

−0.5

0

0.5

1

∆ M

AP

T=50%

60 80 100 120 140 160 180−1

−0.5

0

0.5

1

QID

∆ M

AP

T=100%

Figura 5: Diferencias de map por consulta:consultas corregidas mediante el algoritmode Savary vs. consultas originales (empleandostemming).

do una aproximacion clasica basada en stem-ming empleando snowball,5 basado en elalgoritmo de Porter (Porter, 1980), y la listade stopwords de la Universidad de Neucha-tel.6 Ambos recursos son de uso amplio en-tre la comunidad de ir. Asimismo, en el casode las consultas, se ha utilizado una segundalista de meta-stopwords (Mittendorfer y Wi-niwarter, 2001; Mittendorfer y Winiwarter,2002). Dichas stopwords corresponden a me-tacontenido, es decir, expresiones de formu-lacion de la consulta que no aportan ningunainformacion util para la busqueda, como enel caso de la expresion “encuentre aquellosdocumentos que describan . . .”.

En segundo lugar, a la hora de probarnuestra solucion basada en n-gramas, los do-cumentos han sido convertidos a minusculasy se han eliminado los signos de puntuacion,

5http://snowball.tartarus.org6http://www.unine.ch/info/clef/

aunque no los signos ortograficos. El textoresultante ha sido tokenizado e indexado uti-lizando 4-gramas como longitud de compro-miso tras estudiar los resultados previos deljhu/apl (McNamee y Mayfield, 2004b). Eneste caso no se han empleado stopwords.

Finalmente, ya a nivel de implementacion,nuestro sistema emplea como motor de re-cuperacion la plataforma de codigo abiertoTerrier (Ounis et al., 2006) con un modeloInL2 (Amati y van Rijsbergen, 2002).7

0

0.2

0.4

0.6

0.8

1

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

Pre

cisi

on (

P)

Recall (Re)

stm-noerr (MAP=0.2990)4gr-noerr (MAP=0.2667)

stm-10 (MAP=0.2628)stm-20 (MAP=0.2578)stm-30 (MAP=0.2431)stm-40 (MAP=0.2311)stm-50 (MAP=0.2120)stm-60 (MAP=0.1850)stm-70 (MAP=0.1448)stm-80 (MAP=0.1449)stm-90 (MAP=0.1282)

stm-100 (MAP=0.0997)

Figura 6: Precision vs. Cobertura para lasconsultas corregidas mediante el algoritmode correccion contextual (empleando stem-ming).

4.3. Resultados Experimentales

Nuestra propuesta ha sido probada paraun amplio rango de ratios de error T con el finde estudiar el comportamiento del sistema nosolo para densidades de error bajas, sino tam-bien para los elevados ratios de error propiosde entornos ruidosos como aquellos en quela entrada se obtiene de dispositivos movileso basados en escritura a mano —pdas y ta-bletas digitalizadoras, por ejemplo. De estemodo se ha trabajado con:

T ∈ {0%, 10%, 20%, 30%, . . . , 100%}

donde T=0% significa que no se han intro-ducido errores.

En el primer conjunto de experimentosrealizados se utilizaron las consultas sin co-rregir aplicando una aproximacion clasica ba-sada en stemming. Los resultados obtenidospara cada ratio de error T se muestran en lasgraficas de la Figura 2 tomando como refe-rencia tanto los resultados obtenidos para las

7Inverse Document Frequency model with Laplace

after-effect and normalization 2.

Consultas Degradadas en Recuperación de Información Textual

13

Page 14: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

consultas originales aplicando stemming —esdecir, para T=0%— (stm-noerr), como losobtenidos aplicando la aproximacion basadaen n-gramas (4gr-noerr). Tambien se dan losvalores de precision media (map).8 Estos pri-meros resultados muestran que el stemminges sensible a los errores ortograficos. Comose puede apreciar, aun un ratio de error ba-jo como T=10 % tiene un impacto significa-tivo sobre el rendimiento9 —la map decreceel 18 %—, empeorando conforme aumenta elnumero de errores introducidos: perdida del25 % para T=20%, 50 % para T=50 % (con 2consultas que ya no recuperan ningun docu-mento) y 94 % para T=100 % (con 13 consul-tas sin documentos), por ejemplo. Tales va-riaciones, ya a nivel de consulta, se muestranen la Figura 3. Esto se debe al hecho de quecon el tipo de consultas que estamos utilizan-do aquı —con unas 4 palabras de media—,cada palabra es de vital importancia, ya quela informacion perdida cuando un terminoya no encuentra correspondencia debido a unerror ortografico no puede ser recuperada apartir de ningun otro termino.

En nuestra segunda ronda de experimen-tos se estudio el comportamiento del sistemaal usar la primera de las aproximaciones decorreccion consideradas en este trabajo, estoes, cuando lanzamos las consultas con erro-res tras ser procesadas con el algoritmo deSavary. En este caso el modulo de correcciontoma como entrada la consulta con errores,obteniendo como salida una version corre-gida donde cada palabra incorrecta ha sidosubstituida por el termino mas cercano dellexicon de acuerdo a la distancia de edicion.En caso de empate —es decir, cuando exis-ten varias palabras en el lexicon a la mismadistancia—, la consulta es expandida con to-das las correcciones empatadas. Por ejemplo,tomando como entrada la oracion considera-da en la Seccion 3, “No es facile trabajar baiopresion”, la salida serıa “No es facil facilestrabajar bajo bano presion”. Analizando losresultados obtenidos, mostrados en la Figu-ra 4, vemos que la correccion tiene un efec-to general significativamente positivo sobreel rendimiento, disminuyendo en gran medi-da —aunque no eliminando— el impacto delos errores ortograficos, no solo para ratios deerror bajos (la perdida de map disminuye del

8Mean average precision en ingles.9A lo largo de este trabajo se han empleado tests-t

bilaterales sobre las map con α=0.05.

18 % al 13 % para T=10 % y del 25 % al 15 %para T=20 %), sino tambien para ratios deerror altos y muy altos (del 50 % al 31 % pa-ra T=50 % y del 94 % al 70 % para T=100 %),reduciendose tambien el numero de consultasque no devuelven documentos (ahora solo 1para T=50 % y 5 para T=100 %). Las diferen-cias de map a nivel de consulta se muestranen la Figura 5. Asimismo, el analisis de losdatos muestra que la efectividad relativa dela correccion aumenta con el ratio de error.

0

0.2

0.4

0.6

0.8

1

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

Pre

cisi

on (

P)

Recall (Re)

stm-noerr (MAP=0.2990)4gr-noerr (MAP=0.2667)

stm-10 (MAP=0.2554)stm-20 (MAP=0.2486)stm-30 (MAP=0.2433)stm-40 (MAP=0.2353)stm-50 (MAP=0.2260)stm-60 (MAP=0.2134)stm-70 (MAP=0.2073)stm-80 (MAP=0.1999)stm-90 (MAP=0.1767)

stm-100 (MAP=0.1627)

Figura 7: Precision vs. Cobertura para lasconsultas sin corregir (empleando n-gramas).

Con el fin de eliminar el ruido introducidopor los empates al emplear el algoritmo deSavary, se ha realizado un tercer conjunto depruebas usando nuestro corrector ortografi-co contextual. Dichos resultados se muestranen la Figura 6 y, como era de esperar, estosmejoran consistentemente con respecto a laaproximacion original, si bien la mejora ob-tenida mediante este procesamiento extra nollega a ser significativa: un 2% de perdida demap recuperado para 10 %≤ T ≤60 % y un7–10 % para T >60 %.

Finalmente, hemos probado nuestra pro-puesta basada en n-gramas. La Figura 7muestra los resultados obtenidos cuando lasconsultas sin corregir son lanzadas contranuestro sistema de ri basado en n-gramas.Aunque el stemming funciona significativa-mente mejor que los n-gramas para las con-sultas originales, no ocurre lo mismo cuan-do hay errores ortograficos, superando cla-ramente el segundo metodo al primero nosolo cuando no se aplica ningun tipo de co-rreccion, siendo la mejora significativa paraT ≥40 %, sino tambien cuando se aplica cual-quiera de los dos metodos basados en correc-cion ortografica —salvo para ratios de errormuy bajos—, si bien la diferencia no es sig-

Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro

14

Page 15: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

60 80 100 120 140 160 180−0.5

−0.25

0

0.25

0.5

∆ M

AP

T=10%

60 80 100 120 140 160 180−0.5

−0.25

0

0.25

0.5

∆ M

AP

T=20%

60 80 100 120 140 160 180−1

−0.5

0

0.5

1

∆ M

AP

T=50%

60 80 100 120 140 160 180−1

−0.5

0

0.5

1

QID

∆ M

AP

T=100%

Figura 8: Diferencias de map por consulta:consultas sin corregir vs. consultas originales(empleando n-gramas).

nificativa hasta T ≥70 %. Ademas, la robus-tez de nuestra propuesta basada en n-gramasen presencia de errores ortograficos demues-tra ser claramente superior a cualquiera delas aproximaciones previas basadas en stem-ming. Como ejemplo, la perdida de map parastemming —como se dijo previamente— erasignificativa incluso para T=10 %, con unareduccion del 18 % para T=10 %, 25 % pa-ra T=20%, 50 % para T=50% y 94 % pa-ra T=100 %. Para los mismos valores de T ,la aplicacion de nuestro corrector ortograficocontextual —ligeramente superior a la pro-puesta de Savary— reducıa dichas perdidasa 12 %, 14 %, 29 % y 67 %, respectivamen-te, con lo que dichas caıdas ya no eran sig-nificativas hasta T=20 %. Sin embargo, losn-gramas superan a ambos de forma clara,siendo la perdida de map significativa solo apartir de T=40 %, y casi reduciendo a la mi-tad la cuantıa de dichas perdidas: 4 %, 7 %,15 % y 39 %, respectivamente. Ademas, ya no

hay consultas que no devuelven documentos,ni siquiera para T=100 %. El rendimiento anivel de consulta se muestra en la Figura 8.

5. Conclusiones y Trabajo Futuro

Este trabajo es un primer paso hacia el di-seno de tecnicas de consulta para su empleoen aplicaciones de base linguıstica para domi-nios genericos no especializados. Nuestro ob-jetivo es el tratamiento eficiente de las consul-tas degradadas en espanol, evitando metodosclasicos de correccion ortografica que requie-ran una implementacion compleja, no solodesde el punto de vista computacional sinotambien desde el linguıstico. En este sentido,se proponen aquı dos aproximaciones diferen-tes. En primer lugar, se presenta un correc-tor ortografico contextual desarrollado a par-tir de una tecnica de correccion global pre-via ampliada para incluir informacion con-textual obtenida mediante etiquetacion mor-fosintactica. Nuestra segunda propuesta con-siste en trabajar directamente con las con-sultas con errores ortograficos, pero utilizan-do un sistema de ri basado en n-gramas enlugar de uno clasico basado en stemming.

Las pruebas realizadas han mostrado quelas aproximaciones clasicas basadas en stem-ming son sensibles a los errores ortografi-cos, aunque el uso de mecanismos de correc-cion permiten reducir el impacto negativo deestos. Por su parte, los n-gramas de carac-teres han mostrado ser altamente robustos,superando claramente a las tecnicas basadasen correccion ortografica, especialmente pararatios de error medios o altos. Ademas, da-do que no se precisa procesamiento especıficoal idioma, nuestra aproximacion basada enn-gramas puede ser utilizada con lenguas denaturaleza diferente aun cuando los recursoslinguısticos disponibles sean escasos o inexis-tentes.

Con respecto a nuestro trabajo futuro, te-nemos la intencion de ampliar el conceptode stopword al caso de n-gramas de carac-teres con el fin de incrementar el rendimien-to del sistema ası como reducir sus requeri-mientos computacionales y de almacenamien-to. Sin embargo, con el fin de mantener la in-dependencia respecto al idioma, tales ”stop-n-gramas” deberıan ser generados de formaautomatica a partir de los propios textos deentrada (Lo, He, y Ounis, 2005). Finalmen-te, se estan preparando nuevos experimentospara otros idiomas.

Consultas Degradadas en Recuperación de Información Textual

15

Page 16: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Bibliografıa

Amati, G. y C. J. van Rijsbergen. 2002. Pro-babilistic models of Information Retrievalbased on measuring divergence from ran-domness. ACM Transactions on Informa-tion Systems, 20(4):357–389.

Brill, E. y R.C. Moore. 2000. An impro-ved error model for noisy channel spellingcorrection. En Proc. of the ACL’00, pag.286–293.

Damerau, F. 1964. A technique for computerdetection and correction of spelling errors.Communications of the ACM, 7(3):171–176.

Grana, J., M.A. Alonso, y M. Vilares. 2002.A common solution for tokenization andpart-of-speech tagging: One-pass Viterbialgorithm vs. iterative approaches. Lectu-re Notes in Computer Science, 2448:3–10.

Kernighan, M. D., K.W. Church, y W. A.Gale. 1990. A spelling correction programbased on a noisy channel model. En Proc.of the COLING’90, pag. 205–210.

Levenshtein, V.I. 1966. Binary codes capableof correcting deletions, insertions and re-versals. Soviet Physics-Doklandy, 6:707–710.

Lo, R.T.W., B. He, y I. Ounis. 2005. Auto-matically building a stopword list for aninformation retrieval system. En Proc. ofthe 5th Dutch-Belgian Information Retrie-val Workshop (DIR’05).

McNamee, P. y J. Mayfield. 2004a. Cha-racter N-gram tokenization for Europeanlanguage text retrieval. Information Re-trieval, 7(1-2):73–97.

McNamee, P. y J. Mayfield. 2004b.JHU/APL experiments in tokenizationand non-word translation. Lecture Notesin Computer Science, 3237:85–97.

Mittendorfer, M. y W. Winiwarter. 2001.A simple way of improving traditional IRmethods by structuring queries. En Proc.of the 2001 IEEE International Workshopon Natural Language Processing and Kno-wledge Engineering (NLPKE 2001).

Mittendorfer, M. y W. Winiwarter. 2002.Exploiting syntactic analysis of queries forinformation retrieval. Data & KnowledgeEngineering, 42(3):315–325.

Nardi, A., C. Peters, y J. L. Vicedo,eds. 2006. En Working Notes ofthe CLEF 2006 Workshop. Disponibleen http://www.clef-campaign.org (vi-sitada en octubre 2008).

Otero, J., J. Grana, y M. Vilares. 2007. Con-textual spelling correction. Lecture Notesin Computer Science, 4739:290–296.

Ounis, I., G. Amati, V. Plachouras,B. He, C. Macdonald, y C. Lioma.2006. Terrier: A high performan-ce and scalable Information Retrievalplatform. En Proc. of the ACM SI-GIR’06 Workshop on Open SourceInformation Retrieval (OSIR 2006),pag. 18–25. Herramienta disponibleen http://ir.dcs.gla.ac.uk/terrier/

(visitada en octubre 2008).

Porter, M. F. 1980. An algorithm for suffixstripping. Program, 14(3):130–137.

Savary, A. 2002. Typographical nearest-neighbor search in a finite-state lexiconand its application to spelling correc-tion. Lecture Notes in Computer Science,2494:251–260.

Toutanova, K. y R.C. Moore. 2002. Pro-nunciation modeling for improved spellingcorrection. En Proc. of the ACL’02, pag.144–151.

Vilares, M., J. Otero, y J. Grana. 2004. Onasymptotic finite-state error repair. Lectu-re Notes in Computer Science, 3246:271–272.

Veronis, J. 1999. Multext-corpora: An an-notated corpus for five European langua-ges. cd-rom. Distributed by elra/elda.

Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro

16

Page 17: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Sistema de recomendacion para un uso inclusivo del lenguaje∗

Inclusive Language Recommendation System

Maria Fuentes, Lluıs Padro, Muntsa Padro, Jordi Turmo y Jordi T. CarreraGrupo de Procesamiento del Lenguaje Natural

Departamento de Lenguajes y Sistemas InformaticosUniversitat Politecnica de Catalunya

c/Jordi Girona, 1-308034 Barcelona

mfuentes,padro,mpadro,turmo,[email protected]

Resumen: Sistema que procesa un texto escrito en castellano detectando usos dellenguaje no inclusivos. Para cada sintagma nominal sospechoso el sistema proponeuna serie de alternativas. El sistema permite tambien la adquisicion automatica deejemplos positivos a partir de documentos que hagan un uso inclusivo del lenguaje.Estos ejemplos seran usados, junto a su contexto, en la presentacion de sugerencias.Palabras clave: Lenguaje inclusivo, aprendizaje basado en ejemplos

Abstract: System to detect exclusive language in spanish documents. For eachnoun phrase detected as exclusive, several alternative are suggested by the system.Moreover, the system allows the automatic adquisition of positive examples frominclusive documents to be presented within their context as alternatives.Keywords: Inclusive language, example based learning

1. Introduccion

Hacer uso de un lenguaje inclusivo consis-te en la seleccion de vocabulario y partıculasde la lengua que permitan minimizar o eli-minar las palabras que implican o parecenimplicar la exclusion de un sexo. Por ejemploel personal de vuelo o la tripulacion de cabi-na es lenguaje inclusivo, mientras que azafataes claramente exclusivo (o sexista). De todasformas, para determinar el grado de lenguajeinclusivo a ser utilizado, (Wilson, 1993) re-marca la importancia de tener en cuenta elsentido comun si no se quiere que por las bue-nas intenciones se acabe sacrificando la prosa.

Existen varios manuales y herramientasque asisten a la produccion de documentosinclusivos. Una de las primeras iniciativas enel estado espanol fue impulsada por el ins-tituto de la mujer en el marco del proyectonombra.en.red (Alario et al., 1995). En es-te proyecto se construyo un software de libredistribucion, cuya base de datos fue creadasiguiendo las sugerencias de usos alternativosque, en los anos ochenta y noventa partieron,entre otros, del Consejo de Europa (ConsejoEuropa, 1986), del Institut Valencia de la Do-

∗ Los autores desean mostrar su agradecimiento aEulalia Lledo y a Marta de Blas por la cesion de textosinclusivos, ası como a Edgar Gonzalez por facilitarnossu software de clustering.

na (Departamento Dona, 1987), del Institutode la Mujer, de UNESCO y de la Conferen-cia de Naciones Unidas sobre las Mujeres dePekın (Naciones Unidas, 1996).

Otra herramienta que podemos encontraren la red es la lupa violeta (Factoria de Em-presas, 2002). Fue disenada para ser instaladaen el procesador de textos Word, identifica losterminos que pueden tener una utilizacion se-xista y propone diferentes sugerencias. En lamisma linea, recientemente se esta comercia-lizando Themis (The Reuse company, 2008),que explora archivos y sitios web en buscade usos exclusivos de la lengua ofreciendo al-ternativas de forma similar a los correctoresortograficos integrados en editores de textos.

Este artıculo presenta el recomendadorde alternativas inclusivas desarrollado en laUPC (Universidad Politecnica de Cataluna)para el proyecto Web con Genero de la Fun-dacion CTIC (Centro Tecnologico de la Infor-macion y la Comunicacion)1. El sistema uti-liza tecnicas de aprendizaje basado en ejem-plos y adquisicion automatica de ejemplos.

La seccion 2 muestra una vision global delsistema, la 3 analiza el funcionamiento delsistema actual, la 4 propone posibles mejorasy la seccion 5 concluye el artıculo.

1http://www.t-incluye.org

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 17-24 recibido 28-11-08, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 18: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

2. Arquitectura general

Esta seccion describe los componentesbasicos de la arquitectura general del siste-ma. La Figura 1 presenta la interaccion entrelas cuatro componentes, cuyas funciones son:extraer caracterısticas de un Sintagma Nomi-nal (SN), filtrar el SN en funcion de si utilizaun lenguaje inclusivo o exclusivo, buscar enla Base de Datos (BD) ejemplos similares acada SN exclusivo y por ultimo presentar lasmejores sugerencias inclusivas.

gramática

euroWN

dic_lemas

EXTRAERCARACTERÍSTICAS

<xml_ IN>Texto

</xml_ IN>

FILTRARinclusivo/exclusivo

BD ejeminclusivos

inclus

BUSCARSIMILARES

exclus

atributos_SN

mejores_clusters

PRESENTARSUGERENCIAS

<xml_OUT>Texto_sug

</xml_OUT>

Figura 1: Componentes del recomendador.

Las dos funcionalidades basicas son:

la deteccion de SNs susceptibles de haceruso de lenguaje exclusivo y las corres-pondientes recomendaciones inclusivas.

la adquisicion automatica de SNs inclusi-vos para la creacion de forma automaticade la BDs de ejemplos inclusivos.

El Cuadro 1 presenta un ejemplo de texto

formateado como entrada del sistema, dividi-do en parrafos y codificado en XML. En elCuadro 5 puede verse el formato de salida.

<DOC>

<INFO>

<URI>http:://www.un dominio.es/una pagina</URI>

<IP>192.168.2.243</IP>

<DATE>2998-03-13 11:34</DATE>

</INFO>

...

<P locator=”136”type=”texto”>

3. La Junta Consultiva esta constituida por el rector o la rectora,

que la preside; la secretaria general o el secretario general, que

lo es de la Junta, y cuarenta miembros mas designados por el

Consejo de Gobierno, a propuesta del rector o la rectora, entre

profesoras o profesores e investigadoras o investigadores de

reconocido prestigio, de todos los ambitos tematicos presentes

en la Universidad y de todos los que se considere oportuno,

acreditados por las correspondientes evaluaciones positivas de

acuerdo con la normativa vigente, ocho de los cuales, al menos,

deben ser externos a la Universidad Politecnica de Cataluna.

</P>

...

<P locator=”164”type=”texto”>

4. A efectos de esta eleccion, la comunidad universitaria se

considera dividida en los cuatro sectores siguientes:

</P>

<P locator=”165”type=”texto”>

a)Profesorado doctor de los cuerpos docentes universitarios.

b)Personal docente e investigador, excluido el correspondiente

al sector a.

c)Estudiantes.

d)Personal de administracion y servicios.

</P>

...

</DOC>

Cuadro 1: Documento de entrada.

El primer paso consiste en extraer una se-rie de caracterısticas (atributos) de cada SN.

En segundo lugar se tendran en cuentaSNs inclusivos, cuando el objetivo sea la ad-quisicion de ejemplos y SNs exclusivos cuan-do el objetivo sea la recomendacion. En elprimer caso se almacenaran en la BD losejemplos filtrados y solo en el segundo ca-so sera necesario buscar ejemplos inclusivossimilares existentes en la BD para finalmentepresentar las sugerencias mas adecuadas.

2.1. Extraer caracterısticas

El objetivo de esta fase es obtener unaserie de caracterısticas morfosintacticas ysemanticas necesarias en la siguiente fase pa-ra determinar si un sintagma es inclusivo loshombres y las mujeres, exclusivo los hombres,o irrelevante los coches y las motos.

La informacion extraıda en esta fase tam-bien sera utilizada en la busqueda de ejem-plos similares, tanto para indexar los ejem-plos inclusivos en la BD como para seleccio-nar las mejores alternativas a un SN detecta-do como exclusivo.

La parte superior del Cuadro 2 presentaun ejemplo de SN inclusivo en su contexto, loshombres y las mujeres, y la inferior los atribu-tos asociados. El numero de atributos varıaen funcion de las caracterısticas del sintagma

Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera

18

Page 19: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

nominal. Los atributos contienen informacionsobre lemas, formas, etiquetas morfologicas(en el ejemplo parole), informacion semantica(sense), etiquetas sintacticas (label, multiple).

En el se desarrollan algunos aspectosrelacionados con la violencia: sus significados,los modos en que hombres y mujeres seposicionan ante la misma, las causas de laviolencia ejercida especıficamente contralas mujeres y el papel que juega lasocializacion de ninas y ninos en la formacionde conductas violentas.

atributos:lemma=y form=y parole=CCHasDoubleForm=falselemma1=hombre form1=hombresparole1=NCMP000 HasDoubleForm1=truesenses1=0:07391044 0:05957670 0:073925060:01967203 0:07331418 0:07392045 1:069516211:00017954 1:00004123 1:01966690 1:076028531:06951621 2:00004123 2:00003731 2:000020862:01964914 2:07356184 2:00004123 3:000037313:00002086 3:00001740 3:00001740 3:014027123:00004123 3:00003731 3:00002086 4:000017404:00001740 4:01378363 4:00003731 4:000020864:00001740 4:00001740 5:00995974 5:000017405:00001740 6:00990770 7:00008019 8:000020869:00001740lemma2=mujer form2=mujeresparole2=NCFP000 HasDoubleForm2=falsesenses2=0:07684780 1:06948278 2:000041233:00003731 3:00002086 4:00001740label=sn-doble multiple=true

Cuadro 2: SN y las caracterısticas extraıdas

HasDoubleForm indica que un lema tie-ne forma para ambos generos. Este atributosera tambien cierto en palabras masculinasque tienen contraparte femenina, pero que nocomparten lema con ella y por tanto no sondetectables vıa diccionario, como hombre.

Esta fase utiliza la librerıa Freeling2 (At-serias et al., 2006), que proporciona variosanalizadores del lenguaje: analisis morfologi-co, etiquetado gramatical, analisis sintacticosuperficial, deteccion y clasificacion de enti-dades nominales y anotacion semantica basa-da en WordNet (Vossen, 1998).

Un SN puede estar formado por variosnombres y cada uno de ellos puede a su vez te-ner varios sentidos. La informacion semanti-ca asociada se ve reflejada en los atributossense, Cuadro 2. La Figura 2 presenta par-

2http://garraf.epsevg.upc.es/freeling/

Figura 2: Representacion semantica de hom-bre y mujer (sense1 y sense2 en Cuadro 2)

te de la informacion semantica asociada a losconceptos “hombre” y “mujer”. Segun Word-Net mientras mujer tiene un unico significadohombre puede tener varios y ambas palabrastienen por hiperonimo el concepto persona.

Referente al analisis sintactico, para el re-comendador se ha creado una gramatica deSNs especıfica y se ha modificado el dicciona-rio para que palabras como prıncipe y prin-cesa tengan el mismo lema.

2.2. Filtrar

El componente Filtrar puede considerarsecomo un clasificador de SNs. La Figura 3 pre-senta el arbol de decision que se aplica paraidentificar si un SN es inclusivo (CORREC-TO), exclusivo (INCORRECTO), irrelevante(DESCARTAR) o multiple (DESMONTAR).

En esta fase se aplican una serie de pa-trones que combinan informacion sintacticacon informacion semantica. Sintacticamentese tiene en cuenta si el SN es doble o sospe-choso y semanticamente se tiene en cuenta sila palabra tiene una relacion de hiperonimiacon persona o grupo social.

La regla por defecto serıa que si un SN ha-ce referencia a una persona o grupo social enmasculino que tiene contraparte femenina yesta no aparece reflejada se detecta como in-correcto, si aparece se detecta como correcto.

Para los casos a los que no se puede aplicarla regla por defecto o requieren un tratamien-to especial para desvincularlo de la informa-cion que tiene o deja de tener WordNet se hacreado una serie de listas. A continuacion sedescribe cada lista y el Cuadro 3 presenta las

Sistema de recomendación para un uso inclusivo del lenguaje

19

Page 20: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Figura 3: Representacion del arbol de deci-sion para filtrar SN inclusivos o exclusivos.

palabras que contienen inicialmente.La lista palabras especiales contiene le-

mas de palabras masculinas que tienen unapalabra femenina, pero que no comparten le-ma con ella y por tanto no son detectables vıadiccionario. Por ej. “ninos” es una palabramasculina que comparte lema con “ninas”,que es femenina. Palabras como “hombres”no tienen esta caracterıstica, dado que sucorrespondiente femenino (“mujer” en estecaso) tiene un lema diferente.

El sistema usa informacion semantica ex-traıda de WordNet para determinar si unapalabra puede referirse a personas o a colec-tivos, que son conceptos clave para la identifi-cacion de ejemplos correctos o incorrectos encuanto a genero. Algunas palabras tienen sen-tidos poco frecuentes que caen en esas cate-gorıas (p.e. “un tipo” o “un par” pueden refe-rirse a una persona, “un tipo majo”, “un Pardel Reino”, “estar con sus pares (sus igua-

palabras especiales

hombre varon macho padre papa papa padrino

marido caballero patrono obispo cardenal

poeta jinete judıo primero segundo tercero

ultimo penultimo amo capellan albanil

palabras no relevantes

par tipo sector curso seminario tribunal nombre

corazon factor amor circo pueblo estado contacto

region elemento compromiso animal negocio

extremo conferencia servicio encuentro periodico

ejercito encuentro colegio consejo departamento

instituto ejemplo cuerpo cabo centro congreso

simposio espectaculo cielo reparto cuadro

diario modelo banco capıtulo campamento paıs

conjunto exito regimen bloque monstruo monton

comedor imperio talento club partido palacio

ministerio metro fantasma horario pajaro comite

reino municipio angel ayuntamiento vehıculo

carino clan cerebro as cristianismo editorial sol

base maricon terror satelite violın baile bajo

testimonio bicho maquina academia laboratorio

aula taller clınica campo doble papel general

desastre demonio ex nazi rayo grande moro

movimiento cırculo miembro parte alfabeto

palabras inclusivas

persona

nombres vacıos

persona equipo senor colectivo sindicato ramo

organo poblacion clase comunidad mundo coto

profesion personal publico gente grupo habitante

asociacion

palabras genericas

profesorado alumnado ciudadanıa estudiantado

electorado clientela vecindario funcionariado

voluntariado abogacıa aficion presidencia tropa

vicepresidencia gerencia jefatura secretarıa

asesorıa alcaldıa coordinacion redaccion autorıa

magistratura judicatura delegacion descendencia

audiencia proletariado burguesıa chiquillerıa

humanidad juventud infancia adolescencia

tesorerıa ingenierıa ministerio consistorio

tripulacion pasaje consultorıa auditorıa notarıa

tutorıa conserjerıa empresa directiva

Cuadro 3: Palabras con tratamiento especial.

les)”. Ası mismo, “curso” o “sector” puedenreferirse a un grupo o colectivo (“el curso de5o son unos gamberros”, “el sector del metalesta en huelga”). La lista palabras no rele-

vantes contiene lemas de palabras para lasque el sistema debe ignorar los sentidos per-sona/colectivo que puedan tener, ya que sonpoco habituales. Eso evita la inclusion en laBD de muchos ejemplos irrelevantes, corrien-do el riesgo de descartar ejemplos relevantesen las pocas ocasiones en que esas palabrasconstituyan ejemplos a detectar.

La mayorıa de palabras con genero mor-fologico femenino o bien se refieren a objetoso a animales hembras (silla, casa, gata, galli-na, ...) o a personas de sexo femenino (nina,amiga, ...). En el primer caso, no son rele-vantes para el tratamiento del lenguaje ex-clusivo. En el segundo, se considera que eldeseo era referirse a una/s persona/s de se-xo femenino y por tanto, no se detecta comosintagma incorrecto ni tampoco como sintag-ma candidato a sugerencia. Las palabras en lalista palabras inclusivas (como p.e. “perso-na”) son excepciones a esta regla, y deben serconsideradas candidatas a sugerencia aunquesean morfologicamente femeninas.

Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera

20

Page 21: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

La lista nombres vacıos contiene aque-llos nombres que se refieren a una personao colectivo, pero que en el caso de llevar unadjetivo, es ese el que aporta la informacionrelevante (p.e. “persona usuaria” es relevan-te para “usuario”, o “equipo directivo” lo espara “directivos” o “director”).

La lista palabras genericas contiene pa-labras que se refieren a colectivos, pero queen WordNet no aparecen como tal.

2.3. Buscar similares

El sistema utiliza una BD de ejemplos in-clusivos indexada para que el acceso a losejemplos sea eficiente utilizando tecnicas declustering o agrupacion de ejemplos. Lo quesignifica que se agrupan los ejemplos segunsu parecido, para facilitar su posterior recu-peracion por similitud. En concreto se acce-de a los clusters o conjuntos de ejemplos conmenor distancia (valor entre 1 y 0). La dis-tancia entre ejemplos se calcula aplicando lasiguiente formula:

d = 1 − ((Pla ∗ Sla + Pf ∗ Sf + Ple ∗ Sle +

Ps ∗ Ss + Pp ∗ Sp)/Pnormaliza)

donde Sla, Sf, Sle, Ss y Sp son respectivamen-te las similitudes entre las etiquetas sintacti-cas, las formas, los lemas, los sentidos y lasetiquetas morfologicas y Pnormaliza es la su-ma de los pesos de cada similitud: Pla 0.1, Pf3, Ple 5, Ps 8 y Pp 1.

Se ha utilizado una implementacion deClustering Jerarquico Aglomerativo (Jardiney Sibson, 1971). Como distancia inter-grupohemos utilizado “Unweighted Pairwise GroupMethod using Arithmetic Averages” (Zhaoy Karypis, 2002). Una vez el dendrogramaesta construido, el numero optimo de clustersse determina usando Silhouette (Rousseeuw,1987). Se selecciona la profundidad del arbolcuyos clusters obtienen un mayor valor Sil-houette.

Adicionalmente el sistema tiene dosparametros relacionados con la construccionde los clusters:

Numero mınimo de clusters de ejemplosque se crearan. El algoritmo decide automati-camente el numero optimo de grupos, pero enalgunos casos el criterio de decision puede noobtener un valor satisfactorio. En estos casos,se usa el numero de clusters especificado enesta opcion.

Numero maximo de ejemplos en un clus-ter. Se usa en el proceso de decision del nume-ro de clusters. Si el corte optimo supone crearun cluster de tamano mayor al valor dado enesta opcion, se busca otro valor optimo queno viole esta restriccion.

Los ejemplos de la BD se agrupan en clus-ters y para cada cluster se elige un ejemplorepresentante (medoide). El Cuadro 4 presen-ta los ejemplos que forman el cluster repre-sentado por el medoide una educadora o uneducador.

637: del equipo educativo917: una educadora o un educador1065: la persona ası educada1771: educadoras y educadores1798: como persona educadora1803: educadoras o educadores1804: de un equipo educativo4292: la persona educadora4698: educadoras/esmedoide: 917num.ejemplos: 9

Cuadro 4: Ejemplo de cluster y su medoide.

Para evitar comparar cada vez la distan-cia del SN tratado a todos los ejemplos de laBD unicamente los medoides son tenidos encuenta en la seleccion del conjunto de clustersque se encuentran a menor distancia. En es-ta fase, se calcula la distancia del SN tratadocon el medoide de cada cluster en la BD.

2.4. Presentar sugerencias

La seleccion de las sugerencias para unejemplo incorrecto requiere el paso previo deseleccion de los clusters mas prometedores.En esta ultima fase solo se analizan las po-sibles sugerencias que contienen los mejoresclusters, evitando ası un recorrido exhausti-vo de toda la BD. De entre las sugerenciasanalizadas, se seleccionan las mas parecidasal ejemplo incorrecto, siempre que se encuen-tren dentro de un margen de similitud, y pro-curando que sean lo mas variadas posible.

A continuacion se describen los parame-tros que controlan la busqueda y seleccion desugerencias:

Numero maximo de sugerencias quedara el recomendador. Puede dar menos si nohay bastantes candidatos lo suficientementecercanos al ejemplo incorrecto.

Umbral de distancia a partir del cual no seconsideran las sugerencias, aunque no se haya

Sistema de recomendación para un uso inclusivo del lenguaje

21

Page 22: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

alcanzado el numero maximo de sugerencias.La distancia equivale a 1-similitud, por lo queun umbral 0.55 implica que no se propondransugerencias con una similitud inferior a 0.45.Una distancia demasiado baja excluye ejem-plos interesantes pero semanticamente aleja-dos (p.e. ciudadanos de ciudadanıa)

Numero de clusters mas cercanos al SNincorrecto a explorar para la seleccion de su-gerencias. Si el valor es muy alto, se pierdeeficiencia ya que se explora gran parte de laBD. Este valor controla el porcentaje de laBD que se explora en cada consulta. Si la BDtiene muchos clusters, que este valor sea alto,no necesariamente significa una gran perdidade eficiencia, y en cambio, garantiza que seencuentren los mejores ejemplos. Un valor de1 puede funcionar bien con una BD rica enejemplos. Un valor de 2 o 3 introduce ciertaflexibilidad en la busqueda que puede mejo-rar los resultados en ejemplos que quedan amedio camino entre dos grupos.

Umbral de igualdad. Para aumentar la va-riedad de las sugerencias, el recomendadoromite los candidatos si son muy parecidos aalguno ya propuesto. (ej: si en la lista ya fi-gura “los profesores y las profesoras”, se omi-tira “los profesores o las profesoras”). Esteumbral es la similitud mınima que deben te-ner dos ejemplos para ser considerados “de-masiado parecidos”. Cuanto mayor es el va-lor, mas estricta es la comparacion (mas pa-recidos se permite que sean los ejemplos dela lista final). Si el valor baja, menos estrictaes la comparacion (se consideraran parecidosejemplos con mayores diferencias).

En caso que no se seleccione ningun ejem-plo candidato, siempre que sea posible, segenera automaticamente una sugerencia sincontexto a partir del diccionario, “alcaldesay alcalde” para el SN que contiene “alcalde”.

3. Analisis del funcionamiento

Para mostrar lo que se puede esperar delsistema, analizaremos las sugerencias ofreci-das a una serie de SNs detectados como ex-clusivos, ver Cuadro 5.

Para permitir el acceso a un mayor nume-ro de ejemplos en la decision de si dos SNsson similares no se tiene en cuenta las prepo-siciones, ni la mayorıa de veces los adjetivos.El sistema propone usos inclusivos parecidosasociados a un contexto. Por ejemplo el pri-mer SN detectado como incorrecto, “los usua-rios”, solo podrıa ser remplazado directamen-

te por “toda persona usuaria”, sin embargosin tener en cuenta la preposicion y adecuan-do el numero, se puede considerar que todaslas sugerencias aportan informacion util.

A veces informacion relevante de la su-gerencia queda en lo que serıa la zona decontexto: “los colectivos de homosexuales” o“los/las trabajadores/as”. En el primer caso,sintacticamente se trata de dos sintagmas: unsintagma nominal “los colectivos” y uno pre-posicional “de homosexuales”. Si el sistemaconsiderara que es un solo sintagma, entoncesse filtrarıan como correctos ejemplos como“las personas del bar de la esquina” o “[avi-sar a] las personas del peligro que corren”.Cuando aparece ’/’ el etiquetado sintacticono acaba de ser del todo correcto, puesto quesu uso es gramaticalmente discutible.

La calidad de los documentos de los quese han extraıdo los ejemplos es basica. Porejemplo en el caso de “para medicos, enfer-meras, dietistas y otros profesionales” apare-cen usos exclusivos de lenguaje, sin embargo“para medicos” aparece como ejemplo porqueen el diccionario utilizado “medico” es unapalabra que se puede referir a ambos gene-ros. Ası pues, la primera sugerencia proponela eliminacion del artıculo para que sean in-cluidos profesionales de ambos sexos. No obs-tante lo que sucede es que el sistema no com-prueba que el contexto sea inclusivo. Por estarazon “otros profesionales”, exclusivo, apare-ce en el contexto de un ejemplo positivo.

La tercera alternativa que se da a “losmedicos” es “doctor o doctora”, sugerenciaaceptable, aunque el significado en el contex-to dado no sea sinonimo de “medico”. Cadaaparicion de un SN es almacenado una solavez en la BD, independientemente de su con-texto o de si pueda tener varios significados.

El sistema no suele presentar sugerencias alos adjetivos. En el tercer parrafo, “los turis-tas alemanes” se da alternativas para “los tu-ristas” proponiendose quitar el determinan-te para incluir tanto turistas femeninos comomasculinos. Sera necesario la posterior super-vision de las concordancias en el texto final.

Si el contenido de la BD ha sido creado apartir de la adquisicion automatica de ejem-plos es recomendable una supervision de sucontenido. Ya que puede ocurrir que los con-textos sean poco significativos o como en elcaso de “de mujer o por los investigadores”,sugerencia propuesta a “los investigadores”,se haya almacenado como inclusivo un ejem-

Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera

22

Page 23: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

<P locator=”1”type=”texto”> Los usuarios del recinto se manifiestan en contra de los homosexuales. </P>

<P locator=”1”type=”texto”>

<SN end=”14”fac=”1.0”start=”2”id=”1”>Los usuarios</SN>

<L SUG id=”1”> <SUG sim=”1.0”id=”1”>

... situacion, que desorienta <EJ>a los colectivos usuarios</EJ> de los servicios formativos, se simplifica ...

</SUG> <SUG sim=”0.9490392648287383”id=”2”>

... seguridad de redes y sistemas o Informatica <EJ>de usuario/a</EJ> o Programador/a de aplicaciones ...

</SUG> <SUG sim=”0.9172932330827067”id=”3”>

... guardar el rastreo de lo que hace <EJ>toda persona usuaria</EJ> de Internet durante un mınimo de ...

</SUG> </L SUG>

<SN end=”71”fac=”1.0”start=”42”id=”2”> en contra de los homosexuales</SN>

<L SUG id=”2”> <SUG sim=”0.9941520467836257”id=”1”>

Represion franquista y lucha de los colectivos <EJ>de homosexuales</EJ> y transexuales Fernando Olmeda, ...

</SUG> <SUG sim=”0.9422156790577841”id=”2”>

... especialmente en las escuelas, como estos pares: <EJ>homosexual</EJ>/heterosexual; femenino/masculino; ...

</SUG> <SUG sim=”0.9364319890635678”id=”3”>

... homosexual es no ser ya ni mujer ni hombre, como si <EJ>la persona homosexual</EJ>renunciara a su ...

</SUG> </L SUG>

Los usuarios del recinto se manifiestan en contra de los homosexuales.

</P>

<P locator=”2”type=”texto”> Los trabajadores optan por unirse a los medicos. </P>

<P locator=”2”type=”texto”> <SN end=”17”fac=”1.0”start=”1”id=”3”>Los trabajadores</SN>

<L SUG id=”3”> <SUG sim=”0.9941520467836257”id=”1”>

... Comisiones Obreras cuando pide la equiparacion de los/<EJ>las trabajadores/as</EJ> del sexo al resto ...

</SUG> <SUG sim=”0.993815730994152”id=”2”>

Tanto <EJ>los trabajadores y trabajadoras</EJ> propuestos por la Fundacion Universidad de Oviedo, como ...

</SUG> <SUG sim=”0.9294976571864444”id=”3”>

... facil podrıa ser cambiar el mundo si <EJ>toda persona trabajadora</EJ> donara una unidad monetaria ...

</SUG> </L SUG’>

<SN end=”48”fac=”1.0”start=”35”id=”4”> a los medicos</SN>

<L SUG id=”4”> <SUG sim=”0.9941520467836257”id=”1”>

... necesita para conducir un servicio de entrenamiento <EJ>para medicos</EJ>, enfermeras, dietistas y otros ...

</SUG> <SUG sim=”0.9406850459482038”id=”2”>

... enfermedad todavıa muy desconocida incluso <EJ>para el colectivo medico</EJ>, y es objeto de miles de ...

</SUG> <SUG sim=”0.48454469507101083”id=”3”>

... personal docente e investigador con el grado <EJ>de doctor o doctora</EJ>, que ha de constituir, ...

</SUG> </L SUG>

Los trabajadores optan por unirse a los medicos.

</P>

<P locator=”3”type=”texto”> Los turistas alemanes seran premiados por los investigadores. </P>

<P locator=”3”type=”texto”>

<SN end=”24”fac=”1.0”start=”3”id=”5”> Los turistas alemanes</SN>

<L SUG id=”5”> <SUG sim=”0.9941520467836257”id=”1”>

Llegan a nuestro paıs <EJ>como turistas</EJ> y la consiguiente exigencia de visados al poco de su estancia ...

</SUG> </L SUG>

<SN end=”63”fac=”1.0”start=”41”id=”6”> por los investigadores</SN>

<L SUG id=”6”> <SUG sim=”0.9941520467836257”id=”1”>

Bienestar reune en Madrid (CSIC, Serrano 117) <EJ>investigadores/as</EJ> de mas de 30 paises.

</SUG> <SUG sim=”0.9472398946083156”id=”2”>

... bagaje colectivo <EJ>como grupo investigador</EJ>esta formado por el pensamiento crıtico de teoricos ...

</SUG> <SUG sim=”0.7571929824561403”id=”3”>

temas <EJ>de mujer o por los investigadores</EJ> que (¿casualmente?) son mayoritariamente mujeres, ...

</SUG> </L SUG>

Los turistas alemanes seran premiados por los investigadores.

</P>

<P locator=”4”type=”texto”> El director se reune con el alcalde. </P>

<P locator=”4”type=”texto”> <SN end=”13”fac=”1.0”start=”2”id=”7”>El director</SN>

<L SUG id=”7”> <SUG sim=”0.9941520467836257”id=”1”>

Cada vez es mas habitual ver ’informatico/a’ o ’<EJ>director/a</EJ>’, pero seguimos encontrandonos con ...

</SUG> <SUG sim=”0.9410175981620718”id=”2”>

Las decanas y los decanos y <EJ>las directoras y los directores</EJ> de las unidades deben elaborar y someter ...

</SUG> <SUG sim=”0.8624011007911937”id=”3”>

Una profesora me conto que el ano pasado <EJ>el equipo directivo</EJ> de su instituto decidio gastarse todo ...

</SUG> </L SUG>

<SN end=”37”fac=”1.0”start=”23”id=”8”> con el alcalde</SN>

<L SUG id=”8”> <SUG sim=1.0”id=”1”>

<EJ>alcaldesa y alcalde</EJ>

</SUG> </L SUG>

El director se reune con el alcalde.

</P>

Cuadro 5: Ejemplo de parrafos no inclusivos y las sugerencias ofrecidas por el recomendador.

plo que en realidad es exclusivo.

Por ultimo, toda sugerencia podra ser sus-ceptible de error, ya que el sistema no tienemanera alguna de saber si el texto se esta refi-riendo a un varon concreto, por ejemplo, si elalcalde es un hombre no tiene sentido sugerir“alcaldesa y alcalde”.

4. Trabajo futuro

La definicion final del contenido de las lis-tas de palabras utilizadas para la configura-

cion definitiva del sistema, ası como la am-pliacion de los ejemplos positivos de la BD, seesta llevando a cabo en la Fundacion CTIC.

Una mejora del sistema consiste en te-ner en cuenta todas las partıculas del SN, yaque por el momento basicamente se tienen encuenta nombres. Los adjetivos solo se tienenen cuenta si el nucleo del SN es un nombreque aparece en la lista nombres vacıos.

Tratar los pronombres nos permitirıa de-tectar ejemplos como “estamos todos y to-

Sistema de recomendación para un uso inclusivo del lenguaje

23

Page 24: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

das” o malos usos como “contacte con noso-tros”. De todas formas, por el momento el sis-tema tampoco trata verbos, por lo que ningu-na construccion con clıticos, “contactarnos”,puede ser detectada como correcta.

Retocar la gramatica y el extractor de ca-racterısticas mejorarıa el tratamiento de SNsespecialmente complejos como “de nuestrashijas e hijos, amigas y amigos y colegas”. Elextractor actual solo obtiene informacion detres elementos por SN: palabra “,” o “con-juncion”, palabra1 y palabra2.

Refinar el arbol de decision con que se im-plementa el filtrado de SNs en el tratamientode SNs dobles permitirıa que no se filtrasencomo ejemplos positivos SNs del estilo “demujer o por los investigadores”.

El estudio de la calidad del contexto en laextraccion de SNs inclusivos tambien signifi-carıa una mejora, evitando incluir ejemplos,como el anteriormente mencionado, cuyo con-texto contiene “otros profesionales”.

Referente a la presentacion de sugerencias,no se tiene en cuenta si el SN viene precedidopor una preposicion o no. Se podrıa estudiarla posibilidad de poner las preposiciones enla zona de contexto. De manera que las suge-rencias a “Los usuarios” serıan: “los colecti-vos usuarios, usuario/a y toda persona usua-ria”, en lugar de “a los colectivos usuarios, deusuario/a y toda persona usuaria”.

Queda como trabajo futuro la deteccion ycorreccion de SNs que excluyan a personas desexo masculino, “azafatas” o “enfermeras”.

5. Conclusiones

El sistema presentado tiene dos funcionali-dades basicas: la recomendacion de un uso dellenguaje inclusivo y la adquisicion automati-ca de ejemplos inclusivos a partir de textosconsiderados correctos.

El sistema utiliza aprendizaje basado enejemplos. Por ello, la calidad de las recomen-daciones es fuertemente dependiente de la ca-lidad y cantidad de ejemplos previamente al-macenados en la Base de Datos, aunque comotoda aplicacion de inteligencia artificial tieneasociado un cierto grado de error. Por estarazon el recomendador debe ser consideradocomo un asistente a la escritura de textos in-clusivos y no como un corrector de textos ex-clusivos.

Bibliografıa

Alario, Carmen, Mercedes Bengoechea, Eula-lia Lledo, y Ana Vargas. 1995. En feme-nino y en masculino. Madrid: Ministeriode Trabajo y Asuntos Sociales.

Atserias, Jordi, Bernardino Casas, ElisabetComelles, Meritxell Gonzalez, Lluıs Pa-dro, y Muntsa Padro. 2006. Freeling1.3: Syntactic and semantic services in anopen-source nlp library. En Proceedings ofthe fifth international conference on Lan-guage Resources and Evaluation (LREC2006), ELRA, Genoa, Italy.

Consejo Europa. 1986. Igualdad de sexos enel lenguaje. Comision de terminologıa enel Comite para la igualdad entre mujeresy hombres del Consejo de Europa.

Departamento Dona. 1987. Recomendacio-nes para un uso no sexista de la lengua.Consellerıa de Cultura, Educacion y Cien-cia de la Generalitat Valenciana.

Factoria de Empresas. 2002. La lupa violeta.http://www.factoriaempresas.org/productosyresultados/lupavioleta/lanzador.swf.

Jardine, N. y R. Sibson. 1971. MathematicalTaxonomy. John Wiley and Sons, Inc.

Naciones Unidas. 1996. Declaracion de pekıny plataforma para la accion. IV Conferen-cia mundial sobre las mujeres, Pekın.

Rousseeuw, Peter. 1987. Silhouettes: A grap-hical aid to the interpretation and va-lidation of cluster analysis. Journal ofComputational and Applied Mathematics,20:53–65, November.

The Reuse company. 2008. Themis.http://www.themis.es.

Vossen, Piek. 1998. Eurowordnet: A multi-lingual database with lexical semantic net-works. Dordrecht. Kluwer Academic Pu-blishers.

Wilson, Kenneth G. 1993. The ColumbiaGuide to Standard American English. Co-lumbia University Press.

Zhao, Y. y G. Karypis. 2002. Evaluationof hierarchical clustering algorithms fordocument datasets. En Proceedings ofthe Eleventh International Conference onInformation and Knowledge Management(CIKM’02), paginas 515–524.

Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera

24

Page 25: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas*

Application of temporal information extraction techniques to question

answering systems

María Teresa Vicente-Díez

Paloma Martínez

Ángel Martínez-González

José Luis Martínez-Fernández

Departamento de Informática. Universidad Carlos III de Madrid

Avda. Universidad 30, 28911. Leganés, Madrid

{tvicente, pmf}@inf.uc3m.es

DAEDALUS - Data, Decisions and Language, S.A.

Edificio Villausa II Avda. Albufera, 321, 28031. Madrid {amartinez, jmartinez}@daedalus.es

Resumen: En este trabajo, proponemos la integración de un sistema de reconocimiento, resolución y normalización de expresiones temporales en un sistema de búsqueda de respuestas para español. Las fases de análisis de la pregunta y de extracción de respuestas han sido adaptadas a las nuevas capacidades del sistema para la detección e inferencia temporal. Dicho sistema ha sido evaluado a través de un corpus de preguntas propuesto para la tarea principal de QA@CLEF2008. Los resultados obtenidos muestran mejoras relativamente significativas tanto en la cantidad de las respuestas acertadas como en la calidad de las mismas. Palabras clave: Sistemas de búsqueda de respuestas, tratamiento de información temporal, razonamiento temporal

Abstract: This work proposes the integration of a temporal expressions recognition, resolution and normalization system into a question answering system for Spanish. Both question analysis and answer extraction stages have been adapted to the new capabilities for temporal detection and inference of the system. It has been evaluated by means of a corpus composed of questions that has been originally developed for the main task of QA@CLEF2008. The obtained results show quite significant improvements both in terms of quantity of correct answers and in the quality of them. Keywords: Question-Answering systems, temporal information management, temporal inference

1 Introducción

La mayoría de los sistemas de búsqueda de respuestas (SSBBRR) actuales no aprovechan todas las ventajas que podría suministrarles un adecuado procesamiento de la información temporal de sus recursos. Aquéllos podrían ver mejorados sus resultados mediante el empleo de técnicas de extracción e inferencia temporal, tanto en la fase de formulación de la pregunta como en la de recuperación de la respuesta.

La propuesta que se describe en este artículo trata de solucionar esta problemática añadiendo tratamiento temporal a un sistema de búsqueda de respuestas existente, en las fases cuya mejora es susceptible de ejercer una influencia más significativa en el resultado final. Así, se han considerado las etapas de indexación de documentos, el análisis de la pregunta y la extracción de la respuesta. Los principales avances se consiguen mediante la adición de meta-información temporal en las colecciones indexadas, la normalización de las expresiones temporales detectadas en la pregunta, y mediante la inclusión de un mecanismo de inferencia temporal a la hora de extraer la respuesta.

* Este trabajo ha sido parcialmente financiado por la Comunidad de Madrid bajo la Red de Investigación MAVIR (S-0505/TIC-0267), y por el Ministerio de Educación en el marco del proyecto BRAVO (TIN2007-67407-C3-01).

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 25-30 recibido 14-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 26: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

El sistema de búsqueda de respuestas del que se parte participa en CLEF desde el año 2003, a través del grupo de investigación MIRACLE (Multilingual Information RetrievAl for the CLEf campaign) (de Pablo-Sánchez et al., 2007). En este trabajo el sistema monolingüe, desarrollado inicialmente para trabajar en español, se ha evaluado a través de una batería de preguntas extraídas de la colección de CLEF 2008. Otros trabajos previos han abordado también este problema para el tratamiento de otros idiomas, como en (Hartrumpf y Leveling, 2006) o en (Moldovan y Clark, 2005).

El artículo está estructurado como sigue: en la sección 2 se describen las bases para el tratamiento de información temporal. En la sección 3 se presenta el sistema de búsqueda de respuestas sobre el que se ha trabajado, mientras que en la sección 4 se detallan las mejoras llevadas a cabo sobre el mismo. La sección 5 muestra los resultados de la evaluación a la que se ha sometido al sistema. Para finalizar, la sección 6 incluye las conclusiones obtenidas y algunas líneas de trabajo futuro.

2 Reconocimiento y Normalización de

Expresiones Temporales

En un SBR es primordial poder resolver referencias que ayuden a responder a cuestiones temporales (“¿En qué mes se celebra en España la Navidad?”) o con restricciones de tiempo (“¿Cuántas películas fueron filmadas en

2005?”). Particularmente en estos sistemas resulta de especial interés la integración de mecanismos de razonamiento sobre el tiempo que doten a la aplicación de una nueva dimensión temporal (Moldovan, Bowden, y Tatu, 2006).

Un tratamiento de información temporal adecuado ha de comenzar con una detección precisa de las expresiones temporales en las colecciones de documentos. Además, ha de ser capaz de manejar cada detección en un formato estándar que capture el valor temporal de la expresión una vez resuelta, permitiendo el razonamiento sin lugar a ambigüedad. De esta manera, en un sistema de recuperación de información que incorpore estas características se puede concretar más el rango de la búsqueda e incrementar la calidad de los resultados.

El sistema implementado para la extracción de información temporal (Vicente-Díez, de

Pablo-Sánchez y Martínez, 2007) procesa los textos de entrada e identifica fechas y expresiones temporales, instantes de referencia, duraciones e intervalos en ellos (reconocimiento). Las expresiones reconocidas son a su vez resueltas cuando por su naturaleza así lo precisan (resolución), devolviéndose en el formato estándar internacional ISO8601 (2004) de representación de fechas y horas (normalización). En la Figura 1 se muestra la arquitectura general del sistema anteriormente descrito.

Figura 1: Arquitectura general del sistema de extracción de información temporal

La base del sistema la constituye una gramática de reglas de reconocimiento de expresiones temporales que define el funcionamiento de un autómata de estados finitos. Conjuntamente, se ha desarrollado una propuesta de resolución y normalización de las detecciones llevadas a cabo, que también se realiza de manera automática. Ambas herramientas se han construido a partir de un estudio exhaustivo de los diferentes tipos de expresiones temporales que aparecen en distintos corpus en español. Gracias a este análisis se desarrolló una tipología de las expresiones de tiempo y seguidamente se definió la gramática de reconocimiento y las reglas de resolución y normalización que correspondían con los tipos de aparición más frecuente (Vicente-Díez, Samy y Martínez, 2008).

La Tabla 1 presenta un ejemplo de definición de patrones que constituyen las reglas de la gramática de reconocimiento, así como de las reglas para la resolución de las detecciones y la definición del formato de salida estandarizado.

María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández

26

Page 27: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

RECONOCIMIENTO

PATRON DESCRIPCIÓN EJEMPLOS COMPLETE_DATE [ART|PREP]? DAY PREP MONTH_NAME PREP YYYY el_3_de_enero_de_2005

REL_DEICTIC_UNIT DEICTIC_UNIT mañana

RESOLUCIÓN Y NORMALIZACIÓN

EJEMPLO FORMATO ENTRADA

REGLA DE RESOLUCIÓN ENTRADA REFERENCIA SALIDA NORM

ABS_DATE [ART|PREP]?

DAY PREP

MONTH_NAME

PREP YYYY

Day =toDD (DAY)

Month=toMM(MONTH_NAME)

Year=YYYY

[el] 31 de

diciembre

de 2005

NA 2005-12-31

REL_

DEICTIC_UNIT_

FUTURE

mañana Day=getDD(Creation_Time)+1

Month=getMM(Creation_Time)

Year=getYYYY(Creation_Time)

mañana 2008-06-01

2008-06-02

Tabla 1 Ejemplo de reglas de reconocimiento de la gramática temporal y reglas de resolución correspondientes.

3 Sistema de Búsqueda de Respuestas

Los módulos principales que componen la arquitectura general del SBR que ha sido sometido a estudio en este en este trabajo son presentados en la Figura 2.

Figura 2: Arquitectura modular del sistema de búsqueda de respuestas

La flecha de bloque marca el recorrido que sigue una pregunta durante su procesamiento. Las flechas discontinuas indican qué uso hacen unos componentes de otros.

A continuación se describe de forma genérica la funcionalidad de cada módulo.

Analizador de Preguntas Este componente se encarga de clasificar

una pregunta de entrada atendiendo a un conjunto de características predefinidas. Para ello emplea un clasificador basado en reglas. Es

el módulo encargado de determinar si una pregunta tiene rasgos de temporalidad, entre otros.

Selector de Documentos Proporciona acceso a fuentes de

información, es decir, a sistemas capaces de proporcionar porciones de texto que pueden contener la respuesta buscada para una pregunta. El sistema da acceso a índices de Lucene en los que previamente se han indexado todos los documentos de las colecciones en las que se procederá a buscar las respuestas.

Este módulo precisa de la funcionalidad de análisis lingüístico que ofrece otro de los módulos.

Extractor de Respuestas Su funcionalidad radica en analizar el

contenido de un documento para determinar si aparece o no la respuesta a una pregunta.

Para ello se definen dos tareas: seleccionar las frases que pueden contener una respuesta y determinar qué parte de una frase encierra la respuesta a una pregunta.

Como posibles respuestas se extraen aquellos tokens (o grupos de tokens) que tienen asignada la etiqueta semántica adecuada. Este componente devuelve una lista de respuestas candidatas a las que asocia un valor de confianza en su corrección.

Este módulo también hace uso de las funciones de análisis lingüístico.

Evaluador de Respuestas (Ranker) El sistema consta de un componente para

puntuar las posibles respuestas. Este sistema de puntuación asigna un peso local y un peso global a cada respuesta. El peso local sólo depende de la frase en la que se encuentra la respuesta. El peso global se calcula teniendo en consideración todas las respuestas encontradas.

Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas

27

Page 28: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Ambos pesos se combinan para proporcionar el peso asignado a la respuesta, siendo la influencia de cada uno de ellos configurable.

Analizador Lingüístico Este componente incluye toda la

funcionalidad relativa al tratamiento lingüístico de los textos con los que se trabaja, sean textos extraídos de documentos o preguntas.

Los textos son divididos y enriquecidos con etiquetado gramatical, morfosintáctico y semántico por las herramientas lingüísticas StilusTokenizer y StilusReader, desarrolladas por (DAEDALUS, 2008).

4 Integración del tratamiento temporal

en la Búsqueda de Respuestas

Algunos autores han denominado búsqueda de respuestas temporal a aquella especialización de la tarea de búsqueda de respuestas en la que las preguntas tienen algún rasgo que denota temporalidad (Saquete, 2005). Este tipo de preguntas pueden ser clasificadas en 3 categorías de acuerdo al papel que juega el dato temporal en su resolución:

Preguntas temporales: aquéllas para las que la respuesta esperada es una fecha o expresión de tiempo (“¿Cuándo se firmo el tratado de Maastricht?”)

Preguntas con restricción temporal: preguntas en cuyo contenido se encuentra una fecha o expresión temporal que circunscribe su respuesta (“¿Quién ganó el Oscar a la mejor actriz en 1995?”).

Preguntas temporales con restricción temporal: combinan las características de los dos tipos anteriormente descritos (“¿En qué temporada anterior a 1994 se enfrentaron

Barcelona y Milán?”). Para que el SBR base sea capaz de resolver

este tipo de cuestiones temporales es necesaria la integración de ciertas capacidades de tratamiento de información temporal en algunos de sus módulos. En este trabajo se presenta una evolución del SBR base cuya implementación se ha centrado en la mejora de los módulos de análisis de preguntas y extracción de respuestas. 4.1 Análisis de preguntas

Este módulo es el encargado de la clasificación de las preguntas de entrada. Entre otras, se encarga de clasificar las preguntas con rasgo de temporalidad de acuerdo a la categorización que se describió anteriormente. Su funcionalidad ha sido incrementada dotándole de capacidad para detectar, resolver y

normalizar expresiones temporales dentro de esas preguntas.

Esto permite que en el tratamiento de las preguntas temporales se pueda refinar el tipo de respuesta que se espera del sistema. Por ejemplo, ante una pregunta como “¿En qué año…?” el sistema es capaz de detectar que la respuesta ha de coincidir con un patrón que corresponda a un año exclusivamente.

Por otra parte, en el caso de que la pregunta contenga una expresión temporal, el sistema es capaz de extraerla, clasificando automáticamente dicha pregunta como restringida temporalmente, y utilizando su resolución para acotar la búsqueda.

De manera adicional, el uso de la forma normalizada de las expresiones temporales detectadas en las preguntas permite recuperar aquellos documentos que contienen información temporal que coincide no sólo literal sino también semánticamente con los términos de la búsqueda (“15 de septiembre”, “15/09”, “15 sept.”). 4.2 Extracción de respuestas

Detectar correctamente el tipo de pregunta es fundamental para conseguir una buena respuesta, pero también lo es extraer los fragmentos de texto adecuados para responder a la pregunta, así como asignar una valoración conveniente a las posibles respuestas.

Este módulo extrae como respuesta aquéllos tokens que tienen asignada la etiqueta semántica correspondiente al tipo de pregunta formulada. En el caso de las preguntas temporales el sistema con tratamiento de información temporal es capaz de proporcionar respuestas que cumplen la restricción de ser expresiones temporales o fechas, con la granularidad que dicte la pregunta (fecha completa, año, mes,…).

Cuando se trata de responder a preguntas con restricción temporal, el módulo aplica nuevas reglas de extracción basadas en inferencia temporal. En el caso de que una respuesta candidata no cumpla la restricción temporal impuesta en la pregunta, la regla reducirá la valoración final de dicha respuesta. Si por el contrario la cumple, la confianza en que pueda ser una respuesta correcta aumenta con respecto al resto.

Se ha desarrollado un mecanismo de inferencia temporal básico fundamentado en el principio de inclusión: de un instante de tiempo en un intervalo, y de un intervalo en otro. Esta

María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández

28

Page 29: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

inferencia es facilitada por la normalización previa de las expresiones de tiempo.

5 Evaluación y resultados

Esta sección muestra una comparativa entre los resultados obtenidos por el SBR base y el ampliado con tratamiento de expresiones temporales. Ambos sistemas trabajan sobre los índices de documentos obtenidos de las colecciones que se muestran en la Tabla 2.

Documentos Tamaño Tipo EFE 1994 215.738 509 MB txt EFE 1995 238.307 577 MB txt Wikipedia ≈ 370.000 -- html

Tabla 2 Colecciones de documentos indexadas

Con el fin de realizar esta evaluación ha sido también preciso emplear un corpus de preguntas temporales que permitiera contrastar los resultados de uno y otro sistema. Dicho corpus se ha obtenido de la tarea principal de QA@CLEF2008, y cuenta con un total de 200 preguntas. De éstas, 46 están clasificadas según su cariz temporal dentro de alguno de los 3 tipos definidos en el punto anterior. Este subconjunto de preguntas será sujeto de estudio por su interés particular para este trabajo. La Tabla 3 muestra las proporciones de cada tipo de pregunta con temporalidad en el corpus.

Se ha realizado una evaluación manual de la corrección de las respuestas a las preguntas con rasgos de temporalidad obtenidas por ambos

sistemas, habiéndose llevado a cabo el cómputo en términos cuantitativos y cualitativos. Para esta última medición se ha hecho un análisis en función de si la respuesta correcta ha sido ofrecida como primera, segunda o tercera opción, descartándose el resto de posibilidades.

Preguntas Restricción Temporal 26 13% Preguntas Temporales 19 10% Preguntas Temporales con Restricción Temporal

1 0,5%

Total 46 23%

Tabla 3 Preguntas con rasgo de temporalidad en QA@CLEF2008

Los resultados obtenidos por el SBR base, sin mecanismos de inferencia y tratamiento temporal, se muestran en la Tabla 4. Éste responde correctamente a 8 de las 46 preguntas, siendo 5 de esas respuestas ofrecidas como primera opción.

En cuanto al SBR con capacidades temporales, los resultados se muestran en la Tabla 5. En este caso se observa un incremento en el número de respuestas correctas obtenidas, contabilizándose un total de 9. Además, los resultados se ven también mejorados cualitativamente, ya que 7 de esas respuestas se ofrecen como primera opción.

La utilización del SBR temporal supone un incremento en la tasa de acierto del 2,17% con respecto al SBR base, y del 4,35% en el ratio de respuestas correctas en primera instancia.

Aciertos en 1ª respuesta 2ª respuesta 3ª respuesta

Preguntas con Restricción Temporal 1 3,85% 1 3,85% 1 3,85% Preguntas Temporales 4 21,05% 0 0% 1 5,26% Preguntas Temporales con Restricción Temporal 0 0% 0 0% 0 0% Total 5 10,87% 1 2,17% 2 4,35%

Tabla 4 Resultados del SBR sin tratamiento de información temporal

Aciertos en 1ª respuesta 2ª respuesta 3ª respuesta Preguntas con Restricción Temporal 3 11,54% 0 0% 0 0% Preguntas Temporales 4 21,05% 1 5,26% 1 5,26% Preguntas Temporales con Restricción Temporal 0 0% 0 0% 0 0% Total 7 15,22% 1 2,17% 1 2,17%

Tabla 5 Resultados del SBR con tratamiento de información temporal

Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas

29

Page 30: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

6 Conclusiones y líneas futuras

A la vista de los resultados obtenidos en este trabajo, se puede concluir que el tratamiento de la información temporal constituye una línea de mejora a tener en cuenta por los SBR actuales.

Bien es cierto que el corpus de preguntas disponibles con rasgos de temporalidad es pequeño y por tanto los resultados no pueden considerarse absolutamente concluyentes. No obstante, mediante la integración de un sistema de reconocimiento y normalización temporal junto con el ajuste de los módulos de análisis de la pregunta y extracción de la respuesta, permitiéndose la realización de una inferencia temporal sencilla, se consigue que el número de respuestas correctamente satisfechas se vea incrementado. Conjuntamente, también la probabilidad de obtener la respuesta correcta en la primera opción aumenta. Ambas características hacen que consideremos prometedora esta línea de trabajo.

Aun habiéndose obtenido resultados positivos en términos cuantitativos y cualitativos, sería interesante ahondar más en las causas que originan dicho incremento. Del mismo modo queda pendiente analizar los motivos por los cuales en determinadas ocasiones el sistema disminuye la valoración de la respuesta correcta.

Se plantea también como línea futura la mejora de otros módulos del SBR, añadiendo nuevas capacidades de tratamiento del tiempo. En este sentido se destaca la posibilidad de combinar el sistema de indexación actual con índices temporales constituidos de expresiones temporales normalizadas. El enriquecimiento del mecanismo actual de inferencia temporal es otra mejora susceptible de llevar a cabo.

Por último, también el sistema de extracción de expresiones temporales podría ser perfeccionado con el fin de incrementar la cantidad de información temporal completa y correctamente manipulada.

Bibliografía

DAEDALUS. 2008. Data, Decisions and Language, S. A. http://www.daedalus.es. Visitado: Enero 2009.

Hartrumpf, S. y Leveling, J. 2006. University of Hagen at QA@CLEF 2006: Interpretation and Normalization of Temporal Expressions. En, Working Notes of the 2006 CLEF Workshop. Alicante (Spain).

ISO8601:2004(E). 2004. Data elements and interchange formats – Information interchange – Representation of dates and times. Tercera edición 2004-12-01.

Moldovan, D. y Clark, C. 2005. Temporally Relevant Answer Selection. En Proceedings of the 2005 International Conference on

Intelligence Analysis. Mayo 2005.

Moldovan, D. Bowden, M. y Tatu, M. 2006. A Temporally-Enhanced PowerAnswer in TREC 2006. En The Fifteenth Text

REtrieval Conference (TREC 2006)

Proceedings. Gaithersburg, MD, (USA).

de Pablo-Sánchez, C., Martínez, J.L., González Ledesma, A., Samy, D., Martínez, P., Moreno-Sandoval, A. y Al-Jumaily, H. 2007. MIRACLE Question Answering System for Spanish at CLEF2007. En Working Notes of the 2007 CLEF Workshop. Budapest (Hungary). Septiembre 2007.

Saquete, E. Resolución de Información Temporal y su Aplicación a la Búsqueda de Respuestas. 2005. Tesis Doctoral en Informática, Universidad de Alicante.

Vicente-Díez, M.T., de Pablo-Sánchez, C. y Martínez, P. 2007. Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones Temporales en Español. En Actas del XXIII Congreso de la Sociedad

Española de Procesamiento de Lenguaje

Natural (SEPLN 2007), páginas 113-120. Sevilla, (Spain). Septiembre 2007.

Vicente-Díez, M.T., Samy, D. y Martínez, P. 2008. An Empirical Approach to a Preliminary Successful Identification and Resolution of Temporal Expressions in Spanish News Corpora. En Proceedings of the Sixth International Language Resources

and Evaluation (LREC'08). Marrakech, (Morocco). Mayo 2008.

María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández

30

Page 31: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Evaluacion de una Estrategia de Expansion Local Conservadoraen Recuperacion de Informacion Visual

Evaluating a Conservative Automatic Local Expansion Strategy

for Visual Information Retrieval

Sergio Navarro, Rafael Munoz y Fernando LlopisDepartamento de Lenguajes y Sistemas Informaticos

Universidad de AlicanteCarretera Sant Vicent del Raspeig s/n

03690 Sant Vicent del Raspeig (Alicante)snavarro,rafael,[email protected]

Resumen: En este trabajo comparamos dos metodos de expansion de la preguntaen el area de la Recuperacion de Informacion Visual (RIV): Probabilistic RelevanceFeedback (PRF) y Local Context Analysis (LCA). La principal diferencia observadaentre ambos metodos es que mientras PRF utiliza para la expansion las anotacionescorrespondientes a las primeras imagenes de un ranking, LCA evita utilizar ano-taciones corespondientes a imagenes no relevantes, situadas en esas primeras posi-ciones, mediante una heurıstica basada en coocurrencia. Los resultados muestranque LCA obtiene mejor precision que PRF a medida que la precision del rankingutilizado para la expansion es menor. Esta observacion hace de LCA un metodoespecialmente adecuado para su utilizacion con rankings de baja precision comolos devueltos por sistemas de RIV basados en el contenido de la imagen. Y ası lodemuestran los buenos resultados obtenidos utilizando la variante multimodal deLCA, que es la unica estrategia de expansion local que no dana a la diversidad delos resultados, y a su vez la que obtiene nuestros mejores resultados de precision conel conjunto de consultas de la tarea ImageCLEFPhoto 2008 – 4o MAP y 5o P20 delas 1039 ejecuciones automaticas enviadas por los participantes –.Palabras clave: Recuperacion de Informacion Visual, Expansion Local, LCA, PRF

Abstract: In this paper we compare two query expansion methods in the Visu-al Information Retrieval (VIR) area: Probabilistic Relevance Feedback (PRF) andLocal Context Analysis (LCA). The main difference observed between these meth-ods is that while PRF assumes that annotations related to top-ranked images arerelevant, LCA avoids to include terms from top-ranked non relevant images of theranking using an heuristic based on coocurrence. The experiment results show usthat LCA increases its precision over PRF for those rankings with lowest precision.Thus, LCA demonstrates to be specially suitable for low precision rankings as theones returned by the VIR systems based on the content of the image. Indeed, ourmultimodal LCA variation is the only one local expansion strategy which do nothurt the diversity of the results and the one which reach our best precision resultswith the ImageCLEFPhoto 2008 task query set – 4o MAP and 5o P20 within the1039 automatics runs submitted by the participants –.Keywords: Visual Information Retrieval, Relevance Feedback, LCA, PRF

1. Introduccion

La gran variedad de formatos digitales ex-istentes en la red y el boom de los contenidosmultimedia, hacen necesario desarrollar y/oadaptar herramientas de busqueda de infor-macion a las caracterısticas de estos nuevosformatos como son el video y la imagen en-tre otros. Actualmente los buscadores com-erciales de contenidos multimedia, como los

bien conocidos Youtube1 o Flickr2 , basan lasbusquedas solo en el texto que acompana a laimagen o al video. El desarrollo de este tipode herramientas esta dentro del area de in-vestigacion de la Recuperacion de Informa-cion Visual (RIV), que es donde se encuadrael trabajo que aquı presentamos. La RIV po-

1http://www.youtube.com2http://www.flickr.com

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 31-38 recibido 29-12-08, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 32: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

drıamos decir que es un area especıfica den-tro de la Recuperacion de Informacion (RI),en la cual de hecho inicialmente se han uti-lizado sistemas de RI tradicionales sin ningu-na adaptacion especifica a la RIV para llevara cabo busquedas utilizando las anotacionesque acompanan a las imagenes. Ası, las colec-ciones que utilizan los sistemas de RIV estancompuestas de colecciones de imagenes y delas anotaciones que describen a las mismas.

Historicamente en el area de la RIV se hanutilizado dos enfoques para llevar a cabo laRI de imagenes: En los inicios de la RIV afinales de los anos 70, los sistemas de RIVse basan en las anotaciones que acompanana las imagenes, se trata pues de sistemas deRIV Basados en Texto (RIBT). Mas tarde aprincipios de los anos 90, en un intento de su-perar la dependencia de los sistemas de RIBTde la existencia de anotaciones textuales deuna imagen para su indexacion, surgen lossistemas de RIV Basados en el Contenido dela Imagen (RIBC) (Grubinger, 2007).

Finalmente en los ultimos anos a medidaque las tecnologıas utilizadas por los sistemasde RIBC han ido madurando, un tercer en-foque para afrontar el problema de la RIVha surgido, se trata de los sistemas que com-binan tecnologıas basadas en texto y en im-agen. En este contexto se han venido orga-nizando competiciones como el ImageCLEF3

que es una tarea especıfica de RIV que bus-ca estimular el desarrollo de sistemas mul-timodales utilizando colecciones de imagenescon anotaciones reducidas de las mismas parala evaluacion y comparacion entre sistemas,y que se celebra en el marco de las competi-ciones anuales del CLEF4.

El objetivo de este trabajo es comparardos estrategias textuales de expansion localde la consulta que han sido utilizadas, porun lado como tecnicas de expansion local dela consulta en sistemas textuales de RIV ypor el otro como estrategias de combinacionmultimodal en sistemas basados en texto eimagen. Las estrategias que comparamos sonProbabilistic Relevance Feedback (PRF) yLocal Context Analysis (LCA). PRF ha si-do ampliamente utilizada como tecnica deexpansion local en sistemas textuales (Dıaz-Galiano et al., 2007) y como estrategia decombinacion multimodal (Gao et al., 2007) –utilizando las anotaciones asociadas al rank-

3http://www.imageclef.org4http://www.clef-campaign.org

ing devuelto por un sistema de RIBC –. Encuanto a LCA, que es una estrategia de ex-pansion local conservadora de la consultaque goza de menor popularidad que PRF,el unico precedente que existe de utilizacioncomo tecnica de combinacion multimodal enRIV es el que presentamos en nuestra par-ticipacion en la subtarea Photo de la ediciondel 2008 del ImageCLEF. (Navarro, Llopis, yMunoz, 2008).

A partir de los buenos resultadosobtenidos con la version multimodal deLCA en nuestra participacion en la citadasubtarea Photo del ImageCLEF 2008, eneste trabajo nos centramos en compararPRF y LCA como metodos de expansionlocal en el ambito de la RIBT. Nuestroobjetivo es hallar evidencias en el mayornumero posible de conjuntos de consultas yde colecciones de imagenes, que justifiquenlos buenos resultados obtenidos por LCA ensu version multimodal.

El sistema que hemos utilizado para laRIBT es IR-n (Llopis, 2003), se trata de unsistema basado en pasajes, que ha demostra-do en diferentes competiciones mejores resul-tados que los obtenidos por la mayorıa de lossistemas de RIBT basados en documentos.(Navarro, Munoz, y Llopis, 2008a; Navarro,Munoz, y Llopis, 2008b).

El artıculo esta estructurado como sigue:en primer lugar presentamos las principalescaracterısticas del sistema IR-n centrandonosen los metodos de expansion local automaticautilizados. A continuacion describimos lascolecciones utilizadas, los experimentos ylos resultados obtenidos. Finalmente infor-mamos de las conclusiones y de las propues-tas de trabajos futuros extraıdas a partir delos resultados.

2. Sistema IR-n

Para llevar a cabo los experimentos hemosutilizado IR-n, un sistema de recuperacionde informacion basado en pasajes. Este tipode sistemas tratan cada documento como unconjunto de pasajes, donde cada pasaje de-limita una porcion de texto del documento.Al contrario que los sistemas basados en doc-umentos, los sistemas basados en pasajes per-miten dar mayor relevancia a aquellos doc-umentos donde los terminos de la consultaaparecen en posiciones mas cercanas entre si(Llopis, 2003).

IR-n utiliza listas de palabras de parada

Sergio Navarro, Rafael Muñoz, Fernando Llopis

32

Page 33: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

y stemmers para determinar que informacionde un documento es utilizada para la recu-peracion de informacion. Por un lado, la listade palabras de parada de cada idioma con-tiene terminos que son ignorados por el sis-tema por considerar que su presencia en laconsulta o en un documento no es lo suficien-temente significativa como para determinar siun documento es relevante para una consulta.Por otro lado, el stemmer de cada idioma esutilizado para obtener la raız de cada termi-no – eliminando sufijos y/o prefijos – tantode los terminos de la consulta en la fase debusqueda como de los terminos de los docu-mentos en la fase de indexacıon de la colec-cion. Una lista de los stemmers y las listas depalabras de parada utilizadas por IR-n puedeser consultada en www.unine.ch/info/clef.

Ademas IR-n permite seleccionar entrediferentes modelos de recuperacion. El mode-lo de recuperacion utilizado determina comose va a medir la similitud entre un texto yuna consulta, para ello cada modelo utilizauna formula que valora el numero de termi-nos de la consulta que estan presentes en eldocumento y el poder discriminador de cadauno de estos terminos en la coleccion.

2.1. Expansion Local de la

Consulta

En RIBT la estrategia de expansion localde la consulta mas extendida es la de Prob-abilistic Relevance Feedback (PRF) (Robert-son y Sparck Jones, 1977). Esta estrategiaconsidera como relevantes los m primerosdocumentos devueltos en un ranking, a partirde los cuales extrae los j primeros terminosmejor valorados segun la Formula (1) aplica-da a cada termino t:

wt =(mt + 0,5) · (n − nt − m + mt + 0,5)

(m − mt + 0,5) · (nt − mt + 0,5)

(1)

donde n es el numero de documentos enla coleccion, nt es el numero de documen-tos en los que aparece el termino t, y mt esel numero de documentos considerados rele-vantes en los que aparece t. De manera que wt

devuelve un valor mayor para aquellos termi-nos cuya frecuencia entre los m primeros doc-umentos del ranking es mayor que en toda lacoleccion.

Aunque esta tecnica puede empeorar losresultados en el caso de que la mayorıa de

los documentos situados en las primeras posi-ciones del ranking no sean relevantes, los re-sultados alcanzados por los sistemas que lahan utilizado en las conferencias TREC yCLEF muestran que en terminos generales esuna tecnica efectiva (Xu y Croft, 2000), sien-do de hecho la tecnica de expansion local masutilizada por sistemas de RIV en anterioresediciones del ImageCLEF (Gao et al., 2007)(Dıaz-Galiano et al., 2007).

Una aproximacion alternativa mas conser-vadora que no parte de la asuncion de que to-dos los documentos devueltos en las primerasposiciones del ranking son relevantes, es Lo-cal Context Analysis (LCA) (Xu y Croft,2000). Esta estrategia al igual que PRF sebasa en la frecuencia de aparicion de losterminos presentes en los n primeros doc-umentos del ranking para la seleccion determinos a utilizar en la expansion, peroal contrario que la primera, trata de evi-tar la utilizacion de terminos pertenecientesa documentos no relevantes, para ello dauna valoracion mas alta a aquellos termi-nos pertenecientes a documentos con mayorcoocurrencia de terminos con la consulta.

Ası, los autores de LCA denominan con-ceptos a los terminos de la expansion. Y uti-lizan una funcion f(c, Q), Formula (2), paravalorar como de adecuado es un concepto c

para expandir una consulta Q basandose enlas coocurrencias de c con los terminos de laconsulta en los n primeros documentos delranking. Su Formula f(c, Q) viene dada por:

f(c, Q) =∏

wiinQ

(δ + co de(c, wi))idf(wi)

co de(c, wi) =log10(co(c, wi) + 1)idf(c)

log10(n)

co(c, wi) =∑

dinS

tf(c, d)tf(wi, d)

idf(c) = min(1,0, log10(N/Nc)/5,0)

Donde w1,w2...wm son los terminos de laconsulta Q, N es el numero de documentosen la coleccion, Nc el numero de documen-tos que contienen el concepto c, y tf(c, d) ytf(wi, d) son las frecuencias de c y wi en undocumento d respectivamente. Y finalmenteδ es utilizado simplemente como tecnica desuavizado para evitar valores nulos – los au-tores recomiendan utilizar un valor de 0.4 –.

La principal limitacion de este metodobasado en coocurrencia es que no siempre hay

Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual

33

Page 34: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

coocurrencia entre un documento relevante yla consulta (Liu y Junzhong Gu, 2007). Esteproblema podrıa acusarse mas en coleccionesde imagenes, donde las anotaciones son re-ducidas, y por tanto la coleccion tiene refle-jadas en sus documentos menos relaciones en-tre terminos.

Los experimentos realizados por (Xu yCroft, 2000) demuestran que el rendimientode LCA es mas independiente que el de PRFante diferencias en el numero de documentosutilizados para la expansion. Lo que pruebasu efectividad a la hora de desechar documen-tos no relevantes en las primeras posicionesdel ranking. Contrariamente a lo que se po-drıa esperar, esta estrategia de expansion lo-cal no goza de tanta popularidad como PRF.

Desde el punto de vista de la utilizacionde la expansion local como tecnica de com-binacion multimodal, los trabajos previos delestado de la cuestion basados en expansionlocal textual como tecnica de combinacionmultimodal han utilizado PRF, no habien-do precedentes de utilizacion de LCA, salvonuestra participacion en la tarea Photo delImageCLEF 2008

Para implementar la estrategia de re-alimentacion multimodal, nuestro sistemautiliza las n primeras anotaciones de lasimagenes en el ranking devuelto por un sis-tema de RIBC externo y las i primeras anota-ciones en el ranking devuelto por un sistemade RIBT obtenido con IR-n. Para a contin-uacion, extraer los t terminos mejor valoradospor el algoritmo utilizado – PRF o LCA –.

Indicar finalmente que IR-n permite con-figurar si se utilizan los documentos o lospasajes mas relevantes para la seleccion determinos de la expansion local de la consul-ta.

3. Experimentos

Para nuestros experimentos hemos escogi-do las colecciones de imagenes y los conjun-tos de preguntas utilizados en las tres edi-ciones anteriores a la edicion de este ano delImageCLEF. A continuacion se comentan lascaracterısticas de cada una de las coleccionesutilizadas.

St Andrews (Photo 2004) (Reid,1999). Se trata de una coleccion de fo-tografıas historicas en blanco y negro,las anotaciones que acompanan a lasimagenes se puede considerar que son de

alta calidad, sus autores son expertos enel area. Las mismas contienen un totalde 8 campos en texto plano, que son: untıtulo corto y otro largo, localizacion, de-scripcion, fecha, fotografo, notas y cate-gorıas. Siendo los dos ultimos especial-mente ricos en informacion del contex-to de la fotografıa – informacion que unhumano no podrıa extraer solo observan-do la misma –. Esta coleccion es la queposee anotaciones de mayor calidad y ex-tension de las utilizadas.

IAPR TC-12 (Photo 2006 y Pho-

to 2007 y 2008) (Clough et al., 2006;Grubinger et al., 2007). Se trata de unacoleccion de imagenes de lugares delmundo en su mayorıa tomadas por unacompanıa de viajes. Las mayores diferen-cias con la de St. Andrews son que IAPRTC-12 utiliza imagenes de color y ano-taciones en formato XML con los sigu-ientes campos: tıtulo, descripcion, notas,lugar y fecha.

Para la tarea del 2006 se proporcionauna version de la coleccion IAPR TC-12 a la que se le aplica un preproce-so para reducir la calidad de las ano-taciones, quedando como sigue: un 70 %de las imagenes poseen todos los camposcompletos, un 10 % no contienen descrip-cion, otro 10 % no tienen ni descripcionni tıtulo, y finalmente otro 10 % no tieneanotaciones.

Para la tarea del 2007 se proporcionauna version para la cual las imagenescontienen todos los campos salvo el dedescripcion, que por otra parte es el masrico en semantica. Esto reduce consid-erablemente la cantidad de informaciontextual de las anotaciones de la coleccionsi lo comparamos con las anotaciones dela version utilizada en el 2006.

La Tabla 3 muestra los datos mas rele-vantes de cada coleccion, donde:

Coleccion: Nombre de la coleccion jun-to a la tarea y las ediciones en que seutilizo como coleccion de test.

Idioma: Idioma de la coleccion utilizadaen nuestros experimentos.

N. Docs.: Numero de imagenes de lacoleccion.

Sergio Navarro, Rafael Muñoz, Fernando Llopis

34

Page 35: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

N Media Media

Coleccion Idioma Docs Pals Fra

St Andrews(Photo 2004,2005) Ingles 28.133 60.7 4.18

IAPR TC-12(Photo 2006) Ingles 20.000 27.46 2.32IAPR TC-12

(Photo 2007,2008) Ingles 20.000 12.93 2,6

Cuadro 1: Colecciones de Datos para RIV

Media Pals.: Numero medio de pal-abras que contienen las anotaciones deuna imagen.

Media Fra.: Numero medio de frasesque contienen las anotaciones de una im-agen.

En cuanto a los conjuntos de consultas uti-lizadas, indicar que dependiendo de la edicionde la competicion, las consultas contienen uncampo de tıtulo y un campo de narrativa osolo un campo de tıtulo. En nuestros experi-mentos solo hemos utilizado el campo de tıtu-lo de la pregunta, por considerar que no es re-alista utilizar la narrativa ya que un usuariosuele utilizar consultas de reducido tamanocuando utiliza un sistema de RIV. Por otrolado comentar que mientras que el conjuntode consultas de la edicıon del 2004 – 25 con-sultas – y de la edicion del 2005 – 28 consultas– es diferente, para la edicion del 2006 y del2007 se utiliza el mismo conjunto de consul-tas – 60 consultas –, variando sin embargo lascaracterısticas de la coleccion utilizada.

A continuacion se muestra la notacionutilizada en las tablas de resultados parareferirnos a cada uno de los parametros delsistemas:

Expansion Local (FB): Indica el tipode expansion local que se utiliza. Per-mite las version textual de PRF y LCAy su version multimodal PRFMM yLCAMM.

Parametros para la Expansion Lo-

cal: Si E tiene valor 1, esto denota quese esta utilizando expansion local basa-da en pasajes. Pero, si E tiene valor 2,la expansion local esta basada en doc-umentos. Ademas, N denota el numerode documentos que la expansion local us-ara del ranking textual obtenido, Ncbir

en el caso de estar utilizando expansion

multimodal denota el numero de docu-mentos que utilizara del ranking visualobtenido por un sistema de RIBC, y fi-nalmente, T indica el numero de termi-nos a anadir a la consulta textual.

Para los experimentos hemos utilizado co-mo modelo de recuperacion Divergence FromRandomness (DFR) (Amati y Van Rijsber-gen, 2002), por ser el modelo de recuperacionque mejores resultados obtuvo en nuestraparticipacion para la coleccion en ingles en latarea Photo del ImageCLEF 2007 (Navarroet al., 2008). Ademas, el tamano de pasaje ylos parametros de DFR utilizados correspon-den con los que mejores resultados han de-vuelto para cada coleccion sin la utilizacionde expansion local.

La estrategia seguida en los experimentosha sido la de utilizar para los parametros deconfiguracion de la expansion local un ran-go de valores amplio que permita determi-nar que configuraciones son mas apropiadaspara cada tecnica en relacion al conjunto depreguntas y coleccion utilizada. Los valoresutilizados para estos parametros han sido de5 a 100 documentos para el numero de doc-umentos utilizados para la consulta, y de 5a 100 terminos para el numero de terminosseleccionados para la expansion, ademas sehan realizado experimentos utilizando tantopasajes como documentos para la expansion.

Las siguientes tablas de resultados mues-tran para cada conjunto de experimentos elresultado del caso base – una ejecucion sin ex-pansion de la consulta – y las nueve mejoresejecuciones en orden creciente de MAP, uti-lizando el mejor MAP obtenido por PRF yLCA para esa misma configuracion.

La Tabla 2 y la Tabla 3 muestran los resul-tados obtenidos en los experimentos realiza-dos con la coleccion St. Andrews, podemosobservar como para la misma coleccion con

Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual

35

Page 36: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

E N T PRF LCA

0.7262 0.72622 75 5 0.7087 0.7345

2 50 5 0.7254 0.7355

2 45 5 0.7361 0.73212 60 5 0.7129 0.7368

2 65 5 0.7180 0.7375

1 45 10 0.7385 0.71041 40 10 0.7387 0.70472 40 5 0.7395 0.7404

2 40 10 0.7436 0.7146

Cuadro 2: St. Andrews, 2004

E N T PRF LCA

0.3493 0.34931 55 5 0.3504 0.35012 25 5 0.3529 0.34782 5 15 0.3545 0.34361 25 5 0.3559 0.34992 70 5 0.3246 0.3566

2 80 5 0.3206 0.3580

2 5 5 0.3455 0.3596

2 10 5 0.3533 0.3607

2 50 5 0.3307 0.3607

Cuadro 3: St. Andrews, 2005

diferentes conjuntos de consultas se obtienenresultados de precision muy diferentes paralos casos base utilizados, ası las consultas del2004 obtienen valores de precision muy supe-riores a los alcanzados con las consultas del2005.

Esto explica que para el conjunto de ex-perimentos con un caso base con mayor pre-cision – consultas del 2004 – los resultadossean ligeramente superiores utilizando PRF,

E N T PRF LCA

0.1988 0.19881 20 10 0.2126 0.2140

2 20 10 0.2146 0.2191

1 10 10 0.2174 0.2218

2 10 10 0.2186 0.2222

2 40 10 0.2025 0.2226

1 5 5 0.2119 0.2233

2 25 5 0.2004 0.2241

2 5 5 0.2126 0.2242

Cuadro 4: IAPR TC-12, 2006

E N T PRF LCA

0.1544 0.15442 5 5 0.1808 0.1810

1 10 5 0.1827 0.18062 10 5 0.1827 0.18172 25 10 0.1811 0.1834

1 5 5 0.1849 0.17811 50 10 0.1675 0.1884

2 90 5 0.1452 0.1898

2 50 5 0.1551 0.1911

2 85 5 0.1444 0.1918

2 45 5 0.1598 0.1923

Cuadro 5: IAPR TC-12 No-Descriptions,2007

y para los experimentos con precision mas ba-ja – consultas del 2005 – los resultados seanconsiderablemente mejores utilizando LCA.

Tambien podemos observar que mientrasque PRF obtiene peores resultados cuandoutiliza un numero alto de documentos parallevar a cabo la expansion de la consulta, porel contrario LCA muestra resultados mas in-dependientes del numero de documentos se-leccionados para la expansion.

La Tabla 4 y la Tabla 5 muestran los resul-tados alcanzados para la coleccion del 2006 y2007, podemos ver como afecta la reduccionen el tamano de las anotaciones a la precisionen estos experimentos. Ademas vemos comoel hecho de que el caso base obtenga preci-siones mas bajas influye en que LCA amplıela mejora de sus resultados respecto a PRF.Esto se explica porque en un ranking de ba-ja precision el numero de imagenes no rele-vantes utilizadas para la expansion es mayor,lo cual dana mas a los resultados obtenidospor PRF.

Se observa como LCA obtiene mejores re-sultados que PRF para todas las coleccionesy conjuntos de preguntas, salvo para el con-junto de preguntas del 2004. Siendo en esteultimo caso la diferencia de precision entrePRF y LCA muy poco significativa. Por otrolado observamos como la diferencia obtenidaentre LCA y PRF para el resto de coleccionesse amplia a medida que la precision del rank-ing devuelto por la ejecucion del caso baseobtiene una menor precision.

Ademas, los resultados muestran que engeneral el numero de documentos que LCA escapaz de manejar para la expansion es muysuperior al numero utilizado por PRF, con-

Sergio Navarro, Rafael Muñoz, Fernando Llopis

36

Page 37: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

statandose ası las observaciones apuntadaspor los autores de LCA.

Finalmente, comparamos los resultados deestos experimentos con los alcanzados por lasejecuciones que utilizaron expansion local ennuestra participacion en la tarea Photo delImageCLEF 2008 (Navarro, Llopis, y Munoz,2008) – Tabla 6 –, en la cual se utilizo lacoleccion IAPR TC-12 No-Descriptions y unsubconjunto de las consultas utilizadas en laedicion del 2007.

Podemos ver por un lado que a pesar dehaber utilizado la misma coleccion y un sub-conjunto de las consultas utilizadas en los ex-perimentos del 2007, la precision alcanzadapor el caso base en la participacion del 2008es superior a la obtenida por el caso base delos experimentos del 2007. Esto explica queen nuestra participacion del 2008, PRF ensu version textual haya mejorado ligeramentelos resultados obtenidos por LCA.

Por otro lado vemos que el mejor resul-tado multimodal ha sido alcanzado con LCAutilizando el ranking devuelto por un sistemade RIBC – este tipo de sistemas se caracter-izan por devolver rankigs de baja precision–. Recalcar que en nuestra participacion enla tarea del 2008 esta variante multimodalde LCA fue la unica estrategia de expansionlocal que no dano a la diversidad de los resul-tados y a su vez nuestra mejor ejecucion enterminos de precision, obteniendo el 4o mejorMAP y el 5o mejor P20 de las 1039 ejecu-ciones automaticas enviadas por los partici-pantes, a pesar de ser el unico grupo que noutilizo la narrativa de la pregunta. Es impor-tante tener en cuenta este dato, pues los re-sultados del unico participante que envio eje-cuciones con y sin narrativa demuestran quesimplemente incluyendo la primera frase dela narrativa su sistema dobla los resultadosde precision e incrementa notablemente susvalores de diversidad (Demerdash, Kosseim,y Bergler, 2008).

Se observa tambien como mientras lamejor ejecucion de PRF multimodal solo escapaz de utilizar los 5 primeros documen-tos del ranking textual y los 5 mejores doc-umentos del ranking visual, LCA en cambioen su mejor ejecucion hace uso solo de lasimagenes devueltas en el ranking visual, sien-do capaz ademas de manejar un numero altode imagenes para la expansion – 20 imagenes–.

FB E N Ncbir T MAP

- 0.2362LCA 1 5 0 5 0.2656PRF 2 5 0 5 0.2699

PRFMM 2 5 5 5 0.2856LCAMM 2 0 20 5 0.3436

Cuadro 6: ImageCLEFPhoto 2008

Revisando todos los experimentos llevadosa cabo podemos afirmar que en todos elloscuando el ranking utilizado para la expansionalcanza valores de precision baja, LCA ob-tiene mejoras significativas respecto a PRF,mientras que cuando se utilizan rankings deprecision mas alta PRF obtiene resultadosligeramente superiores a los de LCA.

4. Conclusiones y Trabajos

Futuros

El estudio de los experimentos realizadosha puesto de manifiesto una relacion clara en-tre la precision del ranking utilizado para laexpansion y los resultados obtenidos por lasestrategias de expansion evaluadas.

Tener constancia de esta relacion, nos per-mite afirmar que LCA es una estrategia ro-busta que encaja perfectamente con los rank-ings de baja precision con que se traba-ja en RIV, especialmente los devueltos porsistemas de RIBC. Esta observacion se re-fuerza por el hecho de que LCA es capaz deaprovechar la presencia de terminos coocur-rentes con la consulta en estos rankings, locual es una pista especialmente significativade relevancia, pues contienen anotaciones deimagenes obtenidas solo utilizando tecnicasvisuales.

Por ello creemos que de cara a trabajos fu-turos su utilizacion como estrategia de com-binacion multimodal es prometedora pues talcomo algunos autores afirman el resto de es-trategias de expansion local mejoran la pre-cision a costa de empeorar la diversidad delos resultados devueltos (Sanderson, 2008),mientras que LCA multimodal a demostra-do no solo ser la unica que no perjudica a ladiversidad sino que ademas ha obtenido nue-stros mejores resultados de precision. Esto nohace sino que demostrar que esta tecnica escapaz de utilizar ambas fuentes de informa-cion – imagen y texto – de forma optima,haciendo ascender en el ranking textual fi-nal solo a las imagenes con anotaciones simi-

Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual

37

Page 38: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

lares a las imagenes relevantes situadas en lasprimeras posiciones del ranking visual, en lu-gar de a las imagenes similares a las ya situ-adas en las primeras posiciones del rankingtextual inicial.

5. Agradecimientos

Esta investigacion ha sido llevada a caboutilizando fondos procedentes del Gobiernoespanol a traves del proyecto TEXT-MESS(TIN-2006-15265-C06-01) y de la Union Eu-ropea(UE) a traves del proyecto QALL-ME(FP6-IST-033860).

Bibliografıa

Amati, G. y C. J. Van Rijsbergen. 2002.Probabilistic Models of information re-trieval based on measuring the divergencefrom randomness. ACM TOIS, 20(4):357–389.

Clough, Paul, Michael Grubinger, ThomasDeselaers, Allan Hanbury, y HenningMuller. 2006. Overview of the imageclef2006 photographic retrieval and object an-notation tasks. En Working Notes of the2006 CLEF Workshop, Alicante, Spain,Septiembre.

Demerdash, Osama El, Leila Kosseim, ySabine Bergler. 2008. CLaC at Image-CLEFPhoto 2008. En on-line WorkingNotes, CLEF 2008.

Dıaz-Galiano, M.C., M.A. Garcıa-Cumbreras, M.T. Martın-Valdivia,A. Montejo-Raez, y L.A. Urena-Lopez.2007. Sinai at imageclef 2007. En Work-ing Notes of the 2007 CLEF Workshop,Budapest, Hungary, Septiembre.

Gao, Sheng, Jean-Pierre Chevallet, ThiHoang Diem Le, Trong Ton Pham, yJoo Hwee Lim. 2007. Ipal at image-clef 2007 mixing features, models andknowledge. En Working Notes of the2007 CLEF Workshop, Budapest, Hun-gary, Septiembre.

Grubinger, Michael. 2007. Analysis andEvaluation of Visual Information SystemsPerformance. Ph.D. tesis, Engineeringand Science Victoria University.

Grubinger, Michael, Paul Clough, Allan Han-bury, y Henning Muller. 2007. Overviewof the ImageCLEFphoto 2007 photo-graphic retrieval task. En Working Notes

of the 2007 CLEF Workshop, Budapest,Hungary, Septiembre.

Liu, Haixue y Zhao Lv Junzhong Gu. 2007.Improving the Effectiveness of Local Con-text Analysis Based on Semantic Similar-ity. En 2007 International Conference onConvergence Information Technology (IC-CIT 2007).

Llopis, Fernando. 2003. IR-n: Un Sistemade Recuperacion de Informacion Basadoen Pasajes. Ph.D. tesis, University of Al-icante.

Navarro, Sergio, Fernando Llopis,Rafael Munoz Guillena, y Elisa Noguera.2008. Analysing an approach to infor-mation retrieval of visual descriptionswith ir-n, a system based on passages.Advances in Multilingual and MultimodalInformation Retrieval: 8th Workshop ofthe Cross-Language Evaluation Forum,CLEF 2007, Budapest, Hungary, Septem-ber 19-21, 2007, Revised Selected Papers,paginas 522–529.

Navarro, Sergio, Fernando Llopis, y RafaelMunoz. 2008. Different Multimodal Ap-proaches using IR-n in ImageCLEFphoto2008. En on-line Working Notes, CLEF2008.

Navarro, Sergio, Rafael Munoz, y FernandoLlopis. 2008a. A Multimodal Approachto the Medical Retrieval Task using IR-n.En on-line Working Notes, CLEF 2008.

Navarro, Sergio, Rafael Munoz, y FernandoLlopis. 2008b. A Textual Approach basedon Passages Using IR-n in WikipediaMMTask 2008. En on-line Working Notes,CLEF 2008.

Reid, N. 1999. The photographic collectionsin st andrews university library. ScottishArchives, 5:83–90.

Robertson, S. E. y K. Sparck Jones. 1977.Relevance weighting of search terms.Journal of the American Society for In-formation Science, 27(3):129–146.

Sanderson, Mark. 2008. Ambiguous queries:Test collections need more sense. En SI-GIR’08, paginas 20–24, July.

Xu, Jinxi y W. Bruce Croft. 2000. Improvingthe effectiveness of information retrievalwith local context analysis. ACM Trans.Inf. Syst., 18(1):79–112.

Sergio Navarro, Rafael Muñoz, Fernando Llopis

38

Page 39: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Deteccion de Web Spam basada en la Recuperacion Automaticade Enlaces ∗

Detecting Web Spam using a Recovering Web Links System

Lourdes AraujoNLP Group at UNED28040 Madrid, [email protected]

Juan Martinez-RomoNLP Group at UNED28040 Madrid, [email protected]

Resumen: Actualmente el Web Spam es una guerra abierta entre los motores debusqueda, tratando de garantizar unos resultados relevantes al usuario, y una comu-nidad, cuyo interes reside en intentar enganar a los primeros en busca de un mejorranking para sus paginas. En este trabajo presentamos un estudio preliminar sobredistintas medidas que podrıan ser utiles para la construccion de un sistema novedosoen la deteccion de Web Spam. Algunas de estas medidas se basan en los resultadosde un sistema de recuperacion automatica de enlaces web rotos. El sistema utilizadistintas fuentes de informacion de la pagina analizada y la informacion extraıda deestas fuentes se utiliza para realizar una consulta a un motor de busqueda usual, co-mo Google o Yahoo!. Las paginas recuperadas son ordenadas posteriormente en basea su contenido, utilizando tecnicas de recuperacion de informacion. Finalmente, elanalisis del grado de recuperacion de los enlaces es empleado, junto a otras medidas,como un indicador de Spam.Palabras clave: recuperacion de informacion, World Wide Web, enlaces rotos, webspam

Abstract: Nowadays, Web Spam is a war between search engines, trying to ensurethat the results are relevant to the user, and a community that tries to mislead thesearch engine to attract to the former ones to its pages.In this work, we present a preliminary study about several features that can beuseful for building a novel web spam detection system. Some of these features areobtained from a system for automatic recovery of broken Web links. This system usesseveral sources of information from the analyzed page to extract useful data thatare used later to perform a query to a typical search engine, as Google or Yahoo!.Afterwards, retrieved pages are ordered based on its content, using informationretrieval techniques. Finally, the recovery links degree is used, along with otherfeatures, as an indicator of Spam.Keywords: information retrieval, World Wide Web, broken links, web spam

1. Introduccion

Hoy en dıa, la creciente popularidad de In-ternet entre los usuarios como fuente de in-formacion, ha convertido a los buscadores enun objetivo de la publicidad. Los buscado-res a su vez, basan su modelo de negocio enla publicidad que anaden a los resultados deuna consulta. Pero ademas de esta publicidadrelevante a las consultas realizadas, una ma-nera muy economica de conseguir publicidad,consiste en aparecer en los primeros puestosde las respuestas del buscador. En este senti-do, estar entre los 30 primeros resultados es

∗ Trabajo financiado por el proyecto TIN2007-67581-C02-01

muy importante ya que hay estudios(Janseny Spink, 2003) que reflejan que la probabi-lidad de que un usuario llegue a mirar masalla de la tercera pagina de resultados es muybaja. Ante esta manera de aumentar los in-gresos por publicidad ha surgido un fenomenodenominado Web Spam o Spamdexing.

Segun (Gyongyi y Garcia-Molina, 2005)Web Spam podrıa definirse como cualquieraccion destinada a mejorar el ranking en unbuscador por encima de lo que se merece. Engeneral en la literatura (Gyongyi y Garcia-Molina, 2005; Baeza-Yates, Boldi, y Hidalgo,2007) se distinguen tres tipos de Web Spam:Link Spam, Content Spam y Cloacking.

El Link Spam o Spam de Enlaces consiste

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 39-46 recibido 09-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 40: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

en anadir enlaces superfluos y/o enganosos auna pagina Web o bien crear paginas super-fluas que solamente contienen enlaces. Uno delos primeros trabajos que trataron este tipode Spam fue (Davison, 2000), donde se consi-deraba el nepotismo en los enlaces como unaforma de ser mas relevante ante los buscado-res. La manera mas frecuente de encontrareste tipo de Spam es en forma de granjas deenlaces (Link Farms) donde un conjunto depaginas son enlazadas entre sı empleando al-guna de las topologıas estudiadas en (Baeza-Yates, Castillo, y Lopez, 2005), con el obje-tivo de incrementar la importancia de unade ellas. Estas topologıas han sido estudia-das en (Gyongyi y Garcia-Molina, 2005).

El Content Spam o Spam de Contenidoes la practica de realizar ingenierıa sobre elcontenido de una pagina con el objetivo de re-sultar relevante para un conjunto de consul-tas. En (Fetterly, Manasse, y Najork, 2004) sepresenta un analisis estadıstico sobre diferen-tes propiedades del contenido para detectarSpam. Entre las tecnicas mas habituales seencuentran el incluir terminos enganosos enlas Urls, en el cuerpo (body) y en el texto delancla y cada vez menos habitual como unaMeta Tag. En (Ntoulas et al., 2006) se reali-za una serie de medidas sobre el contenido yluego se construye un arbol de decision me-diante el cual se realiza una clasificacion deeste tipo de Spam. Tambien existen traba-jos (Abernethy, Chapelle, y Castillo, 2008)que combinan informacion tanto de los enla-ces como del contenido para construir un cla-sificador con SVM y detectar eficientementedistintos tipos de Spam.

Finalmente, el Cloaking o Encubrimientoconsiste en diferenciar a un usuario de unrobot de busqueda para responder con unapagina distinta en cada caso. En (Gyongyi yGarcia-Molina, 2005) se presentan las tecni-cas mas utilizadas en este tipo de Spam.

En la literatura existen multiples trabajosque exploran por separado o de manera con-junta estos tipos de Spam. Sin embargo, estosestudios trabajan habitualmente con una co-leccion etiquetada en la que previamente seha realizado un crawling y se han precalcula-do una serie de medidas relevantes.

En este trabajo analizamos la utilidad delos distintos datos extraidos sobre los enlacesde una pagina para la deteccion de Spam.En particular, estudiamos la forma de utili-zar los resultados extraıdos de la aplicacion

de un mecanismo de recuperacion automati-ca de enlaces para la deteccion de paginasde Spam. Esta tecnica, ademas de aplicar unnuevo indicador de Spam, proporciona un sis-tema de analisis online frente a las tradicio-nales colecciones.

Nuestro sistema de recuperacion de enla-ces rotos se basa en tecnicas clasicas de re-cuperacion de informacion para extraer in-formacion relevante y realizar consultas a unmotor de busqueda como Google o Yahoo!. Elsistema comprueba los enlaces de la paginaque se le indica. Si alguno de ellos esta roto,hace una propuesta al usuario de una seriede paginas candidatas para sustituir el enla-ce roto. Las paginas candidatas se obtienenmediante busquedas en Internet compuestasde terminos extraıdos de distintas fuentes. Alas paginas recuperadas con la busqueda Webse les aplica un proceso de ordenacion querefina los resultados antes de hacer la reco-mendacion al usuario. La figura 1 presentaun esquema del sistema propuesto.

Informaciondel enlace

Informacionde la pagina

Extraccion determinos relevantes

Buscador

Enlace roto

Pagina web

terminos

paginas recomendadas

paginas web

Ordenar

Figura 1: Esquema del funcionamiento delsistema de recomendacion para la recupera-cion de enlaces rotos.

Al analizar los resultados de algunos ex-perimentos, encontramos casos excepcionalesen los que el grado de recuperacion de enla-ces tenıa una gran desviacion con respecto ala media. Estos casos consistıan en paginascon muchos enlaces en los que no se recupe-raba ningun enlace o bien se recuperaban laspaginas originales de practicamente todos los

Lourdes Araujo, Juan Martinez-Romo

40

Page 41: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

enlaces. En ambos casos se ha comprobadomanualmente que se trataba de paginas deSpam. Esto sugiere la utilidad de aplicar es-tas tecnicas a la deteccion de Spam. El resul-tado de la recuperacion de los enlaces rotospuede tomarse como un indicador de la cohe-rencia entre un enlace y la pagina a la queenlaza, dato que es util para la deteccion deSpam.

Existen algunos trabajos enfocados a la re-cuperacion de enlaces, aunque se basan eninformacion anotada por anticipado en el en-lace. El sistema Webvise (Grønbæk, Sloth,y Ørbæk, 1999), permite cierto grado de re-cuperacion de enlaces Web rotos utilizandoinformacion redundante sobre los enlaces, al-macenada en bases de datos de servidores deInternet. Davis (Davis, 2000) analiza las cau-sas del problema de los enlaces rotos y propo-ne soluciones enfocadas a la recopilacion deinformacion sobre la estructura de la red deenlaces. Nakamizo y colaboradores (Nakami-zo et al., 2005) han desarrollado un sistemade recuperacion de enlaces basado en lo quedenominan “enlaces con autoridad” de unapagina. Shimada y Futakata (Shimada y Fu-takata, 1998) propusieron la creacion de unabase de datos de enlaces, SEDB, en la que sonposibles ciertas operaciones de reparacion delos enlaces almacenados.

Nuestro trabajo difiere de los anterioresya que no presupone la existencia de ningunainformacion almacenada de antemano sobrelos enlaces y es aplicable a cualquier paginade Internet, lo que le hace util para analizarel Spam de las paginas web.

El resto del artıculo se organiza de la si-guiente forma: en la seccion 2 se describen lastecnicas que utilizamos para la recuperacionautomatica de enlaces web rotos. La seccion 3analiza la relacion de distintos datos sobre losenlaces de una pagina con su identificacioncomo Spam, en particular los resultados dela aplicacion de las tecnicas de recuperacionautomatica. Finalmente, en la seccion 4 serealiza una discusion sobre los resultados yse extraen una serie de conclusiones.

2. Tecnicas de recuperacion deenlaces

En esta seccion analizamos cada una delas fuentes de informacion consideradas, ex-trayendo estadısticas de su utilidad para larecuperacion de enlaces cuando se aplican porseparado o combinadas.

2.1. Uso del Texto del ancla de losenlaces

En muchos casos las palabras que compo-nen el texto del ancla de un enlace son laprincipal fuente de informacion para identi-ficar la pagina apuntada. Para verificar estateorıa, hemos realizado un estudio del nume-ro de casos en los que los enlaces rotos se hanrecuperado buscando en Google el texto delancla entrecomillado.

Para considerar que un enlace se ha recu-perado, aplicamos el modelo de espacio vec-torial (Manning, Raghavan, y Schutze, 2008),representando cada una de las paginas (origi-nal y candidata) a comparar por un vector determinos, y hayamos la distancia dada por elcoseno entre ellos. Si este valor es mayor de0.9, consideramos la pagina recuperada. Pa-ra valores menores que este umbral, como un0.8, aunque en la mayorıa de los casos se tratade la misma pagina con pequenos cambios co-mo los mencionados, hemos encontrado alguncaso en que se trataba de paginas distintas,aunque del mismo sitio Web.

De esta forma se ha conseguido recuperarun 41% de los enlaces entre las diez primerasposiciones (Google). Ademas un 66% de losenlaces recuperados han logrado encontrarseen la primera posicion. Estos datos demues-tran que el texto del ancla de un enlace esuna gran fuente de informacion de cara a re-cuperar un enlace roto.

En este trabajo hemos optado por reali-zar un reconocimiento de entidades nombra-das (nombres de personas, organizaciones olugares) sobre el texto del ancla, para poderextraer determinados terminos cuya impor-tancia sea mayor que la del resto. Para talfin, existen varias soluciones software comoLingPipe, Gate, FreeLing, etc. Tambien exis-ten multiples recursos en forma de gazetteers,pero el amplio dominio sobre el que trabaja-mos ha impedido conseguir resultados preci-sos. Estamos en un entorno en el que ana-lizamos paginas aleatorias cuyo unico factorcomun es el idioma (ingles). Ademas, el he-cho de que el texto de las anclas sean con-juntos muy reducidos de palabras y/o nume-ros, hace que los sistemas usuales de reconoci-miento de entidades proporcionen resultadosmuy pobres. Por estos motivos, hemos decidi-do emplear la estrategia opuesta. En lugar deencontrar entidades nombradas, hemos opta-do por recopilar un conjunto de diccionariosy descartar las palabras comunes y numeros,

Detección de Web Spam basada en la Recuperación Automática de Enlaces

41

Page 42: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

suponiendo que el resto de palabras son enti-dades nombradas. Aunque hemos encontradoalgunos falsos negativos, como por ejemplo lacompanıa ”Apple”, en el caso de las anclashemos obtenido mejores resultados con estatecnica.

La tabla 1 muestra los resultados de la re-cuperacion de enlaces en funcion del conte-nido de entidades nombradas de las anclasy del numero de terminos de las mismas. Losresultados demuestran que la presencia de en-tidades nombradas en el ancla favorece la re-cuperacion del enlace. Ademas cuando hayentidades nombradas el numero de casos re-cuperados es importante.

Tipo de anclaEnt. Nomb. No Ent. Nomb.

Terms. E.N.R. E.R. E.N.R. E.R.1 102 67 145 72 52 75 91 493 29 29 27 45

4+ 57 61 33 47total 240 232 296 148

Cuadro 1: Analisis de los enlaces no recupe-rados (E.N.R.) y recuperados (E.R.) en fun-cion del tipo de ancla — con (Ent. Nomb.) ysin (No Ent.) entidades nombradas — y delnumero de terminos del ancla. 4+ term. serefiere a anclas con cuatro o mas terminos.

2.2. El texto de la pagina

Los terminos mas frecuentes encontradosen una pagina Web son una forma de caracte-rizar el tema principal de dicha pagina. Estatecnica requiere que el contenido de la paginasea suficientemente grande. Un ejemplo clarode utilidad de esta informacion son los enla-ces a paginas personales. Es muy frecuenteque el ancla de un enlace a una pagina perso-nal este formada por el nombre de la personaa la que corresponde la pagina. Sin embargo,en muchos casos los nombres, incluido el ape-llido, no identifican a una persona de formaunıvoca.

Hemos aplicado tecnicas clasicas de re-cuperacion de informacion para extraer losterminos mas representativos de la pagina.Una vez eliminadas las palabras vacıas, ge-neramos un ındice de terminos ordenado porfrecuencias. Los diez primeros terminos de es-te ındice se utilizan, uno a uno, para expandirla consulta formada por el texto del ancla. Es

decir, se expande con cada uno de ellos y setoman los diez primeros documentos recupe-rados en cada caso.

En la tabla 2 se puede observar como laexpansion mejora globalmente los resultadosaumentando el numero de enlaces recupera-dos en las diez primeras posiciones y por tan-to reduciendo los enlaces no recuperados. Apesar de esto, el numero de enlaces recupera-dos en primera posicion se ve reducido.

Analisis. 1 pos. 1-10 pos. E.N.R.No EXP 253 380 536EXP 213 418 498

Cuadro 2: Analisis del numero de documen-tos recuperados en primera posicion (1 pos.),entre las diez primeras posiciones (1-10 pos.)o no recuperados (E.N.R.) en funcion de uti-lizar (EXP) o no (No EXP), el metodo deexpansion de la consulta.

Por ello consideramos que lo mas adecua-do es aplicar ambas formas de recuperacion, yordenar despues los resultados para presentaral usuario los mas relevantes en primer lugar.

Analizando los casos en los que se consi-gue recuperar la pagina correcta con y sinentidades nombradas y en funcion del nume-ro de terminos del ancla (tabla 3) vemos quelas proporciones obtenidas recuperando sinexpandir la consulta se mantienen. Es de-cir, los mejores resultados se obtienen cuandohay entidades nombradas y cuando hay doso mas terminos. Sin embargo, en este caso,es decir con expansion, el numero de enla-ces recuperados cuando el ancla consta de ununico termino y no es una entidad nombradaes 25, que ya puede ser una cantidad signi-ficativa. Esto sugiere intentar recuperar conexpansion tambien en este caso, siempre quesea posible comprobar la validez de los resul-tados.

2.3. Ordenacion de los enlaces porrelevancia

En este momento hemos recuperado unconjunto de enlaces candidatos a sustituir alenlace roto, procedentes de la busqueda conel ancla y con el ancla expandida con cadauno de los diez primeros terminos que re-presentan a la pagina padre. Ahora quere-mos ordenarlos por relevancia para presen-tarlos al usuario. Para calcular esta relevan-cia hemos considerado dos fuentes de infor-

Lourdes Araujo, Juan Martinez-Romo

42

Page 43: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Tipo de anclaEnt. Nomb. No Ent. Nomb.

Terms. E.N.R. E.R. E.N.R. E.R.1 104 65 127 252 55 72 70 703 30 28 22 50

4+ 59 59 31 49total 248 224 250 194

Cuadro 3: Analisis de los enlaces no recupera-dos y recuperados en funcion del tipo de anclay del numero de terminos del ancla cuando laexpansion es aplicada.

macion. En primer lugar, si existe, la paginaa la que apuntaba el enlace roto almacenadaen la cache del buscador, en nuestro caso deGoogle. Si esta informacion no existe, enton-ces utilizamos la pagina padre que contiene elenlace roto. La idea es que la pagina enlazadatratara en general sobre una tematica relacio-nada con la pagina en la que se encuentra elenlace.

De nuevo hemos aplicado el modelo deespacio vectorial (Manning, Raghavan, ySchutze, 2008) para estudiar la similitud en-tre la pagina que contenıa el enlace roto y laspaginas recuperadas. Con esta tecnica calcu-lamos la similitud o bien con la cache o biencon la pagina padre. La figura 2 muestra losresultados correspondientes. En el primer ca-so, la mayorıa de los documentos correctosrecuperados se presentan entre los diez pri-meros documentos, con lo que si se disponede la cache, podremos hacer recomendacio-nes muy fiables. En el caso de la similitudcon la pagina padre, el orden de los resulta-dos es peor. Por lo que solo recurriremos aesta informacion si no se dispone de la cache.

2.4. Coleccion de paginas yResultados de laRecuperacion Automatica deEnlaces

Si analizamos la utilidad de las distintasfuentes de informacion utilizadas directamen-te sobre enlaces rotos, es muy difıcil evaluarla calidad de las paginas candidatas a susti-tuir el enlace. Por ello, en esta fase de analisistrabajamos con enlaces Web tomados de for-ma aleatoria, que no estan realmente rotos,y que denominamos supuestamente rotos. Deesta forma disponemos de la pagina a la queapuntan y podemos evaluar la recomendacion

Figura 2: Numero de apariciones de paginascorrectas en el ranking elaborado, seleccio-nando los N mejores candidatos segun la si-militud con la pagina cache y padre.

que hacemos utilizando cada fuente de in-formacion. Para realizar el analisis, tomamosdiez enlaces por cada pagina elegidos aleato-riamente de un conjunto de 100 seleccionadasigualmente de manera aleatoria mediante pe-ticiones sucesivas a www.randomwebsite.com,un sitio que proporciona paginas Web aleato-rias. Este conjunto de paginas ademas debencumplir una serie de requisitos en cuanto a sucontenido como tener 250 palabras, estar es-critas en ingles y tener al menos cinco enlacesactivos, ajenos al propio sitio y cuyo texto deanclaje sea mınimamente descriptivo (no seaunicamente un numero, una Url, un signo depuntuacion o este vacıo).

Los resultados del analisis descrito en lassecciones anteriores sugieren criterios paradecidir en que casos hay informacion suficien-te para intentar la recuperacion del enlace yque fuentes de informacion utilizar. Esta in-formacion se ha modelado dando origen a unalgoritmo cuyos resultados pasamos a descri-bir.

Hemos aplicado este algoritmo a enlacesque estan realmente rotos, pero solamente delos que se dispone de cache, para poder eva-luar los resultados. La tabla 4 muestra losresultados de la posicion de los documentosmas relevantes en una ordenacion por simi-litud con la pagina padre. La relevancia semide por similitud con la cache. Hemos com-probado que en unos casos se trata de la pagi-na original, que ha cambiado de Url, y enotros casos de paginas con contenido muy re-lacionado en una localizacion diferente. Pode-mos observar, que aun si no contamos con lacache y ordenamos por similitud con la pagi-na padre, el sistema es capaz de presentar

Detección de Web Spam basada en la Recuperación Automática de Enlaces

43

Page 44: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

documentos sustitutos relevantes entre las 10primeras posiciones en un 48% de los casosy entre las 20 primeras en un 76%.

N primeros E.R1-10 1210-20 720-50 6

Cuadro 4: Numero de apariciones de paginassustitutas (de acuerdo con su similitud con elcontenido de la cache) entre los N primerosdocumentos ordenados por similitud con lapagina padre.

3. Deteccion de Web Spam

Nuestro sistema de recuperacion de enla-ces analiza una Web tanto desde el puntode vista de sus enlaces como desde el pun-to de vista de su contenido. Aplicando es-ta metodologıa a los enlaces de una pagina(no rotos), puede extraerse informacion rele-vante sobre la coherencia de los enlaces y laspaginas apuntadas por ellos, que es util pa-ra determinar si una pagina esta realizandoSpamdexing. Nuestra propuesta es novedosapara la deteccion de Spam, ya que habitual-mente los sistemas que se encargan de estatarea realizan un crawling previo, reuniendouna coleccion de paginas Web junto a unaserie de medidas relevantes. Posteriormentey de una manera offline, se realiza una cla-sificacion sobre la coleccion. En los ultimosanos existe una coleccion de referencia (Cas-tillo et al., 2006) siendo la primera que inclu-ye las paginas y sus enlaces y que ademas hasido etiquetada manualmente por un conjun-to de voluntarios. No obstante existen otrostrabajos que emplean colecciones propias ela-boradas de una forma similar. Este sistemaserıa novedoso ya que no necesita una colec-cion con informacion sobre su contenido nisobre sus enlaces, sino que de una maneraonline extrae de la red informacion relevantesobre una Web dada para posteriormente serclasificada segun su grado de Spam. Hemosrealizado un estudio comparativo aplicado ados conjuntos de 67 paginas Web, clasificadaspreviamente como Spam o No Spam, en elque tomando una serie de medidas podemosapreciar ciertas caracterısticas propias de ca-da conjunto. Estos dos conjuntos han sido to-mados de (Castillo et al., 2006), teniendo encuenta su clasificacion en cuanto a su gra-

do de Spam. Ademas fue imprescindible quelas paginas estuvieran online y que su cuerpocontuviera al menos 100 palabras y un enlaceexterno.

La primera medida corresponde a la di-ferencia entre los enlaces recuperados y norecuperados por cada una de las paginas. Elanalisis en este caso se ha realizado medianteuna recuperacion de los enlaces activos parapoder verificar su recuperacion. La intuicionen la interpretacion de este valor es que unapagina que hace Spam esta enlazando a otraspaginas poco conocidas y por tanto, difıcilesde recuperar. Por lo tanto, cuanto mas nega-tiva es la diferencia entre los enlaces recupe-rados y no recuperados, mayor es la probabi-lidad de que la pagina este haciendo Spam.En la figura 3 se pueden apreciar las dos dis-tribuciones de estas medidas para cada unade las paginas y por cada uno de los dos con-juntos (Spam y no Spam). Tambien se puedeobservar como en el caso de las paginas queno hacen Spam, sus valores casi siempre estanpor encima de los de las paginas de Spam.

Las dos siguientes figuras 4 y 5 correspon-den a las paginas de Spam y las de no Spamrespectivamente. En ellas se muestra la re-lacion entre las distribuciones de los enlacesde cada pagina y las paginas que las enlazan.Se puede comprobar como en el primer casola diferencia es mucho mayor, estando siem-pre los enlaces entrantes por debajo de lossalientes. Estos datos indican que las paginasde Spam contienen muchos enlaces pero encambio no reciben el mismo numero.

En la figura 6 se muestran las distribucio-nes de la siguiente medida para cada una delas paginas y por cada uno de los dos con-juntos (Spam y no Spam). Esta medida co-rresponde al valor absoluto de la diferenciaentre los enlaces externos y los que son inter-nos. Las paginas de Spam normalmente to-man dos estrategias distintas en cuanto a losenlaces, o bien la mayorıa son externos conel objetivo de crear granjas de enlaces o porel contrario intentan absorber la mayorıa delPageRank conteniendo mayoritariamente en-laces al mismo sitio. De esta forma, en la fi-gura 6 se puede comprobar como el equilibrioentre este tipo de enlaces es mayor en el casode las paginas que no realizan Spam.

Otras dos medidas interesantes (no mos-tradas en este trabajo) para clasificar unapagina son el numero de las mismas que laenlazan ası como el numero de enlaces cuyo

Lourdes Araujo, Juan Martinez-Romo

44

Page 45: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

texto del ancla es una Url. Para la primerahemos tomado el valor correspondiente apro-ximado que proporciona el buscador. De es-ta forma hemos podido comprobar como laspaginas de Spam tienen valores muy por de-bajo, verificando la teorıa de que las paginasde prestigio transfieren su confianza a pagi-nas igualmente prestigiosas. Cabe mencionarque existen paginas de Spam con valores ele-vados, sin embargo corresponden a sitios im-portantes pero clasificados como Spam porsu alto contenido de publicidad. En cuantoal numero de enlaces cuyo texto del ancla esuna Url, en terminos generales las paginas deSpam contienen una mayor cantidad.

Todas estas medidas junto con otras estu-diadas en la literatura, tanto en relacion alcontenido como a la estructura de los enla-ces, podrıan ser utilizadas para la deteccionde paginas de Spam.

Figura 3: Distribucion de la diferencia en-tre los enlaces recuperados y no recuperadospara dos conjuntos de paginas (Spam y noSpam).

Figura 4: Distribucion de los enlaces salientesy entrantes para las paginas de Spam.

Figura 5: Distribucion de los enlaces salientesy entrantes para las paginas de No Spam.

Figura 6: Distribucion de la diferencia entrelos enlaces externos e internos para dos con-juntos de paginas (Spam y no Spam).

4. Conclusiones y Futurostrabajos

En este trabajo presentamos un estudiopreliminar sobre una serie de medidas quepodrıan ser utiles para la deteccion de Spamen la Web. En particular, analizamos la medi-da de coherencia entre los enlaces y las pagi-nas apuntadas por ellos. Otras medidas anali-zadas son las diferencias entre los enlaces en-trantes y salientes, entre los enlaces externose internos o el numero de enlaces cuyo tex-to de anclaje es una Url. Estas medidas sonobtenidas a su vez gracias a un sistema de re-cuperacion de enlaces. El sistema resultanteresultarıa novedoso ya que no necesitarıa deuna coleccion con informacion precalculadasino que funcionarıa de una manera online.

En cuanto al sistema de recuperacion deenlaces, hemos analizado distintas fuentes deinformacion que podemos utilizar para haceruna recuperacion automatica de enlaces Webque han dejado de ser validos. Los resulta-dos indican que los terminos del ancla pue-den ser muy utiles, especialmente si hay mas

Detección de Web Spam basada en la Recuperación Automática de Enlaces

45

Page 46: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

de uno y si contienen alguna entidad nom-brada. Hemos estudiado tambien el efecto deanadir terminos procedentes de la pagina quecontiene el enlace, con el fin de reducir la am-biguedad que puede conllevar la cantidad li-mitada de terminos del ancla. Este estudioha mostrado que los resultados mejoran a losobtenidos utilizando solo los terminos del an-cla. Sin embargo, como hay casos en los quela expansion empeora el resultado de la re-cuperacion, hemos decidido combinar ambosmetodos, ordenando despues los documentosobtenidos por relevancia. El resultado de esteanalisis ha sido un algoritmo que ha conse-guido recuperar una pagina muy cercana a ladesaparecida entre las diez primeras posicio-nes de los documentos candidatos en un 48%de los casos, y entre las 20 primeras en un76%.

En este momento trabajamos en analizarotras fuentes de informacion que pueden serutiles tanto para la recuperacion de enlacescomo para la deteccion de Spam, como laspropias Urls, las paginas que apuntan a lapagina analizada o el contenido de sus distin-tas partes.

Bibliografıa

Abernethy, Jacob, Olivier Chapelle, y Car-los Castillo. 2008. Webspam identifi-cation through content and hyperlinks.En Proceedings of the fourth Internatio-nal Workshop on Adversarial InformationRetrieval on the Web (AIRWeb).

Baeza-Yates, Ricardo, Paolo Boldi, yJose Marıa Gomez Hidalgo. 2007. Recu-peracion de informacion con adversarioen la web. Novatica: Revista de laAsociacion de Tecnicos de Informatica,185:29–35.

Baeza-Yates, Ricardo A., Carlos Castillo, yVicente Lopez. 2005. Pagerank increaseunder different collusion topologies. EnAIRWeb, paginas 17–24.

Castillo, Carlos, Debora Donato, Luca Bec-chetti, Paolo Boldi, Stefano Leonardi,Massimo Santini, y Sebastiano Vigna.2006. A reference collection for web spam.SIGIR Forum, 40(2):11–24.

Davis, H.C. 2000. Hypertext link inte-grity. ACM Computing Surveys ElectronicSymposium on Hypertext and Hypermedia,31(4).

Davison, B. 2000. Recognizing nepotisticlinks on the web.

Fetterly, Dennis, Mark Manasse, y Marc Na-jork. 2004. Spam, damn spam, and sta-tistics: using statistical analysis to locatespam web pages. En WebDB ’04: Procee-dings of the 7th International Workshopon the Web and Databases, paginas 1–6,New York, NY, USA. ACM.

Grønbæk, Kaj, Lennert Sloth, y PeterØrbæk. 1999. Webvise: Browser andproxy support for open hypermedia struc-turing mechanisms on the world wi-de web. Computer Networks, 31(11-16):1331–1345.

Gyongyi, Zoltan y Hector Garcia-Molina.2005. Web spam taxonomy. En Procee-dings of the first International Workshopon Adversarial Information Retrieval onthe Web (AIRWeb).

Jansen, Bernard J. y Amanda Spink. 2003.An analysis of web documents retrievedand viewed. En International Conferenceon Internet Computing, paginas 65–69.

Manning, Christopher D., Prabhakar Ragha-van, y Hinrich Schutze. 2008. Introduc-tion to Information Retrieval. CambridgeUniversity Press.

Nakamizo, A., T. Iida, A. Morishima, S. Su-gimoto, , y H. Kitagawa. 2005. A tool tocompute reliable web links and its applica-tions. En SWOD ’05: Proc. InternationalSpecial Workshop on Databases for NextGeneration Researchers, paginas 146–149.IEEE Computer Society.

Ntoulas, Alexandros, Marc Najork, MarkManasse, y Dennis Fetterly. 2006. De-tecting spam web pages through contentanalysis. En WWW ’06: Proceedingsof the 15th international conference onWorld Wide Web, paginas 83–92, NewYork, NY, USA. ACM.

Shimada, Takehiro y Atsushi Futakata. 1998.Automatic link generation and repair me-chanism for document management. EnHICSS ’98: Proceedings of the Thirty-First Annual Hawaii International Confe-rence on System Sciences-Volume 2, pagi-na 226, Washington, DC, USA. IEEEComputer Society.

Lourdes Araujo, Juan Martinez-Romo

46

Page 47: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

A Semantic Relatedness Approach to Classifying Opinion from

Web Reviews

Un método de clasificación de opiniones de críticas extraídas de la Web

basado en la proximidad semántica

Alexandra Balahur

DLSI, University of Alicante

Ap. de Correos 99, 03080 Alicante

[email protected]

Andrés Montoyo

DLSI, University of Alicante

Ap. de Correos 99, 03080 Alicante

[email protected]

Resumen: Los últimos años han marcado el inicio y la rápida expansión de la web social, donde

cada persona puede expresar su libre opinión sobre diferentes "objetos", tales como productos,

personas, tópicos de política etc. en blogs, foros o portales Web de comercio electrónico. A su

vez, el rápido crecimiento del volumen de información en la web ha ido permitiendo a los

usuarios la toma de decisiones mejores y más informadas. A raíz de esta expansión ha surgido

la necesidad de desarrollar sistemas especializados de PLN que automáticamente escaneen la

web en busca de las opiniones expuestas (que recuperen, extraigan y clasifiquen las opiniones

existentes dada una consulta). La minería de opiniones (análisis de sentimientos) ha demostrado

ser un problema difícil debido a la gran variabilidad semántica del texto libre. En este artículo se

propone un método para extraer, clasificar y resumir opiniones sobre productos concretos

utilizando críticas realizadas en la Web. El método se basa en una taxonomía de características

de productos previamente construida, el cálculo de la proximidad semántica entre conceptos por

medio de la Distancia Normalizada de Google y el método de aprendizaje automático SVM.

Finalmente, demostramos que nuestro enfoque supera los resultados base de la tarea y ofrece

una alta precisión y una alta confianza en las clasificaciones obtenidas.

Palabras clave: Minería de opiniones, resúmenes automaticos, Distancia Normalizada de

Google, aprendizaje automatico SVM.

Abstract: Recent years have marked the beginning and rapid expansion of the social web,

where people can freely express their opinion on different “objects”, such as products, persons,

topics etc. on blogs, forums or e-commerce sites. While the rapid growth of the information

volume on the web allowed for better and more informed decisions from users, its expansion led

to the need to develop specialized NLP systems that automatically mine the web for opinions

(retrieve, extract and classify opinions of a query object). Opinion mining (sentiment analysis)

has been proven to be a difficult problem, due to the large semantic variability of free text. In

this article, we propose a method to extract, classify and summarize opinions on products from

web reviews, based on the prior building of product characteristics taxonomy and on the

semantic relatedness given by the Normalized Google Distance and SVM learning. We prove

that our approach outperforms the baselines and has a high precision and classification

confidence.

Keywords: Opinion mining, summarization, Normalized Google Distance, SVM machine

learning.

1 Introduction

Recent years have marked the strong influence

of the “participative, social web” on the lives of

both consumers and producer companies. This

phenomenon encouraged the development of

specialized sites – blogs, forums, as well as the

inclusion of a review component in the already

existing e-commerce sites, where people can

write and read opinions and comments on their

“objects” of interest – products, people, topics,

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 47-54 recibido 13-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 48: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

etc. Basically, one is able to obtain a high

volume of data representing opinion on

anything. However, a high volume of

information introduces a great back draw: the

time spent for reading all the data available and

the language barrier. The solution is obvious -

a system that automatically analyzes and

extracts the values of the features for a given

product, independent of the language the

customer review is written in. Such an NLP

system can then present the potential buyer with

percentages of positive and negative opinions

expressed about each of the product features

and possibly make suggestions based on buyer

preferences. What follows is a description of

such a system that presently works on Spanish

and English.

2 Motivation and Contribution

In the approach proposed, we concentrated on

two main problems that had not been addressed

so far by research in the field. The first one was

that of discovering the features that will be

quantified. As previously noticed in (Liu,

2007), features are implicit or explicit. To this

respect, apart from a general class of features

(and their corresponding attributes), that are

applicable to all products, we propose a method

to discover product specific features and feature

attributes using knowledge from WordNet and

ConceptNet. The second problem we addressed

was that of quantifying the features in a

product-dependent manner, since, for example,

small for the size of a digital camera is a

positive fact, whereas for an LCD display it is a

rather negative one. We accomplished this by

classifying the feature attributes using positive

and negative examples from a corpus of

customer opinions that was polarity annotated

depending on the product category and SMO

SVM machine learning (Platt, 1998) with the

Normalized Google Distance (Cilibrasi and

Vitanyi, 2006). We will illustrate the manner in

which we solved the above mentioned

problems with examples and discuss on the

issues raised at each step by using different

methods, tools and resources.

3 Related Work

Previous work in customer review classification

includes document level sentiment

classification using unsupervised methods

(Turney, 2002), machine learning techniques

(Pang, Lee and Vaithyanathan, 2002), scoring

of features (Dave, Lawrence and Pennock,

2003) , using PMI, syntactic relations and other

attributes with SVM (Mullen and Collier,

2004), sentiment classification considering

rating scales (Pang, Lee and Vaithyanathan,

2002), supervised and unsupervised methods

(Chaovalit and Zhou, 2005) and

semisupervised learning (Goldberg and Zhu,

2006). Research in classification at a document

level included sentiment classification of

reviews (Ng, Dasgupta and Arifin, 2006),

sentiment classification on customer feedback

data (Gamon et al., 2005), comparative

experiments (Cui, Mittal and Datar, 2006).

Other research has been conducted in analysing

sentiment at a sentence level using

bootstrapping techniques (Riloff and Wiebe,

2003), considering gradable adjectives

(Hatzivassiloglou and Wiebe, 2000),

semisupervised learning with the initial training

set identified by some strong patterns and then

applying NB or self-training (Wiebe and Riloff,

2005), finding strength of opinions (Wilson,

Wiebe and Hwa, 2004) sum up orientations of

opinion words in a sentence (or within some

word window) (Kim and Hovy, 2004), (Lin et

al., 2006), determining the semantic orientation

of words and phrases (Tuney and Littman,

2003), identifying opinion holders (Stoyanov

and Cardie, 2006), comparative sentence and

relation extraction and feature-based opinion

mining and summarization (Tuney, 2002). The

approach we use is grounded on the feature-

based opinion summarization paradigm, whose

theoretical background can be found in (Hu and

Liu, 2004) and (Liu, 2007). Relevant research

done in feature-based opinion summarization

can be found in (Turney, 2002) , (Pang, Lee and

Vaithyanathan, 2002), (Popescu and Etzioni,

2005), (Hu and Liu, 2004) and (Ding, Liu and

Yu, 2008). However, present research has not

included the discovery of implicit features and

furthermore, it has left the problem of explicit

features dependent on the mentioning of these

features in the individual user reviews or not.

The method we propose is language and

customer-review independent. It extracts a set

of general product features, finds product

specific features and feature attributes and is

thus applicable to all possible reviews in a

product class. We describe the steps performed

to obtain the features for each product class and

the manner in which input text is processed to

obtain the opinion expressed by customers.

Alexandra Balahur, Andrés Montoyo

48

Page 49: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

4 System Architecture

Our method consists of two distinct steps: pre-

processing and main processing, each

containing a series of sub modules and using

different language tools and resources.

4.1 Pre-processing

Figure 1: Pre-processing stage

As depicted in Figure 1, in our approach,

we start from the following scenario: a user

enters a query about a product that he/she is

interested to buy. The search engine will

retrieve a series of documents containing the

product name, in different languages. Further

on, two parallel operations are performed: the

first one uses language identifier software to

filter and obtain two categories - one containing

the reviews in English and the other the reviews

in Spanish. The second operation implies a

modified version of the system described in

(Kozareva and Montoyo, 2007) for the

classification of person names. We use this

system in order to determine the category the

product queried belongs to. Once the product

category is determined, we proceed to

extracting the product specific features and

feature attributes. This is accomplished using

WordNet and ConceptNet and the

corresponding mapping to Spanish using

EuroWordNet. Apart from the product specific

class of features and feature attributes, we

consider a core of features and feature attributes

that are product-independent and whose

importance determines their frequent

occurrence in customer reviews.

1) Product-independent features and

feature attributes:

There are a series of features that are

product independent and that are important to

any prospective buyer. We consider these as

forming a core of product features. For each of

these concepts, we retrieve from WordNet the

synonyms which have the same Relevant

Domain (Vázquez, Montoyo and Rigau, 2004),

the hyponyms of the concepts and their

synonyms and attributes, respectively.

2) Using WordNet to extract product

specific features and feature attributes: Once

the product category has been identified, we use

WordNet to extract the product specific features

and feature attributes. We accomplish this in the

following steps:

• For the term defining the product

category, we search its synonyms in

WordNet (Fellbaum, 1999)

• We eliminate the synonyms that do not

have the same top relevant domain as

the term defining the product category

• For the term defining the product, as

well as each

• for each of the remaining synonyms, we

obtain their meronyms from in

WordNet, which constitute the parts

forming the product.

• Since WordNet does not contain much

detail on the components of most of

new technological products, we use

ConceptNet (Liu and Singh, 2004) to

complete the process of determining the

specific product features. We explain

the manner in which we use

ConceptNet in the following section.

After performing the steps described

above, we conclude the process of obtaining the

possible terms that a customer buying a product

will comment on. The final step consists in

finding the attributes of the features discovered

by applying the “has attributes” relation in

WordNet to each of the nouns representing

product features. In the case of nouns which

have no term associated by the “has attribute”

relation, we add as attribute features the

concepts found in ConceptNet under the OUT

relations PropertyOf and CapableOf. In case

the concepts added are adjectives, we further

add their synonyms and antonyms from

WordNet.

3) Using ConceptNet to extract product

specific features and feature attributes:

In order to obtain additional features for

the product in question, we add the concepts

that are related to the term representing the

concept with terms related in ConceptNet by

the OUT relations UsedFor and CapableOf and

the IN relations PartOf and UsedFor.

A Semantic Relatedness Approach to Classifying Opinion from Web Reviews

49

Page 50: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

4) Mapping concepts using EuroWordNet:

We employ EuroWordNet and map the

features and feature attributes, both from the

main core of words, as well as the product

specific ones that were previously discovered

for English, independent of the sense number,

taking into account only the preservation of the

relevant domain. Certainly, we are aware of the

noise introduced by this mapping, however in

the preliminary research we found that the

concepts introduced that had no relation to the

product queried did not appear in the user

product reviews.

5) Discovering overlooked product

features: The majority of product features we

have identified so far are parts constituting

products. However, there remains a class of

undiscovered features that are indirectly related

to the product. These are the features of the

product constituting parts, such as battery life,

picture resolution, and auto mode. Further, we

propose to extract these overlooked product

features by determining bigrams made up of

target words constituting features and other

words in a corpus of customer reviews. In the

case of digital cameras, for example, we

considered a corpus of 200 customer reviews on

which we ran Pedersen’s Ngram Statistics

Package (Banerjee and Pedersen, 2003) to

determine target co-occurrences of the features

identified so far. As measure for term

association, we use the Pointwise Mutual

Information score. In this manner, we discover

bigram features such as “battery life”, “mode

settings” and “screen resolution”.

4.2 Main Processing

Figure 2: Main processing stage

The main processing in our system is done in

parallel for English and Spanish. In the next

section, we will briefly describe the steps

followed in processing the initial input

containing the customer reviews in the two

considered language and offer as output the

summarized opinions on the features

considered. We part from the reviews filtered

according to language. For each of the two

language considered, we used a specialized tool

for anaphora resolution - JavaRAP1 for English

and SUPAR (Ferrández, Palomar and Moreno,

1999) for Spanish. Further on, we separate the

text into sentences and use a Named Entity

Recognizer to spot names of products, brands

or shops. Using the lists of general features and

feature attributes, product-specific features and

feature attributes, we extract from the set of

sentences contained in the text only those

containing at least one of the terms found in the

lists.

1) Anaphora resolution: In order to solve

the anaphoric references on the product features

and feature attributes, we employ two anaphora

resolution tools - JavaRAP for English and

SUPAR for Spanish. Using these tools, we

replace the anaphoric references with their

corresponding referents and obtain a text in

which the terms constituting product features

could be found.

Using JavaRAP, we obtain a version of the

text in which pronouns and lexical references

are resolved. For example, the text: ‘‘I bought

this camera about a week ago,and so far have

found it very very simple to use, takes good

quality pics for what I use it for (outings with

friends/family, special events). It is great that it

already comes w/ a rechargeable battery that

seems to last quite a while...’’, by resolving the

anaphoric pronominal reference, becomes ‘‘I

bought this camera about a week ago, and so

far have found <this camera > very very simple

to use, takes good quality pics for what I use

<this camera > for (outings with friends/family,

special events). It is great that <this camera>

already comes w/ a rechargeable battery that

seems to last quite a while...’’.

SUPAR (Slot Unification Parser for

Anaphora Resolution). We use SUPAR in the

same manner as JavaRAP, to solve the

anaphora for Spanish.

1 http://www.comp.nus.edu.sg/~qiul/NLPTools/

JavaRAP.html

Alexandra Balahur, Andrés Montoyo

50

Page 51: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

2) Sentence chunking and NER: Further

on, we split the text of the customer review into

sentences and identify the named entities in the

text. Splitting the text into sentences prevents

us from processing sentences that have no

importance as far as product features that a

possible customer could be interested in are

concerned.

We use LingPipe to split the customer

reviews in English into sentences and identify

the named entities referring to products of the

same category as the product queried. In this

manner, we can be sure that we identify

sentences referring to the product queried, even

the reference is done by making use of the

name of another product. For example, in the

text “For a little less, I could have bought the

Nikon Coolpix, but it is worth the extra

money.”, anaphora resolution replaces <it>

with <Nikon Coolpix> and this step will

replace it with <camera>. We employ

FreeLing in order to split the customer reviews

in Spanish into sentences and identify the

named entities referring to products of the same

category as the product queried.

3) Sentence extraction: Having completed

the feature and feature attributes identification

phase, we proceed to extracting for further

processing only the sentences that contain the

terms referring to the product, product features

or feature attributes. In this manner, we avoid

further processing of text that is of no

importance to the task we wish to accomplish.

For example, sentences of the type “I work in

the home appliances sector.” will not be taken

into account in further processing. Certainly, at

the overall level of review impact, such a

sentence might be of great importance to a

reader, since it proves the expertise of the

opinion given in the review. However, for the

problems we wish to solve by using this

method, such a sentence is of no importance.

4) Sentence parsing: Each of the sentences

that are filtered by the previous step are parsed

in order to obtain the sentence structure and

component dependencies. In order to

accomplish this, we use Minipar (Lin, 1998) for

English and FreeLing for Spanish. This step is

necessary in order to be able to extract the

values of the features mentioned based on the

dependency between the attributes identified

and the feature they determine.

5) Feature value extraction: Further on, we

extract features and feature attributes from each

of the identified sentences, using the following

rules:

1) We introduce the following categories of

context polarity shifters, in which we split the

modifiers and modal operators in two

categories - positive and negative:

- negation: no, not, never etc.

- modifiers: positive (extremely, very,

totally etc.) and negative (hardly, less,

possibly etc.) - modal operators:

positive (must, has) and negative (if,

would, could etc.)

2) For each identified feature that is found

in a sentence, we search for a corresponding

feature attribute that determines it. Further on,

we search to see if the feature attribute is

determined by any of the defined modifiers. We

consider a variable we name valueOfModifier,

with a default value of -1, that will account for

the existence of a positive or negative modifier

of the feature attribute. In the affirmative case,

we assign a value of 1 if the modifier is positive

and a value of 0 if the modifier is negative. If

no modifier exists, we consider the default

value of the variable. We extract triplets as

(feature, attributeFeature, valueOf Modifier).

In order to accomplish this, we use the syntactic

dependency structure of the phrase, we

determine all attribute features that determine

the given feature (in the case of Minipar, they

are the ones connected by the “mod” and

“pred” relations).

3) If a feature attribute is found without

determining a feature, we consider it to

implicitly evoke the feature that it is associated

with in the feature collection previously built

for the product. “The camera is small and

sleek.” becomes (camera, small, -1) and

(camera, sleek, -1), which is then transformed

by assigning the value “small” to the “size”

feature and the value “sleek” to the “design”

feature.

5 Assigning polarity to feature

attributes

In order to assign polarity to each of the

identified feature attributes of a product, we

employ SMO SVM machine learning and the

Normalized Google Distance (NGD). The main

advantage in using this type of polarity

assignment is that NGD is language

independent and offers a measure of semantic

similarity taking into account the meaning

A Semantic Relatedness Approach to Classifying Opinion from Web Reviews

51

Page 52: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

given to words in all texts indexed by Google

from the World Wide Web.

The set of anchors contains the terms

{featureName, happy, unsatisfied, nice, small,

buy}, that have possible connection to all

possible classes of products and whose polarity

is known. Further on, we build the classes of

positive and negative examples for each of the

feature attributes considered. From the corpus

of annotated customer reviews, we consider all

positive and negative terms associated to the

considered attribute features. We then complete

the lists of positive and negative terms with

their WordNet synonyms. Since the number of

positive and negative examples must be equal,

we will consider from each of the categories a

number of elements equal to the size of the

smallest set among the two, with a size of at

least 10 and less or equal with 20. We give as

example the classification of the feature

attribute “tiny”, for the “size” feature. The set

of positive feature attributes considered

contains 15 terms such as (big, broad, bulky,

massive, voluminous, large-scale etc.) and the

set of negative feature attributes considered is

composed as opposed examples, such as (small,

petite, pocket-sized, little, etc.). We use the

anchor words to convert each of the 30 training

words to 6-dimensional training vectors defined

as v(j,i) = NGD(wi,aj), where aj with j ranging

from 1 to 6 are the anchors and wi, with i from

1 to 30 are the words from the positive and

negative categories. After obtaining the total

180 values for the vectors, we use SMO SVM

to learn to distinguish the product specific

nuances. For each of the new feature attributes

we wish to classify, we calculate a new value of

the vector vNew(j,word)=NGD(word, aj), with j

ranging from 1 to 6 and classify it using the

same anchors and trained SVM model. In the

example considered, we had the following

results (we specify between brackets the word

to which the scores refer to):

(small)1.52, 1.87, 0.82, 1.75, 1.92,1.93, positive

(little)1.44, 1.84, 0.80, 1.64, 2.11,1.85, positive

(big )2.27, 1.19, 0.86, 1.55, 1.16, 1.77, negative

(bulky) 1.33, 1.17 ,0.92,1.13,1.12,1.16, negative

The vector corresponding to the “tiny”

attribute feature is: (tiny) 1.51, 1.41, 0.82, 1.32, 1.60, 1.36.

This vector was classified by SVM as

positive, using the training set specified above.

The precision value in the classifications we

made was between 0.72 and 0.80, with a kappa

value above 0.45.

6 Summarization of feature polarity

For each of the features identified, we compute

its polarity depending on the polarity of the

feature attribute that it is determined by and the

polarity of the context modifier the feature

attribute is determined by, in case such a

modifier exists. Finally, we statistically

summarize the polarity of the feature attributes,

as shown in Formula (1) and Formula (2):

)tributes(ifeature_at#

es(i)e_attributpos_featur# =(i)posF (1)

)tributes(ifeature_at#

es(i)e_attributneg_featur# =(i)negF (2)

The results shown are triplets of the form

(feature, % Positive Opinions, % Negative

Opinions).

7 Evaluation and discussion

For the evaluation of the system, we annotated

a corpus of 50 customer reviews for each

language, collected from sites as amazon.com,

newegg.com, dealsdirect.com, ciao.es,

shopmania.es, testfreaks.es and

quesabesde.com. The corpus was annotated at

the level of feature attributes, by the following

scheme: <attribute> [name of attribute]

<feature> [feature it determines] </feature>

<value> [positive / negative] </value>

</attribute>.

It is difficult to evaluate the performance of

such a system, since we must take into

consideration both the accuracy in extracting

the features that reviews comment on, as well

as the correct assignation of identified feature

attributes to the positive or negative category.

Therefore, we measured the system

performance in terms of precision, recall and

accuracy. The results obtained are summarized

in Table 1. We show the scores for each of the

two languages considered separately and the

combined score when using both systems for

assigning polarity to feature attributes of a

product. In the last column, we present a

baseline, computed as average of using the

same formulas, but taking into consideration,

for each feature, only the feature attributes we

considered as training examples for our method.

We can notice how the use of NGD helped the

Alexandra Balahur, Andrés Montoyo

52

Page 53: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

system acquire significant new knowledge

about the polarity of feature attributes.

Eng Sp Combined Baseline

Eng

Baseline

Sp

SA 0.82 0.80 0.81 0.21 0.19

FIP 0.80 0.78 0.79 0.20 0.20

FIR 0.79 0.79 0.79 0.40 0.40

Table 1: System results

The problems encountered were largely

related to the use of informal language,

disregard of spelling rules and punctuation

marks.

8 Conclusions and future work

In this paper we presented a method to extract,

for a given product, the features that could be

commented upon in a customer review. Further,

we have shown a method to acquire the feature

attributes on which a customer can comment in

a review. Moreover, we presented a method to

extract and assign polarity to these product

features and statistically summarize the polarity

they are given in the review texts in English and

Spanish. The method for polarity assignment is

largely language independent (it only requires

the use of a small number of training examples)

and the entire system can be implemented in

any language for which similar resources and

tools as the ones used for the presented system

exist. The main advantage obtained by using

this method is that one is able to extract and

correctly classify the polarity of feature

attributes, in a product dependent manner.

Furthermore, the features in texts are that are

identified are correct and the percentage of

identification is high. Also, the polarity given in

the training set determines the polarity given to

new terms, such that “large” in the context of

“display” will be trained as positive and in the

case of “size” as negative. The main

disadvantage consists in the fact that SVM

learning and classification is dependent on the

NGD scores obtained with a set of anchors that

must previously be established. This remains a

rather subjective matter. The most important

problem we encountered is that concerning the

informal language style, which makes the

identification of words and dependencies in

phrases sometimes impossible.

Future work includes the development of a

method to extend the list of product-dependent

features and feature attributes, alternate

methodologies for polarity assignation to

product dependent feature attributes and finally,

the application of a textual entailment system to

verify the quality of the feature extracted and

the assigned polarity.

References

Banerjee, S., Pedersen,T.: The Design,

Implementation and Use of the Ngram

Statistics Package. In Proceedings of the

Fourth International Conference on

Intelligent Text Processing and

Computational Linguistics, February 17-21,

2003, Mexico City. (2003)

Chaovalit, P., Zhou, L.: Movie Review Mining:

a Comparison between Supervised and

Unsupervised Classification Approaches. In

Proceedings of HICSS-05, the 38th Hawaii

International Conference on System

Sciences. (2005)

Cilibrasi, D., Vitanyi, P.: Automatic Meaning

Discovery Using Google. IEEE Journal of

Transactions on Knowledge and Data

Engineering. (2006)

Cui, H., Mittal, V., Datar, M.: Comparative

Experiments on Sentiment Classification for

Online Product Reviews. In Proceedings of

the 21st National Conference on Artificial

Intelligence AAAI 2006. (2006)

Dave, K., Lawrence, S., Pennock, D.: Mining

the Peanut Gallery: Opinion Extraction and

Semantic Classification of Product Reviews.

In Proceedings of WWW-03. (2003)

Ding, X., Liu, B., Yu, P.,: A Holistic Lexicon -

Based Approach to Opinion Mining. In

Proceedings of WSDM, 2008. (2008)

Fellbaum(ed.), C.: WordNet: An Electronic

Lexical Database. First edn. MIT Press.

(1999)

Ferrández, A., Palomar, M., Moreno, L.: An

Empirical Approach to Spanish Anaphora

Resolution. Machine Translation. Special

Issue on Anaphora Resolution In Machine

Translation. Special Issue on Anaphora

Resolution In Machine Translation. (1999)

Gamon, M., Aue, S., Corston-Oliver, S.,

Ringger, E.: Mining Customer Opinions

A Semantic Relatedness Approach to Classifying Opinion from Web Reviews

53

Page 54: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

from Free Text. Lecture Notes in Computer

Science. (2005)

Goldberg, A.B., Zhu, J.: Seeing stars when

there aren’t many stars: Graph-based semi-

supervised learning for sentiment

categorization. In HLT-NAACL 2006

Workshop on Textgraphs: Graph-based

Algorithms for Natural Language

Processing. (2006)

Hatzivassiloglou, V., Wiebe, J.: Effects of

adjective orientation and gradability on

sentence subjectivity. In Proceedings of

COLING 2000. (2000)

Hu, M., Liu, B.: Mining Opinion Features in

Customer Reviews. In Proceedings of

Nineteenth National Conference on

Artificial Intelligence AAAI-2004. (2004)

Kim, S.M., Hovy, E.: Determining the

Sentiment of Opinions. In Proceedings of

COLING 2004. (2004)

Kozareva, Z., Montoyo, A.: Discovering the

Underlying Meanings and Categories of a

Name through Domain and Semantic

Information. In: Proceedings of the

Conference on Recent Advances in Natural

Language Processing RANLP 2007. (2007)

Lin, D.: Dependency-based Evaluation of

MINIPAR. In Workshop on the Evaluation

of Parsing Systems. (1998)

Lin, W.H., Wilson, T., Wiebe, J., Hauptman,

A.: Which Side are You On? Identifying

Perspectives at the Document and Sentence

Levels. In Proceedings of the Tenth

Conference on Natural Language Learning

CoNLL’06. (2006)

Liu, B.: Web Data Mining. Exploring

Hyperlinks, Contents and Usage Data. First

edn. Springer (2007)

Liu, H., Singh, P.: ConceptNet: A Practical

Commonsense Reasoning Toolkit. BT

Technology Journal 22. (2004)

Mullen, T., Collier, N.: Sentiment Analysis

Using Support Vector Machines with

Diverse Information Sources. In Proceedings

of EMNLP 2004. (2004)

Ng, V., Dasgupta, S., Arifin, S.M.N.:

Examining the Role of Linguistic

Knowledge Sources in the Automatic

Identification and Classification of Reviews.

In Proceedings 40th Annual Meeting of the

Association for Computational Linguistics.

(2006)

Pang, B., Lee, L., Vaithyanathan, S.: Thumbs

up? Sentiment classification using machine

learning techniques. In Proceedings of

EMNLP-02, the Conference on Empirical

Methods in Natural Language Processing.

(2002)

Platt, J.: Sequential minimal optimization: A

fast algorithm for training support vector

machines. Microsoft Research Technical

Report MSRTR- 98-14. (1998)

Popescu, A.M., Etzioni, O.: Extracting Product

Features and Opinions from Reviews. In

Proceedings of EMNLP 2005. (2005)

Riloff, E., Wiebe, J.: Learning Extraction

Patterns for Subjective Expressions. In

Proceedings of the 2003 Conference on

Empirical Methods in Natural Language

Processing. (2003)

Stoyanov, V., Cardie, C.: Toward Opinion

Summarization: Linking the Sources. In:

COLING-ACL 2006 Workshop on

Sentiment and Subjectivity in Text. (2006)

Turney, P., Littman, M.: Measuring praise and

criticism: Inference of semantic orientation

from association. ACM Transactions on

Information Systems 21. (2003)

Turney, P.: Thumbs up or thumbs down?

Semantic orientation applied to

unsupervised classification of reviews. In

Proceedings of the 40th Annual Meeting of

the Association for Computational

Linguistics. (2002)

Vázquez, S., Montoyo, A., Rigau, G.: Using

relevant domains resource for word sense

disambiguation. In Proceedings of the ICAI

2004. (2004)

Wiebe, J., Riloff, E.: Creating Subjective and

Objective Sentence Classifiers from

Unannotated Texts. In Proceedings of the

6th International Conference on

Computational Linguistics and Intelligent

Text Processing (CICLing-05). (2005)

Wilson, T., Wiebe, J., Hwa, R.: Just how mad

are you? Finding strong and weak opinion

clauses. In: Proceedings of AAAI 2004.

(2004)

Alexandra Balahur, Andrés Montoyo

54

Page 55: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico1

1 Este trabajo ha sido financiado por el Ministerio de Ciencia e Innovación a través de los proyectos CICYT TIN2007-67843-C06-03 y TIN2005-08998-C02-02.

Setting a baseline for an automatic extractive concepts-based summarization on the biomedical domain

Manuel de la Villa y Manuel J. Maña Departamento Tecnologías de la Información

Universidad de Huelva. Campus de La Rábida. Edif. Torreumbría,

21618, Palos de la Frontera, Huelva, España {manuel.villa, manuel.mana}@dti.uhu.es

Resumen: Los métodos de generación de resúmenes basados en técnicas extractivas han demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier tipo de dominios. En el ámbito biomédico son numerosos los estudios que hablan de la sobrecarga de información y recogen la necesidad de aplicación de técnicas eficientes de recuperación y generación de resúmenes para una correcta aplicación de la medicina basada en la evidencia. En este contexto vamos a presentar una propuesta de metodología de generación automática de resúmenes basada en conocimiento estructurado y grafos. A partir de una representación del documento original en un grafo, aplicando técnicas de similitud entre frases y sus conceptos biomédicos, se obtienen las frases más relevantes para formar el resumen final. Palabras clave: resumen automático, método extractivo, conceptos biomédicos, UMLS

Abstract: The methods for automatic summarization generation based in extractive techniques have widely shown its utility for his adaptability and efficiency in the manner of response time at any kind of application domain. In Biomedical domain are numerous the research results about the overload information and the need of application of efficient recovery and summarization methods for the proper use of evidence based medicine. In this context we are going to present a proposal of methodology for automatic summarization based on structured knowledge and graph's use. From a representation of the source document in form of a graph, applying similarity methods between phrases and their containing biomedical concepts, we obtain the most salient phrases to fill in the final summary. Keywords: automatic summarization, extractive method, biomedical concept, UMLS

1 Introducción La generación de resúmenes de texto es un proceso de reducción de la información, que permite a un usuario tomar idea o conocer el contenido de un texto completo, sin tener que leer todas sus frases. Esta reducción de la cantidad de información a leer produce una mayor rapidez en la búsqueda de información

relevante y una mayor asimilación de conceptos con menor esfuerzo. Numerosos artículos certifican la sobrecarga de información tan común hoy día en nuestra sociedad, y en especial en el ámbito biomédico, donde la información está disponible desde una variedad de fuentes, incluyendo artículos científicos, bases de datos de resúmenes, bases de datos estructuradas o semiestructuradas, servicios web, webs de documentos o historia

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 55-62 recibido 13-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 56: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

clínica de pacientes (Afantenos, Karkaletsis y Stamatopoulos, 2005).

Si a ello unimos el hecho de que gran parte de los resultados de la investigación biomédica se encuentran en forma de literatura escrita en formato libre (no estructurados, formato inadecuado para la búsqueda compleja) que se acumulan en grandes bases de datos en línea, podemos concluir que el proceso de reducción de los resúmenes automáticos es especialmente útil en el ámbito biomédico. Por otro lado, el rápido crecimiento de los resultados de la investigación del dominio biomédico está produciendo un importante cuello de botella. MEDLINE (Medical Literature Analysis and Retrieval System Online), la principal base de datos bibliográfica de EE.UU (de la National Library of Medicine), contiene más de 16 millones de referencias a artículos de revistas, centrados principalmente en biomedicina. Entre 2000 y 4000 referencias completas se añaden cada día, más de 670000 fueron añadidas en 20072. La práctica de la medicina basada en la evidencia ha sido tradicionalmente definida como la combinación de los mejores resultados de la investigación médica con el juicio clínico, experto y experimentado (Sackett et Al., 1996). La capacidad de buscar en la literatura médica en un tiempo eficiente representa una parte importante de una práctica basada en la evidencia. Un reciente trabajo cualitativo concluyó que dos de los seis obstáculos para responder a cuestiones clínicas aplicando la evidencia eran el tiempo requerido para encontrar información y la dificultad para seleccionar una estrategia óptima de búsqueda (Ely y Osheroff, 2002). Es por todo esto que herramientas de búsqueda como PubMed3, BioMed Central4 o UpToDate5 se han convertido en más y más importantes, para encontrar formas adecuadas de localizar la mejor evidencia de manera eficaz. En este dominio, los profesionales en general necesitan herramientas orientadas a proporcionar medios para acceder y visualizar la información adecuada para sus necesidades.

2 http://www.nlm.nih.gov/pubs/ factsheets/medline.html 3 http://www.nlm.nih.gov/pubs/factsheets/pubmed.html 4 http://www.biomedcentral.com/info/ 5 http://www.uptodate.com/home/about/index.html

En este trabajo presentamos un modelo de generación de resúmenes de carácter extractivo apoyado en conceptos del dominio biomédico. El artículo se estructura de la siguiente manera: en primer lugar se describe el proceso de tratamiento extractivo del lenguaje natural mediante el uso de grafos, para posteriormente comentar algunos trabajos específicos del dominio. Presentamos UMLS y el conjunto de herramientas de procesamiento de lenguaje natural orientadas al ámbito biomédico que incorpora. En la sección cinco presentamos el modelo de generación de resúmenes en que estamos trabajando, dividido en cuatro fases: la generación del grafo léxico, la aplicación de un algoritmo de similitud conceptual, la aplicación de un algoritmo de ranking y finalmente, la creación del resumen. Finalmente enumeramos los muchos temas abiertos que quedan en este trabajo inicial y los posibles futuros trabajos.

2 Trabajos relacionados en el ámbito extractivo

Para generar resúmenes automáticos de texto existen dos enfoques: extractivo y abstractivo. El enfoque extractivo selecciona y extrae frases o partes de ella del texto original. La mayor ventaja que tiene este enfoque es que resulta muy robusto y fácilmente aplicable a contextos de propósito general, ya que, su independencia del dominio, e incluso del género de los documentos, es muy alta. El enfoque abstractivo suele englobar técnicas de procesamiento del lenguaje natural, más complejo pues necesita un conocimiento léxico, gramatical y sintáctico del dominio, para modelar semánticamente el conocimiento y a partir de éste ser capaz de generar un resumen.

Típicamente, el proceso de resumen extractivo consiste en identificar las sentencias de un texto de origen que sean relevantes para el usuario a la vez que se reduce la redundancia de la información. Las sentencias son puntuadas basándose en una serie de características y las n sentencias de mayor puntuación son extraídas y presentadas al usuario en su orden de aparición en el texto original.

Para trabajar con las frases y su puntuación, un mecanismo de representación comúnmente usado han sido los modelos de puntuación o ranking basados en grafos. Los algoritmos de

Manuel de la Villa, Manuel J. Maña

56

Page 57: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

ranking basados en grafos son un modo de decidir sobre la importancia de un vértice dentro del grafo, teniendo en cuenta información referencial global del grafo, obtenida recursivamente mejor que localmente desde el vértice.

La aplicación de éste modo de trabajo a

grafos léxicos o semánticos extraídos de documentos de lenguaje natural ha sido llevada a cabo (Skorochod'ko, 1972) (Salton et al., 1997) y se ha mostrado eficaz en tareas de procesamiento del lenguaje como la extracción automática de palabras clave, generación de resúmenes extractiva o desambiguación del sentido de las palabras (Mihalcea y Tarau, 2006).

Otros trabajos relevantes en el ámbito que destacaremos son (Radev y McKeown, 1998) donde se presenta un sistema que genera un resumen a partir de un conjunto de artículos periodísticos sobre el mismo acontecimiento. Para cada frase se determina su estructura a alto nivel y las palabras que van a representar cada papel semántico y, finalmente, se construye su árbol sintáctico. El sistema SUMMARIST (Hovy y Lin, 1999) se utiliza un recurso léxico, WordNet para identificar conceptos genéricos y definir una jerarquía. El proceso de generalización se realiza mediante la propagación de pesos de los conceptos, basados en frecuencias de aparición, a través de la jerarquía de WordNet.

3 Trabajos relacionados en el ámbito biomédico.

En el ámbito biomédico destacaremos los métodos de generación de resúmenes extractivos como BioChain, (basado en cadenas de conceptos o relaciones semánticas entre conceptos vecinos en texto), FreqDist (centrado en el uso de las distribuciones de frecuencia, construyendo un resumen con similar distribución que el original) y Chainfreq (híbrido de los dos anteriores), que usan conceptos específicos del dominio biomédico para identificar las sentencias destacables del texto completo (Reeve, Han y Brooks, 2007). Sin embargo, la posterior evaluación de los métodos no logra mejorar los resultados de los enfoques basados en términos.

Los trabajos específicos de un ámbito pueden usar conceptos en vez de términos, para lo que necesitan herramientas que den soporte a la identificación de los conceptos en una estructura de conocimiento del dominio y capaces de determinar relaciones semánticas entre estos conceptos.

3.1 Conocimiento del dominio:

UMLS Para el procesado semántico, consistente en el análisis e identificación de los conceptos y relaciones subyacentes en un texto, se requiere para que el texto pueda ser mapeado a una estructura de conocimiento, como la que en el ámbito biomédico proporciona el proyecto Unified Medical Language System (UMLS) (Humphreys et al., 1998). El objetivo de este proyecto es el desarrollo de herramientas que ayuden a investigadores en la representación del conocimiento, recuperación e integración de información biomédica.

UMLS consiste en tres componentes, el

SPECIALIST Lexicon, el Metathesaurus y la UMLS Semantic Network (Rindflesh, Fiszman y Libbus, 2005).

El SPECIALIST Lexicon describe las

características sintácticas de terminos en inglés de carácter biomédico y general, proporcionando la base para el PLN en el dominio biomédico. Así, p.ej., la entrada 'Anaesthetic' produciría las siguientes respuestas:

{base=anesthetic ■ spelling_variant=anaesthetic ■ entry=E0330018 ■ cat=noun ■ variants=reg ■ variants=uncount }

{base=anesthetic ■ spelling_variant=anaesthetic ■ entry=E0330019 ■ cat=adj ■ variants=inv ■ position=attrib(3) ■ position=pred stative },

que vendría a indicarnos que el término puede aparecer como sustantivo o adjetivo, en un caso con un plural regular, incontable, en el otro indica que es invariante, que puede aparecer en el predicado y que es un adj. atributivo.

Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico

57

Page 58: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

El Metathesaurus es una recopilación de

más de 100 vocabularios y terminologías médicas, entre los que se incluyen desde MeSH o SNOMED hasta subdominios más especializados (odontología o enfermería,...) asociando cada término a más de un millón de conceptos semánticos que a su vez se engloban en 135 tipos semánticos relevantes en el ámbito biomédico (y siempre, al menos en uno). Así, p.ej., la entrada 'Arthritis, Juvenile Rheumatoid”produciría la siguiente información jerárquica: Immunologic Diseases Autoimmune Diseases Arthritis, Rheumatoid Arthritis, Juvenile Rheumatoid

La UMLS Semantic Network constituye una ontología del más alto nivel de la Medicina, compuesta por 135 tipos semánticos asignados a conceptos del Metathesaurus y por 54 tipos de relaciones entre los tipos. Estas relaciones son a menudo llamadas predicados o proposiciones y están constituidas por argumentos (conceptos) y predicados (relaciones). Algunos ejemplos podrían ser: -‘Therapeutic or Preventive Procedure’ TREATS ‘Injury or Poisoning’ -‘Organism Attribute’ PROPERTY_OF ‘Mammal’ -‘Bacterium’ CAUSES ‘Pathologic Function'.

SemRep es una herramienta de procesado

semántico que integra los tres anteriores componentes de UMLS para analizar de manera automática textos con lenguaje médico identificando los conceptos y relaciones que representan el contenido del documento. SemRep devuelve una lista de relaciones a partir de un conjunto de documentos obtenidos por una búsqueda de un término especificado.

Usaremos el Metathesaurus y la herramienta Metamap Transfer (MMTx) para la identificación de los conceptos biomédicos de cada frase, base para el cálculo del solape entre frases. En cuanto a SemRep, añadiremos esta lista de relaciones al grafo dirigido para posteriores trabajos. En castellano han existido esfuerzos para la elaboración de un metathesauro, como WordMed (Arranz et al., 2000). Destacaremos el trabajo de (Carrero, Cortizo y Gómez, 2008)

que combina técnicas de traducción automática con ontologías biomédicas y MMTx para producir una versión española de MMTx.

4 Propuesta de generación del resumen

Los métodos de generación de resúmenes basados en técnicas extractivas han demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier tipo de dominios. Por contra, los métodos abstractivos, por la necesidad de recursos léxicos, sintácticos y semánticos han proporcionado unos mejores resultados en cuanto a comprensibilidad a costa de un mayor esfuerzo computacional y por tanto, de tiempos de respuesta, aparte de la especificidad del ámbito de uso de la herramienta. Como vimos en el punto dos, existen trabajos previos para el dominio específico biomédico de carácter extractivo que hacen uso de recursos léxicos y semánticos, pero que no obtienen unos mejores resultados trabajando con conceptos que con términos. Nuestro objetivo es intentar mejorar la capacidad y rapidez de los métodos extractivos con la efectividad y concreción de los métodos abstractivos. Para ello vamos a presentar una primera propuesta de una metodología de generación automática de resúmenes basada en conocimiento estructurado y grafos de ranking. Nuestra propuesta, basada en (Mihalcea y Tarau, 2006) es eminentemente extractiva, de modo que el proceso podría resumirse en identificar las sentencias en el texto de origen, seleccionar aquellas que sean relevantes para el usuario a la vez que disminuimos la redundancia de la información. Para ello asignamos una puntuación a cada frase de acuerdo a un conjunto de características. Las n-primeras frases en cuanto a puntuación se extraen y se presentan al usuario en su orden de aparición en el texto original.

4.1 Fase 1. Generación del grafo. Independientemente del tamaño del texto, sea un texto completo o un abstract, la primera tarea debe consistir en la identificación de cada una de las sentencias del texto de origen, así como en la creación de un grafo que incluya un vértice en el grafo por cada sentencia. De manera simultánea, se identifican con la ayuda

Manuel de la Villa, Manuel J. Maña

58

Page 59: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

de Metamap Transfer (integrada en SemRep, ver Figura 1), los conceptos biomédicos incluidos en la frase y se incluyen en el nodo, así como las relaciones semánticas. Para el trabajo con grafos en el prototipo que se ha elaborado se ha usado la librería JUNG (O’Madadhain et al., 2004).

4.2 Fase 2. Aplicación de algoritmo

de similitud. Para la extracción de sentencias en resúmenes, un concepto importante es la 'similitud' o grado de solapamiento entre sentencias, cuánto del contenido de una sentencia se encuentra incluido en otra. Es como si consideráramos el solape como una “recomendación” de una frase de dirigirse a otras que tratan y abundan los mismos conceptos. Una función de similitud, que tome en cuenta el grado de repetición de tokens entre sentencias de manera normalizada proporcionará una medida de este concepto. En particular, este concepto también nos proporcionará información de lo cohesionado o no del grupo de documentos devueltos en la consulta y de la posible necesidad de un tratamiento previo de clustering. Aplicamos una versión modificada (con conceptos en vez de términos) de la formula de similitud de (Milhacea y Tarau, 2006):

( ) { }( )( )( ) ( )( )ji

jkikkjic V+V

VCVC|C=V,VSimilitud

loglog∈∧∈

La Figura 2 muestra la matriz de adyacencia que almacena los pesos de las aristas entre nodos, así de cada nodo en una fila a un nodo de una columna (grafo dirigido) se muestra en la tabla el valor de similitud.

4.3 Fase 3. Aplicación de algoritmo de ranking

Los algoritmos de ranking basados en grafos, a partir de la asignación arbitraria de valores a cada nodo, realizan cálculos para obtener la puntuación S(Vi) de cada nodo de manera iterativa, hasta que se produce convergencia bajo un determinado umbral. Las referencias entre nodos y/o conceptos son tratadas como 'votos' para decidir el elemento más importante. La puntuación de cada vértice se obtiene aplicando PageRank (Brin y Page, 1998):

En la Figura 3 se observa el prototipo de la aplicación con el grafo resultante, donde se pueden observar los nodos etiquetados con los pesos obtenidos y los valores asociados a las aristas recalculados. Tras la ejecución del algoritmo, los nodos se ordenan atendiendo al peso o puntuación asociada, que define la notoriedad (saliency) de cada vértice en un grafo dirigido y ponderado.

Figura 2: Prototipo de la aplicación tras aplicar algoritmo de solape

Figura 1 Ejemplo de tratamiento realizado por SemRep sobre una sentencia de un texto

biomédico

SE|00000000||tx|1|text|In order to substantiate further the relationship between these oral disorders and psoriasis, we compared 200 patients with psoriasis to a matched control group. SE|00000000||tx|1|entity|C1517331|Further|spco|||further||||888|26|32 SE|00000000||tx|1|entity|C0439849|Relationships|qlco|||relationship||||888|38|49 SE|00000000||tx|1|entity|C0026636|Mouth Diseases|dsyn|||oral disorders||||983|65|78 SE|00000000||tx|1|entity|C0033860|Psoriasis|dsyn|||psoriasis||||1000|84|92 SE|00000000||tx|1|entity|C0030705|Patients|podg|||patients||||861|111|118 SE|00000000||tx|1|entity|C0033860|Psoriasis|dsyn|||psoriasis||||1000|125|133 SE|00000000||tx|1|entity|C0243148|control|ftcn|||control||||901|148|154 SE|00000000||tx|1|entity|C0024908|Matched Groups|grup|||matched control group||||901|140|160 SE|00000000||tx|1|relation|2|1|C0033860|Psoriasis|dsyn|dsyn|||psoriasis||||1000|125|133|PREP|PROCESS_OF||120|123|5|1|C0030705|Patients|humn|humn|||patients||||861|111|118

( ) ( )

( )( )( )j

injV

jutkVjk

jii VWS

VIVOW

Wd+d=VWS ∑ ∑∈

∗−1

Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico

59

Page 60: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

4.4 Fase 4. Creación del resumen Los nodos de mayor puntuación definirán

las frases a incluir en el resumen. El número de frases puede ser fijo o basado en umbral o porcentaje. En nuestro prototipo es el usuario el que decide el porcentaje de frases.

Para facilitar la legibilidad del resumen, la

secuencialidad de presentación de las frases seleccionadas se hace atendiendo a su ordenamiento original.

5 Conclusión y temas abiertos Se ha presentado una propuesta de generación automática de resúmenes de carácter extractivo, que usa una representación en grafo donde los nodos son frases y las aristas un valor numérico que mide el ‘grado de recomendación’ o similitud entre frases. El algoritmo de ranking producirá como resultado un peso en los nodos, que representa la importancia global de la frase dentro del documento, que ordenaremos de mayor a menor. Seleccionaremos las primeras en un número determinado por el porcentaje de compresión indicado a la herramienta. La novedad de la metodología se encuentra en el uso del metathesauro UMLS para identificar conceptos UMLS y que la similitud entre frases se calcule a partir del número de conceptos UMLS que compartan las frases. Entendemos que la herramienta aúna las bondades de técnicas extractivas con el conocimiento del dominio que aportan los recursos UMLS y que

debe reflejarse en un buen resultado en una futura evaluación de método. Es evidente que la propuesta es un punto de partida que acabará como un hito en un proyecto más ambicioso y a más largo plazo. Hablemos de cuáles serán los siguientes pasos a realizar:

Elaboración u obtención de un corpus evaluable. En este momento nos encontramos en la búsqueda de un corpus que podamos reutilizar para nuestros fines. De no tener un resultado positivo, optaríamos por elaborar nuestro propio corpus de documentos, a partir de BioMed Central, una editorial independiente dedicada a la publicación de artículos de investigación en Biología y Medicina que se caracteriza por mantener una política de acceso abierto a través de Internet, agrupando a más de 180 revistas y más de 23000 artículos de investigación del ámbito biomédico. Esto nos permitiría trabajar con un amplio conjunto de documentos completos en vez de abstracts.

Evaluación. Cualquier trabajo

mínimamente metódico requiere de una comparación de su eficiencia frente a otras propuestas de prestigio y frente a un baseline que proporcione métricas sobre los porcentajes de mejora por aplicación de tal o cual modificación. Nos proponemos evaluar nuestro modelo usando uno de estas herramientas:

-ROUGE (Recall-Oriented Understudy for Gisting Evaluation) (Lin y Hovy, 2003) es una herramienta automatizada que compara un sumario generado por un sistema automático con uno o más resúmenes ideales, llamados modelos. Usa N-gramas para determinar el solape entre el resumen generado y los modelos. -Basic Elements (Hovy et al., 2006) es un marco de trabajo en el que las medidas de evaluación de los resúmenes pueden instanciarse y compararse dentro de un método de evaluación que se basa en el trabajo con unidades de contenido muy pequeñas, llamados 'basic elements' que corrigen algunos de los defectos de los n-gramas.

Figura 3: Gráfico del Grafo con pesos generado por algoritmo de ranking

Manuel de la Villa, Manuel J. Maña

60

Page 61: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Parece lógico que la segunda herramienta,

basada en la comparación de pequeñas unidades de contenido en vez de n-gramas, favorecerá a una herramienta basada en conceptos en vez de en cadenas. Sin embargo, actualmente BE no se encuentra soportado.

• Nos planteamos la evolución y mejora de

esta propuesta analizando y haciendo uso de las relaciones semánticas obtenidas mediante SemRep. Nuestra idea es incluirlas dentro del grafo, de modo que dos conceptos unidos mediante una relación generarán una arista dirigida entre los nodos que incluyan a cada uno de esos conceptos. El peso de cada arista vendrá definido por el tipo de relación semántica (una relación 'cause' o 'threats' será más relevante que otra 'is-a').

Bibliografía Afantenos, S. D., V. Karkaletsis y P.

Stamatopoulos. 2005. Summarization from Medical Documents: A Survey en Artificial Intelligence in Medicine, 33(2):157-177.

Arranz V., X. Carreras, M. A. Martí, J. Turmo, J. Vilalta. 2000. WORDMED: Un recurso conceptual terminológico para el desarrollo de aplicaciones de PLN en el dominio médico. VII Simpósio Ibero-Americano de Terminologia: Terminologia e Indústrias da Língua, Lisboa, (Portugal), noviembre de 2000.

Brin, S. y L. Page. 1998. The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems, 30 (1-7). 1998.

Ely, J.W., J.A. Osheroff, M.H. Ebell, M.L. Chambliss, D.C. Vinson, J.J. Stevermer y E.A. Pifer. 2002. Obstacles to answering doctors' questions about patient care with evidence: qualitative study. British Medical Journal, 324: 710.

Carrero F.M., J.C. Cortizo y J.M. Gómez. 2008. Building a Spanish MMTx by Using Automatic Translation and Biomedical Ontologies. IDEAL 2008: 346-353

Hovy, E. y C.Y. Lin. 1999. Automated Text Summarization in SUMMARIST. En I. Mani y M. T. Maybury, eds., Advances in

Automatic Text Summarization, pags. 81-94. The MIT Press. 1999.

Hovy, E., C. Y. Lin, L. Zhou, J. Fukumoto. 2006. Automated Summarization Evaluation with Basic Elements. En Proceedings of the Fifth Conference on Language Resources and Evaluation (LREC 2006), Genova, Italia.

Humphreys, B.L., D.A. Lindberg, H.M. Schoolman y G.O. Barnett. 1998. The Unified Medical Language System: An Informatics Research Collaboration. Journal of the American Medical Informatics Association, 5(1), 1-11. 1998.

Lin, C. Y. y E. Hovy. 2003. Automatic evaluation of summaries using N-gram co-ocurrence statistics. En Proceedings of 2003 language technology conference (HLT-NAACL 2003) (Vol. 1(1), pag. 71-78). Edmonton, Canada.

Mihalcea R. y P. Tarau. 2006. TextRank: Bringing Order into Texts. En Proceedings of Empirical Methods in Natural Language Processing. ACL, 404-411, 2006.

O’Madadhain, J., S. White, D. Fisher y Y. B. Boey. 2004. JUNG–Java Universal Network/graph Framework. Available for download at http://jung.sourceforge.net/.

Radev, D. R. y K. R. McKeown. 1998. Generating Natural Language Summaries from Multiple On-Line Sources. Computational Linguistics, 4:469-500.

Reeve, L.H., H. Han, A.D. Brooks. 2007. The use of domain-specific concepts in biomedical text summarization. Information Processing and Management 43, 1765-1776. 2007.

Rindflesh, T.C., M. Fiszman, B. Libbus. 2005. Semantic interpretation for the biomedical research literature. Capítulo 14 del libro Medical Informatics. Knowledge Management and Data Mining in Biomedicine (Springer's Integrated Series in Information Systems), editores Chen, H., Fuller, S.S., Friedman C., Hersh, W.

Sackett D.L., W.M.C. Rosenberg, J.A.M. Gray, R.B. Haynes y W.S. Richardson. 1996. Evidence-based medicine: what it is and what it isn’ t. British Medical Journal, 312: 71-72.

Salton, G., A. Singhal, M. Mitra, and C. Buckley. 1997. Automatic text structuring and summarization. Information Processing and Management 33 (3), 193-207.

Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico

61

Page 62: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Skorochod'ko, E. F. 1972. Adaptive method of automatic abstracting and indexing. En C. Freiman, ed., Information Processing 71: Proceedings of the IFIP Congress 71, págs.1179-1182. North-Holland Publishing Company, Amsterdam.

Manuel de la Villa, Manuel J. Maña

62

Page 63: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Comparativa de Aproximaciones a SVM SemisupervisadoMulticlase para Clasificacion de Paginas Web

A Comparison of Approaches to Semi-supervised Multiclass SVM for WebPage Classification

Arkaitz Zubiaga, Vıctor Fresno, Raquel MartınezDepartamento de Lenguajes y Sistemas Informaticos

Universidad Nacional de Educacion a DistanciaC/Juan del Rosal, 16, E-28040 Madrid{azubiaga, vfresno, raquel}@lsi.uned.es

Resumen: En este artıculo se realiza un estudio de diferentes aproximaciones ala clasificacion semisupervisada multiclase de paginas web mediante SVM. Ante lanaturaleza binaria y supervisada de los algoritmos SVM clasicos, y tratando deevitar problemas de optimizacion complejos, se propone un enfoque basado en lacombinacion de clasificadores, tanto binarios semisupervisados como clasificadoresmulticlase supervisados. Los resultados de los experimentos realizados sobre trescolecciones de referencia muestran un rendimiento notablemente superior para lacombinacion de clasificadores multiclase supervisados. Por otro lado, en este trabajotambien se realiza un estudio sobre la aportacion de los documentos no etiquetadosen la fase de aprendizaje para este tipo de entornos. En nuestro caso, y a diferenciade los problemas binarios, se obtiene una mayor efectividad cuando se ignora estetipo de datos para problemas multiclase.Palabras clave: SVM, multiclase, semisupervisado, clasificacion de paginas web

Abstract: In this paper we present a study on semi-supervised multiclass web pageclassification using SVM. Due to the binary and supervised nature of the classicalSVM algorithms, and trying to avoid complex optimization problems, we proposean approach based on the combination of classifiers, not only binary semi-supervisedclassifiers but also multiclass supervised ones. The results of our experiments overthree benchmark datasets show noticeably higher performance for the combinationof multiclass supervised classifiers. On the other hand, we analyze the contributionof unlabeled documents during the learning process for these environments. In ourcase, and unlike for binary tasks, we get higher effectiveness for multiclass taskswhen no unlabeled documents are taken into account.Keywords: SVM, multiclass, semi-supervised, web page classification

1. Introduccion

El numero de documentos web esta cre-ciendo muy rapidamente en los ultimos anos,lo que hace que su organizacion resulte cadavez mas costosa y complicada. Es por ello quela clasificacion de paginas web se ha conver-tido en una tarea cada vez mas necesaria ycrıtica.

La clasificacion de paginas web puede de-finirse como la tarea de organizar una seriede documentos web etiquetandolos con susun conjunto de categorıas prefijadas. Aun-que se han realizado multiples estudios paraclasificacion de textos, sobre todo en la ra-

ma de noticias, su aplicacion sobre paginasweb esta aun por profundizar (Qi y Davison,2007). En este trabajo se pone el foco en laclasificacion de paginas web enmarcada den-tro del paradigma del aprendizaje automatico(Mitchell, 1997).

Los problemas de clasificacion se puedendividir en diferentes tipos. Por una parte, laclasificacion puede ser binaria, donde unica-mente existen dos categorıas posibles para ca-da documento, o puede ser multiclase, dondese dispone de tres o mas categorıas; y porotra, el sistema de aprendizaje con el que sealimenta el clasificador puede ser supervisa-

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 63-70 recibido 13-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 64: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

do, donde todos los documentos de entrena-miento estan previamente etiquetados, o se-misupervisado, donde se aprende con una co-leccion de entrenamiento compuesta por al-gunos documentos etiquetados y muchos noetiquetados.

En los ultimos anos, se han aplicado dife-rentes tipos de algoritmos al problema de laclasificacion de textos (Sebastiani, 2002). Pa-ra esta tarea, las maquinas de vectores de so-porte (SVM, Support Vector Machines (Joa-chims, 1998)) se han perfilado como una bue-na alternativa, que ofrecen, entre otras, lassiguientes ventajas:

No se requiere una seleccion o reduccionde terminos. En caso de que una clase sedistribuya en areas separadas del espa-cio vectorial, sera la transformacion delespacio mediante la funcion de kernel laque se ocupe de solucionarlo.

No es necesario realizar un esfuerzo deajuste de parametros en el caso de pro-blemas linealmente separables, ya quedispone de su propio metodo para ello.

Su transformacion a aprendizaje semisu-pervisado se convierte, generalmente, enun comportamiento transductivo, lo queposibilita el maximo refinamiento en ladefinicion del clasificador.

Teniendo en cuenta que la clasificacion depaginas web es, generalmente, un problemamulticlase, y que el numero de documentosetiquetados del que se dispone, comparadocon las dimensiones de la Web, es muy reduci-do, el problema se convierte de forma naturalen un problema multiclase y semisupervisa-do. Por ello, y debido a su naturaleza binariay supervisada, es necesaria una adaptacionde la tecnica SVM clasica. Existen diversosestudios referentes tanto a SVM multiclasecomo a SVM semisupervisado, pero apenasse ha investigado en la union de ambos ca-sos. Frente a una aproximacion directa, ba-sada en un problema de optimizacion com-plejo, este artıculo propone y evalua diferen-tes aproximaciones para la implementacionde un metodo de SVM multiclase y semisu-pervisado, basandose en la combinacion declasificadores.

En la seccion 2 se explican los avances ob-tenidos en los ultimos anos en la clasificacionmediante SVM, tanto para aprendizaje semi-supervisado como para taxonomıas multicla-

se. En la seccion 3, se presentan las alter-nativas propuestas en este trabajo para cla-sificacion semisupervisada multiclase. En laseccion 4, se muestran los detalles de la expe-rimentacion realizada, para seguir en la sec-cion 5 con el analisis de los resultados. En laseccion 6, para finalizar, se exponen las con-clusiones extraıdas tras el proceso.

2. Clasificacion con SVM

En la ultima decada, SVM se ha converti-do en una de las tecnicas mas utilizadas paratareas de clasificacion, debido a los buenosresultados que se han obtenido. Esta tecnicase basa en la representacion de los documen-tos en un modelo de espacio vectorial, dondese asume que los documentos de cada clasese agrupan en regiones separables del espaciode representacion. En base a ello, trata debuscar un hiperplano que separe cada clase,maximizando la distancia entre los documen-tos y el propio hiperplano, lo que se denomi-na margen (ver Figura 1). Este hiperplano sedefine mediante la siguiente funcion:

f(x) = w · x + b

Figura 1: Ejemplo de maximizacion del mar-gen con SVM, donde la lınea mas gruesa serıala escogida por el sistema.

La optimizacion de esta funcion supondrıatener en cuenta todos los valores posibles pa-ra w y b, para despues quedarse con aquellosque maximicen los margenes. Esto resultamuy difıcil de optimizar, por lo que en lapractica se utiliza la siguiente funcion de op-timizacion equivalente (ver Figura 2):

mın12||w||2 + C

l∑

i=1

ξdi

Sujeto a: yi(w · xi + b) ≥ 1− ξi, ξi ≥ 0

Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez

64

Page 65: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

donde C es el parametro de penalizaciony ξi es la distancia entre el hiperplano y eldocumento i.

Figura 2: Representacion grafica de la funcionde clasificacion de SVM.

De esta manera unicamente se resuelvenproblemas linealmente separables, por lo queen muchos casos se requiere de la utilizacionde una funcion de kernel para la redimensiondel espacio. Ası, el nuevo espacio obtenido re-sultara linealmente separable. Posteriormen-te, la redimension se deshace, de modo que elhiperplano encontrado sera transformado alespacio original, constituyendo la funcion declasificacion.

Es importante destacar que esta funcionunicamente puede resolver problemas bina-rios y de forma supervisada.

2.1. SVM multiclase

Debido a la naturaleza dicotomica deSVM, surgio la necesidad de implementarnuevos metodos que pudieran resolver pro-blemas multiclase, en los que la taxonomıaesta compuesta por mas de dos clases. Co-mo aproximacion directa, (Weston y Wat-kins, 1999) proponen una modificacion de lafuncion de optimizacion que tiene en cuentatodas las clases, generalizando la funcion deoptimizacion binaria para el numero deseadok de clases:

mın12

k∑

m=1

||wm||2 + Cl∑

i=1

m6=yi

ξmi

Sujeto a:

wyi · xi + byi ≥ wm · xi + bm + 2− ξmi , ξm

i ≥ 0

Otras tecnicas para la aproximacion aSVM multiclase de k clases se han basadoen la combinacion de clasificadores binarios(Hsu y Lin, 2002). Estas tecnicas descompo-nen el problema multiclase en pequenos pro-blemas binarios, aplicando despues diferentesfunciones de decision para unirlos. Las tecni-cas mas conocidas para clasificacion median-te combinacion de problemas binarios son lassiguientes:

one-against-all descompone un proble-ma multiclase con k clases en otros tan-tos problemas binarios, en los cuales ca-da una de clases se enfrenta al resto. Ası,se construyen k clasificadores que defi-nen otros tantos hiperplanos que sepa-ran la clase i de los k-1 restantes. Comofuncion de decision, a cada nuevo docu-mento se le asigna aquella clase sobre laque su clasificador maximice el margen:

Ci = arg maxi=1,...,k

(wix + bi)

one-against-one descompone el proble-ma de k clases en k(k−1)

2 problemas bi-narios, donde se crean todos los posiblesenfrentamientos uno a uno entre clases.Ası, se obtiene un hiperplano para cadauno de estos problemas binarios. Poste-riormente, se somete cada nuevo docu-mento a todos estos clasificadores, y seanade un voto a la clase ganadora pa-ra cada caso, resultando como clase pro-puesta la que mas votos suma.

2.2. Aprendizaje semisupervisadopara SVM (S3VM)

Las tecnicas de aprendizaje semisupervi-sado se diferencian en que, ademas de los do-cumentos previamente etiquetados, se utili-zan documentos no etiquetados para la fasede entrenamiento (Joachims, 1999) (ver Figu-ra 3). Ası, las predicciones del propio sistemasobre los documentos no etiquetados sirven,a su vez, para seguir alimentando el sistemade aprendizaje.

Las SVM semisupervisadas se conocentambien por sus iniciales S3VM. En el ca-so de SVM, su adaptacion al aprendizaje se-misupervisado supone a priori un gran coste

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

65

Page 66: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

computacional, ya que la funcion resultanteno es convexa, por lo que es mucho mas com-plicada la optimizacion en busca del mınimo.Para relajar el calculo de esta funcion se sue-len utilizar tecnicas de optimizacion conve-xa (Xu et al., 2007), donde la obtencion delmınimo para la funcion resultante es muchomas sencilla. No obstante, casi todo el tra-bajo existente en la literatura relativa a esteaspecto ha sido para clasificaciones binarias,por lo que no se ha profundizado en el estudiosobre su aplicacion a entornos multiclase.

Figura 3: SVM vs S3VM, donde los documen-tos etiquetados estan representados por +/-y los no etiquetados por puntos.

2.3. S3VM multiclase

En los problemas donde la taxonomıa dis-pone de mas de dos categorıas y el numerode documentos previamente etiquetados esmuy pequeno, se precisa la combinacion delas dos caracterısticas anteriormente expues-tas, lo que supone un metodo de S3VM mul-ticlase. Los problemas reales de clasificacionde paginas web suelen cumplir con estas ca-racterısticas, ya que el numero de categorıassuele ser mayor que dos, y la pequena colec-cion de documentos etiquetados de la que sedispone normalmente implica la necesidad deutilizar documentos no clasificados en la fasede entrenamiento.

Actualmente, son pocos los trabajos quese han centrado en la transformacion de SVMa semisupervisado y multiclase. Como apro-ximacion directa, se encuentra la propuestade (Yajima y Kuo, 2006), con una tecnicaque traslada la funcion multiclase directa alentorno semisupervisado. La funcion de opti-mizacion resultante es la siguiente:

mın12

h∑

i=1

βiT K−1βi

+Cl∑

j=1

i6=yj

max{0, 1− (βyj

j − βij)}2

donde β representa el producto entre unvector de variables y una matriz de kerneldefinidas por el autor.

Esta funcion de optimizacion, sin embar-go, puede resultar muy costosa, debido a lacantidad de variables que se deben tener encuenta en el proceso de minimizacion de lamisma, lo que hace interesante el problemade encontrar otros enfoques a S3VM multi-clase.

Por otro lado, algunos trabajos han em-pleado otros enfoques para la consecucionde una tecnica S3VM multiclase. (Qi et al.,2004) utilizan Fuzzy C-Means (FCM) parapredecir la clase a la que pertenecen los do-cumentos no etiquetados, tras lo cual utilizanSVM supervisado para aprender con la nue-va coleccion ampliada, y clasifican el resto dedocumentos. (Xu y Schuurmans, 2005) uti-lizan una aproximacion basada en clusteringpara la prediccion de documentos no etique-tados, para posteriormente entrenar un clasi-ficador SVM. (Chapelle et al., 2006), por ulti-mo, presentan un metodo S3VM multiclasebasado en Continuation Method, y trasladanlas tecnicas basadas en combinacion de bi-narios, one-against-all y one-against-one, alentorno semisupervisado. Aplican estas tecni-cas sobre colecciones de noticias, para las queobtienen unos resultados muy bajos. No obs-tante, estas tecnicas nunca han sido traslada-das a la clasificacion de paginas web.

3. Alternativas propuestas paraS3VM multiclase

Ante la carencia de estudios comparati-vos sobre metodos de S3VM multiclase, nues-tro objetivo es el de proponer y comparardiversas tecnicas aplicables a este entorno,basandose en tecnicas ya utilizadas para pro-blemas supervisados multiclase y semisuper-visados binarios.

En cuanto a la utilizacion de documentosno etiquetados en fase de aprendizaje paraSVM, (Joachims, 1998) presenta un estudioen el que se muestra una gran mejora cuandoestos son considerados para problemas bina-rios. No obstante, no se ha evaluado su apor-

Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez

66

Page 67: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

tacion en problemas multiclase, cuando laspredicciones sobre un numero mayor de clasespueden aumentar el error de forma considera-ble, perjudicando ası a la fase de aprendizaje.

Realizamos dos tipos de propuestas alter-nativas a la aproximacion directa para S3VMmulticlase. Por una parte, proponemos la uti-lizacion de tecnicas ya empleadas en entornossupervisados, aunque sin un profundo anali-sis, y basados en la combinacion de clasifica-dores binarios semisupervisados:

one-against-all-S3VM y one-against-one-S3VM son propuestas basadas enla combinacion de clasificadores binariossemisupervisados, vistos en la seccion2.1, que aunque se han utilizado en co-lecciones supervisadas, apenas han sidoaplicadas y estudiadas sobre coleccionescon documentos no etiquetados. Cabedestacar que el enfoque one-against-one-S3VM plantea un problema intrınseco deruido en la fase de entrenamiento conlos documentos no etiquetados, ya quecada clasificador para un par de cate-gorıas unicamente debe ser alimentadopor documentos que le correspondan, yel problema radica en la imposibilidadde excluir aquellos ejemplos no etiqueta-dos que no deberıan incluirse (Chapelleet al., 2006).

Por otra parte, introducimos dos nuevastecnicas para el desarrollo de un sistema declasificacion semisupervisado multiclase ba-sado en SVM:

2-steps-SVM : Hemos denominado ası ala tecnica que se basa en la aproxima-cion supervisada multiclase explicada enla seccion 2.1. Este metodo trabaja, enel primer paso, sobre la coleccion de en-trenamiento, aprendiendo con los docu-mentos etiquetados y prediciendo los noetiquetados; a posteriori, se etiquetan es-tos ultimos segun las predicciones obte-nidas. Como segundo paso, se realiza laclasificacion habitual para este metodo,ya que ahora la coleccion se ha conver-tido en supervisada, con todos los ejem-plos de entrenamiento etiquetados.

all-against-all-S3VM : Ademas de las an-teriores, en este trabajo se presenta unanueva propuesta de combinacion de cla-sificadores binarios, que hemos denomi-nado all-against-all-S3VM, y que podrıa

ser utilizada tanto para aprendizaje su-pervisado como para semisupervisado.En ella se definen 2n−1 − 1 clasificado-res, correspondientes a todos los enfren-tamientos posibles entre las clases, te-niendo en cuenta que todas las clases de-ben caer en uno u otro lado de la clasi-ficacion. Por ejemplo, para un problemade cuatro clases, se generaran los clasifi-cadores 1 vs 2-3-4, 1-2 vs 3-4, 1-2-3 vs 4,1-3 vs 2-4, 1-4 vs 2-3, 1-2-4 vs 3 y 1-3-4 vs 2. Cada nuevo documento recibidoen la fase de clasificacion se sometera acada uno de los clasificadores generados,sumando, como voto, el valor del mar-gen obtenido en cada caso para las cla-ses en el lado positivo. Una vez realizadoesto, se procede a la fase de prediccion,en la que se asignara la clase para la quemayor votacion ha obtenido cada docu-mento. Aunque esta aproximacion pue-de ser muy costosa para grandes taxo-nomıas, ya que el numero de clasificado-res aumentarıa de forma exponencial, sepodrıa esperar un buen rendimiento pa-ra un numero reducido de clases.

4. Diseno de la experimentacion

Para la realizacion de la experimentacionse ha procedido a la implementacion de losalgoritmos descritos en el apartado anterior,y su ejecucion sobre las colecciones de datosescogidas. Todos los documentos de las co-lecciones utilizadas estan etiquetados, por loque cada una de ellas se ha dividido en:

una coleccion de entrenamiento, que sir-ve para que el clasificador aprenda, en elque no se consideraran las categorıas dealgunos documentos, para ası tener unacoleccion semisupervisada,

y otra de test, que sirva para que el siste-ma cree las predicciones y se pueda eva-luar su rendimiento.

A continuacion se explican con mas deta-lle las caracterısticas de la experimentacionllevada a cabo.

4.1. Colecciones de datos

Para esta experimentacion se han utiliza-do colecciones de paginas web de referencia,que ya han sido utilizadas anteriormente paraproblemas de clasificacion automatica:

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

67

Page 68: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

BankSearch (Sinka y Corne, 2002), com-puesta por 10.000 paginas web sobre 10clases, de muy diversos temas: bancoscomerciales, construccion, agencias ase-guradoras, java, C, visual basic, astro-nomıa, biologıa, futbol y motociclismo.4.000 ejemplos han sido asignados a lacoleccion de entrenamiento, y los 6.000restantes a la de test.

WebKB 1, formada por 4.518 documen-tos extraıdos de 4 sitios universitariosy clasificados sobre 7 clases (estudiante,facultad, personal, departamento, curso,proyecto y miscelanea). La clase misce-lanea se ha eliminado de la coleccion de-bido a la ambiguedad, resultando 6 cate-gorıas. De todos los ejemplos que compo-nen la coleccion, 2.000 se han asignadoal entrenamiento y 2.518 al de test.

Yahoo! Science (Tan et al., 2002), quetiene 788 documentos cientıficos, clasi-ficados sobre 6 ambitos diferentes de laciencia (agricultura, biologıa, ciencias te-rrestres, matematicas, quımica y otros).Se han definido 200 documentos para elentrenamiento, y 588 para el test.

Desde la coleccion de entrenamiento, paracada caso, se han creado diferentes versiones,entre las que varıa el numero de documen-tos etiquetados, dejando el resto como no eti-quetados, pudiendo probar ası las diferentesaproximaciones semisupervisadas.

Para la representacion vectorial de losdocumentos que componen cada coleccion,se han utilizado los valores tf-idf de losuniterminos encontrados en los textos, exclu-yendo los de mayor y menor frecuencia. Losuniterminos resultantes han sido los que handefinido las dimensiones del espacio vectorial.

4.2. Implementacion de losmetodos

Para la implementacion de los diferentesmetodos de clasificacion descritos en la sec-cion 3, se requiere un clasificador semisuper-visado binario y otro supervisado multiclase,para despues combinarlos. Para el primer ca-so, se ha escogido SVMlight2, y para el segun-do, su derivado SVMmulticlass. Basandose enambos algoritmos, se han implementado los

1http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/

2http://svmlight.joachims.org

correspondientes metodos para el comporta-miento 2-steps-SVM supervisado y las tecni-cas one-against-all-S3VM, one-against-one-S3VM y all-against-all-S3VM semisupervisa-das.

Finalmente, ademas de los algoritmos co-mentados, se ha simplificado el algoritmo 2-steps-SVM a un solo paso, 1-step-SVM, don-de utilizando unicamente un clasificador su-pervisado multiclase se entrena con los ejem-plos etiquetados y se predicen los ejemplos detest, ignorando por tanto los ejemplos no eti-quetados. Este metodo sirve para evaluar laaportacion de los documentos no etiquetadosen el aprendizaje.

4.3. Medidas de evaluacion

La medida de evaluacion escogida para elrendimiento de los algoritmos propuestos hasido el ”accuracy”, ya que es la que suele uti-lizarse en el area de la clasificacion de textos,sobre todo cuando el problema a tratar esmulticlase. El ”accuracy” mide el porcenta-je de predicciones correctas sobre el total dedocumentos testeados.

Se han considerado de la misma maneralos aciertos sobre cualquiera de las clases, sinque ninguna de ellas tenga una mayor impor-tancia respecto a las demas, por lo que noexiste ponderacion alguna en la evaluacion.

5. Analisis de los resultados

En las figuras 4, 5 y 6 se muestran los re-sultados obtenidos durante la experimenta-cion con las colecciones BankSearch, WebKBy Yahoo! Science, respectivamente. Estos re-sultados se presentan en forma de grafica, enfuncion del tamano de la muestra etiquetada.Para cada una de las muestras se realizaron 9ejecuciones. El valor que se representa en lasgraficas es la media de todas las ejecucionesrealizadas.

Los resultados obtenidos pueden resumir-se en los siguientes puntos:

En todos los casos el mejor comporta-miento se obtiene para uno de los algorit-mos basados en clasificadores multicla-se supervisados, bien sea el 1-step-SVMo el 2-steps-SVM ; incluso en los casoscon menos documentos etiquetados, es-tos metodos destacan sobre los basadosen clasificadores semisupervisados bina-rios.

Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez

68

Page 69: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Figura 4: Resultados para BankSearch.

Figura 5: Resultados para WebKB.

De las tres tecnicas semisupervisa-das comparadas, destaca la propues-ta all-against-all-S3VM para las colec-ciones BankSearch y WebKB, ligera-mente superior al de one-against-all-S3VM, y muy superior al de one-against-one-S3VM. Unicamente one-against-all-S3VM, en el caso de la coleccion Yahoo!Search, es algo superior a all-against-all-S3VM.

La tecnica one-against-one-S3VM de-muestra que el ruido que se habıa pre-visto existe, y que, por ello, la calidadde los resultados obtenidos es baja.

El metodo 1-step-SVM, que ignora losdocumentos no etiquetados para la fasede aprendizaje, muestra unos resultadossimilares a los de 2-steps-SVM para las

Figura 6: Resultados para Yahoo! Science.

colecciones BankSearch y Yahoo! Scien-ce, pero notablemente superiores paraWebKB, donde las clases son mas homo-geneas. En este caso es donde mejor re-sulta ignorar los documentos no etique-tados, mediante el metodo 1-step-SVM,un metodo mas sencillo y menos costosocomputacionalmente que 2-steps-SVM.

Para todas las colecciones, segun se au-menta el numero de documentos etique-tados, se mantiene el ranking obtenidopor los algoritmos.

6. Conclusiones

En este trabajo se ha realizado un estudiocomparativo de clasificacion multiclase semi-supervisada de paginas web mediante SVM.Se han introducido dos nuevas tecnicas paraS3VM multiclase, que hemos llamado 2-steps-SVM y all-against-all-S3VM. El primero, 2-steps-SVM, ha obtenido los mejores resulta-dos en dos de las tres colecciones. Ademas,se han aplicado las tecnicas one-against-all-S3VM y one-against-one-S3VM sobre clasifi-cacion semisupervisada, con unos resultadosconsiderables para la primera, pero inferiorespara la segunda.

Entre los algoritmos que combinan cla-sificadores binarios, all-against-all-S3VM hademostrado la mayor efectividad, aunque elgran numero de clasificadores a considerarhace que su coste computacional aumente,por lo que su mejora en cuanto a eficienciaresultarıa un interesante avance.

A su vez, al igual que (Chapelle et al.,2006) muestran en sus resultados sobre colec-

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

69

Page 70: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

ciones de noticias, los resultados sobre pagi-nas web son tambien bajos, por lo que se con-firma la baja efectividad de one-against-all-S3VM y one-against-one-S3VM para proble-mas semisupervisados multiclase.

Por otro lado, se ha estudiado la influen-cia de la no inclusion de documentos no eti-quetados en la fase de aprendizaje, aplicadamediante la tecnica 1-step-SVM, y se ha mos-trado que en algunas ocasiones puede influirde forma positiva. Ignorar los documentos noetiquetados para aprender ha resultado mejorcuando las clases son mas homogeneas. Paralas colecciones mas heterogeneas, por otro la-do, se han obtenido unos resultados parejostanto considerando como ignorando los docu-mentos no etiquetados. Estos resultados ha-cen pensar que para un problema multiclasey semisupervisado puede ser mas interesan-te no utilizar datos no etiquetados, ya quelos resultados son similares y el coste compu-tacional es menor.

Por ultimo, los resultados obtenidos en es-te trabajo complementan el estudio presenta-do por (Joachims, 1999), donde se muestra lasuperioridad de S3VM respecto a SVM paraproblemas binarios. En el caso de un proble-ma multiclase y semisupervisado de paginasweb, la inclusion de documentos no etique-tados para problemas multiclase basados enSVM no resulta interesante para las coleccio-nes testeadas, ya que una tecnica supervisadaobtiene, como mınimo, la misma efectividadpara este tipo de entornos.

Como trabajo futuro, quedan por compa-rar los resultados respecto al algoritmo semi-supervisado multiclase nativo.

Bibliografıa

O. Chapelle, M. Chi y A. Zien 2006. AContinuation Method for Semi-supervisedSVMs. Proceedings of ICML’06, the23rd International Conference on Machi-ne Learning.

C.-H. Hsu y C.-J. Lin. 2002. A Comparisonof Methods for Multiclass Support VectorMachines. IEEE Transactions on NeuralNetworks.

T. Joachims. 1998. Text Categorization withSupport Vector Machines: Learning withmany Relevant Features. Proceedings ofECML98, 10th European Conference onMachine Learning.

T. Joachims. 1999. Transductive Inferencefor Text Classification Using Support Vec-tor Machines. Proceedings of ICML99,16th International Conference on Machi-ne Learning.

T. Mitchell. 1997. Machine Learning. Mc-Graw Hill.

H.-N. Qi, J.-G. Yang, Y.-W. Zhong y C. Deng2004. Multi-class SVM Based RemoteSensing Image Classification and its Semi-supervised Improvement Scheme. Procee-dings of the 3rd ICMLC.

X. Qi y B.D. Davison. 2007. Web Page Clas-sification: Features and Algorithms. Infor-me Tecnico LU-CSE-07-010.

F. Sebastiani. 2002. Machine Learningin Automated Text Categorization ACMComputing Surveys, pp. 1-47.

M.P. Sinka y D.W. Corne. 2002. A New Ben-chmark Dataset for Web Document Clus-tering. Soft Computing Systems.

C.M. Tan, Y.F. Wang y C.D. Lee. 2002. TheUse of Bigrams to Enhance Text Catego-rization. Information Processing and Ma-nagement.

J. Weston y C. Watkins. 1999. Multi-classSupport Vector Machines. Proceedings ofESAAN, the European Symposium on Ar-tificial Neural Networks.

L. Xu y D. Schuurmans. 2005. Unsu-pervised and Semi-supervised MulticlassSupport Vector Machines Proceedings ofAAAI’05, the 20th National Conferenceon Artificial Intelligence.

Z. Xu, R. Jin, J. Zhu, I. King y M. R.Lyu. 2007. Efficient Convex Optimizationfor Transductive Support Vector Machine.Advances in Neural Information Proces-sing Systems.

Y. Yajima y T.-F. Kuo. 2006. Opti-mization Approaches for Semi-SupervisedMulticlass Classification. Proceedings ofICDMW’06, the 6th International Confe-rence on Data Mining.

Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez

70

Page 71: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Using a Generative Lexicon Resource to Compute BridgingAnaphora in Italian.∗

Utilizacion de un recurso de lexico generativo para calcular Anaforaasociativas en Italiano.

Tommaso CaselliILC- CNR and Dip. Linguistica “T.Bolelli”, Universita degli Studi di Pisa

Via Moruzzi, 1 56124 Pisa, [email protected]

Resumen: Este artıculo presenta un trabajo preliminar sobre el uso de un recursolexico basado en la teorıa del lexico generativo para resolver las anaforas asociativasen italiano. Los resultados obtenidos, a pesar de no ser demasiado satisfactorios,parecen respaldar el uso de un recurso de este tipo respecto a los recursos de tipoWordNet debido al mayor numero de anaforas asociativas que puede tratar.Palabras clave: lexico generativo, resoluccion de anafora, bridging, anaforas aso-ciativas

Abstract: This article reports on a preliminary work on the use of a GenerativeLexicon based lexical resource to resolve bridging anaphors in Italian. The resultsobtained, though not very satisfying, seem to support the use of such a resource withrespect to WordNet-like ones due to the wider range of bridging anaphors which canbe treated.Keywords: generative lexicon, anaphora resolution, bridging

1 Introduction

Anaphora resolution is essential to capturethe knowledge encoded in text. Bridginganaphora are a very challenging phenomenonbecause they are a “type of indirect tex-tual reference whereby a new referent is in-troduced as an anaphoric not of but viathe referent of an antecedent expression”(Kleiber, 1999, 339), as in the following ex-ample (bridging NPs are in bold):

(1) Maria ha comprato una macchinanuova, ma il motore si e rotto dopodue giorni.

Maria bought a new car, but theengine broke down two days later.

Bridging anaphors are constrained to a setof semantic and pragmatic conditions. Theaim of this paper is to present a preliminarystudy on the use of a Generative Lexiconbased lexical resource (SIMPLE) as a sourceof these constraints to automatically resolvethis kind of anaphoric definites. In orderto develop the system, we have preliminary

∗ A preliminary version of this work has been pre-sented at the CBA Workshop at the Universitat deBarcelona, Barcelona, 13-15 November 2008. The au-thor wants to thank the organizers and participantsfor the useful comments and discussion.

conducted a corpus study on the identifica-tion and classification of bridging anaphors inItalian. The corpus study has been groundedon a set of theoretical statements describingthe phenomenon of bridging, providing em-pirical evidences of their validity and also fur-ther information on their organization.

The paper is organized as follows: in sec-tion 2, we will present the semantic and prag-matic contraints underlying the phenomenonof bridging anaphora. The corpus study andits results are illustrated in section 3. Wewill then describe how the lexical resource isstructured and what levels of semantic infor-mation encoded in it are the most relevantto accomplish the task of resolving bridginganaphors in section 4. Finally in section 5, wewill describe the results obtained from the useof SIMPLE and compare its perfomance withthat of a WordNet-based resource, namelyItalWordNet, and present our concluding re-marks and observations in section 6.

2 Theoretical background

A trend in linguistic theories, which hascounterparts in computational frameworks,tends to emphasize the idea that Full Defi-nite Noun Phrases (FDNPs henceforth) area matter of the global discourse focus, i.e.

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 71-78 recibido 14-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 72: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

they are used to retrieve a referent which isno longer accessible or to construct a concep-tual representation which uniquely identifiesa referent. On the contrary, empirical studiesprovided evidence in favor of Sidner (1979)’shypothesis that bridging FDNPs are differentfrom other occurrences of anaphoric FDNPs,since, in the process of identification of theirantecedents, they are more sensitive to thelocal focus. In addition to this, bridging FD-NPs trigger an inferential presupposition ofthe kind:

the[N1]R[N2] (1)

where N1 represents the FDNP, i.e. thebridging anaphor, R is the inferential relationor bridge the interpreter has to perform in or-der to interpret correctly its occurrence1, andN2 is the antecedent or anchor. Applying theformula in 1 to the example in 1 we obtainthe following paraphrasis “the [engine]N1 isa part ofR [a car]N2” which justifies the oc-currence of the FDNP.

Kleiber (1999) identifies some semantic re-strictions on what kinds of FDNPs can entera bridging relation. Drawing on the notion offunctional nouns2, he identifies two very gen-eral, language-independent factors which areat work in the mechanism of the bridging re-lation between the referents involved: a con-dition of alienation and the principle of on-tological congruence. A bridging descriptioncan be conceived of as a Functional Conceptof type 2 (FC2), with an implicit argument.This type of semantic definite NP introducesthe referent by means of the sole sortal pred-icate N, without semantic subordination toanother individual. In other words, the headnoun looks as semantically autonomous oralienated.

Next to these semantic restrictions, a cou-ple of pragmatic constraints can be identified.We propose to use the following pragmatic re-strictions on inferencing: an Effort Conditionand a Plausibility Condition as suggested byKrahmer and Piwek (2000). The two con-straints can be represented by the followingmaxims:

1The R relation can be thought as deriving fromChierchia (1995)’s compositional semantics of FD-NPs, according to which “the + N” denotes a nounN which is related in an anaphorically undeterminedway B to an antecedent u.

2By functional nouns we intend NPs denoting anon-ambiguous interpretation, or a functional con-cept (FC), as proposed by Lobner (1985).

• use your informational resources as littleas possible (Effort Condition);

• make as few assumptions as possible(Plausibility Condition).

The Effort Condition has to do with the men-tal capacity the interpreter needs to resort toin order to construct a “bridge”. In partic-ular, it states that the less time consuminginference to retrieve the right anchor shouldbe preferred over the others. The PlausibilityCondition, on the other hand, has to do withthe admissibility of the constructed bridges.It is a simple consistency condition, with rel-evance as a side effect. The Plausibility Con-dition plays a major role in selecting the mostplausible reading among those which passedthe Effort Condition, helping us to determinethe bridge and avoid ambiguity. Obviously,if the Effort Condition selects only one read-ing, this is considered the most plausible bydefinition.

The inference the hearer has to perform inorder to bridge the gap from what s/he knowsto the intended antecedent, bears on the pos-sible relation(s) between the referent of theantecedent and the referent of the anaphor.The existence of such a relation is necessaryfor the speaker to create the bridge and forthe hearer to resolve it. Most classificationsof bridging anaphoras are all based on thisidea (Hawkins, 1978) (Sidner, 1979). Therelations that link the anaphor to the an-tecedent can be of various types, but theycan be reduced to three pragma-cognitive di-mensions: a lexical semantic dimension, a co-textual, or textual, dimension and a contex-tual, or extralinguistic, dimension.

These elements represent the theoreticalbackground which we have used both inthe corpus-study and in the development ofthe automatic procedure to resolve bridginganaphors. In particular, the identification ofthe R relation between the bridging definiteand its anchor has been used to identify thevarious classes of bridging anaphors, and theEffort and Plausibility conditions have beenexploited to restrict the type and number ofNPs which could be identified as anchors.

3 Bridging Anaphora in Italian:a corpus study

In order to verify the realizations of bridg-ing anaphors in Italian, we have conducteda corpus study on 17 randomly chosen arti-

Tommaso Caselli

72

Page 73: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

cles from the Italian financial newspaper “ilSole-24 Ore”, a workpackage of the SI-TALProject, the syntactic-semantic Treebank ofItalian (Montemagni et al., 2003).

The texts considered contain a total num-ber of 1412 full definite noun phrases (FD-NPs) of the form “definite article + (posses-sive) + N”, which represent 31.54% of all theoccurrences of FDNPs in the corpus. Eachnewspaper article was first read entirely, andonly after it was divided into segments of fivesentence windows which is an arbitrary strat-egy to give an account of the local focus ofthe text i.e. the most probable place to lookfor anchors for bridging FDNPs.

In the classification exercise we have usedan operational device such as processing re-quirements3 since when a FDNP is encoun-tered in a discourse can be reduced to one ofthese four cases:

• it is used to pick up an entity mentionedbefore in the text, which, in our exper-iment, could be either directly or indi-rectly realized;

• it is not mentioned before, but its inter-pretation depends on , is based on, oris related in some way to an entity al-ready present in the discourse (directlyor indirectly realized);

• it is not mentioned before and is not re-lated to any previous mentioned entity,but it refers to something which is partof the common shared knowledge of thewriter and reader;

• it is self-explanatory or it is given to-gether with its own identification.

These four types of FDNPs use reflect theclasses of Direct Anaphora, Bridging andFirst Mention, respectively. The same op-erational device i.e. processing requirements,was used for the analysis and classification ofbridging anaphors.The classification task has led to the iden-tification of 6 main classes of FDNPs (Table1)4. One of the main interesting results deriv-ing from the classification in 1 is representedby the class of Bridging which represents the63.88% (299/469) of all anaphoric FDNPs,

3See alsoVieira and Poesio (2000).4For detailed figures and comments on the corpus

study readers are referred to Caselli (2007).

FDNPs Classes FiguresFirst Mention 833 (58.61%)Possessives 36 (2.54%)Direct Anaphora 170 (12.03%)Bridging 299 (21.17%)Idiom 25 (1.62%)Doubt 49 (3.47%)Total 1412 (100%)

Table 1: Classes of FDNPs.

thus suggesting that bridging is a more pro-ductive cohesive strategy in Italian with re-spect to other languages, i.e. English (Vieiraand Poesio, 2000).

Five subclasses of bridging anaphors havebeen identified, in particular:

• Lexical: (199/299 - 39.79%) those in-stances of bridging descriptions whoselink with the antecedent is clearly basedon lexical semantics, e.g.: la pistola -l’arma (the gun – the weapon);

• Event: (18/299 - 6.02%) the antecedentis represented by a verb or a VP; it con-tains what Clark categorizes as indirectreference by necessary roles and optionalroles, and Strand’s event-argument rela-tions, e.g.: fece esplodere - le macerie(exploded – the debris);

• Rhetorical Relation5: (27/299 - 9.03%)it includes bridging anaphors whose an-tecedent can be identified through dis-course relations, e.g.: l’elezione – i com-ponenti (the election – the members);

• Discourse Topic: (26/299 - 8.69%) thiskind of bridging is related on implicitway to the main discourse topic of a text,rather than to a specific NP or VP;

• Inferential: (109/29 - 36.45%) all casesof bridging based on complex inferen-tial reasoning which entails use of ency-clopedic, background or common sharedknowledge, e.g.: la Cina – Pechino(China – Bejing).

As the classes show, different sources ofinformation (lexical, encyclopedic and dis-course structure) have important roles for

5It contains Clark (1997)’s relations of reasons,causes and consequences, part of Vieira and Poe-sio (2000)’s inferential bridging and Strand (1997)’sargument-event.

Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian

73

Page 74: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

the resolution of these kinds of anaphoric re-lations. The results also suggest a preferenceorder for the different sources of bridginganaphora: lexical semantic relations arepreferred over the use of common senseinferencing and background knowledge i.e.pragmatics, which is preferred over discoursestructure. Nevertheless, as it emerged fromthe corpus study, more than the 45% of the Rrelations needed to resolve bridging anaphorsare based on commonsense knowledge (theInferential class) and on general discoursestructure (the Rhetorical Relation class).

Different strategies have been proposedto automatically resolve bridging anaphors.Most of them rely on the use of lexicalresources like WordNet or WordNet-like.However, the results obtained are not verysatisfactory for two main reasons: on theone hand, lexical resources have limits dueto the fact that they represent closed rep-resentations of natural language and couldpresent mistakes and missing informationdue to their human-based nature, and, onthe other hand, the theoretical backgroundbehind their construction is unable to dealwith lots of instances of R relations, as wehave called them, which govern the ways inwhich bridging anaphors can be retrievedand inferred by the interpreters.

In this work we propose to use alexical resource as well, namely PA-ROLE/SIMPLE/CLIPS (henceforth SIM-PLE) (Ruimy et al., 2003), but the noveltyof our proposal does not rely in the use ofa lexical resource per se, but in the use of aresource grounded on a robust lexical theorylike that of Generative Lexicon (Pustejovsky,1995). Generative Lexicon, and its develop-ments, represents a device to model and dealboth with classical lexical semantic relations,like merological relations, synonymy andothers, and also with encyclopedic knowledgeand even some kinds of discourse relations.The use of this lexical theory to retrieve theR relation responsible for the building of thebridge between the anaphoric element andits anchor will broaden the view of bridginganaphora resolution as a general problemof how much of background knowledgecan be coded as part of the meaning oflinguistic constituents. In the next sections,after having introduced SIMPLE, we willpresent the results of the performance ofa semi-authomatic algorithm for resolving

bridging anaphors which uses SIMPLE as itsknowledge base.

4 SIMPLE: a Generative LexiconResource for Italian

The SIMPLE lexicon6 is a four-layered7 com-putational lexicon developed under two EU-sponsored project (PAROLE and SIMPLE)and extended under the Italian governmentfounded project CLIPS. It represents thelargest computational lexical knowledge baseof Italian language, containing over 45 thou-sand lemmas and more that 57 thousandword senses, or semantic units.

At the semantic layer of information, lexi-cal units are structured in terms of a semantictype system and are characterized and inter-connected by means of a rich set of semanticfeatures and relations. Combining both top-down and bottom-up approaches, the SIM-PLE ontology has been elaborated in such away as to permit an exhaustive characteriza-tion of different levels of complexity of lexicalmeanings.

The SIMPLE type system reflects theG.L. assumption that lexical items are mul-tidimensional entities which present variousdegrees of internal complexity and thus callfor a lexical semantic description able to ac-count for different ranges of meaning compo-nents. Accordingly, a semantic type is notsimply a label to be associated to a wordmeaning, it is rather the repository of a struc-tured set of semantic information. Therefore,the membership of a word sense in a semantictype inherently triggers the instantiation of arich bundle of semantic features and relationsthat represent the type-defining informationthat intrinsically characterizes the ontologi-cal type.

The core of the SIMPLE semantic rela-tions rely on the Qualia Structure, which isone of the four representational level pro-posed by the G.L. framework. Qualia struc-ture consists of four roles (Agentive, Telic,Formal and Constitutive) encoding the mul-tifaceted nature of word meaning. Qualia re-lations enable capturing orthogonal relationsexisting between semantic units, regardlessof their ontological classification. Queryingthe whole set of semantic relations in whicha single keyword is involved throughout the

6http://www.ilc.cnr.it/clips/CLIPS ENGLISH.htm7Phonological, morphological, syntactic and se-

mantic levels.

Tommaso Caselli

74

Page 75: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

lexicon allows retrieving and extracting a setof semantic units belonging to different se-mantic types forming a semantic network.Moreover, qualia relations enable to estab-lish a connection between a word sense anda number of events or entities strictly re-lated to its meaning and to define the roleof those events/entities in the lexical seman-tics of the word itself. In SIMPLE a revi-sion of the original qualia structure was un-dertaken which led to the design of the Ex-tended Qualia Structure whereby each of thefour roles subsumes a set of semantic rela-tions. Sixty extended qualia relations weretherefore created, which allow to model thecomponential aspect of a word’s meaning andto structure its relationships to other lexicalunits, on both the paradigmatic and syntag-matic axes.

However, the semantic relations are notexhausted by the (extended) qualia struc-ture. Each semantic unit has three more re-lations such as synonymy, derivation, whichallows a further type of connection betweenlexical items, and regular polisemy.

4.1 Exploiting qualia relations toresolve bridging anaphors

The core of our proposal is based on the ideathat the qualia relations encoded in SIMPLEcan be used to represent the R relations be-tween a bridging element and its antecedent.To illustrate how to exploit qualia considerthe examples from 2 to 7, all extracted fromour corpus, which can only be resolved bymaking use of non-classical semantic rela-tions; the anchor is in italics, the bridgingelement in bold and, in capital letters, theprocessing requirements (i.e. the R relations)needed to resolve the anaphoric link:

(2) i prezzi – al consumatore [theprices – the customer]; INFER-ENTIAL

(3) il processo – gli imputati [the trial– the convicted]; INFERENTIAL

(4) essersi sparato – il suicidio [toshoot himself – the suicide];EVENT

(5) fatto esplodere – le macerie [ex-ploded – the debris]; EVENT

(6) condannare – il pubblico minis-tero [to condemn – the attorney ];EVENT

(7) il voto – l’elezione [the vote – theelection] RHET. RELATION

The use of a G.L. approach allows us toclaim that the R relations to resolve thesecases of bridging are already encoded in themeanings of the lexical items themselves.Thus, for instance, in 3, the fact that a trialinvolves a convicted is formalized by exploit-ing a qualia relation between the two words,namely the constitutive “member of ”. In 7,the fact that if there is a vote, then thereis an election (cause/consequence), can beformalized by exploiting the extended telicquale “purpose”. Moreover, bridging rela-tions which take as anchor a verb (examples4, 5 and 6) could as well be resolved by ex-ploiting the extended qualia in SIMPLE. Forinstance, in 5, the FDNP the debris can beresolved by exploiting the extended agentivequale “result of”. It is quite trivial to remarkthat bridging relations classified as Lexicalcan be easily resolved as well by means of thequalia structure, including both classical lex-ical semantic relations and more fine-grainedones, like the one illustrated in 8, where theR relation can be expressed by the telic quale“is the activity of ”:

(8) l’attentato - i terroristi [the attack- the terrorists]; LEXICAL

Before presenting the experimental data,another remark is necessary. The use ofSIMPLE qualia relations has the further ad-vantage of making explicit also what is thesemantic relation which connects the bridg-ing element to its antecedent, thus overcom-ing the shortcomings of machine learning ap-proaches like Market, Nissim, and Modjeska(2003), which remain silent on this issue, i.e.do not specify what is the relation betweenthe bridging anaphor and its antecedent.

5 Preliminary Experiments andEvaluation

To evaluate the reliability of the resource wehave conducted an experiment on a subset8 of129 bridging anaphors from our corpus. Wehave developed a semi-automatic procedureto query the resource. The workflow is thefollowing: we manually provided to the sys-tem both the bridging anaphor and its an-

8All bridging relations which involved either as an-chors or anaphoric elements named entities have beeneliminated (144/299 - 48.16%), as well as those for theDiscourse Topic class.

Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian

75

Page 76: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

tecedent. The system, then, looks for a se-mantic relation between the two, either bylooking for a direct connection between thetwo words, i.e. semantic units, or by look-ing for a common semantic type between thetwo entities. If more than a semantic relationbetween the two words is identified, the onewith the shortest lexical distance (i.e. theone with the shortest semantic path) is se-lected. In case that more than a semanticrelations with same lexical distance betweenthe anaphor and the anchor is identify, bothrelations are considered as valid. This choiceis a device to reflect the fact that even humanbeings when resolving bridging anaphors mayagree on the anchor, but disagree on the typeof relation, i.e. allow more than one relation.The maximum number of arcs allowed hasbeen set to two. This is due to the fact thata wider range would result into inappropriaterelations since the two semantic units may belinked at a very abstract level.

In order to verify our claim that aG.L. based resource should perform bet-ter in resolving bridging anaphors respectto WordNet-like ones, we have performed acompartive evaluation (by applying the sameprocedure) using ItalWordNet (IWN). In Ta-ble 2 we report the overall results of the tworesources in terms of matching an existing se-mantic relation for the 129 couples of bridg-ing anaphors and anchor, which correspondsto the number of possible bridging anaphorswhich could be resolved using these resources.The results are not very good, since only 22

Lexical Resource BridgingSIMPLE 22 (17.05%)IWN 19 (14.72%)

Table 2: Numbers of correctly matchedbridging anaphors.

couples of anchor-bridging anaphor can be re-solved by using SIMPLE, a figure which is notso bigger than those which can be resolved byusing IWN. The very low results are essen-tially due to (unexpected) missing relationsand lexical entries in the SIMPLE resource.The low values for IWN are due to the ab-sence of the necessary semantic relations, asexpected and in compliance with its theoret-ical background. It is also interesting to no-tice that of the 19 correct relations which can

be retrieved by using IWN, only 11 of themcannot be identified by SIMPLE and this isdue to missing information in the resource (5over 11 couples cannot be identified becausethe proper semantic relations have not beenintroduced by the compilers of the resource)and not to theoretical shortcomings of the re-source itself. Moreover, 13 of the 22 relationsidentified by using SIMPLE are completelyout of reach for IWN, since they correspondto extended qualia.

Going into the details of the various sub-classes of bridging relations the results arequite encouraging. What emerges is thatthe two resources can be thought as beingspecialized for the identification of particu-lar subclasses of bridging anaphors. As thedata in Table 3 show there is a relative highcompetition only for the subclass of Lexicalbridging. The relative high performance ofIWN in Inferential subclass is attributable toan extension of its original semantic relationsas proposed by the EuroWordNet Project, ofwhich IWN is a part. However, it is inter-esting to notice that all 5 Inferential bridgingretrieved with IWN are identified by SIM-PLE as well. The same observations hold forthe class of Event as well. Finally, it is in-teresting to point out the fact that the sub-classes of Rhetorical Relation and Inferentialin SIMPLE are mainly resolved by two typesof qualia (and their extensions) that is Con-stitutive and Telic.

Subclass SIMPLE IWNLexical 11 (50%) 12 (63.2%)Inferential 7 (31.82%) 5 (26.31%)Rhet. Relation 2 (9.09%) 0 (0%)Event 2 (9.09%) 2 (10.52%)

Table 3: Subclasses of bridging matched.

6 Conclusion

The approach we have proposed is still awork-in progress and more refinements areneeded. Of course a large-scale evaluationis compelling in order to provide further ev-idences of our proposal and a better evalu-ation of the SIMPLE lexicon. However, wewould like to point out and emphasize someinteresting aspects of this proposal:

• the use of a G.L. based resource can beseen as a way of reducing the influence

Tommaso Caselli

76

Page 77: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

of extralinguistic knowledge;

• bridging can be used as a way of discov-ering semantic relations among linguisticentities and can be used to improve boththe creation and maintenance of linguis-tic resources like SIMPLE. In particular,G.L. pattern induction from a corpus-based study can improve the resource byadding missing relations;

• the problem of bridging anaphora reso-lution becomes part of a more generalproblem of identification of semantic re-lations between linguistic elements;

• a resource with G.L. qualia relations en-coded in it should not be compared witha world-knowledge database or similar(effort expensive and difficult) resources.G.L.-based relations are dynamic, in thesense that they allow to discover newrelations between lexical items and canprovide an account for the creative useof language;

• qualia relations can represent new fea-tures for machine learning approaches;considering an annotation task foranaphora resolution, it would be veryuseful to introduce a new attributewhich expresses the qualia relation be-tween the anchor and the anaphoric el-ement, thus providing information toa learner to resolve also difficult (i.e.non strictly lexical) cases of bridginganaphors.

The results obtained are not very satisfyingand seem to support criticisms to the use oflexical resources in tasks of anaphora resolu-tions. We agree on some of this criticism, butwe would like to point out that the resolutionof bridging anaphors is not a trivial task andthe use of lexical resources like SIMPLE canrepresent a useful strategy for the develop-ment of robust algorithms for anaphora res-olutions. As for SIMPLE an extended workof revision and correction of the various mis-takes and missing elements is compelling inorder to be used reliably. A further pointwhich emerges from this work is representedby the observation that SIMPLE and IWNare not competitive resources, i.e. one beingthe extension of the other, but more com-plementary ones. The final proposal we sug-gest is a call for a new generation of lexi-cal resources. Resources whose scope is that

of being specialized in restricted sets of lexi-cal relations. This could result in better re-sources with less mistakes and missing infor-mation and easier to be integrated in NLPalgorithms.

References

Caselli, T. 2007. An annotation scheme forbridging anaphors and its evaluation. InAndrea Sanso, editor, Language Resourcesand Linguistic Theory, volume 59 of Ma-teriali Linguistici. Franco Angeli, Milano,pages 149–166.

Chierchia, G. 1995. Dynamics of Meaning:anaphora, presuppositions and the Theoryof Grammar. University of Chicago Press,Chicago.

Clark, H. 1997. Bridging. In P.N. Johnson-Laird and P.C. Wason, editors, Thinking:Readings in Cognitive Science. CambridgeUniversity Press, Cambridge and London.

Hawkins, J.A. 1978. Definiteness and Indef-initeness. Croom Helm, London.

Kleiber, G. 1999. Associative anaphora andpart-whole relationship: the condition ofalienation and the principle of ontologi-cal congruence. Journal of Pragmatics,31:339–362.

Krahmer, E. and P. Piwek. 2000. Varietiesof Anaphora. Course Notes, ESSLLI00,Birmingham, August 11-23.

Lobner, S. 1985. Definites. Journal of Se-mantics, 4:297–326.

Market, K., M. Nissim, and N. Mod-jeska. 2003. Using the Web for nomi-nal anaphora resolution. In EACL Work-shop on the Computational Treatment ofAnaphora.

Montemagni, S., F. Barsotti, M. Battista,N. Calzolari, O. Corazzari, A. Lenci,V. Pirelli, A. Zampolli, F. Fanciulli,M. Massetani, R. Raffaelli, R. Basili,M. T. Pazienza, D. Saracino, F. Zanzotto,N. Mana, F. Pianesi, and R. Delmonte.2003. The syntactic-semantic Treebank ofItalian. An Overview. Linguistica Com-putazionale, Computational Linguistics inPisa, special Issue, XVI-XVII:461–493.

Pustejovsky, J. 1995. The Generative Lexi-con. MIT Press, Cambridge, MA, USA.

Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian

77

Page 78: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Ruimy, N., M. Monachini, E. Gola,A. Spanu, N. Calzolari, M.C. DelFiorentino, M. Ulivieri, and S. Rossi.2003. A computational semantic lexiconof Italian: SIMPLE. Linguistica Com-putazionale, Computational Linguistics inPisa, special Issue, XVI-XVII:821–864.

Sidner, C.L. 1979. Towards a computationaltheory of definite anaphora comprehensionin English discourse. Ph.D. thesis, MIT.

Strand, K. 1997. A taxonomy of LinkingRelations. Manuscript.

Vieira, R. and M. Poesio. 2000. AnEmpirically-Based System for Process-ing FDNPs. Computational Linguistics,26(4):539–593.

Tommaso Caselli

78

Page 79: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Una Representacion Basada en Logica Borrosa para elClustering de paginas web con Mapas Auto-Organizativos

A fuzzy logic-based representation for web page clustering usingself-organizing maps

Alberto P. Garcıa-Plaza, Vıctor Fresno, Raquel MartınezNLP & IR Group

Universidad Nacional de Educacion a DistanciaC/Juan del Rosal, 16, E-28040 Madrid{alpgarcia, vfresno, raquel}@lsi.uned.es

Resumen: En este trabajo se evalua un modelo de representacion de paginasweb para clustering de documentos por medio de mapas autoorganizativos (SOM).Esta representacion pretende reproducir o modelar en una primera aproximacionla forma en que una persona observa una pagina web con la intencion de sabersi su contenido es o no de su interes. Para ello se aplican diferentes heurısticas pormedio de una combinacion borrosa de criterios. Los experimentos muestran un mejorcomportamiento del modelo propuesto respecto a representaciones clasicas como TF,Bin-IDF y TF-IDF, para diferentes dimensiones del vector de representacion, y sobreuna coleccion de referencia.Palabras clave: Clustering, Mapas autoorganizativos, Logica borrosa, MAO, SOM

Abstract: This article evaluates a web page-oriented representation model fordocument clustering, using self-organizing maps. The representation is basedon heuristic combinations of criteria by means of a fuzzy rules system. Theexperiments show an improvement in the proposed model behaviour versustraditional representations as TF, Bin-IDF and TF-IDF, with different vectordimensions, and using a reference collection.Keywords: Clustering, Self-organizing maps, Fuzzy, SOM

1. Introduccion

A medida que aumenta el numero depaginas web en Internet, crece la necesidadde dotar de cierta organizacion los contenidosdisponibles. Ası, agrupar documentos concontenidos similares puede ser muy util, nosolo para facilitar el acceso a la informacion,sino tambien para clasificar o representardicha informacion, permitiendo su visualiza-cion, e incluso la navegacion a traves de ella.

Entre los diferentes algoritmos de clus-tering que han sido aplicados a este pro-blema, en este trabajo nos centramos enlos mapas autoorganizativos (Self-OrganizingMap, SOM) (Kohonen, 1990), ya que handemostrado ser una buena forma no solo deorganizar la informacion, sino tambien devisualizarla, e incluso de realizar busquedasorientadas a contenido en grandes coleccionesdocumentales (Vesanto y Alhoniemi, 2000),(Russell, Yin, y Allinson, 2002), (Dittenbach,Merkl, y Rauber, 2000), (Perelomov et al.,

2002).

El sistema WEBSOM, desarrollado porel grupo de Teuvo Kohonen en la HelsinkiUniversity of Technology (Kohonen et al.,2000) fue el primero en utilizar un SOMpara organizar, visualizar y navegar a travesde una gran coleccion de documentos, enconcreto resumenes de patentes, aunque estesistema tambien ha sido aplicado a otrostipos de documentos con contenido textualcomo news o resumenes de artıculos cientıfi-cos (Lagus, 1998).

El presente trabajo se apoya en la hipote-sis de que una mejora en la representacionde los documentos supondra un aumento dela calidad de estos mapas. Se propone laaplicacion de un modelo de representacionde paginas web que aprovecha caracterısti-cas propias de los documentos HTML paratratar de mejorar la calidad de los mapas enproblemas de clasificacion automatica. Nues-tra representacion combina, mediante logica

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 79-86 recibido 14-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 80: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

borrosa, criterios heurısticos que aprovechanla semantica inherente a algunas etiquetasHTML, ası como a la posicion del terminodentro del texto. La idea fundamental estratar de reproducir la manera en que unapersona lee las partes que considera mas re-presentativas de una pagina web para obteneruna vision general de su contenido y ası poderconcluir si esa pagina puede o no interesarle.

Existen varias diferencias entre nuestroenfoque y el presentado en WEBSOM.En primer lugar nuestra representacionesta orientada a paginas web. Ademas,asumimos que todo el proceso derepresentacion de documentos sera nosupervisado; algo que no siempre se asumeen los modelos que utilizan SOMs para elagrupamiento de documentos.

Este artıculo se estructura como sigue: enel apartado 2 se resumira de forma basicael proceso de creacion de un SOM; en elapartado 3 se revisan algunos modelos derepresentacion de documentos aplicados alSOM; en el 4 se describe el modelo pro-puesto, basado en logica borrosa; en el 5se explica la experimentacion llevada a cabopara, posteriormente, analizar los resultadosen el apartado 6. Finalmente se exponen lasconclusiones en el apartado 7.

2. Mapas autoorganizativos

Los mapas autoorganizativos de Koho-nen son estructuras neuronales que utilizanaprendizaje competitivo para tratar de ge-nerar una relacion espacial-topologica entrelos vectores que caracterizan sus neuronas, apartir de un entrenamiento y en funcion delos vectores de entrada.

En este tipo de aprendizaje las neuronascompiten entre si, activandose solo una deellas ante la presencia de un patron o estımulode entrada. El objetivo es, a partir de un pro-ceso iterativo de comparacion con la coleccionde datos de entrada, agrupar estos datos enbase a su similitud. Para ello se presentan almapa vectores de entrada de igual dimensionque la de sus vectores caracterısticos.

Para la creacion de un SOM lo primeroque ha de hacerse es inicializar la red, defi-niendo el numero de neuronas y su topologıa,e inicializando el vector de pesos de cada neu-rona, algo que puede realizarse simplementede forma aleatoria.

La neurona ganadora establecera el con-junto de neuronas cuyos vectores deben mo-

dificarse. Las neuronas estan conectadas consus vecinas mediante una relacion de vecin-dario que impone la propia estructura delSOM. El tamano del vecindario disminuira alo largo del entrenamiento; esa es la clave dela autoorganizacion. La funcion de actualiza-cion de pesos del mapa tiene la forma:

mi(t+ 1) = mi(t) + hci(t) [x(t)−mi(t)] (1)

donde t es el instante de tiempo discreto co-rrespondiente a una iteracion del algoritmo,x(t) es el vector de entrada en la iteracion t yhci es la region de influencia que el vector deentrada tiene sobre el SOM, tambien llamadonucleo de vecindad. Esta funcion es la quedefine la “rigidez” de la “red elastica” delSOM en el espacio de los datos((Kohonen etal., 1996)).

La funcion que define el nucleo de vecin-dad hci puele ser de tipo gaussiano (2), comoen nuestro caso, y se expresa como:

hci = α(t) · exp(−||rc − ri||

2

2σ2(t)

)(2)

lo que hara que la modificacion de valoresdisminuya con la distancia en el vecindario,siendo σ(t) la funcion que define este radiode vecindario, que se va reduciendo despuesde cada iteracion t. En los mapas bidimen-sionales las neuronas pueden ordenarse en unretıculo rectangular o hexagonal, con lo quecada neurona tendra 6 u 8 vecinos respecti-vamente. En nuestro caso se utilizo un maparectangular.

La modificacion de pesos depende tambiende la distancia entre una neurona ni y laganadora nc (siendo rc y ri las posiciones delas neuronas en el grid) y tiende a cero segunaumenta esta. La tasa de aprendizaje α(t) esuna funcion monotona decreciente respecto altiempo t en el rango [0,1] (0 < α(t) < 1). Enotras palabras, tiende a cero a medida que sevan procesando los vectores del conjunto deentrenamiento.

De este modo, una vez entrenado el mapa,despues de un numero fijo de iteraciones ocuando se cumpla la condicion de paradaestablecida, ya se pueden introducir vectoresclasificados manualmente que permiten eti-quetar las zonas del mapa correspondientes.

Por tanto, y a modo de resumen, lostres pasos fundamentales en la creacion deun SOM son: inicializacion, entrenamientoy calibracion. Una vez etiquetado, un SOM

Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez

80

Page 81: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

puede usarse como un clasificador que asignaa cada vector de entrada la categorıa conla que se haya etiquetado la neurona que seactive en cada caso.

3. Representacion de documentos

En la literatura pueden encontrarse di-versas propuestas para la representacion dedocumentos en sistemas basados en SOMs,destinados al clustering, la clasificacion o lavisualizacion de grandes colecciones. Algunasde estas propuestas seran analizadas a lolargo de este apartado. Ademas, se descri-bira la representacion que proponemos y quequeremos evaluar.

3.1. Trabajos relacionados

En el sistema WEBSOM, la representa-cion de los documentos se realiza dentro delmodelo de espacio vectorial (Salton, Wong,y Yang, 1975). De este modo, la entrada esun conjunto de vectores de representacionde documentos donde cada dimension repre-senta el peso de un termino en el contenidodel mismo. Este peso se puede calcular, biende forma sencilla en base al numero deocurrencias del termino en el documento, porejemplo usando la frecuencia inversa de do-cumento, o bien, si existe informacion sobrelas categorıas de los documentos, utilizandola entropıa de Shannon sobre el conjunto declases de documentos, para lo que se utili-za la informacion de clasificacion. Ademas,las distintas aproximaciones al problema sehan basado en documentos textuales, mien-tras la que aquı se presenta esta orientadaespecificamente a paginas web en formatoHTML, aunque serıa facilmente aplicablea documentos XML con vocabularios consemantica relacionada con la documentacionelectronica, como es el caso de docbook.

En (Bakus, Hussin, y Kamel, 2002) larepresentacion utilizada se basa en sintagmasen lugar de palabras para formar los vectoresde representacion, utilizando dichos sintag-mas como unidades de entrada para las fun-ciones de pesado tradicionales: Binaria, TF yTF-IDF. Por otro lado, el modelo ConSOM(Liu, Wang, y Wu, 2008) usa dos vectoresen lugar de uno para representar tanto losdocumentos de entrada, como las neuronasdel mapa, con el objetivo de combinar elespacio vectorial con lo que denominan espa-cio conceptual. Esto supone una modificacionen el SOM, por lo que no solo afecta a

la representacion, sino que va mas alla alproponer un nuevo modelo, lo que se alejade nuestra propuesta, que ataca el problemadesde el punto de vista de la representacionde los documentos y no pretende modificar elalgoritmo utilizado para agruparlos.

3.2. Fuzzy Combination ofCriteria (FCC)

La logica borrosa se basa principalmenteen la aplicacion de heurısticas con el objetode resolver la ambiguedad inherente a proce-sos de razonamiento cualitativo, permitiendoestablecer cierta relacion entre los factoresobservados. Profundizando un poco mas, po-demos decir que mediante la logica borrosa setratan de modelar relaciones entre variablesque, en nuestro caso, se definiran a partir delas frecuencias de aparicion de los terminos endeterminados elementos HTML. Esto la con-vierte en un entorno adecuado para capturarel conocimiento experto humano.

La pieza basica sobre la que se construyetodo sistema borroso es la llamada variablelinguıstica, cuyo valor puede venir dado porpalabras del lenguaje natural y se definepor medio de conjuntos borrosos (Zadeh,1965), cuyos lımites son imprecisos. Con estosconjuntos se permite describir el grado depertenencia de un objeto a una determinadaclase y se definen a partir de conocimientoexperto.

La arquitectura basica de un sistema deinferencia borroso se compone de tres etapasde procesamiento: borrosificacion de entra-das, aplicacion de las reglas de inferencia queconstituyen la base de conocimiento del siste-ma, y desborrosificacion, que permite obtenerel valor final. La base de conocimiento se defi-ne mediante un conjunto de reglas IF-THENque describiran, a partir del conocimientoexperto, el comportamiento que deberıa tenerel sistema con la maxima precision posible; esdecir, reflejan, junto con la propia definicionde las variables linguisticas y los conjuntosborrosos, el conocimiento heurıstico que setiene sobre el problema. La finalidad deestas reglas es la combinacion de uno ovarios conjuntos borrosos de entrada, llama-dos antecedentes, asociandolos a un conjuntoborroso de salida, llamado consecuente. Unavez obtenidos los consecuentes de cada regla,y tras una etapa de agregacion, se obtiene unconjunto agregado final, que sera la entradapara la etapa de desborrosificacion, donde

Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos

81

Page 82: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

se hace corresponder el conjunto borroso desalida con un punto concreto, llamado salidanıtida o “crisp”.

En nuestra propuesta para la representa-cion de documentos asumimos que no usa-remos ningun tipo de informacion de clasi-ficacion previa que pudiera existir. Esta in-formacion solo se utilizara para la evaluacionde los resultados, ya que como veremos masadelante, para llevar a cabo la comparacionentre las distintas representaciones, fijaremosel tamano del mapa en funcion del numerode clusters que queremos obtener y que secorrespondera con el numero de clases a lasque pertenecen los documentos de entrada.

Las variables linguısticas que usaremoscomo entrada del sistema seran la frecuenciadel termino en el documento, en el tıtulo(contenido en el elemento title), en los en-fatizados (contenidos en los elementos em,h1, b, etc.) y la posicion global del terminodentro de la pagina. Las frecuencias sonnormalizadas con el mayor valor encontradopara cada criterio, con el objetivo de inde-pendizar las reglas del tamano del documentoy del tamano de los textos presentes encada criterio. La posicion global se calculamediante un sistema borroso auxiliar, quetomando como entrada las posiciones en lasque aparece el termino dentro del documento,devuelve la posicion global por medio de dosconjuntos borrosos: estandar y preferente.Las figuras 1 y 2 muestran los conjuntosborrosos empleados.

Figura 1: Reglas basadas en frecuencia deaparicion

La salida del sistema borroso es una unicavariable linguıstica denominada relevancia,cuyos valores pueden ser: no relevante, pocorelevante, medianamente relevante, bastanterelevante y muy relevante. Los conjuntosborrosos definidos para esta variable puedenverse en la figura 3. Las reglas utilizadas sehan basado en los siguientes aspectos:

Una pagina web puede no tener palabrasenfatizadas.

Figura 2: Sistema borroso auxiliar para elcalculo del valor global de la posicion

Una palabra que aparece en el tıtulopuede que no siempre sea relevante (eltıtulo podrıa haber sido generado, porejemplo, por un editor de HTML), o bienpodrıa tener una componente retorica.

Generalmente, la posicion es un criterioque da mas peso en paginas largas queen cortas.

Una palabra con alta frecuencia de apa-ricion en una pagina podrıa tener unsignificado muy general, y por lo tanto,no discriminante.

Figura 3: Conjuntos borrosos para definir larelevancia del termino

Los conjuntos completos de reglas tantodel sistema borroso auxiliar como del globalse muestran en los cuadros 1 y 2

posicion relativa posicion globalIF introduccion THEN preferenteIF cuerpo THEN estandarIF conclusion THEN preferente

Cuadro 1: Conjunto de reglas del sistemaborroso auxiliar

Por ultimo, el motor de inferencia esta ba-sado en el algoritmo de centro de masas, queevalua la salida de cada regla en funcion delgrado de verdad de cada antecedente.Una ex-plicacion detallada del sistema borroso puedeencontrarse en (Fresno, 2006).

Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez

82

Page 83: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Tıtulo Frecuencia Enfatizado Posicion Relevancia

IF Alto AND Alta AND Alto THEN Muy AltaIF Alto AND Media AND Alto THEN Muy AltaIF Alto AND Media AND Medio THEN AltaIF Alto AND Alta AND Medio THEN Muy AltaIF Alto AND Baja AND Bajo AND Preferente THEN MediaIF Alto AND Baja AND Bajo AND Estandar THEN PocaIF Bajo AND Baja AND Bajo THEN NadaIF Bajo AND Alta AND Alto AND Preferente THEN Muy AltaIF Bajo AND Alta AND Alto AND Estandar THEN AltaIF Alto AND Baja AND Medio AND Preferente THEN AltaIF Alto AND Baja AND Medio AND Estandar THEN MediaIF Alto AND Baja AND Alto AND Preferente THEN Muy AltaIF Alto AND Baja AND Alto AND Estandar THEN AltaIF Alto AND Alta AND Bajo AND Preferente THEN Muy AltaIF Alto AND Alta AND Bajo AND Estandar THEN AltaIF Bajo AND Baja AND Medio AND Preferente THEN MediaIF Bajo AND Baja AND Medio AND Estandar THEN PocaIF Bajo AND Baja AND Alto AND Preferente THEN AltaIF Bajo AND Baja AND Alto AND Estandar THEN MediaIF Bajo AND Media AND Bajo AND Preferente THEN PocaIF Bajo AND Media AND Bajo AND Estandar THEN NadaIF Bajo AND Media AND Medio AND Preferente THEN MediaIF Bajo AND Media AND Medio AND Estandar THEN PocaIF Bajo AND Media AND Alto AND Preferente THEN Muy AltaIF Bajo AND Media AND Alto AND Estandar THEN AltaIF Bajo AND Alta AND Bajo AND Preferente THEN MediaIF Bajo AND Alta AND Bajo AND Estandar THEN PocaIF Bajo AND Alta AND Medio AND Preferente THEN AltaIF Bajo AND Alta AND Medio AND Estandar THEN MediaIF Alto AND Media AND Bajo AND Preferente THEN MediaIF Alto AND Media AND Bajo AND Estandar THEN Poca

Cuadro 2: Conjunto de reglas del sistema borroso global

4. Experimentacion

Los pasos seguidos para realizar la experi-mentacion se describen a continuacion.

4.1. Coleccion

Para la experimentacion se ha utilizado lacoleccion Banksearch (Sinka y Corne, 2005),en concreto un subconjunto de 10 clases eti-quetadas como: Commercial banks, Buildingsocieties, Insurance agencies, Java, C/C++,Visual Basic, Astronomy, Biology, Soccer yMotor sport. Cada una de estas clases constade 1000 paginas web en formato HTML,haciendo un total de 10000 documentos. Deestos, algunos fueron descartados por proble-mas con el parser HTML utilizado, ya quealgunos documentos no estaban bien forma-dos o, incluso, la pagina estaba incompletapor problemas en su descarga durante lacreacion de la coleccion. Finalmente, tras losdescartes, 9897 documentos fueron usados enlos experimentos.

Antes de extraer la informacion nece-saria para la entrada del sistema borroso,se eliminaron un conjunto de terminos deuna lista de stopwords compuesta por 621terminos en ingles, se convirtieron las en-tidades particulares del lenguaje HTML, seeliminaron los signos de puntuacion y seutilizo el algoritmo de Porter para hacerstemming de las palabras.

4.2. Detalles del SOM

El tamano del SOM utilizado en la expe-rimentacion es 5x2, haciendo un total de 10neuronas, con el objetivo de que exista unaunica neurona por cada clase. Este hecho su-pone un pequeno grado de supervision, peroesta no se aplica a la fase de representacion,sino al proceso posterior de clustering, yaque fijamos el k. Los vectores de entradafueron reducidos a varios tamanos entre 100y 5000 con la intencion de evaluar el compor-tamiento de las diferentes representaciones

Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos

83

Page 84: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

en un rango de dimensiones. De este modopodremos ver si el comportamiento empeoraal representar con un numero reducido derasgos y, ademas, averiguar con que dimen-siones podemos encontrar un equilibrio entrela calidad de la representacion y el costecomputacional. Este aspecto adquiere granimportancia en tareas como el clusteringque generalmente conllevan un alto costecomputacional.

Durante el entrenamiento del mapa, latasa de aprendizaje inicial se fijo en 0,1,el vecindario inicial en 5 y el numero deiteraciones en 50000. Todos estos datos seeligieron despues de la realizacion de diversaspruebas, por ser aquellos con los que seobtuvieron unos resultados de clustering ycalidad del mapa mas satisfactorios. El restode informacion acerca del mapa coincide conla utilizada en la implementacion SOMlib(Dittenbach, Merkl, y Rauber, 2000), dis-tribuıdo como proyecto de software libre1.Dicha librerıa, escrita en lenguaje Java, hasido la utilizada para la creacion del SOM.

4.3. Reduccion del numero derasgos

Para la comparacion usamos tres funcio-nes de pesado de terminos diferentes: TF,Bin-IDF y TF-IDF. Cada vector debe conte-ner una entrada por cada termino del vocabu-lario, es decir, por cada termino que aparezcaen la coleccion, lo que da lugar a vectores congran numero de dimensiones. Esto suponeun problema en lo que a rendimiento serefiere. Para paliarlo, se utilizan distintostipos de reducciones que permiten utilizar unnumero menor de dimensiones sin perder lainformacion esencial.

En todos los casos se probaron tantola reduccion por frecuencia de documentos,como la proyeccion aleatoria (Kaski, 1998)con cinco unos distribuıdos aleatoriamenteen cada columna de la matriz de proyeccion.Esta reduccion tiene la ventaja de reducir elcoste computacional. En este ultimo caso seha anadido al preproceso descrito en el apar-tado 4.1, la eliminacion de los terminos queaparecıan en la coleccion con una frecuenciaglobal de menos de 50, tal como se indica enKohonen et al. (2000).

En nuestro caso, la relevancia de untermino no depende unicamente de lafrecuencia de aparicion del termino en un

1http://www.ifs.tuwien.ac.at/ andi/somlib/

documento o en la coleccion, por lo que notiene sentido reducir usando unicamentela frecuencia de documentos. Dado que larepresentacion pondera cada termino y leasigna un valor que indica su relevancia,eliminar los terminos menos relevantesconsistirıa solo en eliminar aquellos conlas puntuaciones de pesado mas bajas,o bien quedarnos con los que tengan laspuntuaciones mas altas. Por otra parte,queremos que, de alguna forma, cadadocumento se vea reflejado en el vocabulariofinal y valorar positivamente que un terminoaparezca bien puntuado en diferentesdocumentos.

Por todo lo anterior, la reduccion quese presenta en este estudio, llamada MFTn

(More Frequent Terms) consiste en la ex-traccion de los terminos mas puntuados porniveles, es decir, por cada documento se haceun ranking de sus terminos mas represen-tativos, es decir, los que tienen mayor pesodentro del documento, y se van tomandosecuencialmente los terminos que aparecenen primera posicion, despues en segunda,etc. hasta que se cubren las dimensionesrequeridas. A medida que se extraen losterminos de un nivel, se ordenan en unalista global por frecuencia, esto es, se colocanprimero aquellos que han aparecido en unmayor numero de documentos. Entre aque-llos que resultan empatados tras la primeraordenacion, se utiliza la relevancia para de-terminar su posicion. Al final de cada nivelse comprueba si se tienen suficientes terminospara el tamano de vocabulario solicitado y sies ası, se toman, ordenadamente, los terminosnecesarios de la lista global.

Ademas de esta reduccion, se han rea-lizado experimentos con otras basadas soloen el valor de la relevancia, tomandolo porniveles o de forma global, combinando otrosmetodos como la reduccion por frecuenciade documentos o la proyeccion aleatoria.No obstante los mejores resultados fueronobtenidos utilizando la reduccion MFTn yası, por claridad y brevedad, los resultadosobtenidos con el resto de reducciones hanquedado fuera de este artıculo.

Finalmente, para validar la funcion depesado FCC, hemos aplicado tambien la re-duccionMFTn a TF, Bin-IDF y TF-IDF, conel objetivo de verificar que la mejora no vengadada unicamente por la reduccion.

Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez

84

Page 85: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

4.4. Metodos de evaluacion

Para evaluar el clustering, una vez en-trenado el SOM, se mapea toda la colec-cion sobre el, de forma que cada documentoquedara asociado a la neurona del mapa ala que mas se asemeje. Despues se etiquetacada neurona eligiendo para ello la clasepredominante en funcion de los vectores queactivaron dicha neurona, es decir, se utilizacomo etiqueta la clase a la que pertenecen elmayor porcentaje de documentos mapeadosen la neurona. Todos los documentos que ha-yan activado esa neurona durante el procesode mapeo y no pertenezcan a la clase queetiqueta dicha neurona, son contados comoerrores.

Utilizaremos dos medidas para evaluar losresultados. La primera es la tasa de aciertos(accuracy), es decir, el porcentaje de docu-mentos que activan una neurona etiquetadacon su misma clase. Esta medida y la formade llevarla a cabo ha sido basada en Koho-nen et al. (2000): “[...] each document wasmapped onto one of the grid points of eachmap, and all documents that represented aminority class at any grid point were countedas classification errors.”

El segundo metodo elegido es la medidaF, vease la formula 3, siendo i la clase y j elcluster. El recall y la precision vienen dadospor las formulas 4 y 5.

F (i, j) =2 ·Recall(i, j) · Precision(i, j)Recall(i, j) + Precision(i, j)

(3)

Recall(i, j) =nij

nj(4)

Precision(i, j) =nij

ni(5)

Siendo nij es el numero de documentos eti-quetados con la clase i en el cluster j, ni

el numero de documentos etiquetados con laclase i, nj el numero de documentos en elcluster j y n el numero total de documen-tos. Para todos los clusters, la medida F secalcula segun la formula 6. Un mayor valorde esta medida indica una mayor calidad delclustering.

F =∑

i

ni

n·max

j{F (i, j)} (6)

5. Analisis de resultados

En las figuras 4 y 5 se muestran losresultados para la tasa de aciertos y la me-dida F obtenidos en los diferentes casos.Cabe destacar que cada uno de los resul-tados presentados en ellas corresponde a lamedia de cinco ejecuciones diferentes conlos mismos parametros. El motivo para elloes la inicializacion aleatoria del mapa, queprovocara que cada ejecucion del procesoconcluya con resultados diferentes, y aunquepor la convergencia del mapa seran bastantesimilares, se han querido evitar los valoresdemasiado buenos o demasiado malos.

Se puede apreciar como FCC supera alas funciones tradicionales que, a medida queaumenta el numero de rasgos, se aproximana los resultados de nuestra propuesta a la vezque sus resultados se estabilizan. Ademas, sise selecciona un numero excesivo de rasgos(a partir de 1000 aproximadamente en lasfiguras 4 y 5), se introduciran sucesivamenteterminos poco relevantes, pudiendo introdu-cir ruido y afectando a los resultados.

Figura 4: Tasa de aciertos para diferentesdimensiones de los vectores de documentos

En ambos casos con un numero de rasgospequeno, en concreto por debajo de 2000, larepresentacion propuesta obtiene los mejoresresultados tanto en tasa de aciertos como encalidad del clustering, o al menos resultadostan buenos como cuando se utilizan 2000 omas rasgos por documento. Asimismo, lasfunciones basadas en la frecuencia (TF y TF-IDF) se muestran mucho mas estables con lareduccion MFTn, es decir, que con dimensio-nes reducidas sus resultados no disminuyendrasticamente, situandose al nivel de FCCcon el mınimo numero de rasgos elegido,

Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos

85

Page 86: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Figura 5: Medida F para diferentes dimensio-nes de los vectores de documentos

aunque posteriormente su mejora es menorque la obtenida por FCC. En resumen, larepresentacion propuesta funciona mejor quelas clasicas y con pocos rasgos esta mas cercade sus propios maximos.

6. Conclusiones

A lo largo del presente trabajo se hadescrito un metodo de representacion basadoen logica borrosa, de forma que se trata derecoger parte de la semantica implıcita en ellenguaje HTML, con el objetivo de realizarclustering de documentos basado en mapasautoorganizativos. Los experimentos realiza-dos han demostrado que la representacionpropuesta mejora el agrupamiento por me-dio de SOM respecto a las representacionesclasicas basadas unicamente en la frecuenciade los terminos.

Cabe destacar que la representacion basa-da en logica borrosa mejora no solo los valoresmaximos obtenidos por las representacionesclasicas, sino que con el mınimo numerode rasgos probado, esto es 100 rasgos pararepresentar cada documento, esta practica-mente al nivel de los maximos de las clasicas.Esto permite la obtencion de los mismosresultados con un vocabulario menor, lo quereduce notablemente el tamano de los datosde entrada del SOM y de los vectores de pesosde sus neuronas, teniendo como principalefecto una reduccion importante en el tiempode computo necesario.

Bibliografıa

Bakus, J., M.F. Hussin, y M. Kamel. 2002.A som-based document clustering using

phrases. En ICONIP ’02.

Dittenbach, Michael, Dieter Merkl, y An-dreas Rauber. 2000. The growinghierarchical self-organizing map. IJCNN.

Fresno, Victor. 2006. Representacionautocontenida de documentos HTML: unapropuesta basada en combinaciones heu-risticas de criterios. Ph.D. tesis.

Kaski, S. 1998. Dimensionality reduction byrandom mapping: fast similarity compu-tation for clustering. En Neural NetworksProceedings, 1998.

Kohonen, T. 1990. The self-organizing map.Proceedings of the IEEE, 78(9):1464–1480.

Kohonen, T., J. Hynninen, J. Kangas, yJ. Laaksonen. 1996. Som pak: The self-organizing map program package.

Kohonen, T., S. Kaski, K. Lagus, J. Salojarvi,J. Honkela, V. Paatero, y A. Saarela.2000. Self organization of a massivedocument collection. Neural Networks,IEEE Transactions on.

Lagus, Krista. 1998. Generalizability of thewebsom method to document collectionsof various types.

Liu, Yuanchao, Xiaolong Wang, y ChongWu. 2008. Consom: A conceptional self-organizing map model for text clustering.Neurocomput.

Perelomov, Ivan, Arnulfo P. Azcarraga,Jonathan Tan, y Tat Seng Chua. 2002.Using structured self-organizing maps innews integration websites.

Russell, Ben, Hujun Yin, y Nigel M. Allinson.2002. Document clustering using the 1+ 1 dimensional self-organising map. EnIDEAL ’02.

Salton, G., A. Wong, y C. S. Yang. 1975.A vector space model for automaticindexing. Commun. ACM.

Sinka, Mark P. y David W. Corne. 2005.The banksearch web document dataset:investigating unsupervised clustering andcategory similarity. J. Netw. Comput.Appl.

Vesanto, J. y E. Alhoniemi. 2000. Clusteringof the self-organizing map. IEEE-NN,11(3):586, May.

Zadeh, L. A. 1965. Fuzzy sets. Informationand control.

Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez

86

Page 87: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Global joint models for coreference resolution and named entityclassification

Modelos juntos globales para la resolucion de la correferencia y de laclasificacion de las entidades nombradas

Pascal DenisAlpage Project-Team

INRIA and Universite Paris 730, rue Chateau des Rentiers

75013 Paris, [email protected]

Jason BaldridgeDepartment of Linguistics

University of Texas at Austin1 University Station B5100

Austin, TX 78712-0198 [email protected]

Resumen: En este artıculo, combinamos modelos de correferencia, anaforicidady clasificacion de las entidades nombradas, como un problema de inferencia juntaglobal utilizando la Programacion Lineal Entera (ilp). Nuestras restricciones garan-tizan: (i) la coherencia entre las decisiones finales de los tres modelos locales, y (ii)la transitividad de las decisiones de correferencia. Este enfoque proporciona mejorassignificativas en el f -score sobre los corpora ace con las tres metricas de evaluacionprincipales para la correferencia: muc, b3, y ceaf. A traves de ejemplos, modelosde oraculo y nuestros resultados, se muestra tambien que es fundamental utilizar es-tas tres metricas y, en particular, que no se puede confiar unicamente en la metricamuc.Palabras clave: Resolucion de la correferencia, entidades nombradas, aprendizajeautomatico, Programacion Lineal Entera (ILP)

Abstract: In this paper, we combine models for coreference, anaphoricity andnamed entity classification as a joint, global inference problem using Integer LinearProgramming (ilp). Our constraints ensure: (i) coherence between the final deci-sions of the three local models, and (ii) transitivity of multiple coreference decisions.This approach provides significant f -score improvements on the ace datasets forall three main coreference metrics: muc, b3, and ceaf. Through examples, oraclemodels, and our results, we also show that it is fundamental to use all three of thesemetrics, and in particular, to never rely solely on the muc metric.Keywords: Coreference Resolution, Named Entities, Machine Learning, IntegerLinear Programming (ILP)

1 Introduction

Coreference resolution involves imposing apartition on a set of mentions in a text; eachpartition corresponds to some entity in a dis-course model. Early machine learning ap-proaches for the task which rely on local,discriminative pairwise classifiers (Soon, Ng,and Lim, 2001; Ng and Cardie, 2002b; Mor-ton, 2000; Kehler et al., 2004) made consid-erable progress in creating robust coreferencesystems, but their performance still left muchroom for improvement. This stems from twomain deficiencies:

• Decision locality. Decisions are madeindependently of others; a separate clus-tering step forms chains from pairwise

classifications. But, coreference clearlyshould be conditioned on properties ofan entity as a whole.

• Knowledge bottlenecks. Corefer-ence involves many different factors, e.g.,morphosyntax, discourse structure andreasoning. Yet most systems rely onsmall sets of shallow features. Accu-rately predicting such information andusing it to constrain coreference is dif-ficult, so its potential benefits often gounrealized due to error propagation.

More recent work has sought to addressthese limitations. For example, to ad-dress decision locality, McCallum and Well-ner (2004) use conditional random fields with

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 87-96 recibido 15-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 88: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

model structures in which pairwise decisionsinfluence others. Denis (2007) and Klenner(2007) use integer linear programming (ilp)to perform global inference via transitivityconstraints between different coreference de-cisions.1 Haghighi and Klein (2007) providea fully generative model that combines globalproperties of entities across documents withlocal attentional states. Denis and Baldridge(2008) use a ranker to compare antecedentsfor an anaphor simultaneously rather thanin the standard pairwise manner. To ad-dress the knowledge bottleneck problem, De-nis and Baldridge (2007) use ilp for jointinference using a pairwise coreference modeland a model for determining the anaphoric-ity of mentions. Also, Denis and Baldridge(2008) and Bengston and Roth (2008) usemodels and features, respectively, that at-tend to particular types of mentions (e.g.,full noun phrases versus pronouns). Further-more, Bengston and Roth (2008) use a widerrange of features than are normally consid-ered, and in particular use predicted featuresfor later classifiers, to considerably boost per-formance.

In this paper, we use ilp to extend thejoint formulation of Denis and Baldridge(2007) using named entity classification andcombine it with the transitivity constraints(Denis, 2007; Klenner, 2007). Intuitively, weonly should identify antecedents for the men-tions which are likely to have one (Ng andCardie, 2002a), and we should only make aset of mentions coreferent if they are all in-stances of the same entity type (eg, personor location). ilp enables such constraintsto be declared between the outputs of inde-pendent classifiers to ensure coherent assign-ments are made. It also leads to global in-ference via both constraints on named entitytypes and transitivity constraints since bothrelate multiple pairwise decisions.

We show that this strategy leads to im-provements across the three main metricsproposed for coreference: the muc metric(Vilain et al., 1995), the b3 metric (Baggaand Baldwin, 1998), and ceaf metric (Luo,2005). In addition, we contextualize the per-formance of our system with respect to cas-cades of multiple models and oracle systemsthat assume perfect information (e.g. aboutentity types). We furthermore demonstrate

1These were independent, simultaneous develop-ments.

the inadequacy of using only the muc met-ric and argue that results should always begiven for all three. We include a simple com-posite of the three metrics, called mela, forMention, Entity, and Link Average score.2

2 Data and evaluation

We use the ACE corpus (Phase 2) for train-ing and testing. The corpus has three parts:npaper, nwire, and bnews, and each set issplit into a train part and a devtest part.The corpus text was preprocessed with theOpenNLP Toolkit3 (i.e., a sentence detector,a tokenizer, and a POS tagger). In our ex-periments, we consider only true ACE men-tions instead of detecting them; our focus ison evaluating pairwise local approaches ver-sus the global ilp approach rather than onbuilding a full coreference resolution system.

Three primary metrics have been pro-posed for evaluating coreference perfor-mance: (i) the link based muc metric (Vi-lain et al., 1995), (ii) the mention based b3

metric (Bagga and Baldwin, 1998), and (iii)the entity based ceaf metric (Luo, 2005).All these metrics compare the set of chains Sproduced by a system against the true chainsT , and report performance in terms of recalland precision. They however differ in howthey computes these scores, and each embedsa different bias.

The muc metric is the oldest and stillmost commonly used. muc operates by de-termining the number of links (i.e., pairs ofmentions) that are common to S and T . Re-call is the number of common links dividedby the total number of links in the T ; preci-sion is the number of common links dividedby the total number of links in S. By focusingon the links, this metric has two main biases,which are now well-known (Bagga and Bald-win, 1998; Luo, 2005) but merit re-emphasisdue its continued use as the sole evaluationmeasure. First, it favors systems that createlarge chains (hence, fewer entities). For in-stance, a system that produces a single chainachieves 100% recall without severe degrada-tion in precision. Second, it ignores recall forsingle mention entities, since no link can befound in these; however, putting such men-tions in the wrong chain does hurt precision.4

2Interestingly, mela means “gathering” in San-skrit, so this acronym seems appropriate.

3Available from opennlp.sf.net.4It is worth noting that the muc corpus for which

Pascal Denis, Jason Baldridge

88

Page 89: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

T = {m1,m3,m5}, {m2}, {m4,m6,m7}S1 = {m1,m2,m3,m6}, {m4,m5,m7}S2 = {m1,m2,m3,m4,m5,m6,m7}

Figure 1: Two competiting partitionings formention set {m1,m2,m3,m4,m5,m6,m7}.

The b3 metric addresses the muc metric’sshortcomings, by computing recall and pre-cision scores for each mention m. Let S bethe system chain containing m, T be the truechain containing m. The set of correct ele-ments in S is thus |S ∩ T |. The recall scorefor a mention m is thus computed as |S∩T |

|T | ,

while the precision score for m is |S∩T ||S| . Over-

all recall/precision is obtained by averagingover the individual mention scores. The factthat this metric is mention-based by defini-tion solves the problem of single mention en-tities. It also does not favor larger chains,since they will be penalized in the precisionscore of each mention.

The Constrained Entity Aligned F-Measure5 (ceaf) aligns each system chain Swith at most one true chain T . It finds thebest one-to-one mapping between the set ofchains S and T , which is equivalent to findingthe optimal alignment in a bipartite graph.The best mapping is that which maximizesthe similarity over pairs of chains (Si, Ti),where the similarity of two chains is the num-ber of common mentions between them. Forceaf, recall is the total similarity divided bythe number of mentions in all the T , whileprecision is the total similarity divided bythe number of mentions in S. Note thatwhen true mentions are used, ceaf assignsthe same recall and precision: this is becausethe two systems partition the same set ofmentions.

A simple example illustrating how themetrics operate is presented in Figure 1 (seeLuo (2005) for more examples). T is the setof true chains, S1 and S2 are the partitionsproduced by two hypothetical resolvers. Re-call, precision, and f -score for these metricsare given in Table 1.

the metric was devised does not annotate single men-tion entities. However, the ACE corpus does includesuch entities.

5We use the mention-based ceaf measure (Luo,2005). This is the same metric as ECM-F (Luo et al.,2004) used by Klenner (2007).

muc b3 ceaf

R P F R P F FS1 .50 .40 .44 .62 .45 .52 .57S2 1.0 .66 .79 1.0 .39 .56 .43

Table 1: Recall (R), precision (P), and f -score (F) using muc, b3, and ceaf for parti-tionings of Figure 1

The bias of the muc metric for large chainsis shown by the fact that it gives better recalland precision scores for S2 even though thispartition is completely uninformative. Moreintuitively, b3 highly penalizes the precisionof this partition: precision errors are herecomputed for each mention. ceaf is theharshest on S2, and in fact is the only metricthat prefers S1 over S2.

muc is known for being an applicable met-ric when one is only interested in precisionon pairwise links (Bagga and Baldwin, 1998).Given that much recent work —including thepresent paper— seeks to move beyond sim-ple pairwise coreference and produce goodentities, it is crucial that they are scoredon the other metrics as well as muc. Mosttellingly, our results show that both b3 andceaf scores can show degradation even whenmuc appears to show an improvement.

3 Base models

Here we define the three base classifiersfor pairwise coreference, anaphoricity, andnamed entity classification. They form thebasis for several cascades and joint inferencewith ilp. Like Kehler et al. (2004) and Mor-ton (2000), we estimate the parameters ofall models using maximum entropy (Berger,Pietra, and Pietra, 1996); specifically, weuse the limited memory variable metric al-gorithm (Malouf, 2002).6 Gaussian priors forthe models were optimized on developmentdata.

3.1 The coreference classifier

Our coreference classifier is based on thatof Soon, Ng, and Lim (2001), though thefeatures have been extended and are similar(though not equivalent) to those used by Ngand Cardie (2002a). Features fall into 3 cat-egories: (i) features of the anaphor, (ii) fea-tures of antecedent mention, and (iii) pair-wise features (i.e., such as distance between

6This algorithm is implemented in Toolkit for Ad-vanced Discriminative Modeling (tadm.sf.net).

Global joint models for coreference resolution and named entity classification

89

Page 90: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

the two mentions). We omit details here forbrevity (details on the different feature setscan be found in Denis (2007)); the ilp ap-proach could be equally well applied to mod-els using other, extended feature sets suchas those discussed in Denis and Baldridge(2008) and Bengston and Roth (2008).

Using the coreference classifier on its owninvolves: (i) estimating PC(coref|〈i, j〉), theprobability of having a coreferential out-come given a pair of mentions 〈i, j〉, and(ii) applying a selection algorithm that picksone or more mentions out of the candidatesfor which PC(coref|〈i, j〉) surpasses a giventhreshold (here, .5).

PC(coref|〈i, j〉) =exp(

n∑k=1

λkfk(〈i, j〉,coref))

Z(〈i, j〉)

where fk(i, j) is the number of times featurek occurs for i and j, λk is the weight assignedto feature k during training, and Z(〈i, j〉) isa normalization factor over both outcomes(coref and ¬coref).

Training instances are constructed basedon pairs of mentions of the form 〈i, j〉, wherej and i describe an anaphor and an an-tecedent candidate, respectively. Each suchpair is assigned a label, either coref or¬coref, depending on whether or not thetwo mentions corefer. We followed the sam-pling method of Soon, Ng, and Lim (2001)for creating the training material for eachanaphor: (i) a positive instance for the pair〈i, j〉 where i is the closest antecedent for j,and (ii) a negative instance for each pair 〈i, k〉where k intervenes between i and j.

Once trained, the classifier can be usedto choose pairwise coreference links–and thusdetermine the partition of entities–in twoways. The first is to pick a unique antecedentwith closest-first link-clustering (Soon, Ng,and Lim, 2001); this is the standard strat-egy, referred to as COREFclosest. The secondis to simply take all links with probabilityabove .5, which we refer to as COREFabove .5.The purpose of including this latter strategyis primarily to demonstrate an easy way toimprove muc scores that actually degradesb3 and ceaf scores. This strategy indeedresults in positing significantly larger chains,since each anaphor is allowed to link to sev-eral antecedents.

3.2 The anaphoricity classifier

Ng and Cardie (2002a) introduced the use ofan anaphoricity classifier to act as a filter forcoreference resolution to correct errors wherenon-anaphoric mentions are mistakenly re-solved or where anaphoric mentions failed tobe resolved. Their approach produces im-provements in precision, but larger losses inrecall. Ng (2004) improves recall by opti-mizing the anaphoricity threshold. By us-ing joint inference for anaphoricity and coref-erence, Denis and Baldridge (2007) avoidcascade-induced errors without the need toseparately optimize the threshold. They re-alize gains in both recall and precision; how-ever, they report only muc scores. As we willshow, these improvements do not hold for b3

and ceaf.The task for the anaphoricity determina-

tion component is the following: one wantsto decide for each mention i in a documentwhether i is anaphoric or not. This task canbe performed using a simple classifier withtwo outcomes: anaph and ¬anaph. Theclassifier estimates the conditional probabil-ities P (anaph|i) and predicts anaph for iwhen P (anaph|i) > .5. The anaphoricitymodel is as follows:

PA(anaph|i) =exp(

n∑k=1

λkfk(i,anaph))

Z(i)

The features used for the anaphoricityclassifier are quite simple. They include in-formation regarding (i) the mention itself,such as the number of words and whether it isa pronoun, and (ii) properties of the potentialantecedent set, such as whether there is a pre-vious mention with a matching string. Thisclassifier achieves 80.8% on the entire acecorpus (bnews: 80.1, npaper: 82.2, nwire:80.1).

3.3 The named entity classifier

Named entity classification involves pre-dicting one of the five ACE class labels.The set of named entity types T are:facility, gpe (geo-political entity), location,organization, person. The classifier es-timates the conditional probabilities P (t|i)for each t∈T and predicts the named en-tity type t for mention i such that t =argmaxt∈T P (t|i).

Pascal Denis, Jason Baldridge

90

Page 91: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

PE(t|i) =exp(

n∑k=1

λkfk(i, t))

Z(i)

The features for this model include: (i)the string of the mention, (ii) features definedover the string (e.g., capitalization, punctu-ations, head word), (iii) features describingthe word and POS context around the men-tion. The classifier achieves 79.5% on theentire ace corpus (bnews: 79.8, npaper:73.0, nwire: 72.7).

4 Base model results

This section describes coreference perfor-mance when the pairwise coreference classi-fier is used alone with closest-first clustering(COREFclosest) or with the liberal all-links-above-.5 clustering (COREFabove .5), or whenCOREFclosest is constrained by the anaphoric-ity and named entity classifiers as filters ina cascade or by gold-standard information asfilters in oracle systems. The cascades are:

• CASCADEa→c: the anaphoricity classifierspecificies which mentions to resolve

• CASCADEe→c: the named entity classi-fier specifies which antecedents have thesame type as the mention to be resolved;others are excluded from consideration

• CASCADEa,e→c: the two classifiers actingas combined filters

We also provide results for the correspond-ing oracle systems which have perfect knowl-edge about anaphoricity and/or named en-tity types: ORACLEa,c, ORACLEe,c, and ORA-CLEa,e,c.

Table 2 summarizes the results in termsof recall (R), precision (P), and f -score (F)on the three coreference metrics: muc, b3,and ceaf. The first thing to note is the con-trast between COREFclosest and COREFabove .5.Recall that the only difference between thetwo clustering strategies is that the latter cre-ates strictly larger entities than the former byadding all links above .5. By doing so, it gainsabout 10% in R for both muc and b3. How-ever, whereas muc does not register a drop inprecision, b3 P is 14% lower, which producesan overall 1% drop in F. ceaf punishes thisstrategy even more, with a 3.6% drop. Notethat the resulting composite mela scores are

almost identical. Given the nature of thetwo strategies COREFclosest and COREFabove .5,these differences across metrics strongly sup-port arguments that muc is too indiscrimi-nate and can in fact be gamed (knowingly ornot) by simply creating larger chains.

Table 2 also shows that cascades in generalfail to produce significant F improvementsover the pairwise model COREFclosest. Thesesystems are far behind the performance oftheir corresponding oracles. This tendency iseven stronger when both classifiers filter pos-sible assignments: CASCADEa,e→c does muchworse than COREFclosest on all metrics. Infact, this system has the lowest F on theb3 evaluation metric, suggesting that the er-rors of the two filters accumulate in this case.In contrast, the corresponding oracle, ORA-CLEa,e,c, achieves the best results across allmeasures. It does so by capitalizing on theimprovements given by the separate oracles.

Furthermore, note that the use of the twoauxiliary models have complementary effectson the muc and b3 metrics, in both the cas-cade and the oracle systems. Thus, the useof the anaphoricity classifier improves recall(suggesting that some true anaphors get “res-cued” by this model), while the the use ofthe named entity model leads to precision im-provements (suggesting that this model man-ages to filter out incorrect candidates thatwould have been chosen by the coreferencemodel). In the case of the oracle systems,these gains translate in overall F improve-ments. But, as noted, this is generally notthe case with the cascade systems. Only CAS-CADEa→c shows significant gains with mucand ceaf (and not with b3). CASCADEe→c

underperforms in all three metrics. This lat-ter system indeed shows a large drop in recall,suggesting that this model filter is overzeal-ous in filtering true antecedents.

The oracle results suggest that joint mod-eling could deliver large performance gainsby not falling prey to cascade errors. In thenext section, we build on previous ilp for-mulations and show such improvements canindeed be realized.

5 Integer programmingformulations

ilp is an optimization framework for globalinference over the outputs of various baseclassifiers (Roth and Yih, 2004). Previoususes of ilp for nlp tasks include eg. Roth

Global joint models for coreference resolution and named entity classification

91

Page 92: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

System muc b3 ceaf melaR P F R P F R/P/F F-avg

COREFclosest 60.8 72.6 66.2 62.4 77.7 69.2 62.3 65.9COREFabove .5 70.3 72.7 71.5 73.2 63.7 68.1 58.7 66.1CASCADEa→c 64.9 72.3 68.4 65.6 74.1 69.6 63.4 67.1CASCADEe→c 56.3 75.2 64.4 59.6 82.4 69.2 61.6 65.1CASCADEa,e→c 61.3 68.8 64.8 62.5 73.8 67.7 61.9 64.8ORACLEa,c 75.6 75.6 75.6 71.4 70.7 71.1 71.5 72.7ORACLEe,c 62.5 81.3 70.7 62.9 85.5 72.4 65.2 69.4ORACLEa,e,c 83.2 83.2 83.2 79.0 78.2 78.6 78.7 80.2

Table 2: Recall (R), precision (P), and f -score (F) using muc, b3, and ceaf on the entireace corpus for the basic coreference system, the cascade systems, and the corresponding oraclesystems.

and Yih (2004), Barzilay and Lapata (2006),and Clarke and Lapata (2006). Here, we pro-vide several ilp formulations for coreference.The first formulation ILPc,a is based on De-nis and Baldridge (2007) and performs jointinference over the coreference classifier andthe anaphoricity classifier. A second formu-lation ILPc,e combines the coreference classi-fier with the named entity classifier. A thirdformulation ILPc,a,e combines all three mod-els together. In each of these joint formu-lation, a set of consistency constraints mu-tually constrain the ultimate assignments ofeach model. Finally, a fourth formulationILPc,a,e|trans adds to ILPc,a,e a set of transi-tivity constraints (similar to those of Klen-ner (2007)). These latter constraints ensurebetter global coherence between the variouspairwise coreference decisions, hence makingthis fourth formulation both a joint and aglobal model.

For solving the ilp problem, we usecplex, a commercial lp solver.7 In practice,each document is processed to define a dis-tinct ilp problem that is then submitted tothe solver.

5.1 ILPc,a: anaphoricity-coreferenceformulation

The ILPc,a system of Denis and Baldridge(2007) brings the two decisions of corefer-ence and anaphoricity together by includingboth in a single objective function and en-forcing consistency constraints on the finaloutputs of both tasks. More technically, letfirst M denotes the set of mentions, and Pthe set of possible coreference links over M:P = {〈i, j〉|〈i, j〉 ∈ M × M and i < j}.

7http://www.ilog.com/products/cplex/

Each model introduces a set of indicator vari-ables: (i) coreference variables 〈i, j〉 ∈ 0, 1depending on whether i and j corefer ornot, and (ii) anaphoricity variables x〈i,j〉 ∈0, 1 depending on whether j is anaphoricor not. These variables are associated withassignment costs that are derived from themodel probabilities pC = PC(coref|i, j)and pA = PA(anaph|j), respectively. Thecost of commiting to a coreference link iscC〈i,j〉 = −log(pC) and the complement costof choosing not to establish a link is cC〈i,j〉 =−log(1−pC). Analogously, we define costs onanaphoricity decisions as cAj = −log(pA) andcAj = −log(1−pA), the costs associated withmaking j anaphoric or not, respectively. Theresulting objective function takes the follow-ing form:

min∑〈i,j〉∈P

cC〈i,j〉 · x〈i,j〉 + cC〈i,j〉 · (1−x〈i,j〉)

+∑j∈M

cAj · yj + cAj · (1−yj)

subject to:

x〈i,j〉 ∈ {0, 1} ∀〈i, j〉 ∈ Pyj ∈ {0, 1} ∀j ∈M

The final assignments of x〈i,j〉 and yj vari-ables are forced to respect the following twoconsistency constraints (where Mj is the setof all mentions preceding mention j in thedocument):Resolve all anaphors: if a mention isanaphoric (yj=1), it must have at least oneantecedent.

yj ≤∑

i∈Mj

x〈i,j〉 ∀j ∈M

Pascal Denis, Jason Baldridge

92

Page 93: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Resolve only anaphors: if a pair of men-tions 〈i, j〉 is coreferent (x〈i,j〉=1), then j isanaphoric (yj=1).

x〈i,j〉 ≤ yj ∀〈i, j〉 ∈ P

These constraints make sure that theanaphoricity classifier are not taken on faithas they were with CASCADEa→c. Instead, weoptimize over consideration of both possibil-ities in the objective function (relative to theprobability output by the classifier) while en-suring that the final assignments respect thesignifance of what it is to be anaphoric ornon-anaphoric.

5.2 ILPc,e: entity-coreferenceformulation

In this second joint formulation, we combinecoreference decisions with named entity clas-sification. New indicator variables for theassignments of this model are introduced,namely z〈i,j〉, where 〈i, t〉 ∈ M × T . Sinceentity classification is not a binary decision,each assigment variable encode a mention iand a named entity type t. Each of thesevariables have an associated cost cE〈i,t〉, whichis the probability that mention i has type t:cE〈i,t〉 = −log(PE(t|i)). The objective functionfor this formulation is:

min∑〈i,j〉∈P

cC〈i,j〉 · x〈i,j〉 + cC〈i,j〉 · (1−x〈i,j〉)

+∑

〈i,t〉∈M×T

cE〈i,t〉 · z〈i,t〉

subject to:

z〈i,t〉 ∈ {0, 1} ∀〈i, t〉 ∈ M× T∑i∈M

z〈i,t〉 = 1 ∀i ∈M

The last constraint ensures that each men-tion is only assigned a unique named entitytype. Consistency between the two models isensured with the constraint:Coreferential mentions have the sameentity type: if i and j are coreferential(x〈i,j〉=1), they must have the same type(z〈i,t〉 − z〈j,t〉 = 0):

1− x〈i,j〉 ≥ z〈i,t〉 − z〈j,t〉 ∀〈i, j〉 ∈ P, ∀t ∈ T1− x〈i,j〉 ≥ z〈j,t〉 − z〈i,t〉 ∀〈i, j〉 ∈ P, ∀t ∈ T

These constraints above make sure that thecoreference decisions (the x values) are in-formed by the named entity classifier andvice versa. Furthermore, because these con-straints ensure like assignments to coreferentpairs of mentions, they have a “propagating”effect that makes the overall system global.Coreference assignments that have low cost(i.e., high confidence) can influence namedentity assignments (e.g., from a org to aper). This in turn influences other corefer-ence assignments involving further mentionsradiating out from one core, highly likely as-signment.

5.3 ILPc,a,e: anaphoricity-entity-coreferenceformulation

For the third joint model, we combine allthree base models with an objective func-tion that is the composite of those of ILPc,a

and ILPc,e and incorporate all the constraintsthat go with them. By creating a triple jointmodel, we get constraints between anaphoric-ity and named entity classification for free, asa result of the interaction of the consistencyconstraints between anaphoricity and coref-erence and of those between named entityand coreference. For example, if a mentionof type t is anaphoric, then there must be atleast one mention of type t preceding it.

5.4 Adding transitivity constraints

The previous formulations relate corefer-ence decisions to the decisions made bytwo auxiliary models in a joint formulation.In addition one would also like to makecoreference decisions dependent on one an-other, thus ensuring globally coherent enti-ties. This is achieved through the use transi-tivity constraints that relate triples of men-tions 〈i, j, k〉 ∈ M×M×M, where i < j < k(Denis, 2007; Klenner, 2007). These con-straints directly exploit the fact that coref-erence is an equivalence relation.Transitivity: if x〈i,j〉 and x〈j,k〉 are corefer-ential pairs (i.e., x〈i,j〉 = x〈j,k〉 = 1), then sois x〈i,k〉:

x〈i,k〉 ≥ x〈i,j〉 + x〈j,k〉 − 1 ∀〈i, j, k〉 ∈Mi,j,k

Euclideanity: if x〈i,j〉 and x〈i,k〉 are corefer-ential pairs (i.e., x〈i,j〉 = x〈i,k〉 = 1), then sois x〈j,k〉.

Global joint models for coreference resolution and named entity classification

93

Page 94: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

x〈j,k〉 ≥ x〈i,j〉 + x〈i,k〉 − 1 ∀〈i, j, k〉 ∈Mi,j,k

Anti-Euclideanity: if x〈i,k〉 and x〈j,k〉 arecoreferential pairs (i.e., x〈i,k〉 = x〈j,k〉 = 1),then so is x〈i,j〉:

x〈i,j〉 ≥ x〈i,k〉 + x〈j,k〉 − 1 ∀〈i, j, k〉 ∈Mi,j,k

Enforcing Anti-Euclideanity aloneguarantees that the final assignment will notproduce any “implicit” anaphors: that is, aconfiguration wherein x〈j,k〉 = 1, x〈i,k〉 = 1,and yj = 0. The interaction of this con-straint with resolve only anaphors indeedguarantees that such configuration cannotarise, since all three equalities cannot holdtogether. This means that mention j mustbe a good match for mention i as well as formention k.

Note that one could have one unique tran-sitivity constraint if we had symmetry inour model; concretely, capturing symmetrymeans: (i) adding a new indicator variablex〈j,i〉 for each variable x〈i,j〉, and (ii) makingsure x〈j,i〉 agrees with x〈i,j〉.

Enforcing each of these constraints abovemeans adding 1

6 × n× (n− 1)× (n− 2) con-straints, for a document containing n men-tions. This means close to 500, 000 of theseconstraints for a document containing just100 mentions. The inclusion of such a largeset of constraints turned out to be diffi-cult, causing memory issues with large docu-ments (some of the ace documents have morethan 250 mentions). Consequently, we in-vestigated during development various sim-pler scenarios, such as enforcing these con-straints for documents that had a relativelysmall number of mentions (e.g., 100) or justusing one of these types of constraint (inparticular Anti-Euclideanity given the wayit interacts with the discourse status assign-ments). In the following, ILPc,a,e|trans will re-fer to the ILPc,a,e formulation augmented withthe Anti-Euclideanity constraints.

6 ILP Results

Table 3 summarizes the scores for the dif-ferent ilp systems, along with COREFclosest.Like Denis and Baldridge (2007), we find thatjoint anaphoricity and coreference (ILPc,a)greatly improves muc F. However, we alsosee that this model suffers from the sameproblem as COREFabove .5: performance on

the other metrics go down. This is in factunsurprising: COREFabove .5 can be viewed asan unconstrained ilp formulation; similarly,ILPc,a takes all links above .5 subject to meet-ing the constraints on anaphoricity. The con-straining effect of anaphoricity improves mucR and P and b3 R over COREFabove .5, but notb3 P nor ceaf. Despite the encouraging mucscores, more is thus needed.

The next thing to note is that joint namedentity classification and coreference (ILPc,e)nearly beats COREFclosest across the metrics,but fails for ceaf. As for ILPc,a, ILPc,e canalso be viewed as constraining COREFabove .5:in this case, precision is improved (comparemuc: 72.7 to 75.0 and b3: 63.7 to 71.2), whilestill retaining over half the gain in recall thatCOREFabove .5 obtained over COREFclosest. Indoing so, the degradation in ceaf is just 1%,compared to ILPc,a’s 3.4%. In addition to im-proving coreference resolution performance,this joint formulation also yields a slight im-provement on the named entity classification:specifically, accuracy for that task went from79.5% to over 80.0% using the ILPc,e model.

Joint inference over all three models(ILPc,a,e) delivers larger improvements forboth muc and b3 without any ceaf degrada-tion, thus mirroring the improvements foundwith the corresponding oracle. In partic-ular, R is boosted nearly to the level ofCOREFabove .5 without the dramatic loss inP (in fact P is better than COREFclosest formuc). By adding the Anti-Euclideanity con-straint to this formulation (ILPc,a,e|trans), wesee the best across-the-metric scores of anysystem. For muc and b3, both P and Rare boosted over COREFclosest, and there isa jump of 4% for ceaf. Both the mucand ceaf improvements for ILPc,a,e|trans arein line with the improvements that Klen-ner (2007) found using transitivity, thoughit should be noted that he scored on all men-tions, not just true mentions as we do here.

The composite mela metric provides aninteresting overall view, showing step-wiseimprovements through the addition of thevarious models and the global constraints.

These results are in sharp contrast withthose obtained by the cascade model CAS-CADEa,e→c: recall that this system, while alsousing the two auxiliary models as filters wasworse than COREFclosest. The joint ilp formu-lation is clearly better able to integrate theextra information provided by the anaphoric-

Pascal Denis, Jason Baldridge

94

Page 95: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

System muc b3 ceaf melaR P F R P F R/P/F F

COREFclosest 60.8 72.6 66.2 62.4 77.7 69.2 62.3 65.9COREFabove .5 70.3 72.7 71.5 73.2 63.7 68.1 58.7 66.1ILPc,a 73.2 73.4 73.3 75.3 62.0 68.0 58.9 66.7ILPc,e 66.2 75.0 70.4 69.6 71.2 70.4 61.2 67.3ILPc,a,e 69.6 75.4 72.4 72.2 69.7 70.9 62.3 68.5ILPc,a,e|trans 63.7 77.8 70.1 65.6 81.4 72.7 66.2 69.7

Table 3: Recall (R), precision (P), and f -score (F) using the muc, b3, and ceaf evaluationmetric on the entire ace dataset for the ilp coreference systems.

ity and named entity classifiers. In doingso, it does not require fine-tuning thresholds,and it can further benefit from constraints,such as transitivity.

Further experiments reveal that bringingthe other transitivity constraints into theilp formulation results in additional preci-sion gains, although not in overall F gains.The effect of these constraints is to withdrawincoherent links, rather than producing newlinks. At the global level, this results in thecreation of smaller, more coherent clustersof mentions. In some cases, this will leadto a single entity being split across multi-ple chains. Switching on these constraintsmay therefore be useful for certain applica-tions where precision is more important thanrecall.

Though in general ceaf appears to be themost discriminating metric, this point bringsup the reason why using ceaf on its own isnot ideal. When one entity is split across twoor more chains, all the links between the men-tions are indeed correct and will thus be use-ful for applications like information retrieval.muc and b3 give points to such assignments,whereas only the largest of such chains will beused for ceaf, leaving the others—and theircorrect links—out of the score. It is also in-teresting to consider muc and b3 as they canbe useful for teasing apart the behavior ofdifferent models, for example, with ILPc,a,e

compared to COREFclosest, where ceaf wasthe same but the others were different.

There is an interesting point of compar-ison with our results using rankers ratherthan classifiers and using models specializedto particular types of mentions (Denis andBaldridge, 2008). This work does not useilp, but the best system there, with f -scoresof 71.6, 72.7, and 67.0 for muc, b3, andceaf, respectively, actually slightly beats

ILPc,a,e|trans, our best ilp system. This un-derscores the importance of attending care-fully to the base classifiers and features used(see also Bengston and Roth (2008) in this re-gard). The ilp approach in this paper couldstraightforwardly swap in these better basemodels. We expect this to lead to further per-formance improvements, which we intend totest in future work, as well as testing the per-formance of these models and methods whenusing predicted, rather than gold, mentions.

7 Conclusion

We have shown that joint inference overcoreference, anaphoricity, and named entityclassification using ilp leads to improvementsfor all three main coreference metrics: muc,b3, and ceaf. The fact that b3 and ceafscores were also improved is significant: theilp formulations tend to construct largercoreference chains—these are rewarded bymuc without precision penalties, but b3 andceaf are not as lenient.

As importantly, we have provided a care-ful study of cascaded systems, oracle sys-tems and the joint systems with respect toall of the metrics. We demonstrated that themuc metric’s bias for larger chains leads itto give much higher scores while performanceaccording to the other metrics actually drops.Nonetheless, b3 and ceaf also have weak-nesses; it is thus important to report all ofthese scores. We also include the mela scoreas a simple at-a-glance composite metric.

Acknowledgments

We would like to thank Nicholas Asher,David Beaver, Andrew Kehler, Ray Mooney,and the three anonymous reviewers for theircomments, as well as the audience at theworkshop for their questions. This work wassupported by NSF grant IIS-0535154.

Global joint models for coreference resolution and named entity classification

95

Page 96: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

References

Bagga, A. and B. Baldwin. 1998. Algorithmsfor scoring coreference chains. In Proceed-ings of LREC 1998, pages 563–566.

Barzilay, Regina and Mirella Lapata. 2006.Aggregation via set partitioning for natu-ral language generation. In Proceedings ofHLT-NAACL 2006, pages 359–366, NewYork City, USA.

Bengston, Eric and Dan Roth. 2008. Under-standing the value of features for coref-erence resolution. In Proceedings ofEMNLP 2008, pages 294–303, Honolulu,Hawaii.

Berger, A., S. Della Pietra, and V. DellaPietra. 1996. A maximum entropy ap-proach to natural language processing.Computational Linguistics, 22(1):39–71.

Clarke, James and Mirella Lapata. 2006.Constraint-based sentence compression:An integer programming approach. InProceedings of COLING-ACL 2006, pages144–151.

Denis, P. 2007. New Learning Models forRobust Reference Resolution. Ph.D. the-sis, University of Texas at Austin.

Denis, P. and J. Baldridge. 2007. Joint deter-mination of anaphoricity and coreferenceresolution using integer programming.In Proceedings of HLT-NAACL 2007,Rochester, NY.

Denis, Pascal and Jason Baldridge. 2008.Specialized models and ranking for coref-erence resolution. In Proceedings ofEMNLP 2008, pages 660–669, Honolulu,Hawaii.

Haghighi, A. and D. Klein. 2007. Unsuper-vised coreference resolution in a nonpara-metric bayesian model. In Proceedings ofACL 2007, pages 848–855, Prague, CzechRepublic.

Kehler, A., D. Appelt, L. Taylor, andA. Simma. 2004. The (non)utility ofpredicate-argument frequencies for pro-noun interpretation. In Proceedings ofHLT-NAACL 2004.

Klenner, M. 2007. Enforcing coherenceon coreference sets. In Proceedings ofRANLP 2007.

Luo, X. 2005. On coreference resolution per-formance metrics. In Proceedings of HLT-NAACL 2005, pages 25–32.

Luo, Xiaoqiang, Abe Ittycheriah, HogyanJing, Nanda Kambhatla, and SalimRoukos. 2004. A mention-synchronouscoreference resolution algorithm based onthe bell tree. In Proceedings of ACL 2004,pages 135–142, Barcelona, Spain.

Malouf, R. 2002. A comparison of algorithmsfor maximum entropy parameter estima-tion. In Proceedings of the Sixth Workshopon Natural Language Learning, pages 49–55, Taipei, Taiwan.

McCallum, A. and B. Wellner. 2004. Condi-tional models of identity uncertainty withapplication to noun coreference. In Pro-ceedings of NIPS 2004.

Morton, T. 2000. Coreference for NLP ap-plications. In Proceedings of ACL 2000,Hong Kong.

Ng, V. 2004. Learning noun phraseanaphoricity to improve coreference reso-lution: Issues in representation and opti-mization. In Proceedings of ACL 2004.

Ng, V. and C. Cardie. 2002a. Identi-fying anaphoric and non-anaphoric nounphrases to improve coreference resolution.In Proceedings of COLING 2002.

Ng, V. and C. Cardie. 2002b. Improving ma-chine learning approaches to coreferenceresolution. In Proceedings of ACL 2002,pages 104–111.

Roth, Dan and Wen-tau Yih. 2004. A linearprogramming formulation for global infer-ence in natural language tasks. In Pro-ceedings of CoNLL.

Soon, W. M., H. T. Ng, and D. Lim. 2001.A machine learning approach to corefer-ence resolution of noun phrases. Compu-tational Linguistics, 27(4):521–544.

Vilain, M., J. Burger, J. Aberdeen, D. Con-nolly, and L. Hirschman. 1995. A model-theoretic coreference scoring scheme. InProceedings fo the 6th Message Under-standing Conference (MUC-6), pages 45–52, San Mateo, CA. Morgan Kaufmann.

Pascal Denis, Jason Baldridge

96

Page 97: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

AQA: a multilingual Anaphora annotation scheme for QuestionAnswering∗

AQA: Un modelo de anotacion anaforico multilingue para Busqueda deRespuestas

E. Boldrini1, M. Puchol-Blasco1, B. Navarro1, P. Martınez-Barco1 and C. Vargas-Sierra2

1 Grupo de Investigacion en Procesamiento del Lenguaje Natural y Sistemas de InformacionDepartamento de Lenguajes y Sistemas Informaticos

Universidad de Alicante2 Departamento de Filologıa Inglesa

Universidad de AlicanteAlicante, Spain

{eboldrini, marcel, borja, patricio}@dlsi.ua.es and [email protected]

Resumen: En este trabajo presentamos AQA, un modelo multilingue de anotacionde expresiones anaforicas, ideado para ser utilizado en Aprendizaje Automatico paramejorar los sistemas de Busqueda de Repuestas. Con este modelo se ha anotado lacoleccion de preguntas-respuestas del CLEF 2008, concretamente en los idiomasespanol, italiano e ingles. AQA esta inspirado en el meta-modelo MATE, ajustadoa nuestras necesidades. Con AQA se especifica la relacion entre la anafora y su an-tecedente (que puede ser directa o indirecta), las agrupaciones por topico y cambiosde subtopico, ası como diferentes tipos de anaforas (pronominal, adverbial, superfi-cial, descripciones definidas y elipsis). Se ha realizado una anotacion ciega entre dosanotadores mas un arbitro que decide en caso de desacuerdo. Los resultados de laevaluacion muestran un 87% de acuerdo entre los anotadores. Algunos problemas deanotacion seran expuestos en el trabajo. Nuestra finalidad es ampliar este modeloa otras lenguas y otros corpus, y aplicarlo finalmente en el desarrollo de un sistemade resolucion de la anafora en preguntas-respuestas multilingue basado en tecnicasde aprendizaje automatico para mejorar la interaccion hombre-maquina.Palabras clave: resolucion anafora, corpus multilingue, Aprendizaje Automatico,acuerdo de anotacion, interaccion, sistemas de Busqueda de Respuestas.

Abstract: This paper presents AQA, a multilingual anaphora annotation schemethat can be applied in Machine Learning for the improvement of Question Answeringsystems. It has been used to annotate the collection of CLEF 2008 in Spanish, Italianand English. AQA is inspired by the MATE meta-model, which has been adjustedto our needs. By using AQA we specify the relationshiop between the anaphora andits antecedent, cases of topic and subtopic, and we label different types of anaphoricexpressions. A blind annotation was carried out by two annotators, and a refereefor solving cases of disagreement. The results of the evaluation show an 87% levelof inter-annotator agreement. Some annotation problems will be reported in thispaper. Our aim is to extend this model to other languages, and to apply it tothe development of an Anaphora Resolution system based on Machine Learningtechinques in order to improve a real human machine-interaction.Keywords: anaphora resolution, multilingual corpora, Machine Learning, inter-annotator agreement, interaction, Question Answering systems.

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 97-104 recibido 15-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 98: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

1 Introduction

This paper presents AQA, a multilingualanaphora annotation scheme that can be ap-plied to every question-answer corpus (QA)with cases of anaphora.

In recent years there has been a grow-ing interest in the creation of anaphora an-notation schemes, especially for English. Inthis context, it is worth mentioning theUCREL anaphora annotation scheme (Fligel-stone, 1992), developed at Lancaster Uni-versity. The SGML-based MUC annotationscheme (Hirschman y Chincho, 1998), cre-ated for MUC-7, focused on anaphora for In-formation Extraction task, and other annota-tion schemes based on MUC are by Mitkov etal. (2000) or by Navarro (2007), among oth-ers. Proposals for other languages could alsobe found. To mention but a few examples, wefind proposals for French (Popescu-Belis andRobba (1997); Tutin et al. (2000)); for Span-ish and Catalan (Recasens et al. (2007)); orfor Basque (Aduriz et al. (2007)).

As it is well-known, the MATE/GNOMEmeta-scheme by Massimo Poesio (2004) canbe adjusted to meet different needs and goals.AQA annotation scheme is inspired by thismeta-model.

The problem of anaphora resolution in di-alogues and/or in QA series has been ex-plored in several works (Martınez-Barco yPalomar, 2001; Jain et al., 2004; Negriy Kouylekov, 2007). However, as far aswe know, little work has been reported onanaphora resolution in QA series in a multi-lingual framework1.

In this paper, we focus on this subject.We have developed a multilingual anaphoraannotation scheme in order to label the QAcorpus of CLEF 2008 in Spanish, Italian, andEnglish, aiming at using this annotated cor-pus for the application of Machine Learn-ing (ML) techniques in the development ofanaphora resolution systems. Our final goal

∗ This paper has been supported by the follow-ing projects: “Question Answering Learning tech-nologies in a multiLingual and Multimodal Envi-ronment QALL-ME” (FP6 IST-033860), “Intelli-gent, Interactive and Multilingual Text Mining basedon Human Language Technologies, TEXT-MESS”(TIN2006-15265-C06-01), by the Generalitat Valen-ciana throught the research grant BFPI06/182, andby the grant BII2008-7898717 of the University of Al-icante.

1About multilingual question-answering, seeCLEF campaign at http://clef-campaign.org/

is to achieve an anaphora resolution systemfor collection of multilingual questions andanswers capable of providing a more realisticinteraction between the user and the system.

The remainder of this paper is organizedas follows: Section 2 describes the principleswe adopted for the annotation. Sections 3and 4 present the main aspects of the an-notation scheme, the tag set developed andan analysis of problematic cases. Sections 5and 6 illustrate the evaluation and the re-sults, and finally conclusions from the studyare discussed in section 6.

2 Principles

The design of an annotation scheme involvesa number of decisions that are crucial for thefinal result of its performance. The approachpursued with AQA is based on the next gen-eral principles:

1. AQA scheme is specific for QA texts.The behaviour of anaphoric and corefer-encial expressions in question-answeringand, in general, in dialogues, is differentfrom narrative texts. In fact, the dia-logue structure (QA structure) has sig-nificant influence on anaphoric relations,and, especially, where the antecedent islocated. In this sense, the antecedent ofa specific anaphoric expression in a ques-tion could be located at the same ques-tion, at previous questions or at previousanwers (Negri y Kouylekov, 2007).

2. AQA scheme has been created ad hoc formultilingual applications. Indeed, ourobjective is to develop the same anno-tation scheme for different languages tohave the possibility to employ it in mul-tilingual QA systems. At present, theworking languages in the project are En-glish, Spanish and Italian.

3. With AQA annotation scheme we focuson the highest computational efficiency.Our final aim is to develop an anaphoraresolution system for multilingual QAbased on ML techniques. Consequently,the design of the specific scheme for MLhas always been taken into account.

4. With AQA annotation scheme we arelooking for a broad applicability. In thissense, we do not follow any specific lin-guistic theory about anaphoric relations.Instead, we assume a standard point of

E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra

98

Page 99: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

view about the anaphoric phenomenon(Mitkov, 2002).

The first step of our work consisted in de-ciding what had to be annotated, and in cre-ating the resulting markup scheme. In thenext section the main aspects of the markupscheme are presented.

3 Markup scheme and tags

The anaphoric elements that are manuallyspecified are the following:

• the anaphora type: we label pronomi-nal, superficial, and adverbial anaphora,as well as some cases of ellipsis (ellipti-cal subject, elliptical object, and nom-inal phrases with nominal complementbut with elliptical head) and definite de-scriptions.

• the relation type between anaphoric ex-pression and its direct or bridging an-tecedent. Thanks to the link betweenthe anaphora and its antecedent we areable to detect all the coreference chainsthroughout the corpus.

• the topic change in a set of questions.We decided to detect the beginning andthe end of each topic and subtopic.Questions grouped together share thesame topic. However, we also observedsome cases of subtopic in the samegroup.

The tags created to build up our modelare the following:

• <t></t> (topic): the function of this tagis to group questions about the sametopic.

• <subt></subt> (subtopic): this tag isused to mark the cases of topic changein the same group of questions.

• <q></q> (question): this tag indicatesthe question/answer pair. It has the IDattribute, which identifies the pair.

• <de></de> (discourse entity): discourseentities (antecedents) are detected by as-signing to the ant="ref" attribute ofeach anaphora the same ID attribute ofits antecedent.

• <link></link> (anaphora): theanaphora element includes all the

information about the anaphora. Theavailable attributes for this tag are thefollowing:

– rel="dir|indir" (direct or bridg-ing): this element indicates the rela-tionship between the anaphora andits antecedent: direct (dir) or bridg-ing (indir).

– status="ok|no" (sure or uncer-tain): by inserting this attributethe annotator marks his/her(un)certainty with respect to agiven annotation.

– type="pron|sup|adv|elips|dd":this attribute specifies the type ofanaphora, i.e., pronominal, adver-bial, superficial. It is also used forellipsis or definite description.

– ref="n1": for indicating the num-ber of the discourse entity (de) theanaphora is referring to.

– ant="q|a" question or answer : thistag specifies if the antecedent is inthe question or in the answer. Ifthe answer does not appear in thecorpus, but the antecedent is withinthe answer, the ant="ref" tag willnot appear. The antecedent ismarked only with the tag ant="a".

– refq="q1": the question-answerpair in which the anaphora an-tecedent is situated. It will corre-spond to a specific q id labelled inthe corpus.

Figure 1 shows a group of questions anno-tated using AQA. Some of these tags and acase of subtopic change can be observed.

4 Some problematic cases

4.1 Antecedent detection

Anaphora annotation is a difficult task witha poor level of inter-annotator agreement(Mitkov, 2002). One of the main complexaspects is the ambiguity for the antecedentdetection. In fact, there are cases in whichmore than one discourse entity could be theantecedent of an anaphoric expression.

In the CLEF 2008 QA corpus there aremany cases in which the antecedent can belabelled in the question, but also in the an-swer. In these cases, the annotators alwaysmark the antecedent closest to the anaphoric

AQA: a multilingual Anaphora annotation scheme for Question Answering

99

Page 100: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

<t><q id="q538">What was the name of the plane used by<de id="n52">John Paul II</de> in<link rel="indir" status="ok" ant="q"refq="q538" type="dd" ref="n52"> histravel</link> to the USA in 1995?

</q><subt><q id="q539">What instrument did Niccol Paganiniplay?

</q></subt>

</t>

Figure 1: Sample of the QA corpus CLEF2008 annotated with AQA scheme.

expression. However, if the corpus does notcontain the answer (as in CLEF 2008 QA cor-pus), questions are given priority, as we workonly with a collection of queries. When theannotators cannot find the antecedent of theanaphora under analysis in one of the ques-tions of the collection, they will be forced tolabel the antecedent in the answer, althoughit does not appear explicitly in the corpus.

4.2 World knowledge

In order to label the anaphora and its an-tecedent properly, the annotators must acti-vate sometimes their world knowledge. Theproblem may arise when it is not possible toknow if annotators have the necessary worldand cultural knowledge to detect the correctantecedent.

For example, in this case,

<t><q id="q404">Which was <de id="n2">the "gordo" in the1995 Christmas</de>?

</q><q id="q405">Which was <link rel="indir" status="no"type="dd" ref="n2" ant="q" refq="q404">the prize</link>?

</q></t>

“the prize” is the definite description of“gordo”, but if the annotators do not knowthat in Spain the “gordo” is a typical Christ-mas lottery prize (and not Santa Claus or a“fat” men2), they will not be able to detectthe correct antecedent for this anaphora.

2The literal translation of “gordo” in English is“fat”.

It is not an easy task to deal with thesecases of ambiguity arising from a lack of prag-matic or cultural knowledge. As a conse-quence, they are the main cause of mistakesduring the annotation.

4.3 Collective nouns

We also detect some cases of collective nouns,which are singular nouns referring to a plu-ral concept. The problem here is that theanaphora does not always match up in num-ber with its antecedent, and this situationcould produce cases of ambiguity. Annota-tors must apply semantic criteria and com-mon sense in order to detect the correct an-tecedent.

In this example:

<t><q id="q432">What is <de id="n18">the starring cast</de> of the film Beetlejuice?

</q><q id="q433">Who of <link rel="dir" status="ok"type="pron" ref="n18" ant="q" refq="q432">them</link> is the main character?

</q></t>

As the previous example shows, the pronomi-nal anaphora “them” is referring to the “star-ring cast”: “them” is plural and “the starringcast” is singular. The relation between themis correct, since the starring cast is a collec-tive noun that refers to the group of actorswho are performing in a movie.

4.4 Doubtful position of theantecedent

We also detected cases in which the an-tecedent recognition could be ambiguous, be-cause the annotator has to choose betweenmultiple options.

Let us see an example:

<t><q id="q465">What transport was used in <de id="n36">the Kon-TikiExpedition</de>?

</q><q id="q466">How many people crewed <link rel="dir"status="ok" type="pron" ref="n36" ant="q"refq="q465">it</link>?

</q></t>

The annotator does not know whether theantecedent of “it” is the “transport” or “the

E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra

100

Page 101: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Kon-Tiki Expedition”. In fact this pronoundoes not provide any information regardingits genre.

As we have just mentioned, the generalrule is to select the closest antecedent to theanaphora, which in this case is “the Kon-TikiExpedition”.

4.5 Nested antecedent

The problems mentioned in this subsectionand in the next one do not represent specialcases of difficulty, but they could produce am-biguity when specifying the correct size of theantecedent.

There are cases in which we have an an-tecedent inside another one, and they are re-ferring to two different anaphors. The nextexample shows this specific case:

<t><q id="q427">Who were <de id="n14">the founders of <deid="n15">Magnum Photos</de> </de>?

</q><q id="q428">In what year did <link rel="dir"status="ok" ant="q" refq="q427"type="pron" ref="n14">they</link> found<link rel="dir" status="ok" type="pron"ref="n15" ant="q" refq="q427">it</link>?

</q></t>

The antecedent of “them” is “the founders ofMagnum Photos”, while the antecedent for“it” is only “Magnum Photos”.

4.6 An anaphora inside anantecedent of another one

There are cases in which the anaphoric el-ement has to be annotated inside the an-tecedent of an anaphora that has another an-tecedent. For example:

<t><q id="q434">What is <de id="n19">a censer</de>?

</q><q id="q435">What name is given to <de id="n20"> <linkrel="dir" status="no" type="pron"ref="n19" ant="q" refq="q434">the one</link> of the Cathedral of Santiago deCompostela </de>?

</q><q id="q436">How much does <link rel="dir" status="ok"type="pron" ref="n20" ant="q" refq="q435">it</link> weight?

</q></t>

Finally, we would like to mention a specificproblem in the Italian and Spanish corpus:

the clitic pronouns. They appear attachedto the verb. When clitic pronouns are de-tected, we do not separate the verb from thepronoun.

5 Evaluation

In order to know the quality of this annota-tion scheme, we have developed a pilot evalu-ation, manually annotating the CLEF multi-lingual QA corpus. There are 600 questionsin the corpus, each one translated into En-glish (200), Italian (200) and Spanish (200).At the current state of the project, these re-sults are preliminary. In the near future, ouraim is to annotate a larger corpus.

A blind annotation was carried out by twoannotators. After this process, we evaluatedthe inter-annotator agreement independentlyfor each aspect of anaphoric annotation andlanguage. Finally we calculated the generalagreement. The evaluation aspects we tookinto consideration are the following:

1. topic boundary;

2. anaphora detection;

3. anaphora attributes; and

4. antecedent recognition.

5.1 Measures used

The measures used to calculate the inter-annotator agreement are the kappa value(when static classes are present), and the ob-served agreement (when non static classes arepresent). Kappa is computed according toCohen method (Cohen, 1960; Carletta, 1996;Artstein y Poesio, 2008):

k = P (A)−P (E)1−P (E)

where P (A) is the observed agreementamong annotators, and P (E) the probabilitythat annotators agree by chance.

5.2 Topic boundary evaluation

Topic boundary can be seen as a binary clas-sification. For each question the class “n”is assigned to mark a new topic, while theclass “s” is employed when the question isabout the same topic as the previous query.Taking into account these premises, Table 1shows the contingency table and the kappameasure.

AQA: a multilingual Anaphora annotation scheme for Question Answering

101

Page 102: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Spanish Italian EnglishA1/A2 S N S N S N

S 62 0 62 0 61 0N 0 138 0 138 1 138

Kappa 1 1 0.988

Table 1: Contingency table for topic bound-ary evaluation.

5.3 Anaphora detection

Anaphora detection has not specific classesfor using kappa measure. As a consequence,only the observed agreement among the an-notators can be extracted. The anaphoradetection agreement is presented in Table2. The acronyms used in this table mean:A1: anaphors detected by annotator 1;A2: anaphors detected by annotator 2; AA:anaphors detection agreement; DAB: differ-ent anaphora boundary, that is, anaphorsthat coincide in the two corpora, but havingdifferent content.

Spanish Italian EnglishA1 70 69 67A2 70 69 68AA 70 69 67

DAB 1 1 0

Table 2: Anaphora detection agreement.

5.4 Anaphora attributes

Once the anaphora has been detected, themethod used for anaphora attribute evalu-ation is the kappa statistic. The results ofthe anaphora detection agreement are: 70anaphors in Spanish, 69 in Italian, and 67in English.

Regarding the antecedent attribute, Q isused when the antecedent is detected in thequestion, while A is used when the antecedentis in the answer. Table 3 presents the contin-gency table for this attribute.

Spanish Italian EnglishA1/A2 Q A Q A Q A

Q 64 0 62 0 61 0A 0 6 0 7 0 6

Kappa 1 1 1

Table 3: Contingency table for antecedent at-tribute evaluation.

The anaphora type was lebelled tak-ing into consideration 5 attributes: Elip-sis (Elips), Pronominal (Pron), Adverbial

(Adv), Superficial (Sup) and Definite De-scription (DD). The results for the type at-tribute are shown at Table 4.

Spanish Italian EnglishA1 A2 A1 A2 A1 A2

Elips 33 33 32 32 3 3Pron 13 15 13 13 42 42Adv 1 1 2 2 1 1Sup 1 0 0 0 0 0DD 22 21 22 22 21 21P(A) 0.97 1 1

Kappa 0.955 1 1

Table 4: Anaphora type agreement.

We also evaluated the agreement obtainedregarding the relation attribute. In this case,it is possible to choose between two options;the first one is D (direct relation), while thesecond is I (indirect relation). Table 5 illus-trates the results.

Spanish Italian EnglishA1/A2 D I D I D I

D 52 0 51 0 52 0I 4 14 1 17 2 13

Kappa 0.838 0.961 0.909

Table 5: Contingency table for relation at-tribute evaluation.

5.5 Antecedent recognition

Antecedent recognition has no fixed classesfor using kappa measure, and as a conse-quence, the observed agreement among theannotators should be extracted. The an-tecedent recognition agreement is presentedin Table 6. The acronyms used in this tablemean: TAA: total antecedents into the an-swer; TAQ: total antecedents into the ques-tion; ASQ: anaphors pointing the same ques-tions, it means, refq agreement; and ADB:antecedents with different boundary.

Spanish Italian EnglishTAA 6 7 6TAQ 64 62 61ASQ 64 62 61ADB 2 3 1

Table 6: Antecedent recognition agreement.

5.6 General agreement

The general agreement is showed in Table 7.In this evaluation, all the aforementioned at-

E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra

102

Page 103: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

tributes have been considered: first columnshows the amount of anaphors detected, andsecond column the amount of anaphors withexact agreement. Finally, the average for alllanguages is calculated as general agreement.

Total Agreement %Spanish 70 60 0.857Italian 69 60 0.869English 67 59 0.880Average 0.868

Table 7: General agreement.

Surprisingly, all these results show a highlevel of agreement between two annotators inall aspects evaluated.

With these results we can conclude thatthe annotation scheme has been well de-signed, and its application to this multilin-gual QA corpus has been carried out cor-rectly. However, as we said before, theseresults are only preliminary. Probably, theambiguity level of this corpus is not toohigh, thus we will apply the same annota-tion scheme to a larger corpus, with morelanguages, more anaphoric expressions, andmore cases of ambiguity.

In this case, the results are promising, andthey indicate that the project is progressingsuccessfully.

6 Conclusion and Future Work

In this paper we have presented AQA, ananaphora annotation scheme for the man-ual annotation of multilingual QA corpora.With this scheme we mark different types ofanaphors, the relationship between anaphoraand its antecedent, and the groups of ques-tions with the same topic.

The main purpose of this scheme is to de-velop an anaphora resolution system based inML techniques in order to improve the inter-action between the user and the QA systemand, in this way, establishing a dialogue be-tween them. In fact, by using AQA, a MLsystem will be able to extract many featurescapable of detecting the correct antecedentfor each anaphora.

As we can conclude from the evalua-tion results, we reached a considerable inter-annotator agreement rate. However, our in-tention is to apply the scheme to other col-lections of questions and other languages tocheck AQA reliability.

As we mentioned in the previous section,we carried out the research with three lan-guages involved. This multilingualism offerssome advantages, but it is also a source ofcomplexity. The main advantage is that thecorpus shows cases in which the anaphoricrelation is the same in different languages,so we can extract cross-linguistic features foranaphora resolution. However, using dif-ferent languages may cause problems. Infact, languages are very complex and differ-ent from each other. Working with a parallelcorpus does not provide any guarantee of sim-ilarity between them: there are cases in whichthe same query is different in the three lan-guages, and the annotator should take intoaccount these differences in order to annotatethe corpus properly.

In any case, as Future Work, we will ap-ply the AQA annotation scheme to a largercorpus with more texts written in more lan-guages in order to check its reliability, and,finally, to improve a multilingual anaphoraresolution system for QA.

Bibliografıa

Aduriz, I., K. Ceberio, y A. Dıaz de Ilar-raza. 2007. Pronominal Anaphora inBasque: Annotation issues for later com-putational treatment. En A. Branco, ed-itor, Anaphora: Analysis, Algorithms andApplications. 6th Discourse Anaphora andAnaphor Resolution Colloquium, DAARC2007, volumen 4410 de Selected Papers.Lecture Notes in Computer Science, La-gos Portugal.

Artstein, R. y M. Poesio. 2008. Inter-CoderAgreement for Computational Linguistics.Computationl Linguistics, 34(4):555–596.

Carletta, J. 1996. Assessing agree-ment on classification task: the kappastatistic. Computational Linguistics,22(2):249–254.

Cohen, J. 1960. A coefficient of agreementfor nominal scales. Educational and Psy-chological Measurement, 20:37–46.

Fligelstone, S. 1992. Developing a Schemefor Annotating Text to Show Anaphoricrelations. En G. Leitner, editor, NewDirection in English Language Corpora:Methodology, Results, Software Devel-opments. Mouton de Gruyter, Berlin,paginas 153–170.

AQA: a multilingual Anaphora annotation scheme for Question Answering

103

Page 104: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Hirschman, L. y N. Chincho. 1998. Muc-7 coreference task definition (version 3.0).En Proceedings of Message UnderstandingConference (MUC-7).

Jain, P., M. Mital, S. Kumar, A. Mukerjee,y A. Raina. 2004. Anaphora resolutionin multi-person dialogues. En MichaelStrube y Candy Sidner, editores, Proceed-ings of the 5th SIGdial Workshop on Dis-course and Dialogue, paginas 47–50, Cam-bridge, Massachusetts, USA.

Martınez-Barco, P. y M. Palomar. 2001.Computational Approach to AnaphoraResolution in Spanish Dialogues. Journalof Artificial Intelligence Research, 15:263–287.

Mitkov, R. 2002. Anaphora Resolution.Longman.

Mitkov, R., R. Evans, C. Orasan, C. Barbu,L. Jones, y V. Sotirova. 2000. Corefer-ence and anaphora: developing annotat-ing tools, annotated resources and anno-tation strategies. En Proceedings of theDiscourse, Anaphora and Reference Res-olution Conference (DAARC 2000), Lan-caster.

Navarro, B. 2007. Metodologıa, con-struccion y explotacion de corpus anota-dos semantica y anaforicamente. Ph.D.tesis, University of Alicante, Alicante.

Negri, M. y M. Kouylekov. 2007. ’WhoAre We Talking About?’ Tracking theReferent in a Question Answering Series.En A. Branco, editor, Anaphora: Analy-sis, Algorithms and Applications. 6th Dis-course Anaphora and Anaphor ResolutionColloquium, DAARC 2007, volumen 4410de Selected Papers. Lecture Notes in Com-puter Science, Lagos Portugal.

Poesio, M. 2004. Discourse annotation andsemantic annotation in the gnome corpus.En Proceedings of the 2004 ACL Work-shop on Discourse Annotation, paginas72–79, Barcelona.

Popescu-Belis, A. y I. Robba. 1997. Co-operation between pronoun and referenceresolution for unrestricted texts. En Pro-ceedings of the ACL’97/EACL’97 work-shop on Operational Factor in Practical,Robust Anaphora Resolution, Madrid.

Recasens, M., M.A. Martı, y M. Taule.2007. Text as a Scene: Discourse deixisand Bridging relations. Procesamiento delLenguaje Natural, 39:205–212.

Tutin, A., F. Trouilleux, C. Clouzot,E. Gaussier, A. Zaenen, S. Rayot, y G. An-toniadis. 2000. Anotating a large cor-pus with anaphoric links. En Proceedingsof the Discourse, Anaphora and ReferenceResolution Conference (DAARC 2000),Lancaster.

E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra

104

Page 105: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Co-referential chains and discourse topic shifts in parallel andcomparable corpora∗

Cadenas correferenciales y cambios de topico discursivo en corpusparalelos y comparables

Costanza NavarrettaUniversity of Copenhagen

Njalsgade 140-142, build. 252300 Copenhagen - Denmark

Resumen: En este artıculo se describen los textos del italiano y danes comparablesy anotados con cadenas de correferencia e informacion sobre los cambios de topicodiscursivo, ası como una evaluacion de dicha anotacion. Tambien se discuten lasdiferencias generales en el modo de referir las expresiones en danes e italiano. Sepresenta tambien el analisis de la relacion entre el uso de tipos de expresiones referi-das y cambios de topico discursivo en parte de los datos utilizando el marco teoricodel Centering.Palabras clave: italiano, danes, cadenas correferenciales, topico discursivo, ano-tacion de corpus

Abstract: In this paper we describe Danish and Italian parallel and comparabletexts annotated with (co)referential chains and information about discourse topicshifts, and present an evaluation of the annotation. We also discuss general differ-ences in the way referring expressions are used in Danish and Italian and present theanalysis of the relation between the use of types of referring expression and discoursetopic shifts in part of the data using the Centering framework.Keywords: Italian, Danish, referential chains, discourse topics, corpus annotation

1 Introduction

Identifying co-referential chains in corporais important for many applications involv-ing natural language processing. Studyingthe relation between co-referential chains,the use of nominal expressions and discoursetopic shifts is furthermore useful for particu-lar NLP applications such as summarization,abstracting, natural language generation andmachine translation. A theoretic frameworkfor analysing the relation between the use oftypes of referring expression and discoursetopic shifts is provided by the Centering The-ory (Grosz, Joshi, and Weinstein, 1995; Bren-nan, Friedman, and Pollard, 1987). This the-ory mainly focuses on pronouns and followscognitive models of reference of nominal ex-pressions, among many (Ariel, 1994; Prince,1981; Gundel, Hedberg, and Zacharski, 1993;Lambrecht, 1994), according to which ref-erence by pronouns reflects the assumptionmade by speakers that the referred entitiesare the most central (salient, known, given)in the addressee’s mental state at that point∗ Thanks to Sussi Olsen, Delia Malatesta, DanielePrada e Elisabetta Cerini.

in discourse, while reference by other typesof nominal phrase usually indicate that thereferred entities are less central in the ad-dressees’ discourse model.

Versions of Centering have implementeddifferent salience models based on factorssuch as word order, syntactic or semanticfunction of entities, information structureand anaphoric distance, see among many(Brennan, Friedman, and Pollard, 1987;Strube and Hahn, 1999; Navarretta, 2002).Some of these Centering versions have beenmotivated by language specific character-istics which cannot be accounted for bysalience models based on English.

To our knowledge, there is no systematicstudy of the use of different referring expres-sions in various transition states and a com-parison of this use in different types of lan-guage1.

The main objectives behind our work havebeen the following: i) to provide a pilot cor-pus of parallel and comparable Danish and

1A partial exception is Di Eugenio (1996)’s analy-sis of subject referring expressions in Italian, see sec-tion 2.

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 105-112 recibido 15-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 106: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Italian texts annotated with co-reference andwith discourse topic shifts; ii) to investigatewhether there is a systematic relation be-tween various types of referring expressionsand their use in different transition states inthe two languages; iii) to individuate similar-ities and differences in co-referential chainsand in the use of referring expressions in dis-course topic shifts in Danish and Italian; iv)to study whether different referring strategiesare used in fiction and non-fiction texts.

The paper is organised as follows. In sec-tion 2 we discuss related work and researchwhich have inspired us. In section 3 weshortly present our data and in section 4 wedescribe our annotation scheme and discussinter-annotator agreement results. In sec-tion 5 we discuss the results of our analy-sis of the annotated data and finally, in sec-tion 6 we make some concluding remarks andpresent work still to be done.

2 Related Work

The relation between reference and discoursestructure has been pointed out in numerousstudies, among many (Kuno, 1972; Hallidayand Hasan, 1976; Hobbs, 1979; Grosz andSidner, 1986; Cristea and Ide, 1998). Cen-tering is about local coherence, but the the-ory presupposes global coherence as proposedby Grosz and Sidner (1986). In Centeringthe relation between continuations or shiftsin co-reference chains and the use of referringexpressions is modelled in terms of so-calledtransition states and of the preferences hold-ing among them. These preferences reflectthe assumption that the mental effort to pro-cess reference is less when the central topic ofdiscourse is maintained and when this topicis realised by the most salient entity thanwhen the central topic changes or is realisedby a less prominent entity. Because pronounssignal reference to the most salient entities,pronominal chains are assumed to be morefrequent in center continuations than in cen-ter shifts. The transition types proposed byBrennan, Friedman, and Pollard (1987) arein (table 1). The use of other types of re-

Cb(Un) = Cb(Un−1) Cb(Un) 6= Cb(Un−1)OR no Cb(Un−1)

Cb(Un) =Cp(Un) CONTINUE SOFT-SHIFT

Cb(Un) 6=Cp(Un) RETAIN ROUGH-SHIFT

Table 1: Transition states

ferring expression after the various transitionstates is not explored in the Centering theory.However, many researchers in the Centeringframework have looked at aspects which arecentral to the relation between reference anddiscourse structure including the definition oftransition states, the presence and/or unique-ness of backward-looking centers and the re-alisation of centers, see especially (Brennan,Friedman, and Pollard, 1987; Strube andHahn, 1999; Fais, 2004; Poesio et al., 2004;Kibble and Power, 2004).

Independently from the Centering frame-work, Givon (1983) provides an analysis ofthe relation between topic shifts and use ofsubject referring expressions in English andPidgin English monologues. He recognisestwo kinds of junctures in his data: minorjunctures after clauses and major juncturesafter sentences.

In this paper we look at both global andlocal coherence and are especially interestedin the types of nominal referring expressionused in Danish and Italian texts after vari-ous transitions. We are strongly inspired bythe work of Di Eugenio (1996) who analysedoccurrences of Italian pronouns and full nom-inal phrases in subject position respect to aparticular version of the Centering’s transi-tion states. Her focus was on the use of zeropronouns2.

We adopt a combination of two cognitivemodels of referring expressions: the Given-ness Hierarchy proposed by Gundel, Hed-berg, and Zacharski (1993) and Ariel (1988),(1994)’s Accessibility Marker Scale.

Gundel, Hedberg, and Zacharski (1993)organise the assumed cognitive statuses ofdiscourse entities in their Givenness Hier-archy and connect each status to a preciselyidentified referring expression, exemplified byan English nominal phrase (table 2). Theyargue for the universality of their hierarchy,although they notice that not all languageshave referring expressions for each status inthe hierarchy. The Givenness Hierarchyis interesting because, differing from relatedcognitive models, it assumes that the variouscognitive statuses are implicationally relatedand not mutually exclusive. Thus, accordingto this theory, a referring form encodes thenecessary and sufficient status it belongs toas well as all the higher statuses in the hierar-

2Italian is a subject pro-drop language.

Costanza Navarretta

106

Page 107: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

in uniquely typefocus > activated > familiar > identifiable > referential > identifiable

that indefiniteit this that N the N this N a N

this N

Table 2: The Givenness Hierarchy

chy (the statuses on its left). This accountsfor cases in discourse where a speaker usesa referring expression signalling a less givencognitive status than required by the context,e.g. to emphasise some entities.

One problem with the Givenness Hier-archy is that it does not account for differ-ences between types of referring expressionwhich do not occur in English. This is thecase for the Italian zero anaphora and clitics.

A more fine-grained hierarchy of nomi-nal referring expressions is presented by Ariel(1994). Also Ariel points out that speak-ers code how accessible a referent is to theaddressee by using different referring expres-sions. Analysing the distance between an-tecedent and referring expressions, one ofthe factors that determine the accessibility ofthese expressions, Ariel builds up an acces-sibility marker system for referring expres-sions. In her system unmarked means pro-totypical, while the concept of markednesspresupposes the notion of formal complexityand is connected with structural complexity,low frequency and cognitive complexity. Asimplified version of Ariel’s AccessibilityMarking Scale (Ariel, 1994) is given in fig-ure 1. The accessibility of the expressions de-

zero < reflexives < cliticised pronouns< unstressed pronouns < stressed pro-nouns < stressed pronouns + gesture< proximal demonstrative (+ NP) <distal demonstrative (+ NP)< proximaldemonstrative + NP + modifier < distaldemonstrative + NP + modifier < firstname or last name < definite description< full name

Figure 1: Ariel’s Accessibility Marking Scale

creases from left to right: the highest accessi-bility markers being the most unmarked lin-guistic expressions. Thus the symbol < in thescale refers to the degree of markedness. Themore (lexically) informative, the more rigidly

(unambiguously) and/or the less attenuatedthe form (longer or louder) of a referring ex-pression the lower accessibility it marks.

We use Ariel’s classification of referringexpressions, but assume with Gundel, Hed-berg, and Zacharski (1993) that the cogni-tive statuses related to the different referringexpressions are implicationally related.

3 The data

We have annotated the following Danish andItalian data:

• Parallel texts: i) European law texts(7,631 running words in Italian and7,101 running words in Danish); ii) Ital-ian stories by Pirandello (9,018 words)and their Danish translations (9,933words)

• Comparable texts: i) Financial newspa-pers: the Italian Il Sole 24 Ore (6,964words) and the Danish Børsen (3,325words)

The source language of the European textsis not known, but it is probably English orFrench.

The parallel texts and some of the compa-rable texts which we have annotated belongto the MULINCO corpus (Maegaard et al.,2006). Part of these texts are freely avail-able.

In order to obviate some of the prob-lems connected with the use of translatedtexts3 we have annotated articles from finan-cial newspapers in the two languages describ-ing similar events and written in the sameperiod of time. Although these articles arecovered by copyright restrictions, they canbe obtained by the publishing editors for re-search.

3One of these problems is the use of referring ex-pressions in the target language being influenced bythe referring expressions used in the source language.Examples of these influence are in (Navarretta, 2007).

Co-referential chains and discourse topic shifts in parallel and comparable corpora

107

Page 108: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

4 The annotation

Co-referential and referential chains in thecorpus have been annotated using an ex-tension of the MATE/GNOME annotationscheme (Poesio, 2004). Bridging anaphorahave not been annotated. We use themarkables proposed in the MATE/GNOMEscheme, i.e. de to mark discourse entities andseg to annotate non nominal referring ex-pressions. The markable link marks the re-lation between referring expressions and theirantecedents.

We have added a number of attributes tothese markables to encode the following in-formation: a) the type of referring expres-sion comprising the pronominal and nomi-nal types recognised by Ariel (1994); b) thesyntactic type of the antecedent includingnominal and non-nominal antecedents, suchas predicates in copula constructions, verbalphrases, clauses and discourse segments; c)the pronominal function, such as cataphoric,individual anaphoric, deictic, pleonastic, ab-stract anaphoric.

Only two types of relation between refer-ring expressions and antecedents are used:identity and non-identity. The identity re-lation is used for co-reference, while non-identity is used for all other cases, com-prising the relations between antecedentsand anaphora referring to different semantictypes of entity, and the relation connectingappositions to the nominal phrases they de-fine or modify. Example 1 contains the anno-tation of the two appositions in the text seg-ment Lina Sarulli, prima Lina Taddei, oraLina Fiorenzo (Lina Sarulli, previously LinaTaddei, now Lina Fiorenzo) from Pirandello’sstory La buon’ anima. The two appositionsare bound to the proper Lina Sarulli by anon-identity relation.

We have added some markables to theMATE/GNOME scheme to mark pleonas-tic pronouns and pronouns in abandoned ut-terances4. Possessive pronouns and deicticpronouns in direct speech are also annotated.These occurrences of deictic pronouns are inmost cases part of the co-referential chains inthe fiction data.

Two slightly different annotation schemesare used for Danish and Italian, account-ing for language specific differences, suchas the fact that Italian is a subject PRO-

4These occur in direct speech in our fiction data.

drop language and has both independent andclitic pronouns. A kind of seg markers,seg1 is used to mark verbal phrases con-taining one or more clitic pronouns, as il-lustrated in example 2 where the verb formpromettendoglielo (promising it to him) con-tains two clitic pronouns gli (to him) and lo(it), which co-refer with two entities whoseidentifiers are n150 and i24 respectively(promettendo[gli]n150e[lo]i24).

The data we have annotated with coref-erence had been previously annotated withabstract pronominal anaphora information inthe DAD project. These anaphora are third-person singular pronouns whose linguistic an-tecedents are predicates in copula construc-tions, verbal phrases, clauses and discoursesegments. The annotation specific to ab-stract anaphora is described in (Navarrettaand Olsen, 2008) and comprises the semantictype of abstract referents, partially inspiredby the classification of abstract objects byAsher (1993).

Discourse topics have been annotated us-ing a variation of the annotation proposedby Rocha (2000) who distinguishes amongdiscourse topics, segment topics and sub-segment topics in English and Portuguese di-alogues.

In our data paragraphs correspond inmost cases to discourse segments, see (Groszand Sidner, 1986). Discourse segments havebeen further divided into subtopics and sub-subtopics.

A subset of the data has been markedwith the transition types proposed in (Bren-nan, Friedman, and Pollard, 1987)5. Thesalience model adopted for annotating tran-sition states in both Danish and Italian ismainly that proposed in (Navarretta, 2002;Navarretta, 2005) (figure 2).

We have used PALinkA (Orasan, 2003) asannotation tool.

The first 4000 words of the Italiandata were annotated by four annotatorsand inter-annotator agreement was automat-ically calculated on these data in terms ofweighed kappa statistics6 (J.Cohen, 1968) us-ing PRAM7. The obtained results variedfrom 0.60 to 0.95, depending on the type of

5Only the author annotated this information.6Other evaluation methods are discussed by Ar-

stein and Poesio (2008).7http://www.geocities.com/skymegsoftware

/pram.html.

Costanza Navarretta

108

Page 109: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

(1) <de ID="n643" firstm="MNO" syn-type="PR"><link Ltype="ident" POINT-BACK="n334"/>

<W id="w2.24.15" lemma="lina" pos="NPR">Lina</W><W id="w2.24.16" lemma="sarulli" pos="NPR">Sarulli</W></de><W id="w2.24.17" lemma="," pos="PON">,</W><W id="w2.24.18" lemma="prima" pos="ADV">prima</W>

<de ID="n644" firstm="MNO" syn-type="PR"><link Ltype="no_ident" POINT-BACK="n643"/>

<W id="w2.24.19" lemma="lina" pos="NPR">Lina</W><W id="w2.24.20" lemma="taddei" pos="NPR">Taddei</W></de><W id="w2.24.21" lemma="," pos="PON">,</W><W id="w2.24.22" lemma="ora" pos="ADV">ora</W>

<de ID="n645" firstm="MNO" syn-type="PR"><link Ltype="no_ident" POINT-BACK="n643"/>

<W id="w2.24.23" lemma="lina" pos="NPR">Lina</W><W id="w2.24.24" lemma="fiorenzo" pos="NPR">Fiorenzo</W></de>

(2) <seg1 ATYPE="indiv" ID="i25" PTYPE="lo-clitico" syn-type="V"><link Ltype="ident" POINT-BACK="i24"/><seg1 ATYPE="indiv" ID="i151" PTYPE="gli-clitico" syn-type="V"><link Ltype="ident"POINT-BACK="n150"/><W id="w25.57.60" lemma="promettere" pos="VER:geru">promettendoglielo</W></seg1></seg1>

markable. The worse results were obtainedin the annotation of discourse segment an-tecedents of abstract substantives. Examplesof these abstract referring expression are talisituazioni (such situations) and questa dis-cussione (this discussion). Inter-coder agree-ment for the annotation of pronominal ab-stract anaphora was not calculated because ithad been tested in the DAD project (Navar-retta and Olsen, 2008).

An annotation example is in 3. The an-notated text segment is [La Acqua Marcia]ipuo evitare il fallimento. [La finanziaria di[V incenzo Romagnoli]j ]i . . . ([La AcquaMarcia]i can avoid bankruptcy. [[V incenzoRomagnoli]j’s investment company]i) [IlSole 24 ore(31.12.1992)].The annotation of co-reference is expressedby saying that the nominal phrase VincenzoRomagnoli’s investment company, is relatedto the proper La Acqua Marcia by an iden-tity relation.

5 Results

The number of markables annotated in thedata are given in table 3. To these mark-ables must be added the seg elements whichcode the non-nominal antecedents of ab-stract anaphora, pleonastic and abandonedoccurrences of pronouns. The length ofco-referential chains varies consistently fromtext type to text type independently from theanalysed language. The (co)referential chains

Zero Clit PRO Name NPsit 1225 240 1075 762 1995da - - 2331 602 1524

Table 3: Number of markables

in literary texts are much longer than thosein non-literary texts. This is not surprisingbecause the stories are longer than the finan-cial articles and they focus on fewer subjects(persons, objects) than the analysed Euro-pean texts.

In our data there are nearly 5 times morepronouns pr. 1000 words in literary data thanin non-literary texts. Reference by substan-tives was on the contrary higher in the non-literary texts than in the literary data (herethe proportion pr. 1000 words was 4 to 1).

The average distance in terms of sentencesbetween referring expressions and their an-tecedents is higher in literary data than innon literary data. We have not investigatedyet whether there is a relation between refer-ential distance and number of discourse en-tities and possible candidate antecedents inthe involved texts.

Inferable entities are more often anchoredto known entities by genitives in Danish thanin Italian. An example is in 4.

(4) Fin dal primo giorno, BartolinoFiorenzo s’era sentito dire dallapromessa sposa. . . (the fiancee)Fra første dag havde Bartolino

Co-referential chains and discourse topic shifts in parallel and comparable corpora

109

Page 110: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Fiorenzo hørt sin tilkommendesige. . . (his fiancee)(From the very first day BartolinoFiorenzo had heard his fianceesay. . . ) Pirandello: La buon’ anima

In Italian the distal demonstrative de-terminers quel/quello/quella (that) andquelli/quelle (those) followed by a substan-tive are used if i) there are other clauses ornominal phrases in-between the referring ex-pression and antecedent; ii) there is tempo-ral or spatial distance from the antecedent.In Danish the proximal demonstrative de-terminers denne/dette/disse (this/these) areused in the same contexts: quella donna (thatwoman)/denne kvinde (this woman); quellasciagura (that calamity)/denne ulykke (thiscalamity). Only if the antecedent is the im-mediately preceding discourse segment theproximal demonstrative determiners are usedin both languages.

As noticed in (Navarretta, 2007; Navar-retta and Olsen, 2008) abstract substantivesare used in Italian in most cases where Dan-ish uses abstract pronouns.

The analysis of the relation between tran-sition states and types of referring expres-sions in the three stories by Pirandello isgiven for Italian in figure 3 and for Danish infigure 4. The figures give a scale of the signifi-cantly most frequent referring expressions oc-curring as centers after the various Centeringtransition types8. The results in the figuresonly partially confirm existing classificationsof the givenness or salience of referring ex-pressions and reflect some of the differencesbetween Danish and Italian that we have pre-viously discussed. An interesting fact, whichcannot be seen in the figures is that in theseparticular data deictic pronouns are in 96%”locally” deictic and have thus been linked tothe local co-referential chains. Because theamount of our data is not large, the presentresults are only preliminary.

6 Conclusion

We have presented a rich annotation of (co)-referential chains in Danish and Italian com-parable and/or parallel data and we have dis-

8In the two figures Def N. anchored refer to alldefinite nominal phrases which are bound to entitiespreviously introduced in discourse (Prince, 1981) viae.g. genitive phrases, propositional phrases, relativeclauses.

cussed some dissimilarities in the use of re-ferring expressions in the two languages. Therelation between types of referring expressionused to refer to the backward-looking centerafter different types of transition have beenstudied in the fiction data. Although the re-sults are interesting they can only be con-sidered preliminary because of the limitedamount of data. Furthermore the analysedDanish texts are translations of the Italianstories, thus more differences in-between thetwo languages might be found in comparabledata. However we believe that the strategyof looking at the relation between transitiontypes and types of referring expression is veryuseful especially if conducted on more lan-guages and on more types of text.

Currently we are annotating the transitiontypes on the remaining data and we plan toextend our analysis to the referential distanceand to the number of competing antecedentcandidates.

References

Ariel, M. 1988. Referring and accessibility.Journal of Linguistics, 24(1):65–87.

Ariel, M. 1994. Interpreting anaphoric ex-pressions: a cognitive versus a pragmaticapproach. Journal of Linguistics, 30(1):3–40.

Arstein, R. and M. Poesio. 2008.Inter-coder Agreement for ComputationalLiguistics. Computational Linguistics,34(4):555–596.

Asher, N. 1993. Reference to Abstract Ob-jects in Discourse, volume 50 of Studies inLinguistics and Philosophy. Kluwer Aca-demic Publishers, Dordrecht, the Nether-lands.

Brennan, S. F., M. W. Friedman, and C. J.Pollard. 1987. A Centering Approachto Pronouns. In Proceedings of ACL 87,pages 155–162, California, USA. StanfordUniversity.

Cristea, D. and N. Ide. 1998. Veins the-ory: A model of global discourse cohesionand coherence. In Proceedings of COL-ING/ACL 98, pages 281–285, Montreal.

Di Eugenio, B. 1996. The discourse functionsof Italian subjects: a centering approach.In Proceedings of COLING 96, pages 352–357, Copenhagen, Denmark. Centre forLanguage Technology.

Costanza Navarretta

110

Page 111: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Fais, L. 2004. Inferable centers, cen-tering transitions and the notion ofcoherence. Computational Linguistics,30(2):119–150.

Givon, T., editor. 1983. Topic Continu-ity in Discourse: A Quantitative Cross-Language Study. John Benjamin, Amster-dam.

Grosz, B., A. K. Joshi, and S. Wein-stein. 1995. Centering:A Frameworkfor Modeling the Local Coherence ofDiscourse. Computational Linguistics,21(2):203–225.

Grosz, B. J. and C. L. Sidner. 1986. At-tention, Intentions, and the Structureof Discourse. Computational Linguistics,12(3):175–284.

Gundel, J. K., N. Hedberg, and R. Zacharski.1993. Cognitive status and the form ofreferring expressions in discourse. Lan-guage, 69(2):274–307.

Halliday, M. and R. Hasan. 1976. Cohesionin English. Longman, London.

Hobbs, J. R. 1979. Coherence and Corefer-ence. Cognitive Science, 3(1):67–90.

J.Cohen. 1968. Weighted kappa: nominalscale agreement with provision for scaleddisagreement or partial credit. Psycholog-ical Bulletin, 70(4):213–220.

Kibble, R. and R. Power. 2004. Op-timizing Referential Coherence in TextGeneration. Computational Linguistics,30(4):401–416.

Kuno, S. 1972. Functional sentence perspec-tive. Linguistic Inquiry,, 3:269–320.

Lambrecht, K. 1994. Information structureand sentence form - Topic, focus and themental representations of discourse refer-ents, volume 71 of Cambridge Studies inLinguistics. Cambridge University Press.

Maegaard, B., L. Offersgaard, L. Henriksen,H. Jansen, X. Lepetit, C. Navarretta, andC. Povlsen. 2006. The MULINCO cor-pus and corpus platform. In Proceedingsof LREC-06), pages 2148–2153, Genova.

Navarretta, C. 2002. The use and resolutionof Intersentential Pronominal Anaphorain Danish Discourse. Ph.D. thesis, Uni-versity of Copenhagen, February.

Navarretta, C. 2005. Combining informa-tion structure and centering-based mod-els of salience for resolving danish in-tersentential pronominal anaphora. InA. Branco, T. McEnery, and R. Mitkov,editors, Anaphora Processing. Linguistic,cognitive and computational modeling, vol-ume 263 of Current Issues in LinguisticTheory. John Benjamins Publishing Com-pany, pages 329–350.

Navarretta, C. 2007. A contrastive analy-sis of abstract anaphora in danish, englishand italian. In A. Branco, T. McEnery,R. Mitkov, and F. Silva, editors, Pro-ceedings of DAARC 2007, pages 103–109.Centro de Linguistica da Universidade doPorto, March.

Navarretta, C. and S. Olsen. 2008. Annotat-ing abstract pronominal anaphora in theDAD project. In Proceedings of LREC-2008, Marrakesh, Marocco, May.

Orasan, Constantin. 2003. PALinkA: ahighly customizable tool for discourse an-notation. In Proceedings of the 4th SIG-dial Workshop, pages 39 – 43, Sapporo,Japan, July, 5 -6.

Poesio, M, R. Stevenson, B. Di Eugenio, andJ. Hitzeman. 2004. Centering: A para-metric theory and its instantiations. Com-putational Linguistics, 30(3):309–364.

Poesio, Massimo. 2004. The mate/gnomeproposals for anaphoric annotation, re-visited. In Michael Strube and CandySidner, editors, Proceedings of the 5thSIGdial Workshop, pages 154–162, Cam-bridge, Massachusetts, USA, April 30 -May 1. Association for ComputationalLinguistics.

Prince, E. F. 1981. Toward a taxonomy ofgiven-new information. In P. Cole, edi-tor, Radical Pragmatics. Academic Press,pages 223–255.

Rocha, M.A.E. 2000. A corpus-basedstudy of anaphora in english and por-tuguese. In S.P Botley and T. McEnery,editors, Corpus-based and ComputationalApproaches to Discourse Anaphora. Ben-jamins Publishing Company, pages 81–94.

Strube, M. and U. Hahn. 1999. FunctionalCentering - Grounding Referential Coher-ence in Information Structure. Computa-tional Linguistics, 25(3):309–344.

Co-referential chains and discourse topic shifts in parallel and comparable corpora

111

Page 112: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

FOCUS PROPER < SUBJECT < OBJECT/PrepOBJECT < OBJECT2 < OTHERCOMPLEMENTS < ADJUNCTS

Figure 2: Hierarchy of verbal complements with focality preference

(3) <P id="p35" topic="t35.1"><S id="s35.1"><de ID="n173" firstm="MYES" syn-type="PR"><link Ltype="ident" POINT-BACK="n172"/>

<W id="w35.1.1" lemma="il" pos="DET:def">La</W><W id="w35.1.2" lemma="acqua" pos="NOM">Acqua</W><W id="w35.1.3." lemma="marcio" pos="ADJ">Marcia</W></de><W id="w35.1.4" lemma="potere"pos="VER:pres">puo</W><W id="w35.1.5" lemma="evitare" pos="VER:infi">evitare</W>

<de ID="n521" firstm="MYES" syn-type="DefN"><W id="w35.1.6" lemma="il" pos="DET:def">il</W><W id="w35.1.7" lemma="fallimento" pos="NOM">fallimento</W></de><W id="w35.1.8" lemma="." pos="SENT">.</W></S>

<S id="s35.2"><de ID="n174" firstm="MNO" syn-type="DefN-anch"><link Ltype="ident" POINT-BACK="n173"/>

<W id="w35.2.1" lemma="il" pos="DET:def">La</W><W id="w35.2.2" lemma="finanziaria" pos="NOM">finanziaria</W><W id="w35.2.3" lemma="di" pos="PRE">di</W>

<de ID="n522" syn-type="PR"><W id="w35.2.4" lemma="Vincenzo" pos="NPR">Vincenzo</W><W id="w35.2.5" lemma="romagnoli" pos="NPR">Romagnoli</W></de>

</de>... </S>...</P>

Continue: Zero> Pronoun>clitic> Dem. NRetain: Clitic>Pronoun > Proper Name > Def. N >Def. N anchored> Zero > Dem. NSmooth Shift: Proper Name > Def. N > Pronoun>Def. N anchoredRough Shift: Def. N > Def. N anchored> Proper Name> Dem. N >PronounNULL: Proper name > Def. N anchored > Indef. N > Def. N

Figure 3: Transition types and referring expressions in Italian

Continue: Pronoun>Name>Def. N anchoredRetain: Pronoun > Proper Name > Def. N anchored >Def. N>Smooth Shift: Proper Name > Def. N anchored > Pronoun>Def NRough Shift: Def. N anchored> Proper Name> Def. N>PronounNULL: Proper name > Def. N anchored > Indef. N > Def. N

Figure 4: Transition types and referring expressions in Danish

Costanza Navarretta

112

Page 113: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Detecting Anaphoricity and Antecedenthood for CoreferenceResolution

Deteccion de la anaforicidad y de los antecedentes para la resolucion de la

correferencia

Olga UryupinaInstitute of Linguistics, Russian Academy of Science

B. Kislovky per. 1/12, [email protected]

Resumen: La mayorıa de sistemas de resolucion de la correferencia (CR) intentanresolver todos los candidatos a anafora comparandolos a todos los antecedentescandidatos precedentes hasta que se encuentra el correcto. En este estudio seinvestigan las posibilidades de identificar las anaforas y antecedentes improbables.Se evalua nuestra aproximacion con el corpus MUC-7.Palabras clave: Correferencia, anaforicidad

Abstract: Most coreference resolution (CR) systems try to resolve all “candidateanaphors” by comparing them to all preceding “candidate antecedents” until thecorrect one is found. In this study we investigate possibilities to identify unlikelyanaphors and antecedents. We evaluate our approach on the MUC-7 corpus.Keywords: Coreference, Anaphoricity

1 Introduction

Most coreference resolution (CR) systems tryto resolve all “candidate anaphors” by com-paring them to all preceding “candidate an-tecedents” until the correct one is found. Notall noun phrases in a document, however,participate in coreference relations, and, evenif they do, they often can only be anaphorsor antecedents, but not both. Present studyinvestigates possibilities to automatically re-duce the pool of anaphors and antecedentsby filtering out unlikely candidates.

In some cases, we can determine if a mark-able could potentially be an anaphor or anantecedent by looking at its structure andsurrounding context. Consider the followingexample:

(1) Shares in [Loral Space]1 will bedistributed to Loral shareholders. [Thenew company]2,ante=1 will start life with[no debt]3 and $700 million in cash.[Globalstar]4 still needs to raise [$600million]5, and Schwartz said that [thecompany]6,ante=4 would try to raise [themoney]7,ante=5 in [the debt market]8.The third markable, “no debt” can be nei-

ther an anaphor, nor an antecedent. We cantell that by looking at its structure – with thedeterminer “no”, this description does not re-

fer to any entity. The second, sixth and sev-enth markables are all definite descriptionsand therefore are likely to be anaphoric. Theeighth markable, “the debt market” is a def-inite NP, but it is a uniquely referring de-scription and thus it might as well be nonanaphoric. Finally, the fifth markable, “$600million” is a possible antecedent (and is in-deed mentioned again as “the money” later),but not a very likely anaphor.

Most CR systems, including, for example,the algorithm of Soon, Ng, and Lim (2001)try to resolve all “candidate anaphors” bycomparing them to all preceding “candidateantecedents” until the correct one is found.Such approaches require substantial amountof processing: in the worst case one has tocheck n(n − 1)/2 candidate pairs, where nis the total number of markables found bythe system. Moreover, spurious coreferencelinks may appear when, for example, a non-anaphoric description is resolved to some pre-ceding markable.

Vieira and Poesio (2000) have shown thatsuch an exhaustive search is not needed, be-cause many noun phrases are not anaphoricat all: more than 50% of definite NPs in theircorpus have no prior referents. Obviously,this number is even higher if one takes into

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 113-120 recibido 15-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 114: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

account all the other types of NPs – for ex-ample, only 30% of our (automatically ex-tracted) markables are anaphoric.

We can conclude that a coreference resolu-tion engine might benefit from a pre-filteringalgorithm for identifying non-anaphoric andnon-antecedent descriptions. First, we savemuch processing time by discarding at leasthalf of the markables. Second, the prefilter-ing module is expected to improve the sys-tem’s precision by discarding spurious candi-dates.

In Section 2 we briefly summarise theo-retical research on anaphoricity and referen-tiality and discuss the related applications.Note that theoretical studies focus on refer-entiality, whereas we will consider a relatedtask of detecting antecedenthood (this willbe described in details below). In Section 3we experiment on learning anaphoricity andantecedenthood filters from the MUC data.In Section 4 we incorporate the anaphoricityand antecedenthood classifiers into a baselineno-prefiltering coreference resolution systemto see if such prefiltering modules help.

2 Related Work

In this section, we present an overview oftheoretical studies of referentiality (Kart-tunen, 1976) and anaphoricity (Prince,1981). We also discuss relevant computa-tional approaches (Bean and Riloff, 1999; Ngand Cardie, 2002; Uryupina, 2003; Vieiraand Poesio, 2000; Byron and Gegg-Harrison,2004).

Karttunen (1976) points out that in somecases an NP, in particular an indefinite one,does not refer to any entity:

(2) Bill doesn’t have [a car].Obviously, (2) does not imply the exis-

tence of any specific “car”. In Karttunen’sterms, the NP “a car” does not establisha discourse referent and therefore it cannotparticipate in any coreference chain – noneof the alternatives in (3) can follow (2):

(3) A.[It] is black.B.[The car] is black.C.[Bill’s car] is black.

Karttunen (1976) identifies several factorsaffecting referential status of NPs, includ-ing modality, negation, or nonfactive verbs.He argues that an extensive analysis of thephenomenon requires sophisticated inference:“In order to decide whether or not a nonspe-

cific indefinite NP is to be associated witha referent, a text-interpreting device must beable to assign a truth value to the propositionrepresented by the sentence in which the NPappears. It must be sensitive to the semanticproperties of verbs that take sentential com-plements; distinguish between assertion, im-plication, and presupposition; and finally, itmust distinguish what exists for the speakerfrom what exists only for somebody else”.

Byron and Gegg-Harrison (2004) presentan algorithm for identifying “nonlicensing”NPs based on Karttunen’s theory of refer-entiality. Their approach relies on a hand-crafted heuristic, encoding some of (Kart-tunen, 1976) factors. In the present studywe represent this information as features formachine learning.

Numerous theories of anaphoricity, espe-cially for definite descriptions, have been pro-posed in the literature. We point the readerto Vieira (1998) for an extensive overview andcomparison of the major theoretic studies inthe field. The theories aim at interpreting(definite) descriptions by relating them to thelinguistic and situational context and, morespecifically, to their antecedents.

From this perspective, an NP may begiven (related to the preceding discourse)or new (introducing an independent entity).The theories of anaphoricity provide differ-ent detailed subclassifications of given andnew descriptions. For example, Prince (1981)distinguishes between the discourse and thehearer givenness. This results in the follow-ing taxonomy:

• brand new NPs introduce entities whichare both discourse and hearer new (“abus”), some of them, brand new an-chored NPs, contain explicit link to somegiven discourse entity (“a guy I workwith”),

• unused NPs introduce discourse new,but hearer old entities (“Noam Chom-sky”),

• evoked NPs introduce entities alreadypresent in the discourse model andthus discourse and hearer old: textuallyevoked NPs refer to entities which havealready been mentioned in the previousdiscourse (“he” in “A guy I worked withsays he knows your sister”), whereas sit-uationally evoked are known for situ-

Olga Uryupina

114

Page 115: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

ational reasons (“you” in “Would youhave change of a quarter?”),

• inferrables are not discourse or hearerold, however, the speaker assumes thehearer can infer them via logical rea-soning from evoked entities or other in-ferrables (“the driver” in “I got on a busyesterday and the driver was drunk”),containing inferrables make this infer-ence link explicit (“one of these eggs”).

Linguistic theories, including (Prince,1981), focus on anaphoric usages of definitedescriptions (either evoked or inferrables).Recent corpus studies (Poesio and Vieira,1998) have revealed, however, that more than50% of (definite) NPs in newswire texts arenot anaphoric. These findings have moti-vated recent approaches to automatic iden-tification of discourse new vs. old NPs.

Several algorithms for identifyingdiscourse-new markables have been pro-posed in the literature, especially for definitedescriptions. Vieira and Poesio (2000) usehand-crafted heuristics, encoding syntacticinformation. For example, the noun phrase“the inequities of the current land-ownershipsystem” is classified by their system asdiscourse new, because it contains therestrictive postmodification “of the currentland-ownership system”. This approachleads to 72% precision and 69% recall fordefinite discourse-new NPs on their corpus.Palomar and Munoz (2000) propose a relatedalgorithm for Spanish.

Bean and Riloff (1999) make use of syn-tactic heuristics, but also mine additionalpatterns for discourse-new markables fromcorpus data. Using various combinationsof these methods, (Bean and Riloff, 1999)achieve an F-measure for existential NPs ofabout 81–82% on the MUC-4 data.1

In an earlier paper (Uryupina, 2003)we have proposed a web-based algorithmfor identifying discourse-new and uniqueNPs. Our approach helps overcome the datasparseness problem of Bean and Riloff (1999)by relying on Internet counts.

The above-mentioned algorithms for au-tomatic detection of discourse-new and non-referential descriptions are helpful for inter-

1(Bean and Riloff, 1999) existential class containsnot only brand new NPs, but also all mentions (in-cluding anaphoric) of unique descriptions, such as“the pope” or “the FBI”.

preting NPs, accounting for documents in-formation structure.However, it is not a pri-ori clear whether such approaches are use-ful for coreference resolution. On the onehand, discarding discourse-new and/or non-referential NPs from the pool of candidateanaphors and antecedents, we can drasticallynarrow down the algorithm’s search space.This reduces the processing time and makescandidate re-ranking much easier. On theother hand, errors, introduced by automaticanaphoricity or referentiality detectors, maypropagate and thus deteriorate the perfor-mance of a coreference resolution engine.

Ng and Cardie (2002) have shown thatan automatically induced detector of non-anaphoric descriptions leads to performancelosses for their coreference resolution en-gine, because too many anaphors aremisclassified as discourse-new. To dealwith the problem, they have augmentedtheir discourse-new classifier with severalprecision-improving heuristics. In our web-based study (Uryupina, 2003) we have tunedmachine learning parameters to obtain a clas-sifier with a better precision level. In a laterstudy, Ng (2004) relies on held-out data tooptimise relevant learning parameters and todecide on the possible system architecture.

Byron and Gegg-Harrison (2004) reportambivalent results concerning the importanceof a referentiality detector for pronominalcoreference. On the one hand, the incorpo-ration of referentiality prefiltering in severalpronoun resolution algorithms does not yieldany significant precision gains. On the otherhand, such a prefiltering significantly reducedthe systems’ processing time.

To summarise, several algorithms for de-tecting non-referring or non-anaphoric de-scriptions have been proposed in the litera-ture. These studies revealed two major prob-lems. First, it is necessary to identify andrepresent relevant linguistic factors affectingthe referentiality or anaphoricity status of anNP. Second, incorporating error-prone auto-matic modules for identifying discourse-newor non-referential descriptions into a corefer-ence resolution engine is a non-trivial task ofits own: when not properly optimised, suchmodules may lead to performance losses. Wewill address these two problems in the follow-ing sections.

Detecting Anaphoricity and Antecedenthood for Coreference Resolution

115

Page 116: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

3 Identifying Non-anaphors and

Non-antecedents

Corpus studies (Poesio and Vieira, 1998) sug-gest that human annotators are able to suc-cessfully distinguish between anaphoric (dis-course old) and non-anaphoric (discourse-new) descriptions. This motivates thepresent experiment: using machine learningtechniques we try to automatically detectprobable anaphors and antecedents. In ournext experiment (Section 4) we will incorpo-rate our anaphoricity and referentiality clas-sifiers into a coreference resolution system.

3.1 Data

We use the MUC-7 corpus in our experi-ment. We have automatically extracted nounphrases using Charniak’s parser (Charniak,2000) and C&C NE-tagging system (Curranand Clark, 2003).

We have automatically annotated ourNPs as ±discourse new using the follow-ing simple rule: an NP is considered−discourse new if and only if it is markedin the corpus and has an antecedent.

Extracting referentiality information fromcoreference annotated data is by far lesstrivial. By definition (Karttunen, 1976),non-referential descriptions cannot be an-tecedents for any subsequent NPs. Consider,however, the following example:

(7) There was [no listing]1 for [thecompany]2 in [Wilmington]3.In (7), the NP “no listing” is not referen-

tial and, therefore, cannot be an antecedentfor any subsequent markable. Both “the com-pany” and “Wilmington”, on the contrary,are referential and could potentially be re-mentioned. However, this does not happen,as the document ends with the next sentence.By looking at coreference annotated data, wecan only say whether an NP is an antecedent,but, if it is not, we cannot decide if it isreferential (as “the company” or “Wilming-ton”) or not (as “no listing”). Consequently,we cannot automatically induce referentialityannotation from coreference data.

For our main task, coreference resolution,we are not exactly interested in the referen-tial vs. non-referential distinction. We wouldrather like to know how likely it is for a mark-able to be an antecedent. Therefore, insteadof a referentiality detector in the strict sense,we need a ±ante labelling: an NP is consid-ered +ante, if it is annotated in MUC-7 and

is an antecedent for some subsequent mark-able. We have therefore changed the scopeof the present experiment to detecting an-tecedenthood – the probability for a mark-able to be an antecedent.

In the present experiment, we rely on30 MUC-7 “dry-run” documents for train-ing. For testing, we use the validation(3 MUC-7 “train” documents) and test-ing (20 MUC-7 “formal test” documents)sets. This results in 5028 noun phrasesfor training and 976/3375 for the valida-tion/testing data. 3325 training instanceswere annotated as +discourse new/−ante

and 1703 – as −discourse new/+ante2

(613/2245and 363/1130 for testing). All theperformance figures reported below are for+discourse new and −ante classes.

3.2 Features

We encode our markables with feature vec-tors, representing different linguistic factors:surface, syntactic, semantic, salience, same-head, and (Karttunen, 1976) properties.

Surface features encode the most shal-low properties of an NP, such as its length,amount of upper and lower case charactersand digits etc. Syntactic features includePOS tags, number and person values, deter-miner and pre- and post-modification. Se-mantic features encode gender ans seman-tic class properties. Salience features en-code various rankings within a sentence anda paragraph according to the linear order ofthe NPs and their grammatical role.

“Same-head” features represent corefer-ence knowledge on a very simplistic level.The boolean feature same head exists

shows if there exists a markable in thepreceding discourse with the same head asthe given NP, and the continuous featuresame head distance encodes the distanceto this markable. Obtaining values for thesefeatures does not require exhaustive searchwhen heads are stored in an appropriatedata structure, for example, in a trie. Themotivation for “same-head” features comesfrom (Vieira and Poesio, 2000) and (Poesioet al., 2004): they show that anaphoric-ity detectors might benefit from an earlyinclusion of a simplified coreference check.

2As each anaphor is linked to exactly one an-tecedent according to the MUC-7 annotation guide-lines, there is a one-to-one correspondence between−discourse new and +ante classes.

Olga Uryupina

116

Page 117: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

The last group encodes the referentiality-related factors investigated by Karttunen(1976) and Byron and Gegg-Harrison (2004):apposition, copula, negation, modal con-structions, determiner, grammatical role, andsemantic class. The values are extracted fromthe parser’s and the NE-tagger’s output.

Altogether we have 49 features: 12surface, 20 syntactic, 3 semantic, 10salience, 2 “same-head”, and 7 of Kart-tunen’s constructions, corresponding to 123boolean/continuous features.

3.3 Identifying discourse-new

markables

As a baseline for our experiments we use themajor class labelling: all markables are clas-sified as +discourse new. This results in F-scores of 79.9% and 77.2% for the testing andvalidation data. This baseline can be usedas a comparison point for ±discourse new

detectors. However, it has no practical rel-evance for our main task, coreference reso-lution: if we classify all the markables as+discourse new and, consequently, discardthem, the system would not even try to re-solve any anaphors. In all the tables in thispaper we show significant improvements overthe baseline for p < 0.05/p < 0.01 by ∗/ ∗ ∗and significant losses – by †/ † †.

We have trained the SVMlight classi-fier for ±discourse new descriptions. Itsperformance is summarised in Table 1.Compared to the baseline, the recall goesdown (the baseline classifies everything as+discourse new, showing the recall level of100%), but the precision improves signifi-cantly. This results in an F-score improve-ment of 5-8%, corresponding to 23-38% rela-tive error reduction.

Among different feature groups, surface,salience, and (Karttunen, 1976) factors showvirtually no performance gain over the base-line. Surface features are too shallow.Salience and (Karttunen, 1976)-motivatedfeatures have primarily been designed to ac-count for the probability of a markable be-ing an antecedent, not an anaphor. Basedon semantic features alone, the classifier doesnot perform different from the baseline – al-though, by bringing the recall and precisionvalues closer together, the F-score improves,the precision is still low.

The two groups with the best precisionlevel are syntactic and “same head” features.

In fact, the classifier based on these featuresalone (Table 1, last line) achieves almost thesame performance level as the one based onall features taken together (no significant dif-ference in precision and recall, χ2-test).

As we have already mentioned when dis-cussing the baseline, from a coreference res-olution perspective, we are interested in adiscourse-new detector with a high precisionlevel: each anaphor misclassified as discoursenew is excluded from further processing andtherefore cannot be resolved. On the con-trary, if we misclassify a non-anaphoric entityas discourse old, we still can hope to correctlyleave it unresolved by rejecting all the candi-date antecedents. Therefore we might wantto improve the precision of our discourse-newdetector as much as possible, even at the ex-pense of recall.

To increase the precision level, we havechosen another machine learner, Ripper, thatallows to control the precision/recall trade-off by manually optimising the LossRatio pa-rameter: by varying the LossRatio from 0.33

to 1.0, we obtain different precision and recallvalues. As in SVM’s case, the best perform-ing groups are syntactic and “same head” fea-tures. With all the features activated, theprecision gets as high as 90% when the Loss-Ratio is low. In Section 4 we will see ifthis performance is reliable enough to helpa coreference resolution engine.

3.4 Identifying non-antecedents

We have trained another family of classifiersto detect non-antecedents. Table 2 showsSVM’s performance for the ±ante task. Themajor class labelling, −ante serves as a base-line. The classifier’s performance is lowerthan for the ±discourse new task, with onlysyntactic and semantic features leading toa significant precision improvement over thebaseline.

The lower performance level reflects theintrinsic difficulty of the task. When pro-cessing a text, the reader has to decide if anencountered description is a re-mention or anew entity to be able to correctly ground itin the discourse model. Therefore we can ex-pect linguistic cues to signal if a markable is±discourse new. For ±ante descriptions, onthe contrary, there is no need for such signals:often an entity is introduced but then never

3Lower values result in the trivial labelling (“clas-sify everything as discourse old”).

Detecting Anaphoricity and Antecedenthood for Coreference Resolution

117

Page 118: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

mentioned again as the topic changes.As Table 2 shows, the classifier mostly

makes precision errors. For non-antecedents,precision is not as crucial as for non-anaphors: if we erroneously discard a cor-rect antecedent, we still can resolve subse-quent anaphors to other markables from thesame chain. However, if we misclassify thefirst markable and discard it from the pool ofantecedents, we have no chance to correctlyresolve the subsequent anaphors.

Consequently, we would still prefer recallerrors over precision errors, although not tosuch extent as for the ±discourse new clas-sifier. We have trained a family of Ripperclassifiers to improve the precision level bydecreasing the LossRatio parameter from 1.0to 0.3. The best observed precision level is80.4% for the “all features” classifier.

To summarise, the present experimentshows that automatically induced classi-fiers, both SVM and Ripper-based, cansuccessfully identify unlikely anaphors andantecedents. The performance level (F-score) varies around 75-88% for differenttest sets (validation vs. testing) and tasks(±discourse new vs. ±ante).

Features Recall Precision F

Baseline 100 66.52 79.89All ††93.54 **82.29 87.56Surface 100 66.52 79.89Syntactic ††97.37 **71.96 82.76Semantic ††98.53 *68.89 81.09Salience ††91.22 *69.26 78.74Same-head ††84.45 **81.16 82.77Karttunen’s ††91.63 **71.15 80.10Synt+SH ††89.98 **83.51 86.62

Table 1: An SVM-based anaphoricity de-tector: performance for the ±discourse new

class on the test data (20 MUC-7 “formal”documents).

4 Integrating Anaphoricity and

Antecedenthood Prefiltering

into a Coreference Resolution

Engine

In the previous experiment we have learnttwo families of classifiers, detecting unlikelyanaphors and antecedents. In this section weincorporate them into a baseline coreferenceresolution system – an SVM classifier with(Soon, Ng, and Lim, 2001) features.

Features Recall Precision F

Baseline 100 66.52 79.89All ††95.72 *69.23 80.35Surface ††94.56 68.50 79.45Syntactic ††95.72 *69.23 80.35Semantic ††94.92 *69.41 80.18Salience ††98.88 67.0 79.88Same-head 100 66.52 79.89Karttunen’s ††99.29 67.31 80.23

Table 2: An SVM-based antecedenthood de-tector: performance for the −ante class onthe test data (20 MUC-7 “formal” docu-ments).

4.1 Oracle settings

To investigate the relevance of anaphoricityand antecedenthood for coreference resolu-tion, we start by incorporating oracle-basedprefiltering into the baseline system. Forexample, our oracle-based anaphoricity fil-ter discards all the discourse-new markables(according to the MUC-7 coreference chains)from the pool of anaphors.

The impact of our ideal filters on themain system is summarised in Table 3. Asexpected, by constraining the set of possi-ble anaphors and/or antecedents, we dra-matically improve the algorithm’s precision.Slightly unexpected, the recall goes downeven in the oracle setting. This reflects apeculiarity of the MUC-7 scoring scheme –it strongly favours long chains. Prefilteringmodules, on the contrary, split long chainsinto smaller ones.

Several other studies (Ng and Cardie,2002; Mitkov, Evans, and Orasan, 2002) haverevealed similar problems: existing corefer-ence scoring schemes cannot capture the per-formance of an anaphoricity classifier.

With precision getting much higher atthe cost of a slight recall loss, the ideal±discourse new and ±ante detectors im-prove the baseline coreference engine’s per-formance by up to 10% (F-score).

4.2 Automatically acquired

detectors

Getting from the oracle setting to a more re-alistic scenario, we have combined our base-line system with the ±discourse new and±ante detectors we have learnt in our firstexperiment.

The evaluation has been organised as fol-lows. For a given LossRatio value, we have

Olga Uryupina

118

Page 119: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Prefiltering Recall Precision F-score

No prefiltering (baseline) 54.5 56.9 55.7Ideal discourse new detector 49.6 **73.6 59.3Ideal ante detector 54.2 **69.4 60.9Ideal discourse new and ante detectors 52.9 **81.9 64.3

Table 3: Incorporating oracle-based ±discourse new and ±ante prefiltering into a baseline coref-erence resolution system: performance on the validation data (3 MUC-7 “train” documents).

learnt a ±discourse new/± ante detector asdescribed above. The detector is then in-corporated as a pre-filtering module into thebaseline system. This allows us to evaluatethe performance level of the main coreferenceresolution engine (the MUC score) dependingon the precision/recall trade-off of the pre-filtering modules.

The results (Figures 1 and 2) show thatautomatically induced detectors drasticallydecrease the main system’s recall: it goesdown to 40% (for ±discourse new, L = 0.8)or even 33% (for ±ante, L = 1). For small L

values, the system’s recall is slightly lower,and the precision higher than the baseline(both differences are not significant). Theresulting F-score for the system with pre-filtering is slightly lower than the baseline’sperformance for small values of the Loss Ra-tio parameter and then decreases rapidly forL > 0.5.

To summarise, the results of the presentexperiment are ambivalent. On the one hand,ideal detectors bring F-score gains by signif-icantly increasing the system’s precision. Onthe other hand, error-prone automatically in-duced detectors are not reliable enough toproduce a similar precision gain and the sys-tem’s F-score goes down because of the recallloss, as the baseline’s recall is already rela-tively low. Consequently, a coreference reso-lution algorithm might profit from an auto-matic ±discourse new or ±ante detector ifits precision has to be improved, for exam-ple, if it mainly makes recall errors or, for aspecific application, if a high-precision coref-erence resolution algorithm is required (as,for example, the CogNIAC system proposedby (Baldwin, 1996)).

5 Conclusion

In this paper we have investigated thepossibility of automatically identifying un-likely anaphors and antecedents. As onlyaround 30% of markables in newswire

56.5

57

57.5

58

58.5

59

59.5

60

40 42 44 46 48 50 52 54 56

Pre

cisi

on

Recall

L=1 L=0.3

Discourse new prefilteringNo prefiltering

Figure 1: A baseline coreference resolu-tion engine augmented with Ripper-basedanaphoricity prefiltering: performance onthe validation (3 MUC-7 “train” documents)data for different LossRatio (L) values of pre-filtering classifiers.

54

55

56

57

58

59

60

30 35 40 45 50 55

Pre

cisi

on

Recall

L=1

L=0.3

Antecedenthood prefilteringNo prefiltering

Figure 2: A baseline coreference resolu-tion engine augmented with Ripper-based an-tecedenthood prefiltering: performance onthe validation (3 MUC-7 “train” documents)data for different LossRatio (L) values of pre-filtering classifiers.

texts participate in coreference chains, our±discourse new and ±ante detectors mightsignificantly constrain the main algorithm’ssearch space, improving its speed and perfor-mance.

We have compared different featuregroups for the tasks of ±discourse new and±ante detection. We have seen that, for bothtasks, SVM and Ripper classifiers based onall the investigated features outperform the

Detecting Anaphoricity and Antecedenthood for Coreference Resolution

119

Page 120: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

baseline. We have also learnt two familiesof classifiers with different precision/recalltrade-offs.

We have incorporated our±discourse new and ±ante detectorsinto a baseline coreference resolution system.We have seen that ideal prefiltering signif-icantly improves the system’s precision atthe expense of a slight recall loss. This leadsto an F-score improvement of up to 10%.Automatically acquired detectors can onlymoderately improve the system’s precisionand therefore do not bring any F-score gains.

We still believe, however, that anaphoric-ity and antecedenthood detectors might helpa coreference resolution system with a lowerprecision and higher recall.

References

Baldwin, Breck. 1996. Cogniac: A high pre-cision pronoun resolution engine. Techni-cal report, University of Pennsylvania.

Bean, David L. and Ellen Riloff. 1999.Corpus-based identification of non-anaphoric noun phrases. In Proceedingsof the 37th Annual Meeting of the As-sociation for Computationa Linguistics,pages 373–380.

Byron, Donna and Whitney Gegg-Harrison.2004. Eliminating non-referring nounphrases from coreference resolution. InProceedings of the 4th Discourse Anaphoraand Anaphor Resolution Colloquium.

Charniak, Eugene. 2000. A maximum-entropy-inspired parser. In Proceedingsof the 1st Meeting of the North AmericanChapter of the Association for Computa-tional Linguistics, pages 132–139.

Curran, James R. and Stephen Clark. 2003.Language independent NER using a maxi-mum entropy tagger. In Proceedings of theSeventh Conference on Natural LanguageLearning, pages 164–167.

Karttunen, Lauri. 1976. Discourse referents.In J. McKawley, editor, Sytax and Se-mantics, volume 7. Academic Press, pages361–385.

Mitkov, Ruslan, Richard Evans, and Con-stantin Orasan. 2002. A new, fully auto-matic version of mitkov’s knowledge-poorpronoun resolution method. In Alexan-der Gelbukh, editor, Computational Lin-

guistics and Intelligent Text Processing.Springer, pages 169–187.

Ng, Vincent. 2004. Learning noun phraseanaphoricity to improve coreference reso-lution: Issues in representation and opti-mization. In Proceedings of the 42nd An-nual Meeting of the Association for Com-putationa Linguistics.

Ng, Vincent and Claire Cardie. 2002. Iden-tifying anaphoric and non-anaphoric nounphrases to improve coreference resolution.In Proceedings of the 19th InternationalConference on Computational Linguistics.

Palomar, Manuel and Rafael Munoz. 2000.Definite descriptions in an information ex-traction systems. In IBERAMIA-SBIA,pages 320–328.

Poesio, Massimo, Olga Uryupina, RenataVieira, Mijail Alexandrov-Kabadjov, andRodrigo Goulart. 2004. Discourse-newdetectors for definite description resolu-tion: a survey and preliminary proposal.In Proceedings of the Refrence ResolutionWorkshop at ACL’04.

Poesio, Massimo and Renata Vieira. 1998. Acorpus-based investigation of definite de-scription use. Computational Linguistics,24(2):183–216.

Prince, Ellen E. 1981. Toward a taxonomyof given-new information. In P. Cole, edi-tor, Radical Pragmatics. Academic Press,pages 223–256.

Soon, Wee Meng, Hwee Tou Ng, and DanielChung Yong Lim. 2001. A machinelearning approach to coreference resolu-tion of noun phrases. Computational Lin-guistics (Special Issue on ComputationalAnaphora Resolution), 27(4):521–544.

Uryupina, Olga. 2003. High-precision identi-fication of discourse-new and unique nounphrases. In Proceedings of the ACL’03Student Workshop, pages 80–86.

Vieira, Renata. 1998. A review of the lin-guistic literature on definite descriptions.Acta Semiotica et Linguistica, 7:219–258.

Vieira, Renata and Massimo Poesio. 2000.An empirically-based system for process-ing definite descriptions. ComputationalLinguistics, 26(4):539–593.

Olga Uryupina

120

Page 121: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Tesis

Page 122: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos
Page 123: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Empleo de metodos no supervisados basados en corpus paraconstruir traductores automaticos basados en reglas∗

Using unsupervised corpus-based methods to build rule-basedmachine translation systems

Felipe Sanchez-MartınezDepartament de Llenguatges i Sistemes Informatics

Universitat d’Alacant. E-03071, Alacant, [email protected]

Resumen: Tesis doctoral en Informatica realizada en la Universitat d’Alacant porFelipe Sanchez Martınez bajo la direccion de los doctores Juan Antonio Perez Ortizy Mikel L. Forcada. La defensa de la tesis tuvo lugar el 30 de junio de 2008 anteel tribunal formado por los doctores Rafael C. Carrasco (Univ. d’Alacant), LluısPadro y Lluıs Marquez (Univ. Politecnica de Catalunya), Harold Somers (Univ. ofManchester) y Andy Way (Dublin City Univ.). La calificacion obtenida fue Sobre-saliente Cum Laude por unanimidad, con mencion de Doctor Europeo.Palabras clave: Traduccion automatica, desambiguacion lexica categorial, inferen-cia de reglas de transferencia, modelado del lenguaje.

Abstract: PhD thesis in Computer Engineering written by Felipe Sanchez-Martınezat Universitat d’Alacant under the joint supervision of Dr. Juan Antonio Perez-Ortizand Dr. Mikel L. Forcada. Author was examined on June 30th, 2008 by the com-mittee formed by Dr. Rafael C. Carrasco (Univ. d’Alacant), Dr. Lluıs Padro andDr. Lluıs Marquez (Univ. Politecnica de Catalunya), Dr. Harold Somers (Univ. ofManchester) and Dr. Andy Way (Dublin City Univ.). The grade obtained was So-bresaliente Cum Laude (highest mark), with the European Doctor mention.Keywords: Machine translation, part-of-speech tagging, language modeling, trans-fer rules inference.

1. Introduccion

Recientemente los enfoques basados encorpus para el desarrollo de sistemas de tra-duccion automatica (TA) han visto incremen-tada la atencion recibida; sin embargo, los sis-temas de TA basados en reglas siguen siendodesarrollados dado que no todos los pares delenguas para los cuales existe demanda tie-nen a su disposicion la gran cantidad de tex-tos paralelos necesarios para entrenar siste-mas de TA de proposito general basados encorpus; y tambien porque los sistemas basa-dos en reglas son mas facilmente diagnostica-bles y los errores que producen suelen teneruna naturaleza mas repetitiva y previsible, locual ayuda a los profesionales que tienen quecorregir su salida.

Esta tesis se centra en el desarrollo de sis-temas de TA basados en reglas y mas con-cretamente en sistemas de TA por transfe-

∗ Tesis financiada por el Ministerio de Educacion yCiencia y el Fondo Social Europeo a traves de la ayu-da a la investigacion BES-2004-4711.

rencia estructural superficial (Hutchins y So-mers, 1992) para la traduccion entre lenguasemparentadas.

De todos los recursos que son necesariospara construir un sistema de TA por trans-ferencia (estructural) superficial esta tesis secentra en la obtencion de forma no supervi-sada, a partir de corpus, de:

los desambiguadores lexicos categorialesempleados para resolver la ambiguedadlexica de los textos a traducir, y

el conjunto de reglas de transferencia quese emplean para adecuar la traduccion ala reglas gramaticales de la lengua meta.

2. Desambiguadores lexicoscategoriales para TA

En TA, la correcta eleccion de la categorıalexica de las palabras a traducir es crucial da-do que la traduccion de una palabra en len-gua origen (LO) a la lengua meta (LM) puedediferir de una categorıa lexica a otra.

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 123-124 recibido 28-11-08, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 124: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

De entre los diferentes enfoques existentespara la obtencion de desambiguadores lexicoscategoriales, esta tesis se centra en el desa-rrollo de desambiguadores lexicos categoria-les basados en modelos ocultos de Markov(MOM) (Cutting et al., 1992). Estos pue-den entrenarse de forma supervisada median-te el empleo de textos desambiguados (o eti-quetados) a mano, o bien de forma no su-pervisada mediante el uso del algoritmo deBaum y Welch con texto no etiquetado. Es-tos metodos solo emplean informacion de lalengua que pretenden desambiguar. Sin em-bargo, cuando el desambiguador lexico cate-gorial resultante se integra en un sistema deTA hay que tener en consideracion:

que un modelo estadıstico de la LM pue-de utilizarse de forma no supervisadapara obtener mejores desambiguadoreslexicos categoriales, y

que en TA lo que realmente importa esla calidad final de la traduccion, no laprecision del desambiguador.

Se propone un nuevo metodo, inspiradoen los dos hechos arriba mencionados, parael entrenamiento de desambiguadores lexicoscategoriales de la LO basados en MOM, me-diante el empleo de informacion de la LM,ası como del resto de modulos del sistema deTA en el que el desambiguador se integra. Losexperimentos realizados con tres pares de len-guas de Apertium (http://www.apertium.org) muestran que el sistema de TA ofre-ce mejores resultado cuando el desambigua-dor lexico categorial es entrenado usando estenuevo metodo que cuando es entrenado conel algoritmo de Baum y Welch.

3. Inferencia automatica dereglas de transferenciaestructural

Esta tesis tambien propone un metodono supervisado para la inferencia de reglasde transferencia estructural superficial. Estareglas se basan en plantillas de alineamien-to (Och y Ney, 2004) como las usadas en TAestadıstica. Para su empleo en sistemas de TAbasados en reglas las plantillas de alineamien-to han tenido que ser adaptadas y extendidascon un conjunto de restricciones que contro-lan su aplicacion como reglas de transferen-cia.

Una vez obtenidas, las plantillas de ali-neamiento son filtradas atendiendo a su fre-cuencia de aparicion en la coleccion de textosparalelos. Finalmente las plantillas de alinea-miento seleccionadas se emplean para la ge-neracion de reglas de transferencia en el for-mato usado por el ingenio de TA Apertium.

Para evaluar las reglas inferidas se hanrealizado experimentos con tres pares de len-guas de Apertium. Las reglas inferidas ofre-cen mejores resultados que la traduccion pa-labra por palabra, y resultados proximos a losobtenidos cuando las reglas de transferenciason codificadas a mano por linguistas.

En cuanto a la cantidad de corpus para-lelos necesarios para obtener un conjunto dereglas de transferencia que proporcionen unacalidad de traduccion aceptable, los experi-mentos realizados con distintos tamanos decorpus demuestran que con un corpus de me-dio millon de palabras la calidad de las reglasinferidas es satisfactoria, incluso para algu-nos pares de lenguas la calidad es similar a laobtenida cuando las reglas de transferenciase obtiene a partir de un corpus de entrena-miento de dos millones de palabras.

Informacion adicional

Los metodos descritos en esta te-sis han sido liberados como codigoabierto y pueden descargarse desdehttp://sf.net/projects/apertium/; pa-quetes apertium-tagger-training-toolsy apertium-transfer-tools. Estos paque-tes se integran perfectamente en el procesode desarrollo de nuevos pares de lenguaspara Apertium. La tesis esta disponible enhttp://www.dlsi.ua.es/~fsanchez/pub/thesis/thesis.pdf.

Bibliografıa

Cutting, D., J. Kupiec, J. Pedersen, y P. Si-bun. 1992. A practical part-of-speech tag-ger. En Proceedings of the Third Confe-rence on Applied Natural Language Pro-cessing, paginas 133–140.

Hutchins, W. J. y H. L. Somers. 1992. An In-troduction to Machine Translation. Aca-demic Press.

Och, F. J. y H. Ney. 2004. The alignmenttemplate approach to statistical machinetranslation. Computational Linguistics,30(4):417–449.

Felipe Sánchez-Martínez

124

Page 125: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Los Roles Semanticos en la Tecnologıa del Lenguaje Humano:Anotacion y Aplicacion∗

Semantic Roles in Human Language Technology: Annotation andApplication

P. MoredaGrupo de Procesamiento del Lenguage Natural - Universidad de Alicante

Carretera San Vicente del Raspeig s/n 03690 - Alicante, [email protected]

Resumen: La tesis presentada se centra en el analisis semantico de textos, y masconcretamente, en el proceso de anotacion de roles semanticos y su aplicacion a otrastareas de Procesamiento de Lenguaje Natural. Dicho trabajo se puede resumir entres objetivos principales: i) Investigar en los conjuntos de roles semanticos y recur-sos linguısticos definidos sobre ellos que hay disponibles hasta la fecha; ii) Abordarel desarrollo de una herramienta para la anotacion automatica de roles semanticos,SemRol, que permita realizar un analisis de las necesidades de dichas herramientas;iii) Aportar informacion y conclusiones sobre la influencia de los roles semanticos ensistemas de busqueda de respuestas.Palabras clave: Roles semanticos, etiquetado automatico de roles semanticos,aprendizaje automatico supervisado, seleccion de caracterısticas, busqueda de res-puestas

Abstract: The presented PhD focuses on semantic analysis, and more specificallyin semantic role labeling processes and their application to other Natural LanguageProcessing areas. So, the main goals of this work could be defined as follows: i) Toresearch into semantic role sets and linguistic resources using them that are avaliableto date; ii) To develop a semantic role labeling tool, named SemRol, to analyze theinformation needed for these kind of processes: iii) To contribute conclusions aboutthe influence of semantic roles in question answering systems.Keywords: Semantic roles, automatic semantic role labeling, supervised machinelearning, feature selection, question answering

Introduccion

Un rol semantico es la relacion entre unconstituyente sintactico (generalmente, aun-que no siempre, argumento del verbo) y unpredicado (generalmente, aunque no siempre,un verbo). Ejemplos de roles semanticos sonagente, paciente, beneficiario, etc. o tambienadjuntos como causa, manera, lugar, etc.

Por ejemplo, la oracion (1), tiene cin-co constituyentes cada uno de ellos conun rol semantico diferente. El constituyentesintactico “Mary” tiene el rol agente, y losconstituyentes, “John” y “with a baseball”tienen los roles paciente e instrumento, res-pectivamente. Ademas, los constituyentes “inthe park” y “yesterday” tienen los roles lugar

∗ Esta tesis ha sido parcialmente financiada por elproyecto TEXT-MESS : Minerıa de Textos Inteligen-te, Interactiva y Multilingue basada en Tecnologıa delLenguage Humano (TIN2006-15265-C06-01)

y tiempo, respectivamente.

(1) [AGENT Mary] hit [PACIENT John][INSTRUMENT with a baseball] [TEMP

yesterday] [LOC in the park]Una caracterıstica importante de los ro-

les semanticos es que aunque cambie el or-den de los constituyentes o incluso la voz o eltiempo verbal de la oracion, los roles semanti-cos de los constituyentes no varıan. Por ejem-plo, consideremos la oracion anterior (1), si lacambiamos por la oracion (2):

(2) [TEMP Yesterday] [PACIENT John] washit [AGENT by Mary] [INSTRUMENT

with a baseball] [LOC in the park]o incluso si la traducimos al castellano y aunhabiendo diferencias sintacticas como en elejemplo (3):

(3) [TEMP Ayer] [AGENT Marıa] gol-peo [PACIENT a Juan] [LOC en el par-

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 125-126 recibido 22-12-08, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 126: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

que] [INSTRUMENT con una pelota debeisbol]

se obtiene que en cualquiera de los casos“Mary/Marıa” continua jugando el rol agen-te, “John/Juan” el rol paciente, “with a ba-seball/con una pelota de beisbol” el rol ins-trumento, “in the park/en el parque” el rolde lugar y “yesterday/ayer” el rol temporal.

Por tanto, se podrıa concluir, que los ro-les semanticos permiten interpretar los textosdeterminando las relaciones semanticas entrelas entidades y los eventos en los que parti-cipan. Es decir, los roles semanticos ayudana determinar, capturar y representar “quienhizo que a quien, donde, cuando, como y porque”, pudiendo con ello responder a pregun-tas como “quien”, “cuando”, “donde”, etc.Ver figura 1.

LOCTEMPINSTRUMENTPACIENTAGENT

WHO WHOM

WHAT

WHEN

WHERE

Mary hit John with a baseball yesterday in the park

LOCTEMP INSTRUMENTPACIENT AGENT

WHO

WHOM WHAT

WHEN

WHERE

Yesterday, John was hit with a baseball by Mary in the park

Figura 1: Utilidad de los roles semanticos enbusqueda de respuestas

Aportaciones

Atendiendo a los objetivos fijados, lasprincipales aportaciones de este trabajo alconocimiento de la investigacion en rolessemanticos se pueden resumir en:

Amplia recopilacion de la gran diversi-dad de propuestas de conjuntos de rolessemanticos realizadas hasta la fecha.

Propuesta de un conjunto de rolessemanticos propio, desarrollado aten-diendo a criterios de aplicabilidad, gene-ralidad, jerarquıa y conexion con otraspropuestas de anotacion.

Evaluacion y estudio exhaustivos de losdiferentes recursos linguısticos basadosen roles semanticos desarrollados hastael momento.

Analisis de los procesos de seleccion decaracterısticas mas importantes defini-dos hasta el momento, necesarios en en-foques basados en aprendizaje automati-co.

Investigacion en cuanto a sistemas deanotacion automatica de roles semanti-cos desarrollados, atendiendo al corpusutilizado, a la lengua para la que se handefinido, al conjunto de roles semanticosutilizado en la anotacion, a la informa-cion requerida para afrontar el procesode anotacion, y a la estrategia o enfoqueseguido en dicho proceso de anotacion.

Desarrollo de una herramienta de ano-tacion propia, denominada SemRol, quehace uso de enfoques basados en apren-dizaje automatico supervisado, y quepermite seleccionar el clasificador y la in-formacion concreta a utilizar en funcionde las necesidades de la anotacion.

Experimentacion y prueba de un procesode ajuste de la informacion requerida porSemRol.

Evaluacion de diferentes estrategias deanotacion seguidas en SemRol: i) anota-cion por sentidos frente a unica, ii) ano-tacion global frente a individual.

Desarrollo de un sistema de busqueda derespuestas modular, basado en Web, quepermite extraer a partir de snippets po-sibles respuestas atendiendo a diferentescriterios: i) entidades nombradas, ii) re-glas semanticas, y iii) patrones semanti-cos.

Evaluacion de la aportacion de los ro-les semanticos a los sistemas de busque-da de respuesta, desde dos perspectivasdiferentes: i) comportamiento de reglasy patrones basados en roles semanticos,ii) comportamiento de entidades nom-bradas y roles semanticos.

Informacion general de la tesisTesis doctoral en Informatica realizada en la Universi-

dad de Alicante por Paloma Moreda Pozo bajo la direcciondel Dr. Manuel Palomar Sanz. La defensa de la tesis tuvolugar el 21 de Julio de 2008 ante el tribunal formado porlos doctores Antonio Ferrandez, Estela Saquete, RuslanMitkov, Lidia Moreno y L. Alfonso Urena. La calificacionobtenida fue Sobresaliente Cum Laude por unanimidad.

La tesis completa puede consultarse en la direccion

http://gplsi.dlsi.ua.es/mwgplsi/upload/5/51/TesisMoreda.pdf

P. Moreda

126

Page 127: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Arquitectura multilingue de sistemas de busqueda de respuestasbasada en ILI y Wikipedia

Cross–Lingual Question Answering Architecture based on ILI andWikipedia

Sergio Ferrandez EscamezDept. de Lenguajes y Sistemas Informaticos (Universidad de Alicante)

Carretera San Vicente s/n 03690 Alicante [email protected]

Resumen: Tesis doctoral en Informatica realizada en la U. Alicante (UA) por SergioFerrandez bajo la direccion de Antonio Ferrandez. La defensa de la tesis tuvo lugarante un tribunal formado por los doctores Manuel Palomar (UA), Rafael Munoz(UA), Paolo Rosso (UPV), Horacio Rodrıguez (UPC) y Marıa Teresa Martın (UJ)el 30 de junio de 2008. Calificacion: Sobresaliente Cum Laude por unanimidad.Palabras clave: Busqueda de Respuestas Multilingue, ILI, Wikipedia

Abstract: PhD Tesis in Computer Science written by Sergio Ferrandez under thesupervision of Dr. Antonio Ferrandez. The author was examined in June 30, 2008by the committee formed by doctors Manuel Palomar (UA), Rafael Munoz (UA),Paolo Rosso (UPV), Horacio Rodrıguez (UPC), and Marıa Teresa Martın (UJ).Grade: Sobresaliente Cum Laude unanimously.Keywords: Cross–Lingual Question Answering, ILI, Wikipedia

1. Introduccion y objetivos

Los sistemas de Busqueda de Respuestas(BR) multilingue se disenan con el objetivode encontrar respuestas concisas dentro dedocumentos escritos en lenguas diferentes a lalengua con la que se formula la pregunta. Es-ta vision, amplia el campo de busqueda, per-mitiendo localizar respuestas en documentosque operando de forma monolingue no serıanprocesados.

“Who directed The Sting?”(¿Quien diri-gio El Golpe?) Responder a una preguntasimple como esta en un dominio abierto mul-tilingue es actualmente un reto por conseguir.Esta situacion de imprecision es provocada,en la mayorıa de los casos, por la falta deexactitud de los servicios de Traduccion Au-tomatica (TA). Actualmente, el volumen detextos en lenguaje natural en diferentes len-guas provoca la necesidad de diferentes for-mas de acceso a la informacion. Ciertamente,la multilingualidad es una de las dificultadesprincipales que impide la correcta adquisicionde informacion.

Ningun sistema de BR multilingue basa-do en el uso de servicios de TA serıa capazde resolver una pregunta como la anterior-mente citada, ya que el nombre de la pelıcula

siempre serıa erroneamente traducido por laherramienta de TA.1 El trabajo de investi-gacion desarrollado en esta tesis doctoral secentra en el diseno e implementacion de unatecnica robusta de BR multilingue que mini-mice este tipo de errores y que aproxime laprecision entre BR monolingue y multilingue.

El objetivo principal de la tesis versa enel diseno de una metodologıa y arquitectu-ra general de sistemas que resuelva la tareade la BR multilingue, explotando al maximolos recursos multilingues disponibles y mini-mizando la perdida de precision implıcita enlos procesos en los que diferentes lenguas seven implicadas.

2. Contenido

La memoria que redacta la tesis doctoral2se compone de un total de 9 capıtulos:

Capıtulo 1: Introduce el problema de laBR multilingue, realizando un repaso histori-co, estableciendo los problemas principales ydefiniendo la necesidad e importancia actualde este tipo de tareas.

Capıtulo 2: Introduce el origen y necesi-dad del acceso a la informacion multilingue,

1Quien dirige el Sting? (traduccion por http://www.google.es/translate_t?langpair=en|es

2Disponible en -

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 127-128 recibido 23-12-08, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 128: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

realiza un estudio de los principales foros, sis-temas y disenos de BR multilingue, presen-tando los resultados obtenidos por los princi-pales sistemas y mostrando como sus tecnicaspara resolver la tarea influyen directamenteen la precision global.

Capıtulo 3: Presenta un estudio realiza-do sobre los errores provocados por el uso deservicios de TA en la BR bilingue. Con el ob-jetivo de ejemplificar y corroborar como laTA de las preguntas genera errores que difi-cultan la localizacion de respuestas.

Capıtulo 4: Expone un estudio realizadocon el objetivo de demostrar la importanciadel reconocimiento y clasificacion de las en-tidades de las preguntas. Ademas, se estudiala necesidad de traduccion de las mismas enlos procesos multilingues.

Capıtulo 5: Describe nuestro sistema deBR monolingue para la lengua castellana,AliQAn, el cual es utilizado como baseline denuestra arquitectura multilingue.

Capıtulo 6: Presenta nuestra propuesta,la arquitectura de BR multilingue BRILIW(Busqueda de Respuestas usando ILI (InterLingua Index ) y Wikipedia) (ver figura 1).Entre otros aspectos, se detalla como nues-tra arquitectura BRILIW soluciona los pro-blemas que ocasionan el uso de servicios deTA.

W i k i p e d i a

D o c u m e n t o s

M ó d u l o d e I d e n t i f i c a c i ó n de l Lengua je

M ó d u l o d e T r a d u c c i ó n d e l a s E n t i d a d e s N o m b r a d a s

N E R U A

Módu lo de A n á l i s i s d e l a P r e g u n t a

S U P A R

M ó d u l o d e R e f e r e n c i a In te r - L ingua l

M ó d u l o d e S e l e c c i ó n d e P a s a j e s R e l e v a n t e s

I R - n

M ó d u l o I L I

Módu lo de E x t r a c c i ó n d e l a R e s p u e s t a

Figura 1: Arquitectura BRILIW

Capıtulo 7: Presenta las herramientas ydisenos software desarrollados dentro del tra-bajo de investigacion. Al mismo tiempo, se

presenta el diseno de nuestro objeto XML queproporciona un modelo para la comunicaciony almacenamiento de la esencia de nuestraarquitectura BRILIW.

Capıtulo 8: Muestra la evaluacion efec-tuada sobre la arquitectura BRILIW. En ella,se evalua nuestra arquitectura, y se compa-ra con ejecuciones monolingues y aplicacio-nes basadas en el uso de TA. Ademas, tam-bien se realizan experimentos que evaluan labondad de nuestra tecnica de control y tra-duccion de las entidades de las preguntas deentrada. Los experimentos realizados revelanque nuestras estrategias mejoran los resulta-dos de la utilizacion de maquinas de TA, yde acuerdo con las publicaciones existentes,obtienen mejores resultados que los actualessistemas de BR bilingue. Por otro lado, eneste capıtulo tambien se exponen las pruebasexternas realizadas en nuestra participacionen el CLEF.

Capıtulo 9: Pretende exponer las prin-cipales aportaciones y conclusiones extraıdasde nuestro trabajo de investigacion en la BRmultilingue, ası como los trabajos en progresoy futuros.

3. Conclusiones y aportaciones

Tres pilares sustentan nuestra arquitectu-ra y la diferencian del resto de propuestasactuales: 1) Explotacion de diferentes fuen-tes de conocimiento multilingue en diferen-tes etapas del proceso de BR multilingue ycon diferentes objetivos de traduccion; 2) Labusqueda de respuestas candidatas se realizahaciendo uso de mas de una traduccion de ca-da una de las palabras de la pregunta; y 3) Elanalisis de la pregunta de entrada se realizaen el lenguaje original de la misma.

La arquitectura BRILIW proporciona unametodologıa alternativa al uso de servicios deTA. Dentro del campo de la BR multilingue,nuestra arquitectura ha sido la primera endisenar e implementar procesos multilinguesque exploten el modulo ILI de EuroWordNety el conocimiento multilingue codificado enWikipedia.

Agradecimientos

Esta investigacion ha sido parcialmente fi-nanciada bajo los proyectos QALL-ME, den-tro del Sexto Programa Marco de Investiga-cion de la Union Europea con referencia FP6-IST-033860, y TEX–MESS, CICyT numeroTIN2006-15265-C06-01.

Sergio Ferrández Escámez

128

Page 129: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

On Clustering and Evaluation ofNarrow Domain Short-Text Corpora∗

Agrupamiento y Evaluacion de Corpora

de Textos Cortos y de Dominios Restringidos

David Eduardo Pinto AvendanoNatural Language Engineering Lab., DSIC

Universidad Politecnica de Valencia

Facultad de Ciencias de la Computacion, [email protected]

Resumen: Tesis doctoral en Informatica realizada por David Eduardo Pinto Aven-dano y dirigida por los doctores Paolo Rosso (Univ. Politecnica de Valencia) y HectorJimenez (Univ. Autonoma Metropolitana, Mexico). El acto de defensa de tesis tuvolugar en Valencia en Julio de 2008 ante el tribunal formado por los doctores ManuelPalomar Sanz (Univ. de Alicante), Alfonso Urena Lopez (Univ. de Jaen), EnekoAgirre (Univ. del Paıs Vasco), Benno Stein (Univ. de Weimar, Alemania) y EncarnaSegarra Soriano (Univ. Politecnica de Valencia). La calificacion obtenida fue Sobre-

saliente Cum Laude.Palabras clave: Agrupamiento, Evaluacion, Textos cortos, Dominios restringidos

Abstract: PhD thesis in Computer Science written by David Eduardo Pinto Aven-dano under the supervision of Paolo Rosso (Univ. Politecnica de Valencia) andHector Jimenez (Univ. Autonoma Metropolitana, Mexico). The author was exa-mined in July 2008 in Valencia by the following committee: Manuel Palomar Sanz(Univ. de Alicante), Alfonso Urena Lopez (Univ. de Jaen), Eneko Agirre (Univ. delPaıs Vasco), Benno Stein (Weimar Univ., Germany) and Encarna Segarra Soriano(Univ. Politecnica de Valencia). The grade obtained was Sobresaliente Cum Laude.Keywords: Clustering, Evaluation, Narrow Domain Short-text corpora

1. Introduction

In this Ph.D. thesis we investigate the pro-blem of clustering a particular set of docu-ments namely narrow domain short texts.

To achieve this goal, we have analysed da-tasets and clustering methods. Moreover, wehave introduced some corpus evaluation mea-sures, term selection techniques and clusteri-ng validity measures in order to study thefollowing problems:

1. To determine the relative hardness of acorpus to be clustered and to study so-me of its features such as shortness, do-

main broadness, stylometry, class imba-

lance and structure.

2. To improve the state of the art of cluste-ring narrow domain short-text corpora.

The research work we have carried out ispartially focused on “short-text clustering”.

∗ This PhD thesis was supported by the BUAP-701PROMEP/103.5/-05/1536 grant.

We consider this issue to be quite relevant,given the current and future way people use“small-language” (e.g. blogs, snippets, newsand text-message generation such as email orchat). Moreover, we study the domain broad-ness of corpora. A corpus may be consideredto be narrow or wide domain if the level ofthe document vocabulary overlapping is highor low, respectively. In fact, in the categori-zation task, it is very difficult to deal withnarrow domain corpora such as scientific pa-pers, technical reports, patents, etc.

The aim of this research work is to studypossible strategies to tackle the following twoproblems: a) the low frequencies of vocabu-lary terms in short texts, and b) the highvocabulary overlapping associated to narrowdomains.

Each problem alone is challenging enough,however, the clustering of narrow domainshort-text corpora is considered one of themost difficult tasks of unsupervised dataanalysis.

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 129-130 recibido 16-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 130: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

2. Thesis overview

In this thesis, we deal with the treatmentof narrow domain short-text collections in th-ree areas: evaluation, clustering and valida-

tion of corpora.

The document is structured as follows:

In Chapter 1, we introduce basic conceptsand we summarize the major contributions ofthe research work carried out.

Chapter 2 gives an overview of the cluste-ring methods, clustering measures, term se-lection techniques and datasets used in thisstudy.

In Chapter 3, we analyse the implicationsof clustering narrow domain short-text cor-pora, studying the role of the term selectionprocess as well as the instability of a termselection technique based on the selection ofmid-frequency terms. We also make a com-parison of different clustering methods in thenarrow domain short-text framework. Fina-lly, we evaluate the performance of the termselection techniques on a standard narrow do-main short-text corpus.

Chapter 4 proposes the use of several mea-sures (most of which are introduced in thiswork) to assess different corpus features. The-se measures are tested on several corpora andimplemented in the Watermarking CorporaOn-line System (WaCOS)1,2.

Chapter 5 presents a new methodology(based on term co-occurrence) for improvingdocument representation for clustering na-rrow domain short texts. The self-term ex-pansion methodology, which is independentof any external knowledge resource, greatlyimproves the results obtained by using clas-sical document representation. This fact wasconfirmed in the practical task of word senseinduction whose obtained results are shownin Chapter 6.

In Chapter 7, we study the impact of in-ternal clustering validity measures by usingnarrow domain short-text corpora.

Finally, in Chapter 8 we draw the conclu-sions of the research that we have carried out.In this last chapter we also discuss some in-teresting research directions, which are deri-ved from the obtained results of this Ph.D.thesis and which we consider to be useful forfuture work.

1http://nlp.cs.buap.mx/watermarker/2http://nlp.dsic.upv.es:8080/watermarker/

3. Thesis contributions

The major contributions of the investiga-tions carried out are:

1. The study and introduction of evalua-tion measures to analyse the followingfeatures of a corpus: shortness, domain

broadness, class imbalance, stylometry

and structure.

2. The development of WaCOS for the as-sessment of corpus features.

3. A new unsupervised methodology(which does not use any externalknowledge resource) for dealing withnarrow domain short-text corpora. Thismethodology suggests first applyingself-term expansion and then termselection.

We analysed different corpus features asevidence of the relative hardness of a givencorpus with respect to clustering algorithms.In particular, the degree of shortness, do-

main broadness, class imbalance, stylometry

and structure were studied.We introduced some (un)supervised mea-

sures in order to assess these features. Thesupervised measures were used both to eva-luate the corpus features and, even more im-portantly, to assess the gold standard provi-ded by experts for the corpus to be clustered.The unsupervised measures evaluate the do-cument collections directly (i.e., without anygold standard) and, therefore, they may alsobe used for other purposes, for instance, toadjust clustering methods while being execu-ted in order to improve the results.

The most successful measures were com-piled in a freely functional web-based systemthat allows linguistics and computational lin-guistics researchers to easily assess the qua-lity of corpora with respect to the aforemen-tioned features.

The experiments conducted confirmedthat the clustering of narrow domain short-text corpora is a very challenging task. Ho-wever, the contributions of this research workare proof that it is possible to deal with thisdifficult problem. The aim is now to investi-gate subjective scenarios such as the blogsp-here.

David Eduardo Pinto Avendaño

130

Page 131: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Reseñas

Page 132: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos
Page 133: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). 2008. Text Resources and Lexical Knowledge. Mouton de Gruyter: Berlin/New York. 260 p.

Isabel Durán Muñoz Universidad de Málaga Campus de Teatinos s/n

29071-Málaga [email protected]

This book is published in the series Text, Translation, Computational Processing [TTCP], by Walter de Gruyter, and contains selected contributions to the 9th biennial conference on Natural Language Processing (KONVENS 2008), organized by the scientific societies DEGA, DGfS, GI, GLDV, ITG and ÖGAI in Berlin.

The central theme of this conference was the dynamic interaction between digital text resources and lexical knowledge representations, illustrating in particular the importance of methods in corpus linguistics for building lexical resources on the one hand, and the relevance of lexical resources for analysis of and intelligent search methods for text corpora on the other. The most innovative works presented at the conference were selected in order to publish a reliable and state-of-the-art book for all academics and professionals in the field.

The contributions provide a substantial overview of current trends and issues in the fields of computational lexicography and lexicology, corpus linguistics and text technology. They show the most current research in these disciplines and also shed new light on the researchers in question. All the works include a common element in their experiments and studies: the textual corpus, which is considered to be the base of their studies, as in most of the studies carried out in Computational Linguistics.

The book is divided into three sections, which coincide with the conference’s three main topics of interest.

The first section of the book, “Linguistic Analysis of Text Resources”, discusses techniques, tools and models for the automated linguistic analysis of text resources.

These studies are based on essential tools and techniques of Computational Linguistics, such as Treebank alignment, annotation, evaluation of theme and rheme, and distributional similarity, among others. The six contributions focus on discourse and syntactic elements, and their common aim is to improve the analysis of discourse by Computational Linguistics tools.

The following section, “Extraction of Lexical Knowledge from Text Resources”, describes and evaluates methods for the automatic acquisition of lexical knowledge from digitized and linguistically annotated textual corpora. They implement corpus techniques to improve existing resources, such as WordNet (Towards improved text understanding with WordNet, by Fellmaun, Clark and Hobbs), machine translation dictionaries (Rapid construction of explicative dictionaries using hybrid machine translation, by Eberle and Rapp) and other lexicographical resources, such as juridical resources. Also, they present original studies on dialectology and on oral corpora.

The last section, “Representation of Lexical Knowledge”, presents innovative approaches to the representation of lexical knowledge in digital media for various purposes and user groups. In this section, we find new and original resources based on textual corpora, such as the Spanish WordNet (The Spanish version of WordNet 3.0, by Fernández-Montraveta, Vázquez and Fellmaun), and also innovative tools to improve the functionality of existing or general resources. In this sense, these contributions provide tools for the generation, analysis and management of different aspects of resources, such as the GUI-based tools meant to facilitate the

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 133-134 recibido 18-12-08, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 134: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

navigation through and exploration of GermaNet (Tools for exploring GermaNet in the context of cl-teaching, by Cramer and Finthammer) and the development presented by Müller-Spitzer (Research on dictionary use and the development of user-adapted views) of user-adapted views of lexicographic data.

For all researchers interested in NLP and Computational Linguistics, I consider this book can be of great value, since it presents cutting-edge studies in the lexicographical and computational linguistic fields, either in progress or already finished, and it opens new lines of research in the future. In conclusion, I can say that this book includes innovative and exhaustive studies about the topics involved, and it is a coherent and concise book in its whole.

Isabel Durán Muñoz

134

Page 135: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Información General

Page 136: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos
Page 137: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

SEPLN'2009

XXV CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL

Palacio de Miramar. Donostia – San Sebastián (España) 8-10 de septiembre 2009

http://ixa2.si.ehu.es/sepln2009/

1 Presentación La XXV edición del congreso anual de la Sociedad Española para el Procesamiento del Lenguaje Natural se celebrará en Donostia – San Sebastián (España) del día 8 al 10 de septiembre de 2009, organizado por la Sociedad Española para el Procesamiento del Lenguaje Natural junto con la Universidad del País Vasco (Euskal Herriko Unibertsitatea). Como en ediciones anteriores, con este evento la SEPLN pretende promover la difusión de las actividades de investigación, desarrollo e innovación que realizan en cualquiera de los ámbitos del procesamiento del lenguaje natural los diversos grupos e investigadores españoles y extranjeros. El congreso aspira a ofrecer un foro de discusión y comunicación en el que se favorezca el intercambio de la información y materiales científicos necesarios para promover la publicación de trabajos y la colaboración con instituciones nacionales e internacionales que actúen en el ámbito de interés del congreso.

2 Objetivos El objetivo principal de este congreso es el de ofrecer a la comunidad científica y empresarial del sector el foro idóneo para la presentación de las últimas investigaciones y desarrollos del ámbito de trabajo en PLN, así como mostrar las posibilidades reales de aplicación y conocer nuevos proyectos. De esta manera, el XXV Congreso de la SEPLN pretende ser un lugar de encuentro para la comunicación de resultados e intercambio de opiniones sobre el desarrollo de esta área en la actualidad. Además, se desea conseguir el objetivo de anteriores ediciones de este congreso identificando las futuras directrices de la investigación básica y de las aplicaciones

previstas por los profesionales, con el fin de contrastarlas con las necesidades reales del mercado. Igualmente el congreso pretende ser un marco propicio para introducir a otras personas interesadas en esta área de conocimiento.

3 Areas Temáticas Se anima a grupos e investigadores a enviar comunicaciones, resúmenes de proyectos o demostraciones en alguna de las áreas temáticas siguientes: • Modelos lingüísticos, matemáticos y

psicolingüísticos del lenguaje • Lingüística de corpus • Extracción y recuperación de información

monolingüe y multilingüe • Gramáticas y formalismos para el análisis

morfológico y sintáctico • Lexicografía computacional • Generación textual monolingüe y

multilingüe • Traducción automática • Reconocimiento y síntesis de voz • Semántica, pragmática y discurso • Resolución de la ambigüedad léxica • Aplicaciones industriales del PLN • Análisis automático del contenido textual

4 Formato del Congreso La duración prevista del congreso será de tres días, con ponencias invitadas y sesiones dedicadas a la presentación de comunicaciones y de proyectos o demostraciones.

5 Consejo Asesor Miembros: • Prof. José Gabriel Amores Carredano

(Universidad de Sevilla)

ISSN 1135-5948 © Sociedad Española para el Procesamiento del Lenguaje Natural

Page 138: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

• Prof. Toni Badia i Cardús (Universitat Pompeu Fabra)

• Prof. Manuel de Buenaga Rodríguez (Universidad Europea de Madrid)

• Prof. Fco. Javier Calle Gómez (Universidad Carlos III de Madrid)

• Prof.ª Irene Castellón Masalles (Universitat de Barcelona)

• Prof.ª Arantza Díaz de Ilarraza (Euskal Herriko Unibertsitatea)

• Prof. Antonio Ferrández Rodríguez (Universitat d'Alacant)

• Prof. Mikel Forcada Zubizarreta (Universitat d'Alacant)

• Prof.ª Ana María García Serrano (Universidad Politécnica de Madrid)

• Prof. Koldo Gojenola Galletebeitia (Euskal Herriko Unibertsitatea)

• Prof. Xavier Gómez Guinovart (Universidade de Vigo)

• Prof. Julio Gonzalo Arroyo (Universidad Nacional de Educación a Distancia)

• Prof. José Miguel Goñi Menoyo (Universidad Politécnica de Madrid)

• José B. Mariño Acebal(Universitat Politécnica de Catalunya)

• Prof.ª M. Antonia Martí Antonín (Universitat de Barcelona)

• Prof.ª Mª Teresa Martín Valdivia (Universidad de Jaén)

• Prof. Patricio Martínez Barco (Universitat d'Alacant)

• Prof. Paloma Martínez Fernández (Universidad Carlos III de Madrid)

• Profª. Raquel Martínez Unanue (Universidad Nacional de Educación a Distancia)

• Prof.ª Lidia Ana Moreno Boronat (Universitat Politécnica de Valencia)

• Prof. Lluis Padró (Universitat Politécnica de Catalunya)

• Prof. Manuel Palomar Sanz (Universitat d'Alacant)

• Prof. Ferrán Pla (Universitat Politécnica de Valencia)

• Prof. Germán Rigau (Euskal Herriko Unibertsitatea)

• Prof. Horacio Rodríguez Hontoria (Universitat Politécnica de Catalunya)

• Prof. Kepa Sarasola Gabiola (Euskal Herriko Unibertsitatea)

• Prof. Emilio Sanchís (Universitat Politécnica de Valencia)

• Prof. L. Alfonso Ureña López (Universidad de Jaén)

• Prof.ª Mª Felisa Verdejo Maillo (Universidad Nacional de Educación a Distancia)

• Prof. Manuel Vilares Ferro (Universidade de Vigo)

• Prof. Ruslan Mitkov (Universidad de Wolverhampton)

• Prof.ª Sylviane Cardey-Greenfield (Centre de recherche en linguistique et traitement automatique des langues, Lucien Tesnière. Besançon, France)

• Prof. Leonel Ruiz Miyares (Centro de Linguistica Aplicada de Santiago de Cuba)

• Investigador Luis Villaseñor-Pineda (Instituto Nacional de Astrofísica, Óptica y Electrónica. México)

• Investigador Manuel Montes y Gómez (Instituto Nacional de Astrofísica, Óptica y Electrónica. México)

• Prof. Alexander Gelbukh (Instituto Politécnico Nacional. México)

• Prof. Nuno J. Mamede (Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa. Portugal)

• Prof. Bernardo Magnini (Fondazione Bruno Kessler. Italia)

6 Fechas importantes Fechas para la presentación y aceptación de comunicaciones:

• Fecha límite para la entrega de comunicaciones: 24 de abril de 2009.

• Notificación de aceptación: 25 de mayo de 2009.

• Fecha límite para entrega de la versión definitiva: 19 de junio de 2009.

• Plazo para inscripción a coste reducido: 15 de julio de 2009.

Page 139: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Hoja de Inscripción para Socios Datos Personales Apellidos : .................................................................................................................................................Nombre : .................................................................................................................................................DNI : ............................................................ Fecha de Nacimiento : ...........................................Teléfono : ............................................................ E-mail : ...........................................Domicilio : .................................................................................................................................................Municipio : ................................................................................................. Código Postal : ................. Provincia : .................................................................................................................................................

Datos Profesionales Centro de trabajo : ..................................................................................................................................... Domicilio : ..................................................................................................................................... Código Postal : .................... Municipio : ..................................................................................... Provincia : ........................................... Teléfono : ................................. Fax : ............................. E-mail : ..................................... Áreas de investigación o interés: ................................................................................................................... ........................................................................................................................................................................

Preferencia para envío de correo: [ ] Dirección personal [ ] Dirección Profesional

Datos Bancarios: Nombre de la Entidad : ............................................................................................................................Domicilio : ............................................................................................................................Cód. Postal y Municipio : ............................................................................................................................Provincia : ............................................................................................................................ Cód. Banco (4 dig.) Cód. Suc. (4 dig.) Dig. Control (2 Dig.) Núm.cuenta (10 dig.) ........................................ ........................................ ........................................ ........................................

En.....................a....................................de..............................................de...........................

(firma)

------------------------------------------------------------------------------------------------------------------------------------------------------- Sociedad Española para el Procesamiento del Lenguaje Natural. SEPLN

Sr. Director de: Entidad : ......................................................................................................... Núm. Sucursal : ......................................................................................................... Domicilio : ......................................................................................................... Municipio : ............................................................... Cód. Postal : .............. Provincia : ......................................................................................................... Tipo cuenta (corriente/caja de ahorro) : ......................................................................................................... Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos anuales correspondientes a las cuotas vigentes de dicha asociación.

Les saluda atentamente Fdo: ...........................................................................

(nombre y apellidos del firmante)

............................de ..................................de................. ------------------------------------------------------------------------------------------------------------------------------------------------------

Cuotas de los socios: 18 € (residentes en España) o 24 € (socios residentes en el extranjero). Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio

Page 140: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos
Page 141: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Hoja de Inscripción para Instituciones

Datos Entidad/Empresa Nombre : .................................................................................................................................................NIF : ............................................................ Teléfono : ............................................................E-mail : ............................................................ Fax : ............................................................Domicilio : .................................................................................................................................................Municipio : ................................................... Código Postal : ............ Provincia : ..........................Áreas de investigación o interés: ................................................................................................................... ........................................................................................................................................................................

Datos de envío Dirección : .............................................................................................. Código Postal : ................. Municipio : .......................................................................... Provincia : ..............................................Teléfono : ........................................... Fax : ................................ E-mail : ...............................

Datos Bancarios: Nombre de la Entidad : ............................................................................................................................Domicilio : ............................................................................................................................Cód. Postal y Municipio : ............................................................................................................................Provincia : ............................................................................................................................ Cód. Banco (4 dig.) Cód. Suc. (4 dig.) Dig. Control (2 Dig.) Núm.cuenta (10 dig.) ........................................ ........................................ ........................................ ........................................

-------------------------------------------------------------------------------------------------------------------------------------------------- Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN). Sr. Director de: Entidad : .......................................................................................................................... Núm. Sucursal : .......................................................................................................................... Domicilio : .......................................................................................................................... Municipio : ............................................................................. Cód. Postal : ................. Provincia : .......................................................................................................................... Tipo cuenta (corriente/caja de ahorro) : .......................................................................................................................... Núm Cuenta : .......................................................................................................................... Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos anuales correspondientes a las cuotas vigentes de dicha asociación. Les saluda atentamente Fdo: ...........................................................................

(nombre y apellidos del firmante)

............................de ..................................de.................

--------------------------------------------------------------------------------------------------------------------------------------------------.......................................................................................................................................................................... Cuotas de los socios institucionales: 300 €.

Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio

Page 142: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos
Page 143: Procesamiento del Lenguaje Natural, Revista nº 42, marzo de …€¦ · primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos

Información para los Autores

Formato de los Trabajos • La longitud máxima admitida para las contribuciones será de 8 páginas DIN A4 (210 x 297

mm.), incluidas referencias y figuras. • Los artículos pueden estar escritos en inglés o español. El título, resumen y palabras clave

deben escribirse en ambas lenguas. • El formato será en Word ó LaTeX

Envío de los Trabajos • El envío de los trabajos se realizará electrónicamente a través de la página web de la Sociedad

Española para el Procesamiento del Lenguaje Natural (http://www.sepln.org) • Para los trabajos con formato LaTeX se mandará el archivo PDF junto a todos los fuentes

necesarios para compilación LaTex • Para los trabajos con formato Word se mandará el archivo PDF junto al DOC o RTF