Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Post on 14-Jan-2016

37 views 0 download

description

Acceso a la Información en Internet: retos para la Ingeniería Lingüística. Julio Gonzalo julio@lsi.uned.es UNED. “Lenguaje Natural”. Todo hombre ama o besa a una mujer Juan busca un unicornio Juan regaló un libro a María y unos guantes a Alicia. “Lenguaje Natural”. - PowerPoint PPT Presentation

Transcript of Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Julio Gonzalo

julio@lsi.uned.es

UNED

Acceso a la Información en Internet: retos para la Ingeniería

Lingüística

“Lenguaje Natural”

Todo hombre ama o besa a una mujer Juan busca un unicornio Juan regaló un libro a María y unos guantes a

Alicia.

“Lenguaje Natural”

“Cuando se lleva dos años con una mujer, debe haber algo más que ... otra cosa” (Jesulín de Ubrique).

“Sacaré a los jugadores que me parezca, ya sean italianos, rusos o extranjeros” (Javier Clemente).

“Ahora tengo más tiempo libre que nunca, porque, aunque hago un programa en directo, es decir, que se emite todos los días, es grabado” (Mar Flores).

Algunas aplicaciones PLN

Correctores ortográficos y de estilo. Traducción automática. Interfaces voz en servicios telefónicos. Sistemas de dictado automático. Sistemas de traducción voz - voz

Tareas intermedias

Análisis morfológico Reducción de la ambigüedad léxica:

– Etiquetado de categoría sintáctica (tagging)– Etiquetado semántico (word sense disambiguation)– Parsing (detección de sintagmas, etc.)

Recursos: bases de datos léxicas, corpora anotado.

Alineamiento de corpora paralelo

Herramientas

anar

EWN/ITEM Lexical Data BaseEWN/ITEM Lexical Data Base

I

II = Link from Language Specific to Inter Lingual Index

I = Language Independent l ink

III = Language Dependent Link

II

II

CatalanWordnet

moure’s

conduirIII

III

IIIII

driveride

EnglishWordnet

movetravel

go

II

cabalgar III

III

conducir

SpanishWordnet

eraman

III

mugitu

III

BasqueWordnet

moverseir

ILI-record{drive}

Top-Ontology

Inter-Lingual-Index

IIIDynamicLocation

2ndOrderEntity

joan

Anotación semántica (WSD)

Decidir cuál es, en un contexto determinado, el sentido en que se usa una palabra. (spring is my favourite season)

¿Cuántos sentidos tiene una palabra? ¿Para qué utilizaremos esa información? SENSEVAL: competición de sistemas de

anotación semántica.

Ingenería Lingüística en Acceso a Información en Internet

Motores de búsqueda (Google, Terra), filtrado, categorización, etc.

Question answering (pregunta/respuesta) Extracción de información. Extracción de resúmenes. Traducción automática. Búsqueda multilingüe.

Motores de búsqueda

Consulta, exploración, filtrado, categorización. Recolección y actualización de páginas:

spiders, crawlers, worms. Representación de índices: Tokenización, stop

words, stemming, asignación pesos, estructura.

Tamaño consultas en Internet

0 1 2 3

1997

1998

1999

Number of Terms Per Query

English

Other EuropeanLanguages (German,French, Italian, Dutch,Swedish)

Fuente: Oard 2000

Evaluación: TREC

Organizada por NIST (EEUU). Ad-Hoc track:

– colección varios Gb de documentos.– “topics” (consultas con tres niveles de detalle)– Juicios de relevancia realizados por evaluadores.– Efectividad: precisión / recall.– Eficiencia? Usabilidad?

0.0

0.5

1.0

0.0 0.2 0.4 0.6 0.8 1.0

Recall

Mea

n In

terp

olat

ed P

rec.

0.353

Precision/recall

Potencial de las Tecnologías de la Lengua en motores de búsqueda

Tokenización (vg Chino) Unidades mayores de indexación (v.g.

“Ingeniería Lingüística”) Reconocimiento de entidades (v.g “Al Gore”,

“the vice-president”) Distinción de sentidos, detección de

sinónimos.

Vínculos semánticos entre índices

Abono festival de música Abono agricultura Mantillo, estiércol abono “diseño de zapatos de verano” vs.

“sandalias diseñadas en Italia ... Han sido diseñadas para la comodidad veraniega”

Question answering

Respuesta concreta vs. Documentos relacionados (tipo Trivial Pursuit).

Filtrado inicial de documentos + procesamiento de Lenguaje Natural.

Cuanto más se limita el tamaño de la respuesta, más utiles son las técnicas de Ingeniería Lingüística.

Extracción de información

Extracción de Información

New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent.

<ORGANIZATION-1> NAME : "New York Times Co."<ORGANIZATION-2> NAME : "New York Times"

<PERSON-1> NAME : "Russell T. Lewis"<PERSON-2> NAME : "Lance R. Primis"

<SUCCESSION-1>

ORGANIZATION : <ORGANIZATION-2>

POST : "president"

WHO_IS_IN : <PERSON-1>

WHO_IS_OUT : <PERSON-2>

Aplicaciones EI

Análisis de periódicos para encontrar casos de fusiones empresariales.

Monitorización de noticias de agencia y transcripciones de radio y TV para extraer descripciones de actividades terroristas por tipos de acción, sospechosos, lugar y fecha.

Análisis de historiales clínicos, extrayendo diagnóstico, síntomas, tests, tratamientos, etc.

Búsqueda de información (vs. Documentos)!!!

Extracción de resúmenes

Tipos:– Extracto vs. resúmen– Genérico vs. basado en consulta (UMICH)– Informativo vs. indicativo– Neutral vs. Sesgado (UEM)

Técnicas:– Búsqueda de información– Extracción de información + generación

Traducción automática

Las diferencias de idioma son una barrera para la transmisión de información en Internet.

¿La Ingeniería Lingüística puede prevenir el efecto empobrecedor de Internet sobre la diversidad lingüística?

Traducción automática

The spring was not strong enough and lost its shape (El muelle no tenía fuerza suficiente y se deformó).

la primavera no era muy bien bastante y perdido su forma. I like to hike mountains in spring (Me gusta caminar por las

montañas en primavera). Me gusta hacer una caminata las montañas en primavera. We drunk water from the spring (Bebimos agua de la fuente).

Nosotros el agua bebido de la primavera. They spring when they are frightened (Ellos saltan cuando se

asustan). Ellos saltan cuando ellos se asustan.(http://www.el-mundo.es/traductor)

Búsqueda de Información Multilingüe

¿Para qué?

Usuarios bi/multilingües:– Una sola consulta– Uso del idioma más fluido (vocabulario activo)

Usuarios monolingües:– Junto con un sistema de traducción– Junto con extracción de información– Búsqueda por pies de imagen, etc.

Fuente: Global ReachSource: Global Reach

EnglishEnglish

2000 2005

Global Internet User Population

Chinese

Retos de la búsqueda multilingüe

probesurveytake samples

cymbidium goeringii

restrainoilpetroleum

segmentaciónincorrecta

¿qué traducciónseleccionar?

¿Nohay traducción? Fuente: Oard 2000

Enfoques

Traducción de la consulta Traducción de los documentos Traducción a una representación interlingua. Recursos:

– Diccionarios bi o multilingües.– Bases de datos léxicas bi o multilingües.– Extracción de corpora paralelo.– Traducción de terminología, nombres propios, etc.

Es suficiente usar MT?

¿Qué es un término?

• La granularidad depende de la tarea– Larga para traducir, más fina para recuperar.

• Las palabras compuestas y colocaciones:– Son menos ambiguas que las palabras aisladas.

– Las expresiones idiomáticas se traducen como un solo concepto.

• Formas de identificar palabras compuestas:– semántica (v.g. Aparece en un diccionario)

– sintáctica (v.g. Se analiza como sintagma n.)

– Co-ocurrencia (aparecen juntas a menudo)

Ingeniería Lingüística y Recuperación de Información en la UNED

Celebraciones del milenio en la capital de Italia

celebración (N) milenio(N)Capital_de_Italia (N)

50% n04769909An occasion for special

festivities to mark some happy event

50% n00295295The public performance

of a sacrament or Solemn ceremony

100% n09084966A span of 1000 years

100% n05523414

celebration

celebració

Celebrationsolemnization

celebració

millenium

Mil.lenni

Italian_capitalCapital_of_ItalyRoma, Rome

Capital_d’ItaliaRoma

InterLingual Index

English

Spanish

Catalan

África vuelve a escena.

Los tópicos sobreel continente africanoya no son tan ciertoscomo hace tan sólounas décadas. El...

<WRD VAL="escena"> <LEX LEM="escena" PAR="NCFS000"> </LEX> </WRD> </S></P><P> <S> <WRD VAL="Los"> <LEX LEM="el"PAR="TDMP0"/> </WRD><WRD VAL="tópicos"> <LEX LEM LEX="tópico" PAR="NCMP000">...

LexicalProcessin

g

English tools:wordnet morph

Brill tagger

Spanish/Catalan tools:MACO+ (morphology)

RELAX tagger

Document Base forms, multiwords, category

anar

EWN/ITEM Lexical Data BaseEWN/ITEM Lexical Data Base

I

II = Link from Language Specific to Inter Lingual Index

I = Language Independent l ink

III = Language Dependent Link

II

II

CatalanWordnet

moure’s

conduirIII

III

IIIII

driveride

EnglishWordnet

movetravel

go

II

cabalgar III

III

conduc ir

SpanishWordnet

eraman

III

mugitu

III

BasqueWordnet

moverseir

ILI-record{drive}

Top-Ontology

Inter-Lingual-Index

IIIDynamicLocation

2ndOrderEntity

joan

Word Sense Disambiguation

<WRD VAL="escena"> <LEX LEM="escena" PAR="NCFS000"> <FST SYN="n08529162"/> <EWN SCR="13" SYN="n08529162"/> <EWN SCR="0” SYN="n05457541"/> <EWN SCR="79" SYN="n04543589"/> <EWN SCR="6"SYN="n04545176"/> <EWN SCR="0" SYN="n02788565"/> </LEX></WRD></S></P><P><S><WRD VAL="Los"> <LEX LEM="el"PAR="TDMP0"/></WRD><WRD VAL="tópicos"> <LEX LEM LEX="tópico" PAR="NCMP000"> <FST SYN="n04622698"/> <EWN SCR="100" SYN="n04622698"/>

...n08529162 n05457541Losn04622698...

n08529162 n05457541 n04543589 n04545176 n02788565Losn04622698

n08529162 Losn04622698

First sense indexes

All senses indexes

Conceptual density indexes

Synsets w. probabilities

Synsets are filtered according to their

probabilities

Representación textual implica traducción de laConsulta; representación conceptual implica indexación

En términos del índice interlingua.

Idioma de la consultaSelección de la estrategia de Desambiguación semántica

La selección Del periódico

Determina el idiomaDe los documentos

Once the queryis processed anddocuments are

retrieved,the user can directly

refine the targetlanguage query

adding or deletingquery terms.

Documentos

recuperados

¿Y el futuro?