Acceso a la Información en Internet: retos para la Ingeniería Lingüística

70
Julio Gonzalo [email protected] s UNED Acceso a la Información en Internet: retos para la Ingeniería Lingüística

description

Acceso a la Información en Internet: retos para la Ingeniería Lingüística. Julio Gonzalo [email protected] UNED. “Lenguaje Natural”. Todo hombre ama o besa a una mujer Juan busca un unicornio Juan regaló un libro a María y unos guantes a Alicia. “Lenguaje Natural”. - PowerPoint PPT Presentation

Transcript of Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Page 1: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Julio Gonzalo

[email protected]

UNED

Acceso a la Información en Internet: retos para la Ingeniería

Lingüística

Page 2: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

“Lenguaje Natural”

Todo hombre ama o besa a una mujer Juan busca un unicornio Juan regaló un libro a María y unos guantes a

Alicia.

Page 3: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

“Lenguaje Natural”

“Cuando se lleva dos años con una mujer, debe haber algo más que ... otra cosa” (Jesulín de Ubrique).

“Sacaré a los jugadores que me parezca, ya sean italianos, rusos o extranjeros” (Javier Clemente).

“Ahora tengo más tiempo libre que nunca, porque, aunque hago un programa en directo, es decir, que se emite todos los días, es grabado” (Mar Flores).

Page 4: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Algunas aplicaciones PLN

Correctores ortográficos y de estilo. Traducción automática. Interfaces voz en servicios telefónicos. Sistemas de dictado automático. Sistemas de traducción voz - voz

Page 5: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 6: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 7: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Tareas intermedias

Análisis morfológico Reducción de la ambigüedad léxica:

– Etiquetado de categoría sintáctica (tagging)– Etiquetado semántico (word sense disambiguation)– Parsing (detección de sintagmas, etc.)

Recursos: bases de datos léxicas, corpora anotado.

Alineamiento de corpora paralelo

Page 8: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 9: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 10: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 11: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 12: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Herramientas

Page 13: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 14: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 15: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

anar

EWN/ITEM Lexical Data BaseEWN/ITEM Lexical Data Base

I

II = Link from Language Specific to Inter Lingual Index

I = Language Independent l ink

III = Language Dependent Link

II

II

CatalanWordnet

moure’s

conduirIII

III

IIIII

driveride

EnglishWordnet

movetravel

go

II

cabalgar III

III

conducir

SpanishWordnet

eraman

III

mugitu

III

BasqueWordnet

moverseir

ILI-record{drive}

Top-Ontology

Inter-Lingual-Index

IIIDynamicLocation

2ndOrderEntity

joan

Page 16: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 17: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 18: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Anotación semántica (WSD)

Decidir cuál es, en un contexto determinado, el sentido en que se usa una palabra. (spring is my favourite season)

¿Cuántos sentidos tiene una palabra? ¿Para qué utilizaremos esa información? SENSEVAL: competición de sistemas de

anotación semántica.

Page 19: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Ingenería Lingüística en Acceso a Información en Internet

Motores de búsqueda (Google, Terra), filtrado, categorización, etc.

Question answering (pregunta/respuesta) Extracción de información. Extracción de resúmenes. Traducción automática. Búsqueda multilingüe.

Page 20: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Motores de búsqueda

Consulta, exploración, filtrado, categorización. Recolección y actualización de páginas:

spiders, crawlers, worms. Representación de índices: Tokenización, stop

words, stemming, asignación pesos, estructura.

Page 21: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 22: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 23: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Tamaño consultas en Internet

0 1 2 3

1997

1998

1999

Number of Terms Per Query

English

Other EuropeanLanguages (German,French, Italian, Dutch,Swedish)

Fuente: Oard 2000

Page 24: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 25: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Evaluación: TREC

Organizada por NIST (EEUU). Ad-Hoc track:

– colección varios Gb de documentos.– “topics” (consultas con tres niveles de detalle)– Juicios de relevancia realizados por evaluadores.– Efectividad: precisión / recall.– Eficiencia? Usabilidad?

Page 26: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

0.0

0.5

1.0

0.0 0.2 0.4 0.6 0.8 1.0

Recall

Mea

n In

terp

olat

ed P

rec.

0.353

Precision/recall

Page 27: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Potencial de las Tecnologías de la Lengua en motores de búsqueda

Tokenización (vg Chino) Unidades mayores de indexación (v.g.

“Ingeniería Lingüística”) Reconocimiento de entidades (v.g “Al Gore”,

“the vice-president”) Distinción de sentidos, detección de

sinónimos.

Page 28: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Vínculos semánticos entre índices

Abono festival de música Abono agricultura Mantillo, estiércol abono “diseño de zapatos de verano” vs.

“sandalias diseñadas en Italia ... Han sido diseñadas para la comodidad veraniega”

Page 29: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Question answering

Respuesta concreta vs. Documentos relacionados (tipo Trivial Pursuit).

Filtrado inicial de documentos + procesamiento de Lenguaje Natural.

Cuanto más se limita el tamaño de la respuesta, más utiles son las técnicas de Ingeniería Lingüística.

Page 30: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 31: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 32: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 33: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 34: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 35: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 36: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Extracción de información

Page 37: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Extracción de Información

New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent.

<ORGANIZATION-1> NAME : "New York Times Co."<ORGANIZATION-2> NAME : "New York Times"

<PERSON-1> NAME : "Russell T. Lewis"<PERSON-2> NAME : "Lance R. Primis"

<SUCCESSION-1>

ORGANIZATION : <ORGANIZATION-2>

POST : "president"

WHO_IS_IN : <PERSON-1>

WHO_IS_OUT : <PERSON-2>

Page 38: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Aplicaciones EI

Análisis de periódicos para encontrar casos de fusiones empresariales.

Monitorización de noticias de agencia y transcripciones de radio y TV para extraer descripciones de actividades terroristas por tipos de acción, sospechosos, lugar y fecha.

Análisis de historiales clínicos, extrayendo diagnóstico, síntomas, tests, tratamientos, etc.

Búsqueda de información (vs. Documentos)!!!

Page 39: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 40: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 41: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 42: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 43: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 44: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 45: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Extracción de resúmenes

Tipos:– Extracto vs. resúmen– Genérico vs. basado en consulta (UMICH)– Informativo vs. indicativo– Neutral vs. Sesgado (UEM)

Técnicas:– Búsqueda de información– Extracción de información + generación

Page 46: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 47: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 48: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Traducción automática

Las diferencias de idioma son una barrera para la transmisión de información en Internet.

¿La Ingeniería Lingüística puede prevenir el efecto empobrecedor de Internet sobre la diversidad lingüística?

Page 49: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 50: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 51: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 52: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 53: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Traducción automática

The spring was not strong enough and lost its shape (El muelle no tenía fuerza suficiente y se deformó).

la primavera no era muy bien bastante y perdido su forma. I like to hike mountains in spring (Me gusta caminar por las

montañas en primavera). Me gusta hacer una caminata las montañas en primavera. We drunk water from the spring (Bebimos agua de la fuente).

Nosotros el agua bebido de la primavera. They spring when they are frightened (Ellos saltan cuando se

asustan). Ellos saltan cuando ellos se asustan.(http://www.el-mundo.es/traductor)

Page 54: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Búsqueda de Información Multilingüe

Page 55: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

¿Para qué?

Usuarios bi/multilingües:– Una sola consulta– Uso del idioma más fluido (vocabulario activo)

Usuarios monolingües:– Junto con un sistema de traducción– Junto con extracción de información– Búsqueda por pies de imagen, etc.

Page 56: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Fuente: Global ReachSource: Global Reach

EnglishEnglish

2000 2005

Global Internet User Population

Chinese

Page 57: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Retos de la búsqueda multilingüe

probesurveytake samples

cymbidium goeringii

restrainoilpetroleum

segmentaciónincorrecta

¿qué traducciónseleccionar?

¿Nohay traducción? Fuente: Oard 2000

Page 58: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Enfoques

Traducción de la consulta Traducción de los documentos Traducción a una representación interlingua. Recursos:

– Diccionarios bi o multilingües.– Bases de datos léxicas bi o multilingües.– Extracción de corpora paralelo.– Traducción de terminología, nombres propios, etc.

Page 59: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Es suficiente usar MT?

Page 60: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

¿Qué es un término?

• La granularidad depende de la tarea– Larga para traducir, más fina para recuperar.

• Las palabras compuestas y colocaciones:– Son menos ambiguas que las palabras aisladas.

– Las expresiones idiomáticas se traducen como un solo concepto.

• Formas de identificar palabras compuestas:– semántica (v.g. Aparece en un diccionario)

– sintáctica (v.g. Se analiza como sintagma n.)

– Co-ocurrencia (aparecen juntas a menudo)

Page 61: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Ingeniería Lingüística y Recuperación de Información en la UNED

Page 62: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Celebraciones del milenio en la capital de Italia

celebración (N) milenio(N)Capital_de_Italia (N)

50% n04769909An occasion for special

festivities to mark some happy event

50% n00295295The public performance

of a sacrament or Solemn ceremony

100% n09084966A span of 1000 years

100% n05523414

celebration

celebració

Celebrationsolemnization

celebració

millenium

Mil.lenni

Italian_capitalCapital_of_ItalyRoma, Rome

Capital_d’ItaliaRoma

InterLingual Index

English

Spanish

Catalan

Page 63: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

África vuelve a escena.

Los tópicos sobreel continente africanoya no son tan ciertoscomo hace tan sólounas décadas. El...

<WRD VAL="escena"> <LEX LEM="escena" PAR="NCFS000"> </LEX> </WRD> </S></P><P> <S> <WRD VAL="Los"> <LEX LEM="el"PAR="TDMP0"/> </WRD><WRD VAL="tópicos"> <LEX LEM LEX="tópico" PAR="NCMP000">...

LexicalProcessin

g

English tools:wordnet morph

Brill tagger

Spanish/Catalan tools:MACO+ (morphology)

RELAX tagger

Document Base forms, multiwords, category

Page 64: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

anar

EWN/ITEM Lexical Data BaseEWN/ITEM Lexical Data Base

I

II = Link from Language Specific to Inter Lingual Index

I = Language Independent l ink

III = Language Dependent Link

II

II

CatalanWordnet

moure’s

conduirIII

III

IIIII

driveride

EnglishWordnet

movetravel

go

II

cabalgar III

III

conduc ir

SpanishWordnet

eraman

III

mugitu

III

BasqueWordnet

moverseir

ILI-record{drive}

Top-Ontology

Inter-Lingual-Index

IIIDynamicLocation

2ndOrderEntity

joan

Word Sense Disambiguation

Page 65: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

<WRD VAL="escena"> <LEX LEM="escena" PAR="NCFS000"> <FST SYN="n08529162"/> <EWN SCR="13" SYN="n08529162"/> <EWN SCR="0” SYN="n05457541"/> <EWN SCR="79" SYN="n04543589"/> <EWN SCR="6"SYN="n04545176"/> <EWN SCR="0" SYN="n02788565"/> </LEX></WRD></S></P><P><S><WRD VAL="Los"> <LEX LEM="el"PAR="TDMP0"/></WRD><WRD VAL="tópicos"> <LEX LEM LEX="tópico" PAR="NCMP000"> <FST SYN="n04622698"/> <EWN SCR="100" SYN="n04622698"/>

...n08529162 n05457541Losn04622698...

n08529162 n05457541 n04543589 n04545176 n02788565Losn04622698

n08529162 Losn04622698

First sense indexes

All senses indexes

Conceptual density indexes

Synsets w. probabilities

Synsets are filtered according to their

probabilities

Page 66: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Representación textual implica traducción de laConsulta; representación conceptual implica indexación

En términos del índice interlingua.

Idioma de la consultaSelección de la estrategia de Desambiguación semántica

La selección Del periódico

Determina el idiomaDe los documentos

Once the queryis processed anddocuments are

retrieved,the user can directly

refine the targetlanguage query

adding or deletingquery terms.

Documentos

recuperados

Page 67: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 68: Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Page 69: Acceso a la Información en Internet: retos para la Ingeniería Lingüística

¿Y el futuro?

Page 70: Acceso a la Información en Internet: retos para la Ingeniería Lingüística