Lingüística Computacional y Lingüística de Corpus. Potencialidades ...
Acceso a la Información en Internet: retos para la Ingeniería Lingüística
description
Transcript of Acceso a la Información en Internet: retos para la Ingeniería Lingüística
Julio Gonzalo
UNED
Acceso a la Información en Internet: retos para la Ingeniería
Lingüística
“Lenguaje Natural”
Todo hombre ama o besa a una mujer Juan busca un unicornio Juan regaló un libro a María y unos guantes a
Alicia.
“Lenguaje Natural”
“Cuando se lleva dos años con una mujer, debe haber algo más que ... otra cosa” (Jesulín de Ubrique).
“Sacaré a los jugadores que me parezca, ya sean italianos, rusos o extranjeros” (Javier Clemente).
“Ahora tengo más tiempo libre que nunca, porque, aunque hago un programa en directo, es decir, que se emite todos los días, es grabado” (Mar Flores).
Algunas aplicaciones PLN
Correctores ortográficos y de estilo. Traducción automática. Interfaces voz en servicios telefónicos. Sistemas de dictado automático. Sistemas de traducción voz - voz
Tareas intermedias
Análisis morfológico Reducción de la ambigüedad léxica:
– Etiquetado de categoría sintáctica (tagging)– Etiquetado semántico (word sense disambiguation)– Parsing (detección de sintagmas, etc.)
Recursos: bases de datos léxicas, corpora anotado.
Alineamiento de corpora paralelo
Herramientas
anar
EWN/ITEM Lexical Data BaseEWN/ITEM Lexical Data Base
I
II = Link from Language Specific to Inter Lingual Index
I = Language Independent l ink
III = Language Dependent Link
II
II
CatalanWordnet
moure’s
conduirIII
III
IIIII
driveride
EnglishWordnet
movetravel
go
II
cabalgar III
III
conducir
SpanishWordnet
eraman
III
mugitu
III
BasqueWordnet
moverseir
ILI-record{drive}
Top-Ontology
Inter-Lingual-Index
IIIDynamicLocation
2ndOrderEntity
joan
Anotación semántica (WSD)
Decidir cuál es, en un contexto determinado, el sentido en que se usa una palabra. (spring is my favourite season)
¿Cuántos sentidos tiene una palabra? ¿Para qué utilizaremos esa información? SENSEVAL: competición de sistemas de
anotación semántica.
Ingenería Lingüística en Acceso a Información en Internet
Motores de búsqueda (Google, Terra), filtrado, categorización, etc.
Question answering (pregunta/respuesta) Extracción de información. Extracción de resúmenes. Traducción automática. Búsqueda multilingüe.
Motores de búsqueda
Consulta, exploración, filtrado, categorización. Recolección y actualización de páginas:
spiders, crawlers, worms. Representación de índices: Tokenización, stop
words, stemming, asignación pesos, estructura.
Tamaño consultas en Internet
0 1 2 3
1997
1998
1999
Number of Terms Per Query
English
Other EuropeanLanguages (German,French, Italian, Dutch,Swedish)
Fuente: Oard 2000
Evaluación: TREC
Organizada por NIST (EEUU). Ad-Hoc track:
– colección varios Gb de documentos.– “topics” (consultas con tres niveles de detalle)– Juicios de relevancia realizados por evaluadores.– Efectividad: precisión / recall.– Eficiencia? Usabilidad?
0.0
0.5
1.0
0.0 0.2 0.4 0.6 0.8 1.0
Recall
Mea
n In
terp
olat
ed P
rec.
0.353
Precision/recall
Potencial de las Tecnologías de la Lengua en motores de búsqueda
Tokenización (vg Chino) Unidades mayores de indexación (v.g.
“Ingeniería Lingüística”) Reconocimiento de entidades (v.g “Al Gore”,
“the vice-president”) Distinción de sentidos, detección de
sinónimos.
Vínculos semánticos entre índices
Abono festival de música Abono agricultura Mantillo, estiércol abono “diseño de zapatos de verano” vs.
“sandalias diseñadas en Italia ... Han sido diseñadas para la comodidad veraniega”
Question answering
Respuesta concreta vs. Documentos relacionados (tipo Trivial Pursuit).
Filtrado inicial de documentos + procesamiento de Lenguaje Natural.
Cuanto más se limita el tamaño de la respuesta, más utiles son las técnicas de Ingeniería Lingüística.
Extracción de información
Extracción de Información
New York Times Co. named Russell T. Lewis, 45, president and general manager of its flagship New York Times newspaper, responsible for all business-side activities. He was executive vice president and deputy general manager. He succeeds Lance R. Primis, who in September was named president and chief operating officer of the parent.
<ORGANIZATION-1> NAME : "New York Times Co."<ORGANIZATION-2> NAME : "New York Times"
<PERSON-1> NAME : "Russell T. Lewis"<PERSON-2> NAME : "Lance R. Primis"
<SUCCESSION-1>
ORGANIZATION : <ORGANIZATION-2>
POST : "president"
WHO_IS_IN : <PERSON-1>
WHO_IS_OUT : <PERSON-2>
Aplicaciones EI
Análisis de periódicos para encontrar casos de fusiones empresariales.
Monitorización de noticias de agencia y transcripciones de radio y TV para extraer descripciones de actividades terroristas por tipos de acción, sospechosos, lugar y fecha.
Análisis de historiales clínicos, extrayendo diagnóstico, síntomas, tests, tratamientos, etc.
Búsqueda de información (vs. Documentos)!!!
Extracción de resúmenes
Tipos:– Extracto vs. resúmen– Genérico vs. basado en consulta (UMICH)– Informativo vs. indicativo– Neutral vs. Sesgado (UEM)
Técnicas:– Búsqueda de información– Extracción de información + generación
Traducción automática
Las diferencias de idioma son una barrera para la transmisión de información en Internet.
¿La Ingeniería Lingüística puede prevenir el efecto empobrecedor de Internet sobre la diversidad lingüística?
Traducción automática
The spring was not strong enough and lost its shape (El muelle no tenía fuerza suficiente y se deformó).
la primavera no era muy bien bastante y perdido su forma. I like to hike mountains in spring (Me gusta caminar por las
montañas en primavera). Me gusta hacer una caminata las montañas en primavera. We drunk water from the spring (Bebimos agua de la fuente).
Nosotros el agua bebido de la primavera. They spring when they are frightened (Ellos saltan cuando se
asustan). Ellos saltan cuando ellos se asustan.(http://www.el-mundo.es/traductor)
Búsqueda de Información Multilingüe
¿Para qué?
Usuarios bi/multilingües:– Una sola consulta– Uso del idioma más fluido (vocabulario activo)
Usuarios monolingües:– Junto con un sistema de traducción– Junto con extracción de información– Búsqueda por pies de imagen, etc.
Fuente: Global ReachSource: Global Reach
EnglishEnglish
2000 2005
Global Internet User Population
Chinese
Retos de la búsqueda multilingüe
probesurveytake samples
cymbidium goeringii
restrainoilpetroleum
segmentaciónincorrecta
¿qué traducciónseleccionar?
¿Nohay traducción? Fuente: Oard 2000
Enfoques
Traducción de la consulta Traducción de los documentos Traducción a una representación interlingua. Recursos:
– Diccionarios bi o multilingües.– Bases de datos léxicas bi o multilingües.– Extracción de corpora paralelo.– Traducción de terminología, nombres propios, etc.
Es suficiente usar MT?
¿Qué es un término?
• La granularidad depende de la tarea– Larga para traducir, más fina para recuperar.
• Las palabras compuestas y colocaciones:– Son menos ambiguas que las palabras aisladas.
– Las expresiones idiomáticas se traducen como un solo concepto.
• Formas de identificar palabras compuestas:– semántica (v.g. Aparece en un diccionario)
– sintáctica (v.g. Se analiza como sintagma n.)
– Co-ocurrencia (aparecen juntas a menudo)
Ingeniería Lingüística y Recuperación de Información en la UNED
Celebraciones del milenio en la capital de Italia
celebración (N) milenio(N)Capital_de_Italia (N)
50% n04769909An occasion for special
festivities to mark some happy event
50% n00295295The public performance
of a sacrament or Solemn ceremony
100% n09084966A span of 1000 years
100% n05523414
celebration
celebració
Celebrationsolemnization
celebració
millenium
Mil.lenni
Italian_capitalCapital_of_ItalyRoma, Rome
Capital_d’ItaliaRoma
InterLingual Index
English
Spanish
Catalan
África vuelve a escena.
Los tópicos sobreel continente africanoya no son tan ciertoscomo hace tan sólounas décadas. El...
<WRD VAL="escena"> <LEX LEM="escena" PAR="NCFS000"> </LEX> </WRD> </S></P><P> <S> <WRD VAL="Los"> <LEX LEM="el"PAR="TDMP0"/> </WRD><WRD VAL="tópicos"> <LEX LEM LEX="tópico" PAR="NCMP000">...
LexicalProcessin
g
English tools:wordnet morph
Brill tagger
Spanish/Catalan tools:MACO+ (morphology)
RELAX tagger
Document Base forms, multiwords, category
anar
EWN/ITEM Lexical Data BaseEWN/ITEM Lexical Data Base
I
II = Link from Language Specific to Inter Lingual Index
I = Language Independent l ink
III = Language Dependent Link
II
II
CatalanWordnet
moure’s
conduirIII
III
IIIII
driveride
EnglishWordnet
movetravel
go
II
cabalgar III
III
conduc ir
SpanishWordnet
eraman
III
mugitu
III
BasqueWordnet
moverseir
ILI-record{drive}
Top-Ontology
Inter-Lingual-Index
IIIDynamicLocation
2ndOrderEntity
joan
Word Sense Disambiguation
<WRD VAL="escena"> <LEX LEM="escena" PAR="NCFS000"> <FST SYN="n08529162"/> <EWN SCR="13" SYN="n08529162"/> <EWN SCR="0” SYN="n05457541"/> <EWN SCR="79" SYN="n04543589"/> <EWN SCR="6"SYN="n04545176"/> <EWN SCR="0" SYN="n02788565"/> </LEX></WRD></S></P><P><S><WRD VAL="Los"> <LEX LEM="el"PAR="TDMP0"/></WRD><WRD VAL="tópicos"> <LEX LEM LEX="tópico" PAR="NCMP000"> <FST SYN="n04622698"/> <EWN SCR="100" SYN="n04622698"/>
...n08529162 n05457541Losn04622698...
n08529162 n05457541 n04543589 n04545176 n02788565Losn04622698
n08529162 Losn04622698
First sense indexes
All senses indexes
Conceptual density indexes
Synsets w. probabilities
Synsets are filtered according to their
probabilities
Representación textual implica traducción de laConsulta; representación conceptual implica indexación
En términos del índice interlingua.
Idioma de la consultaSelección de la estrategia de Desambiguación semántica
La selección Del periódico
Determina el idiomaDe los documentos
Once the queryis processed anddocuments are
retrieved,the user can directly
refine the targetlanguage query
adding or deletingquery terms.
Documentos
recuperados
¿Y el futuro?