PLN Introducción Ingeniería Lingüística1 Introducción al PLN 1 Presentación del curso...
-
Upload
sal-mancha -
Category
Documents
-
view
217 -
download
0
Transcript of PLN Introducción Ingeniería Lingüística1 Introducción al PLN 1 Presentación del curso...
PLN Introducción Ingeniería Lingüística 1
Introducción al PLN 1
• Presentación del curso• Ingeniería lingüística
• Tareas• Recursos• Aplicaciones
• Niveles de procesamiento lingüístico
• Presentación del curso• Ingeniería lingüística
• Tareas• Recursos• Aplicaciones
• Niveles de procesamiento lingüístico
PLN Introducción Ingeniería Lingüística 2
Del PLN a la Ingeniería Lingüística
• La Ingeniería Lingüística es la aplicación del conocimiento de la lengua al desarrollo de sistemas informáticos capaces de reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas.
• La IL comprende:• Métodos, Técnicas y Herramientas• Recursos (Lingware)• Aplicaciones
PLN Introducción Ingeniería Lingüística 3
Componentes de la Tecnología
TEXTO VOZ IMAGEN
ENTRADA
SALIDA
TEXTO VOZ IMAGEN
RECURSOS LINGÜÍSTICOS
Reconocer yValidar
Analizar yComprender Aplicar Generar
PLN Introducción Ingeniería Lingüística 4
Técnicas utilizadas
• Identificación del hablante. Verificación• Reconocimiento del habla• Reconocimiento de caracteres e imágenes• Comprensión de la lengua• Generación de lenguaje• Sistemas basados en diálogos• Síntesis del habla
PLN Introducción Ingeniería Lingüística 5
Identificación del hablante. Verificación
• Problemas:• Hablante desconocido• Ruido (en el entorno o en el medio de
transmisión)• Cambios temporales en el hablante
PLN Introducción Ingeniería Lingüística 6
Reconocimiento del habla
• Discurso discreto vs continuo• Adquisición y uso de modelos
estadísticos de los fonemas y palabras• Reconocimiento de cualquier locutor
(sin necesidad de entrenamiento)• Ruido• Acento, dialectos, agramaticalidades
PLN Introducción Ingeniería Lingüística 7
Reconocimiento de caracteres e imágenes
• Reconocimiento de caracteres impresos (OCR)• tipo de letra desconocido• mala calidad del texto
• Reconocimiento de texto escrito a mano (ICR)• Reconocimiento de imágenes
• Análisis del documento. • Separación en gráficos, texto, fotografías• Análisis del texto: títulos, encabezados, párrafos,
etc...
PLN Introducción Ingeniería Lingüística 8
Comprensión de la lengua
• Comprensión completa o parcial• Análisis incremental:
• Análisis parcial y/o superficial• localización de focos de interés• Análisis más detallados de dichos focos
• Técnicas lingüísticas, estadísticas e híbridas
• Modelos semánticos• Palabras desconocidas
PLN Introducción Ingeniería Lingüística 9
Generación de lenguaje
• Representación semántica del texto• Qué decir y Cómo decirlo (what to say,
how to say)• Planificación del contenido y de la forma• Elementos retóricos
PLN Introducción Ingeniería Lingüística 10
Sistemas basados en diálogos
• Alto nivel de comprensión• Calidad del diálogo• Detección del contenido ilocutivo de las
intervenciones del interlocutor humano• Acciones primitivas locutivas y no locutivas
• comunicaciones, órdenes, peticiones, preguntas, etc...
• Actos de habla directos e indirectos
PLN Introducción Ingeniería Lingüística 11
Síntesis del habla
• Contenido• Forma: intensidad, entonación, duración• Generación a partir de piezas
pregrabadas. Concatenación
PLN Introducción Ingeniería Lingüística 12
Recursos
• Lexicones generales• Diccionarios• Lexicones especializados• Ontologías• Gramáticas• Corpus textuales• Internet como fuente de información
PLN Introducción Ingeniería Lingüística 13
Lexicones generales
• Repositorios de palabras• lemarios, formarios, listas de palabras, ...
• Conocimiento sobre las palabras– Fonología– Morfología: categoría, concordancia..– Sintaxis: categoría, subcategorización, estructura
argumental, valencia, patrones de co-occurrencia...– Semántica: clase semántica,restricciones
selectivas...– Pragmática: uso, registro, dominio, ...
PLN Introducción Ingeniería Lingüística 14
Diccionarios
• MRDs• tipos: generales, normativos, de uso, de
aprendizaje, mono/bilingües...• tamaño, contenido, organización
• entrada, acepción, relaciones, ...
• Bases de datos léxicas• ej. Acquilex LDB
• Otras fuentes: enciclopedias, tesauros,...
PLN Introducción Ingeniería Lingüística 15
Lexicones especializados
• Nombres propios• Bases de datos terminológicas• Gazetteers• Diccionarios de locuciones, lexías,...• Wordnets• Siglas, jergas• Detectores de fechas, números,
fórmulas,...
PLN Introducción Ingeniería Lingüística 16
Ejemplo: relaciones morfoléxicas. U. Las Palmas (O. Santana)
PLN Introducción Ingeniería Lingüística 17
Ejemplo: utilización de Gazetteers en sistemas de Q&A
• Multitext (U.Waterloo)• Clarke et al, 2001, 2002
• Structured data• biographies (25,000), Trivial Q&A (330,000),
Country locations (800), acronyms (112,000), cities (21,000), animals (500), previous TREC Q&A (1393), ...
• 1 Tb of Web data• Altavista
• AskMSR (Microsoft)• Brill, 2002
PLN Introducción Ingeniería Lingüística 18
Gramáticas
• Gramáticas morfológicas• Gramáticas sintácticas
• Gramáticas de constituyentes• Gramáticas de dependencias• Gramáticas de casos• Gramáticas Transformacionales• Gramáticas sistémicas
• Gramáticas sintagmáticas vs de unificación• Gramáticas probabilísticas• Cobertura, lengua, categorías
PLN Introducción Ingeniería Lingüística 19
Ontologías
• Ontologías léxicas vs conceptuales• Ontologías generales vs de dominio• Ontologías de tareas, metaontologías• Contenido, granularidad, relaciones• Interlinguas: KIF, PIF• CYC, Frame-Ontology, WordNet,
EuroWordNet, GUM, MikroKosmos
PLN Introducción Ingeniería Lingüística 20
Corpus 1
• Textuales vs orales• Gran tamaño (1Mw - 1Gw)• Poco (o nada) estructurados• Información no disponible en forma más
tratable:• colocaciones, estructura argumental, contexto
de aparición, inducción gramatical, relaciones léxicas, restricciones selectivas, lexías, ejemplos de utilización,...
PLN Introducción Ingeniería Lingüística 21
Corpus 2
• Corpus anotados (tagged)• categoría gramatical (pos tagging) posible o
desambiguada• lema• acepción (granularidad)• parentizados• analizados sintácticamente (profundidad)• alineados
• Corpus equilibrados, piramidales, oportunistas
PLN Introducción Ingeniería Lingüística 22
Corpus 3 ejemplos
• Brown Corpus• ACL/DCI (Wall Street Journal, Hansard, ...)• ACL/ECI (European Corpus Initiative)• USA-LDC (Linguistic Data Consortium)• LOB (ICAME, International Computer Archive of Modern English)• BNC (British National Corpus)• SEC (Lancaster Spoken English Corpus)• TOSCA• Collins-Cobuild• PAROLE• IBM/Lancaster treebank• Penn Treebank• Susanne• SemCor• Trésor de la Langue Française (TLF)
PLN Introducción Ingeniería Lingüística 23
Corpus 4 ejemplos
• Instituto Cervantes. Observatorio Español de Industrias de la Lengua "http://www.cervantes.es/oeil/Oeil0.htm
• CREA, recopilado por la RAE. 200 Mw. etiquetado y lematizado
• CRATER, (esp, ing, fran), U.A.Madrid. 5.5Mw. alineado, anotado morfosintácticamente
• ALBAYZIN. Corpus oral, frases aisladas, consultas a BD geográfica. UPC (TSC), UGr, UPMad, UPVal, UABar
• LEXESP, 5Mw, anotado morfosintácticamente, lematizado, UBar, UPC
• IEC en el marco del DCC (catalán)
PLN Introducción Ingeniería Lingüística 24
Ejemplo: proyecto 3lb
PLN Introducción Ingeniería Lingüística 25
Internet como fuente de información 1
• Fuente ingente de información• 1000 Millones de páginas, decenas de Tb,
• expansión (doble en 2 años)• (Cho, 2002)
• Heterogénea• contenido, lengua (70% inglés), formatos
• Servidores de información general• (Medialinks)
• 14.000 servidores (5000 periódicos, 70 en España)
PLN Introducción Ingeniería Lingüística 26
Internet como fuente de información 2
• Internet hoy• documentos HTML
• dirigidos al consumo (visualización) humano
• muchos generados automáticamente por aplicaciones
• acceso a través de• URLs conocidas
• buscadores (o metabuscadores) de propósito general
• buscadores específicos de una URL determinada
• Limitaciones• dificultad de consumir (por las aplicaciones) texto marcado
(generalmente mal) HTML
• dificultad de construcción (y mantenimiento!) de los wrappers
PLN Introducción Ingeniería Lingüística 27
Internet como fuente de información 3
• Tareas relacionadas con la gestión de información en Internet• Modelado y consulta a la Web
• Localización de páginas potencialmente útiles
• Consulta a fuentes heterogéneas
• Question Answering
• Extracción de Información
• Integración de Información
• Construcción (y reestructuración) de Web sites
• Agentes (crawlers, spiders, softbots, infobots ...)
PLN Introducción Ingeniería Lingüística 28
Internet como fuente de información 4
• Fuentes de información en la Web• Estructuradas
• Bases de datos
• Semi-estructuradas• Exhiben cierta regularidad
• No suelen emplear LN no restringido
• Elementos extraños que pueden ayudar (marcas HTML, XML) o confundir (applets, propaganda, ...)
• Una alta proporción de recursos actuales en Internet son fuentes semi-estructuradas => útiles
• Semantic Web
• Libres• texto no restringido
PLN Introducción Ingeniería Lingüística 29
Recursos: Repositorios y otras iniciativas 1
• ELRA (European Language Resources Association)• http://www.icp.grenet.fr/ELRA/home.html
• LDC (Linguistic Data Consortium)• http://www.ldc.upenn.edu/
• Eagles (Expert Advisory Group on Language Engineering Standards)• http://www.ilc.pi.cnr.it/EAGLES/home.html
• TEI (Text Encoding Initiative)• http://www.tei-c.org/
• ELSNET (European Network in Language and Speech)• http://www.elsnet.org/
PLN Introducción Ingeniería Lingüística 30
Recursos: Repositorios y otras iniciativas 2
• ACL NLP/CL Universe• http://www.summarization.com/~radev/u/db/acl/• ACL- DCI Data Collection Initiative• The NLP/CL Universe, a publicly extensible indexed
compilation of Web resources related to computational linguistics.
• Multext (Multilingual Text Tools and Corpora)• http://www.lpl.univ-aix.fr/projects/multext/
• CLR (Consortium for Lexical Resources)• EDR
PLN Introducción Ingeniería Lingüística 31
Aplicaciones 1
• Aplicaciones genéricas• (ayuda a la) traducción automática• gestión de la información (multilingüe)• authoring (multilingüe)• interfaz persona/máquina (multilingüe,
multimodal)• Obtención de recursos
• Aplicaciones específicas
PLN Introducción Ingeniería Lingüística 32
Aplicaciones 2
• traducción automática• TA con intervención humana, • TH. asistida• entornos de ayuda a la TH• Adquisición automática de recursos
para la TA (corpus alineados, modelos de traducción, memorias de traducción, ...)
PLN Introducción Ingeniería Lingüística 33
Aplicaciones 3
• gestión de la información• productores de resúmenes,• indiciadores,• {recuperación, extracción, formateo,
filtrado, encaminado} de información,• minería de información textual,• buscadores conceptuales, • alineadores de textos, • “guessers”• sistemas de búsqueda de la respuesta
PLN Introducción Ingeniería Lingüística 34
Aplicaciones 4
• “authoring”• correctores léxicos, gramaticales,
estilísticos, • consulta online de diccionarios, tesauros,
ontologías,• facilidades para la estructuración e
integración de documentos
• interfaz persona/máquina (multilingüe, multimodal)
PLN Introducción Ingeniería Lingüística 35
Aplicaciones 5
• Obtención de recursos lingüísticos• corpus alineados• gramáticas• gazetteers• morfología• restricciones de selección• patrones de subcategorización• Topic Signatures• ...
PLN Introducción Ingeniería Lingüística 36
Aplicaciones 4
• gestión de la información• productores de resúmenes, indiciadores, {recuperación,
extracción, formateo, filtrado, encaminado} de información, buscadores conceptuales, alineadores de textos, “guessers”
• “authoring”• correctores léxicos, gramaticales, estilísticos, consulta online
de diccionarios, tesauros, ontologías, facilidades para la estructuración e integración de documentos
• interfaz persona/máquina (multilingüe, multimodal)
PLN Introducción Ingeniería Lingüística 37
La ingeniería lingüística en Europa
• planes nacionales de investigación y desarrollo tecnológico
• 5º Programa Marco de I+D de la Unión Europea (1998-2002)• 9 áreas científico-tecnológicas
• área de las Tecnologías de la Información y las Comunicaciones
• 12 áreas sectoriales• área de la Sociedad de la Información
• 6º Programa Marco (2004-2008)
PLN Introducción Ingeniería Lingüística 38
Los programas marco de la UELos programas marco de la UE
• Ingeniería Lingüística• Dirección General XIII
• Human Language Technologies• Programas concretos
• ESPRIT (Information Technologies)• LRE (Linguistic Research Engineering)•MLIS (Multilingual Information Society)• INCO (International Cooperation)• LE (Language Engineering)•HLT (Human Language Technologies).
• Ingeniería Lingüística• Dirección General XIII
• Human Language Technologies• Programas concretos
• ESPRIT (Information Technologies)• LRE (Linguistic Research Engineering)•MLIS (Multilingual Information Society)• INCO (International Cooperation)• LE (Language Engineering)•HLT (Human Language Technologies).
PLN Introducción Ingeniería Lingüística 39
La investigación española en ingeniería lingüística
La investigación española en ingeniería lingüística
• Investigación de grupos españoles vs investigación sobre la lengua española• Técnicas independientes de la lengua• Mecanismos de evaluación para el inglés• Otras lenguas • Otros grupos europeos• Grupos americanos
• Investigación de grupos españoles vs investigación sobre la lengua española• Técnicas independientes de la lengua• Mecanismos de evaluación para el inglés• Otras lenguas • Otros grupos europeos• Grupos americanos
PLN Introducción Ingeniería Lingüística 40
Cuántos gruposCuántos grupos
• Unos 30 grupos• SEPLN (1997)• I.Cervantes
• Almansa et al, 1998• Llisterri, Garrido, 1998
• 75% en Universidades y C. Investigación
• Equilibrio texto/habla/recursos• Áreas, aplicaciones• Especial interés en Recursos
• Unos 30 grupos• SEPLN (1997)• I.Cervantes
• Almansa et al, 1998• Llisterri, Garrido, 1998
• 75% en Universidades y C. Investigación
• Equilibrio texto/habla/recursos• Áreas, aplicaciones• Especial interés en Recursos