Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

27
Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos

Transcript of Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Page 1: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Margarita Alonso Ramos

Master LUP 2012

Diccionario o Base de datos léxicos

Page 2: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Organización de la exposición

1. Qué es un léxico computacional

2. Cómo representar la informaciónléxica

3. Aplicaciones de la LexComp

4. Proyectos de LexComp

1. Qué es un léxico computacional• Qué elementos son una unidad léxica• Qué información contiene una entrada lexicográfica

Page 3: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

1. ¿Qué es un léxico computacional?

No es solo un diccionario en soporte informáticohttp://elies.rediris.es/elies24/pampillon.htm

Los diccionarios en línea o en CD pueden ser una buena herramienta pero el usuario es un humano, no un sistema

http://www.diccionarios.com/consultas.php#http://www.ideasafines.com.ar/buscador-ideas-relacionadas.phpVOLGA: http://www.realacademiagalega.org/volga/index.jspDRAE: www.rae.esDicoPortugués: http://www.priberam.pt/dlpo/dlpo.aspxWordReference: http://www.wordreference.com/es/Bilingüe inglés: http://www.babylon.com/definition/give/SpanishCambridge: http://dictionary.cambridge.org Merrian-Webster:www.m-w.com/cgi-bin/dictionary?book=Dictionary&va=purchase&x=0&y=

htttp://oesi.cervantes.es/TLTODOS/recursos_linguisticos_1.htm

Page 4: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

1. ¿Qué es un léxico computacional?

Un “almacén” de información léxica

accesible por medios manuales o automáticos

para sistemas de PLN

Page 5: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

1.1.¿Qué se entiende por unidad léxica?

Unidades léxicas (UL): sentidos o acepciones

Concepto de acepción (polisemia):

Difícil delimitación

Diferente según el objetivo aplicativo

Actuar

1 intr. Ejercer una persona o cosa actos propios de su naturaleza

2 Ejercer las funciones propias de un oficio: ~ de secretario. 3 Representar en el teatro o en el cine. 4 Trabajar en un espectáculo público. 5 Defender, en las universidades, conclusiones públicas o practicar ejercicios de oposición. 6 DER. Realizar actuaciones

Page 6: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

¿Qué se entiende por unidad léxica? (2)

Granularidad en la diferenciación de sentidos (diccionarios)

libro monosémicocerdo monolingües: animal, carne, piel, ....

bilingües (desajustes: pig, pork) 

El tipo semántico no implica que haya una o más acepciones.

diferentes sentidos matices de un mismo sentido

¿?

Page 7: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

1.2. ¿Qué información contienen ?

Dependiendo de los objetivos del léxico: La trascripción fonética La categoría gramatical y paradigma morfológico 

dar {vdtr}, 1ªconj.  La estructura argumental, patrón sintáctico-semántico básico

SYNSEM | LOC HEAD | MAJOR V| SUBCAT = <SN [1], SN[2], SP [3]>

SEM [dar agente [1], tema [2], beneficiario [3]] 

Page 8: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Información semántica: tipo semántico definido en una ontología. chico [HUMANO] ordenador [ARTEFACTO]

Restricciones selectivas

Relaciones léxicas: Paradigmáticas: sinonimia, antonimia, hiponimiaSintagmáticas: colocaciones

Las equivalencias con otras lenguas, ...

¿Qué información contienen ?

Page 9: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Organización de la exposición

1. Qué es un léxico computacional2. Cómo representar la información léxica

3. Aplicaciones de la LexComp

4. Proyectos de LexComp

2. Cómo representar la información léxica

Page 10: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

2. ¿Cómo representar la información?

Bases de datos

Modelos textuales

Bases de conocimiento léxico

Ontologías

Page 11: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Modelos de representación computacionales

Bases de datos relacionales

las entradas se representan en tablas cada tabla consta de diversos rasgos que toman valores

Cat = NGen = Fem

ventajas software convencional de gestión de base de datos (Access de Microsoft)

mantenimiento, eficiencia y facilidad de interrogación

gran capacidad expresiva

limitaciones:

- falta de estructura jerárquica

– excesiva uniformidad

– poco apropiadas para los rasgos de tipo textual

Page 12: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Modelos de representación computacionales

Modelos textuales

Corpus en bruto:Frecuencias léxicas Coapariciones de dos o más palabras

Corpus etiquetados: morfológicamente sintácticamente semánticamente identificación de colocaciones

Page 13: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Modelos de representación computacionales

Representaciones orientadas a objetos

NOMBRE-F-REGcat= ntipo = comúngénero= femeninomorfología=

NFAAS

casaes-un: NOMBRE-F-REG

número= singular

casases-un: NOMBRE-F-REGnúmero= plural

CLASECLASE

EJEMPLARES

Page 14: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Modelos de representación computacionales Ontologías

semántica basada en una ontología

árabe

semítica

lengua

cada sentido se diferencia por uno o más rasgos

+ lengua

+ lengua+ semítica

+ lengua+ semítica

Page 15: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

árabe

semítica

lengua+ lengua

+ lengua+ semítica

+ lengua+ semítica+ árabe

hebreo ...

indo-europea

lenguaje

programación

semántica basada en una ontología

Page 16: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Modelos de representación computacionales Ontologías

WordNet

- Red de conocimiento léxico-semántica

- Relaciones semánticas: sinonimia, hiperonimia, hiponimia, meronimia...

- Unidad de descripción: synset

Page 17: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

vehículo

es-un

automóvil 1 ; coche 2 ; carro 2

se-compone-de motorruedavolante

ranchera;furgón

ambulancia

taxi

es-un

es-un

es-un

Modelos de representación computacionales

Redes semánticas

Page 18: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.
Page 19: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Modelos de representación computacionales Problemas

incompleto: dominios poco o nada representadossentidos básicos que no aparecen

Granularidad excesiva:Hombre= el que sirve en el ejército(10) opuesto a hembra

opuesto a esposacarácter de hombre...

Criterio poco claro de sinonimia hiperonimia/hiponimia

Page 20: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Organización de la exposición

1. Qué es un léxico computacional

2. Cómo representar la información

3. Aplicaciones de la LexComp

Page 21: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Aplicaciones

Técnicas que incorporan conocimiento lingüísticoSistemas de tratamiento de la información

Extracción de informaciónRecuperación de informaciónTA

Aplicaciones: usuario finalLexicografíaAutoaprendizaje, Buscadores, etc.

Recursos (léxicos)

Page 22: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

ENTR ábacoETIM (Del lat. Abacus // gr. abax)ACEP 1SIGN Instrumento de cálculo consistente en un tablero de

madera con alambres h orizontales y paralelos, y unasbolas agujereadas que corren a lo largo de éstos , usadopara realizar operaciones de aritmética y paracontabilizar los tantos o btenidos en algunos juegos comoel billar.

CATG s.m.ACEP 2SIGN Gráfico de escalas para abreviar los cálculos aritméticos.SINO nomogramaCATG s.m.ACEP 3SIGN Parte superior en forma de tablero que corona el capitel de

la columna.TEMA ARQUITECTURA

ábaco ábaco NCMS000

Aplicaciones (1) Clasificación

Page 23: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

SANIDAD

Problemas de congestión en los centros hospitalarios catalanes

Pujol matiza a Rius y anuncia inversiones para reducir losplazos de las listas_de_espera

La_Vanguardia - 02:30 horas - 26/05/2000 MARTA_RICARTJOSEP_CORBELLA BARCELONA . -

inversiones inversión NCFP000

Aplicaciones (2) Clasificación semántica

Page 24: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Aplicaciones (3)

Traducción Automática Diccionario monolingüe

("llegir" VST ALO [raíz] "lleg" ARGS ((($SUBJ N1 (TYPE P1)) OPT ($DOBJ N1 (TYPE P0) N0 (FCP 0)

(MD-0 IND)))) CL [modelo de flexion] (IR-E) CMT [prototipo flexivo] "Model: servir" ON CO PLC (NF) TAL [admite -eix-] -EIX AUTHOR "elisabel" DATE "1-Mar-99" SITE "FB52")

Page 25: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

"fer" VST --> "retroceder" VST = Tests (XFR-VST-CTEST :MW T :FIXEXPR T

:EXPR "enrere")Comment "no ens farem enrere =no retrocederemos"<< Fb52 FB52 Elisabel 23-Mar-99 >> "fer" VST --> "llegar" VST = Tests(XFR-VST-CTEST :MW T :FIXEXPR T :

EXPR "tard") Comment "fer tard =llegar tarde"<< Fb52 FB52 Elisabel 24-Mar-99 >> "fer" VST --> "pesar" VST =<< Fb52 FB52 Elisabel 23-Mar-99 >>

Aplicaciones (5)

Traducción Automática Diccionario Bilingüe Incita/SailLabs

Page 26: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

Organización de la exposición

1. Qué es un léxico computacional

2. Cómo representar la información

3. Aplicaciones de la Lexicografía computacional

4. Proyectos

Page 27: Margarita Alonso Ramos Master LUP 2012 Diccionario o Base de datos léxicos.

4. Proyectos lexicográficos

DiCE (Diccionario de colocaciones del español) http://www.dicesp.es

DiCoInfo (Dicctionario de informática)http://olst.ling.umontreal.ca/cgi-bin/dicoinfo/search.cgi?ui=es

EuroWordNethttp://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl

FrameNethttp://framenet.icsi.berkeley.edu

Spanish FrameNethttp://sato.fm.senshu-u.ac.jp/sfn20/notes/index2.html