PLN Análisis Morfológico 1
Análisis Morfológico
• Introducción• Morfología• Análisis morfológico • Uso de técnicas de estados finitos en morfología• Aprendizaje automático de la morfología de una lengua
PLN Análisis Morfológico 2
Morfología 1
• Morfología• Funciones
• Flexión
• Derivación
• Composición
• Resultado• categorización morfosintáctica
• Ej. categorías Parole
• Ej. Penn Treebank tagset
• rasgos morfológicos
• Problemas• alteraciones fonológicas
• morfotáctica
ej. VMIP1S0ej. VBD
PLN Análisis Morfológico 3
Morfología 2
• Problemas• sufijos flexivos sufijos derivativos
• la derivación implica a veces cambio semántico que además no es siempre predecible
• ej. extensiones de significado
• reglas léxicas
• Un sufijo derivativo puede ir seguido de su flexión• amar => amante => amantes
• La flexión no cambia la categoría gramatical, la derivación a veces si
• La flexión afecta a otras palabras de la oración• concordancia
PLN Análisis Morfológico 4
Morfología, Modelos Computacionales
• Funciones• Flexión, Derivación, Composición
• Morfotáctica• Reglas de formación de palabras
• Combinaciones posibles entre morfemas• Encadenamiento simple
• modelos complejos raiz/patrón
• Regularidad y cercanía dependientes de la lengua
• Alteraciones fonológicas (Morfofonología)• cambios al unir los morfemas
• origen: fonología, morfología, ortografía
• variables en número y complejidad
• p.ej. armonía vocálica
PLN Análisis Morfológico 5
Morfemas
• 1 morfema:• evitar
• 2 morfemas:• evitable = evitar + able
• 3 morfemas:• inevitable = in + evitar + able
• 4 morfemas:• inevitabilidad = in + evitar + able + idad
PLN Análisis Morfológico 6
Morfología Flexiva
• número• house houses• cheval chevaux• casa casas
• tiempo verbal• walk walkes walked walking• amo amas aman ...
• género• niño niña
PLN Análisis Morfológico 7
Morfología Derivativa
• Forma de la derivación• sin cambio barcelonés
• prefijación inevitable
• sufijación importantísimo
• infijación
• Origen• verbo => adjetivo tardar => tardío
• verbo => nombre sufrir => sufrimiento
• nombre => nombre actor => actorazo
• nombre => adjetivo atleta => atlético
• adjetivo => adjetivo rojo => rojizo
• adjetivo => adverbio alegre => alegremente
PLN Análisis Morfológico 8
Morfología Derivativa vs Flexiva
• sufijos flexivos <> sufijos derivativos• la derivación implica a veces cambio semántico que
además no es siempre predecible• ej. extensiones de significado
• reglas léxicas
• Un sufijo derivativo puede ir seguido de su flexión• amar => amante => amantes
• La flexión no cambia la categoría gramatical• La flexión afecta a otras palabras de la oración
PLN Análisis Morfológico 9
Análisis morfológico 1
• Tipos de analizadores morfológicos• formarios
+ eficiencia
+ poca variación (ej. inglés)
+ extensibilidad
+ construcción a partir de un generador morfológico
– lenguas muy flexivas
– derivación, composición
• técnicas de estados finitos• autómatas
• analizadores de un nivel
• transductores• analizadores de dos o más niveles
Maco+Atserias et al, 1998
Martí, 1988Koskenniemi, 1983Sproat, 1993
Roche,Schabes, 1997Kornai, 1999
PLN Análisis Morfológico 10
Modelos de cómputo 1
• Mezcla de conocimiento lingüístico y procedimental• Sistemas automáticos. Multilingüismo. Corpus• Problema de la eficiencia• Problema de la sobregeneración
PLN Análisis Morfológico 11
Modelos de cómputo 2
• Criterios de clasificación• Poder descriptivo
• Flexión, Derivación, Composición
• Análisis y Generación
• Enfoque• Basados en léxico
• Basados en paradigma (Calder,89)
• Tratamiento de la morfotáctica• Estados Finitos
• Unificación
• Tratamiento de la morfofonología• Estados Finitos
• Métodos ad-hoc
• Elementos del léxico• Morfemas
• Segmentos de palabra
PLN Análisis Morfológico 12
Morfología un nivel
Sistema AMCAS (Marti,89)
START RNA
RV1
RNA1
RV
F
INFIJ
RGN
PLN Análisis Morfológico 13
SISTEMA AMCAS 1
DICCIONARIORAICES
ESTADOS
REGLAS
DICCIONARIOSUFIJOS
MODELOSSUFIJO
MODELOSRAIZ
AUTOMATA
ANALIZADOR MORFOLOGICOTEXTOENTRADA
TEXTOETIQUETADO
PLN Análisis Morfológico 14
SISTEMA AMCAS 2
DICCIONARIO DE RAICES (FRAGMENTO)
RAIZ MODELO PROPIEDADES DIVISIBLE "d" D (("B1" "DORW")("TVM" "VI") ("SEM" "DECIR-1")) nil"de" PREP () nil"del" PREP () nil"deposit" AM (("TGN" "OM") ("BL" "&3")) nil"dese" AM (("TGN" "OM") ("B1" "OSOJ") ("TVM" "VI")) nil"dich" HECH (("TGN" "OM") ("CONJ" "3")) nil"dich" DETN (("DET" "DEM")) nil "dich" PRON (("PRN" "DEM") ) nil"diner" NOM ("B1" "DAF") ("B2" "ALM") ("SEM" "DINERO-1")) nil"directori" NOM () nil
PLN Análisis Morfológico 15
SISTEMA AMCAS 3
DICCIONARIO DE SUFIJOS (FRAGMENTO)
SUFIJO MODELO PROPIEDADES DIVISIBLE "a" AASAM (("NUM" "SG")) nil "a AASFEM (("NUM" "SG")) nil "a" GAF (("GEN" "FEM")("NUM" "SG")) nil "a" GAM (("NUM" "SG")) nil "a" GBAJ (("GEN" "FEM")("NUM" "SG")) nil "a" GBAW (("GEN" "FEM")("NUM" "SG")) nil "a" GN1 (("GEN" "FEM")("NUM" "SG")) nil "a" GOAJ (("GEN" "FEM")("NUM" "SG")) nil "a" IMP (("NUM" "SG")("PERS" "2")) nil "a" IPO (("NUM" "SG")("PERS" "3")) nil "a" SP2 (("NUM" "SG")("PERS" "1/3")) nil "aba" IMA (("PERS" "1")("NUM" "SG")) nil "lo" PROE (("ENCL" "LO")("BL" "&1")) nil "me" PROE (("BL" "&1")) nil "&" GBF&1 (("NUM" "SG")) nil "&" GBM&1 (("NUM" "SG")) nil
PLN Análisis Morfológico 16
SISTEMA AMCAS 4
DICCIONARIO DE MODELOS DE RAIZ (FRAGMENTO)
MODELO PROPIEDADES
CSS (("CAT" "CONJ") ("TCON" "CSS") ("BL" "SI"))D (("CAT" "VERB") ("TV" "D"))DETD1 (("CAT" "DET") ("PERS" "1") ("TGN" "EAO") ("BL" "SI") ("DET" "DEM"))
PLN Análisis Morfológico 17
SISTEMA AMCAS 5
DICCIONARIO DE MODELOS DE SUFIJO (FRAGMENTO)
MODELO PROPIEDADES
AASAM (("GEN" "AMBI"))AASFEM (("GEN" "FEM") ("CAT" "ADJ"))GAF (("CAT" "NOM") ("GEN" "FEM"))GAM (("CAT" "NOM") ("GEN" "MASC"))GBAJ (("CAT" "ADJ"))GBAW (("CAT" "ADJ"))GN1 ()GOAJ (("CAT" "ADJ"))IMP (("CAT" "VERB") ("TEMP" "PRES") ("PROE" "SI") ("MODO" "IMP"))IPO (("CAT" "VERB") ("TEMP" "PRES") ("BL" "SI") ("MODO" "IND"))PROE ()SP2 (("CAT" "VERB") ("TEMP" "PRES") ("MODO" "SUBJ"))& ()
PLN Análisis Morfológico 18
SISTEMA AMCAS 6
DICCIONARIO DE REGLAS (FRAGMENTO)
EST_INI EST_FIN MODELO CONDICIONES
RNA1 RGN OOSMAS (("TGN" "OAJ"))RV F BL (("BL" "SI"))RV F & (("BL" "&1"))RV RV PROE (("PROE" "SI"))RV1 INFIJ CC (("U" "CCVD"))RV1 RGN AASFEM (("T1" "OAJ"))RV1 RGN GAF (("T1" "AF")("TGN" "AF"))RV1 RGN GAM (("TGN" "AM"))RV1 RGN GOAJ (("B1" "TOJ"))RV1 RV IMP (("TV" "R")("TV" "ACUE) ("TV" "ADC")
("TV" "ADZ")("TV" "D"))RV1 RV IPO (("TV" "PONG")("TV" "R")("TV" "HIZ")
("TV" "PUED"))RV1 RV SPB (("TV" "PONG")("TV" "SEP")("TV" "D"))START RV1 D ()
PLN Análisis Morfológico 19
Morfología de dos niveles 1
• Modelo general para lenguas con encadenamiento de morfemas
• Independencia entre información lingüística y analizador• Válido para análisis y generación• Distinción entre nivel léxico y superficial• Reglas paralelas para expresar la morfofonología• Implementación simple• Elementos: Sistema léxico + Reglas
PLN Análisis Morfológico 20
Morfología de dos niveles 2
• Reglas morfológicas• Expresan las relaciones entre caracteres (superficie) y
morfemas y permiten la descomposición de una cadena de caracteres en una estructura morfémica de la palabra
• Reglas de deletreo (spelling rules)• Trabajan a nivel de las letras que constituyen la palabra
• Reglas gramática de la palabra (word grammar rule)• Permiten definir la composición entre morfemas en
términos de abstracciones sobre las propiedades de éstos, al margen de su realización léxica
• Ritchie,Pulman,Black,Russell,87
PLN Análisis Morfológico 21
reglas gramática de la palabra 1
Caracterizan la morfología abstrayendo de los detalles de lascadenas concretas
Secuencias correctas de morfemasConcatenaciones válidasCategoría sintáctica de la palabra resultante
Categoría (de una palabra, morfema o fragmento) es un conjuntode pares <atributo, valor>
Ej. (GPSG): plural noun == ((N +) (V -) (PLU +) (BAR 0))
PLN Análisis Morfológico 22
reglas gramática de la palabra 2
alias noun = ((N +) (V -) (BAR 0))alias verb = ((N -) (V +) (BAR 0))alias adj = ((N +) (V +) (BAR 0))
variable C = {noun, adj}
regla del plural:(C (PLU + )) --> (C (PLU - )), ((PLU +))
gatos ((N +) (V -) (PLU +) (BAR 0))
lexicón :gato => (noun (PLU -))...s => ((PLU +))...
PLN Análisis Morfológico 23
reglas gramática de la palabra 3
regla de prefijación:((BAR 0)) --> ((FIX PRE)), ((BAR 0)).
regla de sufijación:((BAR 0) (N +)) --> ((BAR 0)), ((N +) (FIX SUF)).
regla de sufijación verbal:((N -) (V +) (AUX VAL) (BAR 0)) -->
((AUX VAL) (BAR 0)), ((FIX SUF) (N -) (V +)).
PLN Análisis Morfológico 24
Análisis morfológico con FSA
• Entrada: • forma
• Salida• lema + rasgos morfológicos
Input Outputcat cat + N + sgcats cat + N + plcities city + N + plmerging merge + V + pres_partcaught (catch + V + past) or (catch + V + past_part)
PLN Análisis Morfológico 25
Elementos del analizador
• Lexicon de morfemas• raiz (stem) + afijos
• Morfotáctica• qué combinaciones de morfemas son válidas
• cats = cat + s
• Alteraciones fonológicas• Reglas ortográficas (spelling rules): cambios al producirse la
combinación• city + s = cities
PLN Análisis Morfológico 26
Ejemplo: flexión nominal en inglés
0 1 2
reg_noun plural (-s)
irreg_pl_noun
irreg_sg_noun
reg_noun irreg_pl_noun irreg_sg_noun pluralfox sheep sheep -scat mice mousedog
morfotáctica
PLN Análisis Morfológico 27
Integración de lexicón y morfotáctica
fo
x
s
c at
d
og
n ey
em
ou
s
e
ic
fogcatdogdonkeymousemice
Letter Transducers
PLN Análisis Morfológico 28
Morfología de dos niveles
upper level léxico cat + N cat + N + pllower level superficie cat cats
c:c a:a t:t +N: +pl:s
PLN Análisis Morfológico 29
Utilización de un FST 1
• Como reconocedor• recibe dos cadenas de entrada (una léxica y una
superficial) y responde cierto o falso según una sea transducción de la otra
• Como generador• genera pares de cadenas
• Como traductor• recibe una cadena superficial y genera su transducción
léxica
PLN Análisis Morfológico 30
Utilización de un FST 2
• Simplificaciones notacionales• default pairs
• a:a
• morpheme separator ^• end of word #• default correspondence pairs
• feasible pairs• default correspondences + explicit correspondences in the rules
• any @
a b c … z ‘ ^ #a b c … z ‘
PLN Análisis Morfológico 31
Transductor con rasgos morfológicos
reg_noun irreg_pl_noun irreg_sg_noun pluralfox sheep sheep scat m o:i u: ce mousedog g o:e o:e se goose
0 1 2
reg_noun +pl:s
irreg_pl_noun
irreg_sg_noun
2
3
4
5
6
+N:
+N:
+N:
+sg:
+sg:
+pl:
PLN Análisis Morfológico 32
Integración de morfotáctica y variación fonológica
nivel léxico f o x +N +pl
nivel intermedio f o x ^s
nivel superficial f o x es
morfotáctica
spelling rules
PLN Análisis Morfológico 33
Integración de lexicón y morfotáctica
fogcatdogdonkeymousemice
fo
xc a
t
d
og
n ey
em
ou
se
o:i
+N:
+N:
+pl:^s
+sg:
+sg:
+u: ce
+N:
+pl:
PLN Análisis Morfológico 34
spelling rules
name description example consonant doubling single letter consonant beg/begging
doubled before -ing/-ede deletion silent e dropped before
-ing/-ed make/makinge insertion e added after -s,-z,-x,-ch,-sh
before -s watch/watchesy replacement -y changes to -ie before -s, to
i before -ed try/triesk insertion verbs ending with voyel +c
add -k panic/panicked
PLN Análisis Morfológico 35
Reglas de dos niveles
• a:b Contexto_izquierdo ___ Contexto_derecho• el item léxico a debe corresponder al item superficial b cuando se
encuentra en el contexto
• a:b Contexto_izquierdo ___ Contexto_derecho• el item léxico a sólo puede corresponder al item superficial b cuando se
encuentra en el contexto
• a:b Contexto_izquierdo ___ Contexto_derecho• el item léxico a debe corresponder al item superficial b cuando se
encuentra en el contexto y sólo entonces
• a:b / Contexto_izquierdo ___ Contexto_derecho• el item léxico a no puede corresponder al item superficial b cuando se
encuentra en el contexto
correspondencia operador contextos
PLN Análisis Morfológico 36
ejemplo e-insertion
:e [xsz]^: ___ s#
descomposición
:e [xsz]^: ___ s# : / [xsz]^: ___ s#
/
PLN Análisis Morfológico 37
Reglas de deletreo (spelling) 1
epenthesis
+ : e <=> {< {s:s c:c} h:h> s:s x:x z:z} --- s:s
<=>=> context restriction<= surface coercion
contexto
C: {...}V: {a,e,i,o,u,y}C2: {...}=: cualquiera
ejemplo: box + sbox e s
PLN Análisis Morfológico 38
Reglas de deletreo 2
e-deletion
e : 0 <=> = :C2 --- <+:0 V:= > or <C:C V:V> --- < +:0 e:e >or <c:c g:g> --- < +:0 {e:e i:i} >or l:0 --- +:0or c:c --- < +:0 a:0 t:t b:b>
mov e + edmov ed
agre e + edagre ed
PLN Análisis Morfológico 39
Reglas de deletreo 3
a-deletion
a : 0 <=> <c:c e:0 +:0> --- t:t
redu c e + a t ionredu c t ion
... contexto izdo foco contexto ... dcho
PLN Análisis Morfológico 40
Transductor :e [xsz]^: ___ s#
estado\input s:s x:x z:z ^: #: :e @:@0 1 1 1 0 _ 0 0 1 1 1 1 2 _ 0 0 2 1 1 1 0 3 0 0 3 4 _ _ _ _ _ _ 4 _ _ _ _ _ 0 _
0 2 431
^:@:@#:#
z:zs:sx:x
z:zs:sx:x
z:zs:sx:x
#:#@:@#:#
@:@#:#
^: :s s:s
PLN Análisis Morfológico 41
Transductor :e / [xsz]^: ___ s#
estado\input s:s x:x z:z ^: #:# @:@0 1 1 1 0 0 0 1 1 1 1 2 0 0 2 3 1 1 0 0 0 3 1 1 1 0 _ 0
0 2 31
^:@:@#:#
z:zs:sx:x
z:zs:sx:x
z:zx:x
@:@^:@:@
#:#^:
@:@#:#
^: s:s
z:zs:sx:x
PLN Análisis Morfológico 42
Integración de morfotáctica y variación fonológica
Lexicon-FST
spelling rules
nivel léxico f o x +N +pl
nivel intermedio f o x ^s
nivel superficial f o x es
FST1 FST2 FSTn...
PLN Análisis Morfológico 43
Intersección y composición de FST
Lexicon-FST
FST1 FSTn...
Lexicon-FST
FSTA= FST1 ... FSTn
Lexicon-FST•
FSTA
intersección composición
PLN Análisis Morfológico 44
Aprendizaje automático de la morfología 1
• Problema• Paradigma raiz + afijos
• Obtención de las raices
• Clasificación de las raices en modelos
• Dos aproximaciones• Sin utilizar conocimiento morfológico alguno
• Goldsmith, 2001
• Brent, 1999
• Snover, Brent, 2001, 2002
• Cuando se dispone de conocimiento morfológico• Oliver at al, 2002
PLN Análisis Morfológico 45
Aprendizaje automático de la morfología 2
• Análisis morfológico automático• Identificación de fronteras entre morfemas
• Zellig Harris• {prefix, suffix} conditional entropy
• bigrams y trigrams con alta probabilidad de constituir un morfema
• descubrimiento de patrones o reglas de correspondencia entre pares de palabras
• Aproximación global (top-down)• Golsdmith, Brent, de Marcken
PLN Análisis Morfológico 46
Aprendizaje automático de la morfología 3
• Sistema de Goldsmith basado en MDL (Minimum Description Length)• Partición inicial: palabra -> raiz + sufijo
• split-all-words• Un buen candidato a {raiz, sufijo} en una palabra lo es
también en (muchas) otras palabras
• MI (mutual information) strategy• Convergencia más rápida
• Obtención de Signatures• Regular {signatures, stem, suffixes}
• Más de una raiz, más de un sufijo
• MDL
PLN Análisis Morfológico 47
Aprendizaje automático de la morfología 4
• Análisis morfológico semi-automático• Oliver, 2004
• Parte de un paquete de reglas morfológicas escritas a mano
• TL:TF:Desc• terminación del lema• terminación de la forma• categoría morfológica
• Lista de clases no flexivas, clases cerradas y palabras irregulares
• Corpus• serbo-croata 9 Mw
• ruso 16 Mw
Top Related