Resúmenes automáticos
-
Author
victor-marquez -
Category
Documents
-
view
295 -
download
0
Embed Size (px)
description
Transcript of Resúmenes automáticos
-
Resmenesautomticos:Enfoqueextractivoyevaluacin.
Vctor Mrquez Gil, [email protected] Politcnica Superior, Universidad Autnoma de Madrid.
ndice
1.Introduccin 22.Tiposderesmenes 53.Enfoquedeextraccin 7
3.1.Orgenes 73.2.Mtodosestadsticos 73.3.Mtodosdeaprendizajesupervisado(obasadosencorpus) 83.4.Mtodosdeaprendizajenosupervisado 93.5.Extraccindehechos 103.6.Ventajaseinconvenientes 113.7.Revisin 11
4.Evaluacin 134.1.Orgenes 134.2.Clasificacindelosmtodosdeevaluacin 134.3.Programasyconcursos 15
5.Trabajofuturo 176.Conclusiones 187.Referenciasbibliogrficas 19
Resumen.Enestetrabajosepresentanelestadoactualdelacuestinylaevolucindelossistemasderesmenes automtico. Se hace especial hincapi en los mtodos de generacin extractivos y en laevaluacin de la produccin final de los mismos, desde los orgenes hasta el presente. Tambin sepresentandistintasclasificacionesderesmenesylosfactoresatenerencuentaalahoradediseareimplementarunsistemadeestascaractersticas.Finalmenteseplanteaeltrabajofuturoaseguirenestereadeinvestigacin,sugiriendolaincorporacindebasesdeconocimientolingsticoyconceptosdeestructuradeldiscurso.
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
1.Introduccin
Elobjetivodeestetrabajoesdaraconocerelestadodelartedelosmtodosextractivosydela evaluacin de losresmenesautomticosdndetantoel documentofuentecomoelresumenestnenformatodetexto.
Resumir automticamente implica que un artefacto software tome una fuente de informacin,extraigaelcontenidomsrelevanteyselopresentealdestinatario(yaseaunusuariouotroartefactosoftware)demaneracondensadadetalformaquesatisfagalasnecesidadesdelusuarioodelaaplicacin(Mani,2001).Paraelobjetivoquenosatae,sedefinelaaccinderesumircomounatransformacindereduccindeltextofuentealtextoresumidopormediodeseleccindeloqueesimportanteenlafuente(SparkJones,2007a).
Esdifcil imaginarlavidadiariasinalgntipoderesumen.Lostitularesdenoticias,eltrailerdeunapelcula,losresmenesdelacontraportadadeloslibrosoalprincipiodelosartculoscientficotcnicos,inclusolaprogramacindelatelevisinenelteletexto,elmapadeunaciudad,uncatlogodeproductosoelresultadodeunencuentrodeportivosonresmenes.Comosepuedeapreciar,elmediodelafuentearesumirpuedesermuyvariado,ascomoeldelresumenens.Estarevisin del estado del arte se centrar en tcnicas cuyas fuentes a resumir y sus versionescondensadasseantextuales.
VivimosenlaSociedaddelaInformacinyelConocimiento:cadavezhaymsinformacinaccesibleenInternet.Laredderedescrecedemaneravertiginosaentodotipodecontenidos.Estaexplosindeinformacinconllevaunproblema:lasobrecarga.Nohaytiempoparaleerlotodo,sinembargo es necesario tomar decisiones crticas basadas en la informacin disponible. En estecontextosurgelanecesidaddedesarrollarsistemasqueresumanautomticamenteloscontenidosyporconsiguientedefomentarlainversineninvestigacinenestedominiodelProcesamientodelLenguajeNatural(PLN).
Actualmente,lainvestigacinenestecampodelPLNesmuyactivagraciasaprogramasyconcursoscomoSUMMAC,NTCIR,DUC(Overetal.,2007)oTAC(Louis,2008)yestemparentadaconladeotroscampos(Mani,2001)como:
Compresindetexto:elobjetivotambinescrearunaversincondensadadedocumentofuenteperoconelfindeseralmacenadoytransmitidodemaneraeficienteynoparaelconsumohumano.
Indexacin: el objetivoes la identificacinde trminosrelevantes deundocumento, normalmenteparafacilitar larecuperacindeinformacin.Sepuedeconcebir laindexacincomouncasoparticularderesumenautomtico,peroalsersupropsitoeldelarecuperacindeinformacinynoelderesumirlodejamoscomocampoaparte.
Mineradetextos:setratadeunprocesocuyoobjetivoesladeteccindeinformacinnuevaoanmalaengrandesrepositoriosdetextos.Surelacinconlosresmenesautomticosesquelasalidaesunaversinreducidadelaentrada,ladiferenciaesquelamineradetextosnosecentraencondensarelcontenidodelafuentesinoencaracterizarsingularidadesdelosdatos.
2
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
Lossistemasquegeneranresmenesautomticamentepueden clasificarse endosgrandesgrupossegnla estrategia decondensacin:losqueconstruyenresmenespor extraccin (osistemasextractivos)ylosquelohacenporabstraccin(osistemasnoextractivos).Tambinpuedenconsiderarse lossistemas hbridos queaunanambastcnicas. Acontinuacinsedefinendichasestrategias:
Estrategiaextractiva:elresumengeneradoconstanicamentedematerialcopiadoliteralmentedeldocumentofuente.
Estrategianoextractivao abstractiva:almenospartedelmaterialpresenteenelresumennoseencuentraeneldocumentofuente.
Laarquitecturaabstractadelossistemasqueproducenresmenesautomticosessiemprelamisma(Fig.1)yconstadetresprocesos(Hahn&Mani,2000;SparkJones,2007a):interpretacino anlisis, transformacin y generacin o sntesis.Convienecomentarqueestaesunaestructuralgicadealtonivel,porloquelosmdulosyprocesosdeimplementacionesconcretasnotienenporquresponderaesteesquema.Ladescripcindecadaunodelosprocesoseslasiguiente:
Interpretacin o anlisis: se analiza el documento fuente y se construye unarepresentacininternadelmismo.
Transformacin:setransformalarepresentacininternadeldocumentoenunarepresentacininternadelresumen.EstafaseessobretodoaplicableasistemasabstractivosquesebasanentcnicasdePLNparagenerarresmenes.
Generacinosntesis:setomalarepresentacininternadelresumenyseconstruyeelmismoenlenguajenatural.
Figura1:Arquitecturadealtoniveldelossistemasderesmenesautomticos.[AdaptadodeMani(2000)ySparkJones(2007a)]
Paraelcasoparticulardelossistemasbasadosenextraccin,losprocesosdeinterpretacinytransformacinsefusionancomosemuestraenlaFigura2.
Laeleccindecentrarseenlosresmenesautomticosbasadosentcnicasextractivasnoestrivial. Elcostecomputacionalesmenor,suimplementacinesmsfcil, ysuelendarmejoresresultadosquelosbasadosentcnicasabstractivasquerequierenrecursosdeconocimientolingsticos(Mani, 2001).Losacercamientosquepersiguenobjetivosmsgenricossuelenbasarseenmtodosdeextraccinpuramenteestadsticosyofrecennormalmenteresultadosaceptablesinde
3
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
pendientementedelidioma,delgneroydelpropsitofinal(SparkJones2007).Adems,elmayorempujequeharecibidolainvestigacinenelcampodelosresmenesautomticoshasidoporpartedeestomtodos,juntoconmtodoshbridosquecombinantcnicasestadsticasysimblicas.Estocontrastaconelintersmostradoporpartedelacomunidaddelalingsticacomputacionalhaciaherramientasderepresentacindelsignificadodeltexto.
Figura2:Arquitecturadealtoniveldelossistemasderesmenesautomticosextractivos.[AdaptadodeMani(2000)]
Enlaseccin2exploraremoslasdiferentesclasificacionesderesmenesmsaceptadasenlaliteratura.Enlaseccin3describiremoslosorgenesyelprogresodelossistemasextractivosascomo los distintos mtodos usados en ellos y sus ventajas e inconvenientes. En la seccin 4inspeccionaremos los comienzos, evolucin y diferentes clasificaciones de la evaluacin deresmenes generados automticamente. Finalizaremosconel trabajo futuro de esta ramade lainvestigacin del PLN y las conclusiones que se pueden arrojar del trabajo realizado en lassecciones5y6respectivamente.
4
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
2.Tiposderesmenes
Como hemos visto, los resmenes pueden diferenciarse por la estrategia empleada algenerarlos:porextraccinoporabstraccin.Otraformadeclasificarloseshaciendoladistincinentreresmenesindicativos,informativosycrticos(Hahn&Mani,2000):
Indicativos:estosresmenessiguenelacercamientoclsicodelarecuperacindelainformacin,suministranelcontenidosuficienteparaquelosusuariospuedanhacerseunaideadelosconceptosclavequeseencuentraneneldocumentofuenteparaquedecidansileerelcontenidocompletomsendetalle.
Informativos:enestecasolosresmenessirvencomosubstitutosdeldocumentofuente,elprocesodecrearestosresmenesconsisteprincipalmenteenrecopilarinformacinrelevantedemaneraestructurada.
Crticos:apartedeserinformativos,incorporanlaopinindelescritordelresumencomovaloraadido,aportandosuexperiencialacualnoest reflejadaeneldocumentofuente.
Tambinsepuedenclasificarlosresmenesentrminosdelpropsitofinaldelosmismos.Losresmenespuedensergenricosuorientadosalusuario(Mani,2001).
Genricos: estos resmenes no estnhechos a medida deningunaaudiencia opropsitoenparticular.Lahistoriadelainvestigacinsobreresmenesautomticossehaconcentradoprincipalmenteenlaproduccindeestetipoderesmenes(Overetal.,2007).Laideadegenerarresmenesautomticosdeunnicodocumentofueelprimerimpulsodelainvestigacinenestecampo.
Orientadosalusuario:estosresmenesseadaptanalasnecesidadesdeunusuarioogrupodeusuariosparaunatareaconcreta(Mani,2001).Estosignificaqueelsistematieneencuentadealgunamaneraunarepresentacindelosinteresesdelosusuariosmediantealgunatcnicademodeladodeusuarioobienconunsimplecampodeformularioparaejecutarunaconsulta.Uncasoparticulardeestossistemassonlosqueelusuariointroduceunapreguntayelsistemadevuelveunresumenqueintentaresponderla.
Otra posibilidad para diferenciar los resmenes es segnel tipo de entrada. Desde losorgenesdelainvestigacinenestecampoelfocohasidocrearresmenesdeunsolodocumentofuente.PeroapartirdelfinaldelaltimadcadadelsigloXX,graciasalempujedelosprogramasdeevaluacinycomorespuestaalademandadequerersaberdeunvistazocualeseltemadeunacoleccin de documentos, naci la idea de los sistemas de resumen automtico de mltiples documentos.Elobjetivodeestosltimosesquepartiendodeunaseriededocumentosrelacionados,seobtengaunresumenquecontieneel contenidomsrelevanteeliminandolaredundanciaqueexistaentrelosdocumentosfuente(Mani,2001).LosprimerostrabajossobresistemasderesmenesautomticosmultidocumentosondeSaltonetal.(1997)yMani&Bloedorn(1999).
5
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
Msrecientementetodava,sehaempezadoamanejarelconceptoderesmenesdefuentesmultimedia. Se trata no slo de resumir textos sino tambin vdeos (Mani, 2001), imgenes(Simakov,2008), grabaciones deaudiodereuniones (Mani etal., 2000)odiagramas(Frutelle,1999)ycombinacionesdeestoselementoscomoporejemploeltrabajode Merlino&Maybury(1999)connoticiasdeinformativosdetelevisin.
6
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
3.Enfoquedeextraccin
3.1.Orgenes
ProbablementeelprimertrabajosobreresmenesautomticosseaeldeLuhn(1958).Enlsedescribeunasimpletcnicaparagenerarresmenesgenricosextractivosdeunslodocumentofuente.Estaconsisteenusarfrecuenciasdetrminosparadarpesosalasfrasesqueposteriormenteseseleccionanparaaparecerenelresumen.Elprocesoconsisteenlosiguiente:primerosefiltranpalabras comoartculos,pronombresypreposiciones;acontinuacin senormalizanlostrminosparareducirlosasulexema;posteriormenteseagreganlaspalabrasconlamismarazysecalculanlas frecuencias de los trminos agregados descartando los que tengan menores frecuencias;finalmente,apartirdelosresultadosdelpasoanteriorseledaunpesoacadaoracinylasfrasesconmayorpesoseseleccionanparaelresumenfinal.
Otro avance importante de los orgenes de los resmenes automticos fue el trabajo deEdmundson(1969).Enlseaadentresnuevas caractersticas alahoraderesumirautomticamenteapartedelafrecuenciadetrminos:
Expresionesclavequeaumentanodisminuyenlapuntuacindelafraseenlaqueseencuentran,algunosejemplosson:significante,imposibleodifcilmente.
Palabrasquesiaparecenenelttulooenlossubttulosaumentanlapuntuacindelafrase.
La posicin de la frasedentrodel documentooprrafoysucercanacon lossubttulostambinmodificalavaloracindelaoracinalahoradetenerlaencuentaparaelresumen.
Al estudiar los resmenes generados, Edmundson (1969) descubri que estas trescaractersticas,cadaunaporseparado,dabamejoresresultadosqueelacercamientodeLuhn(1958).Tambinseencontrconquelamejorcombinacindecaractersticaseraladeexpresionesclave,ttulosyposicin.Adems,lacaractersticaaisladaqueproporcionabamejoresresmeneseraladeposicin,ylaqueproporcionabalospeoreseraladefrecuenciadetrminos.
3.2.Mtodosestadsticos
LosmtodosestadsticossimplessuelenseguirelacercamientodeLuhn(1958).Que,comohemosvisto,consisteenpuntuarlasoracionessegnelpesodelostrminosqueaparecenenella.Despusdefiltrarylanormalizarlostrminos,seextraenlasoracionesenelmismoordenqueaparecenenlafuente.Porltimo,seseleccionanlasnoracionesmejorpuntuadassegnlatasadecompresinquesequieraalcanzar. Tambinhemosvistocmosepuedenaadir caractersticascomolasdepalabrasclavettuloposicinalasfrecuenciasdetrminosconelacercamientodeEdmundson(1969).
Unadelasmayoreslneasdeinvestigacinenestecampohasidolaelaboracindenuevascaractersticas de las oraciones. Tambin se ha explorado la puntuacin de unidades ms
7
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
elementalesquelaoracin:unidadeslxicascomosintagmas,ngramasuotrasventanasdetexto(SparkJones,2007a).
Elavancedelastcnicas,mtodosyherramientasdePLNhanmotivadoquelaextraccinpuedatenerunabaselingsticautilizandorelacionesderedessemnticascomoWordNetpara,porejemplo,agruparconceptosporsinonimia(Bellare etal.);otesaurosparageneralizarconceptos(McCargar,2004).
3.3.Mtodosdeaprendizajesupervisado(obasadosencorpus)
Hemosvistocmociertascaractersticasayudanadescubrirloqueesrelevanteenuntextofuenteyportantodebeextraerseparaelresumen.Elproblemaconsisteahoraendeterminarlacontribucin de cada una de las caractersticas para generar resmenes lo ms cercanos a losmodelos producidos por humanos. La solucin a este problema no es trivial y, de hecho, essumamentedependientedelgnerodeldocumentofuente.Porejemplo,lacaractersticadeposicinennoticiasdeprensaescritaharqueseextraigaeltitularylaentradaocopetedelanoticia,yaqueen estas partes se resume la misma; sin embargo, en un artculo cientficotcnico, estacaracterstica debera dar ms peso a oraciones pertenecientes al resumen, la introduccin, laconclusinylasprimerasfrasestraslossubttulos.
Ladeterminacindelaimportanciadelascaractersticaspuedehacersemedianteelusodeuncorpusdetextosdelmismognero,dndeestnemparejadoseldocumentofuenteyelresumenrealizado por un humano. El uso del corpus tambin le permite al sistema aprenderautomticamente nuevas reglas tiles para la generacin de resmenes automticos (Many &Maybury,1999).
Unodelosprimerostrabajosqueintrodujeronelusodecorpusparaelentrenamientodesistemasderesmenesautomticosfueelde Kupiec etal. (1995).Enlseusanlos resmenesmodeloparaetiquetarvectoresdelasoracionesdelosdocumentosfuentecomoejemplarespositivosonegativosindicandosisoncandidatosparaapareceronoenelresumen.Elcorpusconstade188pares documento fuente/resumenpertenecientes a 21colecciones de documentos cientficos. Elprocesoeselquesigue:unalgoritmodeclasificacinBayesianotomacadaoracindelconjuntodetest y calculauna probabilidad de estar incluida en el resumenbasndose en la frecuencia decaractersticasenlosvectoresdeldocumentofuenteylasetiquetasdelosvectores(1sideberaserincluida en el resumen, 0 en cualquier otro caso); finalmente se extraen las n oraciones msprobablesdeaparecerenelresumen,dependiendodelatasadereduccin.EnlaFigura3seilustralaestructuradelsistema.Lascaractersticasusadasenestetrabajoson:lalongituddelasoraciones,presenciadeexpresionesclave,posicindelasfrasesdentrodelosprrafosdeldocumentofuente,ypresenciadenombrespropios.
Eltrabajode Kupiec etal. (1995) inspira Myaeng&Jang(1999).Estosltimos,ensuvarianteaplicadaaartculostcnicosenCoreano,consideranelmaterialdelaIntroduccinylaConclusiny etiquetan las oraciones manualmente si representan los antecedentes, algn temaprincipal,ladescripcindelaestructuradeldocumentooladescripcindeltrabajofuturo.Tambinseetiquetanlasfrasescandidatasaaparecerenunresumenrealizadoporunhumano.SumtododeentrenamientoutilizaprimerounclasificadorBayesianoparadeterminarsilaoracinconsideradaperteneceaalgntemaprincipal,yacontinuacincombinalosindiciosdemltiplesclasificadoresdecaractersticasBayesianos paradeterminar si la oracinseaadeal resumen. Finalmentese
8
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
aplicaunfiltroparaeliminarfrasesredundantes.Losautoresdescubrieronque,consusdatos,usarunacombinacindepalabrasclave,posicin,ypresenciaenlaoracindepalabrasdelttulo,dabalosmejoresresultados.
Aoneetal.(1999)utilizanunacercamientosimilarperousandoconceptoscomofamiliasdesinnimos y en Hovy &Lin (1999) se describen diferentes tcnicas para generar resmenesautomticosbasadasencorpus.
Figura3:MetodologadelsistemadeKupiecetal.(1995).[AdaptadodeMani&Maybury(1999)]
3.4.Mtodosdeaprendizajenosupervisado
Alfonseca &Rodrguez(2003) proponenunprocedimientode generacinde resmenesautomticosbasadoenalgoritmosgenticos.Elgenotipodeunresumeneslalistadeoracionesqueaparecern en l. Definen una funcin de ajuste basada en caractersticas de los resmenesinformativosynoencaractersticasdelasoracionescomohemosvistoenejemplosanteriores.Dichascaractersticasson:
Longituddelresumen:losresmenesquecontienenoracioneslargassonmejoresquelosquetienenoracionescortas.
Posicin:losresmenesquecontienenoracionesdelprincipiodelosprrafosdeldocumentofuentesonmejoresquelosquecontienenoracionesdecualquierotrapartedelosprrafos.
Ordendelasoraciones:losresmenesquetienensusoracionesenelmismoordenqueeneldocumentofuentesonmejoresquelosquetienenlasoracionesenotroorden.
Losresmenesquecontienen frasesdetodoslosprrafos del textofuentesonmejoresquelosgeneradoenlasituacincontraria.
9
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
Losresmenesquecontienenoracionesrelacionadasconelperfildelusuariosonmejoresquelosquenolascontienen.
Sielusuarioespecificaunaconsulta,losresmenesquecontienenpalabrasdela consultasonmejoresquelosquenolascontienen.
Losresmenesquecontienenoracionescompletas,esdecir,consujetoyverbo,sonmejoresquelosquenocontienenalgunodeestoselementos.
Las preguntas son pocoinformativas,porloquesepenalizasupresenciaenelresumen.
Elprocesoseguidoeselsiguiente:separtedeunapoblacininicialaleatoriaderesmenes(oindividuos);despus,encadageneracin,losdosindividuosmenosadaptadosmuerenylosdosmejor adaptados tienen descendencia; los individuos se alteran por mutacin, cambiando unaoracinporotra,yporcrossover,dndedosindividuosintercambianunaporcinaleatoriadesusgenotipos.ComosepuedeobservarenlaTabla1,elvalordelafuncindeajustevaaumentandoenelresumenconmejorpuntuacindediferentesgeneraciones.
Tabla1:Resumenconlamejorpuntuacinendiferentesgeneraciones.[AdaptadodeAlfonseca&Rodrguez(2003)]
EneltrabajodeSillaetal.(2004)seplantealageneracinautomticaderesmenescomounproblemadeclasificacin:elsistemaextraelasoracionesindividualesdeldocumentofuente,acadaoracinseleasociaunvectordeatributoscuyosvaloressederivandelcontenidodelamismayfinalmenteseclasificalaoracinendosclasesdependiendodesientrarenelresumenono.
3.5.Extraccindehechos
SparkJones(1998)definelaextraccindehechosencontraposicinalaextraccindetexto.Conlaextraccindetexto,loquevesesloqueobtienes,esdecir,partedeloqueseveeneldocumentofuentesetransfierealresumengenerado.Elenfoquedelaextraccinesdiferenteyaqueloquesabesesloqueobtienes,esdecir,sedecideaprioriquetipodecontenidosevaabuscarenlafuente.
Laextraccindetextoesunenfoqueabiertoenelquesedejaemergerelcontenidorelevantedelafuente.Mientrasquelaextraccindehechosesunenfoquecerradoenelqueeltextofuentenoproporciona ms que alguna instanciacin de requisitos de contenidos genricos previamenteestablecidos, por loquesolamentepermiteunanicopuntodevistadeloqueesrelevantedeldocumentooriginal.
La extraccindehechos consisteenunprocesadodeltextofuenteenbuscadeconceptospreestablecidos para rellanar algn tipo de plantilla con mayor o menos modificacin de laexpresinoriginal.UnejemplodesistemaqueutilizaestemtodoeseldeYoung&Hayes(1985)
10
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
quetrabajacontelegramasbancarios.
3.6.Ventajaseinconvenientes
Lasventajasdelenfoqueextractivoson:Suimplementacinessencilla.Subajocosteenesfuerzohumano,econmico,computacionalytemporal(Mani&
Maybury,1999). Es consistente yevita la subjetividadde los redactoresderesmeneshumanos
(Luhn,1958;Rathetal.,1961).Suelendarmejoresresultadosquelastcnicasabstractivas(Mani,2001).
Ysusinconvenientessonlossiguientes(Mani,2001):Lafaltadecoherenciadelresumengenerado.Laredundanciadelcontenidoportratarlasoracionesdemaneraindependiente.
3.7.Revisin
Cuandoseextraenoracionesdeldocumentofuente, seleccionaroracionesindependientesfuera de contexto aparecen los problemas que acabamos de mencionar: la incoherencia y laredundancia. Existen tcnicas para mitigar el impacto de estos inconvenientes. Acontinuacinveremosafondoenqueconsistenestosproblemasycomopaliarlos.
Laincoherenciaenlosresmenessedaporalgunosdelossiguientesmotivos(Mani,2001):
Anforas no resueltas: se extrae, por ejemplo, una oracin que contiene unpronombre que hace referencia a un antecedente que se encuentra en otra oracin noseleccionadaparaserextrada.
Lagunas: normalmente los textosestnescritos de tal maneraque las ideas seconectanentres,enuntextoenelqueseextraendemaneraindependientelasoracionespuedenperdersealgunasdeestasconexiones.
Entornos estructurados: elementos de los textos como listas o tablas creanproblemasalahoraderesumirautomticamente,siseextrajesedeuntextounaoracincomoLastrespartesdelsistemason:ynoseextraenlostreselementosquecomponenlalista,osiseextraealgunadelaspartesynosudescripcinsepierdeelcontextoysegeneraelproblemadelaincoherencia.
Lasolucinconsisteenel suavizadosuperficialdecoherencia queconsisteenidentificarcuandounaanforaquedasinantecedenterequiereencontrareneltextoexpresionesqueserefieranadichoantecedente,estonoesfcilyaquesenecesitaconocimientolingsticoyconocimientoespecficodedominio.Lasolucinmsfcilesexcluirtodaslasoracionesquecontengananforas(Brandow et al., 1995). Otra estrategia ms sofisticada sera incluir una ventana de oracionesanterioresesperandoqueelantecedenteestenellas(Mani,2001).OtrosistemasmsavanzadosintentanlocalizarelantecedentecomoeneltrabajodePaice(1990).Paratratarlaslagunassehanutilizadomtodosmuysimples,unejemploseencuentraeneltrabajodeBrandowetal.,(1995),en
11
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
elqueincluyeenelresumenfrasesnoseleccionadasparaserextradasentredosquesisehanseleccionado; osi seseleccionae incluye la nsimaoracindeunprrafo, incluir tambinlaprimera.Enelcasodelosentornosestructuradosesmuydifcilanalizarlaestructuradelentorno,porloquelasolucinmsfcilesidentificardichaestructurayexcluirla;dadoelaugedelXML,otraideaserautilizarlosmetadatosparaintentarresumirlaestructura.
Paramermarelefectonegativodelaredundancia,sepuedeaplicarunmtodoconocidocomoRelevanciaMximaMarginal(MMR:MaximalMarginalRelevance),suusorequiereunarepresentacin ms rica de la fuente que registre las palabras de las oraciones. Carbonell &Goldstein(1998)aplicanestemtodo:sloseaadenlasoracionesalaseleccinsidifierendelasextradaspreviamente.
12
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
4.Evaluacin
Laevaluacinesunaparteesencialdeunadisciplinaprcticacomoladelageneracinderesmenesautomticos.Dehecholaevaluacinespartedeloqueseacuacomomtodocientfico;lahabilidaddedisearexperimentosyevaluarlosresultadosobtenidos,puedeayudaraconstruirunargumento cientfico a favor o en contra de una teora o un mtodo. Se puede considerar laevaluacindesdeelpuntodevistadeladesarrollodeteoras;as,laevaluacinproporcionaunapruebaparaconfirmarorefutarunahiptesisounconjuntodeellas.Dehecho,laevaluacinpuededarlugaranuevashiptesis,porloqueproporcionaunaestrategiadeinvestigacinyunmarcotericoparavariasetapasdeldesarrollo(Mani,2001).
Lageneracinderesmenesestodavauncampodeinvestigacinprctico,noexistetodavaunmarcotericoconelquetrabajo.Poreso,sehacenecesarioquediferentesmtodospuedansercomparadosparaquesusventajasydesventajasparticularespuedansermejorcomprendidas.
4.1.Orgenes
Enlosalboresdelainvestigacinenelcampodelosresmenesautomticosyaseidearontanto mtodos informales de evaluacin (Pollock & Zamora, 1975), estudios ms organizados(Edmundson,1969),comparativascontraotrossistemasycontralneasbase(Brandowetal.,1995).Afinalesdelos90empezaronasurgirprogramascomoSUMMAC(Mani etal.,1999)oDUC(Baldwinetal.,2000;Overetal.,2007)parajuzgarsistemasquegeneranresmenesautomticos.
4.2.Clasificacindelosmtodosdeevaluacin
Enel terrenodela evaluacin sesuelehacer ladistincinentreevaluacin intrnseca yevaluacinextrnseca(Mani,2001):
Intrnseca: evaluacin cuyo nfasis se centra directamente en la calidad delresumencreado.
Extrnseca: evaluacincuyonfasissecentraencuanbienayudael resumenarealizarunatareaconunpropsitoespecifico.
Losatributosmshabitualmenteevaluadosdemaneraintrnsecasonlacalidaddelasalidageneraday lo informativo quees el resumengenerado. Estos juicios sonsubjetivosyaque losrealizanhumanos,ylosjuecespuedendisentir.Siladiferenciaentrelasposturasdedichosjuecesesdemasiadogrande,laevaluacinpuedellegaranosertilentretantodesacuerdo.
Paramedirlacalidad Minel etal. (1997) lossujetosdebanvalorarla legibilidad delosresmenesgenerados, ypuntuarlosbasndoseen lapresenciade anforas sin resolver, faltadeconservacin de la integridad de los entornos estructurados como listas o tablas, presencia deafirmacionestautolgicascomoPredecirelfuturoesdifcil,etc.
Paramedircuaninformativo esunresumengeneradoautomticamentesepuedecomparar
13
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
contra modelosescritosporhumanoscomohace Edmundson(1969) ensutrabajo. TambinsepuedevalorarlafidelidadaldocumentofuentecomoeselcasodeBrandowetal.(1995).
Laideadeevaluacinextrnsecadelosresmenescreadosautomticamenteesdeterminarelefectodelarealizacindelresumenenalgunaotratarea.Losmtodosdeestetipodeevaluacinsonlosquesiguen:
Valoracinde la relevancia: hanhabidomuchosacercamientos extrnsecos deevaluacinparalavaloracindelarelevancia,estosueleconsistirenqueaunsujetoselepresentauntemayundocumento.Acontinuacin,selespidedeterminarlarelevanciadeuntemacon respecto al documento. Finalmente, se estudia la influencia de la sntesis deresmenes automticos sobre la precisin de valoracin de la relevancia y el tiempoempleadopararealizarlatarea.UnejemploeseltrabajodeTombros&Sanderson(1998),enelqueselespedaalossujetosqueencontrasentantosdocumentosrelevantescomolesfueseposibleenuntiempodecincominutos,losresultadosindicaronquelosresmenesorientadosalusuario proporcionabanmejoresresultadosenla precisinytiempodelavaloracindelarelevancia.
Comprensin dela lectura:entareasdestinadasavalorarlacomprensindelalectura,elsujetohumanoleebieneldocumentooelresumengenerado;acontinuacin,debe contestar una serie de preguntas multirespuesta; los resultados del test sonalmacenadosporelsistemacomounporcentajedepreguntascontestadascorrectamente.Deesta manera se puede valorar objetivamente la comprensin y comparar los resultadosobtenidosconelresumenyeldocumentooriginal.Elrazonamientoesquesiconlalecturadel resumenseobtienenresultadossimilares queconla del documentofuente, el valorinformativodelresumenesalto.UnejemploeseltrabajodeMorrisetal.(1992)dondeseevalaelimpactodelaaccinderesumirenunatareaderespuestasapreguntas.
Otras valoraciones extrnsecas son las de estrategias depresentacin, especialmentetilesparalaevaluacindesistemasderesmenes multimedia;yla evaluacindesistemas maduros, que se hace til cuando el sistema de generacin de resmenesautomticoseslosuficientementemadurocomoparatenerusuariosfinales(Mani etal.,2001).
Porotraparte, SparkJones(2007a)estableceungradienteclasificandolosmtodosdeevaluacinenfocadosalpropsitodelresumenquevade semiorientadoalpropsito,pasandoporquasiorientadoalpropsitoypseudoorientadoalpropsitohastallegaraltotalmenteorientadoal propsito (Fig. 4). El orden de esta clasificacin, tal y como ha sido anteriormente expuestocorrespondeconungradientedeintrnsecoaextrnseco.Laautoraafirmaqueesimposibleevaluarresmenes si no se conoce para que son. Tambin distingue dos tipos de evaluaciones: porcomparacin con el texto fuente y por comparacin con modelos de resmenes escritos porhumanos. Finalmente propone que la direccin a tomar en la evaluacin de resmenes debeorientarsealatomadedecisiones,esdecir,cuantomsayudeelresumenatomarunadecisincorrecta,mejorresumenser.
14
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
Figura4:Gradientedelaevaluacinrelacionadaconelcontextodelatarea.[AdaptadodeSparkJones(2007b)]
4.3.Programasyconcursos
Enlosltimoshahabidoungranintersenla evaluacindeprototipos desistemasdesntesisderesmenesautomticos(Overetal.,2007).Enestaseccindescribiremosbrevementelosprogramasdeevaluacinmsimportantesdelasltimasdosdcadas.Estosprogramasson:
SUMMAC(Summarization Evaluation Conference): fue una evaluacin a granescaladesistemasderesmenesautomticosdetextoquetuvolugaren1998comopartedelprograma TIPSTER de la Administracin de Proyectos Avanzados de Investigacin deDefensa (Defense Advanced Research Projects Administration [DARPA]) (Mani et al.,1999).Participaron16sistemasteniendoencuentalaevaluacinextrnsecadedostareasdelmundoreal.Laprimeraconsistaenprocesarunalistadedocumentosparaencontrarlosrelevantes.Lasegundaeraunatareadecategorizacinenlaque,porejemplo,sepresentabaunconjuntode1000documentosquedebanseragrupadosen10clases.
NTCIR(NationalInstituteforInformaticsTestCollectionforIR):tuvolugaren2000,2002y2004enJapn.Cadaaosepresentaban10sistemasquetrabajabanendostareas de generacin de resmenes. En el 2000 (NTCIR2, 2001) se utiliz la tcnicaextrnseca de valoracin de la relevancia, as comoevaluacin intrnseca que para lossistemas extractivos consista en medir el nmero de correspondencias entre oracionesseleccionadasporhumanosylasextradasporlossistemas.EnOveretal.(2005)sehaceunresumendelrestodetcnicasusadasenotrosaosenlosqueelprogramatuvolugarhasta2007.
DUC(DocumentUnderstandingCongerence):comenzcomounproyectopilotoenel2000ylaprimeraevaluacinafondofueen2001.Lahojaderutaensusprincipiosugera una forma de evaluacin intrnseca, que ms adelante se fuesen introduciendomtodos extrnsecos. Se han considerado tanto resmenes de un solo documento comoresmenesmultidocumento,ascomogenricosyorientadosalusuario.Hoyendaesteprograma,seconocecomoTAC(TAC,2010).
15
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
TAC(TextAnalysisConference):desdeel2008DUCseconocecomoTAC.Parael2010seproponendostareas:creacinderesmenesdirigidosyevaluacinautomticaderesmenes por parejas (Automatically Evaluating Summaries Of Peers [AESOP]). Lacreacinderesmenesdirigidosconsisteenhacerunresumendenomsde100palabrasdeun conjunto de 10 documentos de un determinado tema y cada tema pertenece a unacategora determinada, cada categora cubre varios aspectos y dichos aspectos debenencontrarseenelresumen(TAC,2010).EnelcasodeAESOP,latareaconsisteenvalorarautomticamente resmenes para una mtrica dada. Para obtener ms informacin alrespectoconsltese(TAC,2010).Paralaevaluacindelosresmenesdirigidos,elInstitutoNacional de Estndares y Tecnologa (National Institute of Standards ant Technology[NIST])valoramanualmenteelcontenidosiguiendoelmtodopiramidal1delaUniversidaddeColumbia,lalegibilidadylafluidez,ysensibilidadglobaldelresumen.
1 Unapirmideesunmodeloqueprediceladistribucindelcontenidodelainformacinenlosresmenestalycomosereflejaenlosresmenesescritosporhumanos.Paramsinformacinconslteselasiguientereferencia:http://www1.cs.columbia.edu/~becky/DUC2006/bibliography.html
16
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
5.Trabajofuturo
Yadesdesutrabajode1998,SparkJones(1998)estableceunmarcoparaelestudiodelosfactoresqueintervienenalahoradegenerarunresumen.Insisteen,yrevisa,dichosfactoresensutrabajode2007(SparkJones,2007a).Anadadehoy,muchosdelosprototiposysistemasquevenla luzno tienenencuenta todosestosfactores, aunquealgunosdeellossi queincorporanalgunosendiferentesetapasdelageneracindelosresmenes,perodemaneramuylimitada.Seconsiderantresgrandesfamiliasdefactoresdecontexto:deentrada,depropsitoydesalida:
Factoresdeentrada: Forma
Idioma Registro Medio Estructura Gnero Extensin
Temtica Unidades Autor Metadatos
Factoresdepropsito Uso Audiencia Envoltura
Momento Ubicacin Formalidad Destinatario
Factoresdesalida Material
Cobertura Condensacin Derivacin Especialidad
Estilo Forma
Idioma Registro Medio Estructura Gnero
Estosfactoreshandetenerseencuentaenunfuturocercanotantoenlosmtodospararesumirautomticamentecomoenlaevaluacindelosmismos.
Es posible que los mtodos estadsticos estn llegando al punto en el que se requieredemasiadoesfuerzoparaobtenermejorasnimiasenlosresultados.Losmtodoshbridosqueaunanmtodosestadsticosysimblicosdanmejoresresultados.Estopareceindicarqueserequieredelaincorporacindeanlisislingsticosmsprofundos.Sedebeportantoavanzarhaciaestrategiasmsambiciosasqueexplotenlainformacinsemnticaydeldiscurso.
Hastaelmomentolosmtodosabstractivosnohantenidogranxitodebidoasuspobresresultados.Estonoquieredecirquehayaqueabandonarestalneadeinvestigacin.Elavanceentcnicasdecomprensindeltextoseguramenteinfluyasignificativamenteenelprogresodeestastcnicasalargoplazo.
Demomento,dadoelaugedelastcnicasextractivasehbridas,parecerazonablehacerespecial hincapi enlarevisindelresumengeneradousandotcnicasquetenganencuentaelcontexto para mejorar la coherencia. En este momento estas tcnicas son mayoritariamentesuperficiales, habra queaprovechar ms los recursos semnticos que nos ofrecen las bases deconocimientolingisticocomoWordNetoEuroWordNet.
17
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
6.Conclusiones
Serainteresantehacerunaclasificacinordenadadelastcnicasdeextraccin.Peroantelamultitud de criterios a valorar, los diferentes mtodos de evaluacin y todos los factores queinfluyenalahoradegenerarunresumenautomtico,estosehaceimposible.AnasMani(2001)haceunarevisindelasventajasydebilidadesdecadaunadelastcnicasextractivas.
Comoyasehamencionado,losmtodosextractivosofrecenresultadosaceptablescuandolautilidaddelresumengeneradoesgenrica.Sonfcilesdeimplementarysucosteesmuyasumible,tanto computacional como econmicamente. Las caractersticas de ubicacin y palabras claveparecenserengenerallasmsefectivas.Otrascaractersticastambinlosoncuandonoscentramosenungeneroespecfico,perocongranvariabilidadendiferentesdominios.
Cuando se compara la extraccin y la abstraccin, ms all de que en los mtodosabstractivossemodifiquedealgunamaneraeltextofuente,loimportanteesquellevanacabounaelaboracindetalladayorganizadadelosconceptosdeldocumentofuente.Estorequiereunniveldeentendimiento del texto que de momento no ha dado buenos resultados. Pero esta linea deinvestigacinparecelamsprometedoraalargoplazo.
Encuantoalaevaluacinsepuededecirquehasidolaimpulsoradelosavancesenelcampodelosresmenesautomticos.Esms,hajugadounpapelfundamentalenelvertiginosoprogresodelastecnologasdeanlisisdellenguaje.Aunqueexistennuevasreasdelageneracinderesmenesautomticosquerequierendenuevosmtodosdeevaluacincomo:resmenesparadispositivos mviles o resmenes usados como consultas para la recuperacin de documentosrelevantes.
18
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
7.Referenciasbibliogrficas
Alfonseca,E.&RodrguezP.(2003)."GeneratingExtractswithGeneticAlgorithms",AdvancesInInformationRetrieval,vol.2633,pp.511519.
Aone, C.; Gorlinsky,J.; Bjornar,L.&Okurowski,M.E.(1999)."ATrainableSummarizerwithKnowledge Aquired fromRobust NLPTechniques", en Mani, I. &Maybury, M., editors,AdvancesinAutomaticTextSummarization,pp.7280,CambridgeMA:MITPress,1999.
Baldwin,B.;Donaway,R.;Hovy,E.;Liddy,E.;Mani,I.; Marcu,D.;McKeown,K.;Mittal, V.;Moens,M.;Radev,D.;SparckJones,K.;Sundheim,B.;Teufel,S.;Weischedel,R.&White,M.(2000)."AnEvaluationRoadMapforSummarizationResearch"http://wwwnlpir.nist.gov/projects/duc/papers/summarization.roadmap.doc(ltimoacceso:19demayode2010)
Bellare, K.; Das Sarma, A.; Das Sarma, A.; Loiwal, N.; Mehta, V.; Ramakrishnan, G. &Bhattacharya, P. "Generic Text Summarization using WordNet, http://i.stanford.edu/~anishds/ publications/lrec04/lrec04.ps (ltimoacceso:16demayode2010).
Brandow,R.;Mitze,K.&Ray,L.(1995)."AutomaticCondensationofElectronicPublicationsbySentenceSelection",InformationProcessing&Management,vol.31,no.5,pp675685.
Carbonell, J. & Goldstein, J. (1998). "The Use of MMR and Diversitybased Reranking forReordering Documents and Producing Summaries", Proceeding of the 21st Annual InternationalACMSIGIRconferenceonResearchandDevelopmentinInformationRetrieval (SIGIR2001),pp.335336.
Edmundson,H.P.(1969)."NewMethodsinAutomaticExtracting",JournaloftheAssociationfor ComputingMachinery,vol.16,no.2,pp264285.
Fattah,M.A.&Ren,F.(2008)."AutomaticTextSummarization",ProceedingsOfWorldAcademyOfScience,EngineeringAndTechnology,vol.27,pp.192195.
Frutelle,R.P.(1999)."SummarizationofDiagramsinDocuments",enMani,I.&Maybury,M.,editors,AdvancesinAutomaticTextSummarization,pp.403421,CambridgeMA:MITPress,1999.
Hahn,U.&Mani,I.(2000)."TheChallengesofAutomaticSummarization",IEEEComputer,vol.33,no.11,pp.2936.
Hovy,E.&Lin,C.Y.(1999)."AutomatedTextSummarizationinSUMMARIST", enMani,I.&Maybury,M.,editors, AdvancesinAutomaticTextSummarization, pp.403421,CambridgeMA:MITPress,1999.
Kupiec,J.;Pedersen,J.&Vhen,F.(1995)."ATrainableDocumentSummarizer", Proceedingsof the18thACMSIGIRConference,pp.6873.
Louis,A.&Nenkova,A.(2008)."AutomaticSummaryEvaluationwithoutHumanModels",NotebookPapersandResultsoftheTextAnalysisConference(TAC2008).
Luhn,H.P.(1958)."TheAutomaticCreationofLiteratureAbstracts", IBMJournalof Research
19
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
Development, vol. 2, no. 2, pp. 159165. (Reimpresoen Mani, I. &Maybury, M., editors,AdvancesinAutomaticTextSummarization,pp.1521,CambridgeMA:MITPress,1999)
Mani, I. & Bloedorn, E. (1999). "Summarizing Similarities and Differences Among RelatedDocuments",InformationRetrieval,vol.1,no.1,pp.123.
Mani,I.;House,D.;Klein,G.;Hirschman,L.;Firmin,T.&Sundheim,B.(1999)."TheTIPSTERSUMMAC Text Summarization Evaluation", Proceedings of the Ninth Conference onEuropeanChapteroftheAssociationForComputationalLinguistics,pp.7785.
Mani,I.&Maybury,M.editors(1999)."AdvancesinAutomaticTextSummarization",Cambridge:Massachusetts:MITPress.
Mani,I;Concepcion,K&VanGuilder,L.(2000)."UsingSummarizationforAutomaticBriefingGeneration",EnProceedingsoftheWorkshoponAutomaticSummarization,pp.98108.NewBrunswick,NewJersey:AssociationforComputationalLinguistics.
Mani,I.(2001)."AutomaticSummarization",Amsterdam:JohnBenjaminsPublishing.
McCargar,V.(2004)."StatisticalApproachestoAutomaticTextSummarization", BulletinoftheAmericanSocietyforInformationScienceandTechnology.
Merlino, A. & Maybury, M. (1999). "An Empirical Study of the Optimal Presentation ofMultimediaSummariesofBroadcastNews",enMani,I.&Maybury,M.,editors,Advancesin AutomaticTextSummarization,pp.391401,CambridgeMA:MITPress,1999.
Minel, J.L.; Nugier, S. &Piat, G. (1997). "How to Appreciate the Quality of Automatic TextSummarization", Proceedings of the ACL/EACL'97 Workshop on Intelligent Scalable Text Summarization, pp. 2530. New Brunswick, New Jersey: Association for ComputationalLinguistics.
Morris, A.; Kasper, G. &Adams, D. (1992). "The Effects and Limitations of Automatic TextCondensingonReadingComprehensionPerformance",InformationSystemsResearch,vol.3,no.1,pp.1735.
Myaeng, S.H. & Jang, D.H. (1999). "Development and Evaluation of a StatisticallyBasedDocument Summarization System", en Mani, I. & Maybury, M., editors, Advances in AutomaticTextSummarization,pp.6170,CambridgeMA:MITPress,1999.
NTCIR2.Proceedings of theSecondNTCIRWorkshopMeetingonEvaluationof ChineseandJapanese Text Retrieval and Text Summarization. (2001) http://research.nii.ac.jp/ntcir/ntcirws2/wsen.html(ltimoacceso:20demayode2010)
Over, P.; Dang, H. & Harman D. (2007). "DUC in Context", Information Processing &Management,vol.43,no.6,pp.1506.
Paice, C.D. (1990). "ConstructingLiteratureAbstracts byComputer: TechniquesandPropects",InformationProcessing&Management,vol.26,no.1,pp.171186.
Pollock, J.J. & Zamora, A. (1975). "Automatic Abstracting Research at Chemical AbstractsService",JournalofChemicalInformationandComputerSciences,vol.14,no.4,pp.226232.
20
-
Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.
Rath,G.J.;Resnick,A.&Savage,T.R.(1961)."TheFormationofAbstractsbytheSelectionofSentences",AmericanDocumentation,vol.2,no.2,pp.139143,(actualmentetituladoJournaloftheAmericanSocietyforInformationScience).
Salton, G.; Singhal, A.; Mitra M. & Buckley C. (1997). "Automatic Text Structuring andSummarization",InformationProcessing&Management,vol.33,no.2,pp.193207.
Silla,C.N.;Pappa,G.L.;Freitas,A.A.&Kaestner,C.A.A.(2004)."AutomaticTextSummarizationwithGeneticAlgorithmBasedAttributeSelection", LectureNotesinComputerScience, vol.3315.
Simakov, D.; Caspi, Y.; Shechtman, E. & Irani, M. (2008). "Summarizing Visual Data UsingBidirectionalSimilarity",enCVPR,IEEEComputerSociety.
Sparck Jones, K. (1998). "Automatic Summarizing: Factors and Directions", en Mani, I. &Maybury,M.,editors,AdvancesinAutomaticTextSummarization,pp.112,CambridgeMA:MITPress,1999.
SparckJones,K.(2007)."AutomaticSummarising:TheStateoftheArt",InformationProcessing&Management,vol.43,no.6,pp.1449.(2007a)
SparckJones,K.(2007)."AutomaticSummarising:AReviewandDiscussionoftheStateoftheArt",TechnicalReport679,ComputerLaboratory,UniversityofCambridge.(2007b)
TAC(2010)."TAC2010SummarizationTrack",TextAnalysisConference.http://www.nist.gov/tac/2010/ Summarization/index.html
Tombros,A.&Sanderson,M.(1998)."AdvantagesofQueryBiasedSummariesInInformationRetrieval",Proceedingsofthe21stInternationalConferenceonResearchandDevelopmentin InformationRetrieval(SIGIR'98),pp.210.NewYork:AssociationforComputingMachinery.
Young, S.R. & Hayes, P.J. (1985). "Automatic Classification and Summarisation of BankingTelexes",Proceedings,SecondConferenceonArtificialIntelligenceApplications,pp.402408.NewYork,NY:InstituteofElectricalandElectronicsEngineers,1985.
21