Resúmenes automáticos

of 21 /21
 Resúmenes automáticos: Enfoque extractivo y evaluación. Víctor Márquez Gil, [email protected] Escuela Politécnica Superior, Universidad Autónoma de Madrid. Índice 1. Introducción 2 2. Tipos de resúmenes 5 3. Enfoque de extracción 7 3.1. Orígenes 7 3.2. Métodos estadísticos 7 3.3. Métodos de aprendizaje supervisado (o basados en corpus) 8 3.4. Métodos de aprendizaje no supervisado 9 3.5. Extracción de hechos 10 3.6. Ventajas e inconvenientes 11 3.7. Revisión 11 4. Evaluación 13 4.1. Orígenes 13 4.2. Clasificación de los métodos de evaluación 13 4.3. Programas y concursos 15 5. Trabajo futuro 17 6. Conclusiones 18 7. Referencias bibliográficas 19 Resumen. En este trabajo se presentan el estado actual de la cuestión y la evolución de los sistemas de resúmenes automático. Se hace especial hincapié en los métodos de generación extractivos y en la evaluación de la producción final de los mismos, desde los orígenes hasta el presente. También se presentan distintas clasificaciones de resúmenes y los factores a tener en cuenta a la hora de diseñar e implementar un sistema de estas características. Finalmente se plantea el trabajo futuro a seguir en este área de investigación, sugiriendo la incorporación de bases de conocimiento lingüístico y conceptos de estructura del discurso.

Embed Size (px)

description

En este trabajo se presentan el estado actual de la cuestión y la evolución de los sistemas de resúmenes automáticos. Se hace especial hincapié en los métodos de generación extractivos y en la evaluación de la producción final de los mismos, desde los orígenes hasta el presente. También se presentan distintas clasificaciones de resúmenes y los factores a tener en cuenta a la hora de diseñar e implementar un sistema de estas características. Finalmente se plantea el trabajo futuro a seguir en este área de investigación, sugiriendo la incorporación de bases de conocimiento lingüístico y conceptos de estructura del discurso.

Transcript of Resúmenes automáticos

  • Resmenesautomticos:Enfoqueextractivoyevaluacin.

    Vctor Mrquez Gil, [email protected] Politcnica Superior, Universidad Autnoma de Madrid.

    ndice

    1.Introduccin 22.Tiposderesmenes 53.Enfoquedeextraccin 7

    3.1.Orgenes 73.2.Mtodosestadsticos 73.3.Mtodosdeaprendizajesupervisado(obasadosencorpus) 83.4.Mtodosdeaprendizajenosupervisado 93.5.Extraccindehechos 103.6.Ventajaseinconvenientes 113.7.Revisin 11

    4.Evaluacin 134.1.Orgenes 134.2.Clasificacindelosmtodosdeevaluacin 134.3.Programasyconcursos 15

    5.Trabajofuturo 176.Conclusiones 187.Referenciasbibliogrficas 19

    Resumen.Enestetrabajosepresentanelestadoactualdelacuestinylaevolucindelossistemasderesmenes automtico. Se hace especial hincapi en los mtodos de generacin extractivos y en laevaluacin de la produccin final de los mismos, desde los orgenes hasta el presente. Tambin sepresentandistintasclasificacionesderesmenesylosfactoresatenerencuentaalahoradediseareimplementarunsistemadeestascaractersticas.Finalmenteseplanteaeltrabajofuturoaseguirenestereadeinvestigacin,sugiriendolaincorporacindebasesdeconocimientolingsticoyconceptosdeestructuradeldiscurso.

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    1.Introduccin

    Elobjetivodeestetrabajoesdaraconocerelestadodelartedelosmtodosextractivosydela evaluacin de losresmenesautomticosdndetantoel documentofuentecomoelresumenestnenformatodetexto.

    Resumir automticamente implica que un artefacto software tome una fuente de informacin,extraigaelcontenidomsrelevanteyselopresentealdestinatario(yaseaunusuariouotroartefactosoftware)demaneracondensadadetalformaquesatisfagalasnecesidadesdelusuarioodelaaplicacin(Mani,2001).Paraelobjetivoquenosatae,sedefinelaaccinderesumircomounatransformacindereduccindeltextofuentealtextoresumidopormediodeseleccindeloqueesimportanteenlafuente(SparkJones,2007a).

    Esdifcil imaginarlavidadiariasinalgntipoderesumen.Lostitularesdenoticias,eltrailerdeunapelcula,losresmenesdelacontraportadadeloslibrosoalprincipiodelosartculoscientficotcnicos,inclusolaprogramacindelatelevisinenelteletexto,elmapadeunaciudad,uncatlogodeproductosoelresultadodeunencuentrodeportivosonresmenes.Comosepuedeapreciar,elmediodelafuentearesumirpuedesermuyvariado,ascomoeldelresumenens.Estarevisin del estado del arte se centrar en tcnicas cuyas fuentes a resumir y sus versionescondensadasseantextuales.

    VivimosenlaSociedaddelaInformacinyelConocimiento:cadavezhaymsinformacinaccesibleenInternet.Laredderedescrecedemaneravertiginosaentodotipodecontenidos.Estaexplosindeinformacinconllevaunproblema:lasobrecarga.Nohaytiempoparaleerlotodo,sinembargo es necesario tomar decisiones crticas basadas en la informacin disponible. En estecontextosurgelanecesidaddedesarrollarsistemasqueresumanautomticamenteloscontenidosyporconsiguientedefomentarlainversineninvestigacinenestedominiodelProcesamientodelLenguajeNatural(PLN).

    Actualmente,lainvestigacinenestecampodelPLNesmuyactivagraciasaprogramasyconcursoscomoSUMMAC,NTCIR,DUC(Overetal.,2007)oTAC(Louis,2008)yestemparentadaconladeotroscampos(Mani,2001)como:

    Compresindetexto:elobjetivotambinescrearunaversincondensadadedocumentofuenteperoconelfindeseralmacenadoytransmitidodemaneraeficienteynoparaelconsumohumano.

    Indexacin: el objetivoes la identificacinde trminosrelevantes deundocumento, normalmenteparafacilitar larecuperacindeinformacin.Sepuedeconcebir laindexacincomouncasoparticularderesumenautomtico,peroalsersupropsitoeldelarecuperacindeinformacinynoelderesumirlodejamoscomocampoaparte.

    Mineradetextos:setratadeunprocesocuyoobjetivoesladeteccindeinformacinnuevaoanmalaengrandesrepositoriosdetextos.Surelacinconlosresmenesautomticosesquelasalidaesunaversinreducidadelaentrada,ladiferenciaesquelamineradetextosnosecentraencondensarelcontenidodelafuentesinoencaracterizarsingularidadesdelosdatos.

    2

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    Lossistemasquegeneranresmenesautomticamentepueden clasificarse endosgrandesgrupossegnla estrategia decondensacin:losqueconstruyenresmenespor extraccin (osistemasextractivos)ylosquelohacenporabstraccin(osistemasnoextractivos).Tambinpuedenconsiderarse lossistemas hbridos queaunanambastcnicas. Acontinuacinsedefinendichasestrategias:

    Estrategiaextractiva:elresumengeneradoconstanicamentedematerialcopiadoliteralmentedeldocumentofuente.

    Estrategianoextractivao abstractiva:almenospartedelmaterialpresenteenelresumennoseencuentraeneldocumentofuente.

    Laarquitecturaabstractadelossistemasqueproducenresmenesautomticosessiemprelamisma(Fig.1)yconstadetresprocesos(Hahn&Mani,2000;SparkJones,2007a):interpretacino anlisis, transformacin y generacin o sntesis.Convienecomentarqueestaesunaestructuralgicadealtonivel,porloquelosmdulosyprocesosdeimplementacionesconcretasnotienenporquresponderaesteesquema.Ladescripcindecadaunodelosprocesoseslasiguiente:

    Interpretacin o anlisis: se analiza el documento fuente y se construye unarepresentacininternadelmismo.

    Transformacin:setransformalarepresentacininternadeldocumentoenunarepresentacininternadelresumen.EstafaseessobretodoaplicableasistemasabstractivosquesebasanentcnicasdePLNparagenerarresmenes.

    Generacinosntesis:setomalarepresentacininternadelresumenyseconstruyeelmismoenlenguajenatural.

    Figura1:Arquitecturadealtoniveldelossistemasderesmenesautomticos.[AdaptadodeMani(2000)ySparkJones(2007a)]

    Paraelcasoparticulardelossistemasbasadosenextraccin,losprocesosdeinterpretacinytransformacinsefusionancomosemuestraenlaFigura2.

    Laeleccindecentrarseenlosresmenesautomticosbasadosentcnicasextractivasnoestrivial. Elcostecomputacionalesmenor,suimplementacinesmsfcil, ysuelendarmejoresresultadosquelosbasadosentcnicasabstractivasquerequierenrecursosdeconocimientolingsticos(Mani, 2001).Losacercamientosquepersiguenobjetivosmsgenricossuelenbasarseenmtodosdeextraccinpuramenteestadsticosyofrecennormalmenteresultadosaceptablesinde

    3

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    pendientementedelidioma,delgneroydelpropsitofinal(SparkJones2007).Adems,elmayorempujequeharecibidolainvestigacinenelcampodelosresmenesautomticoshasidoporpartedeestomtodos,juntoconmtodoshbridosquecombinantcnicasestadsticasysimblicas.Estocontrastaconelintersmostradoporpartedelacomunidaddelalingsticacomputacionalhaciaherramientasderepresentacindelsignificadodeltexto.

    Figura2:Arquitecturadealtoniveldelossistemasderesmenesautomticosextractivos.[AdaptadodeMani(2000)]

    Enlaseccin2exploraremoslasdiferentesclasificacionesderesmenesmsaceptadasenlaliteratura.Enlaseccin3describiremoslosorgenesyelprogresodelossistemasextractivosascomo los distintos mtodos usados en ellos y sus ventajas e inconvenientes. En la seccin 4inspeccionaremos los comienzos, evolucin y diferentes clasificaciones de la evaluacin deresmenes generados automticamente. Finalizaremosconel trabajo futuro de esta ramade lainvestigacin del PLN y las conclusiones que se pueden arrojar del trabajo realizado en lassecciones5y6respectivamente.

    4

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    2.Tiposderesmenes

    Como hemos visto, los resmenes pueden diferenciarse por la estrategia empleada algenerarlos:porextraccinoporabstraccin.Otraformadeclasificarloseshaciendoladistincinentreresmenesindicativos,informativosycrticos(Hahn&Mani,2000):

    Indicativos:estosresmenessiguenelacercamientoclsicodelarecuperacindelainformacin,suministranelcontenidosuficienteparaquelosusuariospuedanhacerseunaideadelosconceptosclavequeseencuentraneneldocumentofuenteparaquedecidansileerelcontenidocompletomsendetalle.

    Informativos:enestecasolosresmenessirvencomosubstitutosdeldocumentofuente,elprocesodecrearestosresmenesconsisteprincipalmenteenrecopilarinformacinrelevantedemaneraestructurada.

    Crticos:apartedeserinformativos,incorporanlaopinindelescritordelresumencomovaloraadido,aportandosuexperiencialacualnoest reflejadaeneldocumentofuente.

    Tambinsepuedenclasificarlosresmenesentrminosdelpropsitofinaldelosmismos.Losresmenespuedensergenricosuorientadosalusuario(Mani,2001).

    Genricos: estos resmenes no estnhechos a medida deningunaaudiencia opropsitoenparticular.Lahistoriadelainvestigacinsobreresmenesautomticossehaconcentradoprincipalmenteenlaproduccindeestetipoderesmenes(Overetal.,2007).Laideadegenerarresmenesautomticosdeunnicodocumentofueelprimerimpulsodelainvestigacinenestecampo.

    Orientadosalusuario:estosresmenesseadaptanalasnecesidadesdeunusuarioogrupodeusuariosparaunatareaconcreta(Mani,2001).Estosignificaqueelsistematieneencuentadealgunamaneraunarepresentacindelosinteresesdelosusuariosmediantealgunatcnicademodeladodeusuarioobienconunsimplecampodeformularioparaejecutarunaconsulta.Uncasoparticulardeestossistemassonlosqueelusuariointroduceunapreguntayelsistemadevuelveunresumenqueintentaresponderla.

    Otra posibilidad para diferenciar los resmenes es segnel tipo de entrada. Desde losorgenesdelainvestigacinenestecampoelfocohasidocrearresmenesdeunsolodocumentofuente.PeroapartirdelfinaldelaltimadcadadelsigloXX,graciasalempujedelosprogramasdeevaluacinycomorespuestaalademandadequerersaberdeunvistazocualeseltemadeunacoleccin de documentos, naci la idea de los sistemas de resumen automtico de mltiples documentos.Elobjetivodeestosltimosesquepartiendodeunaseriededocumentosrelacionados,seobtengaunresumenquecontieneel contenidomsrelevanteeliminandolaredundanciaqueexistaentrelosdocumentosfuente(Mani,2001).LosprimerostrabajossobresistemasderesmenesautomticosmultidocumentosondeSaltonetal.(1997)yMani&Bloedorn(1999).

    5

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    Msrecientementetodava,sehaempezadoamanejarelconceptoderesmenesdefuentesmultimedia. Se trata no slo de resumir textos sino tambin vdeos (Mani, 2001), imgenes(Simakov,2008), grabaciones deaudiodereuniones (Mani etal., 2000)odiagramas(Frutelle,1999)ycombinacionesdeestoselementoscomoporejemploeltrabajode Merlino&Maybury(1999)connoticiasdeinformativosdetelevisin.

    6

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    3.Enfoquedeextraccin

    3.1.Orgenes

    ProbablementeelprimertrabajosobreresmenesautomticosseaeldeLuhn(1958).Enlsedescribeunasimpletcnicaparagenerarresmenesgenricosextractivosdeunslodocumentofuente.Estaconsisteenusarfrecuenciasdetrminosparadarpesosalasfrasesqueposteriormenteseseleccionanparaaparecerenelresumen.Elprocesoconsisteenlosiguiente:primerosefiltranpalabras comoartculos,pronombresypreposiciones;acontinuacin senormalizanlostrminosparareducirlosasulexema;posteriormenteseagreganlaspalabrasconlamismarazysecalculanlas frecuencias de los trminos agregados descartando los que tengan menores frecuencias;finalmente,apartirdelosresultadosdelpasoanteriorseledaunpesoacadaoracinylasfrasesconmayorpesoseseleccionanparaelresumenfinal.

    Otro avance importante de los orgenes de los resmenes automticos fue el trabajo deEdmundson(1969).Enlseaadentresnuevas caractersticas alahoraderesumirautomticamenteapartedelafrecuenciadetrminos:

    Expresionesclavequeaumentanodisminuyenlapuntuacindelafraseenlaqueseencuentran,algunosejemplosson:significante,imposibleodifcilmente.

    Palabrasquesiaparecenenelttulooenlossubttulosaumentanlapuntuacindelafrase.

    La posicin de la frasedentrodel documentooprrafoysucercanacon lossubttulostambinmodificalavaloracindelaoracinalahoradetenerlaencuentaparaelresumen.

    Al estudiar los resmenes generados, Edmundson (1969) descubri que estas trescaractersticas,cadaunaporseparado,dabamejoresresultadosqueelacercamientodeLuhn(1958).Tambinseencontrconquelamejorcombinacindecaractersticaseraladeexpresionesclave,ttulosyposicin.Adems,lacaractersticaaisladaqueproporcionabamejoresresmeneseraladeposicin,ylaqueproporcionabalospeoreseraladefrecuenciadetrminos.

    3.2.Mtodosestadsticos

    LosmtodosestadsticossimplessuelenseguirelacercamientodeLuhn(1958).Que,comohemosvisto,consisteenpuntuarlasoracionessegnelpesodelostrminosqueaparecenenella.Despusdefiltrarylanormalizarlostrminos,seextraenlasoracionesenelmismoordenqueaparecenenlafuente.Porltimo,seseleccionanlasnoracionesmejorpuntuadassegnlatasadecompresinquesequieraalcanzar. Tambinhemosvistocmosepuedenaadir caractersticascomolasdepalabrasclavettuloposicinalasfrecuenciasdetrminosconelacercamientodeEdmundson(1969).

    Unadelasmayoreslneasdeinvestigacinenestecampohasidolaelaboracindenuevascaractersticas de las oraciones. Tambin se ha explorado la puntuacin de unidades ms

    7

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    elementalesquelaoracin:unidadeslxicascomosintagmas,ngramasuotrasventanasdetexto(SparkJones,2007a).

    Elavancedelastcnicas,mtodosyherramientasdePLNhanmotivadoquelaextraccinpuedatenerunabaselingsticautilizandorelacionesderedessemnticascomoWordNetpara,porejemplo,agruparconceptosporsinonimia(Bellare etal.);otesaurosparageneralizarconceptos(McCargar,2004).

    3.3.Mtodosdeaprendizajesupervisado(obasadosencorpus)

    Hemosvistocmociertascaractersticasayudanadescubrirloqueesrelevanteenuntextofuenteyportantodebeextraerseparaelresumen.Elproblemaconsisteahoraendeterminarlacontribucin de cada una de las caractersticas para generar resmenes lo ms cercanos a losmodelos producidos por humanos. La solucin a este problema no es trivial y, de hecho, essumamentedependientedelgnerodeldocumentofuente.Porejemplo,lacaractersticadeposicinennoticiasdeprensaescritaharqueseextraigaeltitularylaentradaocopetedelanoticia,yaqueen estas partes se resume la misma; sin embargo, en un artculo cientficotcnico, estacaracterstica debera dar ms peso a oraciones pertenecientes al resumen, la introduccin, laconclusinylasprimerasfrasestraslossubttulos.

    Ladeterminacindelaimportanciadelascaractersticaspuedehacersemedianteelusodeuncorpusdetextosdelmismognero,dndeestnemparejadoseldocumentofuenteyelresumenrealizado por un humano. El uso del corpus tambin le permite al sistema aprenderautomticamente nuevas reglas tiles para la generacin de resmenes automticos (Many &Maybury,1999).

    Unodelosprimerostrabajosqueintrodujeronelusodecorpusparaelentrenamientodesistemasderesmenesautomticosfueelde Kupiec etal. (1995).Enlseusanlos resmenesmodeloparaetiquetarvectoresdelasoracionesdelosdocumentosfuentecomoejemplarespositivosonegativosindicandosisoncandidatosparaapareceronoenelresumen.Elcorpusconstade188pares documento fuente/resumenpertenecientes a 21colecciones de documentos cientficos. Elprocesoeselquesigue:unalgoritmodeclasificacinBayesianotomacadaoracindelconjuntodetest y calculauna probabilidad de estar incluida en el resumenbasndose en la frecuencia decaractersticasenlosvectoresdeldocumentofuenteylasetiquetasdelosvectores(1sideberaserincluida en el resumen, 0 en cualquier otro caso); finalmente se extraen las n oraciones msprobablesdeaparecerenelresumen,dependiendodelatasadereduccin.EnlaFigura3seilustralaestructuradelsistema.Lascaractersticasusadasenestetrabajoson:lalongituddelasoraciones,presenciadeexpresionesclave,posicindelasfrasesdentrodelosprrafosdeldocumentofuente,ypresenciadenombrespropios.

    Eltrabajode Kupiec etal. (1995) inspira Myaeng&Jang(1999).Estosltimos,ensuvarianteaplicadaaartculostcnicosenCoreano,consideranelmaterialdelaIntroduccinylaConclusiny etiquetan las oraciones manualmente si representan los antecedentes, algn temaprincipal,ladescripcindelaestructuradeldocumentooladescripcindeltrabajofuturo.Tambinseetiquetanlasfrasescandidatasaaparecerenunresumenrealizadoporunhumano.SumtododeentrenamientoutilizaprimerounclasificadorBayesianoparadeterminarsilaoracinconsideradaperteneceaalgntemaprincipal,yacontinuacincombinalosindiciosdemltiplesclasificadoresdecaractersticasBayesianos paradeterminar si la oracinseaadeal resumen. Finalmentese

    8

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    aplicaunfiltroparaeliminarfrasesredundantes.Losautoresdescubrieronque,consusdatos,usarunacombinacindepalabrasclave,posicin,ypresenciaenlaoracindepalabrasdelttulo,dabalosmejoresresultados.

    Aoneetal.(1999)utilizanunacercamientosimilarperousandoconceptoscomofamiliasdesinnimos y en Hovy &Lin (1999) se describen diferentes tcnicas para generar resmenesautomticosbasadasencorpus.

    Figura3:MetodologadelsistemadeKupiecetal.(1995).[AdaptadodeMani&Maybury(1999)]

    3.4.Mtodosdeaprendizajenosupervisado

    Alfonseca &Rodrguez(2003) proponenunprocedimientode generacinde resmenesautomticosbasadoenalgoritmosgenticos.Elgenotipodeunresumeneslalistadeoracionesqueaparecern en l. Definen una funcin de ajuste basada en caractersticas de los resmenesinformativosynoencaractersticasdelasoracionescomohemosvistoenejemplosanteriores.Dichascaractersticasson:

    Longituddelresumen:losresmenesquecontienenoracioneslargassonmejoresquelosquetienenoracionescortas.

    Posicin:losresmenesquecontienenoracionesdelprincipiodelosprrafosdeldocumentofuentesonmejoresquelosquecontienenoracionesdecualquierotrapartedelosprrafos.

    Ordendelasoraciones:losresmenesquetienensusoracionesenelmismoordenqueeneldocumentofuentesonmejoresquelosquetienenlasoracionesenotroorden.

    Losresmenesquecontienen frasesdetodoslosprrafos del textofuentesonmejoresquelosgeneradoenlasituacincontraria.

    9

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    Losresmenesquecontienenoracionesrelacionadasconelperfildelusuariosonmejoresquelosquenolascontienen.

    Sielusuarioespecificaunaconsulta,losresmenesquecontienenpalabrasdela consultasonmejoresquelosquenolascontienen.

    Losresmenesquecontienenoracionescompletas,esdecir,consujetoyverbo,sonmejoresquelosquenocontienenalgunodeestoselementos.

    Las preguntas son pocoinformativas,porloquesepenalizasupresenciaenelresumen.

    Elprocesoseguidoeselsiguiente:separtedeunapoblacininicialaleatoriaderesmenes(oindividuos);despus,encadageneracin,losdosindividuosmenosadaptadosmuerenylosdosmejor adaptados tienen descendencia; los individuos se alteran por mutacin, cambiando unaoracinporotra,yporcrossover,dndedosindividuosintercambianunaporcinaleatoriadesusgenotipos.ComosepuedeobservarenlaTabla1,elvalordelafuncindeajustevaaumentandoenelresumenconmejorpuntuacindediferentesgeneraciones.

    Tabla1:Resumenconlamejorpuntuacinendiferentesgeneraciones.[AdaptadodeAlfonseca&Rodrguez(2003)]

    EneltrabajodeSillaetal.(2004)seplantealageneracinautomticaderesmenescomounproblemadeclasificacin:elsistemaextraelasoracionesindividualesdeldocumentofuente,acadaoracinseleasociaunvectordeatributoscuyosvaloressederivandelcontenidodelamismayfinalmenteseclasificalaoracinendosclasesdependiendodesientrarenelresumenono.

    3.5.Extraccindehechos

    SparkJones(1998)definelaextraccindehechosencontraposicinalaextraccindetexto.Conlaextraccindetexto,loquevesesloqueobtienes,esdecir,partedeloqueseveeneldocumentofuentesetransfierealresumengenerado.Elenfoquedelaextraccinesdiferenteyaqueloquesabesesloqueobtienes,esdecir,sedecideaprioriquetipodecontenidosevaabuscarenlafuente.

    Laextraccindetextoesunenfoqueabiertoenelquesedejaemergerelcontenidorelevantedelafuente.Mientrasquelaextraccindehechosesunenfoquecerradoenelqueeltextofuentenoproporciona ms que alguna instanciacin de requisitos de contenidos genricos previamenteestablecidos, por loquesolamentepermiteunanicopuntodevistadeloqueesrelevantedeldocumentooriginal.

    La extraccindehechos consisteenunprocesadodeltextofuenteenbuscadeconceptospreestablecidos para rellanar algn tipo de plantilla con mayor o menos modificacin de laexpresinoriginal.UnejemplodesistemaqueutilizaestemtodoeseldeYoung&Hayes(1985)

    10

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    quetrabajacontelegramasbancarios.

    3.6.Ventajaseinconvenientes

    Lasventajasdelenfoqueextractivoson:Suimplementacinessencilla.Subajocosteenesfuerzohumano,econmico,computacionalytemporal(Mani&

    Maybury,1999). Es consistente yevita la subjetividadde los redactoresderesmeneshumanos

    (Luhn,1958;Rathetal.,1961).Suelendarmejoresresultadosquelastcnicasabstractivas(Mani,2001).

    Ysusinconvenientessonlossiguientes(Mani,2001):Lafaltadecoherenciadelresumengenerado.Laredundanciadelcontenidoportratarlasoracionesdemaneraindependiente.

    3.7.Revisin

    Cuandoseextraenoracionesdeldocumentofuente, seleccionaroracionesindependientesfuera de contexto aparecen los problemas que acabamos de mencionar: la incoherencia y laredundancia. Existen tcnicas para mitigar el impacto de estos inconvenientes. Acontinuacinveremosafondoenqueconsistenestosproblemasycomopaliarlos.

    Laincoherenciaenlosresmenessedaporalgunosdelossiguientesmotivos(Mani,2001):

    Anforas no resueltas: se extrae, por ejemplo, una oracin que contiene unpronombre que hace referencia a un antecedente que se encuentra en otra oracin noseleccionadaparaserextrada.

    Lagunas: normalmente los textosestnescritos de tal maneraque las ideas seconectanentres,enuntextoenelqueseextraendemaneraindependientelasoracionespuedenperdersealgunasdeestasconexiones.

    Entornos estructurados: elementos de los textos como listas o tablas creanproblemasalahoraderesumirautomticamente,siseextrajesedeuntextounaoracincomoLastrespartesdelsistemason:ynoseextraenlostreselementosquecomponenlalista,osiseextraealgunadelaspartesynosudescripcinsepierdeelcontextoysegeneraelproblemadelaincoherencia.

    Lasolucinconsisteenel suavizadosuperficialdecoherencia queconsisteenidentificarcuandounaanforaquedasinantecedenterequiereencontrareneltextoexpresionesqueserefieranadichoantecedente,estonoesfcilyaquesenecesitaconocimientolingsticoyconocimientoespecficodedominio.Lasolucinmsfcilesexcluirtodaslasoracionesquecontengananforas(Brandow et al., 1995). Otra estrategia ms sofisticada sera incluir una ventana de oracionesanterioresesperandoqueelantecedenteestenellas(Mani,2001).OtrosistemasmsavanzadosintentanlocalizarelantecedentecomoeneltrabajodePaice(1990).Paratratarlaslagunassehanutilizadomtodosmuysimples,unejemploseencuentraeneltrabajodeBrandowetal.,(1995),en

    11

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    elqueincluyeenelresumenfrasesnoseleccionadasparaserextradasentredosquesisehanseleccionado; osi seseleccionae incluye la nsimaoracindeunprrafo, incluir tambinlaprimera.Enelcasodelosentornosestructuradosesmuydifcilanalizarlaestructuradelentorno,porloquelasolucinmsfcilesidentificardichaestructurayexcluirla;dadoelaugedelXML,otraideaserautilizarlosmetadatosparaintentarresumirlaestructura.

    Paramermarelefectonegativodelaredundancia,sepuedeaplicarunmtodoconocidocomoRelevanciaMximaMarginal(MMR:MaximalMarginalRelevance),suusorequiereunarepresentacin ms rica de la fuente que registre las palabras de las oraciones. Carbonell &Goldstein(1998)aplicanestemtodo:sloseaadenlasoracionesalaseleccinsidifierendelasextradaspreviamente.

    12

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    4.Evaluacin

    Laevaluacinesunaparteesencialdeunadisciplinaprcticacomoladelageneracinderesmenesautomticos.Dehecholaevaluacinespartedeloqueseacuacomomtodocientfico;lahabilidaddedisearexperimentosyevaluarlosresultadosobtenidos,puedeayudaraconstruirunargumento cientfico a favor o en contra de una teora o un mtodo. Se puede considerar laevaluacindesdeelpuntodevistadeladesarrollodeteoras;as,laevaluacinproporcionaunapruebaparaconfirmarorefutarunahiptesisounconjuntodeellas.Dehecho,laevaluacinpuededarlugaranuevashiptesis,porloqueproporcionaunaestrategiadeinvestigacinyunmarcotericoparavariasetapasdeldesarrollo(Mani,2001).

    Lageneracinderesmenesestodavauncampodeinvestigacinprctico,noexistetodavaunmarcotericoconelquetrabajo.Poreso,sehacenecesarioquediferentesmtodospuedansercomparadosparaquesusventajasydesventajasparticularespuedansermejorcomprendidas.

    4.1.Orgenes

    Enlosalboresdelainvestigacinenelcampodelosresmenesautomticosyaseidearontanto mtodos informales de evaluacin (Pollock & Zamora, 1975), estudios ms organizados(Edmundson,1969),comparativascontraotrossistemasycontralneasbase(Brandowetal.,1995).Afinalesdelos90empezaronasurgirprogramascomoSUMMAC(Mani etal.,1999)oDUC(Baldwinetal.,2000;Overetal.,2007)parajuzgarsistemasquegeneranresmenesautomticos.

    4.2.Clasificacindelosmtodosdeevaluacin

    Enel terrenodela evaluacin sesuelehacer ladistincinentreevaluacin intrnseca yevaluacinextrnseca(Mani,2001):

    Intrnseca: evaluacin cuyo nfasis se centra directamente en la calidad delresumencreado.

    Extrnseca: evaluacincuyonfasissecentraencuanbienayudael resumenarealizarunatareaconunpropsitoespecifico.

    Losatributosmshabitualmenteevaluadosdemaneraintrnsecasonlacalidaddelasalidageneraday lo informativo quees el resumengenerado. Estos juicios sonsubjetivosyaque losrealizanhumanos,ylosjuecespuedendisentir.Siladiferenciaentrelasposturasdedichosjuecesesdemasiadogrande,laevaluacinpuedellegaranosertilentretantodesacuerdo.

    Paramedirlacalidad Minel etal. (1997) lossujetosdebanvalorarla legibilidad delosresmenesgenerados, ypuntuarlosbasndoseen lapresenciade anforas sin resolver, faltadeconservacin de la integridad de los entornos estructurados como listas o tablas, presencia deafirmacionestautolgicascomoPredecirelfuturoesdifcil,etc.

    Paramedircuaninformativo esunresumengeneradoautomticamentesepuedecomparar

    13

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    contra modelosescritosporhumanoscomohace Edmundson(1969) ensutrabajo. TambinsepuedevalorarlafidelidadaldocumentofuentecomoeselcasodeBrandowetal.(1995).

    Laideadeevaluacinextrnsecadelosresmenescreadosautomticamenteesdeterminarelefectodelarealizacindelresumenenalgunaotratarea.Losmtodosdeestetipodeevaluacinsonlosquesiguen:

    Valoracinde la relevancia: hanhabidomuchosacercamientos extrnsecos deevaluacinparalavaloracindelarelevancia,estosueleconsistirenqueaunsujetoselepresentauntemayundocumento.Acontinuacin,selespidedeterminarlarelevanciadeuntemacon respecto al documento. Finalmente, se estudia la influencia de la sntesis deresmenes automticos sobre la precisin de valoracin de la relevancia y el tiempoempleadopararealizarlatarea.UnejemploeseltrabajodeTombros&Sanderson(1998),enelqueselespedaalossujetosqueencontrasentantosdocumentosrelevantescomolesfueseposibleenuntiempodecincominutos,losresultadosindicaronquelosresmenesorientadosalusuario proporcionabanmejoresresultadosenla precisinytiempodelavaloracindelarelevancia.

    Comprensin dela lectura:entareasdestinadasavalorarlacomprensindelalectura,elsujetohumanoleebieneldocumentooelresumengenerado;acontinuacin,debe contestar una serie de preguntas multirespuesta; los resultados del test sonalmacenadosporelsistemacomounporcentajedepreguntascontestadascorrectamente.Deesta manera se puede valorar objetivamente la comprensin y comparar los resultadosobtenidosconelresumenyeldocumentooriginal.Elrazonamientoesquesiconlalecturadel resumenseobtienenresultadossimilares queconla del documentofuente, el valorinformativodelresumenesalto.UnejemploeseltrabajodeMorrisetal.(1992)dondeseevalaelimpactodelaaccinderesumirenunatareaderespuestasapreguntas.

    Otras valoraciones extrnsecas son las de estrategias depresentacin, especialmentetilesparalaevaluacindesistemasderesmenes multimedia;yla evaluacindesistemas maduros, que se hace til cuando el sistema de generacin de resmenesautomticoseslosuficientementemadurocomoparatenerusuariosfinales(Mani etal.,2001).

    Porotraparte, SparkJones(2007a)estableceungradienteclasificandolosmtodosdeevaluacinenfocadosalpropsitodelresumenquevade semiorientadoalpropsito,pasandoporquasiorientadoalpropsitoypseudoorientadoalpropsitohastallegaraltotalmenteorientadoal propsito (Fig. 4). El orden de esta clasificacin, tal y como ha sido anteriormente expuestocorrespondeconungradientedeintrnsecoaextrnseco.Laautoraafirmaqueesimposibleevaluarresmenes si no se conoce para que son. Tambin distingue dos tipos de evaluaciones: porcomparacin con el texto fuente y por comparacin con modelos de resmenes escritos porhumanos. Finalmente propone que la direccin a tomar en la evaluacin de resmenes debeorientarsealatomadedecisiones,esdecir,cuantomsayudeelresumenatomarunadecisincorrecta,mejorresumenser.

    14

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    Figura4:Gradientedelaevaluacinrelacionadaconelcontextodelatarea.[AdaptadodeSparkJones(2007b)]

    4.3.Programasyconcursos

    Enlosltimoshahabidoungranintersenla evaluacindeprototipos desistemasdesntesisderesmenesautomticos(Overetal.,2007).Enestaseccindescribiremosbrevementelosprogramasdeevaluacinmsimportantesdelasltimasdosdcadas.Estosprogramasson:

    SUMMAC(Summarization Evaluation Conference): fue una evaluacin a granescaladesistemasderesmenesautomticosdetextoquetuvolugaren1998comopartedelprograma TIPSTER de la Administracin de Proyectos Avanzados de Investigacin deDefensa (Defense Advanced Research Projects Administration [DARPA]) (Mani et al.,1999).Participaron16sistemasteniendoencuentalaevaluacinextrnsecadedostareasdelmundoreal.Laprimeraconsistaenprocesarunalistadedocumentosparaencontrarlosrelevantes.Lasegundaeraunatareadecategorizacinenlaque,porejemplo,sepresentabaunconjuntode1000documentosquedebanseragrupadosen10clases.

    NTCIR(NationalInstituteforInformaticsTestCollectionforIR):tuvolugaren2000,2002y2004enJapn.Cadaaosepresentaban10sistemasquetrabajabanendostareas de generacin de resmenes. En el 2000 (NTCIR2, 2001) se utiliz la tcnicaextrnseca de valoracin de la relevancia, as comoevaluacin intrnseca que para lossistemas extractivos consista en medir el nmero de correspondencias entre oracionesseleccionadasporhumanosylasextradasporlossistemas.EnOveretal.(2005)sehaceunresumendelrestodetcnicasusadasenotrosaosenlosqueelprogramatuvolugarhasta2007.

    DUC(DocumentUnderstandingCongerence):comenzcomounproyectopilotoenel2000ylaprimeraevaluacinafondofueen2001.Lahojaderutaensusprincipiosugera una forma de evaluacin intrnseca, que ms adelante se fuesen introduciendomtodos extrnsecos. Se han considerado tanto resmenes de un solo documento comoresmenesmultidocumento,ascomogenricosyorientadosalusuario.Hoyendaesteprograma,seconocecomoTAC(TAC,2010).

    15

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    TAC(TextAnalysisConference):desdeel2008DUCseconocecomoTAC.Parael2010seproponendostareas:creacinderesmenesdirigidosyevaluacinautomticaderesmenes por parejas (Automatically Evaluating Summaries Of Peers [AESOP]). Lacreacinderesmenesdirigidosconsisteenhacerunresumendenomsde100palabrasdeun conjunto de 10 documentos de un determinado tema y cada tema pertenece a unacategora determinada, cada categora cubre varios aspectos y dichos aspectos debenencontrarseenelresumen(TAC,2010).EnelcasodeAESOP,latareaconsisteenvalorarautomticamente resmenes para una mtrica dada. Para obtener ms informacin alrespectoconsltese(TAC,2010).Paralaevaluacindelosresmenesdirigidos,elInstitutoNacional de Estndares y Tecnologa (National Institute of Standards ant Technology[NIST])valoramanualmenteelcontenidosiguiendoelmtodopiramidal1delaUniversidaddeColumbia,lalegibilidadylafluidez,ysensibilidadglobaldelresumen.

    1 Unapirmideesunmodeloqueprediceladistribucindelcontenidodelainformacinenlosresmenestalycomosereflejaenlosresmenesescritosporhumanos.Paramsinformacinconslteselasiguientereferencia:http://www1.cs.columbia.edu/~becky/DUC2006/bibliography.html

    16

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    5.Trabajofuturo

    Yadesdesutrabajode1998,SparkJones(1998)estableceunmarcoparaelestudiodelosfactoresqueintervienenalahoradegenerarunresumen.Insisteen,yrevisa,dichosfactoresensutrabajode2007(SparkJones,2007a).Anadadehoy,muchosdelosprototiposysistemasquevenla luzno tienenencuenta todosestosfactores, aunquealgunosdeellossi queincorporanalgunosendiferentesetapasdelageneracindelosresmenes,perodemaneramuylimitada.Seconsiderantresgrandesfamiliasdefactoresdecontexto:deentrada,depropsitoydesalida:

    Factoresdeentrada: Forma

    Idioma Registro Medio Estructura Gnero Extensin

    Temtica Unidades Autor Metadatos

    Factoresdepropsito Uso Audiencia Envoltura

    Momento Ubicacin Formalidad Destinatario

    Factoresdesalida Material

    Cobertura Condensacin Derivacin Especialidad

    Estilo Forma

    Idioma Registro Medio Estructura Gnero

    Estosfactoreshandetenerseencuentaenunfuturocercanotantoenlosmtodospararesumirautomticamentecomoenlaevaluacindelosmismos.

    Es posible que los mtodos estadsticos estn llegando al punto en el que se requieredemasiadoesfuerzoparaobtenermejorasnimiasenlosresultados.Losmtodoshbridosqueaunanmtodosestadsticosysimblicosdanmejoresresultados.Estopareceindicarqueserequieredelaincorporacindeanlisislingsticosmsprofundos.Sedebeportantoavanzarhaciaestrategiasmsambiciosasqueexplotenlainformacinsemnticaydeldiscurso.

    Hastaelmomentolosmtodosabstractivosnohantenidogranxitodebidoasuspobresresultados.Estonoquieredecirquehayaqueabandonarestalneadeinvestigacin.Elavanceentcnicasdecomprensindeltextoseguramenteinfluyasignificativamenteenelprogresodeestastcnicasalargoplazo.

    Demomento,dadoelaugedelastcnicasextractivasehbridas,parecerazonablehacerespecial hincapi enlarevisindelresumengeneradousandotcnicasquetenganencuentaelcontexto para mejorar la coherencia. En este momento estas tcnicas son mayoritariamentesuperficiales, habra queaprovechar ms los recursos semnticos que nos ofrecen las bases deconocimientolingisticocomoWordNetoEuroWordNet.

    17

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    6.Conclusiones

    Serainteresantehacerunaclasificacinordenadadelastcnicasdeextraccin.Peroantelamultitud de criterios a valorar, los diferentes mtodos de evaluacin y todos los factores queinfluyenalahoradegenerarunresumenautomtico,estosehaceimposible.AnasMani(2001)haceunarevisindelasventajasydebilidadesdecadaunadelastcnicasextractivas.

    Comoyasehamencionado,losmtodosextractivosofrecenresultadosaceptablescuandolautilidaddelresumengeneradoesgenrica.Sonfcilesdeimplementarysucosteesmuyasumible,tanto computacional como econmicamente. Las caractersticas de ubicacin y palabras claveparecenserengenerallasmsefectivas.Otrascaractersticastambinlosoncuandonoscentramosenungeneroespecfico,perocongranvariabilidadendiferentesdominios.

    Cuando se compara la extraccin y la abstraccin, ms all de que en los mtodosabstractivossemodifiquedealgunamaneraeltextofuente,loimportanteesquellevanacabounaelaboracindetalladayorganizadadelosconceptosdeldocumentofuente.Estorequiereunniveldeentendimiento del texto que de momento no ha dado buenos resultados. Pero esta linea deinvestigacinparecelamsprometedoraalargoplazo.

    Encuantoalaevaluacinsepuededecirquehasidolaimpulsoradelosavancesenelcampodelosresmenesautomticos.Esms,hajugadounpapelfundamentalenelvertiginosoprogresodelastecnologasdeanlisisdellenguaje.Aunqueexistennuevasreasdelageneracinderesmenesautomticosquerequierendenuevosmtodosdeevaluacincomo:resmenesparadispositivos mviles o resmenes usados como consultas para la recuperacin de documentosrelevantes.

    18

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    7.Referenciasbibliogrficas

    Alfonseca,E.&RodrguezP.(2003)."GeneratingExtractswithGeneticAlgorithms",AdvancesInInformationRetrieval,vol.2633,pp.511519.

    Aone, C.; Gorlinsky,J.; Bjornar,L.&Okurowski,M.E.(1999)."ATrainableSummarizerwithKnowledge Aquired fromRobust NLPTechniques", en Mani, I. &Maybury, M., editors,AdvancesinAutomaticTextSummarization,pp.7280,CambridgeMA:MITPress,1999.

    Baldwin,B.;Donaway,R.;Hovy,E.;Liddy,E.;Mani,I.; Marcu,D.;McKeown,K.;Mittal, V.;Moens,M.;Radev,D.;SparckJones,K.;Sundheim,B.;Teufel,S.;Weischedel,R.&White,M.(2000)."AnEvaluationRoadMapforSummarizationResearch"http://wwwnlpir.nist.gov/projects/duc/papers/summarization.roadmap.doc(ltimoacceso:19demayode2010)

    Bellare, K.; Das Sarma, A.; Das Sarma, A.; Loiwal, N.; Mehta, V.; Ramakrishnan, G. &Bhattacharya, P. "Generic Text Summarization using WordNet, http://i.stanford.edu/~anishds/ publications/lrec04/lrec04.ps (ltimoacceso:16demayode2010).

    Brandow,R.;Mitze,K.&Ray,L.(1995)."AutomaticCondensationofElectronicPublicationsbySentenceSelection",InformationProcessing&Management,vol.31,no.5,pp675685.

    Carbonell, J. & Goldstein, J. (1998). "The Use of MMR and Diversitybased Reranking forReordering Documents and Producing Summaries", Proceeding of the 21st Annual InternationalACMSIGIRconferenceonResearchandDevelopmentinInformationRetrieval (SIGIR2001),pp.335336.

    Edmundson,H.P.(1969)."NewMethodsinAutomaticExtracting",JournaloftheAssociationfor ComputingMachinery,vol.16,no.2,pp264285.

    Fattah,M.A.&Ren,F.(2008)."AutomaticTextSummarization",ProceedingsOfWorldAcademyOfScience,EngineeringAndTechnology,vol.27,pp.192195.

    Frutelle,R.P.(1999)."SummarizationofDiagramsinDocuments",enMani,I.&Maybury,M.,editors,AdvancesinAutomaticTextSummarization,pp.403421,CambridgeMA:MITPress,1999.

    Hahn,U.&Mani,I.(2000)."TheChallengesofAutomaticSummarization",IEEEComputer,vol.33,no.11,pp.2936.

    Hovy,E.&Lin,C.Y.(1999)."AutomatedTextSummarizationinSUMMARIST", enMani,I.&Maybury,M.,editors, AdvancesinAutomaticTextSummarization, pp.403421,CambridgeMA:MITPress,1999.

    Kupiec,J.;Pedersen,J.&Vhen,F.(1995)."ATrainableDocumentSummarizer", Proceedingsof the18thACMSIGIRConference,pp.6873.

    Louis,A.&Nenkova,A.(2008)."AutomaticSummaryEvaluationwithoutHumanModels",NotebookPapersandResultsoftheTextAnalysisConference(TAC2008).

    Luhn,H.P.(1958)."TheAutomaticCreationofLiteratureAbstracts", IBMJournalof Research

    19

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    Development, vol. 2, no. 2, pp. 159165. (Reimpresoen Mani, I. &Maybury, M., editors,AdvancesinAutomaticTextSummarization,pp.1521,CambridgeMA:MITPress,1999)

    Mani, I. & Bloedorn, E. (1999). "Summarizing Similarities and Differences Among RelatedDocuments",InformationRetrieval,vol.1,no.1,pp.123.

    Mani,I.;House,D.;Klein,G.;Hirschman,L.;Firmin,T.&Sundheim,B.(1999)."TheTIPSTERSUMMAC Text Summarization Evaluation", Proceedings of the Ninth Conference onEuropeanChapteroftheAssociationForComputationalLinguistics,pp.7785.

    Mani,I.&Maybury,M.editors(1999)."AdvancesinAutomaticTextSummarization",Cambridge:Massachusetts:MITPress.

    Mani,I;Concepcion,K&VanGuilder,L.(2000)."UsingSummarizationforAutomaticBriefingGeneration",EnProceedingsoftheWorkshoponAutomaticSummarization,pp.98108.NewBrunswick,NewJersey:AssociationforComputationalLinguistics.

    Mani,I.(2001)."AutomaticSummarization",Amsterdam:JohnBenjaminsPublishing.

    McCargar,V.(2004)."StatisticalApproachestoAutomaticTextSummarization", BulletinoftheAmericanSocietyforInformationScienceandTechnology.

    Merlino, A. & Maybury, M. (1999). "An Empirical Study of the Optimal Presentation ofMultimediaSummariesofBroadcastNews",enMani,I.&Maybury,M.,editors,Advancesin AutomaticTextSummarization,pp.391401,CambridgeMA:MITPress,1999.

    Minel, J.L.; Nugier, S. &Piat, G. (1997). "How to Appreciate the Quality of Automatic TextSummarization", Proceedings of the ACL/EACL'97 Workshop on Intelligent Scalable Text Summarization, pp. 2530. New Brunswick, New Jersey: Association for ComputationalLinguistics.

    Morris, A.; Kasper, G. &Adams, D. (1992). "The Effects and Limitations of Automatic TextCondensingonReadingComprehensionPerformance",InformationSystemsResearch,vol.3,no.1,pp.1735.

    Myaeng, S.H. & Jang, D.H. (1999). "Development and Evaluation of a StatisticallyBasedDocument Summarization System", en Mani, I. & Maybury, M., editors, Advances in AutomaticTextSummarization,pp.6170,CambridgeMA:MITPress,1999.

    NTCIR2.Proceedings of theSecondNTCIRWorkshopMeetingonEvaluationof ChineseandJapanese Text Retrieval and Text Summarization. (2001) http://research.nii.ac.jp/ntcir/ntcirws2/wsen.html(ltimoacceso:20demayode2010)

    Over, P.; Dang, H. & Harman D. (2007). "DUC in Context", Information Processing &Management,vol.43,no.6,pp.1506.

    Paice, C.D. (1990). "ConstructingLiteratureAbstracts byComputer: TechniquesandPropects",InformationProcessing&Management,vol.26,no.1,pp.171186.

    Pollock, J.J. & Zamora, A. (1975). "Automatic Abstracting Research at Chemical AbstractsService",JournalofChemicalInformationandComputerSciences,vol.14,no.4,pp.226232.

    20

  • Mrquez,V.Resmenesautomticos:enfoqueextractivoyevaluacin.

    Rath,G.J.;Resnick,A.&Savage,T.R.(1961)."TheFormationofAbstractsbytheSelectionofSentences",AmericanDocumentation,vol.2,no.2,pp.139143,(actualmentetituladoJournaloftheAmericanSocietyforInformationScience).

    Salton, G.; Singhal, A.; Mitra M. & Buckley C. (1997). "Automatic Text Structuring andSummarization",InformationProcessing&Management,vol.33,no.2,pp.193207.

    Silla,C.N.;Pappa,G.L.;Freitas,A.A.&Kaestner,C.A.A.(2004)."AutomaticTextSummarizationwithGeneticAlgorithmBasedAttributeSelection", LectureNotesinComputerScience, vol.3315.

    Simakov, D.; Caspi, Y.; Shechtman, E. & Irani, M. (2008). "Summarizing Visual Data UsingBidirectionalSimilarity",enCVPR,IEEEComputerSociety.

    Sparck Jones, K. (1998). "Automatic Summarizing: Factors and Directions", en Mani, I. &Maybury,M.,editors,AdvancesinAutomaticTextSummarization,pp.112,CambridgeMA:MITPress,1999.

    SparckJones,K.(2007)."AutomaticSummarising:TheStateoftheArt",InformationProcessing&Management,vol.43,no.6,pp.1449.(2007a)

    SparckJones,K.(2007)."AutomaticSummarising:AReviewandDiscussionoftheStateoftheArt",TechnicalReport679,ComputerLaboratory,UniversityofCambridge.(2007b)

    TAC(2010)."TAC2010SummarizationTrack",TextAnalysisConference.http://www.nist.gov/tac/2010/ Summarization/index.html

    Tombros,A.&Sanderson,M.(1998)."AdvantagesofQueryBiasedSummariesInInformationRetrieval",Proceedingsofthe21stInternationalConferenceonResearchandDevelopmentin InformationRetrieval(SIGIR'98),pp.210.NewYork:AssociationforComputingMachinery.

    Young, S.R. & Hayes, P.J. (1985). "Automatic Classification and Summarisation of BankingTelexes",Proceedings,SecondConferenceonArtificialIntelligenceApplications,pp.402408.NewYork,NY:InstituteofElectricalandElectronicsEngineers,1985.

    21