Zientziaanitz Ieb

Post on 22-Jan-2018

511 views 1 download

Transcript of Zientziaanitz Ieb

ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko

web-bilatzailea

Xabier Saralegi eta Maddalen Lopez de LacalleElhuyar I+G taldea

ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko

web-bilatzailea

• Motibazioa• CLIRen beharra• CLIRen erronkak• ZientziaAnitz-en arkitektura• ZientziaAnitz-en teknologia• Ebaluazioa• Ondorioak eta etorkizuneko lanak

ZientziaAnitz: Motibazioa

• Interneten Zientzia eta teknologiako albiste asko baina sakabanatuta

• Ingelesa nagusi baina ez esparru guztietan (Adib. dibulgazioa)

• Erabiltzaile euskaldunak ama hizkuntzan bilatu nahi du

• Honen gainean dagoen teknologia nagusia: CLIR (Cross-lingual information retrieval)

ZientziaAnitz: CLIRen beharra

• Ezagutza partekatzea hizkuntzaren muga gaindituz

• Lingua franca ↔ ama hizkuntza• Bilaketa bakarrean hainbat hizkuntzatako

emaitzak• Bilaketaren emaitza eleaniztunak

antolatzea

ZientziaAnitz: CLIRen erronkak

• Dokumentu esanguratsuak berreskuratzea (IR)–Eredu aljebraikoak (tf-idf), probabilistikoak

(Okapi,Hizkuntza-Ereduak,Indri...)

• Itzulpena: galderak vs edukiak–Galderak laburrak itzulpen-desanbiguazioa →

zaila–Edukiak luzeak itzulpena motela→

–Galdera eta edukiak itzuliz emaitzarik onenak

ZientziaAnitz: CLIRen erronkak

• Itzulpena: MT (Machine Translation) vs MRD (Machine Readable Dictionaries)–MT hizkuntza bikote gutxirako–MT garestiak–Bilaketa/kontsulta asko sintaxirik gabekoak →

MRDa egokiagoa–MRDn itzulpen anbiguoak

ZientziaAnitz: CLIRen erronkak• Itzulpen arazoak:

– Anbiguotasuna (MRD): corpus paraleloak, helburu-hizkuntzako corpusak, syn operadorea• Corpus paraleloak: Itzulpen probabilitateak. Adib.

p(cosecha|uzta)p(cosecha|uzta)>>p(resultado|uzta)p(resultado|uzta)• Helburu-hizkuntzako corpusak: Hautagai-

konbinazioen probabilitateak. Adib. Ozeano bare p(océano,pacífico)>p(océano,tranquilo)

• Syn operadorea: Estatistikak bateratu. Adib. Bioerregai abantaila #syn(biocombustible biocarburante ) #wsyn(ventaja beneficio)

– Out-Of-Vocabulary terminoak: kognatuen detekzioa• Adib. Antza kalkulatuz, LCSR(animali,

animal)>0,85

ZientziaAnitz-en arkitektura eta teknologia

• Web aplikazioa• Moduluak:

–Bilduma osatu:• Arakatzailea: RSS+Kimatu• Indexatzailea: Indri toolkit

–Galderak prozesatu:• Lematizatzailea: Eustagger• Galdera itzultzeko modulua• Berreskuratze-motorra: Indri

ZientziaAnitz-en arkitektura

ZientziaAnitz-en arkitektura

ZientziaAnitz: Arakatzailea

• RSS irakurgailua: RSS bitartez aurretik aukeratutako web-gunetako albiste berriak deskargatu

• Kimatu: Albisteak HTMLn: edukia markatu gabe->Boilerplate removal teknikak erabili behar dira (2. postua CLEANEVAL lehiaketan)

ZientziaAnitz: Arakatzailea

• Adibidea

ZientziaAnitz: Arakatzailea

• Albistearen testu zatiak

ZientziaAnitz: Arakatzailea

• Zarata

ZientziaAnitz-en arkitektura

ZientziaAnitz: Indexatzailea

• Indexatu: Dokumentuetako hitzen ezaugarriak datu-egitura konputagarrien bidez errepresentatu (hitzaren maiztasunak, posizioa, dokumentuaren luzera... )

• Ranking-algoritmoek informazio hau erabiliko dute dokumentu bakoitzarentzat esangura-maila kalkulatzeko

ZientziaAnitz-en arkitektura

ZientziaAnitz: Lematizatzailea

• Eustagger: Ixak garatutako lematizatzailea

• Gako-hitzak erauzi: Izenak, adjektiboak, aditzak eta adberbioak

Adib: ”Baleak ehizatzea debekatuta dagoen Antarktikako erreserbak”/<Baleak>/<HAS_MAI>/ ("balea" IZE ARR DEK ABS NUMP MUGM )/<ehizatzea>/ ("ehizatu" ADI SIN AMM ADIZE DEK ABS NUMS MUGM )/<debekatuta>/ ("debekatu" ADI SIN AMM PART ERL MEN MOD)/<dagoen>/ ("egon" ADT A1 NR_HU ERL MEN ZHG)/<Antarktikako>/<HAS_MAI>/ ("Antarktika" IZE LIB PLU- DEK NUMS MUGM DEK GEL )/<erreserbak>/ ("erreserba" IZE ARR DEK ABS NUMP MUGM )

ZientziaAnitz-en arkitektura

ZientziaAnitz: Galdera itzuli

• MRD: Elhuyar hiztegiak (eu-es,eu-en)• Hitz ezezagunak (OOV): kognatuen

detekzioa• Itzulpen anbiguoak:

–Galdera egituratuak• Kontsultako hitz baten itzulpen-hautagai guztiak

multzokatu eta token bakarra bezala tratatzen dira. Pirkolaren metodoa (Pirkola, 1998)

–Konkurrentziak• Ideia nagusia: itzulpen egokien arteko elkartze-

maila beste itzulpenen artekoa baino handiagoa da. NP hard → Greedy algoritmoa (Monz eta Dorr, 2005)

ZientziaAnitz: Galdera itzuli

• Adibidea– Jatorrizko galdera (lemak): balea ehiza

debekatu erreserba Antarktika –Galdera egituratua:

• whale #syn(game hunting prey) #syn(forbid forbidden #1(stave off) prevent prohibit ) #syn(reservation reserve) antarctic

–konkurrentziak• whale hunting prohibit reserve antarctic

– game:0.732299 -- hunting:1 -- prey:0.690568

ZientziaAnitz-en arkitektura

ZientziaAnitz: Berreskurapena

• Bilaketa-motorra: Erabiltzailearen kontsultak prozesatzen dituena. Metodo baten araberako rankingean bueltatzen ditu galderarekin bat datozen dokumentuak. – Indri eredua

• Hizkuntza-ereduak eta inferentzia sareak konbinatzen ditu.

• Galdera egituratuak onartzen ditu

ZientziaAnitz: Demoa

Ebaluaketa

• Metodoak: syn (Pirkola), konkurrentziak (Monz and Dorr)

• CLEF bilduma eta galderak• MAP

–Kontsulta motzak• elebakarra: 0,3176 - hizkuntz artekoa: 0,2404

%76

–Kontsulta luzeak• elebakarra: 0,3778 - hizkuntz artekoa: 0,2960

%78

Ebaluaketa: Emaitzak

• (Saralegi and Lopez de Lacalle, 2009)Exekuzioa Motzak (MAP) Luzeak (MAP)

Elebakarra 0,3176 0,3778

Hiztegiko lehena 0,2118 0,2500

Galdera egituratua 0,2359 0,2960

konkurrentziak 0,2338 0,2725

Hibridoa 0,2371 0,2941

Hibridoa+Atalasea 0,2404 0,2920

Ondorioak eta etorkizuneko lanak

• Zientzia eta Teknologia alorrerako bilatzaile bat euskera integratzen duena

• Galdera egituratuak emaitzarik onena• Web zerbitzua laster kaleratzea• Beste hizkuntza batzuk integratzea• Itzulpen-prozesua hobetzea• Galderaren hedapena

Erreferentziak

• Christof Monz, Bonnie J. Dorr. Iterative Translation Disambiguation for Cross-Language Information Retrieval. (SIGIR 2005)

• Ari Pirkola. The Effects of Structured and Dictionary Setups in Dictionary-Based Cross-language Information Retrieval. (SIGIR 1998)

• Xabier Saralegi, Maddalen Lopez de Lacalle. Comparing different approaches to treat Translation Ambiguity in CLIR: Structured Queries vs. Target Co-occurrence-Based Selection. (TIR 2009)