Zientziaanitz Ieb

28
ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko web-bilatzailea Xabier Saralegi eta Maddalen Lopez de Lacalle Elhuyar I+G taldea

Transcript of Zientziaanitz Ieb

Page 1: Zientziaanitz Ieb

ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko

web-bilatzailea

Xabier Saralegi eta Maddalen Lopez de LacalleElhuyar I+G taldea

Page 2: Zientziaanitz Ieb

ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko

web-bilatzailea

• Motibazioa• CLIRen beharra• CLIRen erronkak• ZientziaAnitz-en arkitektura• ZientziaAnitz-en teknologia• Ebaluazioa• Ondorioak eta etorkizuneko lanak

Page 3: Zientziaanitz Ieb

ZientziaAnitz: Motibazioa

• Interneten Zientzia eta teknologiako albiste asko baina sakabanatuta

• Ingelesa nagusi baina ez esparru guztietan (Adib. dibulgazioa)

• Erabiltzaile euskaldunak ama hizkuntzan bilatu nahi du

• Honen gainean dagoen teknologia nagusia: CLIR (Cross-lingual information retrieval)

Page 4: Zientziaanitz Ieb

ZientziaAnitz: CLIRen beharra

• Ezagutza partekatzea hizkuntzaren muga gaindituz

• Lingua franca ↔ ama hizkuntza• Bilaketa bakarrean hainbat hizkuntzatako

emaitzak• Bilaketaren emaitza eleaniztunak

antolatzea

Page 5: Zientziaanitz Ieb

ZientziaAnitz: CLIRen erronkak

• Dokumentu esanguratsuak berreskuratzea (IR)–Eredu aljebraikoak (tf-idf), probabilistikoak

(Okapi,Hizkuntza-Ereduak,Indri...)

• Itzulpena: galderak vs edukiak–Galderak laburrak itzulpen-desanbiguazioa →

zaila–Edukiak luzeak itzulpena motela→

–Galdera eta edukiak itzuliz emaitzarik onenak

Page 6: Zientziaanitz Ieb

ZientziaAnitz: CLIRen erronkak

• Itzulpena: MT (Machine Translation) vs MRD (Machine Readable Dictionaries)–MT hizkuntza bikote gutxirako–MT garestiak–Bilaketa/kontsulta asko sintaxirik gabekoak →

MRDa egokiagoa–MRDn itzulpen anbiguoak

Page 7: Zientziaanitz Ieb

ZientziaAnitz: CLIRen erronkak• Itzulpen arazoak:

– Anbiguotasuna (MRD): corpus paraleloak, helburu-hizkuntzako corpusak, syn operadorea• Corpus paraleloak: Itzulpen probabilitateak. Adib.

p(cosecha|uzta)p(cosecha|uzta)>>p(resultado|uzta)p(resultado|uzta)• Helburu-hizkuntzako corpusak: Hautagai-

konbinazioen probabilitateak. Adib. Ozeano bare p(océano,pacífico)>p(océano,tranquilo)

• Syn operadorea: Estatistikak bateratu. Adib. Bioerregai abantaila #syn(biocombustible biocarburante ) #wsyn(ventaja beneficio)

– Out-Of-Vocabulary terminoak: kognatuen detekzioa• Adib. Antza kalkulatuz, LCSR(animali,

animal)>0,85

Page 8: Zientziaanitz Ieb

ZientziaAnitz-en arkitektura eta teknologia

• Web aplikazioa• Moduluak:

–Bilduma osatu:• Arakatzailea: RSS+Kimatu• Indexatzailea: Indri toolkit

–Galderak prozesatu:• Lematizatzailea: Eustagger• Galdera itzultzeko modulua• Berreskuratze-motorra: Indri

Page 9: Zientziaanitz Ieb

ZientziaAnitz-en arkitektura

Page 10: Zientziaanitz Ieb

ZientziaAnitz-en arkitektura

Page 11: Zientziaanitz Ieb

ZientziaAnitz: Arakatzailea

• RSS irakurgailua: RSS bitartez aurretik aukeratutako web-gunetako albiste berriak deskargatu

• Kimatu: Albisteak HTMLn: edukia markatu gabe->Boilerplate removal teknikak erabili behar dira (2. postua CLEANEVAL lehiaketan)

Page 12: Zientziaanitz Ieb

ZientziaAnitz: Arakatzailea

• Adibidea

Page 13: Zientziaanitz Ieb

ZientziaAnitz: Arakatzailea

• Albistearen testu zatiak

Page 14: Zientziaanitz Ieb

ZientziaAnitz: Arakatzailea

• Zarata

Page 15: Zientziaanitz Ieb

ZientziaAnitz-en arkitektura

Page 16: Zientziaanitz Ieb

ZientziaAnitz: Indexatzailea

• Indexatu: Dokumentuetako hitzen ezaugarriak datu-egitura konputagarrien bidez errepresentatu (hitzaren maiztasunak, posizioa, dokumentuaren luzera... )

• Ranking-algoritmoek informazio hau erabiliko dute dokumentu bakoitzarentzat esangura-maila kalkulatzeko

Page 17: Zientziaanitz Ieb

ZientziaAnitz-en arkitektura

Page 18: Zientziaanitz Ieb

ZientziaAnitz: Lematizatzailea

• Eustagger: Ixak garatutako lematizatzailea

• Gako-hitzak erauzi: Izenak, adjektiboak, aditzak eta adberbioak

Adib: ”Baleak ehizatzea debekatuta dagoen Antarktikako erreserbak”/<Baleak>/<HAS_MAI>/ ("balea" IZE ARR DEK ABS NUMP MUGM )/<ehizatzea>/ ("ehizatu" ADI SIN AMM ADIZE DEK ABS NUMS MUGM )/<debekatuta>/ ("debekatu" ADI SIN AMM PART ERL MEN MOD)/<dagoen>/ ("egon" ADT A1 NR_HU ERL MEN ZHG)/<Antarktikako>/<HAS_MAI>/ ("Antarktika" IZE LIB PLU- DEK NUMS MUGM DEK GEL )/<erreserbak>/ ("erreserba" IZE ARR DEK ABS NUMP MUGM )

Page 19: Zientziaanitz Ieb

ZientziaAnitz-en arkitektura

Page 20: Zientziaanitz Ieb

ZientziaAnitz: Galdera itzuli

• MRD: Elhuyar hiztegiak (eu-es,eu-en)• Hitz ezezagunak (OOV): kognatuen

detekzioa• Itzulpen anbiguoak:

–Galdera egituratuak• Kontsultako hitz baten itzulpen-hautagai guztiak

multzokatu eta token bakarra bezala tratatzen dira. Pirkolaren metodoa (Pirkola, 1998)

–Konkurrentziak• Ideia nagusia: itzulpen egokien arteko elkartze-

maila beste itzulpenen artekoa baino handiagoa da. NP hard → Greedy algoritmoa (Monz eta Dorr, 2005)

Page 21: Zientziaanitz Ieb

ZientziaAnitz: Galdera itzuli

• Adibidea– Jatorrizko galdera (lemak): balea ehiza

debekatu erreserba Antarktika –Galdera egituratua:

• whale #syn(game hunting prey) #syn(forbid forbidden #1(stave off) prevent prohibit ) #syn(reservation reserve) antarctic

–konkurrentziak• whale hunting prohibit reserve antarctic

– game:0.732299 -- hunting:1 -- prey:0.690568

Page 22: Zientziaanitz Ieb

ZientziaAnitz-en arkitektura

Page 23: Zientziaanitz Ieb

ZientziaAnitz: Berreskurapena

• Bilaketa-motorra: Erabiltzailearen kontsultak prozesatzen dituena. Metodo baten araberako rankingean bueltatzen ditu galderarekin bat datozen dokumentuak. – Indri eredua

• Hizkuntza-ereduak eta inferentzia sareak konbinatzen ditu.

• Galdera egituratuak onartzen ditu

Page 24: Zientziaanitz Ieb

ZientziaAnitz: Demoa

Page 25: Zientziaanitz Ieb

Ebaluaketa

• Metodoak: syn (Pirkola), konkurrentziak (Monz and Dorr)

• CLEF bilduma eta galderak• MAP

–Kontsulta motzak• elebakarra: 0,3176 - hizkuntz artekoa: 0,2404

%76

–Kontsulta luzeak• elebakarra: 0,3778 - hizkuntz artekoa: 0,2960

%78

Page 26: Zientziaanitz Ieb

Ebaluaketa: Emaitzak

• (Saralegi and Lopez de Lacalle, 2009)Exekuzioa Motzak (MAP) Luzeak (MAP)

Elebakarra 0,3176 0,3778

Hiztegiko lehena 0,2118 0,2500

Galdera egituratua 0,2359 0,2960

konkurrentziak 0,2338 0,2725

Hibridoa 0,2371 0,2941

Hibridoa+Atalasea 0,2404 0,2920

Page 27: Zientziaanitz Ieb

Ondorioak eta etorkizuneko lanak

• Zientzia eta Teknologia alorrerako bilatzaile bat euskera integratzen duena

• Galdera egituratuak emaitzarik onena• Web zerbitzua laster kaleratzea• Beste hizkuntza batzuk integratzea• Itzulpen-prozesua hobetzea• Galderaren hedapena

Page 28: Zientziaanitz Ieb

Erreferentziak

• Christof Monz, Bonnie J. Dorr. Iterative Translation Disambiguation for Cross-Language Information Retrieval. (SIGIR 2005)

• Ari Pirkola. The Effects of Structured and Dictionary Setups in Dictionary-Based Cross-language Information Retrieval. (SIGIR 1998)

• Xabier Saralegi, Maddalen Lopez de Lacalle. Comparing different approaches to treat Translation Ambiguity in CLIR: Structured Queries vs. Target Co-occurrence-Based Selection. (TIR 2009)