Etiketa-lainoen Ikuskera Hobetzeko MultzokatzeaInformatikari Euskaldunen Bilkura ’09
Arkaitz ZubiagaAlberto P. Garcıa-Plaza
Vıctor FresnoRaquel Martınez
NLP & IR Group @ UNED
2009ko maiatzaren 7a
Sarrera
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 2 / 26
Sarrera
Etiketatze sinplea
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 3 / 26
Sarrera
Elkarlanean etiketatzea
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 4 / 26
Sarrera
Etiketa-lainoa
Antolaketa eza.
3 etiketa mota ezberdindu ohi dira:
Gaiari lotutako etiketak: programming.Etiketa subjektiboak: interesting.Etiketa pertsonalak: toread.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26
Sarrera
Etiketa-lainoa
Antolaketa eza.
3 etiketa mota ezberdindu ohi dira:
Gaiari lotutako etiketak: programming.Etiketa subjektiboak: interesting.Etiketa pertsonalak: toread.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26
Sarrera
Etiketa-lainoa
Antolaketa eza.
3 etiketa mota ezberdindu ohi dira:
Gaiari lotutako etiketak: programming.Etiketa subjektiboak: interesting.Etiketa pertsonalak: toread.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26
Sarrera
Motibazioa
Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberakomultzokatzea. Ondorioz:
Ikuskera eta bilaketa erraztea.Modu errazean lotuta dauden etiketetara harpidetzea.
Aurreko lan batzuek etiketak batera agertzearen arabera egin dutehau.
Edukia kontuan hartu nahi dugu guk.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
Sarrera
Motibazioa
Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberakomultzokatzea. Ondorioz:
Ikuskera eta bilaketa erraztea.
Modu errazean lotuta dauden etiketetara harpidetzea.
Aurreko lan batzuek etiketak batera agertzearen arabera egin dutehau.
Edukia kontuan hartu nahi dugu guk.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
Sarrera
Motibazioa
Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberakomultzokatzea. Ondorioz:
Ikuskera eta bilaketa erraztea.Modu errazean lotuta dauden etiketetara harpidetzea.
Aurreko lan batzuek etiketak batera agertzearen arabera egin dutehau.
Edukia kontuan hartu nahi dugu guk.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
Sarrera
Motibazioa
Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberakomultzokatzea. Ondorioz:
Ikuskera eta bilaketa erraztea.Modu errazean lotuta dauden etiketetara harpidetzea.
Aurreko lan batzuek etiketak batera agertzearen arabera egin dutehau.
Edukia kontuan hartu nahi dugu guk.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26
Datuak Eskuratzea
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 7 / 26
Datuak Eskuratzea
Datuak eskuratzea
Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,etiketa-lainoa).
Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,html eta pdf).
Datuak jaistea:
Dokumentu bakoitzaren etiketa-informazioa.Web dokumentuen edukia jaistea.
Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.
Emaitza: 144.574 dokumentu (balantzatu gabea).
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
Datuak Eskuratzea
Datuak eskuratzea
Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,etiketa-lainoa).
Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,html eta pdf).
Datuak jaistea:
Dokumentu bakoitzaren etiketa-informazioa.Web dokumentuen edukia jaistea.
Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.
Emaitza: 144.574 dokumentu (balantzatu gabea).
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
Datuak Eskuratzea
Datuak eskuratzea
Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,etiketa-lainoa).
Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,html eta pdf).
Datuak jaistea:
Dokumentu bakoitzaren etiketa-informazioa.Web dokumentuen edukia jaistea.
Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.
Emaitza: 144.574 dokumentu (balantzatu gabea).
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
Datuak Eskuratzea
Datuak eskuratzea
Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,etiketa-lainoa).
Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,html eta pdf).
Datuak jaistea:
Dokumentu bakoitzaren etiketa-informazioa.Web dokumentuen edukia jaistea.
Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.
Emaitza: 144.574 dokumentu (balantzatu gabea).
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
Datuak Eskuratzea
Datuak eskuratzea
Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,etiketa-lainoa).
Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,html eta pdf).
Datuak jaistea:
Dokumentu bakoitzaren etiketa-informazioa.Web dokumentuen edukia jaistea.
Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.
Emaitza: 144.574 dokumentu (balantzatu gabea).
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26
Proposatutako Metodoa
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 9 / 26
Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Hitz hutsak.
Stemming.
TF-IDF (DF bidez moztuz).
1 bektore/etiketa.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Hitz hutsak.
Stemming.
TF-IDF (DF bidez moztuz).
1 bektore/etiketa.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Hitz hutsak.
Stemming.
TF-IDF (DF bidez moztuz).
1 bektore/etiketa.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Hitz hutsak.
Stemming.
TF-IDF (DF bidez moztuz).
1 bektore/etiketa.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Hitz hutsak.
Stemming.
TF-IDF (DF bidez moztuz).
1 bektore/etiketa.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
Proposatutako Metodoa
Adierazpena
Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez
Etiketa bakoitzeko dokumentuak bakarrean batzea.
Hitz hutsak.
Stemming.
TF-IDF (DF bidez moztuz).
1 bektore/etiketa.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26
Proposatutako Metodoa
Multzokatzea (SOM)
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 11 / 26
Proposatutako Metodoa
Multzokatzearen konfigurazioa
12x12ko mapa: 144 multzo.
17.518 dimentsiotako bektoreak.
Ikasketa-tasa: 0,1.
Mugakidetasuna: 12.
Iterazioak: 50.000.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 12 / 26
Proposatutako Metodoa
Terminologia erauztea
Multzo bakoitzeko dokumentuak bateratu.
Multzo bakoitzeko terminologia erauzi.
Esanguratsua multzoan, baina ez gainontzekoetan.Lengoaia-ereduak (KLD, Kullback-Leibler Divergence).
Emaitza: Multzo bakoitzeko termino esanguratsuak.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 13 / 26
Emaitzak
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 14 / 26
Emaitzak
Emaitzak
Mapa osoa ikusteko: http://nlp.uned.es/social-tagging/
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 15 / 26
Emaitzak
Emaitzak: Informatika
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 16 / 26
Emaitzak
Emaitzak: Diseinua
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 17 / 26
Emaitzak
Emaitzak: Sukaldaritza
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 18 / 26
Emaitzak
Emaitzak: Koherentzia
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 19 / 26
Emaitzak
Emaitzak: Terminologia
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 20 / 26
Ondorioak
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 21 / 26
Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.
Komunitateak aurkitzea ahalbidetzen du.
Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.
Komunitateak aurkitzea ahalbidetzen du.
Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.
Komunitateak aurkitzea ahalbidetzen du.
Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.
Komunitateak aurkitzea ahalbidetzen du.
Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.
Komunitateak aurkitzea ahalbidetzen du.
Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
Ondorioak
Ondorioak
Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.
Datu-sorta eskuratu dugu.
Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.
Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.
Komunitateak aurkitzea ahalbidetzen du.
Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26
Etorkizunerako Ildoak
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 23 / 26
Etorkizunerako Ildoak
Etorkizunerako Ildoak
Gure metodoa etiketak batera agertzearen araberakoekin alderatu.
Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?).
Ingurune eleanitzetara egokitu.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26
Etorkizunerako Ildoak
Etorkizunerako Ildoak
Gure metodoa etiketak batera agertzearen araberakoekin alderatu.
Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?).
Ingurune eleanitzetara egokitu.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26
Etorkizunerako Ildoak
Etorkizunerako Ildoak
Gure metodoa etiketak batera agertzearen araberakoekin alderatu.
Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?).
Ingurune eleanitzetara egokitu.
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26
Eskerrak
Aurkibidea
1 Sarrera
2 Datuak Eskuratzea
3 Proposatutako Metodoa
4 Emaitzak
5 Ondorioak
6 Etorkizunerako Ildoak
7 Eskerrak
Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 25 / 26
Top Related