Post on 15-Aug-2015
2
AURKIBIDEA (Orrialdera joateko izenburuan klikatu)
1. SARRERA ................................................................................................... 3
a. Google Empresa ....................................................................................... 3
b. Google Bilatzailea ..................................................................................... 3
2. FUNTZIONAMENDUA ................................................................................. 4
a. Bilatzailea ................................................................................................. 4
b. Miaketa ..................................................................................................... 6
c. Indexazioa ................................................................................................ 7
d. Algoritmoak............................................................................................... 7
e. Spam-a ..................................................................................................... 8
3. Konklusioa ................................................................................................. 10
4. Bibliografia ................................................................................................. 11
5. ERANSKINAK ............................................................................................ 12
a. Bilatzailearen funtzionamendua.............................................................. 12
3
1. SARRERA
a. Google Empresa
Google Inc enpresaren marka bat da. 1998ko irailean izan zen zabaldua
Larry Page eta Sergey Brin-em eskutik, garai hartan Stanfordeko
Unibertsitateko Konputazio Zientzietako ikasleak. Izenaren jatorria beraz,
zientzia arlotik atera zuten, matematikaren alorretik hain zuzen ere. Izan ere,
Google izenaik oinarrian Googol du. Googol zenbaki zehatz bat da, zeina bat
digitua 100 zeroz jarraituta dagoen. Hau da, era matematikoan 10100 (hamar ber
ehun) den. (informazio gehiagorako klikatu hemen).
Beraien produktu nagusia mundu osoan zehar ezaguna eta oso
estilizatua den Google bilatzailea da, baina Google Inc-ek askoz produktu
gehiago eskaintzen dizkigu erabiltzaileoi. Google Maps, gmail, Google Chrome
eta Android izan daitezke agian ezagunenak, baina badira beste asko.
b. Google Bilatzailea
Bilatzaileak 30 miloi miloi (30.000.000.000.000) web orri batzen ditu, 100
milioi gigabytes kontrolatzen ditu. Hilabetero 100.000 milioi bilaketa egiten dira
bilatzaile honetan eta zenbakia handitzen dihoa. “Crawling” (orri guztietatik
mugitzen da) bidez bereizi eta ordenatzen duten material guztia. Atari
bakoitzeko jabeek erabaki dezakete haien edukia arakatu daitekeen.
Bilatzaileak, formula matematikoen bidez, orriak edukia eta beste faktore
batzuen arabera antolatzen ditu, emaitza onena lortzeko helburuarekin.
Algoritmo horiek jartzen dute martxan bilatzailea, erabiltzaileak bilatu nahi
duena aurkitzeko. Horretarako, akats ortografikoak, “autocompletado” edo
bilaketa alternatiboen proportzioak kontuan hartzen ditu, besteak beste.
Hau guztia kontuan hartu ondoren, emaitzak agertzen dira (200.000 aldagai
erabiltzearen ondorioz). Hala ere, algoritmoak aldatzen doa eta hau Googleko
ingenieroek aldatzen dituzte.
Bestalde, beste ezaugarri batzuk ditu Gooogle bilatzaileak:
1. Klima ezagutu daiteke
2. Burtsaren egoera jakiteko aukera
3. Munduko edozein tokiko ordua
4
4. Kirol emaitzak
5. Unitateen konbertsioa (luzerak adb.)
6. Txanponen konbertsioa
7. Hiztegia
2. FUNTZIONAMENDUA
a. Bilatzailea
Google bilatzea, bilaketa motor bat da google Inc. propietatearena.
Bilatzaile nagusiena da munduan egunero milaka bisita jasotzen ditu. Bilatzaile
honek internet guztiko datuak hartzen
ditu. Gaur egun, hizkuntza askotan
dago bilatzea: txinua, euskara,
ingelesa, gaztelania, frantzesa,
holandesa, japoniarra beste askoren
artean. Egun, google da munduko
base datu handiena.
Googlek jarritako hitzen inguruko orrietara eramaten dizu, beste
bilatzaileekin konparatuta. Honek, zuzenean testuetara eramaten zaitu edo
bestela LINK batzuetara orriarekin erlazionatua dagoela. Google bilatzaileak ez
zaitu bakarrik eramaten jarritako kontenituetara bakarrik. Web orri barrutako
kontenitua aztertu eta antzekotasuna badaukate, bertara eraman zaitezkete.
Googlek garrantzia ematen dio, bilaketaren terminoen antzekotasunei. Beste
bilatzaileen aldean Googlek ez ditu laburpenak egiten, egindako kontsulten
inguruan hartzen ditu testuak.
Googlek datuak memoria ``cache´´ batean gordetzen ditu. Era honetan,
erabiltzaileak datu horietara iristeko aukera izan dezake seguritate kopia
bezala. Honela, bilatzerakoan orduan serbidoreak huts egiten badu
segurtasuneko kopia erabil dezakezu.
Funtzionamendua azaltzeko era sinplea hau da, bilatu nahi dugunaren
inguruan hitz deskritbo batzuk jarri behar ditugu eta sartu teklari sakatu behar
diogu, emaitzak bilatzeko orduan. Googlrk bilatzen ditu web orriak jarritako
hitzekin antzekotasuna dutenak bakarrik.
5
AND kontsulta automatikoak,
Googlek hitzen artean AND
hitza erabiltzerakoan, bakarrik
bi hitzak (edo daudenak)
dituzten webguneak bakarrik
agertzen ditu.
OR erabileraren inguruan,
bilatzerakoan hitzen artean OR
erabiltzerakoan, Googlek hitz
bate do beste dituen
dokumentuak bakarri agertzen
ditu.
Pagerank aztertzerako orduan, Googlek bilakaterako orduan, sartutako
hitzekin dauden orrialde denak, era batera edo bestera antolatu behar ditu.
Googlek honela antolatzen ditu web orri hauek, link kopuruen arabera, link
gehiena dituena lehena azalduko da eta orden honetan joango dira beste
guztiak, linkak agertzen dira, web orri batek bere linka bestearenean jartzen
duenean eta zenbait eta gehiago izan hobeto.
Google bilatzaileak gutxienez 22 karakteristika berezi hitz bakoitzeko,
honek sinonimoak,
prebisio meteorilogiko
eta antzerakoak
azaltzen ditu. Zenbakiak
ere modu ezberdin
atean antolatzen ditu
google bilatzaileak,
interbaloen arabera, 70…73 prezioak, 10,5… temperatura…
(Bilatzailaren inguruko buruz gehiago jakiteko, hemen klik egin)
6
b. Miaketa
Google-k “web miatzailea” bezala ezaguna den softwarea erabiltzen du
jabetza publikoa duten web orrialdeak aurkitzeko. Miatzaile ezagunena
“Googlebot” da. Miatzaileak web orrialdeak eta hauetan azaltzen diren estekak
kontsultatzen dituzte, beste edozein erabiltzailek Web-eko edukietan
nabigatzerakoan egingo luken bezalaxe. Esteka batetik bestera igarotzen dira
eta Google-ko erabiltzaileei eskaintzen zaizkien web orrialde horiei buruzko
datuak biltzen dituzte.
Miaketa prozesua aurretik eginiko miaketetan erabilitako web orrialdeen
eta webguneen jabeek hornituriko “sitemaps”aren zerrenda batekin hasten da.
Webgune hauetara sartzean Googleko miatzaileek estekak bilatzen dizkiete
beste orrialde batzuei honela hauei bisitatu ahal izateko.Softwareak arreta
berezia eskaintzen die gune berriei, egungo guneetan dauden berriei eta ez
aktibo dauden estekei.
Programa informatikoek zehazten dituzte miatu beharreko guneak,
hauek nolako maiztasunarekin miatu eta gune bakoitzean miatu beharreko orri
kopuru zein den. Googlek ez du ordainketarik onartzen gune bat maiztasun
handiagoarekin miatzeko. Gehiago kezkatzen dira ahalik eta emaitz onenak
ateratzen.Izan ere, etorkizun hurbil baterako onena izango baita; bai google-
entzat eta bai bere erabiltzaileentzat ere.
Webgune gehienek ez dute murrizketarik ezarri beharrik miatzeko,
indexatzeko edo edukia argitaratzeko. Beraz, beren orrialdeak bilatzaileko
emaitzetan azal daitezke. Hau esanda, guneetako nagusiek aukera asko dituzte
Google-k bere guneak nola miatzen eta indexatzen dituen jakiteko Googleko
webmasters-entzako lanabesen eta “robots.txt” izeneko fitxategiaren bitartez.
Fitxategi honekin, guneetako nagusiek adierazi dezakete nahiago dutela
Googlebot-ek bere guneak ez miatzea edo bere guneetako orrialdeak
prozesatzeko argibideak ematea.
Guneetako nagusiek miatutako orrialdearen arabera edukia indexatzeko
aukera dute. Adibidez, beraien orrialdeak textuko zatirik gabe azaltzeko aukera
dute( bilatzaileko emaitzetan izenburuaren azpian azaltzen den orrialdearen
7
laburpena) edo miaketa prozesuan dagoen bertsioa (Googleko zerbitzarian
gordetako txandakatze bertsioa, argitaraturiko orrialdea erabiltzeko moduan ez
dagoen unerako). Halaber, webmasters-ak beren orrialdeetan bilaketa
bertakotzeko aukera izan dezake Googleko bilaketa pertsonalizatuaren bitartez.
c. Indexazioa
Web-a milaka liburu dituen eta geroz eta handiagoa den liburutegi
publiko baten modukoa da, artxibo sistemarik gabea. Laburbilduz, Googlek
orrialdeak biltzen ditu miaketa prozesua ematen den artean; eta ondoren,
aurkibide bat sortzen du. Beraz, badakigu zehazki non aurkitu behar dugun.
Liburu baten amaierako aurkibide baten modu berdinean, Googleko aurkibideak
barne hartzen ditu hitzen eta hauek azaltzen diren tokien informazioa.
Oinarrizko maila batean bilaketa bat egiten denean, orrialde egokienak
aurkitzeko gure algoritmoek kontsulta terminoak bilatzen dituzte aurkibidean.
Une honetatik aurrera bilaketa prozesua askoz ere zailagoa bihurtzen da.
Izan ere, “katu” hitza bilatzerakoan ez dugu nahi izaten “katu” hitza ehundaka
aldiz egotea. Gure helburua irudiak, bideoak edo arrazen zerrendak aurkitzea
izango da ziur aski. Googleko indexazio sistemek orrialdeen alderdi ezberdinak
hartzen dituzte kontuan, adibidez: noiz izan den argitaratua, irudi edo bideorik
duten etab. Ezagutza grafikoak hitz klabeen arteko komunztadura baino
haratago joaten uzten digu pertsona,leku edota intereseko gauzak hobeto
ulertzeko.
d. Algoritmoak
Googlek bi algoritmo erabiltzen ditu bilaketa egiterakoan: lehenik
garrantzia algoritmoa (“algoritmo de relevancia”) erabiltzen du eta PageRank
algoritmoa ondoren.
Garrantzi algoritmoaren bidez, Google-k bilatzen diren hitzekin
erlazionatuak dauden orriak aurkitzen ditu. Horretarako, bilatzen diren hitzak
web orri batean non eta zenbat aldiz agertzen diren aztertzen du. Analisi hau
“hitz gakoen dentsitatea” kalkulatuz egiten da (orrian dauden hitz gako kopurua,
orriko hitz kopuruarekin zatituz; ehunekotan adierazten da). Beraz, dentsitatea
8
handia bada, emaitza onak lortuko dira (hala ere, handiegia bada, bilatzaileak
orria zigortzen du). Gainera, hitz guztiak ez dira berdin balioztatzen: gehien
balioztatzen diren hitzak URL, orriaren tituluan, esteketan, hitz loditan edo
goiburuan agertzen direnak dira. Dentsitatea kalkulatzeko orriak aurki ditzakegu
(adb. Adworks).
PageRank Google-k sortu eta erabiltzen duen algoritmoa da. Algoritmo
honek web orriak balioztatzen ditu emaitzak lortzeko. Orriak 1 eta 10 artean
balioztatzen ditu, 1 balioztatze txikiena da, eta 10 handiena; orri batek 0
balioztatzea badu, orria berria delako edo zigortu duelako da. Google-n
bilatzaile software-a algoritmo honetan oinarritzen da bilaketaren emaitzak
aurkezteko. PageRank balioztatze handia duten orriak agertuko dira lehenik. 5
balioztatzetik aurrerakoa orriak garrantzitsuak izango dira Google-entzat.
PageRank parametro batzuen arabera kalkulatzen da:
Web gune batera doazen hiperesteka kopurua. Esteka bakoitza boto bat
bezala kontsideratzen du; beraz, gero eta boto gehiago, orduan eta emaitzetan
kokaleku onagoa.
Botoa ematen duen web gunea: esteka duen web guneak PageRank
handia badu, bere botoak balio handiagoa du.
Esteka duten web guneen gaia: estekak gai berdina duten web guneen
artean egiten bada, PageRank-entzat balio handiagoa du.
e. Spam-a
Spam lekuak bilaketetan aurreneko postuetan ateratzen saiatzen dira,
hitz klabeak errepikatuz, testu ikusezina erebiliz edota estekak erosiz. Hori
txarra da bilaketarentzat, izan ere berez testu garrantzitsuak direnei lekua
kentzen diete.
Nahiz eta horiek izan erabilienak, beste hainbat ere badaude. Jarraian
agertzen dira gehien agertzen diren Spam motak:
9
1. Hipertestu berbideratzaile “gaiztoak”: Lekuak, eduki desberdina
erakusten dio bilatzaileari eta erabiltzaileei, baita erabiltzaileei beste
orrialde batzuei berbideratu.
2. Leku Komprometituak: Beste hirugarren pertsona batek orrialdea
hackeatzean gertatu ohi da.
3. Testu ikusezina eta hitz gako gehiegi
4. Dominio aparkatuak: Dominio aparkatuak berezko eduki gutxi du
eta, hori dela eta, Googlek ez ditu bilaketetan sartzen.
Horren kontra borroka egiteko, Googlek bere sorkuntzatik asko dira
hartutako neurriak. 2007an eratorritako spam-ari aurre egiteko, hauek sailkatu
eta datuen formatua hobetu zuten. Hori dela eta, eratorritako elementuen spam-
a desagertu zen (grafikoko marra gorria). Honen desagertzearekin, beste spam
mota bat agertu zen: Spam Agresiboa (kolore urdina). Hurrengo eguneratzeak
horri aurre egiteko bideratuak egon dira.
2009an iruzurrezko hipertestuak gutxitzen saiatu ziren baita leku
komprometituen handiagotzearen kontra egin. Azken eguneratzea Spam-aren
kontrakoa 2012ko Apirilekoa da. Algoritmo berrikuntza bat egin zute. Honi,
“Penquin” kodea deitu zioten eta horrekin spam taktikak erabiltzen dituzten
10
webguneei puntuazioak jaisten zaizkie. (Penquin kodeari buruz gehiago
jakiteko, klik egin hemen.)
3. Konklusioa
Lan honen ondorioz, Google hobeto ezagutzea lortu dugu. Egunero
erabiltzen dugun tresna da, baina ez genekien zehazki bere funtzionamendua
nolakoa zen; bere egitura ezagutzea ahalbidetu digu, baita bilatzaileak dituen
prozesuak ere.
Googlek dituen aukera eta abantailak ikaragarriak dira, eta bilatzen
duenarentzat erosoa da sarean ibiltzea bilatzaile honen bidez. Zehazki bilatu
nahi dena aurkitzeko erabiltzen dituen prozesu eta algoritmoak zein diren ikusi
ondoren ohartu gara Googlen arrakastaren arrazoia zein izan den:
erabiltzaileak bilatu nahi duena bilatzen du, oso era eraginkorrean.
11
4. Bibliografia
Google América Latina Blog
Blog Adbot
Google Insidesearch
ABC Egunkaria
Portal Programas
Wikipedia
Publiceuta
12
5. ERANSKINAK
a. Bilatzailearen funtzionamendua