Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware
© Roger Casadejús Pérez | http://www.exabyteinformatica.com/tienda/
Sitemap.xml i robots.txt
Què és i per a què serveix el sitemap?
El posicionament en buscadors dels llocs que dissenyem o que simplement estem administrant
té una gran importància en un entorn tan competitiu com és la web avui en dia. Del
posicionament web depèn moltes vegades l’èxit o el fracàs del site i per això hem de fer tot el
possible per informar als buscadors de la existència del nostre lloc web.
Un sitemap.xml és un arxiu que conté una llista de les pàgines del lloc web junt amb alguna
informació extra, tal com en quina freqüència la web canvia els seus continguts, quan va ser la
última vegada que es va actualitzar i com d’important és respecte a la resta de pàgines del
mateix site.
El robots.txt és un arxiu que tots els buscadors han de llegir.
Com construim el sitemap.xml
La programació de l’arxiu sitemap.xml ha de seguir una sèrie de pautes especificades en el
protocol de sitemaps i després hem d’informar als buscadors de la existència del mateix,
estigueu al cas dels següents passos:
· Continguts obligatoris del sitemap.xml:
El sitemap.xml es construeix fent servir etiquetes XML o tags incloses en un arxiu sempre amb
codificació UTF8. Els valors de dades (contraposats a les mateixes etiquetes) han de fer servir
codis d’escapament per certs caràcters especials, tal com s’acostuma a fer en HTML. Veiem un
exemple:
Les cometes dobles “ s’han de substituir per “
Els signes de major > i menor < per > i < respectivament.
· Exemple senzill d’un sitemap.xml:
Amb la primera etiqueta, definim la versió de XML que fem servir i la codificació en aquest cas
(com en la majoria) de UTF8
En la segona línia, fem referència al protocol d’ús: 0.9
· Etiquetes que formen el sitemap.xml:
<loc>http://www.xxx.xxxx….</loc> adreça de la pàgina que forma part del sitemap.xml
<lastmod>Data</lastmod>, data de la última modificació.
Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware
© Roger Casadejús Pérez | http://www.exabyteinformatica.com/tienda/
El format de la data és: ANY-MES-DIA (On ANY és de 4 xifres, el MES de 2 i el DIA de 2).
Exemple: 2013-03-13
<changefrec>Freqüència</changefrec>, Freqüència o cada quan es produeix el canvi.
always, sempre per pàgines que canvien cada vegada que es mostren. Principalment les
dinàmiques.
hourly, la freqüència de canvi es produeix cada hora.
daily, la freqüència de canvi es produeix diàriament.
weekly, la freqüència de canvi es produeix setmanalment.
monthly, la freqüència de canvi es produeix mensualment.
Yearly, la freqüència de canvi es produeix anualment.
never, mai, típicament per a pàgines arxivades o històriques.
<priority>Value</priority> La prioritat es refereix a la importància que té la pàgina que es
troba en respecte de les demès que composen el site. És simplement una manera d’indicar
prioritats relatives dins del site, sense efecte cap a l’exterior del mateix. El valor o value pot
prendre valors entre el 0 i el 1, considerarem el valor per defecte el 0.5
Allotjament del sitemap.xml
L’arxiu sitemap.xml programat, s’allotja en el servidor com un arxiu més del site, amb la
peculiaritat de que pot contenir les adreces web contingudes en el mateix directori en que es
troba o en d’altres continguts en ell mateix. Normalment, es posa a l’arrel del server com a
sitemap.xml
Enviament del sitemap.xml als servers
A través de les eines per a webmasters de Google o el Yahoo site explorer, podem
proporcionar directament la informació del nostre sitemap.xml als buscadors. Però també ho
podem fer amb l’arxiu robots.txt
Podeu trobar més informació relativa a robots.txt en la següent adreça web:
http://www.sitemaps.org/protocol.php#submit_robots
Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware
© Roger Casadejús Pérez | http://www.exabyteinformatica.com/tienda/
Programació de l’arxiu robots.txt
L’arxiu robots.txt diu als motors de recerca a quines parts del teu site poden accedir per
indexar i rastrejar. Aquest arxiu s’ha d’anomenar sempre robots.txt i ha d’estar situat a l’arrel
del teu site.
Un exemple seria:
User-Agent: *
Disallow: /privat/theme.css
Disallow: /confidencial/
Disallow: /webadmin/
Disallow: /sessions/
Sitemap: http://www.exabyteinformatica.com/sitemap.xml
En primer lloc amb el paràmetre User-Agent: * estem dient que tots els buscadors tenen
cabuda per rastrejar i indexar el lloc web (tal com indica el *), es pot posar també per exemple
google per indicar que només volem que sigui aquest buscador el que pugui indexar.
La resta de paràmetres del disallow, indiquen quines carpetes o directoris tenen la indexació
prohibida o quins resultats NO volem que el buscador indexi.
La línia del sitemap, indica als buscadors i robots crawlers, on està situat l’arxiu sitemap.xml
perquè el puguin llegir i a l’hora indexar.
Top Related