Ottimizzare la scansione dei siti con le Sitemaps: alcuni case study

- 31 marzo, 2009 2:40 pm

Google ha appena pubblicato un artcolo di ricerca intitolato Sitemaps: Above and Beyond the Crawl of Duty, 10 pagine dedicate allo studio dell’efficacia del protocollo sitemap, a 3 anni dalla sua introduzione.
In questo breve articolo emergono alcuni spunti interessanti, che possono tornare utili per chi si occupa di ottimizzazione.
Innanzitutto, le sitemap vennero introdotte per ovviare a 2 problemi che affliggevano (ed affliggono tutt’ora) il processo di scansione dei contenuti da parte dei motori di ricerca:

  • Copertura: Riuscire a raccogliere il maggior numero di informazioni possibili. Buona parte dei conteuti è infatti nascosta dietro a form di ricerca, navigazioni realizzare in Flash, AJAX, javascript o altre tecnologie indigeste agli spiders dei motori di ricerca. Il protocollo Sitemap dovrebbe in questo caso aiutare i motori di ircerca nella scansione e nell’indicizzazione del cosidetto Deep Web
  • Aggiornamento: I motori di ricerca hanno sempre dovuto fare i conti con un web in continuo cambiamento. Da questo puto di vista, la scansione del web deve essere estesa e temporizzata, nel senso che deve avere una frequenza di aggiornamento tale da fornire agli utenti dei motori di ricerca, risultati sempre aggiornati.

Fino a qui non emerge nulla di nuovo. Molto più interessante è scoprire come Google processa i dati provenienti dalle sitemap:

processo-indicizzazione-google

il processo comincia dalla Scoperta (Discovery). In questa fase troviamo un elenco di URL (detto Seed) ordinati per importanza, da cui parte la scansione del web. Oltre a questi URL, Google considera tutti gli URL inviati tramite Sitemap (sia questa pingata attraverso il serivzio Webmaster Central o prelevata dal file Robots.txt).
L’unione di queste 2 fonti viene sottoposta ad una iniziale scrematura per eliminare i link spam. Da notare che l’attività del Crawler comincia solo successivamente, solo dopo che sono stati eliminati i link Spam (come possa Google determinare, senza effettuare una scansione, il contenuto spam di un link rimane un mistero).
Dopo la pulizia, il Crawler scansiona le pagine. Gli URL che emergono dalla scansione formano un feedback con il blocco Discovery autoalimentando il ciclo.
Le pagine scansionate intanto vengono sottoposte ad un ulteriore filtro anti contenuti-duplicati ed indicizzati, secondo gli ormai celebri “parametri di qualità”.
Il risultato dell’indicizzazione è messo a disposizione del blocco Server che risponde alle query degli utenti pescando dall’indice costruito nelle precedenti fasi.

Come utilizzare le sitemap? Alcuni case study

Amazon
Chi ha detto che per siti di grosse dimensioni non ha senso creare una sitemap? Spero nessuno. Amazon, leader mondiale del commercio online, ha una strategia imponente. ha un sistema di sitemap contenente, in totale, circa 20 milioni di URL (importante: elencano solamente le versione Canoniche degli URL). Non potendo aggiornare tutti i giorni i dati relativi a 20 milioni di URL, vengono semplicemente aggiunte ogni giorno delle nuove sitemap. Queste nuove sitemap contengono gli URL dei nuovi prodotti. una volta inserita la nuova sitemap, questa non viene più aggiornata, eventuali cambiamenti ad url vengono inseriti in nuove sitemap.
Amazon ha una efficienza pari al 63% ovvero ogni 100 pagine scansionate, 63 sono pagie uniche e quindi utili.
Considerando anche gli URL contenuti nelle sitemap, Amazon ha un tasso di efficienza pari all’83%.

Cnn.com
Cnn ha un numero di URL inferiore ad Amazon ma ha un altro grande criticità: la freschezza dei contenuti.
Per fare in modo che le News di Cnn.com vengano pescate in maniera tempestiva, il sistema di sitemap è ordinato sulla base della frequenza di aggiornamento. La sitemap index indirizza gli spider verso la sitemap dedicata alle pagine di news con aggiornamento quotidiano, in seguito a quella dedicata alle pagine con aggiornamenti settimanali ed infine alla sitemap dedicata alle pagine con aggiornamento mensile.
Questo sistema permette a Cnn.com di pingare Google correttamente, ed in ordine di frequenza di aggiornamento.

Alcune conclusioni

Non è il caso di ricordare l’importanza delle sitemap ancora una volta. Basti sapere che, secondo uno studio fatto da Google su un campione di 5 miliardi di URl, il 78% delle pagine è scoperta prima via sitemap poi via crawling classico. Questo perchè la maggior parte dei siti ha una frequenza di scansione che non è in grado di cogliere tutte le nuove informazioni. In questi casi la sitemap è fondamentale.
Ancora più importante, le sitemap, insieme ad un utilizzo oculato dei rel canonical, aiuta gli spider a razionalizzare la scansione del sito. Per evitare di disperdere l’attenzione degli spider, costruiamo le nostre sitemap in maniera accurata, specifichiamo il canonical e utilizzziamo il tag Robots. Il fatto che Google abbia elaborato un indice per per valutare il numero di pagine uniche sul totale delle pagine scansionate è indicativo che l’efficienza di un sito è inversamente proporzionale alla quantità di contenuti duplicati.

Postato in : Search Engine Optimization
Print This Post Print This Post


No comments yet.

Sorry, the comment form is closed at this time.