La frequenza con la quale Google decide di far passare i propri crawler e i relativi tempi di indicizzazione delle singole pagine web cambiano senza una regola ben precisa, e Google, sapendo di questa lacuna ha deciso da tempo di lavorarci sopra.
In uno degli ultimi webmaster hangout un publisher ha domandato dopo quanto tempo Google rimuovesse le pagine dall’indice una volta che si è aggiunto ad esse un noindex nofollow.
Il partecipante all’hangout ha sollevato la questione perché ha dichiarato di aver aggiunto noindex ad una pagina web, che però è rimasta ancora per molto tempo nell’indice di Google.
John Mueller di Google ha preso la domanda come spunto e ha descritto la frequenza di indicizzazione di alcune pagine.
Il Senior Webmaster Trends Analyst di Google ha spiegato come gli URL siano scansionati a velocità diverse, ma la cosa più interessante che ha detto è che alcuni URL possono essere scansionati anche solo una volta ogni sei mesi.
Il partecipante all’hangout riferiva come ancora oggi stesse “vedendo cose che risalgono a molto tempo fa”, e seppur fosse stato cambiato il noindex nofollow la pagina veniva ancora indicizzata. Aggiungendo che tutto “è ancora presente nonostante fossero passati diversi mesi dopo che abbiamo cambiato tutto questo”.
Risponde John Mueller:
“I think the hard part here is that we don’t crawl URLs with the same frequency all the time. So some URLs we will crawl daily. Some URLs maybe weekly. Other URLs every couple of months, maybe even every once half year or so.So this is something that we try to find the right balance for, so that we don’t overload your server”.
La difficoltà sta nelle tempistiche con cui passanno i crawler sugli URL che non hanno mai la stessa frequenza. Alcuni URL vengono scansionati ogni giorno, altri forse settimanalmente, altri ancora ogni due mesi, per poi arrivare a crawllare addirittura con una frequenza semestrale.
E poi Muller ha aggiunto: “Questo è qualcosa per cui cerchiamo di trovare il giusto equilibrio, in modo da non sovraccaricare il vostro server.
E se hai apportato cambiamenti significativi sull’intero sito web, probabilmente molti di questi cambiamenti sono stati raccolti abbastanza rapidamente, ma alcuni saranno rimasti fuori.
Ecco perché se fai dei test sulle query del sito, c’è la possibilità di continuare a vedere quegli URL che vengono scansionati ogni semestre”.
Attenzione quindi a come si valuta e monitora un sito web, visto che il Senior Webmaster Trends Analyst di Google sottolinea come non necessariamente se dopo mesi e mesi gli url sono sempre presenti vuol dire che tecnicamente c’è qualcosa di rotto o sbagliato.
Utilizzare la mappa del sito per attivare l’aggiornamento del Crawling
Se come il partecipante all’hangout sollevava i problemi di tempo nelle risposte di Google, John Mueller risponde che per velocizzare i tempi sarebbe buona prassi quella di aggiornare la mappa del sito e lasciare che Googlebot scopra l’ultima data modificata, utilizzandola come suggerimento per il bot ad andare a scansionare le vecchie pagine web.
Se si pensa che uno o più URL non dovrebbero essere indicizzati, allora si potrebbe forse fare un passo indietro ed evidenziare chiaramente la presenza di un file della mappa del sito con la data dell’ultima modifica, in modo che Google si “interrompa” e provi a ricontrollali un po’ più velocemente di quanto non lo faccia in modo naturale.
Strumento di ispezione URL di Google
Ricordiamo, comunque, una delle ultime novità messe ben in evidenza all’interno della Google Search Console, ossia l’utilizzo dello strumento di ispezione URL.
Secondo quanto pubblicato nella pagina di aiuto della Search Console nella sezione dedicata alla reindicizzazione, una presentazione dell’URL può richiedere fino a una o due settimane.
Comunque è sempre bene tenere a mente che lo strumento di ispezione degli URL è utile se si dispone di alcuni pochi singoli URL che necessitano di re-crawling. Se si dispone di un gran numero di pagine web, Google consiglia di inviare una mappa del sito.
Maggiori informazioni su come chiedere a Google di eseguire nuovamente il crawl degli URL possono essere trovate qui: https://support.google.com/webmasters/answer/6065812
[via searchenginejournal.com]