L’argomento disallowed URL non smette mai di suscitare curiosità e domande tecniche sia nei professinisti che in tutti coloro che si avvicinano alla SEO.
La domanda fatta a Gary Illyes di Google si riferiva all'”User-agent: * Disallow’: “/che blocca i web crawler che se inserito nel file robots.txt può essere utilizzato sia per bloccare la scansione di un intero sito, sia per bloccare la scansione di URL specifici.
Gary Illyes ha quindi deciso di aggiornare il documento originale sul crawl budget con chiarimenti sugli URL non consentiti.
Il documento ora include le seguenti informazioni:
“Q: Do URLs I disallowed through robots.txt affect my crawl budget in any way?
A: No, disallowed URLs do not affect the crawl budget.”
The question refers to the “User-agent: * Disallow: /” protocol in robots.txt that blocks web crawlers.
It can either be used to block an entire site from being crawled, or it can be used to block specific URLs from being crawled.
Alla domanda se gli URL non consentiti attraverso robots.txt influenzano in qualche modo il crawl budget, Google risponde di no. Gli URL non consentiti non influiscono sul “budget della scansione”.
Come dicevamo l’User-agent: * Disabilita’: “/che blocca i web crawl, può essere utilizzato sia per bloccare la scansione di un intero sito, sia per bloccare la scansione di URL specifici e sulla base di ciò che ci dice Illyes, il blocco di URL specifici non ha un impatto sul crawl budget di tutto il resto del sito.
Le pagine non verranno sottoposte a scansione con maggiore frequenza a causa del fatto che altre pagine del sito non possono essere sottoposte a scansione.
Inoltre, non c’è alcuno svantaggio nel rifiutare gli URL quando si tratta di eseguire la scansione del budget.
Le informazioni aggiornate appaiono in fondo a questo articolo, all’interno di un post pubblicato del blog Webmaster Central del 2017.
Illyes ha anche detto su Twitter che ci sono in atto delle valutazioni per trasformare il post del blog in un articolo ufficiale all’interno del centro di assistenza.
[via searchenginejournal.com]