Un file robots.txt è semplicemente un file di testo inserito all’interno della root del vostro sito web che istruisce i crawler dei motori di ricerca su quali pagine di un sito web deve crawlare e quali ignorare. Queste istruzioni di crawl sono definite “disallowing” o “allowing” del comportamento di uno specifico (o di tutti) software di web crawling.
Indice dei contenuti
ToggleCome funziona Robots.txt?
Il file robots fa parte del Robots Exclusion Protocol (REP), un conglomerato di standard che regolano il modo in cui i robot eseguono il crawl del web, l’accesso e l’indicizzazione dei contenuti, e come presentano tali contenuti agli utenti.
Il REP include anche indicazioni come i meta robot, così come pagine, sottodirectory, o istruzioni a livello di sito web per come i motori di ricerca dovrebbero trattare i link (come “nofollow” o “follow”).
Esempio Robots.txt:
Di seguito sono riportati alcuni esempi di robots.txt in azione per un sito www.example.com.
L’URL del file robots deve essere: www.example.com/robots.txt
Blocco di tutti i web crawler da tutti i contenuti
Questa istruzione dice a tutti i web crawler di non eseguire il crawling di alcuna pagina su www.example.com, compresa la homepage.
User-agent: *
Disallow: /
Permettere a tutti i web crawler di accedere a tutti i contenuti
La regola seguente dice ai web crawler di cercare tutte le pagine del sito www.example.com, compresa la homepage.
User-agent: * Allow:
Bloccare un web crawler specifico da una cartella specifica
User-agent: Googlebot
Disallow: /example-subfolder/
Questa sintassi indica solo al crawler di Google di eseguire il crawler di qualsiasi pagina contenente la stringa URL www.example.com/example-subfolder/.
Bloccare un determinato web crawler da una specifica pagina web
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
Questa sintassi indica solo il crawler di Bing per evitare il crawling della pagina esatta all’indirizzo www.example.com/example-subfolder/blocked-page.html.
Come funziona il file robots.txt
I motori di ricerca hanno due obiettivi principali:
- Eseguire il crawler del web per scoprire i contenuti
- Indicizzare quel contenuto in modo che possa essere trovato da chi cerca informazioni.
In generale, per cercare siti web, i motori di ricerca seguono i link per passare da un sito web all’altro, navigando attraverso miliardi di link e siti. Questo comportamento di crawling è anche conosciuto con il nome di “spidering“.
Una volta in un sito web e prima di effettuare lo spidering, i crawler cercano un file robots. Se ne esiste uno, lo leggono ancor prima di proseguire nella “scansione” dell’intera pagina.
Se il file robots non contiene alcuna regola di disallow o il sito web non ha un file robots, i crawler procedono alla ricerca di altre informazioni sul sito web.
Nozioni veloci da sapere sul file robots.txt:
- Per essere trovato, un file robots deve essere inserito nella directory di primo livello di un sito web detta anche root.
- Il file /robots.txt è disponibile al pubblico. Basta aggiungere /robots.txt alla fine di qualsiasi dominio principale per vedere le direttive di quel sito web (se quel sito ha un file robots!). Questo significa che chiunque può vedere quali pagine hai impostato per essere o non essere scansionato. Quindi, non usatele per nascondere le informazioni sensibili dell’utente.
- Alcuni robot potrebbero decidere di ignorare il vostro file robots. Questo è particolarmente comune con i crawler malevoli, come gli scraper di indirizzi e-mail o i robot malware.
- Ogni sottodominio su un dominio principale utilizza file robots separati. Ciò significa che sia example.com che blog.example.example.com dovrebbero avere i propri file robots.txt (su example.com/robots.txt e blog.example.com/robots.txt).
- Robots.txt è case sensitive: il file deve essere chiamato “robots.txt” (non robots.TXT, Robots.txt, ecc.).
- Si consiglia di indicare la posizione di eventuali sitemap collegate a questo dominio nella parte inferiore del file robots.
Sintassi tecnica robots.txt
Moz definisce la sintassi di robots.txt come segue: La sintassi di Robots.txt può essere pensata come il “linguaggio” dei file robots.txt.
Ci sono 5 termini comuni che si possono incontrare in un file robots. Essi includono:
- User-agent: Il web crawler specifico a cui si forniscono le istruzioni per il crawler – di solito un motore di ricerca. La maggior parte degli interpreti può essere trovata qui.
- Allow (valido solo per Googlebot): Questa direttiva indica a Googlebot di accedere a una pagina o sottocartella anche se la sua pagina madre o sottocartella può essere proibita.
- Disallow: La direttiva istruisce l’utente-agente a non fare il crawl di certo URL. Si noti che è consentita una sola riga “Disallow:” per ogni URL.
- Sitemap: Usato per richiamare la posizione di qualsiasi sitemap XML collegata a questo URL.
Suggerimento: questa direttiva è supportata solo da Ask, Bing, Google e Yahoo. - Crawl-delay: Si riferisce al numero di secondi che un crawler dovrebbe attendere prima di caricare e strisciare il contenuto della pagina. Suggerimento: Googlebot non riconosce questa regola. Tuttavia la velocità di scansione può essere impostata nella Google Search Console.
Da leggere: 40 motori di ricerca alternativi a Google
Pattern-matching
Quando si tratta di consentire o bloccare gli URL esatti, i file robots.txt possono diventare piuttosto complessi in quanto consentono l’uso di pattern-matching per coprire una serie di possibili opzioni di URL.
Sia Bing che Google riconoscono due espressioni comuni che possono essere usate per rilevare pagine o sottocartelle che un SEO vuole essere escluso.
Questi due caratteri sono il segno del dollaro ($) e l’asterisco (*).
Il ($) corrisponde alla fine dell’URL e (*) è un carattere jolly che rappresenta una qualsiasi sequenza di caratteri.
Google fornisce nelle guida “Creare un file robots.txt” un’ampia lista di possibili sintassi e di esempi di sintassi che corrispondono ai modelli.
Dove mettere i robot.txt?
Il file robots.txt deve essere posizionato alla radice dell’host del sito a cui si applica.
Ad esempio, per controllare il crawling su tutti gli URL sotto http://www.example.com/, il file robots deve essere posizionato all’indirizzo http://www.example.com/robots.txt.
Non può essere localizzato in una sottodirectory (per esempio all’indirizzo http://example.com/pages/robots.txt).
Se non si è sicuri di come accedere alla root del proprio sito, o si ha bisogno di un supporto operativo, si consiglia sempre di contattare il proprio fornitore di servizi di web hosting.
Suggerimento professionale! Se non riesci ad accedere al tuo sito web root, usa un metodo alternativo come i meta tag.
Perché robots.txt è essenziale?
Per bloccare le pagine non pubbliche
Sì, a volte si possono avere pagine del sito web che non si vuole indicizzare – per esempio, una pagina di login. Se avete tali pagine, è possibile utilizzare il file robots.txt per bloccarle da crawler e bot dei motori di ricerca.
Massimizzare il crawl budget
Se hai difficoltà a indicizzare tutte le tue pagine, potresti avere un problema di budget. Bloccando pagine insignificanti dal file robots, Googlebot può spendere più del crawl budget sulle pagine che essenzialmente contano.
Prevenire l’indicizzazione delle risorse
Mentre le meta directives possono funzionare bene quanto i robots.txt nell’impedire che le pagine vengano indicizzate, non funzionano bene per le risorse multimediali come immagini e i file PDF. È qui che entra in gioco robots.txt.
Puoi sempre controllare quante pagine web hai indicizzato nella Google Search Console. Se il numero è esattamente quello che si vuole indicizzare, non c’è bisogno di preoccuparsi. Ma se non è così, allora c’è bisogno di creare un file robots.txt per il tuo sito.
Da leggere: Google Search Console: una guida pratica per chi inizia
Le migliori pratiche SEO
- Assicurati di non bloccare alcun contenuto o sezione del tuo sito che vuoi far crawlare.
- Non utilizzare il file robots per evitare che i dati sensibili appaiano nei risultati della SERP. Questo perché altre pagine potrebbero collegarsi direttamente alla pagina contenente informazioni private, che potrebbero essere ancora indicizzate.
- Se vuoi davvero bloccare la tua pagina dai risultati della ricerca, utilizza un metodo diverso, come la noindex meta directive o la protezione con password.
I link sulle pagine bloccate da robots.txt non saranno seguiti. Ciò significa:
- A meno che non siano collegati anche da altre pagine accessibili dal motore di ricerca (come ad esempio le pagine non bloccate da robots.txt, meta-robot, ecc.), le risorse collegate non saranno sottoposte a crawled e potrebbero non essere indicizzate.
- Nessuna link equity può essere passata dalla pagina bloccata alla destinazione del link. Se hai pagine a cui vuoi che l’equity venga passata, utilizza un meccanismo di blocco diverso da quello di robots.txt.
- Alcuni motori di ricerca hanno più crawler. Ad esempio, Google utilizza Googlebot-Image per la ricerca di immagini e Googlebot per la ricerca organica.
La maggior parte dei crawler dello stesso motore di ricerca seguono le stesse regole, quindi non c’è bisogno di definire regole per ciascuno dei crawler multipli di un motore di ricerca.
Tuttavia, avere la possibilità di farlo permette di perfezionare il modo in cui il tuo sito web viene crawlato.
- Rendi il tuo file robots facile da trovare.
- Mentre è possibile posizionarlo in qualsiasi directory principale del tuo sito web, si consiglia di metterlo a https://example.com/robots.txt e scriverlo in minuscolo per aumentare le probabilità.
- Il file robots è case sensitive. Quindi assicurati di usare una “r” minuscola nel nome del file.
- Un motore di ricerca metterà in cache i contenuti di robots.txt, ma di solito aggiorna i contenuti in cache almeno una volta al giorno. Se si modifica il file e si desidera aggiornarlo più velocemente di quanto non sia, è possibile inviare l’URL /robots.txt a Google.
Robots.txt vs. meta-robot vs. x-robot
Qual è la differenza tra questi tre tipi di robot directive?
Semplicemente, robots.txt è il file di testo vero e proprio, mentre meta e x-robot sono meta directive. Oltre a questo, questi tre directive servono per funzioni diverse.
Robots.txt determina il comportamento di crawl del sito web o della direzione a livello di sito web.
I meta e gli x-robot possono determinare il comportamento di indicizzazione a livello di singola pagina (o elemento di pagina).
[ via siteguru.com ]