Il file robots.txt

Cosa è

Si tratta di un semplicissimo file di testo, che viene letto dai crawler, ad esempio il GoogleBot di Google, prima di analizzare le pagine che compongono un sito web, fornendo le indicazioni su come eseguire la scansione delle pagine e dei diversi contenuti di un sito web.

Al suo interno è presente un'elenco di comandi (direttive), che forniscono indicazioni su quali pagine, o intere cartelle, non debbano essere scansionate e conseguentemente non indicizzate.

È da tenere presente che il file robots.txt è solamente una serie di indicazioni che vengono fornite ai crawler, per aiutarli nelle loro attività, ma non vi è alcuna garanzia che vengano eseguite, e conseguentemente che le pagine elencate non vengano scansionate e non indicizzate.

Come scrivere il file robots.txt

Il file può essere manipolato con qualsiasi editor di testo, ad esempio il Blocco note di Windows, e salvato con il nome robots.txt, tutto in minuscolo, il file dovrà essere poi inserito online copiandolo nella directory principale del dominio, dove i crawler per default effettuano la ricerca.

La sintassi

La sintassi del file robots.txt, nella versione più semplificata, prevede tre campi chiave: User-agent, Allow e Disallow, fornendo direttive su quali URL possono o non possono essere scansionati e da quale crawler.

  • User-agent: il valore di questo campo consente di indicare il nome del crawler al quale vogliamo impartire delle direttive, utilizzando, come valore, il carattere "*" la direttiva viene applicata a tutti i crawler.
  • Disallow: il valore di questo campo indica il file o la cartella che si desidera non sia scansionata dal crawler specificato nel campo User-agent, e quindi le pagine che devono essere escluse dall'indicizzazione.
  • Allow: il valore di questo campo indica il file o la cartella che si desidera sia scansionata dal crawler specificato nel campo User-agent, e quindi le pagine che devono essere incluse nell'indicizzazione.

Per ogni singolo crawler è possibile specificare più restrizioni tramite la direttive Disallow.

Verifica del file

Una volta creato il file robots.txt e averlo copiato nella directory principale del sito web, è possibile verificarne la correttezza tramite il tool: robots.txt Checker.

Altre informazioni

Per maggiori dettagli sule specifiche e la sintassi su come creare il file robots.txt, possono essere consultate su www.robotstxt.org, e www.robotstxt.org/db per consultare la lista dei nomi dei crawler.

Alcuni esempi pratici

Per consentire l'accesso a tutto il sito web da parte di tutti i crawler:

User-agent: *

Disallow:

Al contrario per bloccare l'accesso a tutto il sito web da parte di tutti i crawler:

User-agent: *

Disallow: /

Per bloccare l'accesso ad una singola directory e a tutto il suo contenuto da parte di tutti i crawler:

User-agent: *

Disallow: /nome-directory/

Per bloccare l'accesso ad una singola pagina da parte di tutti i crawler:

User-agent: *

Disallow: /nome-file.html

Per bloccare l'accesso ad una singola pagina da parte del crawler di Google:

User-agent: Googlebot

Disallow: /nome-file.html

Per bloccare l'accesso ad una singola directory e a tutto il suo contenuto da parte di tutti i crawler, ma consentire l'accesso ad una pagina web (N.B. il campo Allow deve precedere Disallow):

User-agent: *

Allow: /nome-directory/nome-file.html

Disallow: /nome-directory/