robots txtPost serale dedicato a chi è ancora in ferie o per i SEO nottambuli. Oggi parliamo di gestione dell’indicizzazione dei siti Web e più nel dettaglio di una news proveniente dall’ultimissimo Hangout tenuto da John Mueller che parla di: Robots.txt e accenna alle direttive noindex. Il Robots.txt per chi non lo conoscesse è un file di testo contenuto all’interno della root di dominio, indispensabile per fornire indicazioni ai motori di ricerca in merito agli accessi delle informazioni. Per approfondire il suo funzionamento e lo stretto rapporto che questo file ha con gli spider vi invitiamo a leggere il primo post pubblicato su Retrieval.it che parla proprio di come funziona uno Spider.

Robots.txt e direttive di Disallow… ops. Noindex!

La storia del Robots.txt è un pò come la storia della tavola rotonda, antica ma sempre attualissima. Infatti, il Robots.txt ed il suo utilizzo ricorda gli albori della SEO e tutt’oggi è utilizzato per controllare l’accesso alle informazioni contenute nel nostro sito da parte dei bot. Google, nei suoi interventi ufficiali, su blog, forum ed Hangout ha più volte parlato dell’utilizzo di questo file, avvalorandone le potenzialità e l’immediatezza; intervenire sull’indicizzazione dei contenuti attraverso Robots.txt infatti è sicuramente più immediato, sicuro e pulito dell’intervento in codice o peggio in CMS core.

Allo scopo di aiutare i Webmaster, Google, fornisce un’utile guida per il settaggio ottimale e l’inserimento corretto delle direttive e la trovate a fondo pagina, tuttavia ieri John Mueller nel suo consueto intervento (dedicato appunto al Robots.txt) ha confermato una cosa che a molti SEO probabilmente era sfuggita ovvero che: all’interno del file Robots.txt è possibile utilizzare anche direttive di Noindex. Questo punto a dire il vero era già stato confermato da Matt Cutts nel lontano 2008. In un post infatti il capo del Team Web Spam di Google confermava come:

Google allows a NOINDEX directive in robots.txt and it will completely remove all matching site urls from Google.

Che tradotto significa: “Google ammette le direttive di Noindex all’interno del Robots.txt e rimuoverà completamente tutti gli URL corrispondenti del sito dal suo indice.” Ma aggiunge sempre nello stesso post che questo tipo di comportamento, potrebbe prima o poi decadere ed è per questo che non viene citato spesso. A dire il vero, anche all’interno della guida ufficiale non si fa assolutamente riferimento a questa possibilità ma si rimanda all’utilizzo del Meta tag. A tal proposito invitiamo anche alla lettura di questa recente news che rivela come recentemente sono anche cambiate le direttive di Google in merito all’utilizzo di Meta tag Robots all’interno del codice HTML.

Ritornando alla notizia (o meglio… conferma), John Mu. ha quindi ammesso che ancora oggi Google permette l’utilizzo di direttive di Noindex all’interno del file Robots.txt ma in linea con Matt, non approfondisce la questione anche perchè Google in documentazione non offre supporto specifico. Per i più curiosi e per chi volesse provare la direttiva da inserire è semplicissima:

Disallow: / example-page-1 /
Noindex: / example-page-1 /

Anche i SEO più esperti ci cascano

Apriamo una breve parentesi finale perchè assai curiosa. Search Engine Roundtable, sempre aggiornatissimo e sul pezzo, piuttosto che commentare la cosa, ha preferito ricamare un pò sui SEO intervenuti nell’Hangout di ieri, ridacchiando sul fatto che la conference è durata nel totale addirittura 1 ora e l’intervento di John Mueller appena 25 minuti. Questo vuol dire che il botta e risposta consueto con le domande dei SEO ha riempito i restanti 35 minuti; questo, spiegano in SER è sintomo del fatto che nonostante le direttive e l’utilizzo di questo file sono le stesse ormai da anni e anni, ancora non sono poi così chiare a tutti gli “esperti”.

Per chi non volesse incappare in critiche, ecco la guida ufficiale di Big G. sull’utilizzo del file Robots.txt.

Buone cose.