Oggi parliamo di Crawling, di Spider di Bot e Robots insomma… di tutti quegli arnesi e operativi software che delineano la modalità con cui un motore di ricerca analizza un sito Web e in genere ogni file online.

Spider: Lo Spider è un ragno software che “a caso” ed automatizzandosi nelle operazioni, seleziona dei siti da visitare per poi ricavarne i contenuti, le pagine, le immagini, i video ed ogni singolo file per indicizzarli all’interno di un indice. Nel caso dei Motori di Ricerca Web, tale indice è raffigurato in una Search Engine Results Page o più comunemente conosciuta in gergo tecnico o “spacchiuso” con l’acronimo di SERP.

Presupposti di funzionamento di uno spider

Partiamo dal presupposto che lo Spider congegnato dagli ingegneri creativi di Google è molto diverso da quello sviluppato dagli occhialuti di Bing/Yahoo o dai liberal di DuckDuckGo. Con gli anni e con l’avanzare della verticalità dei motori, gli Spider (e gli ingegneri che li concepiscono) hanno migliorato e tendono sempre ad affinare gli aspetti che li compongono, dalla velocità di scansione, ai principi con cui analizzano un sito Web in ogni singola parte diventando sempre più “altezzosi” e selettivi nel giudicare l’autorevolezza del contenuto di una pagina Web prima di classificarla per una serie di Keyword; questo, principalmente a causa delle migliaia di doc che ogni ora vengono pubblicati contemporaneamente in tutto il mondo.

funzionamento motore ricercaQuesto significa che lo Spider di Google ha sempre meno tempo da dedicare ad ogni pagina / sito Web ed è pertanto importantissimo oggi strutturare un sito Web che:

  1. oltre a soddisfarre gli utenti
  2. sia agevolmente scansionabile da un motore di ricerca.

A noi piace Google. Bing? Si bello… ma è come quando la prof: “Signora… il ragazzo è bravo ma non si impegna”. Ed è per questo motivo che oggi parleremo principalmente di come lo Spider di Google analizza un sito Web.

Googlebot

Lo Spider di Google si chiama “Googlebot”. Ecco come potrebbe richiedere il tuo sito in questo momento:

GET / http/1.1
Host: www.tuosito.com
Connection: Keep-alive
Accept: */*
From: googlebot(at)googlebot.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)
Accept-Encoding: gzip,deflate.</code>

Con questa chiamata Googlebot:

  1. effettua una richiesta alla pagina radice presente su www.tuosito.com
  2. analizza TUTTI i contenuti (HTML, PDF, JSP, ASP, PHP)
  3. li indicizza
  4. li fornisce in una SERP raggiungibile a questo indirizzo (www.google.it) digitando ad esempio “porno” nella casella di ricerca.

Come vive uno Spider

Come vive uno Spider? Ottima domanda… Piero Angela risponderebbe così: “costruisce ragnatele per intrappolare dentro insetti che poi mangia con gran gusto massacrandoli! E’ Magnifico!”. Allo stesso modo Googlebot… tesse la sua ragnatela intrappolando informazioni Web percorrendo collegamenti ipertestuali: i linkscansione-motore-ricercaEntrando in un sito Web la prima cosa che lo Spider fa è bussare alla porta ovvero: raccogliere il file Robots.txt. Questo file parla la stessa lingua del ragno e contiene tutte le informazioni relative agli accessi delle informazioni. Tramite questo file un Webmaster può ad esempio scoraggiare l’indicizzazione di file di pagina, segnalare la posizione di un file XML di Sitemap attraverso direttive ben precise ma di questo parleremo dettagliatamente in un contenuto interamente dedicato al mondo del Robots.txt. In sintesi però possiamo già anticipare che se questo file non c’è… correte il rischio di seminare in SERP directory sotterranee nominate ad esempio in “Doc Personali” oppure “Fatture” o peggio ancora “foto ex nuda”. Calma si scherza! La cosa potrebbe succedere anche se il file C’E!funzionamento robots txt

Come vengono elaborati i link

Classificando le info, ad una velocità strepitosa lo Spider accede a tutti i link che trova in pagina. I link “interni” che vanno verso le pagine del nostro stesso sito vengono seguiti SUBITO. I link “esterni” che puntano ad altri siti vengono archiviati e seguiti in un secondo momento. Questa parte va sicuramente approfondita con un articolo dedicato e siccome questo è un post molto basico che racconta la mera analisi di un sito da parte di un motore di ricerca (la base della SEO) non andremo nello specifico… lo faremo poi

Quello che ora ci interessa dirvi è che… ogni link rappresenta una porta d’ingresso verso altre pagine. Questa porta alla stregua della Porta Santa in San Pietro trasferisce un valore magico che dal sito/pagina “linkante” viene trasferito alla pagina/sito linkato. Più è alto il valore della pagina che linka maggiore autorevolezza acquisirà la pagina linkata. E’ bene dire arrivati a questo punto che questo gioco dei ruoli avviene solo in alcuni casi e rigorosamente solo secondo le regole dell’algoritmo di Big G.

Quello di Bing ad esempio è molto simile ma probabilmente più fiacco… sappiate comunque che gli algoritmi di reputazione sono complessissimi e soprattutto segretissimi e variano da Search Engine a Search Engine quindi potremmo scrivere qualsiasi fregnaccia oggi e darla a bere a tutti come massimi e sommi esperti ma comunque non staremmo dicendo la verità su come l’autorevolezza viene oggi effettivamente calcolata e trasferita da un dominio all’altro… a parte uno dei mezzi di propagazione che è certo sia il LINK. Mettendo da parte il concetto di “valore trasferibile attraverso un link” parliamo ora dell’ultima operazione che lo spider adotta per classificare ed analizzare un sito Web chiudendo il cerchio delle principali operazioni che un Motore di Ricerca fa nell’analisi di un sito Web.

Classificazione ed Indice

L’indice che Google ci offre (o meglio l’ordine degli elementi in esso contenuti) è costruito secondo degli algoritmi complessi e segretissimi (ci ripetiamo) ma alla fine è molto chiaramente e semplicissimamente la presentazione grafica di tutte le info pescate all’interno del database costruito dal signor Spider.

Se noi digitiamo nella casella di ricerca: “Smartphone dual sim” l’algoritmo non farà null’altro che pescare all’interno del grande database fornito dallo Spider tutte le informazioni in suo possesso relative a termini come:

  • Smartphone
  • Dual
  • Sim

E ogni combinazione di essi, questo, allo scopo di fornire la migliore lista di siti possibile.

Buone Cose.