Col passare del tempo, i motori di ricerca, come Google ad esempio, si stanno sempre più evolvendo e stanno diventando dei veri e propri “fornitori di soluzioni” sempre più sofisticati e mirati alle esigenze dell’utente. Il compito dei motori di ricerca è, infatti, quello di scoprire, comprendere ed organizzare secondo una scala di criterio tutti i contenuti presenti sulla propria rete, con lo scopo di mostrare agli utenti i risultati più pertinenti alla query proposta. Il search engine è un ingranaggio complesso ma che deve in ogni caso essere compreso da chi possiede un e-commerce per assicurarsi l’occasione di raggiungere un numero di potenziali clienti elevato. Il punto di partenza per poter ottimizzare il negozio in ottica SEO dato che, se il sito non è presente nell’indice del motore di ricerca, non potrà mai apparire tra i suoi risultati e ricevere traffico e allo stesso tempo risulteranno anche vani gli investimenti pubblicitari e di marketing. Il primo processo che compie il motore di ricerca si basa sulla scansione e cioè il momento in cui il crawler passa al setaccio i contenuti del web: siti nuovi e vecchi, pagine, articoli, schede prodotto, immagini, link, etc. I crawler di ricerca, attraverso algoritmi studiati ,determinano quali sono i siti da scansionare e con che frequenza, distribuendo così il crawl budget, ovvero l’insieme di risorse che il motore di ricerca decide di dedicare a un determinato sito web. Una volta ottenuti questi dati, il bot li interpreta per misurare la rilevanza della pagina rispetto ad altre molto simili, tramite il processo di indicizzazione.
Il processo di scansione ed indicizzazione per Google
È possibile però controllare la capacità di Google di trovare e analizzare i propri contenuti per mostrarli nella Ricerca e in altre sue proprietà, nonché impedire al crawler di eseguire la scansione di contenuti specifici sul sito. Per farlo si può procedere per livelli, seguendo questa logica, soprattutto per evitare che vengano meno alcuni contenuti importanti a scapito di altri futili:
- fornire una Sitemap: parliamo di un file in cui vengono fornite tutte le informazioni su pagine, video e altri file presenti sul sito, nonché sui link tra i vari elementi. Questo tipo di documento serve come linea guida a Google per leggere correttamente i vari contenuti ed eseguire quindi una scansione corretta degli stessi. Una Sitemap indica a Google le pagine e i file del sito che hanno maggiore importanza e fornisce anche informazioni preziose a riguardo, come ad esempio la data dell’ultimo aggiornamento della pagina e la presenza di versioni in altre lingue. Soprattutto se il sito è di grandi dimensioni e molto complesso questa soluzione è utile per migliorare la scansione anche dei file più specializzati;
- i file robots.txt: questo tipo di file indica ai crawler dei motori di ricerca a quali URL possono avere accesso sul sito. Questa funzione viene usata principalmente per evitare di sovraccaricare di richieste il sito e non è in assoluto un meccanismo che permette di escludere una pagina web da Google. Un’opzione quindi per evitare il sovraccarico del server in certi periodi specifici oppure per evitare che venga eseguita la scansione di pagine simili o non importanti del sito che ne intaccherebbero solo la velocità;
- usare i Meta tag: Google supporta sia diversi tag a livello di pagina sia istruzioni incorporate che indirizzano il comportamento nella ricerca. Sono strumenti per fornire a Google informazioni a tutti i tipi di client e forniscono una scala gerarchica dei diversi contenuti da mostrare;
- informare il motore di contenuti duplicati: è importante informare Google di eventuali pagine duplicate sul proprio sito in modo da evitare una scansione eccessiva e molto più lenta;
- mettere al corrente il crawler della funzione multilingua: se si dispone di un sito internazionale in più lingue è importante segnalarlo a Google in modo che la Ricerca Google potrà indirizzare gli utenti alla versione della pagina più appropriata in base alla lingua o all’area geografica;
- segnalare i file in JavaScript: se è vero che JavaScript è una parte importante della piattaforma web perché offre molte funzionalità che trasformano il Web in una potente piattaforma applicativa, è allo stesso tempo segnalare questo tipo di funzioni a Google.