Crawl budget negli ecommerce: contenuti duplicati e altre “penalizzazioni”

,

I contenuti duplicati rappresentano uno dei problemi più comuni nei siti ecommerce, specialmente nei CMS con temi più datati.

Il problema è amplificato quando Google si trova davanti a siti con centinaia (se non migliaia) di schede prodotto, in quanto è più probabile che si ritrovi a scansionare molte pagine sostanzialmente uguali in termini di contenuto.

In questa guida ti spiego come risolvere il problema dei contenuti duplicati e ottimizzare il crawl budget nel tuo ecommerce, per far sì che non si presentino problemi di indicizzazione.

I contenuti duplicati penalizzano il tuo sito?

No, ti rassicuro subito: il tuo sito non verrà direttamente “penalizzato” dai contenuti duplicati, ovvero è difficile che si verifichino cali di posizioni nelle SERP dovuti a questo motivo.

Se però non curi gli aspetti tecnici e fai un’operazione di copia e incolla dei testi, ottieni i seguenti risultati:

  • è probabile che Google dedichi meno crawl budget al tuo sito;
  • non fornisci una buona user experience ai visitatori, che si ritroveranno a leggere testi tutti simili tra loro, magari dal contenuto poco informativo;
  • puoi avere problemi di indicizzazione e il rapporto tra pagine totali del sito e pagine indicizzate si manterrà probabilmente su valori bassi;

Tutto questo si traduce in una visibilità limitata nelle SERP: come fare per risolvere il problema dei contenuti duplicati e ottimizzare il crawl budget? Vediamo insieme.

Diverse versioni del sito indicizzabili

Sito con e senza www

Se entrambe le versioni del tuo sito con e senza www sono indicizzabili dallo spider, in quanto non è stato effettuato un reindirizzamento, possono emergere problemi di contenuto duplicato.

Per verificare se Google ha indicizzato entrambe le versioni, fai un controllo digitando su Google

site:iltuositoecommerce.it

Se noti entrambe le versioni nella SERP, è il caso di effettuare un reindirizzamento alla versione preferita (solitamente con www).

Sito con e senza https

In caso di errori di reindirizzamento da http ad https, Google considererà le due versioni come due siti distinti, disperdendo il valore che il dominio ha acquisito nel tempo. Anche in questo caso, bisogna assicurarsi che il sito reindirizzi correttamente tutti gli url da http ad https, oltre ad evitare contenuti misti (risorse caricate in https insieme a risorse caricate in http) che non rendono completamente sicura una pagina. Per conoscere qualcosa in più su http ed https, ti consiglio di leggere questo articolo d’approfondimento.

Url con parametri

La stragrande maggioranza degli ecommerce permette all’utente di filtrare/ordinare i prodotti per uno o più parametri, ad esempio il prezzo o una caratteristica del prodotto.

Impostando un parametro nella pagina, spesso dall’url iniziale viene generato un url relativo ad una pagina con contenuto simile (se non uguale) al primo, ad esempio:

dall’url originale

www.sitoecommerce.it/categoria

impostando un range di prezzo da 0 a 100 viene generato l’url

www.sitoecommerce.it/categoria?price_min=0&price_max=100

Gli url generati attraverso i parametri possono essere molto numerosi: se a Google viene dato pieno accesso a queste risorse, senza comunicargli qual è la versione “originale” della pagina, possono presentarsi problemi di indicizzazione.

Come rendersi conto del problema

Fai un check url di una o più categorie del tuo sito digitando su Google:

site:sitoecommerce.it/categoria-di-esempio/

Se noti che oltre all’url originale sono stati indicizzati molti altri url con parametri, significa che Google ha sprecato risorse, indicizzando pagine simili tra di loro.

Anche un numero troppo elevato rilevato da Search Console nella sezione “stato dell’indicizzazione” può rappresentare un campanello dall’allarme.

 

Puoi risolvere il problema:

  • impostando il link canonical: ovvero comunicare a Google tramite un tag che, tra tutti gli url parametrizzati che è possibile generare attraverso i filtri, deve tenere conto solamente dell’url originale, in quanto rappresenta la versione “canonica” della pagina;
  • ottimizzare il file robots.txt accuratamente, in modo da bloccare la scansione degli url parametrizzati, salvando prezioso crawl budget (esiste una soluzione più efficace: te lo spiego nella sezione “paginazione”);
  • modificare le impostazioni nella search console per comunicare direttamente a Google come gestire i parametri delle url (operazione delicata, in quanto il rischio di danni all’indicizzazione è elevato)

Descrizione prodotti simili: è un contenuto duplicato?

Google è abbastanza intelligente da comprendere che le descrizioni delle schede prodotti tendono ad assomigliarsi tra loro, quindi è difficile che penalizzi il tuo sito per le schede prodotti duplicate.

Tuttavia, ti consiglio di curare anche questo aspetto e di personalizzare le schede prodotto, in particolare nel caso in cui i contenuti siano stati copiati di sana pianta dal sito del produttore o dai siti dei competitors. Ciò può diventare un’opportunità per:

  • differenziarsi dai siti concorrenti;

  • dare valore aggiunto agli utenti;

  • posizionarsi con keyword commerciali, digitate da utenti che conoscono già il prodotto e intendono acquistarlo online.

In merito alla ricerca keyword per il tuo e-commerce, ti consiglio di leggere l’articolo dedicato; per quanto riguarda, invece, il giusto prezzo da attribuire ai prodotti in uno shop on line, ti invito a leggere il primo di una serie di tre contributi, che svela le tre strategie da adottare.

Fai un check manuale dei contenuti duplicati

Per fare un rapido check dei contenuti duplicati all’interno del tuo sito, ti consiglio Siteliner, un tool gratuito utile per farsi un’idea di percentuale di contenuto duplicato o ricorrente presente all’interno del sito. Il tool Copyscape, anch’esso gratuito, ti permette invece di fare un confronto con i siti esterni.

Paginazione 

Hai differenziato e personalizzato il testo di tutte le categorie, ma ciononostante nelle SERP vedi risultati diversi relativi a pagine praticamente uguali, con identico testo, che si differenziano solo per i prodotti visualizzati. Come mai?

Probabilmente il tuo sito ha diverse categorie che suddividono i prodotti in più pagine, in modo da non generare “paginone” con contenuto troppo lungo (immaginati scorrere da mobile una pagina con 100 prodotti: dopo un po’ ti perdi o ti fa male il pollice!).

Per comunicare a Google che una pagina prodotti unica è stata suddivisa in più pagine, ad esempio:

www.sitoecommerce.it/categoria

www.sitoecommerce.it/categoria/?p=2

www.sitoecommerce.it/categoria/?p=3

puoi utilizzare i tag PREV e NEXT, in modo da indicare la sequenza logica della successione di pagine e considerare la pagina come un’unica entità e preservarne di conseguenza il valore.

Approfondimento:

https://support.google.com/webmasters/answer/1663744?hl=it

Paginazioni in Ajax/Infinite scroll

I tag PREV e NEXT sono applicabili anche in caso di paginazioni in Ajax e infinite scroll, due tecniche sempre più utilizzate e consigliate negli ecommerce, ma che in assenza di direttive potrebbero rendere invisibile agli spider la maggior parte dei prodotti presenti in una categoria consistente.

Paginazioni in Ajax/infinite scroll rappresentano attualmente le soluzioni migliori per salvare il crawl budget, in quanto allo spider non vengono dati in pasto i classici link in HTML “<a href>”. Non dovrai quindi nemmeno agire sul file robots.txt per bloccare gli url parametrizzati e la “link juice” rimarrà intatta.

Pagine inutili

Allo stesso modo dei siti non ecommerce, ti consiglio di:

  • eliminare pagine che non forniscono alcun contenuto utile all’utente, anche accorpando pagine con contenuti molto simili tra loro che si “cannibalizzano” a vicenda;

  • scoraggiare l’indicizzazione delle pagine non inerenti al business aziendale, ma che vanno comunque inserite all’interno del sito (es. la privacy policy), tramite la direttiva meta robots: “noindex”. In questo caso, Google continuerà a scansionare le pagine ed utilizzare il suo crawl budget, ma in frequenza minore rispetto alle pagine indicizzabili.

Sitemap/FEED Rss

Se il tuo ecommerce ha una buona rotazione dei prodotti, puoi aiutare Google a scoprire i nuovi articoli con due strumenti:

– Sitemap

Aggiorna spesso la tua sitemap con i nuovi prodotti ed effettua un “ping” a Google, in modo da velocizzare l’indicizzazione dei nuovi contenuti.

– Feed RSS

Il feed RSS prodotti di uno shop online viene automaticamente aggiornato con i nuovi prodotti, il problema è come inviarlo a Google. Per fare ciò, puoi usare vari tool, come Pub sub hub hub.

Performance del sito

Qualsiasi sito web, in particolare gli ecommerce che ricevono molte visite ogni giorno, dovrebbe essere performante lato server e con buona velocità di caricamento dei contenuti.

Ad esempio, sapevi che CSS e Javascript consumano crawl budget? Non devi bloccarne la scansione (altrimenti Google non potrà più fare il rendering delle pagine), ma devi accorparli, comprimerli ed eliminare eventuali risorse inutili.

Anche la velocità del server impatta sulla frequenza di crawling: se in media è maggiore di 0,5 secondi, cambia server (Google consiglia di non superare i 200 millisecondi).

Come fai a capire se le performance del tuo sito sono buone? Semplice, usa il tool gratuito di Google Pagespeed Insights, oppure esamina la sezione di Google Analylitics sotto Comportamento > Velocità sito, per vedere nel dettaglio le pagine che impiegano mediamente più tempo a caricarsi.

Mantieni il tuo sito in salute, con risposte veloci ed evitando la generazione di errori 500.

In conclusione

Per quanto si sia evoluto Google negli ultimi anni, il motore di ricerca ha bisogno di essere guidato nella scansione del sito, per evitare di sprecare il crawl budget.

Statistiche di scansione di Search Console

L’aumento della frequenza di scansione e la quantità di pagine scansionate possono fare la differenza nel tuo sito, in particolare quando la rotazione dei prodotti è alta ed è presente un blog/sezione news aggiornati periodicamente. Eliminando i contenuti duplicati inoltre darai più valore alle singole pagine e di conseguenza all’intero sito.

Questa miniguida riguarda solo alcune delle criticità più comuni negli ecommerce non ottimizzati.

Nel prossimo articolo andrò oltre: approfondirò il concetto di hreflang.

Per un’analisi più approfondita del tuo shop on line e una consulenza professionale

CONTATTACI