Pagina duplicata senza URL canonico selezionato dall'utente

Pagina duplicata senza URL canonico selezionato dall’utente

Il report di indicizzazione di Google Search Console (GSC) classifica i problemi di indicizzazione con motivi ben definiti, tra cui: “Pagina duplicata senza URL canonico selezionato dall’utente“: in pratica Google ha rilevato contenuto duplicato (o molto simile) sul tuo sito, ma non riesce a determinare in autonomia quale sia la versione “canonica” da indicizzare

Questo avviso identifica un problema tecnico abbastanza critico: indica che non è stata fornita un’istruzione chiara al motore di ricerca.
Riconoscere e risolvere, quando necessario*, questi motivi di esclusione è essenziale per mantenere l’integrità dell’indice del proprio sito web sul motore di ricerca e garantire che le proprie pagine, soprattutto quelle più importanti*, raggiungano la visibilità desiderata.

* “quando necessario” e “soprattutto quelle più importanti” perchè non sempre si deve lavorare e agire su centinaia di pagine. Ogni sito è composto da pagine più o meno importanti per il business e per le arrività di web marketing. Impariamo quindi a dare la giusta priorità tanto ai problemi e alle criticità, quanto alle risorse/pagine web… non avendo a disposizione infinite risorse di denaro e tempo da investire in ogni attività online! Mi spiego meglio: la pagina delle policy privacy, la pagina dei ringraziamenti, la pagina del login in area riservata… quanto sono importanti rispetto la pagina di presentazione di un prodotto o servizio?

pagina duplicata senza URL canonico selezionato dall'utente
colori palette

Cosa implica l'esclusione tecnica dall'indice di Google

Questo specifico avviso indica una situazione di ambiguità che impedisce a Google di procedere con l’indicizzazione.
Il processo di canonizzazione è cruciale nella gestione dei contenuti duplicati, ma anche in quei contenuti che per n motivi possono risultare scarni e dare l’idea al crawler di essere dei duplicati inconsistenti. L’uso del tag canonical è il meccanismo con cui i proprietari del sito indicano a Google quale URL deve essere considerato il master copy, il principale, il primario da tenere in indicizzazione, tralasciando copie e altro non degno di nota.

Scenario Azione di Google Esito in GSC
URL duplicato con canonico selezionato Google indicizza la versione canonica e riconosce il duplicato come intenzionale. Pagina esclusa (ma per scelta corretta).
URL duplicato SENZA canonico selezionato Google tenta di selezionare un canonico autonomamente. Se fallisce o il contenuto è ambiguo. Pagina esclusa con l’avviso specifico.

Questo avviso di Google Search Console ci dice che il meccanismo automatico di selezione di Google non ha trovato sufficiente segnale di fiducia per procedere, rendendo necessario un intervento manuale.

Le configurazioni che generano ambiguità

L’errore è spesso causato da pratiche consolidate del web, ma non sempre gestite correttamente:

  1. URL dinamici ingombranti e persistenti: talvolta ci troviamo a fare i conti con una serie di parametri di sessione, di filtri o altri elementi nell’URL che generano pagine diverse a livello di indirizzo, ma identiche a livello di contenuto (es. ?colore=rosso).
  2. Accessibilità multipla: capita anche che una stessa pagina risponda con successo a più varianti URL (es. con o senza trailing slash /, o http vs https) senza reindirizzamento… ecco che generiamo un duplicato!
  3. URL cross-domain non gestiti: si tratta di contenuti identici, ospitati su domini diversi, non collegati tramite tag canonici e non gestiti con i giusti redirect! E di nuovi, ecco che generiamo dei duplicati.
colori palette

Mancano i canonical... mancano dei segnali determinanti?

Quando il tag canonico è assente, Google interviene per individuare il cosiddetto “canonico selezionato da Google”.
L’avviso in questione indica che l’assenza di un segnale determinante da parte di chi ha sviluppato il sito ha bloccato questo processo… e probabilmente a Google tutto questo non piace!

L’ufficialità di Google stabilisce che, pur potendo scegliere, l’indicazione che possiamo fornire è prioritaria:

“Se non indichi un URL canonico, Google lo individuerà automaticamente… Se invece ne indichi uno, cercheremo di rispettare la tua scelta, ma potremmo comunque selezionare un URL diverso per vari motivi.” (Fonte: Guida ufficiale di Google Search Central sull’indicazione del canonico)

Il problema sorge quando non c’è specifica indicazione e i segnali interni di Google (come i link interni) e i segnali esterni sono troppo contraddittori per consentire una scelta… l’effetto può essere l’indicizzazione di una pagina poco interessante, poco utile, poco influente, al posto di una pagina chiave!

Segnali contraddittori e controproducenti: attenzione!

  • Tag canonical circolari
    Attenzione a far sì che non si verifichi un loop, ossia a non utilizzare un tag canonical che puntano ad altre pagine con altrettanti tag canonical che “si rincorrono”. Se la pagina A è la primaria, e B e C sono considerate dei duplicati, B e C avranno dei tag canonical verso A.

  • Mancanza di reindirizzamenti
    Attenzione anche ad una eventuale versione obsoleta: se una pagina va eliminata, non basta toglierla dal menù di navigazione, perchè chi ne conosce l’URL, Google in primis, vedrà che risponde ancora con codice 200 OK… qui serve un reindirizzamento permanente (301) verso la pagina “canonica”.

colori palette

Tag canonical: usiamolo e usiamolo bene!

Per risolvere il problema cardine presentato in questo approfondimento, l’esclusione dall’indice di Google, è necessario imporre a Google stesso una direttiva canonica chiara e ben strutturata per le nostre pagine web.

  1. Definizione dell’alberatura
    Ogni sito avrà una sua alberatura specifica e sulla base di questa diventerà facile individuare senza indugi l’URL principale e le eventuali pagine prive di contenuto significante o potenzialmente duplicate. L’URL principale deve essere l’unica versione indicizzata.
  2. Implementazione del Tag rel="canonical"
    Su tutte le versioni duplicate e non preferite della pagina, va inserito il seguente tag all’interno della sezione <head> che punti all’URL principale:
    <link rel="canonical" href="https://" />
  3. Consolidamento tramite 301 (per URL obsoleti)
    Se l’URL duplicato non deve più esistere (es. vecchie URL dinamiche o pagine spostate o pagine rimosse), non va utilizzato un tag canonical ma va gestito un reindirizzamento permanente 301 verso la versione nuova.

La coerenza è la chiave, come sottolineato nel contesto della gestione dei dati:

“La coerenza nella struttura degli URL e la chiarezza dei tag canonici sono i pilastri per evitare che i crawler perdano tempo e per assicurare l’indicizzazione delle tue pagine chiave.” (Fonte: Guangsuan – Interpretazione della gestione dell’indice)

Dopo la correzione, lo strumento “Controllo URL” di GSC permette di verificare l’implementazione del tag e permette di richiedere una nuova scansione.

Google Search Console e canonizzazione forzata: FAQ

Cosa succede se ignoro questo avviso?

Ignorare l’avviso comporta che Google continuerà a escludere le pagine “incriminate” dall’indice.
Se le pagine escluse sono strategiche (come prodotti o servizi o pagine istituzionali), si rischia la perdita di traffico organico. Inoltre, Google spreca crawl budget analizzando duplicati irrilevanti, rallentando quindi l’indicizzazione di nuovi contenuti importanti.

Quando è appropriato lasciare la scelta del canonico a Google?

È accettabile lasciare la scelta a Google solo quando il contenuto duplicato è minimo, accidentale e non genera problemi di esclusione.
Appena GSC individua il problema e manda l’avviso “Pagina duplicata senza URL canonico selezionato dall’utente”, l’intervento manuale diventa obbligatorio, perchè indica che il segnale di ambiguità è forte/impattante.

Qual è la differenza tecnica tra tag canonical e reindirizzamento 301?

Differenza abissale: il Reindirizzamento 301 è una risposta server che sposta l’utente e il crawler permanentemente dalla pagina URL A alla pagina URL B (l’URL A di fatto non esiste più); iI Tag canonical è un suggerimento (hint) a livello HTML che dice al crawler di concentrare il valore SEO sulla pagina URL B, mentre la pagina URL A può continuare ad esistere e rispondere con codice 200 OK, lasciando totalmente inalterata la navigazione degli utenti.

Cosa si intende per “canonical contraddittorio”?

Si verifica quando i segnali canonici del tuo sito sono incoerenti. Ad esempio, se l’URL A ha un tag canonical che punta all’URL B, ma l’URL B ha un tag canonical che punta all’URL A (genera un loop), oppure se i link interni del tuo sito puntano prevalentemente all’URL non canonico, quindi non sono coerenti con quanto dichiarato nel tag canonical, si generano contraddizioni. Questa incoerenza è spesso la causa dell’avviso di esclusione.

Come posso risolvere l’errore per gli URL generati da parametri di tracciamento?

Per i parametri (come “?sessionID=” o “?utm_source=”), la soluzione principale è implementare un tag canonical auto-referenziale sulla versione pulita dell’URL (in pratica qualsiasi parametro ha un canonical sull’URL non parametrizzato). Volendo si può adire a livello di robots.txt per bloccare la scansione di alcuni parametri URL ai Googlebot.

user-agent: Googlebot
disallow: /*?*products=

Dopo aver aggiunto il tag canonical, quanto tempo è necessario per una corretta indicizzazione?

Il tempo necessario dipende dal “crawl budget” e dalla frequenza con cui Google scansiona il tuo sito.
Puoi accelerare il processo utilizzando lo strumento “Controllo URL” di GSC per inviare la versione canonica corretta per la scansione.
Generalmente, il problema dovrebbe risolversi entro pochi giorni o qualche settimana.

Il tuo sito viene valutato da algoritmi sempre più complessi e rigorosi

Il contesto algoritmico attuale penalizza i contenuti poco rilevanti e premia la cura del dettaglio.