Risolvere problemi di crawl legati a Google text robots.txt

Stai cercando di risolvere un’altra disapprovazione di prodotto nel Google Merchant Center (GMC)? Se ti viene segnalato “Le pagine del prodotto non possono essere esplorate a causa di restrizioni del file robots.txt”, sei nel posto giusto.

Scopri alcune delle ragioni più comuni per cui i prodotti Google Shopping vengono disapprovati a causa di una restrizione del file robots.txt.

Cos’è un file robots.txt e perché è importante?

Il sito web Robotstxt consiglia ai proprietari del sito di utilizzare il file /robots.txt per fornire istruzioni ai robot web; questo è chiamato il Protocollo di Esclusione dei Robot. “User-agent: *” significa che questa sezione si applica a tutti i robot. “Disallow: /” indica al robot di non visitare nessuna pagina sul sito. Posiziona il file robots.txt nella radice del sito web.

Molti siti web inviano un file robots.txt ai motori di ricerca per vari motivi:

Ottimizzare il posizionamento organico sui motori di ricerca: indicare ai motori di ricerca quali pagine web indicizzare e quali no.
Ottimizzare gli annunci pubblicitari a pagamento: se non hai un robots.txt ben costruito, potrebbe abbassare i tuoi punteggi di qualità, causare la non approvazione degli annunci, impedire l’inclusione dei tuoi prodotti nel GMC come parte degli annunci di prodotti e creare molti altri problemi.
Conformarsi alle linee guida pubblicitarie: le linee guida pubblicitarie, specialmente per i prodotti farmaceutici in alcuni paesi, potrebbero limitare l’intero sito web o solo le pagine dei prodotti farmaceutici dall’essere visualizzati nei risultati di ricerca.
Rimuovere contenuti non utili per i motori di ricerca: pagine di accesso, contenuti duplicati, alcuni PDF, pagine di ringraziamento e qualsiasi altro contenuto che non ha senso indicizzare può essere inserito in cartelle da escludere.

NOTA: L’invio di un file robots.txt potrebbe non sempre raggiungere gli obiettivi sopra indicati, specialmente se hai l’intenzione di escludere determinate pagine dai risultati di ricerca.

Motivi per cui le pagine potrebbero essere esplorate da Google

SEM Rush avverte i proprietari del sito che il loro “contenuto del sito web, anche se è escluso nel file robots.txt, potrebbe comunque essere indicizzato se la pagina è stata collegata da una fonte esterna; i bot continueranno a fluire e a indicizzare la pagina. Bot non legittimi esploreranno comunque e indicizzeranno il contenuto.”

Come L’errore nel file robots.txt può bloccare l’approvazione dei prodotti.

Google valuta l’esperienza utente durante l’approvazione delle campagne shopping. Utilizzeranno il tuo file robots.txt per esplorare le pagine dei tuoi prodotti sul sito web e confrontarle con gli annunci Google Shopping. Se il contenuto della pagina non corrisponde, potrebbero escludere determinati prodotti.

Google non può accedere alle tue pagine di destinazione
Per permettere a Google di accedere a tutto il tuo sito, assicurati che il tuo file robots.txt consenta agli user-agent ‘Googlebot’ di esplorare il tuo sito web.bsite.
Google non può accedere alle tue immagini
Per permettere a Google di accedere a tutto il tuo sito, il tuo file robots.txt dovrebbe consentire agli user-agent ‘Googlebot-image’ di esplorare il tuo sito.

Esempio di file robots.txt per Magento eCommerce

Se stai cercando un esempio per iniziare, ecco un esempio di file robots.txt per Magento dall’agenzia di marketing digitale Blue Acorn:

User-agent: *

Disallow: /index.php/

Disallow: /*?

Disallow: /*.js$

Disallow: /*.css$

Disallow: /customer/

Disallow: /checkout/

Disallow: /js/

Disallow: /lib/

Disallow: /media/

Allow: /media/catalog/product/

Disallow: /*.php$

Disallow: /skin/

Disallow: /catalog/product/view/

User-agent: Googlebot-Image

Disallow: /

Allow: /media/catalog/product/

Sitemap: http://example.com/sitemap/sitemap)

Il Test robots.txt di Google

Qual è il passaggio successivo? Una volta completato il tuo file robots.txt, il passaggio successivo è testarlo. Il tester di robots.txt di Google identificherà quali URL specifici del tuo sito sono bloccati dai crawler web di Google.

La pagina del test robots.txt di Google suggerisce i seguenti passaggi per testare il tuo file:

Apri lo strumento di test per il tuo sito e scorri il codice robots.txt per individuare avvisi di sintassi evidenziati e errori logici. Il numero di avvisi di sintassi e errori logici viene mostrato subito sotto l’editor.
Digita l’URL di una pagina del tuo sito nella casella di testo in basso alla pagina.
Seleziona l’user-agent che vuoi simulare nel menu a discesa a destra della casella di testo.
Fai clic sul pulsante TEST per testare l’accesso.
Controlla se il pulsante TEST ora riporta ACCETTATO o BLOCCATO per scoprire se l’URL che hai inserito è bloccato dai crawler web di Google.
Modifica il file sulla pagina e ripeti il test se necessario. Nota che le modifiche apportate sulla pagina non vengono salvate sul tuo sito! Vediamo il passaggio successivo.
Copia le tue modifiche nel tuo file robots.txt sul tuo sito. Questo strumento non apporta modifiche al file effettivo sul tuo sito, ma testa solo la copia ospitata nello strumento.

Per ulteriori aiuti nella risoluzione delle disapprovazioni di prodotto GMC, contatta Highstreet.io e parla con i nostri esperti in gestione dei feed di prodotti.

Ulteriori informazioni sui feed di prodotti:

Come creare un feed di prodotti Google Local Inventory
Come creare un feed di prodotti Instagram
4 soluzioni di feed di prodotti per risparmiare tempo e denaro

Google text robots.txt: come annullare i problemi di crawling

Cos’è un file robots.txt e perché è importante?

Motivi per cui le pagine potrebbero essere esplorate da Google

Come L’errore nel file robots.txt può bloccare l’approvazione dei prodotti.

Esempio di file robots.txt per Magento eCommerce

Il Test robots.txt di Google

Categories

Tags