Robots.txt
robots.txt è un file di testo inserito nella directory radice di un sito web che istruisce i motori di ricerca quali pagine o file possono richiedere o non possono richiedere. È la prima linea di difesa nel controllare come i bot interagiscono con l'infrastruttura del sito e aiuta a ottimizzare il budget di crawl.
Indirizzare i bot verso i tuoi migliori contenuti
Google assegna un "budget di rastrellazione" limitato al tuo sito—il numero di pagine che i suoi bot rastrelleranno al giorno. Se i bot perdono tempo a scansionare i pannelli amministrativi, le pagine stampabili duplicate o gli URL dei carrelli/acquisti, potrebbero perdere le preziose pagine dei tuoi prodotti tradotti. robots.txt dice ai bot: "Non perdere tempo su /admin/, concentrati invece su /en/, /fr/, /de/." Per i siti internazionali, dovresti vietare la scansione delle pagine di reindirizzamento automatico delle lingue, degli endpoint API e di qualsiasi URL tecnico che non necessita di indicizzazione. Tuttavia, NON bloccare MAI accidentalmente le directory linguistiche—è un errore catastrofico che uccide tutta la SEO internazionale.
Consentire vs. Impedire l'accesso al crawl
Impatto nel mondo reale
Il sito non ha robots.txt, i bot scansionano 10.000 URL di cartucce
Budget di scansione sprecato, pagine prodotto avanzate lentamente
I nuovi prodotti impiegano settimane ad apparire nelle ricerche
Aggiungi robots.txt: Dispermesso /carto/, /checkout/, /API/
I bot si concentrano al 100% sulle pagine prodotto e linguistiche
Nuovi prodotti indicizzati entro 24 ore