Vediamo adesso come impedire ai motori di ricerca di accedere al vostro sito oppure ad una pagina del sito con robots.txt. Ovviamente si tratta di impedire l’accesso al sito , alla cartella , al file da parte dei principali motori di ricerca. Ossia vogliamo impedirne l’indicizzazione.
Vedremo che anche se il tentativo è lo stesso il funzionamento implica delle differenze abbastanza sostanziali che andremo adesso ad esaminare. Prossimamente esamineremo anche con i file htaccess e con noindex e vedremo che hanno un funzionamento analogo.
Impedire accesso al crawler spider tramite Robots.txt e disallow.
Ovviamente il crawler è lo spider dei principale motore di ricerca che viene nel vostro sito per effettuare la scansione dello stesso. Mentre il robots.txt è un file che si trova all’interna del vostro sito. Può essere messo nella cartella principale o in una sottocartella. Ha una sintassi estremamente semplice. Partiamo da un esempio generale
Bloccare tramite txt l’accesso all’intero sito
In questo caso dovrete inserire nel file la seguente dicitura.
User-agent: * Disallow: /
Bloccare lo spider ad una sola cartella o ad un file con robots.txt
In questo caso il testo da inserire nella cartella è il seguente.
User-agent: * Disallow: /file_da_bloccare.html Disallow: /cartella_da_bloccare/
Un ultima annotazione come potete vedere ho inserito sempre nella prima riga il codice
User-agent: *
Questo indica che quello che seguirà vale per tutti gli spider di tutti i motori di ricerca. Mettiamo il caso invece che vogliamo che quel blocco sia valido solo per alcuni spider e non per altri. In questo caso bisognerà tenere conto della seguente
Lista Spider Motori di Ricerca
- googlebot Google
- fast Fast – Alltheweb
- slurp Inktomi – Yahoo!
- scooter Altavista
- mercator Altavista
- Ask Jeeves Ask Jeeves
- teoma_agent Teoma
- ia_archiver Alexa – Internet Archive
Quindi per esempio se vogliamo bloccare solo google dovremo sostituire con il seguente codice
User-agent: googlebot
Mentre se volete inserire un commento nel robots.txt magari per ricordarvi come mai avete fatto quella scelta , non dovrete fare altro che fare precedere il commento stesso dal carattere # uno per riga.
Di tutti i metodi elencati per bloccare l’accesso di spider crawler questo è quello meno sicuro.
In quanto non si tratta proprio di una direttiva del server. Si tratta solamente di dire al crawler di indicizzare o meno quella determinata pagina, cartella o singolo file. Per quanto mi riguarda è un consiglio che i principali motori di ricerca rispettano ma non è vincolante. Ovviamente si tratta di pratiche particolarmente utilizzate in ambito SEO.