Vediamo adesso come bloccare l’accesso dello spider crawler al vostro sito pagina o cartella tramite noindex inserito nel meta robots.
Ovviamente si tratta di un metodo molto analogo a quello già visto nel robots.txt.
Per la precisione è praticamente identico. Con la differenza che qui invece di metterlo in un file separato lo mettiamo in un meta tag del file html della pagina.
Vediamo subito la dicitura e poi vi spieghiamo il funzionamento.
Impedire accesso indicizzazione allo spider con robots noindex.
Si tratta quindi di andare ad inserire nell’header prima del tag body il seguente codice
<meta name ="robots> content ="noindex, follow">
Cominciamo dalla prima parte dove abbiamo scritto
meta name ="robot"
Questa scritta ha carattere generale. Ossia consiglia a tutti i motori di ricerca di eseguire l’azione seguente presente nel content.
Ma volendo possiamo anche circoscrivere tale azione a determinati robot per esempio se avessimo voluto solamente dare un’indicazione a google avremmo scritto.
<meta name="googlebot" content="noarchive">
E cosi’ via. Se volete vi lascio tutta la lista dei vari Robots direttamente dal sito ufficiale robottxt.org se avete qualche esigenza particolare.
Andando avanti vedete che ho scritto
content ="noindex, follow">
senza perderci in parole, vediamo una lista di possibili combinazioni e valori che possiamo attribuire al content.
- “index“- Indica al robot che la pagina può essere indicizzata è il valoro di default. Il motore di ricerca se la riterrà valida in termini informativi la inserirà nel suo database.
- “noindex“- E’ il tag che indica al motore di ricerca che non vogliamo che appaia nel suo database, non apparirà nei motori di ricerca.
- “follow“- Indica al motore di ricerca di seguire i link in uscita dalla pagina. Per sempio noindex follow, indica al motore di non indicizzare la pagine , ma di seguire ugualmente i link in uscita.
- “nofollow“- Ovviamente l’esatto opposto del tag sopra. Quindi se il motore di ricerca trova nella pagina la scritta noindex , nofollow non indicizzera e non seguirà i link in uscira. Ossia terminerà la sua ricerca.
- “noarchive” non è un tag molto utilizzato. In pratica il motore di ricerca non archivierà il contenuto della pagina ,ma indicizzerà solo il suo url. In genere viene utilizzato su pagine che vengono aggiornate continuamente, ma in ambito SEO non ha molto senso.
Oltre questi ci sarebbero altri tag , ma che non sono presi nemmeno lontanamente in considerazione dai motori di ricerca e quindi vi evito. Oltretutto sono anche di scarsissimo utilizzo da parte dei webmaster.
Come si inserisce il tag robot nel codice html
Come vi dicevo il suo inserimento è estremamente semplice e ve lo mostro subito con un semplice esempio
<html> <head> <title>Pagina esempio</title> <meta name="robots" content="index,follow"> </head> <body> Contenuto Informativo della vostra pagina Web. </body> </html>