I meta tags index Nofollow , Noindex

Staff

14 anni fa

Vi parliamo adesso di due meta tags molto importanti per il mondo di internet , ossia due di quelli che adesso vanno per la maggiore , in gene i metatag hanno perso l’ importanza , ma non è certo il caso di questi due che insieme al canonical sono attualmente quasi indispendansabili per i webmaster ai fini del posizionamento dei motori di ricerca, specialmente Google.

Ci sono altri tag molto utili che permettono di decidere se vogliamo la nostra pagina indicizzata da Google oppure se per qualche ragione preferiamo mantenerla non indicizzata.

La sua sintassi è

< meta name=”robots” content=”noindex”>

Vediamo comunque che cos’e una sessione “id” per capire quello che sto per dirvi: e’ un numero unico che il server di una pagina web assegana ad un usuario specifico per il tempo che l’usuario rimane connesso alla pagina (sessione).

Questo id puo’ essere immagazzinato come cookie, campo di form, o URL (Uniform Resource Locator). Alcuni server Web generano sessioni ID semplicemente incrementando numeri statici. Comunque la maggior parte dei servers usano algoritmi che coinvolgono metodi piu’ complessi, come ad esempio producendo la data e l’ ora della visita insieme ad altre variabili definite dall’ amministratore del server.

Googlebot precedentemente evitava gli url che avessero parametri con “?id=(diciamo una cifra a cinque numeri o di piu’)” ma non sapevo se era ancora vero. Cosi’ adesso spesso ci capita di vedere molti numeri sulla barra dell’ url adesso sappiamo che quella e’ una session id. e cosi’ visto che googlebot non ha ora dei limiti ad indicizzare determinate pagine, dobbiamo cercare altri metodi per impostare nel server un parametro che eviti di avere una pagina indicizzata magari perche’ e’ un’ area di dati e quindi riservata.

Il metodo per evitare l’ indicizzazione di certe pagine si ottiene in questa maniera: usando il simbolo wildcards sul robots.txt (Google supporta il carattere wildcards come “*” nel robots.txt). vediamo come:

1. aggiungi il parametro come questo esempio alle pagine che non vuoi indicizzate da Googlebot:

“http://www.il_tuo_sito.com/blog/some-random-post.html?googlebot=nocrawl”

2. Crea il seguente file robots.txt :

User-agent: Googlebot

Disallow: *googlebot=nocrawl

La pagina non indicizzata da “googlebot=nocrawl” potra’ apparire tra i risultati di ricerca come non indicizzata. Le due migliori maniere per avere le pagine nemmeno nella lista degli url di google saranno: A) usare il meta “noindex” che ho nominato sopra, o B) usare il sistema di rimozione di un url che Google mette a disposizione. E’ molto comune comunque che le persone si sbagliano con l’ opzione B e come dice il detto si danno la zappa sui piedi, quindi puo’ essere piu’ raccomandabile fare con il metatag noindex se non vuoi una pagina indicizzatata.

Molti pensano che il robots.txt che ho appena fornito bloccherebbe un URL solo se finisce con “googlebot=nocrawl”, ma infatti google potrebbe accoppiare quel parametro dovunque nell’ url. Se per una strana ragione volete solo bloccare un url da essere indicizzato se “googlebot=nocrawl” era l’ultima cosa nella linea, potete utilizzare questo simbolo “$” per significare la fine della linea come questo esempio:

User-agent: Googlebot

Disallow: *googlebot=nocrawl$

Using that robots.txt would block the url

http://www.mattcutts.com/blog/somepost.html?googlebot=nocrawl

ma no in questo URL:

http://www.mattcutts.com/blog/somepost.html?googlebot=nocrawl&option=value

Se avete avuto la pazienza di leggere questa pagina fino alla fine, buon per voi! Ora sapete cose che la maggior parte della gente non sa. Per ogni dubbio o esperimento al riguardo usate il robots.txt checker che si trova nel “sitemaps” questo strumento utilissimo e’ messo a disposizione da Google e potete testare tutte le opzioni dei tag noffollow e noindex che dicevamo.

Fonte http://posizionamentomotorericerca.com/

Condividi: