Muitas vezes temos pastas ou arquivos em nossos sites que não queremos que os buscadores indexem por um motivo qualquer – uma pasta desnecessária ou um site em construção (exe. Numa pasta /site ou /blog).
Alguns exemplos que não queremos indexar: Uma página de login, Páginas de conteúdo duplicado, páginas de impressão, pastas operacionais de um CMS (administrador de conteúdo, etc.
Como fazer?
Usando um arquivo robots.txt na raiz do site para indicar o que o buscador deve indexar ou não. A seguir um robots.txt que usamos nos sites joomla.
User-agent: * <= Qualquer dos buscadoes
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Allow: /xxxx/ <= Habilita o scaneamento
Disallow: /ccc/ <= Desabilita o scaneamento