Conhecendo recursos do robots.txt

Crie o seu arquivo robots.txt e ajude os robôs dos mecanismos de busca a indexarem corretamente o seu site.

O arquivo robots.txt é usado para controlar a ação dos robôs dos mecanismos de busca dentro do seu site. Com esse arquivo é possível definir quais arquivos ou pastas o robô pode ou não indexar. O arquivo deve ser colocado na pasta raiz do site para que os robôs possam identificá-lo e processá-lo antes de vasculhar o site.

Sintaxe

Um arquivo robots.txt simples utiliza duas regras básicas, veja:

User-agent: identifica o robô que deverá receber a regra seguinte
Disallow: identifica o URL que deseja bloquear

O que deve estar listado na linha “User-agent”?

Um user-agent é um robô com mecanismos de pesquisa específicos. A Web Robots Database relaciona muitos bots comuns. Configure uma entrada para ser aplicada em um robô específico (listando o nome) ou configure-a para ser aplicada em todos os robôs (listando um asterisco). Uma entrada que se aplica a todos os robôs tem este formato:

User-agent: *

O Google usa diversos robôs (user-agents), por exemplo: para pesquisa na web é o Googlebot, para sites desenvolvidos para celulares é o Googlebot-Mobile e para imagens o Googlebot-Image. É possível definir regras para cada um desses robôs utilizando a tag User-agent.

O que deve estar listado na linha “Disallow”?

A linha “Disallow” lista as páginas que você deseja bloquear. Relacione um URL específico ou um padrão. A entrada deve começar com uma barra (/).

Para bloquear todo o site, use uma barra normal.

Disallow: /

Para bloquear um diretório e tudo que houver nele, adicione a mesma barra após o nome do diretório.

Disallow: /diretorio-lixo/

Para bloquear uma página, liste a página.

Disallow: /arquivo_particular.html

Para remover uma imagem específica da pesquisa de imagens do Google, adicione o seguinte:

User-agent: Googlebot-Image
Disallow: /imagens/dogs.jpg

Para remover todas as imagens do seu site da pesquisa de imagens do Google:

User-agent: Googlebot-Image
Disallow: /

Para bloquear os arquivos de um tipo específico (por exemplo, .gif), use o seguinte:

User-agent: Googlebot
Disallow: /*.gif$

Para impedir que as páginas do seu site sejam rastreadas, mas continuem exibindo anúncios do AdSense, bloqueie todos os robôs, exceto o Mediapartners-Google. Isso impede que as páginas apareçam nos resultados de pesquisa, mas permite que o robô Mediapartners-Google analise as páginas para determinar os anúncios que devem ser mostrados. O robô Mediapartners-Google não compartilha páginas com outros user-agents do Google. Por exemplo:

User-agent: *
Disallow: /pasta1/User-agent: Mediapartners-Google
Allow: /pasta1/

Observe que as diretivas diferenciam caracteres maísculos e minúsculos. Por exemplo, Disallow: /arquivo_lixo.asp – bloquearia http://www.example.com/arquivo_lixo.asp, mas permitiria http://www.example.com/Arquivo_lixo.asp.

Correspondência por padrão

O Googlebot (mas não todos os mecanismos de pesquisa) respeita algumas correspondências por padrão.

Para fazer com que uma seqüência de caracteres gere uma correspondência, use um asterisco (*). Por exemplo, para bloquear o acesso a todos os subdiretórios que começam com “particular”:

User-agent: Googlebot
Disallow: /particular*/

Para bloquear o acesso a todos os URLs que incluam um ponto de interrogação (?) (mais especificamente, qualquer URL que comece com o nome do seu domínio, seguido por qualquer string, por um ponto de interrogação ou por qualquer string):

User-agent: Googlebot
Disallow: /*?

Para especificar a correspondência do fim do URL, use $. Por exemplo, para bloquear os URLs que terminam com .xls:

User-agent: Googlebot
Disallow: /*.xls$

Use essa correspondência por padrão juntamente com a instrução “Allow”. Por exemplo, se um “?” indicar um ID de sessão, convém excluir todos os URLs que contenham o caractere para assegurar que o Googlebot não rastreie páginas duplicadas. Mas os URLs terminados em “?” podem ser a versão da página que você deseja incluir. Nesse caso, você pode configurar o arquivo robots.txt da seguinte maneira:

User-agent: *
Allow: /*?$
Disallow: /*?

A instrução Disallow: / *? bloqueará qualquer URL que contenha um “?” (mais especificamente, a linha bloqueará qualquer URL que comece com o nome do seu domínio, seguido por qualquer string, seguida por um ponto de interrogação, seguido por qualquer string).

A instrução Allow: /*?$ permitirá qualquer URL que termine com “?” (mais especificamente, a linha permitirá qualquer URL que comece com o nome do seu domínio, seguido por uma string, seguida por um “?” e sem qualquer caractere depois do “?”).

Nota: A maneira mais fácil de criar um arquivo robots.txt é usar a ferramenta “Gerar robots.txt” do Google Webmasters Tools. Depois de criar o arquivo, use a ferramenta Analisar robots.txt para verificar se o arquivo apresenta o comportamento esperado.

Fonte: 72DPI