Segurança: descobrindo a estrutura de diretórios de um site através do Robots.txt

Observando alguns log’s em um servidor de uma determinada empresa em um processo de auditoria interna que tive a oportunidade de fazer, verifiquei que algumas técnicas comuns são executadas por scripts que ficam vasculhando a internet em busca de informações.

No log gerado dos acessos ao serviço de Web, nesse caso um IIS (Internet Information Service), verifiquei uma excessiva requisição “GET” no qual o final do endereço pesquisado tinha “/robots.txt”. Notei que não só essa empresa mas que em diversos sites é comum ter esse arquivo publicado, inclusive sites com alto nível de acessos, como o Terra e o Google.

Experimente digitar http://www.terra.com.br/robots.txt e http://www.google.com.br/robots.txt e verá a lista de serviços que estão ativos e publicados na internet (mas que estão bloqueados ou liberados para robôs de busca).

Com o resultado dessa busca, temos a informação valiosa de quais serviços ou diretórios estão publicados e em funcionamento, aumentando consideravelmente os riscos para que atacantes encontrem alguma pasta com falha nas permissões do diretório, e assim, alterar não só o site da organização mas prejudicar a imagem de uma empresa que levou tanto tempo para se firmar no mercado e demonstrar confiança nos seus negócios.

Não pense que o ato de vasculhar sites em busca de sites mal configurados é feito por pessoas, isso demandaria muito tempo em referência aos milhares de sites que existem na internet. Basta criar um script para executar essa pesquisa e pronto, tudo fica mais fácil e rápido. É assim que as coisas funcionam na área da tecnologia.

Portanto, cuidado com as configurações de seu site. A qualquer momento, você poderá ser “visitado” por um desses scripts que ficam sendo executados na internet 24h por dia.

5 Comentários

Eduardo Tomazett setembro 8, 2010 às 1:49 pm

Muito bom vc ter exposto aqui o robots.txt, conheço ele há algum tempo e utilizo principalmente para fazer mirrors de sites que eu gosto e tenho preguiça de ficar fazendo downloads.
Agora… qto tempo será que vai levar para alguém reclamar dos links “quebrados” ? 🙂

Roney Médice setembro 8, 2010 às 1:59 pm

Eduardo,
A questão dos links quebrados realmente é difícil responder quanto ao tempo. Mas eu aconselho realmente que os administradores de sites não utilizem o robots.txt
Abraços,

Jackson Caset setembro 9, 2010 às 3:20 pm

Thiago,
Realmente não entendemos o que achou engraçado… ainda mais por não abrir nada no site que vc linkou em seu comentário.
Se vc estiver se referindo ao Robots.txt do PTI (http://www.profissionaisti.com.br/robots.txt) vai ver que não temos uma lista de diretórios como os do Terra e Google, ou seja, não expomos os diretórios que existem abaixo de nosso usuário no servidor.
Obrigado pela participação. Abraço!

Profissionais TI - Pra quem respira informação