Segurança: descobrindo a estrutura de diretórios de um site através do Robots.txt

Observando alguns log’s em um servidor de uma determinada empresa em um processo de auditoria interna que tive a oportunidade de fazer, verifiquei que algumas técnicas comuns são executadas por scripts que ficam vasculhando a internet em busca de informações.

No log gerado dos acessos ao serviço de Web, nesse caso um IIS (Internet Information Service), verifiquei uma excessiva requisição “GET” no qual o final do endereço pesquisado tinha “/robots.txt”. Notei que não só essa empresa mas que em diversos sites é comum ter esse arquivo publicado, inclusive sites com alto nível de acessos, como o Terra e o Google.

Experimente digitar http://www.terra.com.br/robots.txt e http://www.google.com.br/robots.txt e verá a lista de serviços que estão ativos e publicados na internet (mas que estão bloqueados ou liberados para robôs de busca).

Com o resultado dessa busca, temos a informação valiosa de quais serviços ou diretórios estão publicados e em funcionamento, aumentando consideravelmente os riscos para que atacantes encontrem alguma pasta com falha nas permissões do diretório, e assim, alterar não só o site da organização mas prejudicar a imagem de uma empresa que levou tanto tempo para se firmar no mercado e demonstrar confiança nos seus negócios.

Não pense que o ato de vasculhar sites em busca de sites mal configurados é feito por pessoas, isso demandaria muito tempo em referência aos milhares de sites que existem na internet. Basta criar um script para executar essa pesquisa e pronto, tudo fica mais fácil e rápido. É assim que as coisas funcionam na área da tecnologia.

Portanto, cuidado com as configurações de seu site. A qualquer momento, você poderá ser “visitado” por um desses scripts que ficam sendo executados na internet 24h por dia.

Roney Medice

Mais artigos deste autor »

Coordenador de Segurança da Informação do Terminal Retroportuário, no Porto de Vitória-ES, com mais de 25 anos de experiência na área. Consultor de Segurança da Informação do Grupo Otto Andrade. Membro Fundador do CSA - Cloud Security Alliance, Membro do Comitê ABNT/CB-21 em Segurança da Informação. Graduado em Ciência da Computação, Direito e MBA em Gestão de Segurança da Informação.


5 Comentários

Eduardo Tomazett
1

Muito bom vc ter exposto aqui o robots.txt, conheço ele há algum tempo e utilizo principalmente para fazer mirrors de sites que eu gosto e tenho preguiça de ficar fazendo downloads.
Agora… qto tempo será que vai levar para alguém reclamar dos links “quebrados” ? 🙂

Roney Médice
2

Eduardo,
A questão dos links quebrados realmente é difícil responder quanto ao tempo. Mas eu aconselho realmente que os administradores de sites não utilizem o robots.txt
Abraços,

Jackson Caset
4

Thiago,
Realmente não entendemos o que achou engraçado… ainda mais por não abrir nada no site que vc linkou em seu comentário.
Se vc estiver se referindo ao Robots.txt do PTI (http://www.profissionaisti.com.br/robots.txt) vai ver que não temos uma lista de diretórios como os do Terra e Google, ou seja, não expomos os diretórios que existem abaixo de nosso usuário no servidor.
Obrigado pela participação. Abraço!

Deixe seu comentário

Seu endereço de e-mail não será publicado. Campos com * são obrigatórios!