Segurança: descobrindo a estrutura de diretórios de um site através do Robots.txt

AGRADEÇA AO AUTOR COMPARTILHE!

Observando alguns log’s em um servidor de uma determinada empresa em um processo de auditoria interna que tive a oportunidade de fazer, verifiquei que algumas técnicas comuns são executadas por scripts que ficam vasculhando a internet em busca de informações.

No log gerado dos acessos ao serviço de Web, nesse caso um IIS (Internet Information Service), verifiquei uma excessiva requisição “GET” no qual o final do endereço pesquisado tinha “/robots.txt”. Notei que não só essa empresa mas que em diversos sites é comum ter esse arquivo publicado, inclusive sites com alto nível de acessos, como o Terra e o Google.

Experimente digitar http://www.terra.com.br/robots.txt e http://www.google.com.br/robots.txt e verá a lista de serviços que estão ativos e publicados na internet (mas que estão bloqueados ou liberados para robôs de busca).

Com o resultado dessa busca, temos a informação valiosa de quais serviços ou diretórios estão publicados e em funcionamento, aumentando consideravelmente os riscos para que atacantes encontrem alguma pasta com falha nas permissões do diretório, e assim, alterar não só o site da organização mas prejudicar a imagem de uma empresa que levou tanto tempo para se firmar no mercado e demonstrar confiança nos seus negócios.

Não pense que o ato de vasculhar sites em busca de sites mal configurados é feito por pessoas, isso demandaria muito tempo em referência aos milhares de sites que existem na internet. Basta criar um script para executar essa pesquisa e pronto, tudo fica mais fácil e rápido. É assim que as coisas funcionam na área da tecnologia.

Portanto, cuidado com as configurações de seu site. A qualquer momento, você poderá ser “visitado” por um desses scripts que ficam sendo executados na internet 24h por dia.

AGRADEÇA AO AUTOR COMPARTILHE!

Roney Medice

Mais artigos deste autor »

Coordenador de Segurança da Informação do Terminal Retroportuário, no Porto de Vitória, com mais de 22 anos de experiência na área. Consultor de Segurança da Informação do Grupo Otto Andrade. Membro Fundador do CSA - Cloud Security Alliance, Membro do Comitê ABNT/CB-21 em Segurança da Informação. Graduado em Ciência da Computação, Direito e MBA em Gestão de Segurança da Informação.


5 Comentários

Eduardo Tomazett
1

Muito bom vc ter exposto aqui o robots.txt, conheço ele há algum tempo e utilizo principalmente para fazer mirrors de sites que eu gosto e tenho preguiça de ficar fazendo downloads.

Agora… qto tempo será que vai levar para alguém reclamar dos links “quebrados” ? :)

Roney Médice
2

Eduardo,

A questão dos links quebrados realmente é difícil responder quanto ao tempo. Mas eu aconselho realmente que os administradores de sites não utilizem o robots.txt

Abraços,

Jackson CasetJackson Caset
4

Thiago,

Realmente não entendemos o que achou engraçado… ainda mais por não abrir nada no site que vc linkou em seu comentário.

Se vc estiver se referindo ao Robots.txt do PTI (http://www.profissionaisti.com.br/robots.txt) vai ver que não temos uma lista de diretórios como os do Terra e Google, ou seja, não expomos os diretórios que existem abaixo de nosso usuário no servidor.

Obrigado pela participação. Abraço!

Deixe seu comentário

Seu endereço de e-mail não será publicado. Campos com * são obrigatórios!

Você pode usar estas tags e atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">