Data mining através da regra de associação Apriori

Atenção: Este é um resumo de trabalho acadêmico. O trabalho completo, bem como créditos, encontram-se no final deste resumo.

Por meio da mineração de dados é possível analisar e estabelecer relações entre dados que a “olho nu” não seria possível perceber.

data-mining-mineracao-dados-big-data

O Data Mining tem como função a mineração das informações das bases de dados trazendo relações importantes entre os dados. Por intermédio de softwares é possível utilizar técnicas e métodos de Data Mining com o intuito de obter informações importantes a serem analisadas.

Processo de data mining

Processo de data mining

“A mineração de dados pode ser realizada de três diferentes formas, em função do nível de conhecimento que se tenha do problema estudado.” (CARVALHO, 2005, p.15).

Este artigo tem como objetivo demonstrar, por meio de um caso de uso, a utilização da técnica de Data Mining utilizando a regra de associação Apriori. Para a aplicação de tal técnica de mineração, foi utilizado o software WEKA, uma ferramenta gratuita de Data Mining, e o método de mineração é de testagem de hipóteses.

Quando se possui algum conhecimento sobre o campo de atuação da empresa ou alguma ideia sobre que relação nova se está buscando, pode-se definir uma hipótese e verificar sua confirmação ou refutação através da metodologia do data mining denominada testagem de hipóteses. (CARVALHO, 2005, p.15).

Utiliza-se a testagem de hipóteses quando se deseja saber se uma informação ou dado tem relação ou não com a outra (o).

Regra de Associação Apriori

O Algoritmo Apriori foi escolhido como foco do artigo após pesquisas constatarem, tanto na web quanto em vários artigos, que este é um dos mais utilizados algoritmos em mineração de dados para regras de associação.

Este algoritmo trabalha por meio de uma busca aprofundada nos dados gerando conjuntos de padrões, onde os mais frequentes são mantidos e os menos são eliminados.

Metodologia para Desenvolvimento

O WEKA foi configurado para conectar diretamente no banco de dados onde estavam as informações, o que eliminou a necessidade da geração do arquivo ARFF.

O banco de dados, com os dados de natalidade do estado de São Paulo no ano de 2000, foi obtido por meio site do IBGE, onde se encontrava em formato DBF e para uma manipulação mais fácil foi executada a migração para o MySQL. Para o processo de migração da base foi desenvolvida uma pequena aplicação em Delphi, que conecta facilmente com DBF para geração um arquivo SQL com os inserts da tabela original.

Conclusão

Com base nos resultados obtidos após a mineração ser executada, o software foi capaz de encontrar duas associações entre os dados das mães no que diz respeito à idade e o tipo da gravidez das mesmas (ver imagem no trabalho completo disponível no final deste resumo).

As relações encontradas apresentam um nível de confidência (conf) de 0.99, que significa o percentual de ocorrência da mesma e quão confiável ela é, ou seja, as duas relações apresentadas possuem um nível alto de confidência de 99%.


Orientador: João Mauricio Hypólito – FATEC – Campus Ourinhos/SP.
Acadêmicos: Arivaldo Pereira Silva F. e Samuel Bueno da Silva
Artigo acadêmico completo disponível aqui.

Imagem Information concept: magnifying optical glass with words Data via ShutterStock


1 Comentários

Deixe seu comentário

Seu endereço de e-mail não será publicado. Campos com * são obrigatórios!