Data Mining, conceitos e aplicabilidades

Data Mining ou Mineração de Dados consiste em um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), na busca de padrões consistentes e/ou relacionamentos sistemáticos entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados.

O processo consiste basicamente em 3 etapas: exploração; construção de modelo ou definição do padrão; e validação/verificação e no mesmo uilizam diversos algoritmos computacionais tais como Segmentação, Classificação e Previsão.

A literatura sobre o assunto trata com mais detalhes todos os passos necessários ao Data Mining. Veja, por exemplo, Groth (1998) e Han, Chen & Yu (1996). Para o escopo do que pretendemos neste artigo é suficiente apresentar os passos fundamentais de uma mineração bem sucedida. A partir de fontes de dados (bancos de dados, relatórios, logs de acesso, transações, etc) efetua-se uma limpeza (consistência, preenchimento de informações, remoção de ruído e redundâncias, etc). Disto nascem os repositórios organizados (Data Marts e Data Warehouses), que já são úteis de diversas maneiras.

Mas é a partir deles que se pode selecionar algumas colunas para atravessarem o processo de mineração. Tipicamente, este processo não é o final da história: de forma interativa/iterativa e frequentemente usando visualização gráfica, um analista refina e conduz o processo até que padrões apareçam.

Observe que todo esse processo parece indicar uma hierarquia, algo que começa em instâncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso. Este é um dos conceitos importantes neste artigo: encontrar padrões requer que os dados brutos sejam sistematicamente “simplificados” de forma a desconsiderar aquilo que é específico e privilegiar aquilo que é genérico. Faz-se isso porque não parece haver muito conhecimento a extrair de eventos isolados.

Uma loja de sua rede que tenha vendido a um cliente em particular uma quantidade impressionante de um determinado produto em uma única data pode apenas significar que esse cliente em particular procurava grande quantidade desse produto naquele exato momento. Mas isso provavelmente não indica nenhuma tendência de mercado. Em outras palavras, não há como explorar essa informação em particular para que no futuro a empresa lucre mais. Apenas com conhecimento genérico é que isto pode ser obtido. Por essa razão devemos, em Data Mining, controlar nossa vontade de “não perder dados”. Para que o processo dê certo, é necessário sim desprezar os eventos particulares para só manter aquilo que é genérico.

Atualmente, as organizações têm se mostrado extremamente eficientes em capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operações diárias ou pesquisas científicas, porém, ainda não usam adequadamente essa gigantesca montanha de dados para transformá-la em conhecimentos que possam ser utilizados em suas próprias atividades, sejam elas comerciais ou científicas.

A rápida taxa de inovação nas tecnologias de informática está exigindo que, cada vez mais, os profissionais estejam preparados e atualizados para conhecer e enfrentar os desafios da Tecnologia da Informação.

O conceito de Data Mining está se tornando cada vez mais popular como uma ferramenta de gerenciamento de informação, que deve revelar estruturas de conhecimento, que possam guiar decisões em condições de certeza limitada. Recentemente, tem havido um interesse crescente em desenvolver novas técnicas analíticas, especialmente projetadas para tratar questões relativas a Data Mining. No entanto, Data Mining ainda está baseado em princípios conceituais de Análise de Dados Exploratórios e de modelagem.

Data Mining é parte de um processo maior de conhecimento denominado Knowledge Discovery in Database (KDD). KDD consiste, fundamentalmente, na estruturação do banco de dados; na seleção, preparação e pré-processamento dos dados; na transformação, adequação e redução da dimensionalidade dos dados; no processo de Data Mining; e nas análises, assimilações, interpretações e uso do conhecimento extraído do banco de dados, através do processo de Data Mining.

Talvez a definição mais importante de mineração de dados tenha sido elaborada por Usama Fayyad (Fayyad et al. 1996): “…o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis”. Esse processo vale-se de diversos algoritmos (muitos deles desenvolvidos recentemente) que processam os dados e encontram esses “padrões válidos, novos e valiosos”. É preciso ressaltar um detalhe que costuma passar despercebido na literatura:

Embora os algoritmos atuais sejam capazes de descobrir padrões “válidos e novos”, ainda não temos uma solução eficaz para determinar padrões valiosos.

Por essa razão, Data Mining ainda requer uma interação muito forte com analistas humanos, que são, em última instância, os principais responsáveis pela determinação do valor dos padrões encontrados. Além disso, a condução (direcionamento) da exploração de dados é também tarefa fundamentalmente confiada a analistas humanos, um aspecto que não pode ser desprezado em nenhum projeto que queira ser bem sucedido. Isso ocorre, principalmente, porque a busca de padrões deve conduzir a um resultado prático claro e definido a prioridade (identificar leis da Natureza, aumentar o faturamento de uma empresa, descobrir padrões de comportamento inadequados, como sonegadores e criminosos etc).

Deixe uma resposta

O seu endereço de email não será publicado Campos obrigatórios são marcados *

*

*

Top