Data mining
Data Mining, ou Mineração de Dados, pode ser entendido como o processo de extração de informações, sem conhecimento prévio, de um grande banco de dados e seu uso para tomada de decisões. É uma metodologia aplicada em diversas áreas que usam o conhecimento, como empresas, indústrias e instituições de pesquisa.
Data Mining define o processo automatizado de captura e análise de grandes conjuntos de dados para extrair um significado, sendo usado tanto para descrever características do passado como para predizer tendências para o futuro.
MINERAÇÃO DE DADOS
Mineração de Dados ou Data Mining (DM) pode ser definido como o processo não trivial de extração de informações implícitas e previamente desconhecidas que são potencialmente úteis para a compreensão efetiva do conjunto de dados em análise [Frawley, 1991 #174]. Tal definição é explicitada formalmente da seguinte forma:
Seja o conjunto D={d1, d2, ..., dn-1, dn} dos dados a serem analisados.
O processo de Mineração de Dados consiste em encontrar :
a) um subconjunto D' de D
b) hipóteses Hu(D', C) sobre D', tais que um usuário U as considere úteis no contexto de uma aplicação C.
As descobertas do processo de DM podem ser aplicadas no gerenciamento de informações, verificação de hipóteses, tomadas de decisão, controle de processos, etc.
Ciclo de Vida O ciclo de vida de DM é visto como um processo de três estágios [John Smith, 1996 #471]: preparação dos dados para mineração, derivação de modelos e utilização do conhecimento obtido a partir dos dados.
A preparação visa melhorar a qualidade e resumir o banco de dados para facilitar a análise e o processo de descoberta. A informação preparada, geralmente, é transferida para um data warehouse onde os dados são mantidos limpos e padronizados através de monitoramento constante. A derivação de modelos de conhecimento de padrões que sejam úteis ao usuário é a segunda etapa do processo. Esta derivação concentra-se na escolha de amostras de