Data mining
DATA MINING é o processo de exploração e análise, por meios automáticos ou semi-automáticos, de grandes quantidades de dados com vista a descobrir padrões e regras que sejam importantes para conhecer os dados. Ou DM é o processo de seleccionar, modificar, modelar e avaliar uma grande quantidade de dados que pode trazer vantagens a nível empresarial. Ou seja, DM é o processo de procura e descoberta de relações não previstas à priori e de padrões, existentes em grandes volumes de dados, que se traduzem em conhecimento de elevado valor para uma organização.
Passos de DM: A partir de fontes de dados (banco de dados, relatórios) efectua-se uma limpeza (consistência de ruído). Disto nascem os repositórios organizados (Data Marts e DW). É através deles que se pode seleccionar algumas colunas que atravessarem o processo de mineração.
Etapas do DM: Exploração; construção de modelo ou definição do padrão; validação e verificação.
Equipa ideal: um projecto de DM deve ter sempre 3 vertentes: Informático (preparação dos dados); Analista de negócio (interpretação dos resultados); Sponsor (implementação das conclusões encontradas) para além de ser aquele que paga o projecto tem de que ser aquele que o põe em andamento.
Técnicas de Data Mining:
Clustering: grupos ou conjunto de indivíduos com características similares;
Classificação e Previsão: probabilidade da associação de fraude;
Associação: do cliente que compra leite, 55% compram tb algum produto perecível, e dos quais 42% tb compram pão;
Padrões sequenciais: padrões de comportamentos ou transacções fraudulentas, prever qual o passo seguinte e dentro de qto tempo; padrões sequenciais similares.
Tipos de problemas/tarefas no DM:
Métodos predictivos: Estes métodos usam algumas variáveis para prever valores futuros ou desconhecidos de outras variáveis. Ex: Classificação, Regressões, Detecção de desvios;
Métodos descritivos: Estes métodos tentam descobrir padrões (facilmente