Kdd e dm
HISTÓRICO
Década de 60: Coleções de dados, criação de BD
Década de 70: Modelos de dados relacionais, implementação de DBMS relacionais
Década de 80: RDBMS, modelos avançados de dados (relacional estendido, OO, dedutivo etc.) e DBMS orientados à aplicação (espaciais, científicos, de engenharia etc.).
Década de 90: Data mining e data warehousing, bases de dados multimídia, e tecnologia Web
KDD E MINERAÇÃO DE DADOS
Data Mining – Parte de um processo maior (KDD) interessado em:
Melhoria no desempenho
Representação inteligível
Conhecimento obtido interessante, inovador
MOTIVAÇÕES PARA DM
Abundância de dados industriais e comerciais
Foco competitivo – Gerenciamento do conhecimento
Computadores poderosos e baratos
Fundamentos avançados em Aprendizagem de máquina & lógica
Estatística
Sistemas de gerenciamento de BD
CARACTERÍSTICAS DESEJÁVEIS DO CONHECIMENTO A SER DESCOBERTO Correto (tanto quanto possível)
Compreensível por usuários humanos
Interessante/útil/novo (surpreendente)
Cadeia de valores
1.Dados: cliente, demográfico, geográfico
2.Informação: x vive com z, x e s mudaram de local
3. Conhecimento: quantidade y de produto
4.Decisão: evitar propagandas para família de perfil p, vender serviço b
KDD X DM
KDD (“Knowledge Discovery in Databases”) é a seleção e o processamento de dados para:
Identificar conhecimento novo, preciso e útil, & Modelar fenômenos do mundo real Mineração de Dados (“Data Mining”) é o principal componente do processo KDD – descoberta de conhecimento em BD
Processo KKD:
1.Estados
Dados originais ->dados consolidados->dados preparados-> padrões modelo->conhecimento
2.processo
consolidação de dados, seleção e pre processamento, data mining, interpretação e avaliação
PASSOS EM DM
Seleção e Pré-Processamento
Limpeza dos dados: (pode exigir 60% do tempo total)
Redução de dados:
Encontrar características úteis, redução de