Datamining
Eduardo Corrêa Gonçalves Escola Nacional de Ciências Estatísticas (IBGE/ENCE) Rua André Cavalcanti, 106, Centro – 20.231-050 – Rio de Janeiro – RJ eduardo.correa@ibge.gov.br
1
Tópicos da Apresentação
PARTE 1: Introdução à Mineração de Dados
Data Mining, Fraldas e Cervejas Tarefas e Técnicas de Mineração de Dados Contexto atual da Mineração de Dados
PARTE 2: Weka – uma Ferramenta Livre para Data Mining
Apresentação da Ferramenta Bases de Dados ARFF Weka em Ação: Minerando um Classificador
2
Parte I. Introdução à Mineração de Dados
• Mineração de dados: empregada em pesquisas científicas desde o início dos anos 90. • Muitas empresas estão se beneficiando da tecnologia com o propósito de alcançar um melhor posicionamento no mercado. • Mas … o que é mineração de dados? Quais são as suas aplicações práticas? • Estas questões são discutidas a seguir!
* HQ originalmente publicada em 03/01/2000. Disponível no site http://www.dilbert.com/.
3
O que é Mineração de Dados?
• Definição simples para mineração de dados (data mining):
•
Processo realizado através de estratégias automatizadas que tem por objetivo a descoberta de conhecimento valioso em grandes bases de dados.
•
Esquema conceitual: um “pequeno diamante de informação” é extraído a partir de uma verdadeira “montanha de dados”!
4
Algoritmos: a Essência da Mineração de Dados
• A mineração de dados baseia-se na utilização de algoritmos capazes de vasculhar grandes bases de dados de modo eficiente e revelar padrões interessantes, escondidos dentro da “montanha de dados”.
• Estudar data mining significa “mergulhar fundo” nos algoritmos! • Trabalhar com data mining consiste em trabalhar com algoritmos! • Utilizar uma ferramenta de data mining significa conhecer e saber manipular os algoritmos que ela disponibiliza!
5
Propriedades Básicas de um “Diamante de Informação”
• O conhecimento descoberto através de processos de