tutorial weka
Introdução
O Weka contém algoritmos de clusterização para encontrar grupos de casos semelhantes em um conjunto de dados.
Alguns dos esquemas de agrupamento disponíveis no WEKA são: k-Means, EM, Cobweb, X-means, FarthestFirst. Após a execução, os clusters podem ser visualizados e comparados aos clusters "verdadeiros" (se houverem).
Para o exercício nós vamos usar os dados de consumidores encontrados no arquivo “consumidores.arff” e analiza-los com o algoritmo k-Means.
Descrição do Problema
Uma empresa internacional de catálogo on-line quer agrupar os seus clientes com base em características comuns. A administração da companhia não possui rótulos pré-definidos para estes grupos. Com base no resultado do agrupamento, eles serão alvo de campanhas de marketing e publicidade para os diferentes grupos.
A informação que eles têm sobre os clientes incluem renda, idade, número de filhos, estado civil e escolaridade. Para nosso exercício, vamos utilizar uma parte do banco de dados para clientes de uma filial.
Dependendo do tipo de publicidade, nem todos os atributos são importantes. Por exemplo, suponha que a publicidade é para uma venda especial em roupas infantis. Vamos direcionar a publicidade só às pessoas com crianças pequenas. O agrupamento que você vai realizar neste exercício é o seguinte:
O primeiro grupo de pessoas tem filhos pequenos e um diploma do ensino médio
O segundo grupo não tem filhos, mas tem um grau do ensino médio.
O terceiro grupo tem duas crianças e um diploma universitário.
O quarto grupo tem maior renda e, pelo menos, um diploma universitário.
O quinto grupo tem crianças e maior grau.
Agrupamento diferente teria sido encontrado pelo exame idade ou estado civil.
Procedimentos
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
Na aba “Preprocess” clique em “Open file...” e selecione “consumidores.arff”.
Clique na aba “Cluster”.
Na caixa “Clusterer” clique em “Choose”.
Selecione o algoritmo “SimpleKMeans”.
Uma vez