Projeto de Pesquisa
A conversão para o formato .arff foi feita usando a classe TextDirectoryLoader, na interface de linha de comando do weka: java weka.core.converters.TextDirectoryLoader -dir txt_sentoken > polarity.arff
Primeiramente vamos converter os textos para atributos binários. Em preprocess, Selecione o filtro
StringToWordVector sem modificações. O texto agora foi convertido para vários (mais de mil) atributos binários.
Vamos agora usar um filtro para reter apenas os 100 melhores atributos. Marque a classe novamente como sendo o @@class@@ (ela pode ter mudado depois da aplicação do primeir filtro) e selecione o filtro AtributeSelection. Dentro das opções, selecione InfoGainAtributeEval em evaluator, e Ranker em search, indicando o número de atributos a reter como 100.
Vamos agora para a aba “cluster”. Selecione o algoritmo SimpleKmeans, e marque também a opção
“class to cluster evaluation”, e execute o kMeans. Esse processo faz com que a classe não seja para construir os grupos, mas é levada em consideração após para ajudar a entender como os grupos foram gerados. Oberserve que cada cluster pode ter ficado mais relacionado a uma das classes, e que palavras podem estar mais relacionadas a um dos clusters do que a outro.
Vamos voltar agora para preprocess, e usar o filtro NumericToBinary. Após a aplicação desse filtro, vamos para “Associate”. Selecione o algoritmo Apriori, e marque o número de regras para 50. Essa tarefa irá gerar associações de palavras frequentes na coleção.
Agora