Projeto de Pesquisa

395 palavras 2 páginas
Neste exercício iremos usar minerção de textos para analisar opiniões a respeito de reviews (criticas) de filmes feitas pelos usuários. Faça o download e abra o arquivo polarity.arff no TIDIA. Esse arquivo contém 1000 reviews considerados “positivos” e 1000 reviews considerados “negativos”. Esses reviews foram coletados por pesquisadores da Universidade de Cornell, nos EUA. Mais informações podem ser consultadas no link http://www.cs.cornell.edu/people/pabo/movie-review-data/
A conversão para o formato .arff foi feita usando a classe TextDirectoryLoader, na interface de linha de comando do weka: java weka.core.converters.TextDirectoryLoader -dir txt_sentoken > polarity.arff
Primeiramente vamos converter os textos para atributos binários. Em preprocess, Selecione o filtro
StringToWordVector sem modificações. O texto agora foi convertido para vários (mais de mil) atributos binários.
Vamos agora usar um filtro para reter apenas os 100 melhores atributos. Marque a classe novamente como sendo o @@class@@ (ela pode ter mudado depois da aplicação do primeir filtro) e selecione o filtro AtributeSelection. Dentro das opções, selecione InfoGainAtributeEval em evaluator, e Ranker em search, indicando o número de atributos a reter como 100.
Vamos agora para a aba “cluster”. Selecione o algoritmo SimpleKmeans, e marque também a opção
“class to cluster evaluation”, e execute o kMeans. Esse processo faz com que a classe não seja para construir os grupos, mas é levada em consideração após para ajudar a entender como os grupos foram gerados. Oberserve que cada cluster pode ter ficado mais relacionado a uma das classes, e que palavras podem estar mais relacionadas a um dos clusters do que a outro.
Vamos voltar agora para preprocess, e usar o filtro NumericToBinary. Após a aplicação desse filtro, vamos para “Associate”. Selecione o algoritmo Apriori, e marque o número de regras para 50. Essa tarefa irá gerar associações de palavras frequentes na coleção.
Agora

Relacionados

  • projeto de pesquisa
    1748 palavras | 7 páginas
  • Projeto de pesquisa
    1975 palavras | 8 páginas
  • projeto de pesquisa
    1596 palavras | 7 páginas
  • Projeto de pesquisa
    2223 palavras | 9 páginas
  • PROJETO DE PESQUISA
    321 palavras | 2 páginas
  • O projeto de pesquisa
    1602 palavras | 7 páginas
  • projeto pesquisa
    292 palavras | 2 páginas
  • PROJETO DE PESQUISA
    1593 palavras | 7 páginas
  • Projetos de pesquisa
    415 palavras | 2 páginas
  • Projeto de pesquisa
    1706 palavras | 7 páginas