Processamento de Linguagem Natural em notícias jornalísticas
Clayton Martins1
Clayton Oliveira1
Fabiola A. Tolentino1
Henrique Hartleben Starosky1
Wesley Bochi Albino Pires1
Orientador(a): Prof. Dra. Cristiane Otero Reis Salum1
1Universidade Federal do ABC
Santo André
Resumo
Para fazer uma análise aplicada do processamento de linguagem natural, foi escolhido o tema “greve em universidades federais”. O objetivo central deste projeto foi verificar se o léxico de notícias deste tema em 2011 e 2012 é semelhante, comparar os dois corpora e avaliar as diferenças no léxico de ambos além de investigar como relações lexicais podem ser extraídas automaticamente de textos jornalísticos escritos no português do Brasil. No desenvolvimento do trabalho foram utilizados métodos e técnicas de processamento da informação em linguagem natural através de auxílio da, que permitiu a elaboração de listas de frequência, identificação de collocations e listas de itens para lematização. Foram utilizadas as ferramentas NLTK e TreeTagger para a obtenção dos resultados. A partir da comparação dos resultados finais, podemos concluir que o corpus de 2012 apresenta maior frequência das palavras, maior densidade lexical embora o léxico seja bem semelhante ao de 2011.
Palavras-chave: PLN; NLTK; corpus; greve;
Introdução
Segundo Chomsky [1], a linguagem é um “conjunto infinito ou finito de sentenças cada uma de tamanho finito, todas constituídas através de um alfabeto finito de símbolos.” O processamento da linguagem natural (PLN) por sua vez refere-se a um conjunto de técnicas computacionais cujo objetivo é a análise de textos narrativos para a extração de informações, classificação e comparação de dados.[2] Assim, podemos classificar o PLN como uma subárea da inteligência artificial e da linguística que estuda os problemas da geração e compreensão automática de línguas humanas naturais. Por “linguagem natural” nos referimos a