Mineração de textos
1
A Tecnologia de Mineração de Textos
(Artigo tutorial)
Christian Aranha, Emmanuel Passos Lab.ICA Elétrica PUC-Rio
Resumo
Mineração de textos, também conhecido como mineração de dados textuais ou descoberta de conhecimento de bases de dados textuais, em geral, se refere ao processo de extração de informações de interesse e padrões não-triviais ou descoberta de conhecimento em documentos de texto não-estruturados. Pode ser visto como uma extensão da mineração de dados ou da descoberta de conhecimento em bases de dados estruturadas. Como muitas informações (mais de 80%) estão armazenadas em formato texto, acredita-se que as técnicas de mineração de textos possuam um grande valor comercial. O objetivo deste tutorial é apresentar algumas técnicas de mineração de textos, bem como casos de uso e resultados obtidos Palavras chave: Mineração de textos, Sistemas de Informação Inteligentes, Mineração de dados
Abstract
Text mining, also known as text data mining or knowledge-discovery in text (KDT), refers generally, to the process of extracting interesting and non-trivial information and knowledge from unstructured text. It can be seen as an extension of data mining or knowledge discovery in structured databases. As most information (over 80%) is stored as text, text mining is believed to have a high commercial potential value. The objective of this tutorial is present some techniques of text mining, as well as study cases and their results. Key-words: Text mining, Data minig, Intelligent information sysems
1. Introdução
Mineração de textos, também chamado de mineração de dados textuais ou descoberta de conhecimento de bases de dados textuais é um campo novo e multidisciplinar que inclui conhecimentos de áreas como Informática, Estatística, Linguística e Ciência Cognitiva. Mineração de textos consiste em extrair regularidades, padrões ou tendências de grandes volumes de textos em linguagem