Sistema Text Mining
É uma tecnologia para a análise de textos que permite diminuir a “sobrecarga de informações”, descobrir padrões, associações e regras, e realizar análises qualitativas ou quantitativas.
• Qual a sua importância?
Auxiliar na busca de informações específicas, agilizando processos com uso de inteligência.
• Permite
Recuperação de informações
Extração de dados Classificação
Extração de resumos de textos
Stopwords:
São palavras que não demonstram a mínima relevância, não possuem representatividade alguma. Exemplo as vogais.
Keywords:
São as palavras importantes do texto, ignorando-se símbolos e caracteres de controle de arquivo de formatação. Para uma correta determinação das keywords (palavras-chave) é imprescindível que sejam removidas as stopwords. Um dos recursos utilizados para descobrir a importância dessas palavras é calcular a freqüência com que elas aparecem no texto.
Collocations:
São agrupamentos de palavras onde o significado é composto pela soma dos significados das partes mais algum componente semântico adicional. Exemplo: guarda-volume, onde as duas palavras juntas tem um significado. Separadas representam duas outras coisas.
Stemming:
Consiste em reduzir todas as palavras ao mesmo stem, por meio da retirada dos afixos da palavra, permanecendo apenas a raiz dela. Por exemplo, quando a palavra “referência” é transformada no stem “referênc”, ao invés do stem considerado correto “refer”.
Diferença do Data Mining?
A diferença entre o Data Mining e o Text Mining é que, no Text Mining os padrões são extraídos de textos em linguagem natural ao invés de bancos de dados com informações estruturadas. Através do Text Mining é possível, por exemplo: extrair frases de um artigo ou livro que parecem resumir seu conteúdo; analisar currículos e extrair os nomes das pessoas, endereços, habilidades de trabalho, e assim por diante; agrupar textos com conteúdos semelhantes. Existem ainda outras