Modelagem Estatística para recuperação da informação

2715 palavras 11 páginas

Statistical Machine Learning for Information Retrieval
Edmilson Faria Rodrigues and Marcelo Ladeira
Department of Computer Science – University of Brasilia (UnB)
P.O. Box 4.466, ZIP Code 70.919-970, Brasília–DF, Brazil edmilson@cic.unb.br, mladeira@unb.br
Abstract. In this paper we present a new approach for estimate similarities between words based on Expectation Maximization algorithm, witch guess initial values for the probability of occurrence of a word of the title given a word of the text of an article and re-estimate these values iteratively based on the co-occurrence of these words over the whole corpus. The accomplished experiments used a subset of the Medline TREC corpora and the results obtained so far are comparable to those obtained with the state-of-the-art theoretically-founded models for Information Retrieval.
Keywords: Information Retrieval, Statistical Language Modelling, Expectation Maximization, Knowledge Representation.
Introduction
Uma das principais causas para a baixa precisão em sistemas de recuperação da informação é a utilização de modelos de recuperação baseados no casamento exato da palavra da consulta com a palavra do documento. Esta abordagem pressupõe que o usuário tenha conhecimento da forma em que estão empregados nos documentos os termos que ele procura, o que, em geral, não é uma premissa válida. A técnica de expansão de consultas procura solucionar tal problema por meio da ampliação da consulta originalmente apresentada pelo usuário com os termos mais freqüentes encontrados nos documentos recuperados com a consulta apresentada pelo usuário. No entanto, não é possível afirmar que os termos mais freqüentes nos documentos recuperados na primeira consulta estejam necessariamente relacionados com os termos apresentados pelo usuário. Além disso, somente através de experimentos práticos e que variam de uma base para outra é possível determinar o quanto cada consulta deve ser expandida. Outra abordagem que busca solucionar o

Modelagem Estatística para recuperação da informação

Relacionados

Matematica a gestao de empresas

FERRAMENTAS PARA MODELAGEM DE SISTEMAS AMBIENTAIS

Data warehoute

Banco de dados i

trabalho

trabalho

Modelagem e simulação de reservatórios, Perfilagem de poços e Engenharia de reservatório (resumo)

Data warehouse

Comparativo Entre Banco De Dados Como Arquivo Convencional E Um SGBD

O impacto da crise financeira mundial no setor de energia elétrica brasileiro: um estudo empírico sobre o risco e retorno do índice de energia elétrica (iee).

Outros Trabalhos Populares