Modelagem Estatística para recuperação da informação
Edmilson Faria Rodrigues and Marcelo Ladeira
Department of Computer Science – University of Brasilia (UnB)
P.O. Box 4.466, ZIP Code 70.919-970, Brasília–DF, Brazil edmilson@cic.unb.br, mladeira@unb.br
Abstract. In this paper we present a new approach for estimate similarities between words based on Expectation Maximization algorithm, witch guess initial values for the probability of occurrence of a word of the title given a word of the text of an article and re-estimate these values iteratively based on the co-occurrence of these words over the whole corpus. The accomplished experiments used a subset of the Medline TREC corpora and the results obtained so far are comparable to those obtained with the state-of-the-art theoretically-founded models for Information Retrieval.
Keywords: Information Retrieval, Statistical Language Modelling, Expectation Maximization, Knowledge Representation.
Introduction
Uma das principais causas para a baixa precisão em sistemas de recuperação da informação é a utilização de modelos de recuperação baseados no casamento exato da palavra da consulta com a palavra do documento. Esta abordagem pressupõe que o usuário tenha conhecimento da forma em que estão empregados nos documentos os termos que ele procura, o que, em geral, não é uma premissa válida. A técnica de expansão de consultas procura solucionar tal problema por meio da ampliação da consulta originalmente apresentada pelo usuário com os termos mais freqüentes encontrados nos documentos recuperados com a consulta apresentada pelo usuário. No entanto, não é possível afirmar que os termos mais freqüentes nos documentos recuperados na primeira consulta estejam necessariamente relacionados com os termos apresentados pelo usuário. Além disso, somente através de experimentos práticos e que variam de uma base para outra é possível determinar o quanto cada consulta deve ser expandida. Outra abordagem que busca solucionar o