Modelagem Estatística para recuperação da informação

2715 palavras 11 páginas
Statistical Machine Learning for Information Retrieval
Edmilson Faria Rodrigues and Marcelo Ladeira
Department of Computer Science – University of Brasilia (UnB)
P.O. Box 4.466, ZIP Code 70.919-970, Brasília–DF, Brazil edmilson@cic.unb.br, mladeira@unb.br
Abstract. In this paper we present a new approach for estimate similarities between words based on Expectation Maximization algorithm, witch guess initial values for the probability of occurrence of a word of the title given a word of the text of an article and re-estimate these values iteratively based on the co-occurrence of these words over the whole corpus. The accomplished experiments used a subset of the Medline TREC corpora and the results obtained so far are comparable to those obtained with the state-of-the-art theoretically-founded models for Information Retrieval.
Keywords: Information Retrieval, Statistical Language Modelling, Expectation Maximization, Knowledge Representation.
Introduction
Uma das principais causas para a baixa precisão em sistemas de recuperação da informação é a utilização de modelos de recuperação baseados no casamento exato da palavra da consulta com a palavra do documento. Esta abordagem pressupõe que o usuário tenha conhecimento da forma em que estão empregados nos documentos os termos que ele procura, o que, em geral, não é uma premissa válida. A técnica de expansão de consultas procura solucionar tal problema por meio da ampliação da consulta originalmente apresentada pelo usuário com os termos mais freqüentes encontrados nos documentos recuperados com a consulta apresentada pelo usuário. No entanto, não é possível afirmar que os termos mais freqüentes nos documentos recuperados na primeira consulta estejam necessariamente relacionados com os termos apresentados pelo usuário. Além disso, somente através de experimentos práticos e que variam de uma base para outra é possível determinar o quanto cada consulta deve ser expandida. Outra abordagem que busca solucionar o

Relacionados

  • Matematica a gestao de empresas
    1689 palavras | 7 páginas
  • FERRAMENTAS PARA MODELAGEM DE SISTEMAS AMBIENTAIS
    1269 palavras | 6 páginas
  • Data warehoute
    5013 palavras | 21 páginas
  • Banco de dados i
    8485 palavras | 34 páginas
  • trabalho
    1739 palavras | 7 páginas
  • trabalho
    1598 palavras | 7 páginas
  • Modelagem e simulação de reservatórios, Perfilagem de poços e Engenharia de reservatório (resumo)
    725 palavras | 3 páginas
  • Data warehouse
    890 palavras | 4 páginas
  • Comparativo Entre Banco De Dados Como Arquivo Convencional E Um SGBD
    2272 palavras | 10 páginas
  • O impacto da crise financeira mundial no setor de energia elétrica brasileiro: um estudo empírico sobre o risco e retorno do índice de energia elétrica (iee).
    7111 palavras | 29 páginas