INTRODUÇÃO À RECUPERAÇÃO DE INFORMAÇÃO
1 Introdução 3
2 Parâmetros de qualidade na recuperação de informação 4
3 Conceitos básicos 5
3.1 Indexação: 6
3.1.1 Estruturas de indexação 9
3.1.1.1 Estrutura de arquivo invertido 10
3.1.1.2 Estrutura de arquivo de assinaturas 11
3.2 Linguagens de Consulta 12
3.3 Modelos para Recuperação de Informação 15
3.3.1 Modelo Booleano 15
3.3.2 Modelo Vetorial 16
3.3.3 Modelo Probabilístico 20
4 Bibliografia: 23
Recuperação de Informação
1 Introdução
Recuperação de Informação ou Information Retrieval (RI ou IR) lida com a representação, armazenamento, organização e acesso a itens de informação (documentos). A representação e a organização da informação devem dar ao usuário de um Sistema de Recuperação de Informação (SRI) um acesso fácil a informação de seu interesse.
1º problema: Como caracterizar as necessidade de informação do usuário?
Exemplo: Considere uma busca na WWW (World Wide Web), imagine que o interesse do usuário seja por documentos (páginas) contendo informações sobre times de futebol do Brasil, que tenham convênios com empresas privadas e participem de torneios nacionais. Além disso, para ser de interesse a página deve conter informações sobre a classificação deste time no âmbito nacional e regional, o endereço e telefone de contato. É obvio que essa descrição completa das necessidades do usuário não podem ser diretamente escritas numa máquina de busca nos modelos atuais da web.
Primeiro o usuário deve traduzir o que deseja numa forma de consulta (query), que possa ser processada por um SRI. Na sua forma mais comum, esta consulta é escrita utilizando palavras-chave (ou termos de indexação) que resumem a descrição da necessidade de informação do usuário.
Como um usuário pode ter a certeza de que termos escolher?
Dada uma consulta, o principal objetivo do SRI é retornar informações úteis (relevantes) ao usuário. A ênfase é na recuperação de informação e não na recuperação de dados.
Recuperação de dados num SRI