Monografia 1
Universidade de S˜ao Paulo
Recupera¸ca˜o de Informa¸c˜oes em
Bancos de Dados Textuais
Aluna: Marcela Ortega Garcia
Orientador: Prof. Dr. Jo˜ao Eduardo Ferreira
1 de dezembro de 2009
Sum´ ario I
T´ ecnica 3
1 Introdu¸c˜ ao 1.1 Recupera¸ca˜o de Informa¸c˜ao . . . . . . . . . . . .
1.1.1 Recupera¸c˜ao de Dados versus Recupera¸ca˜o
1.1.2 Banco de dados textuais . . . . . . . . . .
1.2 Proposta . . . . . . . . . . . . . . . . . . . . . . .
2 Fundamentos
2.1 O processo de recupera¸ca˜o de informa¸co˜es
2.2 Opera¸co˜es em texto . . . . . . . . . . . . .
2.2.1 An´alise l´exica . . . . . . . . . . . .
2.2.2 Elimina¸c˜ao de Stopwords . . . . . .
2.2.3 Stemming . . . . . . . . . . . . . .
2.3 Indexa¸ca˜o . . . . . . . . . . . . . . . . . .
2.3.1 Arquivos invertidos . . . . . . . . .
2.3.2 Vetores de sufixo . . . . . . . . . .
2.3.3 Arquivos de assinatura . . . . . . .
2.4 Modelos de Recupera¸ca˜o de Informa¸c˜ao . .
2.4.1 Modelo Booleano . . . . . . . . . .
2.4.2 Modelo Vetorial . . . . . . . . . . .
3 Alternativas tecnol´ ogicas 3.1 Apache Lucene . . . .
3.1.1 ´Indices . . . . .
3.1.2 Score . . . . . .
3.2 Google . . . . . . . . .
3.2.1 PageRank . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . de Informa¸c˜ao
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.