Web crawler
CENTRO TECNOLÓGICO
DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA
CURSO DE SISTEMAS DE INFORMAÇÃO
RELATÓRIO WEB CRAWLERS
FLORIANÓPOLIS, 2013
1
SUMÁRIO
1. Introdução…………………………………………………………………………………….3
2. Desafios………………………………………………………………………………………4
3. Políticas……………………………………………………………………………………….5
a. Seleção……………………………………………………………………………….5
i.
Similarity to a Driven Query………………………………………………..5 ii. Backlink count………...…………………………………………………….5 iii. PageRank……………………………………………………………………5 iv. Forward Link Count…………………………………………………………6
v.
Location Metric………………………………………………………………6
b. Revisita……………………………………………………………………………….6
i.
Freshness……………………………………………………………………7 ii. Age…………………………………………………………………………...7
c. Cortesia……………………………………………………………………………….7
d. Paralelização…………………………………………………………………………8
i.
Overlap……………………………………………………………………….8 ii. Quality………………………………………………………………………...8 iii. Comunication bandwith……………………………………………………...8 iv. Scalability………………………………………………………………….….8
v.
Networkload dispersion………………….………………………………….8 vi. Networkload resuction………………………………………………………8
4. Arquitetura…………………………………………………………..…………………...…….8
a. Coletores………………………………………………………………………………9
b. Servidor de armazenamento………………………………………………………...9
c. Servidor de nomes…………………………………………………………………..10
d. Escalonador………………………………………………………………………….10
5. Identificação………………………………………………………………………………..…11
6. Recomendações……………………………………………………………………………..11
7. Exemplos……………………………………………………………………………………..12
8. Referências…………………………………………………………………………………..12
2
1. INTRODUÇÃO
Hoje a internet possui cerca de 3.77 bilhões de páginas indexadas, esse grande número de informações é originado pelo crescente avanço nas tecnologias da informação e comunicação.
Além das páginas web, é crescente o número de emails, ebooks, logs de sistema, currículos, manuais dos mais diversos tipos, relatórios, entre outros tipos