Web crawlers
Este trabalho tem como intuito demonstrar as características e funcionalidades de um Web Crawler, com o intuito de demonstrar como este pode ser aplicado em diversas áreas com o intuito de obter informações e até mesmo mapear uma determinada gama de sites. Muito utilizado por empresas que possuem engine de busca como o Google, devido a necessidade de obter dados e indexar todos estes sites.
2. Web Crawlers
2.1. O que são e para que servem? Os Web Crawlers são programas automatizados ou scripts com o intuito de escanear determinadas páginas com o intuito de efetuar varreduras na internet de maneira sistemática através da informação vista como importante a sua função. Podem também ser chamados de spiders e robôs. Seu funcionamento é basicamente a captura dos textos com o objetivo de construir uma lista de palavras e frases e assim alimentar um banco para as próximas buscas, outra informação obtida são os novos links encontrados que possibilitam novas consultas, esta funcionalidade proporciona uma das bases das Search Engines utilizadas no mercado. Web Crawlers também são utilizados para efetuar tarefas de manutenção automatizadas em um site, checando links e validando o código gerado. Este também é utilizado por pesquisadores de mercado, tendo em vista seu poder de obter um tipo específico de informação, um exemplo desta utilização são sistemas de e-mail que tentam encontrar e-mails qualificados como spam.
2.2. Dificuldade da utilização
Devido a dinamicidade da Web, os Web Crawlers podem ter algumas dificuldades em mapear a mesma, além deste ponto o grande volume e a geração de páginas dinâmicas aumentam tal dificuldade.
2.3. Escalonamento
Devido as dificuldades mostradas no item anterior surgiu a necessidade da criação de técnicas de escalonamento com o intuito de uma busca mais eficiente, este coordena as ações dos coletores e garante que não haverá coletas repetidas.
2.4. Robots.txt
Arquivo que deve