artigo sobre o uso da deepweb
Graduação em Sistemas de Informação
Jéssica Joyce Menezes dos Santos
Rafael Santos
Ricardo Marçal Silva
Saulo Fonseca Pessoa
DEEPEC: UMA ABORDAGEM PARA EXTRAÇÃO E CATALOGAÇÃO DE CONTEÚDO PRESENTE NA DEEP WEB
2015
Contagem
INTRODUÇÃO
Os motores de busca tradicionais utilizam técnicas que rastreiam as páginas na Web através de links HTML. Porém a maior parte da Web não é acessada por essas técnicas. A parcela da Web não acessada é chamada de Web oculta. Para se ter acesso às informações de bancos de dados escondidos e seus formulários de acesso na Web, são necessários sistemas para a sua descoberta, como por exemplo, focused crawlers, meta searchers e sistemas de integração de dados na Web. Porém, após a descoberta, se faz necessária a utilização de técnicas de extração dos dados exibidos nas páginas e sua catalogação, visando facilitar o posterior acesso dos usuários a essas fontes de dados. Esta atividade de extração é complexa devido à existência de uma grande variedade de Websites com padrões diferenciados para a exibição do conteúdo desses bancos de dados, bem como a existência de muitas informações irrelevantes (menus, anúncios, etc.) que dificultam o reconhecimento do que realmente é relevante dentro do universo de informações que é apresentado (Meng et al. 2010).
O interesse pela Deep Web existe devido ao fato de seu conteúdo ser a principal fonte de dados estruturados na Web a disposição. Não aproveitar esses dados é um desperdício, pois existe a possibilidade de utilizá-los em aplicações de busca de dados na Web com base nos seus dados/metadados, sistemas integrados de busca/prestação de serviços e mesmo busca por formulários Web similares a um dado formulário, dentre outros.
A principal justificativa para este trabalho é a criação de um banco de dados da Deep Web que possa servir de base para diversos serviços, como por exemplo:
Criação de sistemas de busca na Deep Web a partir de