Mineracao na web
LEANDRO BALBY MARINHO
ROSARIO GIRARDI
UFMA – UNIVERSIDADE FEDERAL DO MARANHÃO
DEINF – DEPARTAMENTO DE INFORMÁTICA
GESEC/DEINF, Avenida dos Portugueses, s/n, Campus Universitário do Bacanga,
São Luís - Maranhão - Brasil,
CEP 65080-040
lbalby@uol.com.br rgirardi@deinf.ufma.br Resumo: A Web é hoje a maior fonte de informação eletrônica que dispomos. Entretanto, por causa da sua natureza dinâmica, a tarefa de achar informações relevantes se torna muitas vezes uma experiência frustrante. Muitos esforços de pesquisa têm sido feitos no sentido de sanar esse problema. Um deles é a utilização de técnicas de mineração de dados para a descoberta de informações na Web. Este tutorial apresenta uma visão geral da mineração na Web, as fases do processo e as categorias em que se divide.
Palavras chaves: WWW, Mineração de dados, Recuperação de informação, Descoberta de conhecimento. 1. Introdução
Somos testemunhas do enorme aumento de informações e recursos na Web nos últimos anos. Mais de um bilhão de páginas são indexadas pelos motores de busca [Pal, 2000] e achar a informação desejada pode algumas vezes se tornar uma tarefa penosa. Essa abundância de informações e recursos instigou a necessidade do desenvolvimento de ferramentas automáticas de mineração e descoberta de informações na Web.
De forma geral, a mineração na Web pode ser conceituada como a descoberta e análise inteligente de informações úteis da Web [Cooley, 1997]. Pode-se estar interessado, por exemplo, na informação contida dentro dos documentos da Web – mineração de conteúdo - na informação contida entre os documentos da Web – mineração de estrutura – ou na informação contida na utilização ou interação com a Web – mineração de uso.
Essas são as três categorias em que se divide a mineração na Web, de acordo com a parte da Web a ser minerada.
Para cada classificação são desenvolvidas técnicas e metodologias distintas, muitas delas herdadas de outras áreas disciplinares como Aprendizagem de máquina,