Clustering of web documents using graph representations
O agrupamento (clustering) é um método que separa uma coleção de vários tipos de objetos em grupos, chamados de agrupamentos. Esse método é um processo não supervisionado, o que significa que não há exemplos para treinos . Há vários algoritmos para agrupamento de arquivos, tais como: k-means, fuzzy c-means, aglomeração hierárquica e a partição gráfica. O método de agrupamento de arquivos é uma importante área de pesquisa por duas razões principais; primeiramente, ao se agrupar vários documentos em suas categorias decorre que será mais fácil de ser procurado em algum arquivo, e também mais simples será seu uso, por segundo, o método de agrupamento, aperfeiçoa a performance de buscas e recuperação de um documento em um aglomerado de documentos. O agrupamento hierárquico, por exemplo, é usado para esse processo de busca e recuperação de arquivos em um grande número de outros tipos de arquivos, já a representação dos documentos por um vetor é mais usado, esse método é mais simples e permite o uso de métodos tradicionais de agrupamento que lidam com vetores numéricos, porém esse método descarta informações, tais como: a ordem em que o termo aparece, em que posição do documento ele está alocado e o quanto distante está um termo de outro. O problema deste método é que ele somente trabalha com vetores de características numéricas devido a necessidade de calcular distancias entre os objetos, que é feito mais facilmente com esses tipos de vetores, porém os arquivos, nesse método, necessitam ser transformados em vetores com valores numéricos, e nessa transformação podem ser descartadas informações uteis ao arquivo. Para resolver esse problema foi feita uma extensão do método clássico de