Clusterização
Wesley Pereira da Silva
Barra do Garças- MT, Outubro de 2012
BANCO DE DADOS
Trabalho realizado pelo acadêmico Wesley Pereira da Silva, do curso de Tecnologia em Análise e Desenvolvimento de Sistemas da UNIVAR, como pré-requisito de aprovação parcial bimestral na disciplina de Banco de Dados, sob orientação do Professor Adilson Tavares.
Barra do Garças- MT, Outubro 2012
Clusterização
Para entender o que é clusterização, deve-se entender o conceito de Cluster. Segundo Alecrim (2004) “Cluster pode ser definido como um sistema onde dois ou mais computadores trabalham de maneira conjunta para realizar processamento pesado.” Ou seja, os computadores trabalham como se fossem um.
Então, clusterização é a classificação não supervisionada de dados, formando agrupamentos, ou clusters. Ela representa uma das principais etapas do processo de análise de dados, denominada análise de clusters.
A clusterização é um método que utiliza o aprendizado não supervisionado ou auto-organizável, ou seja, não há um “professor” ou “crítico” que lhe indique o que cada padrão representa.
A atividade de clusterização normalmente envolve: * Representação dos padrões (podendo incluir extração ou seleção de características); * Definição de uma medida de similaridade apropriada ao domínio da aplicação; * Clusterização ou agrupamento; * Apresentação do resultado.
Existem vários tipos de cluster, no entanto há alguns que são mais conhecidos, como: * Cluster de Alto Desempenho: Também conhecido como cluster de alto desempenho, ele funciona permitindo que ocorra uma grande carga de processamento com um volume alto de gigaflops em computadores comuns e utilizando sistema operacional gratuito, o que diminui seu custo. * Cluster de Alta Disponibilidade: São clusters os quais seus sistemas conseguem permanecer ativos por um longo período de tempo e em plena condição de uso. Sendo assim, podemos dizer que eles nunca param seu funcionamento; além