An lise de Agrupamentos apostila
12. ANÁLISE DE AGRUPAMENTOS (CLUSTER ANALYSIS)
12.1. INTRODUÇÃO
Muitas vezes, os procedimentos exploratórios são muito úteis para nos ajudar a entender a complexa natureza das relações multivariadas. Nesta aula, discutiremos algumas formas adicionais de apresentar os dados baseadas em certas medidas de distância e sugeriremos algumas regras (algoritmos) para agrupar objetos (variáveis ou itens). Buscar uma estrutura de agrupamento natural dos dados é uma importante técnica exploratória. Os agrupamentos também podem fornecer um meio informal para identificar outliers e sugerir hipóteses interessantes com respeito às relações entre os indivíduos. O agrupamento (clustering) é diferente do método de classificação discutido anteriormente (aula 13). A classificação envolve um número conhecido de grupos e o objetivo operacional é designar novas observações a um desses grupos. A análise de agrupamentos é uma técnica mais primitiva, na qual nenhuma suposição é feita sobre o número de grupos ou a estrutura dos grupos. O agrupamento é feito com base em medidas de similaridades ou distâncias (dissimilaridades). As entradas (inputs) necessárias são medidas de similaridade ou dados para os quais serão calculadas as similaridades. Um problema natural das técnicas de análise de agrupamento é a definição de uma boa medida de proximidade entre as unidades amostrais, uma vez que as técnicas baseadas em diferentes medidas de proximidade nem sempre levam aos mesmos re-sultados. Dado um conjunto de n unidades amostrais (tratamentos, genótipos, objetos, indivíduos, entidades etc.) sobre as quais são medidas p variáveis, a análise de agrupamento tem como objetivo obter um esquema que possibilite reunir as unidades em um número de grupos, de tal modo que exista uma grande homogeneidade dentro de cada grupo e uma heterogeneidade entre os grupos.
Esse tipo de análise visa propor uma estrutura classificatória ou reconhecer a existência de grupos homogêneos e sua aplicação tem sido