Estati
Mar¸o / 2012 c Estat´ ıstica (UDF)
Clusters
Mar¸o / 2012 c 1 / 26
Introdu¸˜o ca A An´lise de Clusters, tamb´m conhecida como An´lise de Agrupamentos, a e a ´ o nome dado a um conjunto de t´cnicas utilizadas na identifica¸˜o de e e ca padr˜es de comportamento em bancos de dados atrav´s da forma¸˜o de o e ca grupos homogˆneos de casos. e Exemplo: Um empresa deseja conhecer o perfil de seus consumidores.
Para tanto, elabora uma pesquisa na qual ´ feito o levantamento de dados e de uma grande amostra. A an´lise dos dados gera algumas d´vidas: os a u consumidores tˆm um perfil homogˆneo em rela¸˜o `s caracter´ e e ca a ısticas levantadas? Se o perfil n˜o for homogˆneo, ´ poss´ identificar grupos a e e ıvel homogˆneos? Quantos grupos existem? e Estat´ ıstica (UDF)
Clusters
Mar¸o / 2012 c 2 / 26
Medidas de Similaridade e Dissimilaridade
Uma quest˜o importante refere-se ao crit´rio a ser utilizado para se decidir a e at´ que ponto dois elementos do conjunto de dados podem ser e considerados como semelhantes ou n˜o. a Para cada elemento amostral, tˆm-se informa¸˜es de p vari´veis e co a armazenadas em um vetor e a compara¸˜o de diferentes elementos ca amostrais ´ feita atrav´s de medidas matem´ticas. e e a H´ dois tipos de medidas: medidas de similaridade (quanto maior o valor, a maior a semelhan¸a entre os objetos; apropriadas para vari´veis c a qualitativas) e medidas de dissimilaridade (quanto maior o valor, mais diferentes s˜o os objetos; apropriadas para vari´veis quantitativas). a a
Estat´ ıstica (UDF)
Clusters
Mar¸o / 2012 c 3 / 26
Medidas de Dissimilaridade
As distˆncias s˜o as medidas de dissimilaridade mais utilizadas no estudo a a de bancos de dados com vari´veis quantitativas. a A Distˆncia Euclidiana entre dois elementos X i = (X1i , . . . , Xpi )′ e a X j = (X1j , . . . , Xpj )′ ´ definida por: e 1/2
p
′
dij = d (X i , X j ) = (X i − X j ) (X i − X j )
1/2
2
=
(Xki − Xkj ) k =1
A Distˆncia de