Medidas de dispersão
Muitas vezes, a média não é suficiente para avaliar um conjunto de dados. Por exemplo, quando se fala em um grupo de mulheres com idade média de 18 anos. Esse dado, sozinho, não significa muito: pode ser que no grupo, muitas mulheres tenham 38 anos, e outras tantas sejam menininhas de dois!
É importante, então, conhecer outra medida, a de que diferença (dispersão) existe entre a média e os valores do conjunto.
Um aspecto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro da amostra.
Supondo ser a média, a medida de localização mais importante, será relativamente a ela que se define a principal medida de dispersão - a variância, apresentada a seguir.
1. Desvio padrão
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados.
Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são: o desvio padrão será maior, quanta mais variabilidade houver entre os dados.
Se uma variável aleatória toma os valores então o desvio padrão para esta amostra de números (ou desvio padrão amostral) pode ser calculado da seguinte forma. Primeiro calcula-se a média de através de:
(veja notação sigma). Depois, o desvio padrão amostral é calculado como:
A divisão por aparece quando exigimos que a variância amostral seja um estimador não tendencioso da variância populacional
Quando os dados estão agrupados(frequência) temos:
onde é o número de observações diferentes.
2. Variância
O termo variância foi