filtração
Medidas de dispersão
Um aspecto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro da amostra.
Supondo ser a média, a medida de localização mais importante, será relativamente a ela que se define a principal medida de dispersão - a variância, apresentada a seguir.
Variância
Define-se a variância, como sendo a medida que se obtém somando os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra menos um.
Desvio-padrão
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados.
Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são: o desvio padrão será maior, quanta mais variabilidade houver entre os dados.
Distribuição Normal
A distribuição normal é a mas importante distribuição estatística, considerando a questão prática e teórica. Já vimos que esse tipo de distribuição apresenta-se em formato de sino, unimodal, simétrica em relação a sua média.
Considerando a probabilidade de ocorrência, a área sob sua curva soma 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos.
68,26% => 1 desvio
95,44% => 2 desvios
99,73% => 3 desvios
Na figura acima, tem as barras na vertical representando os desvios padrões. Quanto mais afastado do centro da curva normal, mais área compreendida abaixo da curva haverá. A um desvio padrão, temos 68,26% das observações