Correlaçao e regressao
Introdução
Iniciaremos o estudo de métodos para lidar com relações entre duas variáveis.
Introdução
Quando consideramos observações de duas variáveis surge um novo problema: as relações que podem existir entre as variáveis estudadas.
Introdução Para estudar as relações entre duas variáveis, utilizaremos os conceitos fundamentais de correlação e regressão.
Definição Existe uma correlação entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra.
Exemplo
Uma pesquisa constatou uma maior incidência de leucemia em crianças que viviam a 300 metros de linhas de força de alta tensão.
Exemplo
Variação do comprimento de uma barra de aço conforme a temperatura.
Temperatura 10 15 20 25 30
Comprimento 1.003 1.005 1.010 1.011 1.014
Diagrama de dispersão
1.016 1.014 1.012 1.01 1.008 1.006 1.004 1.002 0 10 20 temperatura 30 40
comprimento
Tipos de correlação
Forte correlação linear positiva
60 50 40 30 20 10 0 0 10 20 30 40
Correlação linear positiva
60 50 40 30 20 10 0 0 10 20 30 40
Correlação linear negativa
25 20 15 10 5 0 0 5 10 15
Forte correlação linear negativa
25 20 15 10 5 0 0 5 10 15
Não há correlação
50 40 30 20 10 0 0 5 10 15
Correlação não linear
10 8 6 4 2 0 0 1 2 3 4 5 6
Coeficiente de correlação linear ( r )
Mede a intensidade da relação linear entre os valores quantitativos emparelhados x e y em uma amostra. Calculado da seguinte forma:
r
n( x 2 ) ( x ) 2 n( y 2 ) ( y ) 2
n xy ( x)( y )
Propriedades
O valor de r está sempre entre 1 e -1, inclusive. O valor de r não varia para escalas diferentes. O valor de r não é afetado se trocar a variável x por y, e vice versa. r mede a intensidade apenas de uma relação linear.
Equação da regressão
Dada uma coleção de dados amostrais emparelhados, a equação de regressão Y = b0 +b1x descreve algebricamente a relação entre as