Estatística
O modelo de regressão linear
A regressão linear é um modelo matemático usado para estudar a relação entre duas variáveis - uma contínua e outra contínua ou ordinal - e a partir do qual se tenta prever os valores de uma das variáveis em função da outra.
Já vimos anteriormente que a correlação é usada para medir a 'força' da relação linear entre duas variáveis. A regressão linear é usada para estudar a natureza dessa relação. Ao contrário da correlação, é necessário distinguir qual a variável que se tenta prever (variável dependente) e a variável que prevê (variável independente).
No estudo sobre o consumo de vegetais e taxa de mortalidade por cancro do estômago, a situação mais natural é tentar prever qual a taxa de mortalidade (variável dependente) para um determinado consumo de vegetais (variável independente) e não o contrário. Figura 3
A definição do papel de cada variável é importante pois o modelo resultante depende dessa escolha ainda que a correlação seja igua nas duas situações. Ou seja, o modelo para prever a mortalidade para o consumo de vegetais é distinto do modelo para prever o consumo de vegetais através da mortalidade. Figura 4
Graficamente o modelo de regressão linear é apresentado como a recta que melhor aproxima a relação entre a variável dependente e a variável independente. Esta recta já tinha sido usado para se ter ideia da magnitude da correlação (figura 3 e figura 4), mas nada foi dito quanto à sua construção.
A representação matemática do modelo é então, a equação dessa recta: y = b0 + b1*x, onde b0 é a ordenada na origem (onde a recta se cruza com o eixo dos Y) e b1 é o declive da recta
No exemplo estudado a equação pode ser traduzida para, tx mortalidade = b0 + b1 * consumo de vegetais Figura 7
Para definir esta recta, basta então encontrar os coeficientes b0 e b1. Estes valores são calculados de tal maneira que a soma das distâncias indicadas na figura 7 à recta seja a