Regressão linear
2. REGRESSÃO LINEAR MÚLTIPLA. GENERALIZAÇÃO
2.1 Introdução
No capítulo anterior exploraram-se os conceitos e técnicas para analisar e utilizar a relação linear entre duas variáveis. Viu-se que esta análise pode conduzir a uma equação que pode ser utilizada para se “predizerem” valores de uma variável dependente (a variável-resposta) dados valores de uma variável independente associada (o regressor). A intuição deixa-nos adivinhar que, geralmente, se pode melhorar esta predição se incluirmos novas variáveis independentes ao modelo (equação) de regressão. Deve, contudo, haver “equilíbrio” entre o número de parâmetros e a “capacidade preditiva” do modelo – princípio da parcimónia. Num modelo de regressão múltiplo, enquanto um número excessivo de parâmetros pode levar a um sobreajustamento dos dados, um número reduzido de parâmetros pode levar a um subajustamento. Os conceitos e técnicas para se analisarem as relações lineares entre uma variável dependente e várias variáveis independentes são uma extensão natural do que foi apresentado no capítulo anterior. Contudo, como é de esperar, os cálculos tornam-se mais complexos. É vulgar encontrar investigadores que trabalham com várias variáveis, facto que hoje em dia é bastante facilitado pela a evolução dos meios informáticos.
2.2 O modelo de regressão linear múltipla
Na regressão linear múltipla assume-se que existe uma relação linear entre uma variável Y (a variável dependente) e k variáveis independentes, x j ( j = 1,..., k ). As variáveis independentes são também chamadas variáveis explicativas ou regressores, uma vez que são utilizadas para explicarem a variação de Y. Muitas vezes são também chamadas variáveis de predição, devido à sua utilização para se predizer Y. As condições subjacentes à regressão linear múltipla são análogas às da regressão linear simples e, por isso, apresentam-se aqui de forma resumida:
• •
As variáveis independentes x j são não-aleatórias (fixas);