Trabalho de Modelos Lineares
OBJETIVO
Ajustar um modelo de regressão linear simples que explique a Renda Média domiciliar per capita dos municípios do Estado Rio de Janeiro através das Taxas de Analfabetismo dos mesmos. O estudo será baseado em dados coletados pelo IBGE de 92 municípios do Estado no ano de 2010.
GRÁFICO DISPERÇÃO
Começaremos nossa análise com um simples gráfico de dispersão da Renda Média e Taxa de Analfabetismo, renomeadas RM e TA, respectivamente. Já está incluso no gráfico a reta do modelo linear gerado no R.
No R:
#gráfico de dispersão plot(RM~TA, data=data1,main="Gráfico de Dispersão - TA x RM", pch=3) modelo<- lm(RM~TA, data=data1) abline(modelo,col="red") Observando o gráfico de dispersão, verifica-se uma aparente relação inversa entre as variáveis. Ou seja, maiores taxas de analfabetismo parecem estar relacionadas a uma menor renda média domiciliar per capita. Dois possíveis “Outliers” estão presentes no gráfico.
Observando o BoxPlot da Renda Média, conclui-se que realmente são“outliers”. Os dois valores que se destacam do resto no gráfico de dispersão são os municípios do Rio de Janeiro e Niterói.
O modelo ajustado é um modelo de regressão linear simples do tipo
RM Estimado = 906.094 -34.396*TA
De fato, sob este modelo a RM estimada e a observada estão muito distantes:
Município
TA
RM Observada
RM estimada
330455 Rio de Janeiro
2.7
1421.76
813.2248
330330 Niterói
2.3
1951.11
826.9832
Apesar da possibilidade de eliminação destas duas observações nos traria um modelo mais preciso sem “ oultiers”, esse método seria mais indicado para os casos onde há suspeita de que as mesmas teriam sido geradas por erros na captação dos dados ou situações similares. Como esse não parece ser o caso, optamos por não usar este método.
COEFICIENTE DE CORRELAÇÃO Ao calcular os coeficientes de correlação linear temos:
Pearson: -0.5623749
Spearman: -0.6352692
Kendall: -0.4752342
Mais uma vez pode se observar uma relação Linear