Regressão Logística
Propriedades
Geralmente a grande questão a ser respondida nos estudos epidemiológicos é saber qual a relação entre uma ou mais variáveis que refletem a exposição e a doença
(efeito). Ou seja, deseja-se saber qual a probabilidade de ocorrência da doença, conhecendo-se como se dá a exposição. A probabilidade da doença varia entre 0 e 1.
Para uma dada pessoa, y a doença real é um evento dicotômico, que pode ser entendido como 1 quando a doença ocorre e 0 quando esta não ocorre.
Se desejamos saber se o fumo materno está associado à ocorrência de baixo peso ao nascer, geralmente desejamos controlar o efeito de outras variáveis de confundimento. No modelo logístico, usamos os valores de uma série de variáveis independentes para predizer a ocorrência da doença (variável dependente). Assim, todas as variáveis consideradas no modelo estão controladas entre si. Como usamos uma série de variáveis independentes, trata-se de um problema multivariável (não confundir como multivariado, termo usado quando se leva em conta uma série de variáveis dependentes
(resposta) no modelo ao mesmo tempo e empregado geralmente fora do contexto estatístico na literatura biomédica). A medida de associação calculada a partir do modelo logístico é o odds ratio. Os odds ratio ajustados são obtidos através da comparação de indivíduos que diferem apenas na característica de interesse e que tenham os valores das outras variáveis constantes. O ajuste é apenas estatístico.
A função logística é perfeitamente aplicável aos problemas epidemiológicos porque é uma função que varia também entre 0 e 1. É um função em forma de S alongado. Seu modelo calcula a probabilidade do efeito pela seguinte fórmula:
P( X ) =
1
1+ e
− (α + ∑ β i X i )
Os termos α e βi neste modelo representam parâmetros desconhecidos que serão estimados com base nos dados amostrais obtidos pelo método da máxima verossimilhança (maximiza a probabilidade de obter o grupo observado de