REGRESSÃO LINEAR SIMPLES - fenix.tecnico.ulisboa.pt · padrão funcional de comportamento. Se os...
Transcript of REGRESSÃO LINEAR SIMPLES - fenix.tecnico.ulisboa.pt · padrão funcional de comportamento. Se os...
REGRESSÃO LINEAR SIMPLES
♦ Pretende-se entender e quantificar relações entre duas variáveis, numéricas ou não.
♦ Usualmente, uma das variáveis (Y) é interpretada como sendo resposta
(ou variável dependente) e a outra das variáveis (x) é interpretada como explicativa, predictor (ou variável independente).
εβα ++= XY
♦ Hipóteses sobre o resíduo aleatório:
i) o seu valor médio é nulo; ii) tem uma distribuição normal; iii) os resíduos são independentes e a sua variância (σε2) não depende
de X (homocedasticidade: constância de σε2)
Como obter um modelo por regressão linear?
Exemplo1: Fez-se um estudo, em 21 países, da relação entre a quantidade média de tabaco consumida por adulto anualmente e a taxa de mortalidade entre pessoas com idade entre os 35 e 64 anos cuja causa de morte foi doença cardíaca, ocorrida por cada 100000 habitantes. Os dados obtidos são os seguintes:
♦ Numa 1ª análise deve-se proceder à representação gráfica dos dados, de forma a avaliar de uma forma ainda grosseira se a relação linear é admissível – diagrama de dispersão.
STATISTICA:
iii) Graphs; Scatterplots;
♦ Obter a recta de regressão – Valores observados e a recta estimada
Numa 1ª abordagem, ao analisar o diagrama de dispersão dos pontos, existe evidência para uma relação linear entre x e y. Sendo os coeficientes da recta de regressão: a=14.854 e b=0.0607
STATISTICA:
iv) Statistics; Basic Statistic and Tables; Correlation matrices
♦ Coeficiente de correlação: r=0.73 ⇒ correlação elevada
STATISTICA:
Multiple Regression; Quick; Residuals; Summary
♦ R2 – coeficiente de determinação, que representa a fracção da variação inicial que é explicada pela regressão = 0,53 ;
Precisão das estimativas
♦ Para obter as estimativas dos parâmetros não foi necessária qualquer
hipótese sobre o comportamento dos dados além da relação entre eles
ser linear. Como avaliar a qualidade do modelo? Como decidir se a variável explicativa é de facto “uma boa explicativa”?
STATISTICA:
Predict dependent variable
♦ É conveniente proceder a uma análise gráfica dos resíduos. Se o modelo for correcto os resíduos obtidos podem ser vistos como estimativas dos erros εi. Através dessa análise pode-se verificar se as hipóteses inerentes ao modelo de regressão são válidas.
Homocedasticidade: Através do diagrama de dispersão somos capazes de detectar a hipótese da variância dos erros ser constante. Pode ser feita à custa dos diagramas dos resíduos versus a variável explicativa ou dos resíduos versus o valor estimado de y. Os diagramas de dispersão dos resíduos versus a explicativa deverão apresentar o aspecto de ruído branco, sem qualquer padrão funcional de comportamento. Se os resíduos são sistematicamente positivos, e de seguida negativos há uma evidência que o valor estimado de y está sempre sobreestimado ou subestimado, estimação essa que resulta de uma relação funcional entre as variáveis dependente e independente incorrecta.
STATISTICA:
Residual Analysis; Predicted versus residuals
♦ Restantes hipóteses sobre o resíduo aleatório:
i) o seu valor médio é nulo; ii) tem uma distribuição normal;