MAE-Aula02-1 [Modo de Compatibilidade]edna/mae/MAE-Aula02-1.pdf · Mas em quanto? Precisamos...
Embed Size (px)
Transcript of MAE-Aula02-1 [Modo de Compatibilidade]edna/mae/MAE-Aula02-1.pdf · Mas em quanto? Precisamos...
-
Universidade Federal de Minas GeraisInstituto de Ciências ExatasDepartamento de Estatística
Métodos Estatísticos Avançados em Epidemiologia
Aula 2-1
Regressão Logística:
Modelando Respostas Dicotômicas
-
Lembrando...
Média de Y: µµµµy = ββββ0 + ββββ1X1 + ... + ββββkXk .
No modelo de regressão linear com Y ~ Normal,a média da variável resposta
é igual à combinação linear das preditores:
pode assumir qualquer valor na reta realpode assumir qualquer valor na reta real
porque Y pode assumir q.q. valor real.
Exemplo: Y = variação no peso (perda ou ganho, em Kg) em mulheres um ano após a menopausa.
Y é contínua, pode ser negativa (perdeu peso), nula (peso não variou) ou positiva (ganhou peso)
-
Variável Resposta Qualitativa Binária
Y é qualitativa e pode assumir apenas dois valores
Y = { sucesso(=1) , fracasso(=0) },
P(Y=1) = ππππ e P(Y=0) = 1 – ππππ.com probabilidades
P(Y=1) = ππππ e P(Y=0) = 1 – ππππ.
Exemplo: Y = 1 se a mulher ganhou peso (sucesso)Y = 0 se a mulher manteve/perdeu peso (fracasso);
-
Vamos modelar ππππ, a probabilidade de sucesso,em função das variáveis explicativas X´s:
( )kk XXXf ββββπ ++++= ...22110
Exemplo: X1: idade de entrada na menopausa (anos)X : índice de massa corporal (kg/m2)
Mas que função será esta ? Lembre-se que 0 ≤≤≤≤ ππππ ≤≤≤≤ 1 !
X2: índice de massa corporal (kg/m2)X3: tempo de exercício fisico semanal (minutos)X4: reposição hormonal (sim ou não)…
-
A função que liga a probabilidade de sucesso
π π π π = P(Y=1) aos valores (x1,x2,....,xk) é:
)...()...(
)...(
110110
110
1
1
1 kkkk
kk
xxxx
xx
ee
eββββββ
βββ
π +++−++++++
+=
+=
que garante que π π π π está sempre entre 0 e 1.
Como π depende dos valores das X´s, vamos denotá-la por π(x).
-
Vamos começar com o caso mais simples, onde háapenas uma variável explicativa X que é quantitativa.
Regressão Logística Simples com X contínua
Denote a probabilidade de sucesso de Y quando avariável explicativa assume o valor x por:
P(Y=1 | X=x) = ππππ(x).
.1
1)( )( 10 xe
x ββπ +−+=
P(Y=1 | X=x) = ππππ(x).
Então
Esta curva cresce com x se β1 > 0 e descresce se β1 < 0.
-
Exemplo com β1 > 0
-
Exemplo com β1 < 0
-
Exemplo: pressão arterial (X) entre pessoas que tiveram ou não um AVC (Y). Seja “presença de AVC” = 1 e “ausência de AVC” = 0:
https://ebmacademy.wordpress.com/2015/08/17/o-fanta sma-da-regressao-logistica/
Pontos mais concentrados no valor 0 em valores de PA arterial mais baixos, e mais concentrados no valor 1 em valores de PA mais altos:à medida que aumenta a pressão arterial, aumenta a incidência de AVC.
-
À medida que aumenta a PA, aumenta a incidência de AVC. Mas em quanto? Precisamos transformar a variável AVC em “proporção de AVC”, de acordo com os valores de pressão arterial.
.1
1)( )( xe
x ββπ +−+= .
1)( )( 10 xe
x ββπ +−+=
-
Exemplo com β1 = 0.05
ππππ(x) cresce lentamente com valores menores de xe rapidamente com os valores maiores de x.
-
Exemplo com β1 = 0.10
ππππ(x) cresce lentamente com valores menores e maiores de x,e rapidamente com os valores intermediários de x.
-
Exemplo com β1 = 0.15
ππππ(x) cresce rapidamente com valores menores de xe lentamente com os valores maiores de x.
-
xex
xxODDS 10
)(1
)( )( ββ
ππ +=−
=
)(10 )(
)( axeax
axODDS ++=+=+ ββπ
Chance de sucesso quando X = x:
Chance de sucesso quando X = x + a: (ex.: a=1 ano)
)(10 )(1
)( axeax
axODDS ++=+−
=+ ββπ
.)(
)(),( 1βa
ODDS
ODDSOR e
xax
xax =+=+
Razão das Chances entre x+ a e x:
< 1, se β1 < 0> 1, se β1 > 0
Para a > 0:
-
Exemplo com β1 = 0.1
4.7)( 2)1.0(2060,80 ≈== ee OR
-
Exemplo com β1 = -0.1
14.0)( 2)1.0(2060,80 ≈== −− ee OR
-
Intervalos de Confiança*
[ ]]ˆ[)(ˆ ; ]ˆ[)(ˆ 12/112/1)%1(1001 ββ ααα SEzβSEzβICβ ⋅+⋅−=−
onde: é o erro padrão de ,zα/2 é percentil de ordem α/2 na Normal Padrão.
]ˆ[ 1βSE 1̂βLI LS
[ ])()()%1(100 )( ; LSaLIaaOR eeIC =−α
* Apenas para tamanho de amostra grande.
onde LI e LS são os limites inferior e superior do IC para β1.
zα/2 é percentil de ordem α/2 na Normal Padrão.
Razão das Chances entre x+ a e x:
-
Um teste simples da significância do coeficiente β1,ou seja, para testar H0: ββββ1=0 contra H1: ββββ1≠ 0,é o Teste de Wald, que usa a estatística Z0:
Testando a Significância de ββββ1
ˆ1̂
0β
βZ =
estimativa de β1erro padrão de β̂]ˆ[ 1
0βSE
Z =
que é comparada com a distribuição Normal Padrão*para obtenção do valor p do teste:
erro padrão de
* Apenas para tamanho de amostra grande.
( )02 ZZP pvalor >⋅=
1β̂
-
Dados de 100 indivíduos para estudar a relação entre idade(AGE, em anos completos) e ocorrência de doençacoronariana (CHD, 0=não, 1=sim).
AGRP: define 8 faixas etárias (20-29,30-34,...,60-69).
Exemplo com Dados: X quantitativa
(Dados completos no arquivo hosmer1.txt)(Hosmer e Lemeshow, 2ª. ed., pg. 2 )
-
61.40241.0111.0
]ˆ[
ˆ
1
10 ===
ββ
SEZ
Valor P do testede H0: β1=0
Saída do R
.74.1)111.0(5ˆ55ˆ 1)( === ee anos RO β
[ ] [ ] [ ]157.0;063.0)024.0(96.111.096.1ˆ 11
1%95 SEβ IC ββ ==⋅= mm
[ ] [ ]17.1;07.1; 157.0063.0%95 )1( ee ICOR ==
.12.1)111.0(1ˆ11ˆ 1)( === ee ano RO β
[ ] [ ]192371; )157.0(5)063.0(5%95 )5( . ; .ee ICOR ==
-
Outro caso simples: a única variável explicativaX é qualitativa com duas categorias (x=0 ou x=1).
Regressão Logística Simples com X binária
A probabilidade de sucesso de Y dado o valor de X:
P(Y=1 | X=0) = ππππ(0) ⇒ P(Y=0 | X=0) = 1-ππππ(0)
)( 101
1)( xe
x ββπ +−+=
P(Y=1 | X=0) = ππππ(0) ⇒
Novamente
P(Y=0 | X=0) = 1-ππππ(0) P(Y=1 | X=1) = ππππ(1) ⇒ P(Y=0 | X=1) = 1-ππππ(1)
01
1)0( βπ −+
=e )( 101
1)1( ββπ +−+
=e
-
.)0(1
)0()0( 0βπ
πe ODDS =−=
.)1(
)1( 10 ββπ +== e ODDS
Chance de sucesso quando X = 0:
Chance de sucesso quando X = 1:
.)1(1
)1( 10 ββπ+=−= e ODDS
1
)0()1(
)0,1( βe ODDS
ODDSOR ==
Razão das Chances:
< 1 se β1 < 0> 1 se β1 > 0
-
Um estudo* com 3890 motoristas militares para investigar apossível associação entre acidente automobilístico (Y) com apresença de toxoplasmose (X1) e o fator Rh (X2).
Y X1 X21 1 1 12 1 1 13 1 1 14 1 1 1
Y = 1, se sofreu acidente; Y = 0, caso contrário.
Exemplo com Dados: X binária
4 1 1 15 1 1 1
51 0 1 152 0 1 153 0 1 154 0 1 1
213 0 0 0214 0 0 0215 0 0 0
X1 = 1, se portador;X1 = 0, se não-portador.
X2 = 1, se Rh negativo;
X2 = 0, se Rh positivo.
*Flegr et al, BMC Infectious Diseases, 2009 9:72
-
Modelo 1: Acidente X Toxoplasmose
Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.5595 0.1113 -31.9 77 |z|)
(Intercept) -3.5793 0.1093 -32.74 0
-
Regressão Logística Múltipla
O caso mais geral, quando há duas ou maisvariáveis explicativas X1, X2, ..., Xk.
A probabilidade de sucesso de Y quando a variáveisexplicativas assumem o valor x=(x1, x2, ... , xk) por:
P(Y=1 | X=x) = ππππ(x)
.1
)( 221101)(
kk xxxex ββββπ ++++−+
=L
P(Y=1 | X=x) = ππππ(x)
-
(Continuação) Estudo motoristas militares para investigar apossível associação entre acidente automobilístico (Y) com apresença de toxoplasmose (X1) e o fator Rh (X2).
Exemplo com Dados: Múltiplos X´s
Modelo 3: Acidente X Toxoplasmose & Rh
Coefficients:Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.6089 0.1221 -29.549
-
Modelo 4: Acidente X Toxoplasmose & Rh & Interação
Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.54536 0.12211 -29.034
-
Para pessoas com Rh + (X2=0):
Chance de acidente entre os que não têm o toxoplasm a (X1=0)
Chance de acidente entre os que têm o toxoplasma ( X1=1)
Razão das Chances = 0.0247/0.0290=0.851 = e(-0.16) = eβ1.
( ) ( )-3.54 + (-0.16 1) + (-0.08 0) + (1.05 1 0) -3.54 -0.16 0.0247e e× × × × = =
( ) ( )-3.54 + (-0.16 0) + (-0.08 0) + (1.05 0 0) -3.54 0.0290e e× × × × = =
Chance de acidente entre os que não têm o toxoplasm a (X1=0)
Chance de acidente entre os que têm o toxoplasma ( X1=1)
Razão das Chances = 0.0652/0.0267= 2.435 = e(-0.16+1.05) = e(ββββ1+ββββ12).
( ) ( )-3.54 + (-0.16 1) + (-0.08 1) + (1.05 1 1) -3.54 -0.16 -0.08+ 1.05 0.0652e e× × × × = =
Para pessoas com Rh - (X2=1):
-
Preditora Qualitativa com mais de duas categorias
Se a preditora X é qualitativa com m categorias, devemoscriar m-1 variáveis dummy (indicadoras)para representá-lano modelo.
Exemplo: Variável raça no exemplo da doença coronariana.
categoria de referência
.1
)( 44332201)( RACERACERACEe
x αααβπ +++−+=
-
.1
)386.1792.1079.2386.1( 4321)( RACERACERACE
ex
+++−−+=π
-
,1
20.0))0(386.1)0(792.1)0(079.2386.1(1
)( =+
= +++−−ewhiteπ
1
.1
)386.1792.1079.2386.1( 4321)( RACERACERACE
ex
+++−−+=π
,1
67.0))0(386.1)0(792.1)1(079.2386.1(1
)( =+
= +++−−eblackπ
,1
60.0))0(386.1)1(792.1)0(079.2386.1(1
)( =+
= +++−−ehispanπ
,1
50.0))1(386.1)0(792.1)0(079.2386.1(1
)( =+
= +++−−eothersπ
-
.)( 2ˆ079.28800200
330670
))(1()(
))(1()(, α
ππππ
e e ..
..
WW
BBWBOR === ==
−−
Razão das Chances:
,20.0)( =Wπ,67.0)( =Bπ
,60.0)( =Hπ,50.0)( =Oπ
.)( 8800200))(1()(
,ππ
e e ..WW
WBOR === ==−
.)( 32 ˆˆ35.1400600
330670
))(1()(
))(1()(, 287.0 αα
ππππ −==
−− === e e
..
..
HH
BBHBOR
-
Verificando o Bom Ajuste do Modelo
Lembrando que a regressão logística modela P(Y=1) = ππππem função dos valores das variáveis explicativas X’s:
.1
1)( )...( 110 kk xxe
x βββππ +++−+==
A partir da amostra de valores de Y e das X’s, os coeficientes são estimados por e, assim, estas β β̂os coeficientes são estimados por e, assim, estas probabilidades são estimadas para cada indivíduo i da amostra:
.1
1ˆ
)ˆ...ˆˆ( 110 kiki xxei βββ
π+++−+
=
β β̂
Valor estimado ou ajustado ou preditoda probabilidade do indivíduo ter Y=1 (ser um sucesso).
0 ≤≤≤≤ ππππ ≤≤≤≤ 1
-
Se o modelo ajustado é um bom modelo, ou seja,se as variáveis X são boas preditoras da variável Y,então, os indivíduos na amostra:- com Y=1 devem ter valor alto de- com Y=0 devem ter valor baixo de
iπ̂iπ̂
-
Podemos verificar se o modelo tem um bom ajuste avaliando sua capacidade preditiva, ou seja, se ele é capaz de predizer se o desfecho Y irá ocorrer (Y=1) ou não (Y=0).
Para cada indivíduo i, usar o valor da probabilidade estimada para dizer se, pelo modelo, ele teria ou não o desfecho,como se fosse um teste com resultado positivo/negativo:
1 – Construção da Curva ROC do Modelo
A definição de valor alto ou baixo pode ser feita para váriospontos de corte c entre 0 e 1:
Se é alto, o indivíduo i tem teste positivo, ou seja, ,
Se é baixo, o indivíduo i tem teste negativo, ou seja, .iπ̂iπ̂ 1ˆ =iy
0ˆ =iy
,ˆ ci ≥π,ˆ ci
-
Verificamos a capacidade de acerto do “teste do modelo” separamente entre os indivíduos com (Y=1) e sem (Y=0) o desfecho na amostra, ou seja, calculamos, para cada ponto de corte,a sensibilidade e a especificidade do “teste do modelo”:
-
E desenhamos a Curva ROC do Modelo:
-
Área sob Curva ROC (AUC):
-
Área sob Curva ROC (AUC):
-
AUC = 0.5 Sem discriminação (como jogar uma moeda)
A área sob a curva ROC (AUC) é uma medida do poder dediscriminação do modelo entre prever sucesso ou fracasso.AUC vai de 0,5 (nenhum poder) a 1 (poder máximo)
Uma área elevada sob a curva ROC sugere que o modelo é capazde predizer com precisão o valor de uma resposta da observação.
Hosmer e Lemeshow fornecem a seguinte regra geral:
0.7 ≤ AUC < 0.8 Discriminação aceitável
0.8 ≤ AUC < 0.9 Discriminação excelente
AUC ≥ 0.9 Discriminação fora de série (mas, extremamente rara)
-
Deviance TableSource DF Adj Dev Adj Mean Chi-Square P-ValueRegression 2 15.465 7.732 15.46 0.000Verduras 1 3.706 3.706 3.71 0.054Fratura 1 12.504 12.504 12.50 0.000
Error 383 473.581 1.237Total 385 489.046
-
Rows: FITS1 Columns: Queda
Não Sim All
0.201431 50 11 6181.97 18.03 100.00
0.298129 144 63 20769.57 30.43 100.00
0.323636 42 22 6465.63 34.38 100.0065.63 34.38 100.00
0.446218 91 71 16256.17 43.83 100.00
-
2 – Testes de Hosmer-Lemeshow e Pearson
Hipótese nula: o modelo está bem ajustado aos dados
Não se rejeita a hipótese nula de bom ajuste se valor-p ≥≥≥≥ αααα(nível de sugnificância escolhido).
Ambos avaliam o modelo ajustado através das distâncias entre as probabilidades ajustadas e as probabilidades observadas.as probabilidades ajustadas e as probabilidades observadas.
O teste de Hosmer-Lemeshow é mais utilizado e confiável.
-
CoefficientsTerm Coef SE Coef 95% CI Z-Value P-ValueConstant -1.377 0.235 (-1.837; -0.918) -5.87 0.000VerdurasBaixo 0.521 0.233 ( 0.064; 0.978) 2.23 0.025
FraturaSim 0.640 0.194 ( 0.260; 1.020) 3.30 0.001
Goodness-of-Fit Tests
Exemplo das Quedas em Mulheres Idosas.
Goodness-of-Fit TestsTest DF Chi-Square P-ValuePearson 491 493.22 0.463Hosmer-Lemeshow 2 0.37 0.832
-
Deviance
A deviance tem o mesmo papel que a SQResíduos na regressão linear, ou seja,
é uma medida da variabilidade não explicada pelo modelo.
Assim, para comparar dois modelos encaixados, como os modelos com a variável X (“cheio”) e sem (“reduzido”) , ou seja, testar H0:β1=0, calcula-se a estatísticaou seja, testar H0:β1=0, calcula-se a estatística
G2 = deviance (reduzido) – deviance(cheio).
Se G2 é um valor alto (na distribuição χ2 com 1 g.l.), então houve uma redução significativa na deviance com a introdução de X. Logo, H0 deve ser rejeitada.
-
Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.30945 1.13365 -4.683 2.82e-06 AGE 0.11092 0.02406 4.610 4.02e-06 ---
Null deviance: 136.66 on 99 degrees of freedomResidual deviance: 107.35 on 98 degrees of freedom
Saída do R
Teste: H0: β1=0 X β1≠0
Estatística G2 = “null deviance” - “residual deviance”= 136.66 - 107.35 = 29.31.
Valor P = P(χ21 > 29.31) < 0.0001 .
modelo sem AGE
modelo com AGE
-
Seleção de Modelos
Akaike´s Information Criterion: AIC
AIC = deviance – n + 2p p = no. de preditoras
menor AIC , melhor ajuste
menor,melhor
maior,melhor
menor,melhor
-
P-ValueRegression 0.001F.etaria 0.092Ativ.fisica 0.100Verduras 0.030Fratura 0.000
AIC: 479.03
Regression 0.000
Verduras 0.022Fratura 0.001
AIC: 622.82
-
Suposições do Modelo
- A distribuição da variável resposta Y condicional
aos valores das preditoras X´s é uma Bernoulli (π(x)):
� observações são independentes.- Não há forte colineriedade (correlação/associação)
entre as preditoras X´s, verificada por:
� medida de correlação (ex. Pearson) p/ X´s quantitativas;� medida de correlação (ex. Pearson) p/ X´s quantitativas;
� tabelas cruzadas (χ2) para X´s qualitativas.� boxplots/histogramas da variável quantitativa dentro
das categorias da variável qualitativa (compara as médias viateste T/ANOVA ou medianas com testes não-paramétricos.