MAE-Aula02-1 [Modo de Compatibilidade]edna/mae/MAE-Aula02-1.pdf · Mas em quanto? Precisamos...

Post on 24-Jul-2020

13 views 0 download

Transcript of MAE-Aula02-1 [Modo de Compatibilidade]edna/mae/MAE-Aula02-1.pdf · Mas em quanto? Precisamos...

Universidade Federal de Minas GeraisInstituto de Ciências ExatasDepartamento de Estatística

Métodos Estatísticos Avançados em Epidemiologia

Aula 2-1

Regressão Logística:

Modelando Respostas Dicotômicas

Lembrando...

Média de Y: µµµµy = ββββ0 + ββββ1X1 + ... + ββββkXk .

No modelo de regressão linear com Y ~ Normal,a média da variável resposta

é igual à combinação linear das preditores:

pode assumir qualquer valor na reta realpode assumir qualquer valor na reta real

porque Y pode assumir q.q. valor real.

Exemplo: Y = variação no peso (perda ou ganho, em Kg) em mulheres um ano após a menopausa.

Y é contínua, pode ser negativa (perdeu peso), nula (peso não variou) ou positiva (ganhou peso)

Variável Resposta Qualitativa Binária

Y é qualitativa e pode assumir apenas dois valores

Y = { sucesso(=1) , fracasso(=0) },

P(Y=1) = ππππ e P(Y=0) = 1 – ππππ.com probabilidades

P(Y=1) = ππππ e P(Y=0) = 1 – ππππ.

Exemplo: Y = 1 se a mulher ganhou peso (sucesso)Y = 0 se a mulher manteve/perdeu peso (fracasso);

Vamos modelar ππππ, a probabilidade de sucesso,em função das variáveis explicativas X´s:

( )kk XXXf ββββπ ++++= ...22110

Exemplo: X1: idade de entrada na menopausa (anos)X : índice de massa corporal (kg/m2)

Mas que função será esta ? Lembre-se que 0 ≤≤≤≤ ππππ ≤≤≤≤ 1 !

X2: índice de massa corporal (kg/m2)X3: tempo de exercício fisico semanal (minutos)X4: reposição hormonal (sim ou não)…

A função que liga a probabilidade de sucesso

π π π π = P(Y=1) aos valores (x1,x2,....,xk) é:

)...()...(

)...(

110110

110

1

1

1 kkkk

kk

xxxx

xx

ee

eββββββ

βββ

π +++−+++

+++

+=

+=

que garante que π π π π está sempre entre 0 e 1.

Como π depende dos valores das X´s,

vamos denotá-la por π(x).

Vamos começar com o caso mais simples, onde háapenas uma variável explicativa X que é quantitativa.

Regressão Logística Simples com X contínua

Denote a probabilidade de sucesso de Y quando avariável explicativa assume o valor x por:

P(Y=1 | X=x) = ππππ(x).

.1

1)( )( 10 xe

x ββπ +−+=

P(Y=1 | X=x) = ππππ(x).

Então

Esta curva cresce com x se β1 > 0 e descresce se β1 < 0.

Exemplo com β1 > 0

Exemplo com β1 < 0

Exemplo: pressão arterial (X) entre pessoas que tiveram ou não um AVC (Y). Seja “presença de AVC” = 1 e “ausência de AVC” = 0:

https://ebmacademy.wordpress.com/2015/08/17/o-fanta sma-da-regressao-logistica/

Pontos mais concentrados no valor 0 em valores de PA arterial mais baixos, e mais concentrados no valor 1 em valores de PA mais altos:à medida que aumenta a pressão arterial, aumenta a incidência de AVC.

À medida que aumenta a PA, aumenta a incidência de AVC. Mas em quanto? Precisamos transformar a variável AVC em “proporção de AVC”, de acordo com os valores de pressão arterial.

.1

1)( )( xe

x ββπ +−+= .

1)( )( 10 xe

x ββπ +−+=

Exemplo com β1 = 0.05

ππππ(x) cresce lentamente com valores menores de xe rapidamente com os valores maiores de x.

Exemplo com β1 = 0.10

ππππ(x) cresce lentamente com valores menores e maiores de x,e rapidamente com os valores intermediários de x.

Exemplo com β1 = 0.15

ππππ(x) cresce rapidamente com valores menores de xe lentamente com os valores maiores de x.

xex

xxODDS 10

)(1

)( )( ββ

ππ +=−

=

)(10 )(

)( axeax

axODDS++=+=+ ββπ

Chance de sucesso quando X = x:

Chance de sucesso quando X = x + a: (ex.: a=1 ano)

)(10 )(1

)( axeax

axODDS++=

+−=+ ββ

π

.)(

)(),( 1βa

ODDS

ODDSOR e

xax

xax =+=+

Razão das Chances entre x+ a e x:

< 1, se β1 < 0

> 1, se β1 > 0

Para a > 0:

Exemplo com β1 = 0.1

4.7)( 2)1.0(2060,80 ≈== ee OR

Exemplo com β1 = -0.1

14.0)( 2)1.0(2060,80 ≈== −− ee OR

Intervalos de Confiança*

[ ]]ˆ[)(ˆ ; ]ˆ[)(ˆ 12/112/1)%1(100

1ββ αα

α SEzβSEzβICβ ⋅+⋅−=−

onde: é o erro padrão de ,zα/2 é percentil de ordem α/2 na Normal Padrão.

]ˆ[ 1βSE 1̂βLI LS

[ ])()()%1(100)( ; LSaLIa

aOR eeIC =−α

* Apenas para tamanho de amostra grande.

onde LI e LS são os limites inferior e superior do IC para β1.

zα/2 é percentil de ordem α/2 na Normal Padrão.

Razão das Chances entre x+ a e x:

Um teste simples da significância do coeficiente β1,ou seja, para testar H0: ββββ1=0 contra H1: ββββ1≠ 0,

é o Teste de Wald, que usa a estatística Z0:

Testando a Significância de ββββ1

ˆ1̂

βZ =

estimativa de β1

erro padrão de β̂]ˆ[ 10

βSEZ =

que é comparada com a distribuição Normal Padrão*para obtenção do valor p do teste:

erro padrão de

* Apenas para tamanho de amostra grande.

( )02 ZZP pvalor >⋅=

1β̂

Dados de 100 indivíduos para estudar a relação entre idade(AGE, em anos completos) e ocorrência de doençacoronariana (CHD, 0=não, 1=sim).

AGRP: define 8 faixas etárias (20-29,30-34,...,60-69).

Exemplo com Dados: X quantitativa

(Dados completos no arquivo hosmer1.txt)(Hosmer e Lemeshow, 2ª. ed., pg. 2 )

61.40241.0111.0

]ˆ[

ˆ

1

10 ===

ββ

SEZ

Valor P do testede H0: β1=0

Saída do R

.74.1)111.0(5ˆ55ˆ 1)( === ee anos RO β

[ ] [ ] [ ]157.0;063.0)024.0(96.111.096.1ˆ1

11

%95 SEβ IC ββ==⋅= mm

[ ] [ ]17.1;07.1; 157.0063.0%95)1( ee ICOR ==

.12.1)111.0(1ˆ11ˆ 1)( === ee ano RO β

[ ] [ ]192371; )157.0(5)063.0(5%95)5( . ; .ee ICOR ==

Outro caso simples: a única variável explicativaX é qualitativa com duas categorias (x=0 ou x=1).

Regressão Logística Simples com X binária

A probabilidade de sucesso de Y dado o valor de X:

P(Y=1 | X=0) = ππππ(0) ⇒ P(Y=0 | X=0) = 1-ππππ(0)

)( 101

1)( xe

x ββπ +−+=

P(Y=1 | X=0) = ππππ(0) ⇒

Novamente

P(Y=0 | X=0) = 1-ππππ(0) P(Y=1 | X=1) = ππππ(1) ⇒ P(Y=0 | X=1) = 1-ππππ(1)

01

1)0( βπ −+

=e )( 101

1)1( ββπ +−+

=e

.)0(1

)0()0( 0β

ππ

e ODDS =−=

.)1(

)1( 10 ββπ +== e ODDS

Chance de sucesso quando X = 0:

Chance de sucesso quando X = 1:

.)1(1

)1( 10 ββπ

+=−= e ODDS

1

)0()1(

)0,1( βe ODDS

ODDSOR ==

Razão das Chances:

< 1 se β1 < 0

> 1 se β1 > 0

Um estudo* com 3890 motoristas militares para investigar apossível associação entre acidente automobilístico (Y) com apresença de toxoplasmose (X1) e o fator Rh (X2).

Y X1 X21 1 1 12 1 1 13 1 1 14 1 1 1

Y = 1, se sofreu acidente; Y = 0, caso contrário.

Exemplo com Dados: X binária

4 1 1 15 1 1 1

51 0 1 152 0 1 153 0 1 154 0 1 1

213 0 0 0214 0 0 0215 0 0 0

X1 = 1, se portador;X1 = 0, se não-portador.

X2 = 1, se Rh negativo;

X2 = 0, se Rh positivo.

*Flegr et al, BMC Infectious Diseases, 2009 9:72

Modelo 1: Acidente X Toxoplasmose

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.5595 0.1113 -31.9 77 <2e-16 toxoplasma 0.1324 0.2220 0.597 0.551

OR = exp(0.1324)= 1.14

[ ] [ ] [ ]5675.0;3027.0)222.0(96.11324.096.1ˆ1

11

%95 SEβ IC ββ−==⋅= mm

[ ] [ ]76.1;74.0; 5675.03027.0%95 ee ICOR == − inclui 1inclui 0

Modelo 2: Acidente X Rh

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.5793 0.1093 -32.74 0 <2e-16Rh 0.2528 0.2311 1.094 0.274

OR = exp(0.2528)= 1.29

[ ]7058.0;20020%951

. ICβ

−=

[ ] [ ]022;82.0; 7058.02002.0%95 . ee ICOR == −

inclui 0

inclui 1

Regressão Logística Múltipla

O caso mais geral, quando há duas ou maisvariáveis explicativas X1, X2, ..., Xk.

A probabilidade de sucesso de Y quando a variáveisexplicativas assumem o valor x=(x1, x2, ... , xk) por:

P(Y=1 | X=x) = ππππ(x)

.1

)( 221101)(

kk xxxex ββββπ ++++−+

=L

P(Y=1 | X=x) = ππππ(x)

(Continuação) Estudo motoristas militares para investigar apossível associação entre acidente automobilístico (Y) com apresença de toxoplasmose (X1) e o fator Rh (X2).

Exemplo com Dados: Múltiplos X´s

Modelo 3: Acidente X Toxoplasmose & Rh

Coefficients:Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.6089 0.1221 -29.549 <2e-16 toxoplasma 0.1262 0.2221 0.568 0.570 Rh 0.2493 0.2312 1.079 0.281

Os coeficientes β1 e β2não são significantes

Modelo 4: Acidente X Toxoplasmose & Rh & Interação

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.54536 0.12211 -29.034 <2e-16toxoplasma -0.16101 0.27419 -0.587 0.5570

.1

)( 2112221101),(

21 xxxxexx ββββπ +++−+

=

toxoplasma -0.16101 0.27419 -0.587 0.5570 Rh -0.08088 0.29705 -0.272 0.7854 toxoplasma:Rh 1.04935 0.49528 2.119 0.0341

O coeficiente β12, da interação, é significante

)( 2121 05.108.016.054.31),(ˆ

121 xxxxe

xx +−−−−+=π

Equação estimada do modelo:

Para pessoas com Rh + (X2=0):

Chance de acidente entre os que não têm o toxoplasm a (X1=0)

Chance de acidente entre os que têm o toxoplasma ( X1=1)

Razão das Chances = 0.0247/0.0290=0.851 = e(-0.16) = eβ1.

( ) ( )-3.54 + (-0.16 1) + (-0.08 0) + (1.05 1 0) -3.54 -0.160.0247e e× × × × = =

( ) ( )-3.54 + (-0.16 0) + (-0.08 0) + (1.05 0 0) -3.540.0290e e× × × × = =

Chance de acidente entre os que não têm o toxoplasm a (X1=0)

Chance de acidente entre os que têm o toxoplasma ( X1=1)

Razão das Chances = 0.0652/0.0267= 2.435 = e(-0.16+1.05) = e(ββββ1+ββββ12).

( ) ( )-3.54 + (-0.16 1) + (-0.08 1) + (1.05 1 1) -3.54 -0.16 -0.08+ 1.050.0652e e× × × × = =

Para pessoas com Rh - (X2=1):

Preditora Qualitativa com mais de duas categorias

Se a preditora X é qualitativa com m categorias, devemoscriar m-1 variáveis dummy (indicadoras)para representá-lano modelo.

Exemplo: Variável raça no exemplo da doença coronariana.

categoria de referência

.1

)( 44332201)( RACERACERACEe

x αααβπ+++−+

=

.1

)386.1792.1079.2386.1( 4321)( RACERACERACE

ex

+++−−+=π

,1

20.0))0(386.1)0(792.1)0(079.2386.1(1

)( =+

= +++−−ewhiteπ

1

.1

)386.1792.1079.2386.1( 4321)( RACERACERACE

ex

+++−−+=π

,1

67.0))0(386.1)0(792.1)1(079.2386.1(1

)( =+

= +++−−eblackπ

,1

60.0))0(386.1)1(792.1)0(079.2386.1(1

)( =+

= +++−−ehispanπ

,1

50.0))1(386.1)0(792.1)0(079.2386.1(1

)( =+

= +++−−eothersπ

.)( 2ˆ079.28800200

330670

))(1()(

))(1()(, α

ππππ

e e ..

..

WW

BBWBOR === ==

−−

Razão das Chances:

,20.0)( =Wπ

,67.0)( =Bπ

,60.0)( =Hπ

,50.0)( =Oπ

.)( 8800200))(1()(

,ππ

e e ..WW

WBOR === ==−

.)( 32 ˆˆ35.1

400600

330670

))(1()(

))(1()(, 287.0 αα

ππππ −==

−− === e e

..

..

HH

BBHBOR

Verificando o Bom Ajuste do Modelo

Lembrando que a regressão logística modela P(Y=1) = ππππem função dos valores das variáveis explicativas X’s:

.1

1)( )...( 110 kk xxe

x βββππ +++−+==

A partir da amostra de valores de Y e das X’s, os coeficientes são estimados por e, assim, estas β β̂os coeficientes são estimados por e, assim, estas probabilidades são estimadas para cada indivíduo i da amostra:

.1

)ˆ...ˆˆ( 110 kiki xxei βββ

π+++−+

=

β β̂

Valor estimado ou ajustado ou preditoda probabilidade do indivíduo ter Y=1 (ser um sucesso).

0 ≤≤≤≤ ππππ ≤≤≤≤ 1

Se o modelo ajustado é um bom modelo, ou seja,se as variáveis X são boas preditoras da variável Y,então, os indivíduos na amostra:- com Y=1 devem ter valor alto de- com Y=0 devem ter valor baixo de

iπ̂iπ̂

Podemos verificar se o modelo tem um bom ajuste avaliando sua capacidade preditiva, ou seja, se ele é capaz de predizer se o desfecho Y irá ocorrer (Y=1) ou não (Y=0).

Para cada indivíduo i, usar o valor da probabilidade estimada para dizer se, pelo modelo, ele teria ou não o desfecho,como se fosse um teste com resultado positivo/negativo:

1 – Construção da Curva ROC do Modelo

A definição de valor alto ou baixo pode ser feita para váriospontos de corte c entre 0 e 1:

Se é alto, o indivíduo i tem teste positivo, ou seja, ,

Se é baixo, o indivíduo i tem teste negativo, ou seja, .iπ̂iπ̂ 1ˆ =iy

0ˆ =iy

,ˆ ci ≥π,ˆ ci <π

Se o indivíduo i tem resultado positivo no teste do modelo;

Se o indivíduo i tem resultado negativo no teste do modelo.

Verificamos a capacidade de acerto do “teste do modelo” separamente entre os indivíduos com (Y=1) e sem (Y=0) o desfecho na amostra, ou seja, calculamos, para cada ponto de corte,a sensibilidade e a especificidade do “teste do modelo”:

E desenhamos a Curva ROC do Modelo:

Área sob Curva ROC (AUC):

Área sob Curva ROC (AUC):

AUC = 0.5 Sem discriminação (como jogar uma moeda)

A área sob a curva ROC (AUC) é uma medida do poder dediscriminação do modelo entre prever sucesso ou fracasso.AUC vai de 0,5 (nenhum poder) a 1 (poder máximo)

Uma área elevada sob a curva ROC sugere que o modelo é capazde predizer com precisão o valor de uma resposta da observação.

Hosmer e Lemeshow fornecem a seguinte regra geral:

0.7 ≤ AUC < 0.8 Discriminação aceitável

0.8 ≤ AUC < 0.9 Discriminação excelente

AUC ≥ 0.9 Discriminação fora de série (mas, extremamente rara)

Deviance TableSource DF Adj Dev Adj Mean Chi-Square P-ValueRegression 2 15.465 7.732 15.46 0.000Verduras 1 3.706 3.706 3.71 0.054Fratura 1 12.504 12.504 12.50 0.000

Error 383 473.581 1.237Total 385 489.046

Rows: FITS1 Columns: Queda

Não Sim All

0.201431 50 11 6181.97 18.03 100.00

0.298129 144 63 20769.57 30.43 100.00

0.323636 42 22 6465.63 34.38 100.0065.63 34.38 100.00

0.446218 91 71 16256.17 43.83 100.00

2 – Testes de Hosmer-Lemeshow e Pearson

Hipótese nula: o modelo está bem ajustado aos dados

Não se rejeita a hipótese nula de bom ajuste se valor-p ≥≥≥≥ αααα(nível de sugnificância escolhido).

Ambos avaliam o modelo ajustado através das distâncias entre as probabilidades ajustadas e as probabilidades observadas.as probabilidades ajustadas e as probabilidades observadas.

O teste de Hosmer-Lemeshow é mais utilizado e confiável.

CoefficientsTerm Coef SE Coef 95% CI Z-Value P-ValueConstant -1.377 0.235 (-1.837; -0.918) -5.87 0.000VerdurasBaixo 0.521 0.233 ( 0.064; 0.978) 2.23 0.025

FraturaSim 0.640 0.194 ( 0.260; 1.020) 3.30 0.001

Goodness-of-Fit Tests

Exemplo das Quedas em Mulheres Idosas.

Goodness-of-Fit TestsTest DF Chi-Square P-ValuePearson 491 493.22 0.463Hosmer-Lemeshow 2 0.37 0.832

Deviance

A deviance tem o mesmo papel que a SQResíduos na regressão linear, ou seja,

é uma medida da variabilidade não explicada pelo modelo.

Assim, para comparar dois modelos encaixados, como os modelos com a variável X (“cheio”) e sem (“reduzido”) , ou seja, testar H0:β1=0, calcula-se a estatísticaou seja, testar H0:β1=0, calcula-se a estatística

G2 = deviance (reduzido) – deviance(cheio).

Se G2 é um valor alto (na distribuição χ2 com 1 g.l.), então houve uma redução significativa na deviance com a introdução de X. Logo, H0 deve ser rejeitada.

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -5.30945 1.13365 -4.683 2.82e-06 AGE 0.11092 0.02406 4.610 4.02e-06 ---

Null deviance: 136.66 on 99 degrees of freedomResidual deviance: 107.35 on 98 degrees of freedom

Saída do R

Teste: H0: β1=0 X β1≠0

Estatística G2 = “null deviance” - “residual deviance”= 136.66 - 107.35 = 29.31.

Valor P = P(χ21 > 29.31) < 0.0001 .

modelo sem AGE

modelo com AGE

Seleção de Modelos

Akaike´s Information Criterion: AIC

AIC = deviance – n + 2p p = no. de preditoras

menor AIC , melhor ajuste

menor,melhor

maior,melhor

menor,melhor

P-ValueRegression 0.001F.etaria 0.092Ativ.fisica 0.100Verduras 0.030Fratura 0.000

AIC: 479.03

Regression 0.000

Verduras 0.022Fratura 0.001

AIC: 622.82

Suposições do Modelo

- A distribuição da variável resposta Y condicional

aos valores das preditoras X´s é uma Bernoulli (π(x)):

� observações são independentes.- Não há forte colineriedade (correlação/associação)

entre as preditoras X´s, verificada por:

� medida de correlação (ex. Pearson) p/ X´s quantitativas;� medida de correlação (ex. Pearson) p/ X´s quantitativas;

� tabelas cruzadas (χ2) para X´s qualitativas.� boxplots/histogramas da variável quantitativa dentro

das categorias da variável qualitativa (compara as médias viateste T/ANOVA ou medianas com testes não-paramétricos.