MAE-Aula02-1 [Modo de Compatibilidade]edna/mae/MAE-Aula02-1.pdf · Mas em quanto? Precisamos...

of 51 /51
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Métodos Estatísticos Avançados em Epidemiologia Aula 2-1 Regressão Logística: Modelando Respostas Dicotômicas

Embed Size (px)

Transcript of MAE-Aula02-1 [Modo de Compatibilidade]edna/mae/MAE-Aula02-1.pdf · Mas em quanto? Precisamos...

  • Universidade Federal de Minas GeraisInstituto de Ciências ExatasDepartamento de Estatística

    Métodos Estatísticos Avançados em Epidemiologia

    Aula 2-1

    Regressão Logística:

    Modelando Respostas Dicotômicas

  • Lembrando...

    Média de Y: µµµµy = ββββ0 + ββββ1X1 + ... + ββββkXk .

    No modelo de regressão linear com Y ~ Normal,a média da variável resposta

    é igual à combinação linear das preditores:

    pode assumir qualquer valor na reta realpode assumir qualquer valor na reta real

    porque Y pode assumir q.q. valor real.

    Exemplo: Y = variação no peso (perda ou ganho, em Kg) em mulheres um ano após a menopausa.

    Y é contínua, pode ser negativa (perdeu peso), nula (peso não variou) ou positiva (ganhou peso)

  • Variável Resposta Qualitativa Binária

    Y é qualitativa e pode assumir apenas dois valores

    Y = { sucesso(=1) , fracasso(=0) },

    P(Y=1) = ππππ e P(Y=0) = 1 – ππππ.com probabilidades

    P(Y=1) = ππππ e P(Y=0) = 1 – ππππ.

    Exemplo: Y = 1 se a mulher ganhou peso (sucesso)Y = 0 se a mulher manteve/perdeu peso (fracasso);

  • Vamos modelar ππππ, a probabilidade de sucesso,em função das variáveis explicativas X´s:

    ( )kk XXXf ββββπ ++++= ...22110

    Exemplo: X1: idade de entrada na menopausa (anos)X : índice de massa corporal (kg/m2)

    Mas que função será esta ? Lembre-se que 0 ≤≤≤≤ ππππ ≤≤≤≤ 1 !

    X2: índice de massa corporal (kg/m2)X3: tempo de exercício fisico semanal (minutos)X4: reposição hormonal (sim ou não)…

  • A função que liga a probabilidade de sucesso

    π π π π = P(Y=1) aos valores (x1,x2,....,xk) é:

    )...()...(

    )...(

    110110

    110

    1

    1

    1 kkkk

    kk

    xxxx

    xx

    ee

    eββββββ

    βββ

    π +++−++++++

    +=

    +=

    que garante que π π π π está sempre entre 0 e 1.

    Como π depende dos valores das X´s, vamos denotá-la por π(x).

  • Vamos começar com o caso mais simples, onde háapenas uma variável explicativa X que é quantitativa.

    Regressão Logística Simples com X contínua

    Denote a probabilidade de sucesso de Y quando avariável explicativa assume o valor x por:

    P(Y=1 | X=x) = ππππ(x).

    .1

    1)( )( 10 xe

    x ββπ +−+=

    P(Y=1 | X=x) = ππππ(x).

    Então

    Esta curva cresce com x se β1 > 0 e descresce se β1 < 0.

  • Exemplo com β1 > 0

  • Exemplo com β1 < 0

  • Exemplo: pressão arterial (X) entre pessoas que tiveram ou não um AVC (Y). Seja “presença de AVC” = 1 e “ausência de AVC” = 0:

    https://ebmacademy.wordpress.com/2015/08/17/o-fanta sma-da-regressao-logistica/

    Pontos mais concentrados no valor 0 em valores de PA arterial mais baixos, e mais concentrados no valor 1 em valores de PA mais altos:à medida que aumenta a pressão arterial, aumenta a incidência de AVC.

  • À medida que aumenta a PA, aumenta a incidência de AVC. Mas em quanto? Precisamos transformar a variável AVC em “proporção de AVC”, de acordo com os valores de pressão arterial.

    .1

    1)( )( xe

    x ββπ +−+= .

    1)( )( 10 xe

    x ββπ +−+=

  • Exemplo com β1 = 0.05

    ππππ(x) cresce lentamente com valores menores de xe rapidamente com os valores maiores de x.

  • Exemplo com β1 = 0.10

    ππππ(x) cresce lentamente com valores menores e maiores de x,e rapidamente com os valores intermediários de x.

  • Exemplo com β1 = 0.15

    ππππ(x) cresce rapidamente com valores menores de xe lentamente com os valores maiores de x.

  • xex

    xxODDS 10

    )(1

    )( )( ββ

    ππ +=−

    =

    )(10 )(

    )( axeax

    axODDS ++=+=+ ββπ

    Chance de sucesso quando X = x:

    Chance de sucesso quando X = x + a: (ex.: a=1 ano)

    )(10 )(1

    )( axeax

    axODDS ++=+−

    =+ ββπ

    .)(

    )(),( 1βa

    ODDS

    ODDSOR e

    xax

    xax =+=+

    Razão das Chances entre x+ a e x:

    < 1, se β1 < 0> 1, se β1 > 0

    Para a > 0:

  • Exemplo com β1 = 0.1

    4.7)( 2)1.0(2060,80 ≈== ee OR

  • Exemplo com β1 = -0.1

    14.0)( 2)1.0(2060,80 ≈== −− ee OR

  • Intervalos de Confiança*

    [ ]]ˆ[)(ˆ ; ]ˆ[)(ˆ 12/112/1)%1(1001 ββ ααα SEzβSEzβICβ ⋅+⋅−=−

    onde: é o erro padrão de ,zα/2 é percentil de ordem α/2 na Normal Padrão.

    ]ˆ[ 1βSE 1̂βLI LS

    [ ])()()%1(100 )( ; LSaLIaaOR eeIC =−α

    * Apenas para tamanho de amostra grande.

    onde LI e LS são os limites inferior e superior do IC para β1.

    zα/2 é percentil de ordem α/2 na Normal Padrão.

    Razão das Chances entre x+ a e x:

  • Um teste simples da significância do coeficiente β1,ou seja, para testar H0: ββββ1=0 contra H1: ββββ1≠ 0,é o Teste de Wald, que usa a estatística Z0:

    Testando a Significância de ββββ1

    ˆ1̂

    βZ =

    estimativa de β1erro padrão de β̂]ˆ[ 1

    0βSE

    Z =

    que é comparada com a distribuição Normal Padrão*para obtenção do valor p do teste:

    erro padrão de

    * Apenas para tamanho de amostra grande.

    ( )02 ZZP pvalor >⋅=

    1β̂

  • Dados de 100 indivíduos para estudar a relação entre idade(AGE, em anos completos) e ocorrência de doençacoronariana (CHD, 0=não, 1=sim).

    AGRP: define 8 faixas etárias (20-29,30-34,...,60-69).

    Exemplo com Dados: X quantitativa

    (Dados completos no arquivo hosmer1.txt)(Hosmer e Lemeshow, 2ª. ed., pg. 2 )

  • 61.40241.0111.0

    ]ˆ[

    ˆ

    1

    10 ===

    ββ

    SEZ

    Valor P do testede H0: β1=0

    Saída do R

    .74.1)111.0(5ˆ55ˆ 1)( === ee anos RO β

    [ ] [ ] [ ]157.0;063.0)024.0(96.111.096.1ˆ 11

    1%95 SEβ IC ββ ==⋅= mm

    [ ] [ ]17.1;07.1; 157.0063.0%95 )1( ee ICOR ==

    .12.1)111.0(1ˆ11ˆ 1)( === ee ano RO β

    [ ] [ ]192371; )157.0(5)063.0(5%95 )5( . ; .ee ICOR ==

  • Outro caso simples: a única variável explicativaX é qualitativa com duas categorias (x=0 ou x=1).

    Regressão Logística Simples com X binária

    A probabilidade de sucesso de Y dado o valor de X:

    P(Y=1 | X=0) = ππππ(0) ⇒ P(Y=0 | X=0) = 1-ππππ(0)

    )( 101

    1)( xe

    x ββπ +−+=

    P(Y=1 | X=0) = ππππ(0) ⇒

    Novamente

    P(Y=0 | X=0) = 1-ππππ(0) P(Y=1 | X=1) = ππππ(1) ⇒ P(Y=0 | X=1) = 1-ππππ(1)

    01

    1)0( βπ −+

    =e )( 101

    1)1( ββπ +−+

    =e

  • .)0(1

    )0()0( 0βπ

    πe ODDS =−=

    .)1(

    )1( 10 ββπ +== e ODDS

    Chance de sucesso quando X = 0:

    Chance de sucesso quando X = 1:

    .)1(1

    )1( 10 ββπ+=−= e ODDS

    1

    )0()1(

    )0,1( βe ODDS

    ODDSOR ==

    Razão das Chances:

    < 1 se β1 < 0> 1 se β1 > 0

  • Um estudo* com 3890 motoristas militares para investigar apossível associação entre acidente automobilístico (Y) com apresença de toxoplasmose (X1) e o fator Rh (X2).

    Y X1 X21 1 1 12 1 1 13 1 1 14 1 1 1

    Y = 1, se sofreu acidente; Y = 0, caso contrário.

    Exemplo com Dados: X binária

    4 1 1 15 1 1 1

    51 0 1 152 0 1 153 0 1 154 0 1 1

    213 0 0 0214 0 0 0215 0 0 0

    X1 = 1, se portador;X1 = 0, se não-portador.

    X2 = 1, se Rh negativo;

    X2 = 0, se Rh positivo.

    *Flegr et al, BMC Infectious Diseases, 2009 9:72

  • Modelo 1: Acidente X Toxoplasmose

    Coefficients:Estimate Std. Error z value Pr(>|z|)

    (Intercept) -3.5595 0.1113 -31.9 77 |z|)

    (Intercept) -3.5793 0.1093 -32.74 0

  • Regressão Logística Múltipla

    O caso mais geral, quando há duas ou maisvariáveis explicativas X1, X2, ..., Xk.

    A probabilidade de sucesso de Y quando a variáveisexplicativas assumem o valor x=(x1, x2, ... , xk) por:

    P(Y=1 | X=x) = ππππ(x)

    .1

    )( 221101)(

    kk xxxex ββββπ ++++−+

    =L

    P(Y=1 | X=x) = ππππ(x)

  • (Continuação) Estudo motoristas militares para investigar apossível associação entre acidente automobilístico (Y) com apresença de toxoplasmose (X1) e o fator Rh (X2).

    Exemplo com Dados: Múltiplos X´s

    Modelo 3: Acidente X Toxoplasmose & Rh

    Coefficients:Coefficients:Estimate Std. Error z value Pr(>|z|)

    (Intercept) -3.6089 0.1221 -29.549

  • Modelo 4: Acidente X Toxoplasmose & Rh & Interação

    Coefficients:Estimate Std. Error z value Pr(>|z|)

    (Intercept) -3.54536 0.12211 -29.034

  • Para pessoas com Rh + (X2=0):

    Chance de acidente entre os que não têm o toxoplasm a (X1=0)

    Chance de acidente entre os que têm o toxoplasma ( X1=1)

    Razão das Chances = 0.0247/0.0290=0.851 = e(-0.16) = eβ1.

    ( ) ( )-3.54 + (-0.16 1) + (-0.08 0) + (1.05 1 0) -3.54 -0.16 0.0247e e× × × × = =

    ( ) ( )-3.54 + (-0.16 0) + (-0.08 0) + (1.05 0 0) -3.54 0.0290e e× × × × = =

    Chance de acidente entre os que não têm o toxoplasm a (X1=0)

    Chance de acidente entre os que têm o toxoplasma ( X1=1)

    Razão das Chances = 0.0652/0.0267= 2.435 = e(-0.16+1.05) = e(ββββ1+ββββ12).

    ( ) ( )-3.54 + (-0.16 1) + (-0.08 1) + (1.05 1 1) -3.54 -0.16 -0.08+ 1.05 0.0652e e× × × × = =

    Para pessoas com Rh - (X2=1):

  • Preditora Qualitativa com mais de duas categorias

    Se a preditora X é qualitativa com m categorias, devemoscriar m-1 variáveis dummy (indicadoras)para representá-lano modelo.

    Exemplo: Variável raça no exemplo da doença coronariana.

    categoria de referência

    .1

    )( 44332201)( RACERACERACEe

    x αααβπ +++−+=

  • .1

    )386.1792.1079.2386.1( 4321)( RACERACERACE

    ex

    +++−−+=π

  • ,1

    20.0))0(386.1)0(792.1)0(079.2386.1(1

    )( =+

    = +++−−ewhiteπ

    1

    .1

    )386.1792.1079.2386.1( 4321)( RACERACERACE

    ex

    +++−−+=π

    ,1

    67.0))0(386.1)0(792.1)1(079.2386.1(1

    )( =+

    = +++−−eblackπ

    ,1

    60.0))0(386.1)1(792.1)0(079.2386.1(1

    )( =+

    = +++−−ehispanπ

    ,1

    50.0))1(386.1)0(792.1)0(079.2386.1(1

    )( =+

    = +++−−eothersπ

  • .)( 2ˆ079.28800200

    330670

    ))(1()(

    ))(1()(, α

    ππππ

    e e ..

    ..

    WW

    BBWBOR === ==

    −−

    Razão das Chances:

    ,20.0)( =Wπ,67.0)( =Bπ

    ,60.0)( =Hπ,50.0)( =Oπ

    .)( 8800200))(1()(

    ,ππ

    e e ..WW

    WBOR === ==−

    .)( 32 ˆˆ35.1400600

    330670

    ))(1()(

    ))(1()(, 287.0 αα

    ππππ −==

    −− === e e

    ..

    ..

    HH

    BBHBOR

  • Verificando o Bom Ajuste do Modelo

    Lembrando que a regressão logística modela P(Y=1) = ππππem função dos valores das variáveis explicativas X’s:

    .1

    1)( )...( 110 kk xxe

    x βββππ +++−+==

    A partir da amostra de valores de Y e das X’s, os coeficientes são estimados por e, assim, estas β β̂os coeficientes são estimados por e, assim, estas probabilidades são estimadas para cada indivíduo i da amostra:

    .1

    )ˆ...ˆˆ( 110 kiki xxei βββ

    π+++−+

    =

    β β̂

    Valor estimado ou ajustado ou preditoda probabilidade do indivíduo ter Y=1 (ser um sucesso).

    0 ≤≤≤≤ ππππ ≤≤≤≤ 1

  • Se o modelo ajustado é um bom modelo, ou seja,se as variáveis X são boas preditoras da variável Y,então, os indivíduos na amostra:- com Y=1 devem ter valor alto de- com Y=0 devem ter valor baixo de

    iπ̂iπ̂

  • Podemos verificar se o modelo tem um bom ajuste avaliando sua capacidade preditiva, ou seja, se ele é capaz de predizer se o desfecho Y irá ocorrer (Y=1) ou não (Y=0).

    Para cada indivíduo i, usar o valor da probabilidade estimada para dizer se, pelo modelo, ele teria ou não o desfecho,como se fosse um teste com resultado positivo/negativo:

    1 – Construção da Curva ROC do Modelo

    A definição de valor alto ou baixo pode ser feita para váriospontos de corte c entre 0 e 1:

    Se é alto, o indivíduo i tem teste positivo, ou seja, ,

    Se é baixo, o indivíduo i tem teste negativo, ou seja, .iπ̂iπ̂ 1ˆ =iy

    0ˆ =iy

    ,ˆ ci ≥π,ˆ ci

  • Verificamos a capacidade de acerto do “teste do modelo” separamente entre os indivíduos com (Y=1) e sem (Y=0) o desfecho na amostra, ou seja, calculamos, para cada ponto de corte,a sensibilidade e a especificidade do “teste do modelo”:

  • E desenhamos a Curva ROC do Modelo:

  • Área sob Curva ROC (AUC):

  • Área sob Curva ROC (AUC):

  • AUC = 0.5 Sem discriminação (como jogar uma moeda)

    A área sob a curva ROC (AUC) é uma medida do poder dediscriminação do modelo entre prever sucesso ou fracasso.AUC vai de 0,5 (nenhum poder) a 1 (poder máximo)

    Uma área elevada sob a curva ROC sugere que o modelo é capazde predizer com precisão o valor de uma resposta da observação.

    Hosmer e Lemeshow fornecem a seguinte regra geral:

    0.7 ≤ AUC < 0.8 Discriminação aceitável

    0.8 ≤ AUC < 0.9 Discriminação excelente

    AUC ≥ 0.9 Discriminação fora de série (mas, extremamente rara)

  • Deviance TableSource DF Adj Dev Adj Mean Chi-Square P-ValueRegression 2 15.465 7.732 15.46 0.000Verduras 1 3.706 3.706 3.71 0.054Fratura 1 12.504 12.504 12.50 0.000

    Error 383 473.581 1.237Total 385 489.046

  • Rows: FITS1 Columns: Queda

    Não Sim All

    0.201431 50 11 6181.97 18.03 100.00

    0.298129 144 63 20769.57 30.43 100.00

    0.323636 42 22 6465.63 34.38 100.0065.63 34.38 100.00

    0.446218 91 71 16256.17 43.83 100.00

  • 2 – Testes de Hosmer-Lemeshow e Pearson

    Hipótese nula: o modelo está bem ajustado aos dados

    Não se rejeita a hipótese nula de bom ajuste se valor-p ≥≥≥≥ αααα(nível de sugnificância escolhido).

    Ambos avaliam o modelo ajustado através das distâncias entre as probabilidades ajustadas e as probabilidades observadas.as probabilidades ajustadas e as probabilidades observadas.

    O teste de Hosmer-Lemeshow é mais utilizado e confiável.

  • CoefficientsTerm Coef SE Coef 95% CI Z-Value P-ValueConstant -1.377 0.235 (-1.837; -0.918) -5.87 0.000VerdurasBaixo 0.521 0.233 ( 0.064; 0.978) 2.23 0.025

    FraturaSim 0.640 0.194 ( 0.260; 1.020) 3.30 0.001

    Goodness-of-Fit Tests

    Exemplo das Quedas em Mulheres Idosas.

    Goodness-of-Fit TestsTest DF Chi-Square P-ValuePearson 491 493.22 0.463Hosmer-Lemeshow 2 0.37 0.832

  • Deviance

    A deviance tem o mesmo papel que a SQResíduos na regressão linear, ou seja,

    é uma medida da variabilidade não explicada pelo modelo.

    Assim, para comparar dois modelos encaixados, como os modelos com a variável X (“cheio”) e sem (“reduzido”) , ou seja, testar H0:β1=0, calcula-se a estatísticaou seja, testar H0:β1=0, calcula-se a estatística

    G2 = deviance (reduzido) – deviance(cheio).

    Se G2 é um valor alto (na distribuição χ2 com 1 g.l.), então houve uma redução significativa na deviance com a introdução de X. Logo, H0 deve ser rejeitada.

  • Coefficients:Estimate Std. Error z value Pr(>|z|)

    (Intercept) -5.30945 1.13365 -4.683 2.82e-06 AGE 0.11092 0.02406 4.610 4.02e-06 ---

    Null deviance: 136.66 on 99 degrees of freedomResidual deviance: 107.35 on 98 degrees of freedom

    Saída do R

    Teste: H0: β1=0 X β1≠0

    Estatística G2 = “null deviance” - “residual deviance”= 136.66 - 107.35 = 29.31.

    Valor P = P(χ21 > 29.31) < 0.0001 .

    modelo sem AGE

    modelo com AGE

  • Seleção de Modelos

    Akaike´s Information Criterion: AIC

    AIC = deviance – n + 2p p = no. de preditoras

    menor AIC , melhor ajuste

    menor,melhor

    maior,melhor

    menor,melhor

  • P-ValueRegression 0.001F.etaria 0.092Ativ.fisica 0.100Verduras 0.030Fratura 0.000

    AIC: 479.03

    Regression 0.000

    Verduras 0.022Fratura 0.001

    AIC: 622.82

  • Suposições do Modelo

    - A distribuição da variável resposta Y condicional

    aos valores das preditoras X´s é uma Bernoulli (π(x)):

    � observações são independentes.- Não há forte colineriedade (correlação/associação)

    entre as preditoras X´s, verificada por:

    � medida de correlação (ex. Pearson) p/ X´s quantitativas;� medida de correlação (ex. Pearson) p/ X´s quantitativas;

    � tabelas cruzadas (χ2) para X´s qualitativas.� boxplots/histogramas da variável quantitativa dentro

    das categorias da variável qualitativa (compara as médias viateste T/ANOVA ou medianas com testes não-paramétricos.