Multiple Regression III -...

of 41/41
Multiple Regression III Werner Brannath VO Biostatistik im WS 2006/2007
  • date post

    30-Apr-2020
  • Category

    Documents

  • view

    2
  • download

    0

Embed Size (px)

Transcript of Multiple Regression III -...

  • Multiple Regression III

    Werner Brannath

    VO Biostatistik im WS 2006/2007

  • Inhalt

    Überprüfung der ModellannahmenResiduen-PlotNormal-Q-Q-PlotCook’s Distanz-PlotMaßnahmen bei Abweichungen von Modellannahmen

    ANOVA als lineares ModellEinfaktoriellZweifaktoriell

  • Modellannahmen

    Modellansatz

    Y = β0 + β1 · X1 + · · ·+ βp · Xp + ε

    I Linearität: Lineare Abhängigkeit des bedingtenErwartungswertes E(Y ) von X1, . . . , Xp.

    I Varianzhomogenität: Unabhängigkeit der ResidualvarianzVar(ε) = σ2 von X1, . . . , Xp.

    I Normalverteilte Residuen ε.

  • Methoden zur Überprüfung der Modellannahmen

    I Streudiagramme zum Überprüfen der Linearität (bivariat).

    I Residuen-Plot zum Überüfen der Linearität undVarianzhomogenität.

    I Q-Q-Plot zum Überprüfen der Normalverteilung derResiduen.

    I Cook’s Distanz-Plot zum finden von Individuen mitungewöhnlich starkem Einfluss auf die geschätztenRegressionskoeffizienten.

  • Residuen-Plot

    Zeichne zweidimensionale Grafik mit den Prognosen

    ŷj = β̂0 + β̂1 xj1 + · · ·+ β̂p xjpauf der x-Achse und den geschätzten Residuen

    �j = yj − ŷjauf der y-Achse.

  • Beispiel Zystische Fibrose

    Coefficients:Estimate Std. Error t value Pr(>|t|)

    (Intercept) 62.4448 53.2432 1.173 0.254647Weight 1.7480 0.3797 4.603 0.000172 ***BMP -1.3644 0.5633 -2.422 0.025062 *FEV 1.5480 0.5771 2.682 0.014317 *RV 0.1275 0.0832 1.532 0.141135--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’

    Residual standard error: 22.73 on 20 degrees of freedomMultiple R-Squared: 0.6148, Adjusted R-squared: 0.5378F-statistic: 7.981 on 4 and 20 DF, p-value: 0.0005139

  • Residuen-Plot für Zystische Fibrose Daten

    80 100 120 140 160

    −40

    −20

    020

    40

    Fitted values

    Res

    idua

    ls

    lm(formula = PEmax ~ Weight + BMP + FEV + RV)

    Residuals vs Fitted

    2421

    16

  • Interpretation von Residuen-Plots

    Wenn das Modell stimmt, dann . . .

    I . . . sollten sich die in Residuen ungefähr in einemgleichbleibend dickem horzontalen Band verteilen;

    I . . . keinen linearen oder nichtlinearen Trend aufweisen.

    Abweichungen von diesem Bild sind Hinweis auf entweder

    I . . . einen nicht-linearen Zusammenhang oder

    I . . . nicht-konstante (inhomogene) Residualvarianzen.

  • Residuen-Plot bei quadratischem Zusammenhang

    ●●

    ●●

    ●●

    ●●●

    ●●●

    ●●●

    ●●

    ●●

    ●●●●

    ●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    0 1 2 3 4 5

    020

    4060

    8010

    0

    X

    Y

    0 20 40 60 80

    −15

    −10

    −5

    05

    1015

    Fitted values

    Res

    idua

    ls

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    lm(formula = Y ~ X)

    Residuals vs Fitted

    4950

    1

  • Residuen-Plot bei logaritmischen Zusammenhang

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    0 1 2 3 4 5

    −10

    −5

    05

    10

    X

    Y

    0 2 4 6 8

    −10

    −5

    05

    Fitted values

    Res

    idua

    ls

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    lm(formula = Y ~ X)

    Residuals vs Fitted

    2

    1

    25

  • Residuen-Plot bei inhomogener Varianz

    ●●●

    ●●●

    ●●●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    0 1 2 3 4 5

    05

    1015

    X

    Y

    2 3 4 5 6 7 8 9

    −10

    −5

    05

    10Fitted values

    Res

    idua

    ls

    ●●●●

    ●●●

    ●●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    lm(formula = Y ~ X)

    Residuals vs Fitted

    44

    43

    49

  • Residuen-Plot für Bodyfat-Daten

    10 20 30 40 50

    −20

    −15

    −10

    −5

    05

    1015

    Fitted values

    Res

    idua

    ls

    ●●

    ●●

    ● ●●

    ● ●

    ● ●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ● ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●● ●

    ●●

    ● ●

    ●●

    ●●

    ● ●

    ● ●

    ●●

    ●●

    ●●

    ●●

    ●●

    ● ●

    ● ●●

    ●●

    ●●

    ●●●

    lm(formula = bodyfat ~ abdomen + biceps, data = daten)

    Residuals vs Fitted

    39

    207

    204

  • Normal-Quantil-Quantil (Normal Q-Q) Plots

    Trage in einem zweidimensionalen Diagramm

    auf der x-Achse die Quantile der Standard-Normalverteilung

    QN(

    j − 0.5n

    ), j = 1, . . . , n

    und auf der y-Achse die standardisierten Residuen

    �j

    ŜE(�j), ŜE(�j) Schätzung der Standardabw. von �j

    auf.

  • Normal Q-Q-Plot für Zystische Fibrose-Daten

    ●●

    −2 −1 0 1 2

    −2

    −1

    01

    2

    Theoretical Quantiles

    Sta

    ndar

    dize

    d re

    sidu

    als

    lm(formula = PEmax ~ Weight + BMP + FEV + RV)

    Normal Q−Q plot

    24

    16

    21

  • Interpretation von Normal-Q-Q-Plots

    I Wenn die Residuen normalverteilt sind, dann sind diestandardisierten Residuen (ungefähr) standard-normalverteilt und daher sollten die Punkte auf derdiagonalen Gerade liegen.

    I Abweichungen von der Normalverteilung implizieren,dass der p-Wert des F-Tests für H0 : β1 = · · · = βp = 0und die p-Werte der t-Tests für H0 : βi = 0, i = 1, . . . , p,irreführend sein könnten, d.h. die vorgegebeneFehlerwahrscheinlichkeit α nicht eingehalten wird.

  • Normal Q-Q-Plot bei χ21-verteilten Residuen

    ●●

    ●●●

    ●●●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    0 1 2 3 4 5

    24

    68

    1012

    X

    Y

    ● ●

    ●●●

    ●●

    ●●

    ●●●●

    ●●

    ● ●

    ●●

    ● ●

    ●●●

    −2 −1 0 1 2

    −1

    01

    23

    4Theoretical Quantiles

    Sta

    ndar

    dize

    d re

    sidu

    als

    lm(formula = Y ~ X)

    Normal Q−Q plot

    30

    4117

  • Normal Q-Q-Plot für Bodyfat-Daten

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ● ●

    ●●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●●

    ● ●

    ●●

    ● ●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●

    ●●●

    ●●

    ●●

    ●●●

    −3 −2 −1 0 1 2 3

    −4

    −2

    02

    Theoretical Quantiles

    Sta

    ndar

    dize

    d re

    sidu

    als

    lm(formula = bodyfat ~ abdomen + biceps, data = daten)

    Normal Q−Q plot

    39

    207

    204

  • Cook’s Distanz-Plot

    I Dient als Maß zum Beurteilen des Einflusses einzelnerPatienten.

    I Berechne lineare Regression ohne Individuum j

    → liefert etwas andere Prognosen ŷk(j) für ykI Quadratische Abweichung zwischen ŷk(j) und yk

    Dj =1

    (p + 1) s2

    n∑k=1

    (ŷk(j) − ŷk )2

    wobei p die Zahl der Kovariablen ist.I Dj ≥ 1 ist Hinweis für einen ungewöhnlich starken Einfluss

    des j-ten Individuums auf die Schätzung der derRegressionsebene.

  • Cook’s Distanz-Plot für Zystische Fibrose-Daten

    5 10 15 20 25

    0.00

    0.05

    0.10

    0.15

    0.20

    0.25

    Obs. number

    Coo

    k's

    dist

    ance

    lm(formula = PEmax ~ Weight + BMP + FEV + RV)

    Cook's distance plot

    25

    246

  • Cook’s Distanz-Plot für Bodyfat-Daten

    0 50 100 150 200 250

    0.0

    0.2

    0.4

    0.6

    Obs. number

    Coo

    k's

    dist

    ance

    lm(formula = bodyfat ~ abdomen + biceps, data = daten)

    Cook's distance plot

    39

    21641

  • Maßnahmen bei zu großem Einfluss

    Wenn Individuuen einen zu großen Einfluss zeigen (Dj ≥ 1),dann sollte man . . .

    I die Daten dieser Individuen auf Fehler überprüfen;

    I weitere den Einfluss dieser Individuen erklärendeKovariablen hinzufügen (falls vorhanden);

    I Individuen aus dem Datensatz entfernen, wenn sie(offensichtlich) einer anderen Population angehören.(Achtung: Das Entfernen von Individuen sollte nur inAusnahmefällen geschehen!)

  • Maßnahmen bei Abweichungen von denModellannahmen

    I Nicht-Linearität:I Transformation der Kovariablen (logarithmieren,

    exponieren, etc.).I Hinzunehmen von quadratischen und ev. höheren Termen.I Kovariablen kategorisieren und als Faktoren modellieren.I Methoden der nichtparametrischen Regression.

    I Varianz-Inhomogenität:I Transformation der Zielvariaben (logarithmieren, etc.)I Modellierung unterschiedlicher Varianzen durch geeignete

    Varianzkomponente (Mixed-Models).

    I Nicht-normalverteilte Residuen: Transformation derZielvariable, nichtparametrische Regression.

  • Bluthochdruckdaten -Einfaktorielles Design mit zwei Gruppen

    I M1 und M2 zwei Medikamente zur Behandlung vonBluthochdruck.

    I Randomisierte Studie mit 6 Patienten proMedikamentgruppe.

    I Blutdruckmessungen

    Medikament M1: 170, 175, 165, 180, 160, 158Medikament M2: 186, 194, 201, 215, 219, 209

  • ANOVA mit zwei Gruppen alslineares Modell mit Dummy-Variable

    Regression mit einer Dummy-Variable

    Zwei Gruppen von Individuen, Gruppe 1 und Gruppe 2

    Dummy Variable von Individuum j in Gruppe i

    zij ={

    0 falls i = 11 falls i = 2

    , i = 1, 2, j = 1, . . . , ni

    Varianzanalyse Modell als lineares Regressionmodell:

    yij = µi + �ij= µ1 + (µ2 − µ1) · zij + �ij= β0 + β1 · zij + �ij

  • Bluthochdruckdaten -Einfaktorielles Design mit zwei Gruppen

    > summary(lm(bp~drug,data=bio1))Coefficients:

    Estimate Std. Error t value Pr(>|t|)(Intercept) 168.000 4.423 37.980 3.82e-12 ***drugM2 36.000 6.256 5.755 0.000184 ***--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

    Residual standard error: 10.84 on 10 degrees of freedomMultiple R-Squared: 0.7681, Adjusted R-squared: 0.7449F-statistic: 33.12 on 1 and 10 DF, p-value: 0.0001840

    > summary(aov(bp~drug,data=bio1))Df Sum Sq Mean Sq F value Pr(>F)

    drug 1 3888.0 3888.0 33.118 0.0001840 ***Residuals 10 1174.0 117.4--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

  • Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen

    I M1, M2 und M3 drei Medikamente zur Behandlung vonBluthochdruck.

    I Randomisierte Studie mit 6 Patienten proMedikamentgruppe.

    I Blutdruckmessungen

    Medikament M1: 170, 175, 165, 180, 160, 158Medikament M2: 186, 194, 201, 215, 219, 209Medikament M3: 180, 187, 199, 170, 204, 194

  • Boxplots für Blutdruck pro Medikament

    A B C

    160

    170

    180

    190

    200

    210

    220

  • Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen

    > summary(aov(bp~drug,data=bio3))

    Df Sum Sq Mean Sq F value Pr(>F)drug 2 3924.0 1962.0 14.939 0.0002694 ***Residuals 15 1970.0 131.3--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

    Kontrasttest für µM2 − µM1 = 0:F-Teststatistik= 29.6, p-Wert= 6.82 · 10−5

    Kontrasttest für µM3 − µM1 = 0:F-Teststatistik= 10.1, p-Wert= 0.00629

    Kontrasttest für µM3 − µM2 = 0:F-Teststatistik= 5.1, p-Wert= 0.0386

  • Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen

    Regression mit zwei Dummy-Variablen

    Faktor mit drei Levels (drei Gruppen): i = 1, 2, 3

    Kodiert mit zwei Dummy-Variablen mit M1 als Referenz

    z1ij ={

    0 falls i = 1, 31 falls i = 2

    , z2ij ={

    0 falls i = 1, 21 falls i = 3

    Einfakotrielle Varianzanalyse als lineare Regression:

    yij = β0 + β1 · z1ij + β2 · z2ij + �ij

  • Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen

    > bio3$M2 bio3$M3 summary(lm(bp~M2+M3,data=bio3))

    Coefficients:Estimate Std. Error t value Pr(>|t|)

    (Intercept) 168.000 4.679 35.909 5.81e-16 ***M2 36.000 6.616 5.441 6.82e-05 ***M3 21.000 6.616 3.174 0.00629 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

    Residual standard error: 11.46 on 15 degrees of freedomMultiple R-Squared: 0.6658, Adjusted R-squared: 0.6212F-statistic: 14.94 on 2 and 15 DF, p-value: 0.0002694

    F-Test identisch zur ANOVA, T-Tests identisch zu den ersten zwei Kontrasttests.

  • Bluthochdruckdaten - Zweifaktorielles Design

    I Medikamente M1 und M2 gegen Bluthochdruck.

    I Diät ja oder nein

    I 6 Patienten pro Medikamentgruppe × Diätgruppe.

    I Blutdruckmessungen

    Med. M1 und Diät nein: 170, 175, 165, 180, 160, 158Med. M1 und Diät ja: 161, 173, 157, 152, 181, 190Med. M2 und Diät nein: 186, 194, 201, 215, 219, 209Med. M2 und Diät ja: 164, 166, 159, 182, 187, 174

  • Bluthochdruckdaten - Zweifaktorielles Design

    M1 M2

    150

    160

    170

    180

    190

    200

    210

    220

  • Bluthochdruckdaten - Zweifaktorielles Design

    Diät nein Diät ja

    150

    160

    170

    180

    190

    200

    210

    220

  • Zweifaktorielle ANOVA

    Regression mit zwei Dummy-Variablen

    2× 2 (= 4) Gruppen: h = 1, 2 und i = 1, 2

    Zwei Dummy-Variablen

    z1hj ={

    0 falls h = 11 falls h = 2

    , z2ij ={

    0 falls i = 11 falls i = 2

    Zweifaktorielle Varianzanalyse als lineare Regression:

    yhij = β0 + β1 · z1hj + β2 · z2ij + �hij

  • Bluthochdruckdaten - Zweifaktorielles Design

    > summary(lm(bp~drug+diet,data=bio2))Coefficients:

    Estimate Std. Error t value Pr(>|t|)(Intercept) 176.250 5.178 34.041 < 2e-16 ***drugM2 19.500 5.978 3.262 0.00373 **diety -15.500 5.978 -2.593 0.01699 *--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

    Residual standard error: 14.64 on 21 degrees of freedomMultiple R-Squared: 0.4526, Adjusted R-squared: 0.4004F-statistic: 8.68 on 2 and 21 DF, p-value: 0.001789

    > summary(aov(bp~drug+diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)

    drug 1 2281.5 2281.5 10.6387 0.003728 **diet 1 1441.5 1441.5 6.7218 0.016988 *Residuals 21 4503.5 214.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

  • Bluthochdruckdaten - Zweifaktorielles Design

    M1/Diät nein M2/Diät nein M1/Diät ja M2/Diät ja

    150

    160

    170

    180

    190

    200

    210

    220

  • Zweifaktorielle ANOVA mit Interaktion

    Regression mit zwei Dummy-Variablen und Interaktion

    2× 2 Gruppen: h = 1, 2 und i = 1, 2→ zwei Dummy-Variablen

    z1hj ={

    0 falls h = 11 falls h = 2

    , z2ij ={

    0 falls i = 11 falls i = 2

    Zweifaktorielle Varianzanalyse mit Interaktion:

    yhij = β0 + β1 · z1hj + β2 · z2ij + β3 · z1hj · z2ij + �hij= µhi + �hij

    wobei β0 = µ11, β1 = µ21 − µ11, β2 = µ12 − µ11, und

    β3 = (µ22 − µ12)− (µ21 − µ11) = (µ22 − µ21)− (µ12 − µ11)

  • Bluthochdruckdaten - Zweifaktorielles Design mitInteraktion

    > summary(lm(bp~drug*diet,data=bio2))Coefficients:

    Estimate Std. Error t value Pr(>|t|)(Intercept) 168.000 4.891 34.353 < 2e-16 ***drugM2 36.000 6.916 5.205 4.3e-05 ***diety 1.000 6.916 0.145 0.88648drugB:diety -33.000 9.781 -3.374 0.00302 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

    Residual standard error: 11.98 on 20 degrees of freedomMultiple R-Squared: 0.6511, Adjusted R-squared: 0.5988F-statistic: 12.44 on 3 and 20 DF, p-value: 8.165e-05

    > summary(aov(bp~drug*diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)

    drug 1 2281.5 2281.5 15.899 0.0007246 ***diet 1 1441.5 1441.5 10.045 0.0048208 **drug:diet 1 1633.5 1633.5 11.383 0.0030174 **Residuals 20 2870.0 143.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

  • Zweifaktorielle ANOVA mit zentrierten Dummies undInteraktion

    Regression mit zentrierten Dummy-Variablen undInteraktion

    2× 2 Gruppen: h = 1, 2 und i = 1, 2→ zwei Dummy-Variablen

    z∗1hj ={−0.5 falls h = 1

    0.5 falls h = 2, z∗2ij =

    {−0.5 falls i = 1

    0.5 falls i = 2

    Zweifaktorielle Varianzanalyse mit Interaktion:

    yhij = β0 + β1 · z∗1hj + β2 · z∗2ij + β3 · z∗1hj · z∗2ij + �hij= µhi + �hij

  • Bluthochdruckdaten - Zweifaktorielles Design mitzentrieten Dummies und Interaktion

    > summary(lm(bp~drug2*diet2,data=bio2))Coefficients:

    Estimate Std. Error t value Pr(>|t|)(Intercept) 178.250 2.445 72.897 < 2e-16 ***drug2 19.500 4.890 3.987 0.000725 ***diet2 -15.500 4.890 -3.169 0.004821 **drug2:diet2 -33.000 9.781 -3.374 0.003017 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

    Residual standard error: 11.98 on 20 degrees of freedomMultiple R-Squared: 0.6511, Adjusted R-squared: 0.5988F-statistic: 12.44 on 3 and 20 DF, p-value: 8.165e-05

    > summary(aov(bp~drug*diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)

    drug 1 2281.5 2281.5 15.899 0.0007246 ***diet 1 1441.5 1441.5 10.045 0.0048208 **drug:diet 1 1633.5 1633.5 11.383 0.0030174 **Residuals 20 2870.0 143.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

  • Zweifaktorielle ANOVA mit zentrierten Dummies undInteraktion

    z∗1hj ={−0.5 falls h = 1

    0.5 falls h = 2, z∗2ij =

    {−0.5 falls i = 1

    0.5 falls i = 2

    yhij = β0 + β1 · z∗1hj + β2 · z∗2ij + β3 · z∗1hj · z∗2ij + �hij= µhi + �hij

    Interpretation der Koeffizienten:

    β0 = (µ11 + µ12 + µ21 + µ22)/4

    β1 =µ21 + µ22

    2− µ11 + µ12

    2, β2 =

    µ12 + µ222

    − µ11 + µ212

    β3 = (µ22 − µ12)− (µ21 − µ11) = (µ22 − µ21)− (µ12 − µ11)

    InhaltÜberprüfung der ModellannahmenResiduen-PlotNormal-Q-Q-PlotCook's Distanz-PlotMaßnahmen bei Abweichungen

    ANOVA als lineares ModellEinfaktoriellZweifaktoriell