Multiple Regression III -...

Multiple Regression III

Werner Brannath

VO Biostatistik im WS 2006/2007

Inhalt

Überprüfung der ModellannahmenResiduen-PlotNormal-Q-Q-PlotCook’s Distanz-PlotMaßnahmen bei Abweichungen von Modellannahmen

ANOVA als lineares ModellEinfaktoriellZweifaktoriell

Modellannahmen

Modellansatz

Y = β0 + β1 · X1 + · · ·+ βp · Xp + ε

I Linearität: Lineare Abhängigkeit des bedingtenErwartungswertes E(Y ) von X1, . . . , Xp.

I Varianzhomogenität: Unabhängigkeit der ResidualvarianzVar(ε) = σ2 von X1, . . . , Xp.

I Normalverteilte Residuen ε.

Methoden zur Überprüfung der Modellannahmen

I Streudiagramme zum Überprüfen der Linearität (bivariat).

I Residuen-Plot zum Überüfen der Linearität undVarianzhomogenität.

I Q-Q-Plot zum Überprüfen der Normalverteilung derResiduen.

I Cook’s Distanz-Plot zum finden von Individuen mitungewöhnlich starkem Einfluss auf die geschätztenRegressionskoeffizienten.

Residuen-Plot

Zeichne zweidimensionale Grafik mit den Prognosen

yj = β0 + β1 xj1 + · · ·+ βp xjp

auf der x-Achse und den geschätzten Residuen

εj = yj − yj

auf der y-Achse.

Beispiel Zystische Fibrose

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 62.4448 53.2432 1.173 0.254647Weight 1.7480 0.3797 4.603 0.000172 ***BMP -1.3644 0.5633 -2.422 0.025062 *FEV 1.5480 0.5771 2.682 0.014317 *RV 0.1275 0.0832 1.532 0.141135--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’

Residual standard error: 22.73 on 20 degrees of freedomMultiple R-Squared: 0.6148, Adjusted R-squared: 0.5378F-statistic: 7.981 on 4 and 20 DF, p-value: 0.0005139

Residuen-Plot für Zystische Fibrose Daten

80 100 120 140 160

−40

−20

020

40

Fitted values

Res

idua

ls

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

lm(formula = PEmax ~ Weight + BMP + FEV + RV)

Residuals vs Fitted

2421

16

Interpretation von Residuen-Plots

Wenn das Modell stimmt, dann . . .

I . . . sollten sich die in Residuen ungefähr in einemgleichbleibend dickem horzontalen Band verteilen;

I . . . keinen linearen oder nichtlinearen Trend aufweisen.

Abweichungen von diesem Bild sind Hinweis auf entweder

I . . . einen nicht-linearen Zusammenhang oder

I . . . nicht-konstante (inhomogene) Residualvarianzen.

Residuen-Plot bei quadratischem Zusammenhang

●●

●●

●●

●●●

●●●

●●●

●●

●

●●

●●●●

●

●●

●●

●

●

●

●●

●

●●

●

●

●

●●●

●

●

●●

●

●●

0 1 2 3 4 5

020

4060

8010

0

X

Y

0 20 40 60 80

−15

−10

−5

05

1015

Fitted values

Res

idua

ls

●

●

●

●●

●●

●

●

●

●●

●

●●●

●

●

●

●●

●●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●●

lm(formula = Y ~ X)

Residuals vs Fitted

4950

1

Residuen-Plot bei logaritmischen Zusammenhang

●

●

●

●

●●

●●

●

●

●●

●

●

●

●●

●

●

●●

●●

●

●

●

●

●

●●

●

●●

●

●●

●

●●

●

●

●

●

●

●●

●

●

●

●

0 1 2 3 4 5

−10

−5

05

10

X

Y

0 2 4 6 8

−10

−5

05

Fitted values

Res

idua

ls

●

●

●

●

●●

●●

●

●

●

●●

●

●

●●

●

●

●

●

●●

●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●

●

●

●

●●

●

●

●

●

lm(formula = Y ~ X)

Residuals vs Fitted

2

1

25

Residuen-Plot bei inhomogener Varianz

●●●

●●●

●●●

●

●

●

●●

●

●●

●●

●

●●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

0 1 2 3 4 5

05

1015

X

Y

2 3 4 5 6 7 8 9

−10

−5

05

10Fitted values

Res

idua

ls

●●●●●

●●●●●

●

●

●●

●

●●

●●

●

●●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

lm(formula = Y ~ X)

Residuals vs Fitted

44

43

49

Residuen-Plot für Bodyfat-Daten

10 20 30 40 50

−20

−15

−10

−5

05

1015

Fitted values

Res

idua

ls

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

● ●●

●

●

●

●

● ●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●●

●

●●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

● ●●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●●●

●

●

●

●

●●

●

●

●

●

●●

●● ●

●●

●

● ●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

● ●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●●●

●

●

●

●

●

●

lm(formula = bodyfat ~ abdomen + biceps, data = daten)

Residuals vs Fitted

39

207

204

Normal-Quantil-Quantil (Normal Q-Q) Plots

Trage in einem zweidimensionalen Diagramm

auf der x-Achse die Quantile der Standard-Normalverteilung

QN(

j − 0.5n

), j = 1, . . . , n

und auf der y-Achse die standardisierten Residuen

εj

SE(εj), SE(εj) Schätzung der Standardabw. von εj

auf.

Normal Q-Q-Plot für Zystische Fibrose-Daten

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−2 −1 0 1 2

−2

−1

01

2

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als


Normal Q−Q plot

24

16

21

Interpretation von Normal-Q-Q-Plots

I Wenn die Residuen normalverteilt sind, dann sind diestandardisierten Residuen (ungefähr) standard-normalverteilt und daher sollten die Punkte auf derdiagonalen Gerade liegen.

I Abweichungen von der Normalverteilung implizieren,dass der p-Wert des F-Tests für H0 : β1 = · · · = βp = 0und die p-Werte der t-Tests für H0 : βi = 0, i = 1, . . . , p,irreführend sein könnten, d.h. die vorgegebeneFehlerwahrscheinlichkeit α nicht eingehalten wird.

Normal Q-Q-Plot bei χ21-verteilten Residuen

●●

●●●

●●●●

●

●●

●

●●●

●

●●

●

●

●

●●

●

●

●

●

●

●

●●

●●

●●

●

●

●●

●

●

●

●

●●

●●

●●

0 1 2 3 4 5

24

68

1012

X

Y

● ●

●

●●●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●●●

●●

●

●

● ●

●

●●

●

● ●

●●●

●

−2 −1 0 1 2

−1

01

23

4Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

lm(formula = Y ~ X)

Normal Q−Q plot

30

4117

Normal Q-Q-Plot für Bodyfat-Daten

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●●●

●

●

●

●

●●

●

●

●

●

●●

●●●

● ●

●

●●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●●●

●

●

●

●

●

●

−3 −2 −1 0 1 2 3

−4

−2

02

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als


Normal Q−Q plot

39

207

204

Cook’s Distanz-Plot

I Dient als Maß zum Beurteilen des Einflusses einzelnerPatienten.

I Berechne lineare Regression ohne Individuum j

→ liefert etwas andere Prognosen yk(j) für yk

I Quadratische Abweichung zwischen yk(j) und yk

Dj =1

(p + 1) s2

n∑k=1

(yk(j) − yk )2

wobei p die Zahl der Kovariablen ist.I Dj ≥ 1 ist Hinweis für einen ungewöhnlich starken Einfluss

des j-ten Individuums auf die Schätzung der derRegressionsebene.

Cook’s Distanz-Plot für Zystische Fibrose-Daten

5 10 15 20 25

0.00

0.05

0.10

0.15

0.20

0.25

Obs. number

Coo

k's

dist

ance


Cook's distance plot

25

246

Cook’s Distanz-Plot für Bodyfat-Daten

0 50 100 150 200 250

0.0

0.2

0.4

0.6

Obs. number

Coo

k's

dist

ance


Cook's distance plot

39

21641

Maßnahmen bei zu großem Einfluss

Wenn Individuuen einen zu großen Einfluss zeigen (Dj ≥ 1),dann sollte man . . .

I die Daten dieser Individuen auf Fehler überprüfen;

I weitere den Einfluss dieser Individuen erklärendeKovariablen hinzufügen (falls vorhanden);

I Individuen aus dem Datensatz entfernen, wenn sie(offensichtlich) einer anderen Population angehören.(Achtung: Das Entfernen von Individuen sollte nur inAusnahmefällen geschehen!)

Maßnahmen bei Abweichungen von denModellannahmen

I Nicht-Linearität:I Transformation der Kovariablen (logarithmieren,

exponieren, etc.).I Hinzunehmen von quadratischen und ev. höheren Termen.I Kovariablen kategorisieren und als Faktoren modellieren.I Methoden der nichtparametrischen Regression.

I Varianz-Inhomogenität:I Transformation der Zielvariaben (logarithmieren, etc.)I Modellierung unterschiedlicher Varianzen durch geeignete

Varianzkomponente (Mixed-Models).

I Nicht-normalverteilte Residuen: Transformation derZielvariable, nichtparametrische Regression.

Bluthochdruckdaten -Einfaktorielles Design mit zwei Gruppen

I M1 und M2 zwei Medikamente zur Behandlung vonBluthochdruck.

I Randomisierte Studie mit 6 Patienten proMedikamentgruppe.

I Blutdruckmessungen

Medikament M1: 170, 175, 165, 180, 160, 158Medikament M2: 186, 194, 201, 215, 219, 209

ANOVA mit zwei Gruppen alslineares Modell mit Dummy-Variable

Regression mit einer Dummy-Variable

Zwei Gruppen von Individuen, Gruppe 1 und Gruppe 2

Dummy Variable von Individuum j in Gruppe i

zij =

{0 falls i = 11 falls i = 2

, i = 1, 2, j = 1, . . . , ni

Varianzanalyse Modell als lineares Regressionmodell:

yij = µi + εij

= µ1 + (µ2 − µ1) · zij + εij

= β0 + β1 · zij + εij

Bluthochdruckdaten -Einfaktorielles Design mit zwei Gruppen

> summary(lm(bp~drug,data=bio1))Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 168.000 4.423 37.980 3.82e-12 ***drugM2 36.000 6.256 5.755 0.000184 ***--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1


> summary(aov(bp~drug,data=bio1))Df Sum Sq Mean Sq F value Pr(>F)

drug 1 3888.0 3888.0 33.118 0.0001840 ***Residuals 10 1174.0 117.4--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen

I M1, M2 und M3 drei Medikamente zur Behandlung vonBluthochdruck.

I Randomisierte Studie mit 6 Patienten proMedikamentgruppe.


Medikament M1: 170, 175, 165, 180, 160, 158Medikament M2: 186, 194, 201, 215, 219, 209Medikament M3: 180, 187, 199, 170, 204, 194

Boxplots für Blutdruck pro Medikament

A B C

160

170

180

190

200

210

220


> summary(aov(bp~drug,data=bio3))

Df Sum Sq Mean Sq F value Pr(>F)drug 2 3924.0 1962.0 14.939 0.0002694 ***Residuals 15 1970.0 131.3--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Kontrasttest für µM2 − µM1 = 0:F-Teststatistik= 29.6, p-Wert= 6.82 · 10−5

Kontrasttest für µM3 − µM1 = 0:F-Teststatistik= 10.1, p-Wert= 0.00629

Kontrasttest für µM3 − µM2 = 0:F-Teststatistik= 5.1, p-Wert= 0.0386


Regression mit zwei Dummy-Variablen

Faktor mit drei Levels (drei Gruppen): i = 1, 2, 3

Kodiert mit zwei Dummy-Variablen mit M1 als Referenz

z1ij =

{0 falls i = 1, 31 falls i = 2

, z2ij =

{0 falls i = 1, 21 falls i = 3

Einfakotrielle Varianzanalyse als lineare Regression:

yij = β0 + β1 · z1ij + β2 · z2ij + εij


> bio3$M2 <- ifelse(bio3$drug==’B’,1,0)> bio3$M3 <- ifelse(bio3$drug==’C’,1,0)> summary(lm(bp~M2+M3,data=bio3))

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 168.000 4.679 35.909 5.81e-16 ***M2 36.000 6.616 5.441 6.82e-05 ***M3 21.000 6.616 3.174 0.00629 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1


F-Test identisch zur ANOVA, T-Tests identisch zu den ersten zwei Kontrasttests.

Bluthochdruckdaten - Zweifaktorielles Design

I Medikamente M1 und M2 gegen Bluthochdruck.

I Diät ja oder nein

I 6 Patienten pro Medikamentgruppe × Diätgruppe.


Med. M1 und Diät nein: 170, 175, 165, 180, 160, 158Med. M1 und Diät ja: 161, 173, 157, 152, 181, 190Med. M2 und Diät nein: 186, 194, 201, 215, 219, 209Med. M2 und Diät ja: 164, 166, 159, 182, 187, 174


M1 M2

150

160

170

180

190

200

210

220


Diät nein Diät ja

150

160

170

180

190

200

210

220

Zweifaktorielle ANOVA

Regression mit zwei Dummy-Variablen

2× 2 (= 4) Gruppen: h = 1, 2 und i = 1, 2

Zwei Dummy-Variablen

z1hj =

{0 falls h = 11 falls h = 2

, z2ij =


Zweifaktorielle Varianzanalyse als lineare Regression:

yhij = β0 + β1 · z1hj + β2 · z2ij + εhij


> summary(lm(bp~drug+diet,data=bio2))Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 176.250 5.178 34.041 < 2e-16 ***drugM2 19.500 5.978 3.262 0.00373 **diety -15.500 5.978 -2.593 0.01699 *--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1


> summary(aov(bp~drug+diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)

drug 1 2281.5 2281.5 10.6387 0.003728 **diet 1 1441.5 1441.5 6.7218 0.016988 *Residuals 21 4503.5 214.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1


M1/Diät nein M2/Diät nein M1/Diät ja M2/Diät ja

150

160

170

180

190

200

210

220

Zweifaktorielle ANOVA mit Interaktion

Regression mit zwei Dummy-Variablen und Interaktion

2× 2 Gruppen: h = 1, 2 und i = 1, 2→ zwei Dummy-Variablen

z1hj =

{0 falls h = 11 falls h = 2

, z2ij =


Zweifaktorielle Varianzanalyse mit Interaktion:

yhij = β0 + β1 · z1hj + β2 · z2ij + β3 · z1hj · z2ij + εhij

= µhi + εhij

wobei β0 = µ11, β1 = µ21 − µ11, β2 = µ12 − µ11, und

β3 = (µ22 − µ12)− (µ21 − µ11) = (µ22 − µ21)− (µ12 − µ11)

Bluthochdruckdaten - Zweifaktorielles Design mitInteraktion

> summary(lm(bp~drug*diet,data=bio2))Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 168.000 4.891 34.353 < 2e-16 ***drugM2 36.000 6.916 5.205 4.3e-05 ***diety 1.000 6.916 0.145 0.88648drugB:diety -33.000 9.781 -3.374 0.00302 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 11.98 on 20 degrees of freedomMultiple R-Squared: 0.6511, Adjusted R-squared: 0.5988F-statistic: 12.44 on 3 and 20 DF, p-value: 8.165e-05

> summary(aov(bp~drug*diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)

drug 1 2281.5 2281.5 15.899 0.0007246 ***diet 1 1441.5 1441.5 10.045 0.0048208 **drug:diet 1 1633.5 1633.5 11.383 0.0030174 **Residuals 20 2870.0 143.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Zweifaktorielle ANOVA mit zentrierten Dummies undInteraktion

Regression mit zentrierten Dummy-Variablen undInteraktion

2× 2 Gruppen: h = 1, 2 und i = 1, 2→ zwei Dummy-Variablen

z∗1hj =

{−0.5 falls h = 1

0.5 falls h = 2, z∗

2ij =

{−0.5 falls i = 1

0.5 falls i = 2

Zweifaktorielle Varianzanalyse mit Interaktion:

yhij = β0 + β1 · z∗1hj + β2 · z∗

2ij + β3 · z∗1hj · z∗

2ij + εhij

= µhi + εhij

Bluthochdruckdaten - Zweifaktorielles Design mitzentrieten Dummies und Interaktion

> summary(lm(bp~drug2*diet2,data=bio2))Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 178.250 2.445 72.897 < 2e-16 ***drug2 19.500 4.890 3.987 0.000725 ***diet2 -15.500 4.890 -3.169 0.004821 **drug2:diet2 -33.000 9.781 -3.374 0.003017 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 11.98 on 20 degrees of freedomMultiple R-Squared: 0.6511, Adjusted R-squared: 0.5988F-statistic: 12.44 on 3 and 20 DF, p-value: 8.165e-05

> summary(aov(bp~drug*diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)

drug 1 2281.5 2281.5 15.899 0.0007246 ***diet 1 1441.5 1441.5 10.045 0.0048208 **drug:diet 1 1633.5 1633.5 11.383 0.0030174 **Residuals 20 2870.0 143.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Zweifaktorielle ANOVA mit zentrierten Dummies undInteraktion

z∗1hj =

{−0.5 falls h = 1

0.5 falls h = 2, z∗

2ij =

{−0.5 falls i = 1

0.5 falls i = 2

yhij = β0 + β1 · z∗1hj + β2 · z∗

2ij + β3 · z∗1hj · z∗

2ij + εhij

= µhi + εhij

Interpretation der Koeffizienten:

β0 = (µ11 + µ12 + µ21 + µ22)/4

β1 =µ21 + µ22

2− µ11 + µ12

2, β2 =

µ12 + µ22

2− µ11 + µ21

2β3 = (µ22 − µ12)− (µ21 − µ11) = (µ22 − µ21)− (µ12 − µ11)

Multiple Regression III -...

Documents

Transcript of Multiple Regression III -...