Multiple Regression III -...
Transcript of Multiple Regression III -...
Multiple Regression III
Werner Brannath
VO Biostatistik im WS 2006/2007
Inhalt
Überprüfung der ModellannahmenResiduen-PlotNormal-Q-Q-PlotCook’s Distanz-PlotMaßnahmen bei Abweichungen von Modellannahmen
ANOVA als lineares ModellEinfaktoriellZweifaktoriell
Modellannahmen
Modellansatz
Y = β0 + β1 · X1 + · · ·+ βp · Xp + ε
I Linearität: Lineare Abhängigkeit des bedingtenErwartungswertes E(Y ) von X1, . . . , Xp.
I Varianzhomogenität: Unabhängigkeit der ResidualvarianzVar(ε) = σ2 von X1, . . . , Xp.
I Normalverteilte Residuen ε.
Methoden zur Überprüfung der Modellannahmen
I Streudiagramme zum Überprüfen der Linearität (bivariat).
I Residuen-Plot zum Überüfen der Linearität undVarianzhomogenität.
I Q-Q-Plot zum Überprüfen der Normalverteilung derResiduen.
I Cook’s Distanz-Plot zum finden von Individuen mitungewöhnlich starkem Einfluss auf die geschätztenRegressionskoeffizienten.
Residuen-Plot
Zeichne zweidimensionale Grafik mit den Prognosen
yj = β0 + β1 xj1 + · · ·+ βp xjp
auf der x-Achse und den geschätzten Residuen
εj = yj − yj
auf der y-Achse.
Beispiel Zystische Fibrose
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 62.4448 53.2432 1.173 0.254647Weight 1.7480 0.3797 4.603 0.000172 ***BMP -1.3644 0.5633 -2.422 0.025062 *FEV 1.5480 0.5771 2.682 0.014317 *RV 0.1275 0.0832 1.532 0.141135--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’
Residual standard error: 22.73 on 20 degrees of freedomMultiple R-Squared: 0.6148, Adjusted R-squared: 0.5378F-statistic: 7.981 on 4 and 20 DF, p-value: 0.0005139
Residuen-Plot für Zystische Fibrose Daten
80 100 120 140 160
−40
−20
020
40
Fitted values
Res
idua
ls
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
lm(formula = PEmax ~ Weight + BMP + FEV + RV)
Residuals vs Fitted
2421
16
Interpretation von Residuen-Plots
Wenn das Modell stimmt, dann . . .
I . . . sollten sich die in Residuen ungefähr in einemgleichbleibend dickem horzontalen Band verteilen;
I . . . keinen linearen oder nichtlinearen Trend aufweisen.
Abweichungen von diesem Bild sind Hinweis auf entweder
I . . . einen nicht-linearen Zusammenhang oder
I . . . nicht-konstante (inhomogene) Residualvarianzen.
Residuen-Plot bei quadratischem Zusammenhang
●●
●●
●●
●●●
●●●
●●●
●●
●
●●
●●●●
●
●●
●●
●
●
●
●●
●
●●
●
●
●
●●●
●
●
●●
●
●●
0 1 2 3 4 5
020
4060
8010
0
X
Y
0 20 40 60 80
−15
−10
−5
05
1015
Fitted values
Res
idua
ls
●
●
●
●●
●●
●
●
●
●●
●
●●●
●
●
●
●●
●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
lm(formula = Y ~ X)
Residuals vs Fitted
4950
1
Residuen-Plot bei logaritmischen Zusammenhang
●
●
●
●
●●
●●
●
●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
0 1 2 3 4 5
−10
−5
05
10
X
Y
0 2 4 6 8
−10
−5
05
Fitted values
Res
idua
ls
●
●
●
●
●●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
lm(formula = Y ~ X)
Residuals vs Fitted
2
1
25
Residuen-Plot bei inhomogener Varianz
●●●
●●●
●●●
●
●
●
●●
●
●●
●●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
0 1 2 3 4 5
05
1015
X
Y
2 3 4 5 6 7 8 9
−10
−5
05
10Fitted values
Res
idua
ls
●●●●●
●●●●●
●
●
●●
●
●●
●●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
lm(formula = Y ~ X)
Residuals vs Fitted
44
43
49
Residuen-Plot für Bodyfat-Daten
10 20 30 40 50
−20
−15
−10
−5
05
1015
Fitted values
Res
idua
ls
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●●
●
●
●
●
● ●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●●
●● ●
●●
●
● ●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●●
●
●
●
●
●
●
lm(formula = bodyfat ~ abdomen + biceps, data = daten)
Residuals vs Fitted
39
207
204
Normal-Quantil-Quantil (Normal Q-Q) Plots
Trage in einem zweidimensionalen Diagramm
auf der x-Achse die Quantile der Standard-Normalverteilung
QN(
j − 0.5n
), j = 1, . . . , n
und auf der y-Achse die standardisierten Residuen
εj
SE(εj), SE(εj) Schätzung der Standardabw. von εj
auf.
Normal Q-Q-Plot für Zystische Fibrose-Daten
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
lm(formula = PEmax ~ Weight + BMP + FEV + RV)
Normal Q−Q plot
24
16
21
Interpretation von Normal-Q-Q-Plots
I Wenn die Residuen normalverteilt sind, dann sind diestandardisierten Residuen (ungefähr) standard-normalverteilt und daher sollten die Punkte auf derdiagonalen Gerade liegen.
I Abweichungen von der Normalverteilung implizieren,dass der p-Wert des F-Tests für H0 : β1 = · · · = βp = 0und die p-Werte der t-Tests für H0 : βi = 0, i = 1, . . . , p,irreführend sein könnten, d.h. die vorgegebeneFehlerwahrscheinlichkeit α nicht eingehalten wird.
Normal Q-Q-Plot bei χ21-verteilten Residuen
●●
●●●
●●●●
●
●●
●
●●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●●
●
●
●●
●
●
●
●
●●
●●
●●
0 1 2 3 4 5
24
68
1012
X
Y
● ●
●
●●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●●
●
●
● ●
●
●●
●
● ●
●●●
●
−2 −1 0 1 2
−1
01
23
4Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
lm(formula = Y ~ X)
Normal Q−Q plot
30
4117
Normal Q-Q-Plot für Bodyfat-Daten
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●●
●●●
● ●
●
●●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●●
●
●
●
●
●
●
−3 −2 −1 0 1 2 3
−4
−2
02
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
lm(formula = bodyfat ~ abdomen + biceps, data = daten)
Normal Q−Q plot
39
207
204
Cook’s Distanz-Plot
I Dient als Maß zum Beurteilen des Einflusses einzelnerPatienten.
I Berechne lineare Regression ohne Individuum j
→ liefert etwas andere Prognosen yk(j) für yk
I Quadratische Abweichung zwischen yk(j) und yk
Dj =1
(p + 1) s2
n∑k=1
(yk(j) − yk )2
wobei p die Zahl der Kovariablen ist.I Dj ≥ 1 ist Hinweis für einen ungewöhnlich starken Einfluss
des j-ten Individuums auf die Schätzung der derRegressionsebene.
Cook’s Distanz-Plot für Zystische Fibrose-Daten
5 10 15 20 25
0.00
0.05
0.10
0.15
0.20
0.25
Obs. number
Coo
k's
dist
ance
lm(formula = PEmax ~ Weight + BMP + FEV + RV)
Cook's distance plot
25
246
Cook’s Distanz-Plot für Bodyfat-Daten
0 50 100 150 200 250
0.0
0.2
0.4
0.6
Obs. number
Coo
k's
dist
ance
lm(formula = bodyfat ~ abdomen + biceps, data = daten)
Cook's distance plot
39
21641
Maßnahmen bei zu großem Einfluss
Wenn Individuuen einen zu großen Einfluss zeigen (Dj ≥ 1),dann sollte man . . .
I die Daten dieser Individuen auf Fehler überprüfen;
I weitere den Einfluss dieser Individuen erklärendeKovariablen hinzufügen (falls vorhanden);
I Individuen aus dem Datensatz entfernen, wenn sie(offensichtlich) einer anderen Population angehören.(Achtung: Das Entfernen von Individuen sollte nur inAusnahmefällen geschehen!)
Maßnahmen bei Abweichungen von denModellannahmen
I Nicht-Linearität:I Transformation der Kovariablen (logarithmieren,
exponieren, etc.).I Hinzunehmen von quadratischen und ev. höheren Termen.I Kovariablen kategorisieren und als Faktoren modellieren.I Methoden der nichtparametrischen Regression.
I Varianz-Inhomogenität:I Transformation der Zielvariaben (logarithmieren, etc.)I Modellierung unterschiedlicher Varianzen durch geeignete
Varianzkomponente (Mixed-Models).
I Nicht-normalverteilte Residuen: Transformation derZielvariable, nichtparametrische Regression.
Bluthochdruckdaten -Einfaktorielles Design mit zwei Gruppen
I M1 und M2 zwei Medikamente zur Behandlung vonBluthochdruck.
I Randomisierte Studie mit 6 Patienten proMedikamentgruppe.
I Blutdruckmessungen
Medikament M1: 170, 175, 165, 180, 160, 158Medikament M2: 186, 194, 201, 215, 219, 209
ANOVA mit zwei Gruppen alslineares Modell mit Dummy-Variable
Regression mit einer Dummy-Variable
Zwei Gruppen von Individuen, Gruppe 1 und Gruppe 2
Dummy Variable von Individuum j in Gruppe i
zij =
{0 falls i = 11 falls i = 2
, i = 1, 2, j = 1, . . . , ni
Varianzanalyse Modell als lineares Regressionmodell:
yij = µi + εij
= µ1 + (µ2 − µ1) · zij + εij
= β0 + β1 · zij + εij
Bluthochdruckdaten -Einfaktorielles Design mit zwei Gruppen
> summary(lm(bp~drug,data=bio1))Coefficients:
Estimate Std. Error t value Pr(>|t|)(Intercept) 168.000 4.423 37.980 3.82e-12 ***drugM2 36.000 6.256 5.755 0.000184 ***--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 10.84 on 10 degrees of freedomMultiple R-Squared: 0.7681, Adjusted R-squared: 0.7449F-statistic: 33.12 on 1 and 10 DF, p-value: 0.0001840
> summary(aov(bp~drug,data=bio1))Df Sum Sq Mean Sq F value Pr(>F)
drug 1 3888.0 3888.0 33.118 0.0001840 ***Residuals 10 1174.0 117.4--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen
I M1, M2 und M3 drei Medikamente zur Behandlung vonBluthochdruck.
I Randomisierte Studie mit 6 Patienten proMedikamentgruppe.
I Blutdruckmessungen
Medikament M1: 170, 175, 165, 180, 160, 158Medikament M2: 186, 194, 201, 215, 219, 209Medikament M3: 180, 187, 199, 170, 204, 194
Boxplots für Blutdruck pro Medikament
A B C
160
170
180
190
200
210
220
Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen
> summary(aov(bp~drug,data=bio3))
Df Sum Sq Mean Sq F value Pr(>F)drug 2 3924.0 1962.0 14.939 0.0002694 ***Residuals 15 1970.0 131.3--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Kontrasttest für µM2 − µM1 = 0:F-Teststatistik= 29.6, p-Wert= 6.82 · 10−5
Kontrasttest für µM3 − µM1 = 0:F-Teststatistik= 10.1, p-Wert= 0.00629
Kontrasttest für µM3 − µM2 = 0:F-Teststatistik= 5.1, p-Wert= 0.0386
Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen
Regression mit zwei Dummy-Variablen
Faktor mit drei Levels (drei Gruppen): i = 1, 2, 3
Kodiert mit zwei Dummy-Variablen mit M1 als Referenz
z1ij =
{0 falls i = 1, 31 falls i = 2
, z2ij =
{0 falls i = 1, 21 falls i = 3
Einfakotrielle Varianzanalyse als lineare Regression:
yij = β0 + β1 · z1ij + β2 · z2ij + εij
Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen
> bio3$M2 <- ifelse(bio3$drug==’B’,1,0)> bio3$M3 <- ifelse(bio3$drug==’C’,1,0)> summary(lm(bp~M2+M3,data=bio3))
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 168.000 4.679 35.909 5.81e-16 ***M2 36.000 6.616 5.441 6.82e-05 ***M3 21.000 6.616 3.174 0.00629 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 11.46 on 15 degrees of freedomMultiple R-Squared: 0.6658, Adjusted R-squared: 0.6212F-statistic: 14.94 on 2 and 15 DF, p-value: 0.0002694
F-Test identisch zur ANOVA, T-Tests identisch zu den ersten zwei Kontrasttests.
Bluthochdruckdaten - Zweifaktorielles Design
I Medikamente M1 und M2 gegen Bluthochdruck.
I Diät ja oder nein
I 6 Patienten pro Medikamentgruppe × Diätgruppe.
I Blutdruckmessungen
Med. M1 und Diät nein: 170, 175, 165, 180, 160, 158Med. M1 und Diät ja: 161, 173, 157, 152, 181, 190Med. M2 und Diät nein: 186, 194, 201, 215, 219, 209Med. M2 und Diät ja: 164, 166, 159, 182, 187, 174
Bluthochdruckdaten - Zweifaktorielles Design
M1 M2
150
160
170
180
190
200
210
220
Bluthochdruckdaten - Zweifaktorielles Design
Diät nein Diät ja
150
160
170
180
190
200
210
220
Zweifaktorielle ANOVA
Regression mit zwei Dummy-Variablen
2× 2 (= 4) Gruppen: h = 1, 2 und i = 1, 2
Zwei Dummy-Variablen
z1hj =
{0 falls h = 11 falls h = 2
, z2ij =
{0 falls i = 11 falls i = 2
Zweifaktorielle Varianzanalyse als lineare Regression:
yhij = β0 + β1 · z1hj + β2 · z2ij + εhij
Bluthochdruckdaten - Zweifaktorielles Design
> summary(lm(bp~drug+diet,data=bio2))Coefficients:
Estimate Std. Error t value Pr(>|t|)(Intercept) 176.250 5.178 34.041 < 2e-16 ***drugM2 19.500 5.978 3.262 0.00373 **diety -15.500 5.978 -2.593 0.01699 *--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 14.64 on 21 degrees of freedomMultiple R-Squared: 0.4526, Adjusted R-squared: 0.4004F-statistic: 8.68 on 2 and 21 DF, p-value: 0.001789
> summary(aov(bp~drug+diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)
drug 1 2281.5 2281.5 10.6387 0.003728 **diet 1 1441.5 1441.5 6.7218 0.016988 *Residuals 21 4503.5 214.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Bluthochdruckdaten - Zweifaktorielles Design
M1/Diät nein M2/Diät nein M1/Diät ja M2/Diät ja
150
160
170
180
190
200
210
220
Zweifaktorielle ANOVA mit Interaktion
Regression mit zwei Dummy-Variablen und Interaktion
2× 2 Gruppen: h = 1, 2 und i = 1, 2→ zwei Dummy-Variablen
z1hj =
{0 falls h = 11 falls h = 2
, z2ij =
{0 falls i = 11 falls i = 2
Zweifaktorielle Varianzanalyse mit Interaktion:
yhij = β0 + β1 · z1hj + β2 · z2ij + β3 · z1hj · z2ij + εhij
= µhi + εhij
wobei β0 = µ11, β1 = µ21 − µ11, β2 = µ12 − µ11, und
β3 = (µ22 − µ12)− (µ21 − µ11) = (µ22 − µ21)− (µ12 − µ11)
Bluthochdruckdaten - Zweifaktorielles Design mitInteraktion
> summary(lm(bp~drug*diet,data=bio2))Coefficients:
Estimate Std. Error t value Pr(>|t|)(Intercept) 168.000 4.891 34.353 < 2e-16 ***drugM2 36.000 6.916 5.205 4.3e-05 ***diety 1.000 6.916 0.145 0.88648drugB:diety -33.000 9.781 -3.374 0.00302 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 11.98 on 20 degrees of freedomMultiple R-Squared: 0.6511, Adjusted R-squared: 0.5988F-statistic: 12.44 on 3 and 20 DF, p-value: 8.165e-05
> summary(aov(bp~drug*diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)
drug 1 2281.5 2281.5 15.899 0.0007246 ***diet 1 1441.5 1441.5 10.045 0.0048208 **drug:diet 1 1633.5 1633.5 11.383 0.0030174 **Residuals 20 2870.0 143.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Zweifaktorielle ANOVA mit zentrierten Dummies undInteraktion
Regression mit zentrierten Dummy-Variablen undInteraktion
2× 2 Gruppen: h = 1, 2 und i = 1, 2→ zwei Dummy-Variablen
z∗1hj =
{−0.5 falls h = 1
0.5 falls h = 2, z∗
2ij =
{−0.5 falls i = 1
0.5 falls i = 2
Zweifaktorielle Varianzanalyse mit Interaktion:
yhij = β0 + β1 · z∗1hj + β2 · z∗
2ij + β3 · z∗1hj · z∗
2ij + εhij
= µhi + εhij
Bluthochdruckdaten - Zweifaktorielles Design mitzentrieten Dummies und Interaktion
> summary(lm(bp~drug2*diet2,data=bio2))Coefficients:
Estimate Std. Error t value Pr(>|t|)(Intercept) 178.250 2.445 72.897 < 2e-16 ***drug2 19.500 4.890 3.987 0.000725 ***diet2 -15.500 4.890 -3.169 0.004821 **drug2:diet2 -33.000 9.781 -3.374 0.003017 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 11.98 on 20 degrees of freedomMultiple R-Squared: 0.6511, Adjusted R-squared: 0.5988F-statistic: 12.44 on 3 and 20 DF, p-value: 8.165e-05
> summary(aov(bp~drug*diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)
drug 1 2281.5 2281.5 15.899 0.0007246 ***diet 1 1441.5 1441.5 10.045 0.0048208 **drug:diet 1 1633.5 1633.5 11.383 0.0030174 **Residuals 20 2870.0 143.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Zweifaktorielle ANOVA mit zentrierten Dummies undInteraktion
z∗1hj =
{−0.5 falls h = 1
0.5 falls h = 2, z∗
2ij =
{−0.5 falls i = 1
0.5 falls i = 2
yhij = β0 + β1 · z∗1hj + β2 · z∗
2ij + β3 · z∗1hj · z∗
2ij + εhij
= µhi + εhij
Interpretation der Koeffizienten:
β0 = (µ11 + µ12 + µ21 + µ22)/4
β1 =µ21 + µ22
2− µ11 + µ12
2, β2 =
µ12 + µ22
2− µ11 + µ21
2β3 = (µ22 − µ12)− (µ21 − µ11) = (µ22 − µ21)− (µ12 − µ11)