Multiple Regression III -...

41
Multiple Regression III Werner Brannath VO Biostatistik im WS 2006/2007

Transcript of Multiple Regression III -...

Page 1: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Multiple Regression III

Werner Brannath

VO Biostatistik im WS 2006/2007

Page 2: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Inhalt

Überprüfung der ModellannahmenResiduen-PlotNormal-Q-Q-PlotCook’s Distanz-PlotMaßnahmen bei Abweichungen von Modellannahmen

ANOVA als lineares ModellEinfaktoriellZweifaktoriell

Page 3: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Modellannahmen

Modellansatz

Y = β0 + β1 · X1 + · · ·+ βp · Xp + ε

I Linearität: Lineare Abhängigkeit des bedingtenErwartungswertes E(Y ) von X1, . . . , Xp.

I Varianzhomogenität: Unabhängigkeit der ResidualvarianzVar(ε) = σ2 von X1, . . . , Xp.

I Normalverteilte Residuen ε.

Page 4: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Methoden zur Überprüfung der Modellannahmen

I Streudiagramme zum Überprüfen der Linearität (bivariat).

I Residuen-Plot zum Überüfen der Linearität undVarianzhomogenität.

I Q-Q-Plot zum Überprüfen der Normalverteilung derResiduen.

I Cook’s Distanz-Plot zum finden von Individuen mitungewöhnlich starkem Einfluss auf die geschätztenRegressionskoeffizienten.

Page 5: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Residuen-Plot

Zeichne zweidimensionale Grafik mit den Prognosen

yj = β0 + β1 xj1 + · · ·+ βp xjp

auf der x-Achse und den geschätzten Residuen

εj = yj − yj

auf der y-Achse.

Page 6: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Beispiel Zystische Fibrose

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 62.4448 53.2432 1.173 0.254647Weight 1.7480 0.3797 4.603 0.000172 ***BMP -1.3644 0.5633 -2.422 0.025062 *FEV 1.5480 0.5771 2.682 0.014317 *RV 0.1275 0.0832 1.532 0.141135--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’

Residual standard error: 22.73 on 20 degrees of freedomMultiple R-Squared: 0.6148, Adjusted R-squared: 0.5378F-statistic: 7.981 on 4 and 20 DF, p-value: 0.0005139

Page 7: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Residuen-Plot für Zystische Fibrose Daten

80 100 120 140 160

−40

−20

020

40

Fitted values

Res

idua

ls

lm(formula = PEmax ~ Weight + BMP + FEV + RV)

Residuals vs Fitted

2421

16

Page 8: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Interpretation von Residuen-Plots

Wenn das Modell stimmt, dann . . .

I . . . sollten sich die in Residuen ungefähr in einemgleichbleibend dickem horzontalen Band verteilen;

I . . . keinen linearen oder nichtlinearen Trend aufweisen.

Abweichungen von diesem Bild sind Hinweis auf entweder

I . . . einen nicht-linearen Zusammenhang oder

I . . . nicht-konstante (inhomogene) Residualvarianzen.

Page 9: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Residuen-Plot bei quadratischem Zusammenhang

●●

●●

●●

●●●

●●●

●●●

●●

●●

●●●●

●●

●●

●●

●●

●●●

●●

●●

0 1 2 3 4 5

020

4060

8010

0

X

Y

0 20 40 60 80

−15

−10

−5

05

1015

Fitted values

Res

idua

ls

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

lm(formula = Y ~ X)

Residuals vs Fitted

4950

1

Page 10: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Residuen-Plot bei logaritmischen Zusammenhang

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

0 1 2 3 4 5

−10

−5

05

10

X

Y

0 2 4 6 8

−10

−5

05

Fitted values

Res

idua

ls

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

lm(formula = Y ~ X)

Residuals vs Fitted

2

1

25

Page 11: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Residuen-Plot bei inhomogener Varianz

●●●

●●●

●●●

●●

●●

●●

●●●

●●

●●

0 1 2 3 4 5

05

1015

X

Y

2 3 4 5 6 7 8 9

−10

−5

05

10Fitted values

Res

idua

ls

●●●●●

●●●●●

●●

●●

●●

●●●

●●

●●

●●

lm(formula = Y ~ X)

Residuals vs Fitted

44

43

49

Page 12: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Residuen-Plot für Bodyfat-Daten

10 20 30 40 50

−20

−15

−10

−5

05

1015

Fitted values

Res

idua

ls

●●

●●

● ●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●●

●●

●●

●● ●

●●

● ●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

● ●

● ●●

●●

●●

●●●●

lm(formula = bodyfat ~ abdomen + biceps, data = daten)

Residuals vs Fitted

39

207

204

Page 13: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Normal-Quantil-Quantil (Normal Q-Q) Plots

Trage in einem zweidimensionalen Diagramm

auf der x-Achse die Quantile der Standard-Normalverteilung

QN(

j − 0.5n

), j = 1, . . . , n

und auf der y-Achse die standardisierten Residuen

εj

SE(εj), SE(εj) Schätzung der Standardabw. von εj

auf.

Page 14: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Normal Q-Q-Plot für Zystische Fibrose-Daten

●●

−2 −1 0 1 2

−2

−1

01

2

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

lm(formula = PEmax ~ Weight + BMP + FEV + RV)

Normal Q−Q plot

24

16

21

Page 15: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Interpretation von Normal-Q-Q-Plots

I Wenn die Residuen normalverteilt sind, dann sind diestandardisierten Residuen (ungefähr) standard-normalverteilt und daher sollten die Punkte auf derdiagonalen Gerade liegen.

I Abweichungen von der Normalverteilung implizieren,dass der p-Wert des F-Tests für H0 : β1 = · · · = βp = 0und die p-Werte der t-Tests für H0 : βi = 0, i = 1, . . . , p,irreführend sein könnten, d.h. die vorgegebeneFehlerwahrscheinlichkeit α nicht eingehalten wird.

Page 16: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Normal Q-Q-Plot bei χ21-verteilten Residuen

●●

●●●

●●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

0 1 2 3 4 5

24

68

1012

X

Y

● ●

●●●

●●

●●

●●●●

●●

● ●

●●

● ●

●●●

−2 −1 0 1 2

−1

01

23

4Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

lm(formula = Y ~ X)

Normal Q−Q plot

30

4117

Page 17: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Normal Q-Q-Plot für Bodyfat-Daten

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●●

●●

●●

●●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

−3 −2 −1 0 1 2 3

−4

−2

02

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

lm(formula = bodyfat ~ abdomen + biceps, data = daten)

Normal Q−Q plot

39

207

204

Page 18: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Cook’s Distanz-Plot

I Dient als Maß zum Beurteilen des Einflusses einzelnerPatienten.

I Berechne lineare Regression ohne Individuum j

→ liefert etwas andere Prognosen yk(j) für yk

I Quadratische Abweichung zwischen yk(j) und yk

Dj =1

(p + 1) s2

n∑k=1

(yk(j) − yk )2

wobei p die Zahl der Kovariablen ist.I Dj ≥ 1 ist Hinweis für einen ungewöhnlich starken Einfluss

des j-ten Individuums auf die Schätzung der derRegressionsebene.

Page 19: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Cook’s Distanz-Plot für Zystische Fibrose-Daten

5 10 15 20 25

0.00

0.05

0.10

0.15

0.20

0.25

Obs. number

Coo

k's

dist

ance

lm(formula = PEmax ~ Weight + BMP + FEV + RV)

Cook's distance plot

25

246

Page 20: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Cook’s Distanz-Plot für Bodyfat-Daten

0 50 100 150 200 250

0.0

0.2

0.4

0.6

Obs. number

Coo

k's

dist

ance

lm(formula = bodyfat ~ abdomen + biceps, data = daten)

Cook's distance plot

39

21641

Page 21: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Maßnahmen bei zu großem Einfluss

Wenn Individuuen einen zu großen Einfluss zeigen (Dj ≥ 1),dann sollte man . . .

I die Daten dieser Individuen auf Fehler überprüfen;

I weitere den Einfluss dieser Individuen erklärendeKovariablen hinzufügen (falls vorhanden);

I Individuen aus dem Datensatz entfernen, wenn sie(offensichtlich) einer anderen Population angehören.(Achtung: Das Entfernen von Individuen sollte nur inAusnahmefällen geschehen!)

Page 22: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Maßnahmen bei Abweichungen von denModellannahmen

I Nicht-Linearität:I Transformation der Kovariablen (logarithmieren,

exponieren, etc.).I Hinzunehmen von quadratischen und ev. höheren Termen.I Kovariablen kategorisieren und als Faktoren modellieren.I Methoden der nichtparametrischen Regression.

I Varianz-Inhomogenität:I Transformation der Zielvariaben (logarithmieren, etc.)I Modellierung unterschiedlicher Varianzen durch geeignete

Varianzkomponente (Mixed-Models).

I Nicht-normalverteilte Residuen: Transformation derZielvariable, nichtparametrische Regression.

Page 23: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten -Einfaktorielles Design mit zwei Gruppen

I M1 und M2 zwei Medikamente zur Behandlung vonBluthochdruck.

I Randomisierte Studie mit 6 Patienten proMedikamentgruppe.

I Blutdruckmessungen

Medikament M1: 170, 175, 165, 180, 160, 158Medikament M2: 186, 194, 201, 215, 219, 209

Page 24: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

ANOVA mit zwei Gruppen alslineares Modell mit Dummy-Variable

Regression mit einer Dummy-Variable

Zwei Gruppen von Individuen, Gruppe 1 und Gruppe 2

Dummy Variable von Individuum j in Gruppe i

zij =

{0 falls i = 11 falls i = 2

, i = 1, 2, j = 1, . . . , ni

Varianzanalyse Modell als lineares Regressionmodell:

yij = µi + εij

= µ1 + (µ2 − µ1) · zij + εij

= β0 + β1 · zij + εij

Page 25: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten -Einfaktorielles Design mit zwei Gruppen

> summary(lm(bp~drug,data=bio1))Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 168.000 4.423 37.980 3.82e-12 ***drugM2 36.000 6.256 5.755 0.000184 ***--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 10.84 on 10 degrees of freedomMultiple R-Squared: 0.7681, Adjusted R-squared: 0.7449F-statistic: 33.12 on 1 and 10 DF, p-value: 0.0001840

> summary(aov(bp~drug,data=bio1))Df Sum Sq Mean Sq F value Pr(>F)

drug 1 3888.0 3888.0 33.118 0.0001840 ***Residuals 10 1174.0 117.4--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Page 26: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen

I M1, M2 und M3 drei Medikamente zur Behandlung vonBluthochdruck.

I Randomisierte Studie mit 6 Patienten proMedikamentgruppe.

I Blutdruckmessungen

Medikament M1: 170, 175, 165, 180, 160, 158Medikament M2: 186, 194, 201, 215, 219, 209Medikament M3: 180, 187, 199, 170, 204, 194

Page 27: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Boxplots für Blutdruck pro Medikament

A B C

160

170

180

190

200

210

220

Page 28: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen

> summary(aov(bp~drug,data=bio3))

Df Sum Sq Mean Sq F value Pr(>F)drug 2 3924.0 1962.0 14.939 0.0002694 ***Residuals 15 1970.0 131.3--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Kontrasttest für µM2 − µM1 = 0:F-Teststatistik= 29.6, p-Wert= 6.82 · 10−5

Kontrasttest für µM3 − µM1 = 0:F-Teststatistik= 10.1, p-Wert= 0.00629

Kontrasttest für µM3 − µM2 = 0:F-Teststatistik= 5.1, p-Wert= 0.0386

Page 29: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen

Regression mit zwei Dummy-Variablen

Faktor mit drei Levels (drei Gruppen): i = 1, 2, 3

Kodiert mit zwei Dummy-Variablen mit M1 als Referenz

z1ij =

{0 falls i = 1, 31 falls i = 2

, z2ij =

{0 falls i = 1, 21 falls i = 3

Einfakotrielle Varianzanalyse als lineare Regression:

yij = β0 + β1 · z1ij + β2 · z2ij + εij

Page 30: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten -Einfaktorielles Design mit drei Gruppen

> bio3$M2 <- ifelse(bio3$drug==’B’,1,0)> bio3$M3 <- ifelse(bio3$drug==’C’,1,0)> summary(lm(bp~M2+M3,data=bio3))

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 168.000 4.679 35.909 5.81e-16 ***M2 36.000 6.616 5.441 6.82e-05 ***M3 21.000 6.616 3.174 0.00629 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 11.46 on 15 degrees of freedomMultiple R-Squared: 0.6658, Adjusted R-squared: 0.6212F-statistic: 14.94 on 2 and 15 DF, p-value: 0.0002694

F-Test identisch zur ANOVA, T-Tests identisch zu den ersten zwei Kontrasttests.

Page 31: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten - Zweifaktorielles Design

I Medikamente M1 und M2 gegen Bluthochdruck.

I Diät ja oder nein

I 6 Patienten pro Medikamentgruppe × Diätgruppe.

I Blutdruckmessungen

Med. M1 und Diät nein: 170, 175, 165, 180, 160, 158Med. M1 und Diät ja: 161, 173, 157, 152, 181, 190Med. M2 und Diät nein: 186, 194, 201, 215, 219, 209Med. M2 und Diät ja: 164, 166, 159, 182, 187, 174

Page 32: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten - Zweifaktorielles Design

M1 M2

150

160

170

180

190

200

210

220

Page 33: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten - Zweifaktorielles Design

Diät nein Diät ja

150

160

170

180

190

200

210

220

Page 34: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Zweifaktorielle ANOVA

Regression mit zwei Dummy-Variablen

2× 2 (= 4) Gruppen: h = 1, 2 und i = 1, 2

Zwei Dummy-Variablen

z1hj =

{0 falls h = 11 falls h = 2

, z2ij =

{0 falls i = 11 falls i = 2

Zweifaktorielle Varianzanalyse als lineare Regression:

yhij = β0 + β1 · z1hj + β2 · z2ij + εhij

Page 35: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten - Zweifaktorielles Design

> summary(lm(bp~drug+diet,data=bio2))Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 176.250 5.178 34.041 < 2e-16 ***drugM2 19.500 5.978 3.262 0.00373 **diety -15.500 5.978 -2.593 0.01699 *--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 14.64 on 21 degrees of freedomMultiple R-Squared: 0.4526, Adjusted R-squared: 0.4004F-statistic: 8.68 on 2 and 21 DF, p-value: 0.001789

> summary(aov(bp~drug+diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)

drug 1 2281.5 2281.5 10.6387 0.003728 **diet 1 1441.5 1441.5 6.7218 0.016988 *Residuals 21 4503.5 214.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Page 36: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten - Zweifaktorielles Design

M1/Diät nein M2/Diät nein M1/Diät ja M2/Diät ja

150

160

170

180

190

200

210

220

Page 37: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Zweifaktorielle ANOVA mit Interaktion

Regression mit zwei Dummy-Variablen und Interaktion

2× 2 Gruppen: h = 1, 2 und i = 1, 2→ zwei Dummy-Variablen

z1hj =

{0 falls h = 11 falls h = 2

, z2ij =

{0 falls i = 11 falls i = 2

Zweifaktorielle Varianzanalyse mit Interaktion:

yhij = β0 + β1 · z1hj + β2 · z2ij + β3 · z1hj · z2ij + εhij

= µhi + εhij

wobei β0 = µ11, β1 = µ21 − µ11, β2 = µ12 − µ11, und

β3 = (µ22 − µ12)− (µ21 − µ11) = (µ22 − µ21)− (µ12 − µ11)

Page 38: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten - Zweifaktorielles Design mitInteraktion

> summary(lm(bp~drug*diet,data=bio2))Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 168.000 4.891 34.353 < 2e-16 ***drugM2 36.000 6.916 5.205 4.3e-05 ***diety 1.000 6.916 0.145 0.88648drugB:diety -33.000 9.781 -3.374 0.00302 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 11.98 on 20 degrees of freedomMultiple R-Squared: 0.6511, Adjusted R-squared: 0.5988F-statistic: 12.44 on 3 and 20 DF, p-value: 8.165e-05

> summary(aov(bp~drug*diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)

drug 1 2281.5 2281.5 15.899 0.0007246 ***diet 1 1441.5 1441.5 10.045 0.0048208 **drug:diet 1 1633.5 1633.5 11.383 0.0030174 **Residuals 20 2870.0 143.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Page 39: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Zweifaktorielle ANOVA mit zentrierten Dummies undInteraktion

Regression mit zentrierten Dummy-Variablen undInteraktion

2× 2 Gruppen: h = 1, 2 und i = 1, 2→ zwei Dummy-Variablen

z∗1hj =

{−0.5 falls h = 1

0.5 falls h = 2, z∗

2ij =

{−0.5 falls i = 1

0.5 falls i = 2

Zweifaktorielle Varianzanalyse mit Interaktion:

yhij = β0 + β1 · z∗1hj + β2 · z∗

2ij + β3 · z∗1hj · z∗

2ij + εhij

= µhi + εhij

Page 40: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Bluthochdruckdaten - Zweifaktorielles Design mitzentrieten Dummies und Interaktion

> summary(lm(bp~drug2*diet2,data=bio2))Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 178.250 2.445 72.897 < 2e-16 ***drug2 19.500 4.890 3.987 0.000725 ***diet2 -15.500 4.890 -3.169 0.004821 **drug2:diet2 -33.000 9.781 -3.374 0.003017 **--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 11.98 on 20 degrees of freedomMultiple R-Squared: 0.6511, Adjusted R-squared: 0.5988F-statistic: 12.44 on 3 and 20 DF, p-value: 8.165e-05

> summary(aov(bp~drug*diet,data=bio2))Df Sum Sq Mean Sq F value Pr(>F)

drug 1 2281.5 2281.5 15.899 0.0007246 ***diet 1 1441.5 1441.5 10.045 0.0048208 **drug:diet 1 1633.5 1633.5 11.383 0.0030174 **Residuals 20 2870.0 143.5--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Page 41: Multiple Regression III - univie.ac.athomepage.univie.ac.at/werner.brannath/BiostatVO/MultRegIII_dv.pdf · Methoden zur Überprüfung der Modellannahmen I Streudiagramme zum Überprüfen

Zweifaktorielle ANOVA mit zentrierten Dummies undInteraktion

z∗1hj =

{−0.5 falls h = 1

0.5 falls h = 2, z∗

2ij =

{−0.5 falls i = 1

0.5 falls i = 2

yhij = β0 + β1 · z∗1hj + β2 · z∗

2ij + β3 · z∗1hj · z∗

2ij + εhij

= µhi + εhij

Interpretation der Koeffizienten:

β0 = (µ11 + µ12 + µ21 + µ22)/4

β1 =µ21 + µ22

2− µ11 + µ12

2, β2 =

µ12 + µ22

2− µ11 + µ21

2β3 = (µ22 − µ12)− (µ21 − µ11) = (µ22 − µ21)− (µ12 − µ11)