3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige...

58
X 1 ,X 2 ,...,X p Y (Y 1 ,X 11 ,...,X 1p ), (Y 2 ,X 21 ,...,X 2p ),..., (Y n ,X n1 ,...,X np ) Y i = β 0 + β 1 X i1 + β 2 X i2 + ... + β p X ip + ² i ² 1 ,...,² n , E(² i )=0, Var(² i )= σ 2 £ ² i N (02 ) / β 0 + β 1 X i1 + ... + β p X ip = m(X i1 ,...,X ip ) = E(Y |X 1 = X i1 ,...,X p = X ip ) m (Y i ,X i1 ,X i2 ,...,X ip ) T Y X ij

Transcript of 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige...

Page 1: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3 Multiple Regression

Problem: Analysiere den Ein�uss mehrerer erklärender (�unab-hängiger�) Variablen X1, X2, . . . , Xp auf eine Zielvariable (�ab-hängige Variable�) Y .

• Beobachtungen(Y1, X11, . . . , X1p), (Y2, X21, . . . , X2p), . . . , (Yn, Xn1, . . . , Xnp)

• Modell¨

§

¥

¦

Yi = β0 + β1Xi1 + β2Xi2 + . . . + βpXip + εi

ε1, . . . , εn i.i.d., E(εi) = 0, Var(εi) = σ2

[εi ∼ N(0, σ2)

]

• Die in dem Modell postulierte lineare Struktur

β0 + β1Xi1 + . . . + βpXip = m(Xi1, . . . , Xip)

= E(Y |X1 = Xi1, . . . , Xp = Xip)

der Regressionsfunktion m notwendigerweise erfüllt, falls derVektor (Yi, Xi1, Xi2, . . . , Xip)T einmultivariat normalver-teilter Zufallsvektor ist.

• Im Rahmen des obigen Modellansatzes lassen sich jedochauch komplexere nichtlineare Zusammenhänge zwischen Y

und den erklärenden Variablen erfassen. Dies kann durchEinführung zusätzlicher Modellvariablen Xij geschehen, dieFunktionen der ursprünglichen erklärenden Variablen sind.

Multivariate Statistik@�nasto 3�1

Page 2: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Beispiele möglicher Regressionsmodelle:

∗ Yi = β0 +β1Xi1 +β2Xi2 +β3X2i2 +β4X

2i2 +β5Xi1xi2 + εi

Setzt man Xi3 := X2i1, Xi4 := X2

i2 und Xi5 := Xi1Xi2,so führt dies auf:Yi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 + β5Xi5 + εi

∗ Yi = β0 + β1 ln X∗i1 + β2Xi2 + β3(lnX∗

i1)2 + β4X

2i2 + εi

Setzt man Xi1 := ln X∗i1, Xi3 := (ln X∗

i1)2 und Xi4 :=

X2i2,

so führt dies wieder auf ein Modell der FormYi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 + +εi

Die einzige Bedingung bei der Modellbildung ist, dass diepostulierte Regressionsbeziehung linear in den Parameternβi ist.

Achtung: Natürlich ist bei der nachfolgenden Interpretationdes Modells die De�nition der Modellvariablen zu beachten.

Multivariate Statistik@�nasto 3�2

Page 3: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Spezialfall: linearen Einfachregression (p = 1)• Schätzer der Koe�zienten durch die Kleinste Quadrate Me-

thode:

β1 =

n∑i=1

(Xi − X)(Yi − Y )

n∑i=1

(Xi − X2), β0 = Y − β1X

Beispiel: Ernteertrag von Weizen (Y) in Abhängigkeit von derMenge des eingesetzten Düngemittels (X) in kg/ha

Beobachtungen für n = 7 Parzellen

X 100 200 300 400 500 600 700

Y 40 50 50 70 65 65 80

100 200 300 400 500 600 700

Duenger

40

50

60

70

80

Ertra

g

Schätzungen im Beispiel Ernteertrag - Dünger:

Schätzwert Standardfehler t-Wert P (|T | > |t|)Konstante (β0) 36.42857 5.03812 7.23 0.001Dünger (β1) .0589286 .0112656 5.23 0.003

R2 = 0.8455Multivariate Statistik@�nasto 3�3

Page 4: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

• Mögliche Verallgemeinerung: m(x) quadratisches oder kubi-sches Polynom

m(X) = β0 + β1X + β2X2

oder m(X) = β0 + β1X + β2X2 + β3X

3

Beispiel: Dünger (X) -Ernteertrag (Y )7 zusätzliche Beobachtungen

0 200 400 600 800 1000 1200 1400

Duenger

40

60

80

100

120

Ansatz: Quadratisches Polynom

Y ≈ β0 + β1X + β2X2

Kleinste-Quadrate-Methode: β0, β1 und β2 minimieren

Q(β0, β1, β2) =n∑

i=1

(yi − β0 − β1xi − β2x2i )

2

⇒ β0 = 27, 6, β1 = 0, 11, β2 = −0, 000057

Multivariate Statistik@�nasto 3�4

Page 5: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Beispiel 3.1 (Bilanzdaten)Bilanzdaten für eine Stichprobe von 40 englischen Firmen (Jahr1983)Variablen:

RETCAP - Return on capital employed (Kapitalertrag)WCFTCL - Ratio of working capital �ow to total current liabilitiesWCFDT - Ratio of the working capital �ow to the total debtGEARRAT - Gearing ratio (debt-equity ratio)LOGSALE - Log10 of total salesLOGASST - Log10 of total assetsNFATAST - Ration of net �xed assets to total assetsCAPINT - Capital intensity (ratio of total sales to total assets)FATTOT - Gross �xed assets to total assetsINVAST - Ratio of total inventories to total assetsPAYOUT - Payout ratioQUIKRAT - Quick ratioCURRAT - current ratio

Modell:RETCAP = β0 + β1 WCFTCL + β2 WCFDT + β3 GEAR-RAT + β4 LOGSALE + β5 LOGASST + β6 NFATAST + β7

CARINT + β8 FATTOT + β9 INVAST + β10 PAYOUT + β11

QUIKRAT + β12 CURRAT + ε

Multivariate Statistik@�nasto 3�5

Page 6: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

RET

CA

PW

CFT

CL

WC

FT

DT

GEA

RR

AT

LO

GSA

LE

LO

GA

SST

NFATA

ST

CA

PIN

TFAT

TO

TIN

VTA

ST

PAY

OU

TQ

UIK

RAT

CU

RR

AT

10.19

0.16

0.16

0.15

5.23

4.84

0.28

2.47

0.36

0.42

0.31

0.54

1.33

20.22

0.26

0.16

0.54

4.15

4.34

0.13

0.64

0.16

0.04

0.45

0.83

0.93

30.17

0.26

0.20

0.49

5.38

4.88

0.43

3.18

0.74

0.13

0.50

0.84

1.09

40.12

0.08

0.08

0.39

4.12

3.93

0.23

1.55

0.50

0.37

0.65

0.50

1.09

50.21

0.34

0.34

0.11

4.78

4.59

0.30

1.56

0.50

0.20

0.25

1.10

1.74

60.12

0.25

0.25

0.19

4.15

3.91

0.34

1.74

0.38

0.31

0.80

1.00

1.89

70.15

0.25

0.16

0.35

5.70

5.56

0.48

1.39

0.62

0.22

0.46

0.73

1.38

80.10

0.12

0.09

0.39

4.42

4.21

0.26

1.60

0.42

0.30

1.03

0.94

1.57

90.08

0.04

0.04

0.50

4.71

4.51

0.25

1.58

0.33

0.31

0.00

0.74

1.28

10

0.31

0.12

0.11

0.41

4.47

4.19

0.17

1.88

0.25

0.31

0.25

0.66

1.10

11

0.21

0.36

0.33

0.08

4.39

4.23

0.40

1.43

0.71

0.17

0.61

1.06

1.49

12

0.22

0.37

0.37

0.16

4.03

3.83

0.42

1.55

0.62

0.17

0.25

0.97

1.38

13

0.20

0.48

0.48

0.13

3.86

3.88

0.68

0.96

0.97

0.13

0.60

0.61

1.00

14

0.11

0.18

0.15

0.23

3.91

3.87

0.40

1.09

0.64

0.15

0.80

0.92

1.23

15

0.38

0.25

0.20

0.27

5.16

4.67

0.21

3.13

0.32

0.38

0.39

0.33

1.39

16

0.23

0.24

0.24

0.00

5.71

4.98

0.27

5.44

0.38

0.50

0.36

0.24

1.29

17

0.32

0.09

0.09

0.11

4.71

4.31

0.09

2.51

0.13

0.31

0.53

0.86

1.34

18

0.13

0.06

0.05

0.55

4.68

4.50

0.24

1.51

0.40

0.42

0.00

0.44

1.14

19

0.29

0.60

0.60

0.00

4.52

4.87

0.57

0.45

0.58

0.01

0.21

1.18

1.21

20

0.09

0.10

0.09

0.28

4.99

4.41

0.34

3.82

0.50

0.46

1.52

0.34

1.28

21

−0.50

−1.28

−1.28

1.78

4.06

3.55

0.16

3.21

0.30

0.37

0.00

0.50

1.06

22

0.17

0.12

0.11

0.28

4.28

3.97

0.26

2.07

0.32

0.37

0.22

0.67

1.36

23

−0.04

−0.04

−0.04

0.46

4.76

4.32

0.19

2.79

0.32

0.28

0.00

0.72

1.11

24

0.26

0.23

0.23

0.00

4.25

3.88

0.21

2.34

0.26

0.27

0.53

1.20

1.83

25

0.21

0.40

0.30

0.20

4.41

4.38

0.24

1.07

0.36

0.24

0.42

1.77

2.72

26

0.15

0.30

0.21

0.66

4.40

4.36

0.70

1.08

1.07

0.15

0.00

0.29

0.58

27

0.23

0.07

0.07

0.11

4.83

4.44

0.17

2.46

0.22

0.00

0.67

0.88

0.88

28

0.20

0.33

0.28

0.33

4.21

4.04

0.53

1.47

1.16

0.07

0.21

0.77

0.91

29

0.19

0.16

0.14

0.30

4.31

4.17

0.25

1.38

0.33

0.42

0.52

0.49

1.28

30

0.08

0.18

0.10

0.35

4.95

4.87

0.31

1.21

0.51

0.27

1.08

1.44

2.36

31

0.19

0.15

0.14

0.19

5.58

5.44

0.22

1.36

0.36

0.22

0.40

0.96

1.35

32

0.20

0.63

0.35

0.21

4.77

4.86

0.21

0.81

0.34

0.26

0.51

2.63

3.98

33

0.14

0.27

0.20

0.30

5.00

4.83

0.72

1.48

0.74

0.09

0.53

0.26

0.54

34

0.04

0.07

0.07

0.18

4.18

3.92

0.28

1.83

0.54

0.23

4.21

1.08

1.57

35

0.10

0.15

0.12

0.13

5.76

5.78

0.12

0.96

0.21

0.28

0.43

0.57

1.40

36

−0.09

−0.46

−0.22

0.68

3.97

4.08

0.62

0.77

0.71

0.19

0.00

0.60

1.45

37

0.10

0.18

0.14

0.23

5.69

5.63

0.33

1.14

0.52

0.23

0.12

0.83

1.56

38

0.20

0.13

0.12

0.05

4.79

4.42

0.04

2.35

0.07

0.37

0.33

0.80

1.42

39

0.13

0.17

0.13

0.22

5.49

5.35

0.26

1.37

0.52

0.41

0.53

0.75

1.73

40

0.08

0.14

0.14

0.19

4.09

3.87

0.17

1.64

0.27

0.34

0.91

0.74

1.57

Multivariate Statistik@�nasto 3�6

Page 7: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Umschreibung des Modells in Matrixschreibweise:

Sei Y =

Y1

...Yn

, X =

X11 X12 · · · X1p

X21 X22 · · · X2p

...... · · · ...

Xn1 Xn2 · · · Xnp

β =

β0

β1

...βp

, ε =

ε1

ε2...

εn

• Modell

¨

§

¥

¦

Y = X · β + ε

E(ε) = 0, COV(ε) = σ2 · In,

[ε ∼ Nn(0, σ2 · In)]

Multivariate Statistik@�nasto 3�7

Page 8: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3.1 Schätzung von β = (β0, . . . βp)T

• Kleinste Quadrate Methode: Bestimme β0, β1, . . . , βp durchMinimieren von

Q(β0, . . . , βp) =n∑

i=1

(Yi − Yi)2

=n∑

i=1

(Yi − β0 − β1Xi1 − . . .− βpXip)2

• Kleinste-Quadrate-Schätzer β

β = [XT X]−1XT Y(falls rang(X) = rang(XT X) = p + 1

)

3.1.1 Eigenschaften von β

1. Erwartungswerte

E(β) =

E(β0)...

E(βp)

=

β0

...βp

= β

d.h. β ist ein erwartungstreuer Schätzer von β

2. Kovarianzmatrix

COV(β) = COV([XT X]−1XT Y )

= [XT X]−1XT COV(Y )X[XT X]−1

= σ2[XT X]−1XT X[XT X]−1

= σ2[XT X]−1

Multivariate Statistik@�nasto 3�8

Page 9: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3. VerteilungFalls εi ∼ N(0, σ2

i ) und daher ε ∼ Nn(0, σ2In), so erhält man

β ∼ Np+1

(β, σ2[XT X]−1

)

Anmerkung: Für groÿes n bleibt die angegebene Vertei-lung auch dann i.A. approximativ gültig, wenn die εi nichtnormalverteilt sind (zentraler Grenzwertsatz)

Anmerkung: Satz von Gauss-Markovβ ist der wirksamste Schätzer von β in der Klasse aller linearenund erwartungstreuen Schätzer.

3.2 Kon�denzintervalle und Tests

Wichtige Notation• Im Folgenden sei cij = ij-tes Element der Matrix [XT X]−1,

d.h.

c00 c01 · · · c0p

c10 c11 · · · c1p

...... · · · ...

cp0 cp1 · · · cpp

:= [XT X]−1

• Weiterhin sei H := X[XT X]−1XT

(H wird in der Literatur oft als �Hat�-Matrix bezeichnet)

� y =

Y1

...Yn

= Xβ = X[XT X]−1XT Y = H · Y

� H ist idempotent: H2 = H ·H = H

Multivariate Statistik@�nasto 3�9

Page 10: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

• (In −H) ist idempotent:

(In −H)2 = (In −H) · (In −H) = In −H

• spur(H) = rang(H) = p + 1;spur(In −H) = rang(In −H) = n− p− 1(allgemein für idempotente Matrizen A : spur(A) = rang(A))

Schätzung von σ2

• Wie bei der linearen Einfachregression ist für die Konstruk-tion von Tests und Kon�denzintervallen eine Schätzung derFehlervarianz σ2 notwendig.

• Die Residuen εi = Yi − Yi = Yi − β0 −p∑

j=1

βjXij �schätzen�

den Fehler εi

• Schätzer σ2 von σ2:

σ2 =1

n− p− 1

n∑

i=1

(Yi − Yi)2

=1

n− p− 1(Y − Y )T (Y − Y )

=1

n− p− 1(Y −HY )T (Y −HY )

=1

n− p− 1Y T (I −H)(I −H)Y

=1

n− p− 1Y T (I −H)Y

• σ2 ist ein erwartungstreuer Schätzer von σ2

• (n− p− 1) σ2

σ2 ∼ χ2n−p−1

Multivariate Statistik@�nasto 3�10

Page 11: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Verteilung von βj , j = 0, 1, . . . , p

• Aus β =

β0

...βp

∼ Np+1(β, σ2 · [XT X]−1)︸ ︷︷ ︸

c00 · · · c0p

.... . .

...cp0 · · · cpp

folgt βj ∼ N(βj , σ2 · cjj)

⇒ Standardisierung

βj − βj

σ√

cjj∼ N(0, 1)

• Ersetzt man σ2 durch σ2 folgt die standardisierte Schätz-funktion einer Student t-Verteilung

βj − βj

σ√

cjj∼ tn−p−1

Kon�denzintervalle

Es gilt:

P

(−tn−p−1;1−α/2 ≤ βj − βj

σ√

cjj≤ tn−p−1;1−α/2

)= 1− α

⇒ P(βj − tn−p−1;1−α/2 σ

√cjj ≤ βj ≤ βj + tn−p−1;1−α/2 σ

√cjj

)= 1− α

⇒ Kon�denzintervall für βj zum Niveau 1− α:

βj = βj ± tn−p−1;1−α/2 σ√

cjj

Multivariate Statistik@�nasto 3�11

Page 12: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Anmerkung:Allgemein gilt tn−p−1;1−α > tn−p∗−1;1−α, falls p > p∗. Mitwach-sender Parameterzahl werden daher i.A. die Kon�denzin-tervalle gröÿer, was bedeutet, dass die Schätzungen unge-nauer sind (man beachte aber, dass sich durch Hinzufügen vonweiteren erklärenden Variablen auch die Werte von √cjj ändern;i.A. werden diese jedoch ebenfalls gröÿer)

Hypothesen Tests

• Man betrachtet Hypothesen der Form

H0 : βj = c gegen H1 : βj 6= c

� c vorgegener Wert, j ∈ {1, . . . , p}• von besonderem Interesse: H0 : βj = 0

• Teststatistik:T =

βj − c

σ√

cjj

• Ablehnung von H0, falls |T | ≥ tn−p−1;1−α/2

(bzw. falls p-Wert zu klein)

• analog: einseitige Tests

Multivariate Statistik@�nasto 3�12

Page 13: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Fortsetzung Beispiel 3.1 (Bilanzdaten)Call:

lm(formula = RETCAP ~ WCFTCL + WCFTDT + GEARRAT + LOGSALE + LOGASST +NFATAST + CAPINT + FATTOT + INVTAST + PAYOUT + QUIKRAT +CURRAT, data = FinAccount.data)

Residuals:Min 1Q Median 3Q Max

-0.16446 -0.02444 0.00393 0.01966 0.12775

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.29223 0.16282 1.795 0.0839 .WCFTCL 0.14052 0.24090 0.583 0.5645WCFTDT 0.40595 0.33880 1.198 0.2413GEARRAT 0.02987 0.11953 0.250 0.8045LOGSALE 0.17788 0.16804 1.059 0.2992LOGASST -0.18583 0.16335 -1.138 0.2653NFATAST -0.16564 0.16948 -0.977 0.3371CAPINT -0.01540 0.03343 -0.461 0.6488FATTOT -0.10143 0.10528 -0.963 0.3439INVTAST -0.21510 0.22294 -0.965 0.3432PAYOUT -0.02090 0.01757 -1.190 0.2446QUIKRAT -0.08236 0.10911 -0.755 0.4569CURRAT 0.01953 0.07695 0.254 0.8016---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.06382 on 27 degrees of freedomMultiple R-Squared: 0.8526, Adjusted R-squared: 0.7871F-statistic: 13.02 on 12 and 27 DF, p-value: 2.843e-08

Analysis of Variance Table

Response: RETCAP

Df Sum Sq Mean Sq F value Pr(>F)WCFTCL 1 0.51985 0.51985 127.6391 9.736e-12 ***WCFTDT 1 0.01798 0.01798 4.4153 0.04509 *GEARRAT 1 0.01456 0.01456 3.5753 0.06942 .LOGSALE 1 0.00154 0.00154 0.3785 0.54358LOGASST 1 0.01876 0.01876 4.6061 0.04100 *NFATAST 1 0.03311 0.03311 8.1284 0.00825 **CAPINT 1 0.00032 0.00032 0.0784 0.78155FATTOT 1 0.00652 0.00652 1.6010 0.21657INVTAST 1 0.00663 0.00663 1.6275 0.21292PAYOUT 1 0.00611 0.00611 1.5008 0.23113QUIKRAT 1 0.01058 0.01058 2.5982 0.11861CURRAT 1 0.00026 0.00026 0.0644 0.80157Residuals 27 0.10997 0.00407---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Multivariate Statistik@�nasto 3�13

Page 14: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Correlation of Coefficients

(Intercept) WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST(Intercept) 1.000000000 0.52104986 -0.54667642 -0.524345719 -0.13431042 0.009418179 -0.15541665WCFTCL 0.521049863 1.00000000 -0.94471505 -0.580881116 -0.21910569 0.156580117 0.20985032WCFTDT -0.546676421 -0.94471505 1.00000000 0.793465605 0.28929574 -0.230504793 -0.21524620GEARRAT -0.524345719 -0.58088112 0.79346561 1.000000000 0.33026827 -0.281804819 -0.11432615LOGSALE -0.134310420 -0.21910569 0.28929574 0.330268268 1.00000000 -0.989451472 0.20278802LOGASST 0.009418179 0.15658012 -0.23050479 -0.281804819 -0.98945147 1.000000000 -0.20268216NFATAST -0.155416650 0.20985032 -0.21524620 -0.114326146 0.20278802 -0.202682156 1.00000000CAPINT -0.014666905 0.09818840 -0.13879375 -0.170008706 -0.90601862 0.904508642 -0.18921747FATTOT 0.058513448 -0.04655850 -0.05094791 -0.235382657 -0.29072896 0.292141104 -0.78974222INVTAST -0.432175413 0.02377413 -0.05891393 -0.095325592 -0.19183853 0.227158072 0.36231759PAYOUT -0.325020023 -0.20782823 0.29470453 0.422478113 0.05062779 -0.009843849 0.04370014QUIKRAT -0.533635028 -0.14167952 0.08172062 -0.008014308 -0.07434729 0.127580944 0.35239596CURRAT 0.388744950 -0.02415868 0.06650992 0.103014568 0.16030983 -0.204815916 -0.32561462

CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT(Intercept) -0.01466690 0.05851345 -0.43217541 -0.325020023 -0.533635028 0.38874495WCFTCL 0.09818840 -0.04655850 0.02377413 -0.207828230 -0.141679524 -0.02415868WCFTDT -0.13879375 -0.05094791 -0.05891393 0.294704529 0.081720616 0.06650992GEARRAT -0.17000871 -0.23538266 -0.09532559 0.422478113 -0.008014308 0.10301457LOGSALE -0.90601862 -0.29072896 -0.19183853 0.050627792 -0.074347291 0.16030983LOGASST 0.90450864 0.29214110 0.22715807 -0.009843849 0.127580944 -0.20481592NFATAST -0.18921747 -0.78974222 0.36231759 0.043700140 0.352395957 -0.32561462CAPINT 1.00000000 0.24485828 0.08042719 -0.024562195 0.078676806 -0.10517463FATTOT 0.24485828 1.00000000 -0.04646685 -0.201524746 -0.086966926 0.07828367INVTAST 0.08042719 -0.04646685 1.00000000 -0.005059230 0.852478848 -0.87138283PAYOUT -0.02456219 -0.20152475 -0.00505923 1.000000000 -0.003892286 -0.00342210QUIKRAT 0.07867681 -0.08696693 0.85247885 -0.003892286 1.000000000 -0.94774362CURRAT -0.10517463 0.07828367 -0.87138283 -0.003422100 -0.947743619 1.00000000

Multivariate Statistik@�nasto 3�14

Page 15: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Kon�denzintervall für m(X01, . . . , X0p) zu gegebenenX01, . . . , X0p

• m(X01, . . . , X0p) = β0 +p∑

j=1

βjX0j = aT0 β für a0 =

1

X01

...X0p

• m(X01, . . . , X0p) = β0 +p∑

j=1

βjX0j = aT β

⇒ E(m(X01, . . . , X0p) = E(aT0 β) = aT

0 β = m(X01, . . . , X0p)

Var(aT0 β) = aT

0 COV(β)a0 = σ2aT0 [XT X]−1a0

⇒ m(X01, . . . , X0p) ∼ N( aT0 β︸︷︷︸

m(X01,...,X0p)

, σ2aT0 [XT X]−1a0)

undm(X01, . . . , X0p)−m(X01, . . . , X0p)

σ√

aT0 [XT X]−1a0

∼ tn−p−1

Kon�denzintervall:

β0 +p∑

j=1

βjX0j

︸ ︷︷ ︸m(X01,...,X0p)

= β0+p∑

j=1

βjX0j±tn−p−1;1−α/2 σ√

aT0 [XT X]−1a0

Multivariate Statistik@�nasto 3�15

Page 16: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Anmerkung:Ein wichtiges Maÿ für die Genauigkeit der Schätzung von m

aus den Datenpunkten (X11, . . . , X1p), . . . , (Xn1, . . . , Xnp) ist dermittlere quadratische Fehler:

MSE =1n

n∑

i=1

E[(m(Xi1, . . . , Xip)− m(Xi1, . . . , Xip))

2]

• Man erhält

MSE =1n

n∑

i=1

Var (m(Xi1, . . . , Xip))

=1n

n∑

i=1

σ2(1, Xi1, . . . , Xip) · [XT X]−1 ·

1

Xi1

...Xip

• (1, Xi1, . . . , Xip) · [XT X]−1 ·

1

Xi1

...Xip

= hii

hii ist das i-te Diagonalelement der Matrix H = X[XT X]−1XT

⇒ MSE =σ2

n

n∑

i=1

hii =σ2

nspur(H) = σ2 p + 1

n

• Bei gleichem σ2 liefert daher ein hochdimensionales Modell(p groÿ) weniger genaue Schätzer als ein niedrigdimensionales(p klein)

• Das Hinzufügen weiterer erklärender Variablen in ein beste-hendes Regressionsmodell hat nur Sinn, wenn entweder

Multivariate Statistik@�nasto 3�16

Page 17: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

a) die neue Variable als Funktion der bereits vorhandenenVariable de�niert ist und nichtlineare Zusammenhängequanti�ziert, die die Modellanpassung entscheidend ver-bessernoder

b) die neue Variable einen wichtigen Teil der im Rahmendes bestehenden Modells verbleibenden Streuung der Y -Werte erklärt; sie führt also auf ein neues Modell mit be-tragsmäÿig kleineren Zufallschwankungen ε und dement-sprechend kleinerer Fehlervarianz σ2. Die Reduktion derFehlervarianz σ2 muss gröÿer sein als die durch den Term� p+1

n � bedingte Erhöhung des MSE

• In einem Regressionsmodell ist es sinnvoll Variablen zu eli-minieren, die wenig oder gar nichts zur Erklärung der Y -Werte beitragen

3.3 Prognose

• Problem: Prognostiziere zu gegebenenWerten (X01, . . . , X0p)der erklärenden Variablen die zugehörige Realisierung Y0 derZielvariable Y

• Modell:

Y0 = β0 +p∑

j=1

βjX0j + ε0 = m(X01, . . . , X0p) + ε0

ε0 ∼ N(0, σ2); ε0 unabhängig von ε1, . . . , εn

Multivariate Statistik@�nasto 3�17

Page 18: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

• Prognose:

Y0 = β0 +p∑

j=1

βjx0j = m(X01, . . . , X0p)

• Problem: Genauigkeit der Prognose

� E(Y0 − Y0) = 0

� Mit a0 =

X01

...X0p

gilt Y0 = aT

0 β + ε0, Y = aT0 β

und daher

Var(Y0 − Y0) = Var(aT0 β − aT

0 β + ε0)

= Var(AT0 β) + Var(ε0)

= σ2aT0 [XT X]−1a0 + σ2

⇒ Y0 − Y0 ∼ N(0, σ2(1 + aT

0 [XT X]−1a0))

⇒ Y0 − Y

σ√

1 + aT0 [XT X]−1a0

∼ tn−p−1

• Prognoseintervall

Y0 = Y0 ± tn−p−1;1−α/2 σ√

1 + aT0 [XT X]−1a0

Multivariate Statistik@�nasto 3�18

Page 19: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3.4 Die Streuungszerlegung• Frage: Welcher Anteil der Streunung der Yi lässt sich durch

die Regression von Y auf X erklären?

• Man beachte: 1n

n∑i=1

Yi = Y

• Streuungszerlegung:

n∑

i=1

(Yi − Y )2

︸ ︷︷ ︸SQT

=n∑

i=1

(Yi − Y )2

︸ ︷︷ ︸SQE

+n∑

i=1

(Yi − Y )2

︸ ︷︷ ︸SQR

∗ Yi = β0 +p∑

j=1

βjXij (ohne Fehler) ⇒ SQR = SQE

∗ β1 = β2 = . . . = βp = 0 ⇒ Yi = Y ⇒ SQT = SQR

• Varianzanalyse:Wie in der einfachen Regression lässt sich aufbauend auf derStreuungszerlegung ein F -Test zum Test der Hypothese

H0 : β1 = β2 = . . . = βp = 0 gegen H1 : ∃ βj 6= 0

durchführen∗ Qualitativ entspricht H0 der Hypothese �das Regressions-

modell erklärt keinerlei Variation der Yi�∗ Teststatistik

F =SQE /p

SQR /n− p− 1

∗ Unter H0: F ∼ Fp,n−p−1

∗ Ablehnung von H0, falls F > Fp,n−p−1;1−α

(bzw. p-Wert zu klein)Multivariate Statistik@�nasto 3�19

Page 20: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3.5 Das Bestimmtheitsmaÿ• Wie bei der einfachen Regression ist das Bestimmtheitsmaÿ

(oder �Determinationskoe�zient�) de�niert durch

R2 =SQESQT

=

n∑i=1

(Yi − Y )2

n∑i=1

(Yi − Y )2= 1−

n∑i=1

(Yi − Yi)2

n∑i=1

(Yi − Y )2

• 0 ≤ R2 ≤ 1

• Wie bei der linearen Einfachregression dient R2 als Maÿzahlfür die Güte der Modellanpassung

R2 nahe 1 ⇒ σ2 (Schätzung von σ2) klein,z.B. gute Prognosen zu erwarten

R2 nahe 0 ⇒ β1 ≈ β2 ≈ . . . ≈ βp ≈ 0Regression nutzlos

• R2 wird oft dazu benutzt verschiedene Regressionsmodelle(mit unterschiedlichen Variablen Xij) zu vergleichen:Besseres Modell ⇔ R2 gröÿer

• Problem bei Modellen mit unterschiedlicher DimensionModell 1: Yi = β0 +

p∑j=1

βjXij + εi ⇒ R2p

Modell 2: Yi = β0 +p∑

j=1

βjXij +βp+1Xip+1 + εi ⇒ R2p+1

Notwendigerweise: R2p+1 ≥ R2

p

• Es ist möglich, diese Dimensionsabhängigkeit zu verringern,indem man zum �adjustierten Bestimmtheitsmaÿ� (adjustedR2) übergeht.

Multivariate Statistik@�nasto 3�20

Page 21: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Adjusted R2:

R2adj = 1−

n∑i=1

(Yi − Yi)2/n− p− 1

n∑i=1

(Yi − Y )2/n− 1

Begründung:

R2 = 1−

n∑i=1

(Yi − Yi)2

n∑i=1

(Yi − Y )2= 1−

1n−1

n∑i=1

(Yi − Yi)2

1n−1

n∑i=1

(Yi − Y )2

= 1−

dimensionsabhängig︷ ︸︸ ︷n− p− 1

n−1 σ2

1n−1

n∑i=1

(Yi − Y )2

Dagegen:R2

adj = 1− σ2

1n−1

n∑i=1

(Yi − Y )2

Multivariate Statistik@�nasto 3�21

Page 22: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Anmerkung:In manchen Anwendungen werden Modelle ohne Konstante β0

verwendetBeispiel: Working Modell

Yi = β1Xi + β2Xi log Xi + εi

• Schätzung und Analyse dieser Modelle sind völlig analog zudem oben beschriebenen Vorgehen. Bzgl. Konstruktion vonKon�denzintervallen, Prognose, etc. sind genau die gleichenVerfahren anzuwenden

• Einzige Ausnahme: Die Streuungszerlegung gilt ausschlieÿ-lich für Modelle mit einer Konstanten β0.⇒ Probleme bei der De�nition von R2:

1−

n∑i=1

(Yi − Yi)2

n∑i=1

(Yi − Y )2kann negativ werden

• Für Modelle ohne Konstante β0 wird daher in der Praxishäu�g eine alternative De�nition von R2 benutzt:

R2 = 1−

n∑i=1

(Yi − Yi)2

n∑i=1

Y 2i

⇒ Die Werte von R2 für Modelle mit und ohne Konstante sindnicht vergleichbar

Multivariate Statistik@�nasto 3�22

Page 23: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3.6 Modelldiagnose• Regression: Residualanalyse dient als Werkzeug zu Modell-diagnose

• Bei der einfachen Regression sieht man Verletzungen der Mo-dellannahmen oft schon am Streudiagramm selbst; Residual-plots zeigen solche E�ekte jedoch häu�g deutlicher und sindauch im Rahmen der multiplen Regression anwendbar.

• Grundidee: Laut Modellannahme sind ε1, ε2, . . . , εn unab-hängig und identisch verteilt mit Mittelwert 0 (sowie εi ∼N(0, σ2)) ⇒ betrachtet man die Werte von εi in Abhängig-keit von Xij (bzw. Yi), so sollten diese Werte rein zufällig umNull schwanken; keine Muster, keine systematischen Struk-turen

• Residuum εi = Yi − Yi = Yi − βo −p∑

j=1

βjXij

• Graphik (�Residualplot�): Üblicherweise werden die Wer-te der εi in Abhängigkeit von den prognostizierten WertenYi graphisch dargestellt (alternativ: εi als Funktion des In-dex i oder in Abhängigkeit von Xij) ⇒ Identi�kation vonmöglichen Problemen, wie z.B.

Idealfall: keine systematischen Strukturen, εi rein zufällig(gutes Modell)

Multivariate Statistik@�nasto 3�23

Page 24: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

In der Praxis werden mehrere verschiedene Arten von Resi-dualplots benutzt. Wichtige Variante: studentisierte Re-siduenAnalyse von εi (für p = 1): Es gilt E(εi) = 0 und

∗ Var(εi) = Var(Yi − Yi) = σ2

1− 1

n− (Xi − X)2

n∑j=1

(Xj − Xj)2

∗ COV(εi, εk) = −σ2

1n

+(Xi − X)(Xk − X)

n∑j=1

(Xj − X)2

⇒ i.A. negative Korrelation; die εi sind tendenziell stärkergestreut als die wahren Fehlerterme εi

� Studentisierte Residuen

ri =εi

σ

√1− 1

n − (Xi−X)2n∑

i=1(Xj−X)2

⇒ Var(ri) ≈ Var(εi

σ) = 1

⇒ Normalverteilung: Etwa 95% der ri zwischen −2 und 2;etwa 99, 9% der ri zwischen −3 und 3

Studentisierte Residuen für p>1:

ri =εi

σ√

1− hii

Es gilt wiederum Var(ri) = Var(εi/σ) = 1.Multivariate Statistik@�nasto 3�24

Page 25: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Mögliche Probleme:a.) mangelnde Modellanpassung

0 50 100 150

−2

02

4 Mangelnde Modellanpassung

fitted y

resi

dual

s

Mögliche Lösungen: Komplexeres linearer Modell oder nicht-lineare/nichtparametrische Regression

Multivariate Statistik@�nasto 3�25

Page 26: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

b.) Heteroskedastizität

0 50 100 150

−20

0−

150

−10

0−

500

5010

0

Heteroskedadastizität

fitted y_i

Res

idua

ls

Multivariate Statistik@�nasto 3�26

Page 27: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Mögliche Lösungen (illustriert für p = 1)� Datentransformation, z.B.

Y → Y ∗ = ln Y, Y → Y ∗ = ln(Y + 1), Y → Y ∗ =√

Y ,

Y → Y ∗ =1Y

, . . .

oderX → X∗ = ln X, X → X∗ =

√X, . . .

⇒ Multiple (einfache) Regression von Y ∗ auf X∗

� Formal: Datentransformation:

Nichtlineares Modell ⇔ Lineares ModellBeispiel:

Yi = β0eβ1X(1 + δi) = β0e

β1X + β0eβ1X · δi︸ ︷︷ ︸

εi

wobei δ1, . . . , δn i.i.d , Var(δi) = σ2

⇒ Fehlerterme εi = β0eβ1Xδi heteroskedastisch,

⇒ Var(εi) = (β0eβ1X)2σ2

⇒ ln Yi = ln β0 + β1Xi + ln(1 + δi)︸ ︷︷ ︸≈ homoskedastische Fehler

� Lösung in komplexeren Situationen:Verallgemeinerte Kleinste-Quadrate Methode

Multivariate Statistik@�nasto 3�27

Page 28: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

c) Existenz von AusreiÿernResidualplot: Es existieren extrem groÿe oder extrem kleineBeobachtungen, deren Werte weit auÿerhalb des �normalen�Wertebereichs liegen (�Ausreiÿer�)

0 20 40 60 80 100

−40

−20

020

40

Multivariate Statistik@�nasto 3�28

Page 29: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

0 20 40 60 80 100 120

−20

−10

010

2030

4050

Solche untypischen Beobachtungen (Ausreiÿer) können dieWerte der geschätzen Parameter β0, β1, Kon�denzintervalle,etc. sehr stark beein�ussen. Im Extremfall können sie zurFolge haben, dass die Resultate der gesamten Regressions-analyse unsinnig und nicht interpretierbar sind.

Es exisitiert eine Vielzahl von statistischen Diagnoseverfah-ren, die es erlauben, den Ein�uss einzelner Beobachtungenauf die Modellanpassung zu diagnostizieren und zu quanti�-zieren. Ein wichtiges Diagnosewerkzeug ist die Distanz vonCook (�Cook's D�).

Multivariate Statistik@�nasto 3�29

Page 30: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Identi�kation von Ausreiÿern: Cook`s Distance

� Daten (Y1, X1), . . . , (Yn, Xn)

⇒ Schätzungen β der Regressionsparameter

� Problem: Identi�kation von einzelnen Beobachtungen, diedie Schätzungen �zu stark� beein�ussen

� Ansatz (illustriert für p = 1): Für eine gegebene Beobach-

tung (Yi, Xi) berechnet man neue Schätzer β−i =

(β0,−i

β1,−i

)aus

den verbleibenden Daten (Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn),die durch Weglassen der betrachteten Beobachtungen (Yi, Xi)entstehen

→ geringer Ein�uss von (Yi, Xi) auf die Schätzwerte ⇔

kleiner Unterschied zwischen β =

(β0,

β1,

)und β−i =

(β0,−i

β1,−i

)

→ �starker� Ein�uss von (Yi, Xi) ⇔ groÿer Unterschied zwi-schen β und β−i

� Cook's Distance:

Di =(β−i − β)T ·XT X · (β−i − β)

2σ2

wobei X =

1 X1

1 X2

......

1 Xn

Multivariate Statistik@�nasto 3�30

Page 31: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

� Verallgemeinerung auf multiple Regression (p > 1 erklärendenVariablen)

Di =(β−i − β)T ·XT X · (β−i − β)

(p + 1)σ2

mit β =

β0

β1

...βp

, β−i =

β0,−i

β1,−i

...βp,−i

, X =

1 X11 · · · X1p

......

......

1 Xn1 · · · Xnp

� Faustregel: Ein�uss von (Yi, Xi) �zu stark�, falls Di > 0, 8

Weiteres mögliches Problem: Starke Abweichung der Verteilungder Residuen von der Normalverteilung⇒ Überprüfung mit Hilfe eines NQ-Plots

Multivariate Statistik@�nasto 3�31

Page 32: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

−0.4 −0.2 0.0 0.2

−0.

15−

0.10

−0.

050.

000.

050.

10

residuals

FinAccount.lm$fitted

Fin

Acc

ount

.lm$r

esid

10 1517

21

23

36

Multivariate Statistik@�nasto 3�32

Page 33: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Index

cook

s.di

stan

ce(F

inA

ccou

nt.lm

)

15

36

Beispiel: Finanzdaten

Multivariate Statistik@�nasto 3�33

Page 34: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

FinAccount.data (logsale, wcftcl, retcap)

3.5 4.0 4.5 5.0 5.5 6.0−0.

8−

0.6

−0.

4−

0.2

0.0

0.2

0.4

−1.5−1.0

−0.5 0.0

0.5 1.0

FinAccount.data$LOGSALE

Fin

Acc

ount

.dat

a$W

CF

TC

L

Fin

Acc

ount

.dat

a$R

ET

CA

P

Multivariate Statistik@�nasto 3�34

Page 35: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Fortsetzung Beispiel 3.1 (Beobachtung Nr. 36 eliminiert)Call:

lm(formula = RETCAP ~ WCFTCL + WCFTDT + GEARRAT + LOGSALE + LOGASST +NFATAST + CAPINT + FATTOT + INVTAST + PAYOUT + QUIKRAT +CURRAT, data = FinAccount.data, subset = subset36)

Residuals:Min 1Q Median 3Q Max

-0.171573 -0.023960 0.002148 0.021181 0.125335

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.31709 0.15510 2.044 0.0512 .WCFTCL 0.70177 0.36339 1.931 0.0644 .WCFTDT -0.17173 0.43353 -0.396 0.6952GEARRAT -0.02223 0.11647 -0.191 0.8501LOGSALE 0.22334 0.16118 1.386 0.1776LOGASST -0.23342 0.15693 -1.487 0.1489NFATAST -0.18345 0.16116 -1.138 0.2654CAPINT -0.02245 0.03194 -0.703 0.4884FATTOT -0.09713 0.09999 -0.971 0.3403INVTAST 0.01530 0.24133 0.063 0.9499PAYOUT -0.01818 0.01674 -1.086 0.2874QUIKRAT 0.02183 0.11610 0.188 0.8523CURRAT -0.09164 0.09201 -0.996 0.3284---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.06059 on 26 degrees of freedomMultiple R-Squared: 0.8613, Adjusted R-squared: 0.7973F-statistic: 13.46 on 12 and 26 DF, p-value: 3.016e-08

Analysis of Variance Table

Response: RETCAPDf Sum Sq Mean Sq F value Pr(>F)

WCFTCL 1 0.46219 0.46219 125.8814 1.832e-11 ***WCFTDT 1 0.02529 0.02529 6.8887 0.014332 *GEARRAT 1 0.01003 0.01003 2.7318 0.110395LOGSALE 1 0.00172 0.00172 0.4682 0.499873LOGASST 1 0.01576 0.01576 4.2922 0.048344 *NFATAST 1 0.03464 0.03464 9.4357 0.004941 **CAPINT 1 0.00065 0.00065 0.1768 0.677554FATTOT 1 0.00618 0.00618 1.6825 0.205992INVTAST 1 0.00726 0.00726 1.9780 0.171441PAYOUT 1 0.00580 0.00580 1.5805 0.219869QUIKRAT 1 0.01984 0.01984 5.4035 0.028174 *CURRAT 1 0.00364 0.00364 0.9920 0.328441Residuals 26 0.09546 0.00367---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Multivariate Statistik@�nasto 3�35

Page 36: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Correlation of Coefficients

(Intercept) WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST(Intercept) 1.00000000 0.38956136 -0.45837896 -0.52737995 -0.121073173 -0.00302710 -0.15915420WCFTCL 0.38956136 1.00000000 -0.96215539 -0.53113627 -0.026242779 -0.02115385 0.08868250WCFTDT -0.45837896 -0.96215539 1.00000000 0.72453429 0.117349008 -0.06674973 -0.12219710GEARRAT -0.52737995 -0.53113627 0.72453429 1.00000000 0.286597321 -0.23702015 -0.09870837LOGSALE -0.12107317 -0.02624278 0.11734901 0.28659732 1.000000000 -0.98962238 0.19253690LOGASST -0.00302710 -0.02115385 -0.06674973 -0.23702015 -0.989622382 1.00000000 -0.19151853NFATAST -0.15915420 0.08868250 -0.12219710 -0.09870837 0.192536899 -0.19151853 1.00000000CAPINT -0.02348492 -0.02487289 -0.02789975 -0.13962728 -0.907061253 0.90533313 -0.18158322FATTOT 0.06005554 -0.01247175 -0.05231081 -0.23416285 -0.284646578 0.28534978 -0.78953987INVTAST -0.33908138 0.38637396 -0.36035733 -0.18957546 -0.098394313 0.12362249 0.29059130PAYOUT -0.31627587 -0.06679073 0.16308193 0.39184096 0.061558533 -0.02217937 0.03893778QUIKRAT -0.43819459 0.27124705 -0.24855858 -0.10858215 -0.001602355 0.04362809 0.28885624CURRAT 0.25864173 -0.48443956 0.44671315 0.21651853 0.039739641 -0.06798273 -0.22435488

CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT(Intercept) -0.02348492 0.06005554 -0.33908138 -0.31627587 -0.438194585 0.25864173WCFTCL -0.02487289 -0.01247175 0.38637396 -0.06679073 0.271247052 -0.48443956WCFTDT -0.02789975 -0.05231081 -0.36035733 0.16308193 -0.248558578 0.44671315GEARRAT -0.13962728 -0.23416285 -0.18957546 0.39184096 -0.108582147 0.21651853LOGSALE -0.90706125 -0.28464658 -0.09839431 0.06155853 -0.001602355 0.03973964LOGASST 0.90533313 0.28534978 0.12362249 -0.02217937 0.043628093 -0.06798273NFATAST -0.18158322 -0.78953987 0.29059130 0.03893778 0.288856236 -0.22435488CAPINT 1.00000000 0.24088219 0.01676524 -0.03341470 0.019633816 -0.01549034FATTOT 0.24088219 1.00000000 -0.03034511 -0.19903019 -0.067805734 0.04898199INVTAST 0.01676524 -0.03034511 1.00000000 0.03487938 0.884015429 -0.89884279PAYOUT -0.03341470 -0.19903019 0.03487938 1.00000000 0.033478497 -0.05244663QUIKRAT 0.01963382 -0.06780573 0.88401543 0.03347850 1.000000000 -0.94591501CURRAT -0.01549034 0.04898199 -0.89884279 -0.05244663 -0.945915015 1.00000000

Multivariate Statistik@�nasto 3�36

Page 37: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

0 10 20 30 40

01

23

45

6

Index

cook

s.di

stan

ce(F

inA

ccou

nt.lm

36)

15

21

Bilanzdaten: Beobachtung Nr. 36 eliminiert

Multivariate Statistik@�nasto 3�37

Page 38: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Fortsetzung Beispiel 3.1 (Beob. Nr. 36, 21 eliminiert)Call:

lm(formula = RETCAP ~ WCFTCL + WCFTDT + GEARRAT + LOGSALE + LOGASST +NFATAST + CAPINT + FATTOT + INVTAST + PAYOUT + QUIKRAT +CURRAT, data = FinAccount.data, subset = subset3621)

Residuals:Min 1Q Median 3Q Max

-0.114051 -0.025729 0.002496 0.020328 0.096191

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.24883 0.14386 1.730 0.09603 .WCFTCL 1.11519 0.36955 3.018 0.00579 **WCFTDT -0.21457 0.39528 -0.543 0.59206GEARRAT -0.01992 0.10610 -0.188 0.85261LOGSALE 0.49969 0.18335 2.725 0.01156 *LOGASST -0.48743 0.17500 -2.785 0.01005 *NFATAST -0.30425 0.15446 -1.970 0.06003 .CAPINT -0.08022 0.03706 -2.165 0.04017 *FATTOT -0.11086 0.09125 -1.215 0.23571INVTAST 0.23047 0.23588 0.977 0.33790PAYOUT 0.00168 0.01717 0.098 0.92284QUIKRAT 0.08012 0.10827 0.740 0.46617CURRAT -0.18976 0.09244 -2.053 0.05070 .---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.0552 on 25 degrees of freedomMultiple R-Squared: 0.6958, Adjusted R-squared: 0.5498F-statistic: 4.765 on 12 and 25 DF, p-value: 0.0004878

Analysis of Variance Table

Response: RETCAPDf Sum Sq Mean Sq F value Pr(>F)

WCFTCL 1 0.047642 0.047642 15.6372 0.000557 ***WCFTDT 1 0.010905 0.010905 3.5794 0.070138 .GEARRAT 1 0.005412 0.005412 1.7763 0.194620LOGSALE 1 0.000785 0.000785 0.2578 0.616117LOGASST 1 0.013883 0.013883 4.5568 0.042776 *NFATAST 1 0.033529 0.033529 11.0050 0.002783 **CAPINT 1 0.001899 0.001899 0.6234 0.437195FATTOT 1 0.006151 0.006151 2.0190 0.167700INVTAST 1 0.006755 0.006755 2.2171 0.149000PAYOUT 1 0.004616 0.004616 1.5151 0.229817QUIKRAT 1 0.029806 0.029806 9.7830 0.004433 **CURRAT 1 0.012839 0.012839 4.2140 0.050699 .Residuals 25 0.076167 0.003047---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Multivariate Statistik@�nasto 3�38

Page 39: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Correlation of Coefficients

(Intercept) WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST(Intercept) 1.00000000 0.25886305 -0.44161845 -0.51953513 -0.20815361 0.10633325 -0.08995742WCFTCL 0.25886305 1.00000000 -0.88019622 -0.47189260 0.24743517 -0.27189310 -0.06265495WCFTDT -0.44161845 -0.88019622 1.00000000 0.72346150 0.06809419 -0.02963908 -0.10265551GEARRAT -0.51953513 -0.47189260 0.72346150 1.00000000 0.23469242 -0.19861549 -0.09651239LOGSALE -0.20815361 0.24743517 0.06809419 0.23469242 1.00000000 -0.99283653 -0.03958873LOGASST 0.10633325 -0.27189310 -0.02963908 -0.19861549 -0.99283653 1.00000000 0.03055107NFATAST -0.08995742 -0.06265495 -0.10265551 -0.09651239 -0.03958873 0.03055107 1.00000000CAPINT 0.09870425 -0.29287808 0.00479410 -0.11497895 -0.94123940 0.93787338 0.05703034FATTOT 0.07015313 -0.03774640 -0.04959255 -0.23425352 -0.26336644 0.26718843 -0.73050733INVTAST -0.37870246 0.48369898 -0.35114796 -0.17353256 0.14366455 -0.11495364 0.14476753PAYOUT -0.36251907 0.15120039 0.12490684 0.35197000 0.31907267 -0.28120406 -0.10997746QUIKRAT -0.46071386 0.33246193 -0.25179089 -0.10420785 0.12689705 -0.08859774 0.20169866CURRAT 0.30983668 -0.58095791 0.42281895 0.19265006 -0.22377246 0.19293233 -0.06226297

CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT(Intercept) 0.09870425 0.07015313 -0.37870246 -0.3625191 -0.46071386 0.30983668WCFTCL -0.29287808 -0.03774640 0.48369898 0.1512004 0.33246193 -0.58095791WCFTDT 0.00479410 -0.04959255 -0.35114796 0.1249068 -0.25179089 0.42281895GEARRAT -0.11497895 -0.23425352 -0.17353256 0.3519700 -0.10420785 0.19265006LOGSALE -0.94123940 -0.26336644 0.14366455 0.3190727 0.12689705 -0.22377246LOGASST 0.93787338 0.26718843 -0.11495364 -0.2812041 -0.08859774 0.19293233NFATAST 0.05703034 -0.73050733 0.14476753 -0.1099775 0.20169866 -0.06226297CAPINT 1.00000000 0.22581777 -0.21227688 -0.3080268 -0.11748793 0.25026183FATTOT 0.22581777 1.00000000 -0.04991539 -0.2039406 -0.07891690 0.06956516INVTAST -0.21227688 -0.04991539 1.00000000 0.1954777 0.88237285 -0.91243979PAYOUT -0.30802678 -0.20394057 0.19547769 1.0000000 0.12738969 -0.23610374QUIKRAT -0.11748793 -0.07891690 0.88237285 0.1273897 1.00000000 -0.92804032CURRAT 0.25026183 0.06956516 -0.91243979 -0.2361037 -0.92804032 1.00000000

Multivariate Statistik@�nasto 3�39

Page 40: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

0.00 0.05 0.10 0.15 0.20 0.25

−0.

10−

0.05

0.00

0.05

0.10

residuals (obs. 36 and 21 excluded)

FinAccount.lm3621$fitted

Fin

Acc

ount

.lm36

21$r

esid

Bilanzdaten: Beobachtungen Nr. 36, 21 eliminiert

Multivariate Statistik@�nasto 3�40

Page 41: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

0 10 20 30

0.0

0.1

0.2

0.3

0.4

0.5

Index

cook

s.di

stan

ce(F

inA

ccou

nt.lm

3621

)

31

Bilanzdaten: Beobachtungen Nr. 36, 21 eliminiert

Multivariate Statistik@�nasto 3�41

Page 42: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

−2 −1 0 1 2

−0.

10−

0.05

0.00

0.05

0.10

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

17

22

29

Bilanzdaten: Beobachtungen Nr. 36, 21 eliminiert

Multivariate Statistik@�nasto 3�42

Page 43: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3.7 Modellbildung

3.7.1 Komplexere Modelle mit quadratischen Termenund Interaktionen

• Wie in der einfachen Regression ist auch in der multiplenRegression die Annahme eines linearen Zusammenhangs zwi-schen Y und den erklärenden Variablen eine wesentliche Re-striktion

• Eine Standardoption in vielen statistischen Softwarepaketenist die Erfassung von nichtlinearen E�ekten durch das Hin-zufügen von quadratischen Termen und/oder Interaktionen

Beispiel:Yi als Funktion von zwei erklärenden Variablen Xi1 und Xi2

� Lineares Modell:

Yi = β0 + β1Xi1 + β2Xi2 + εi

� Modell mit quadratischen Termen und Interaktionen:

Yi = β0+β1Xi1+β2Xi2+ β3X2i1 + β4X

2i2︸ ︷︷ ︸

quadratische Terme

+ β5Xi1Xi2︸ ︷︷ ︸Interaktion

+εi

• Die Notwendigkeit der zusätzlichen Terme kann durch einenVergleich der Modellanpassung des nichtlinearen Modells imVergleich zum linearen Modell überprüft werden (R2

adj grö-ÿer für das nichtlineare Modell als für das lineare Modell?).Ein �F -Test� (siehe Kapitel 4.9) erlaubt einen Test der Hy-pothese

H0 : β3 = β4 = β5 = 0

Anmerkung: Das Hinzufügen nichtlinearer Terme und dieanschlieÿende Überprüfung der Modellanpassung machen i.A.

Multivariate Statistik@�nasto 3�43

Page 44: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

nur dann Sinn, wenn R relativ groÿ im Vergleich zur Anzahlder erklärenden Variablen ist.

• Bei bestimmten ökonomischen Variablen wird �standardmä-ÿig� ein entsprechender quadratischer Term in das Modelleingefügt. Ein Beispiel ist die Variable �Alter einer Person�.Fast alle Modelle,bei denen als erklärender Variable Alterauftritt, beinhalten auch die Variable (Alter)2. Der Grundist, dass sich Personen mittleren Alters in fast allen Aspek-ten ökonomischen Verhaltens sowohl von sehr jungen Leutenals auch von Rentnern unterscheiden.

• Eine weitere wichtige Möglichkeit zur Verbesserung der Mo-dellanpassung sind VariablentransformationenBeispiele:

Yi = β0 + β1 ln Xi1 + β2Xi2 + εi

Yi = β0 + β1

√Xi1 + β2 ln Xi2 + εi

ln Yi = β0 + β1 ln Xi1 + β2 ln Xi2 + εi

......

• Von besonderem Interesse sind Transformationen, die auf�mehr Normalität� führen. Man beachte, dass der Zusam-menhang zwischen Yi und den erklärenden VariablenXi1, Xi2, . . . , Xip notwendigerweise linear ist, falls(Yi, Xi1, . . . , Xip) ein multivariat normalverteilter Zufallsvek-tor ist.

• Eine Reihe von ökonomischen Variablen wie Einkommen,Vermögen, Verkäufe, etc. werden �standardmäÿig� logarith-miert. Dies sind positive Variablen mit linkssteilen Vertei-lungen; Logarithmierung führt daher auf �mehr Normalität�.

Multivariate Statistik@�nasto 3�44

Page 45: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3.8 Multikollinearität• Die Parameter β0, . . . , βp eines Regressionsmodells sind nicht

eindeutig identi�zierbar, d.h. nicht eindeutig bestimmbar,falls die Werte einer Variablen Xij sich als Linearkombinati-on der Werte anderer erklärender ergeben.Beispiel:

X =

X11 . . . X1p

......

......

1 Xn1 . . . Xnp

und Xj = γ1

1...1

+ γ2X1

︸︷︷︸X1

︸︷︷︸Xp

• In der Praxis kommt es häu�g vor, dass einige Modellvaria-blen �fast� kollinear sind. Man spricht dann von dem Phäno-men der �Multikollinearität�. Die Matrix [XT X]−1 ist dannzwar noch invertierbar, einige der Diagonalelemente cjj kön-nen aber möglicherweise sehr groÿ sein(Analogie: man dividiert �fast� durch Null)⇒ Erhöhung der Schätzungenauigkeit.

• Diagnose von Multikollinearität� Analyse der Korrelationsmatrix der Modellvariablen

(Xi1, . . . , Xip). Zwei Variablen sind �fast� kollinear, fallsihre Korrelation betragsmäÿig nahe 1 ist.

� Analyse komplexerer Multikollinearitäten durch Hilfsre-gressionen, z.B. Xij in Abhängigkeit vonXi1, . . . , Xij−1, Xij+1, . . . , Xip

Multivariate Statistik@�nasto 3�45

Page 46: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Hilfsregression:

Xij = α0+α1Xi1+. . .+αj−1Xij−1+αjXij+1+. . .+αp−1Xip+δi

⇒ Berechnung von α0, . . . , αp−1 durch die Kleinste-QuadrateMethode

⇒ Bestimmung des zugehörigen Wertes von R2

⇒ Multikollinearität, falls R2 sehr nahe 1

Oft wird statt R2 die sogenannte �Tolerance� = 1−R2

interpretiert. Multikollinearität falls 1−R2 sehr klein

• Eine mögliche Behandlung von Multikollinearitäten ist dieVariablenelimination. Sind beispielsweise zwei Variablen fastkollinear, so nimmt man nur eine von beiden in das Regres-sionsmodell auf.

• Aber: Starke Korrelation zweier Variablen ist nichtnotwendigerweise ein Problem. Es ist möglich, dass geradeder �kleine Unterschied�, der zwischen beiden noch besteht,einen wichtigen Teil der Variation von Y erklärt. Ein Beispielsind die Variablen LOGSALE und LOGASST in Beispiel 3.1

Multivariate Statistik@�nasto 3�46

Page 47: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Beispiel 3.2 (Multikollinearität)Datensatz 1

Y X1 X2

1 3 0 0

2 0 1 0

3 5 5 6

4 6 6 6

Datensatz 2

Y X1 X2

1 3 0 0

2 −5 6 0

3 10 0 6

4 6 6 6

• Generierendes Modell für Datensatz 1 und Datensatz 2:Yi = 2−Xi1 + 1, 5Xi2 + ε

Multivariate Statistik@�nasto 3�47

Page 48: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

• Resultierende Schätzungen

Datensatz 1:Call:lm(formula = Y ~ X1 + X2, data=beispiel1)

Residuals:1 2 3 41 -1 -1 1

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.000 1.732 1.155 0.454X1 -1.000 2.000 -0.500 0.705X2 1.500 1.700 0.883 0.540

Residual standard error: 2 on 1 degrees of freedomMultiple R-Squared: 0.8095, Adjusted R-squared: 0.4286F-statistic: 2.125 on 2 and 1 DF, p-value: 0.4364

Datensatz 2:Call:lm(formula = y ~ X1 + X2, data=beispiel2)

Residuals:1 2 3 41 -1 -1 1

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.0000 1.7321 1.155 0.454X1 -1.0000 0.3333 -3.000 0.205X2 1.5000 0.3333 4.500 0.139

Residual standard error: 2 on 1 degrees of freedomMultiple R-Squared: 0.9669, Adjusted R-squared: 0.9008F-statistic: 14.62 on 2 and 1 DF, p-value: 0.1818

⇒ Schätzungen auf Grundlage des Datensatzes 2 5-malgenauer!

Multivariate Statistik@�nasto 3�48

Page 49: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3.8.1 Qualitative Variablen

• Viele wichtige Regressionsmodelle beinhalten erklärende Va-riablen von �qualitativer� Struktur, deren �Werte� eine Teil-gruppenzugehörigkeit signalisieren (z.B. Geschlecht, Natio-nalität, Bildungsgrad, Region,...)

• Beispiel: Automobile in den USA

∗ Zielvariable : Y - Benzinverbrauch (�Miles per Gallon�)∗ Erklärende Variablen: Xi1 = Gewicht

Herkunftsregion:↗ Amerika→ Europa↘ Japan

⇒ Modell: Yi = β0 + β1Xi1 + β2Xi2 + εi ???

• Grundidee: Einführung von Indikatorvariablen

Xi2 = Regioni1 =

1 falls Auto i aus amerik. Produktion0 sonst

Xi3 = Regioni2 =

1 falls Auto i aus europ. Produktion0 sonst

Xi4 = Regioni3 =

1 falls Auto i aus japanischer Produktion0 sonst

⇒ In einem Modell der Form

Yi = β0+β1Gewichti+β2Regioni1+β3Regioni2+β4Regioni3+εi

entsprechen β2, β3, β4 unterschiedlichen Niveaus von Y jenach Herkunftsland.

Multivariate Statistik@�nasto 3�49

Page 50: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

• Aber: Das obige Modell ist nicht identi�zierbar, die Wer-te der Parameter β0, β2, β3, β4 sind nicht eindeutig be-stimmt.Es gilt z.B. ebenfalls

Yi = β0 − 4︸ ︷︷ ︸β∗0

+β1Gewichti + (β2 + 4)︸ ︷︷ ︸β∗2

Regioni1

+ (β3 + 4)︸ ︷︷ ︸β∗3

Regioni2 + (β4 + 4)︸ ︷︷ ︸β∗4

Regioni3 + εi

⇒ In der Matrixschreibweise Y = X · β + ε gilt:

X =

1 Gewicht1 Region11 Region12 Region13

......

......

...1 Gewichtn Regionn1 Regionn2 Regionn3

und

1...1

=

Region11

...Regionn1

+

Region12

...Regionn2

+

Region13

...Regionn3

d.h. die erste Spalte von X ist eine Linearkombinationder 3., 4. und 5. Spalte

⇒ rang(XT X) = p, XT X nicht invertierbar⇒ Es exisitiert kein eindeutig bestimmter Kleinste-Quadrate-

Schätzer von β

• Lösung: Elimination einer Faktorstufe der qualitaiven Va-riablen ⇒ Sinnvolles Modell:

Yi = β0 + β1Gewichti + β2Regioni1 + β3Regioni2 + εi

Multivariate Statistik@�nasto 3�50

Page 51: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

• Interpretation:

Model Year

Mile

s pe

r G

allo

n

Model Year

Mile

s pe

r G

allo

n

Model Year

Mile

s pe

r G

allo

n

dotted=�japanisch�, dashed=�europäisch�, solid=�amerikanisch�

β2 = Unterschied im Niveau von Y zwischen amerikanischenund japanischen Autos

β3 = Unterschied im Niveau von Y zwischen europäischenund japanischen Autos

• Allgemeiner Ansatz für eine qualitative Variable, die m ver-schiedene Stufen besitzt:De�niere (m− 1) Indikatorvariablen

Multivariate Statistik@�nasto 3�51

Page 52: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Beispiel 3.3 (Benzinverbrauch von Automobilen in den USA)• �Miles per Gallon� als Funktion von Gewicht und Modelljahr

Call:lm(formula = MPG ~ GEWICHT + BAUJAHR, data = car.data, na.action = na.omit)

Residuals:Min 1Q Median 3Q Max

-8.8771 -2.3107 -0.1138 2.0697 14.3241

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.428e+01 3.974e+00 -3.592 0.000369 ***GEWICHT -6.673e-03 2.148e-04 -31.066 < 2e-16 ***BAUJAHR 7.579e-01 4.909e-02 15.439 < 2e-16 ***---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 3.438 on 394 degrees of freedomMultiple R-Squared: 0.8063, Adjusted R-squared: 0.8053F-statistic: 820.1 on 2 and 394 DF, p-value: < 2.2e-16

• Modell mit Interaktion:Call:lm(formula = MPG ~ GEWICHT + BAUJAHR + GEWICHT:BAUJAHR, data = car.data)

Residuals:Min 1Q Median 3Q Max

-8.0301 -1.9669 -0.1101 1.6651 12.9336

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.139e+02 1.293e+01 -8.806 < 2e-16 ***GEWICHT 2.889e-02 4.430e-03 6.522 2.14e-10 ***BAUJAHR 2.087e+00 1.715e-01 12.166 < 2e-16 ***GEWICHT:BAUJAHR -4.762e-04 5.926e-05 -8.036 1.10e-14 ***---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 3.19 on 393 degrees of freedomMultiple R-Squared: 0.8336, Adjusted R-squared: 0.8324F-statistic: 656.5 on 3 and 393 DF, p-value: < 2.2e-16

Multivariate Statistik@�nasto 3�52

Page 53: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

• �Miles per Gallon� als Funktion von Modelljahr und Herkunftder Autos

Call:lm(formula = MPG ~ BAUJAHR + land1 + land2, data = car.data)

Residuals:Min 1Q Median 3Q Max

-14.0142 -3.5063 -0.4679 3.3964 13.4564

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -51.84775 5.50372 -9.420 <2e-16 ***BAUJAHR 1.06270 0.07068 15.035 <2e-16 ***land1TRUE -8.39896 0.67028 -12.531 <2e-16 ***land2TRUE -0.82834 0.84386 -0.982 0.327---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 5.093 on 393 degrees of freedomMultiple R-Squared: 0.576, Adjusted R-squared: 0.5728F-statistic: 178 on 3 and 393 DF, p-value: < 2.2e-16

70 72 74 76 78 80 82

1020

3040

50

Model Year

Mile

s pe

r G

allo

n

70 72 74 76 78 80 82

1020

3040

50

70 72 74 76 78 80 82

1020

3040

50

dotted=�japanisch�, dashed=�europäisch�, solid=�amerikanisch�

Multivariate Statistik@�nasto 3�53

Page 54: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3.9 Inferenz für Teilmodelle• In vielen Anwendungen wird eine Zielvariable Y zunächst

als Funktion sehr vieler (p groÿ) erklärender Variablen mo-delliert. In solchen Fällen versucht man üblicherweise �über-�üssige� Variablen zu eliminieren und das hochdimensiona-le Originalmodell auf ein niedriger dimensionales Teilmodellmit q < p Variablen zu reduzieren. Dies ist aus mehrerenGründen interessant:∗ Erhöhung der Schätzgenauigkeit∗ E�zientere Prognosen∗ Ökonomische Interpretation: Welche Variablen sind wirk-

lich wichtig?

• Man beachte: Für eine sinnvolle Analyse reicht es nichtaus einfach diejenigen Variablen zu eliminieren, bei denender t-Test die Hypothese H0 : βj = 0 nicht ablehnt. Sol-che Variablen sind �Kandidaten� für eine Elimination, abernicht mehr, denn der t-Test besagt, dass man die betre�en-de Variable evtl. eliminieren kann, wenn man alle anderenVariablen beibehält. Das Zusammenspiel der Variablen beider �Erklärung� von Y kann jedoch sehr komplex sein undder t-Test sagt nichts darüber aus, was passiert, wenn manmehrere Variablen gleichzeitig eliminiert.

• Es gibt verschiedene Ansätze zur Analyse der Qualität vonTeilmodellen

Multivariate Statistik@�nasto 3�54

Page 55: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

3.9.1 F-Test zur Überprüfung der Modellanpassung ei-nes Teilmodells

• Originalmodell (�full model�)

Yi = β0 +β1Xi1 + . . .+βqXiq +βq+1Xiq+1 + . . .+βpXip + εi

• Teilmodell (�reduced model�)

Yi = β0 + β1Xi1 + . . . + βqXiq + εi (q < p)

Ist das Originalmodell gültig, so gilt das Teilmodell genau dann,wenn βq+1 = βq+2 = . . . = βp = 0⇒ Test der Hypothese

H0 : βq+1 = . . . = βp = 0 gegenH1 : es exisitiert ein βj , j > q, mit βj 6= 0

• Idee: Verallgemeinerung der Streunugszerlegung

Sei Y Fi = β0 + β1Xi1 + . . . + βpXip

(βj - Kleinste-Quadrate-Schätzer basierend auf dem Origi-nalmodell)

und

Y Ri = β∗0 + β∗1Xi1 + . . . + β∗q Xiq

(β∗j - Kleinste-Quadrate-Schätzer basierend auf dem Teilm-odell)

Multivariate Statistik@�nasto 3�55

Page 56: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

⇒n∑

i=1

(Yi − Y Ri )2 =

n∑

i=1

(Y Fi − Y R

i )2 +n∑

i=1

(Yi − Y Fi )2

n∑i=1

(Y Fi − Y R

i )2 tendenziell↗ eher klein, falls H0 wahr↘ eher groÿ, falls H0 falsch

• Teststatistik (partielle F -Statistik)

F =

n∑i=1

(Y Fi − Y R

i )2/(p− q)

n∑i=1

(Yi − Y Fi )2/(n− p− 1)

• Unter H0 : F ∼ Fp−q,n−p−1

• Ablehnung von H0, falls F > Fp−q,n−p−1;1−α

(bzw. p-Wert zu klein)

Multivariate Statistik@�nasto 3�56

Page 57: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Fortsetzung Beispiel 3.1 (Teilmodell A)Daten: Bilanzdaten (Beobachtungen Nr. 36, 21 eliminiert)Teilmodell A: Modell mit den Variablen WCFTCL, LOGSALE,

LOGASST, CAPINTCall:lm(formula = RETCAP ~ WCFTCL + LOGSALE + LOGASST + CAPINT, data = FinAccount.data,

subset = subset3621)

Residuals:Min 1Q Median 3Q Max

-0.154622 -0.036501 -0.008783 0.032408 0.166703

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.082705 0.109319 0.757 0.45469WCFTCL 0.348577 0.110404 3.157 0.00339 **LOGSALE 0.126079 0.209904 0.601 0.55218LOGASST -0.130110 0.203823 -0.638 0.52765CAPINT 0.002503 0.042095 0.059 0.95294---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.07379 on 33 degrees of freedomMultiple R-Squared: 0.2824, Adjusted R-squared: 0.1954F-statistic: 3.246 on 4 and 33 DF, p-value: 0.02373

Analysis of Variance Table

Response: RETCAPDf Sum Sq Mean Sq F value Pr(>F)

WCFTCL 1 0.047642 0.047642 8.7493 0.005688 **LOGSALE 1 0.000489 0.000489 0.0898 0.766277LOGASST 1 0.022548 0.022548 4.1409 0.049957 *CAPINT 1 0.000019 0.000019 0.0035 0.952936Residuals 33 0.179691 0.005445---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

�partielle� F-Statistik: (q = 4, p = 12, n = 38)R2

F = 0.6958, R2R = 0.2824,

R2F, adj = 0.5498, R2

R, adj = 0.1954⇒ F-Test: F = 4, 24679 > F12−4;38−12−1;0,95 = 2.337057⇒ Ablehnung von H0

Multivariate Statistik@�nasto 3�57

Page 58: 3 MultipleRegression · Yi = fl0 + fl1Xi1 + fl2Xi2 + fl3Xi3 + fl4Xi4 ++†i Die einzige Bedingung bei der Modellbildung ist, dass die postulierte Regressionsbeziehung linear

Fortsetzung Beispiel 3.1 (Teilmodell B)Daten: Bilanzdaten (Beobachtungen 36, 21 eliminiert)Teilmodell B: Modell mit den Variablen WCFTCL, LOGSALE,

LOGASST, NFATAST, CAPINT, CURRATCall:lm(formula = RETCAP ~ WCFTCL + LOGSALE + LOGASST + NFATAST +

CAPINT + CURRAT, data = FinAccount.data, subset = subset3621)

Residuals:Min 1Q Median 3Q Max

-0.119611 -0.024415 0.002286 0.026353 0.109663

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.26557 0.08311 3.195 0.00320 **WCFTCL 0.86503 0.11703 7.392 2.53e-08 ***LOGSALE 0.43782 0.15802 2.771 0.00937 **LOGASST -0.42670 0.15294 -2.790 0.00894 **NFATAST -0.47026 0.08330 -5.645 3.38e-06 ***CAPINT -0.06436 0.03192 -2.016 0.05255 .CURRAT -0.11337 0.02192 -5.172 1.31e-05 ***---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 0.05209 on 31 degrees of freedomMultiple R-Squared: 0.664, Adjusted R-squared: 0.599F-statistic: 10.21 on 6 and 31 DF, p-value: 3.079e-06

Analysis of Variance Table

Response: RETCAPDf Sum Sq Mean Sq F value Pr(>F)

WCFTCL 1 0.047642 0.047642 17.5554 0.0002149 ***LOGSALE 1 0.000489 0.000489 0.1802 0.6741029LOGASST 1 0.022548 0.022548 8.3086 0.0071069 **NFATAST 1 0.022896 0.022896 8.4367 0.0067248 **CAPINT 1 0.000107 0.000107 0.0396 0.8435856CURRAT 1 0.072580 0.072580 26.7446 1.313e-05 ***Residuals 31 0.084128 0.002714---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

�partielle� F-Statistik (q = 6, p = 12, n = 38):R2

F = 0.6958, R2R = 0.664,

R2F, adj = 0.5498, R2

R, adj = 0.599⇒ F-Test: F = 0, 2943 < F12−6;38−12−1;0,95 = 2, 49⇒ Keine Ablehnung von H0

Multivariate Statistik@�nasto 3�58