3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND...

53
3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1) ,X (2) ,...,X (m) Y i = β 0 + β 1 x (1) i + β 2 x (2) i + ... + β m x (m) i + E i Parameter: β 0 , β 1 2 ,...,β m , σ 2 . „abhängige" Variable = Zielvariable „unabhängige" Variable = Eingangs-, erklärende Variable b Beispiel Sprengungen: Y = log 10 hErschütterungi , X (1) = log 10 hDistanzi und X (2) = log 10 hLadungi .

Transcript of 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND...

Page 1: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 32

3 Multiple lineare Regression

3.1 Modell und Statistika Zusammenhang zwischen einer Zielgrösse Y und

mehreren Eingangsgrössen X(1), X(2), . . . , X(m)

Yi = β0 + β1x(1)i + β2x

(2)i + . . .+ βmx

(m)i + Ei

Parameter: β0 , β1, β2, . . . , βm , σ2 .

„abhängige" Variable = Zielvariable

„unabhängige" Variable = Eingangs-, erklärende Variable

b Beispiel Sprengungen: Y = log10〈Erschütterung〉,X(1) = log10〈Distanz〉 und X(2) = log10〈Ladung〉.

Page 2: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 33

3.1

c Schätzung, Tests, Vertrauensintervalle:

Kleinste Quadrate. Theorie etwas später.

d Computer-Ergebnis

Coefficients:Value Std. Error t value Pr(> |t|)

(Intercept) 2.8323 0.2229 12.71 0.000

log10(dist) -1.5107 0.1111 -13.59 0.000

log10(ladung) 0.8083 0.3042 2.66 0.011

Residual standard error: 0.1529 on 45 degrees of freedom

Multiple R-Squared: 0.8048

F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

Page 3: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 34

3.1

e Tests: Welche Fragen sind zu stellen?

Frage A.Beeinflusst die Gesamtheit der Eingangsgrössen die Zielgrösse?

−→ „F-Test"

Coefficients:...Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

f Varianzanalyse-Tabelle

Analysis of varianceDf Sum of Sq Mean Sq F Value Pr(F)

Regression m = 2 SSQ(R) = 136.772 68.386 T = 82.43 0.0000Residuals n− p = 120 SSQ(E) = 99.554 σ2 = 0.830 P-WertTotal 122 SSQ(Y ) = 236.326

Page 4: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 35

3.1

g Coefficients:...Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

„Multiple R-Squared" ist das Quadrat der

multiplen Korrelation = corr(Yi , angepasste Werte yi)

yi = β0 + β1x(1)i + β2x

(2)i + . . . + βmx

(m)i

R2 = Bestimmtheitsmass,

misst den Anteil der erklärten Streuung

an der Streuung der Y -Werte,

R2 = 1− SSQ(E)/SSQ(Y ) .

Page 5: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 36

angepasste Werte

log1

0(E

rsch

ütte

rung

)

−0.2 0.0 0.2 0.4 0.6 0.8

−0.5

0.0

0.5

1.0

Page 6: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 373.1

h Frage B.Einfluss der einzelnen Variablen X(j)?

Coefficients:Value Std. Error t value Pr(> |t|)

(Intercept) 2.8323 0.2229 12.71 0.000log10(dist) -1.5107 0.1111 -13.59 0.000log10(ladung) 0.8083 0.3042 2.66 0.011

Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

Der t-Wert und der P-Wert in derjenigen Zeile, die X(j) entspricht,

prüft, ob die Variable X(j)aus dem Modell weggelassen werden kann:

Nullhypothese βj = 0.

Page 7: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 38

3.1

i Vertrauensintervall für βj : βj ± t(0.975)n−2 se(βj)

Coefficients:Value Std. Error t value Pr(> |t|)

(Intercept) 2.8323 0.2229 12.71 0.000log10(dist) -1.5107 0.1111 -13.59 0.000log10(ladung) 0.8083 0.3042 2.66 0.011

Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

j Beispiel: −1.5107± 2.014 · 0.1111

= −1.5107± 0.2237 = [1.2869, 1.7345].

Page 8: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 39

3.1

k “Significance”: Kolonne t in üblichen Tabellen: Überflüssig!?

Mass für Signifikanz, anders als P-Wert

Tj =βj

se(βj) ·q(tk)0.975

= Tj/q

(tk)0.975 .

Tj > 1 bedeutet signifikanter Koeffizient

Page 9: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 40

Coefficients:coef stcoef signif R2.x df p.value

(Intercept) 2.832 0.000 6.31 NA 1 0.000

log10(dist) -1.511 -0.903 -6.75 0.01659 1 0.000

log10(ladung) 0.808 0.176 1.32 0.01659 1 0.011

St.dev. of Error = 0.1529 on 45 degrees of freedom

Multiple R-Squared: 0.8048

F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

Page 10: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 41

Vertrauensintervall: Bis auf Faktor Tj ± 1.

βj

Tj· (Tj ± 1) = βj · (1± 1/Tj) .

l Standardisierte Koeffizienten.

β∗j = βj · sd⟨X(j)

⟩/ sd 〈Y 〉 .

Einfache Regression: β∗j = Korrelation.

Allg: Um wie viel verändert sich Y , gemessen in sd 〈Y 〉 -Einh.,

wenn sich X(j) um eine sd⟨X(j)

⟩verändert?

−→ Vergleiche der Einflussstärke von versch. Eingangsgrössen.

Page 11: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.1. MODELL UND STATISTIK 42

3.1

m Kollinearitätsmass. R2.x Bestimmtheitsmass für Regression von

X(j) als Zielgrösse auf alle anderen Regressoren.

Soll niedrig sein, sonst sind Koeffizienten schlecht bestimmt.

Siehe später.

Page 12: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 43

3.2 Vielfalt der Fragestellungena Im Modell der multiplen Regression werden

keine Annahmen über die X -Variablen gemacht. Beliebig:

• Datentyp: stetig, diskret, zweiwertig,

später nominal.

• Verteilung der einzelnen Variablen: keine. Nicht zufällig.

• Gemeinsame Verteilung der Variablen: keine. Nicht zufällig.

Keine Unabhängigkeit vorausgesetzt!

Ein X(j) darf eine deterministische (nicht-lineare) Funktion

einer anderen oder mehrerer anderer sein.

Page 13: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 44

3.2

c Binäre Eingangs-Variable, Yi = β0 + β1xi + Ei

−→ Yi = β0 + Ei für xi = 0,

Yi = β0 + β1 + Ei für xi = 1.

β0 = µ0 = Erwartungswert für Gr. xi = 0,

β0 + β1 = µ1 = Erwartungswert für Gr. xi = 1.

−→ Zwei-Gruppen-Problem = Spezialfall der (einfachen) Regression.

Page 14: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 45

3.2

d Beispiel Sprengungen: Betrachte nur 2 Messstellen.

Yi = β0 + β1x(1)i + β2x

(2)i + Ei ,

X(1) : log Distanz, X(2) = 0 für eine Messst., = 1 für andere

−→ Zwei Geraden y = β0 + β1x(1) , y = (β0 + β2) + β1x

(1)

Gleiche Steigung β1 , Geraden sind parallel.

Page 15: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 46

3.2

e 4 Messstellen −→ Indikatorvariable für Gruppen j :

x(j)i =

{1 falls i-te Beobachtung aus der j-ten Gruppe

0 sonst.

Modell:

Yi = µ1x(1)i + µ2x

(2)i + . . .+ Ei

Setzt man µj = βj , so steht das multiple Regressionsmodell da,

allerdings ohne Achsenabschnitt β0 .

Nominale Eingangs-Var., ` Werte −→ verwandeln in ` dummy variables.

Page 16: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 47

3.2

f Modell mit Achsenabschnitt: Parameter nicht eindeutig. Lösung:

– eine „Nebenbedingung" einführen oder

– eine Variable weglassen.

g Coefficients:Value Std. Error t value Pr(> |t|) Signif

(Intercept) 2.51044 0.28215 8.90 0.000 ***log10(dist) -1.33779 0.14073 -9.51 0.000 ***log10(ladung) 0.69179 0.29666 2.33 0.025 *St2 0.16430 0.07494 2.19 0.034 *St3 0.02170 0.06366 0.34 0.735St4 0.11080 0.07477 1.48 0.146

Residual standard error: 0.1468 on 42 degrees of freedomMultiple R-Squared: 0.8322F-statistic: 41.66 on 5 and 42 degrees of freedom, p-value 3.22e-15

Page 17: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 48

2

2

2

2

1

11

1

144

4

4

3

33

3

3

1.60 1.65 1.70 1.75 1.80 1.85 1.90

0.3

0.4

0.5

0.6

0.7

0.8

log10(dist)

log

10

(ers

ch

)

Stelle

1

2

3

4

Page 18: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 49

3.2

h* Notation, Programm-Eingabe:

log10(ersch) ∼ log10(dist) + log10(ladung) + St

j Frage C:

Unterscheiden sich die Stellen überhaupt

in bezug auf die Zielgrösse?

Nullhypothese: Die Koeffizienten der Variablen St2 bis St4 sind alle =0.

k F-Test zum Vergleich von Modellenl Df Sum of Sq RSS F Value Pr(F)

log10(dist) 1 1.947 2.851 90.4 4.9e-12log10(ladung) 1 0.117 1.022 5.44 0.025

Stelle 3 0.148 1.052 2.283 0.093

Page 19: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 50

Funktion regr

Call:regr(formula = log10(ersch) ~ log10(dist) + log10(ladung) + Stelle,

data = t.d)

Terms:coef stcoef signif R2.x df p.value

(Intercept) 2.5104436 0.0000000 4.408963 NA 1 0.0000log10(dist) -1.3377937 -0.7993097 -4.710628 0.24824540 1 0.0000log10(ladung) 0.6917912 0.1510358 1.155520 0.02408888 1 0.0246Stelle NA NA 1.322707 0.08883789 3 0.0930

Coefficients for factors:$Stelle

1 2 3 40.0000000 0.1643009 0.0216981 0.1107950

St.dev.error: 0.1468 on 42 degrees of freedomMultiple R^2: 0.8322 Adjusted R-squared: 0.8122F-statistic: 41.66 on 5 and 42 d.f., p.value: 3.22e-15

Page 20: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 51

3.2

o Einfluss der Stelle: Je eine additive Konstante für jede Stelle.

Verschiedene Steigungen für verschiedene Stellen?

−→ Wechselwirkungen.

p Einfacher Fall: Sind zwei Geraden gleich?

Yi = α+ βxi + ∆αgi + ∆βxigi + Eigi : Gruppenzugehörigkeit

Multiple Regression?

Test für ∆β = 0 oder für ∆α = 0 , ∆β = 0.

Page 21: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 523.2

q X(2) = (X(1))2 −→ quadratische Regression

Yi = β0 + β1xi + β2x2i + Ei .

7.4 7.6 7.8 8.0 8.2 8.4

23

45

67

Höh

e

pH

Page 22: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 53

3.2

r quadratische→ polynomiale Regression.

Spezialfall der multiplen linearen Regression!

Linear in den Koeffizienten!

β0 + β1x(1)i + β2x

(2)i + . . .+ βmx

(m)i

s Optimum der Zielgrösse? −→ nicht monotone Regressionsfunktion

Einfachste Fn: Quadratisch.

2 Eingangs-Variable: Quardatische Fläche:

Y = β0 + β1x(1) + β2x

(2) + β11x(1)2 + β22x

(2)2 + β12x(1)x(2)

βs schätzen, Optimum bestimmen!

Page 23: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.2. VIELFALT DER FRAGESTELLUNGEN 54

3.2

t Das Modell der multiplen linearen Regression

ist sehr flexibel:

• Transformation der X - (und Y -) Variablen:

Linearisieren des Zusammenhangs.

• Vergleich von zwei Gruppen.

• Zwei Geraden. „Wechselwirkungen".

• Mehrere Gruppen, nominale Eingangs-Variable.

Vgl. Varianzanalyse.

• Polynomiale Regression.

Page 24: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 55

3.3a Einfluss mehrerer Eingangsgrössen auf die Zielgrösse

• Multiple Regression

• Mehrere einfache Regressionen: einfacher zu verstehen!

3.3 Ist multiple Regression mehr alsdie Zusammenfassung von einfachen R.?

b Modifiziertes Beispiel der Sprengungen.

Beschränkung auf Stellen 3 und 6, Distanz<100 m, -1 Ausreisser

Page 25: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 56

--- Distanz -----------------------------------------------lm(formula = log10(ersch) ~ log10(dist), data = d.sprmod)Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.8976 0.5736 1.565 0.127log10(dist) -0.1316 0.3260 -0.404 0.689

Residual standard error: 0.2134 on 32 degrees of freedomMultiple R-Squared: 0.00507, Adjusted R-squared: -0.02602F-statistic: 0.1631 on 1 and 32 DF, p-value: 0.689--- Ladung -------------------------------------------------lm(formula = log10(ersch) ~ log10(ladung), data = d.sprmod)Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.1026 0.1938 0.530 0.60011log10(ladung) 1.3359 0.4525 2.952 0.00587 **

Residual standard error: 0.1896 on 32 degrees of freedomMultiple R-Squared: 0.2141, Adjusted R-squared: 0.1895F-statistic: 8.715 on 1 and 32 DF, p-value: 0.005867-----------------------------------------------------------

Page 26: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 57

--- Distanz und Ladung -------------------------------------lm(formula = log10(ersch) ~ log10(dist) + log10(ladung)

+ stelle, data = d.sprmod, na.action = na.omit)Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 1.193 0.582 2.05 0.0491 *log10(dist) -0.727 0.355 -2.05 0.0495 *log10(ladung) 1.493 0.442 3.38 0.0020 **stelle 0.170 0.086 1.97 0.0580 .

Residual standard error: 0.181 on 30 degrees of freedomMultiple R-Squared: 0.327, Adjusted R-squared: 0.26F-statistic: 4.86 on 3 and 30 DF, p-value: 0.00717-----------------------------------------------------------

Wir erwarten βdist < −1, βlad = 1.

Page 27: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 58

33

3

3

3

3

3

333

6

6

6

66

6

66

6

66

6

66

6

6

6

6

6

6

6

6

6

6

1.60 1.65 1.70 1.75 1.80 1.85 1.90 1.95

0.2

0.4

0.6

0.8

1.0

log10(Distanz)

log1

0(E

rsch

ütte

rung

)

Regr. / Stelleneinfache / beideeinfache / St.3einfache / St.6multiple, f. St.3multiple, f. St.6

Page 28: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 59

3.3

c Interpretation:

Höhere Distanz↔ andere Stelle, höhere Ladung

−→ etwa gleiche Erschütterung.

d Künstliches Bsp: Eine kontinuierliche X(1) und eine binäre X(2) .

Page 29: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 60

0 1 2 3 4 5 6 7

02

46

X(1)

Y

(A)

Page 30: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 61

0 1 2 3 4 5 6 7

02

46

X(1)

Y

(A)

estimates from multiple model

Page 31: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 62

0 1 2 3 4 5 6 7

02

46

X(1)

Y

(A)

estimates from simple models

Page 32: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 63

0 1 2 3 4 5 6 7

−2

02

46

X(1)

Y

(B)

estimates from multiple model

Page 33: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 64

0 1 2 3 4 5 6 7

−20

24

6

X(1)

Y

(B)

Page 34: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 65

0 1 2 3 4 5 6 7

02

46

8

X(1)

Y

(C)

Page 35: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 66

0 1 2 3 4 5 6 7

−3−2

−10

1

X(1)

Y

(D)

Page 36: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 67

0 1 2 3 4 5 6 7

02

46

Y

(A)

X2=0X2=1

0 1 2 3 4 5 6 7

−20

24

6

(B)

0 1 2 3 4 5 6 7

02

46

8

X(1)

Y

(C)

0 1 2 3 4 5 6 7

−3−2

−10

1

X(1)

(D)

Die Bedeutung der Regressionskoeffizienten hängt prinzipiell davon ab,

welche Eingangsgrössen im Modell auftreten!

Page 37: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 683.3

e Ursache-Wirkungs-Beziehungen?!.

Indizien für solche Beziehungen sammeln!

βj signifikant, Ursache-Wirkungs-Beziehung plausibel

−→ „Nachweis" der Wirkung (?)

Achtung: indirekte Wirkungen sind möglich!

• X(1) −→ Z −→ Y .

• Z −→ X(1) ; Z −→ Y .

Z im Modell −→ keine indirekten Wirkungen.

−→ „alle denkbaren" ursächlichen Var. ins Modell aufnehmen!

Besser:

• geplante Versuche,

• Nachweis eines Wirkungs-Mechanismus.

Page 38: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 69

3.3

i βj nicht signifikant −→ kein Einfluss! ???

• Nullhypothese kann man nicht beweisen

• Ursächlicher Effekt kompensiert durch

gegensätzlichen Effekt einer korrelierten Einflussgrösse.

• Einfluss nicht-linear.

j Deshalb:

• möglichst alle möglichen ursächlichen Grössen

ins Modell aufnehmen,

• die Linearität der Zusammenhänge überprüfen

(s. Residuenanalyse),

• ein Vertrauensintervall für den Koeffizienten liefern

– statt eines P-Wertes.

Page 39: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 70

3.3

k Indirekte Einflüsse können nicht vorkommen,

wenn X(j) und Z nicht zusammenhängen

(unkorreliert oder orthogonal sind).

Schätzung von βj im multiplen und im einfachen Modell

sind dann gleich.

l Multiples Modell ist trotzdem sehr nützlich:

Kleinere Residuenstreuung σ

−→ kürzere Vertrauensintervalle.

m Zusammenfassend: Ein multiples Regressionsmodell

sagt mehr aus als viele einfache Regressionen –

im Falle von korrelierten Eingangsgrössen viel mehr.

Page 40: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.3. 71

Merkpunkte Multiple Regression

1. Die multiple lineare Regression bildet ein reichhaltiges Modell

mit vielen Anwendungen.

2. Mit Transformationen, quadrat. Termen, Wechselwirkungen

kann man nicht-lineare Beziehungen der Variablen modellieren!

3. Multiple Regression führt zu einer viel aussagekräftigeren Analyse

als viele einfache Regressionen.

4. Mit Regression allein kann man keine Ursache – Wirkungsbeziehungen

beweisen.

Page 41: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 72

3.4 S-Funktionena

> r.lm <− lm(log10(ersch) ∼ log10(dist),

data = d.spreng)

b Fehlende Werte

Einfachste Behandlung: Zeilen mit ≥ 1 fehlenden Wert weglassen.

lm(..., na.action=na.omit, ...)

c summary(r.lm,cor=FALSE)

wird gebraucht, um Resultate anzuschauen.

d drop1(r.lm, test="F") . Faktoren prüfen. F-Test.

! anova , summary für aov -Objekte macht andere Tests ...

Page 42: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 73

3.4

e Funktion regr . Argumente wie lm

• braucht kein summary ,

• prüft Faktoren ohne Aufruf von drop1 ,

• zeigt neue Grösse „signif", mit der man Vertrauensintervalle

einfach berechnen kann,

• liefert weitere nützliche Grössen stcoef und R2.x ,

• wird für viele weitere Modelle brauchbar sein.

Page 43: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 74

R-Funktionen

a Im package stat (immer vorhanden): lm

> r.lm <− lm(log10(ersch) ∼ log10(dist),

data = d.spreng)

Page 44: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 75

b Funktion summary produziert Resultate, die man üblicherweise will.

> summary(r.lm)

Genauer: print zeigt die Resultate.

(„generic function", „method" print.summary.lm )

> r.lms <− summary(r.lm)

> str(r.lms)

enthält u.a. $sigma, $R.square, ...

r.lm$coef : geschätzte Koeffizienten

r.lms$coef : Tabelle mit Std. Error, t value und P-Wert

Page 45: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 76

c Funktion drop1: Signifikanz von „Faktoren" testen.

d Funktion predict: Generische Funktion, Hilfe durch ?predict.lm

> predict(r.lm)

> t.pred <− predict(r.lm,

newdata=data.frame(dist=seq(20,150,10)),

interval="prediction")

e Funktion plot: Residuen-Analyse, 4 Diagramme (s. später)

Page 46: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 77

3.4

f Mühsam? −→ Package regr0 , Funktiion regr .

> r.regr <− regr(log10(ersch) ∼ log10(dist)+

log10(ladung)+Stelle, data = d.spreng,

subset = as.numeric(Stelle) <= 4)

Wie lm zu verwenden.

• Ruft lm, summary und drop1 auf und sammelt Ergebnisse.

• Gleicher Aufruf für verschiedene Modelle.

• Erweiterte Residuen-Analyse durch plot.regr

Page 47: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 78

> r.regrCall:regr(formula = log10(ersch) ~ log10(dist) + log10(ladung) + Stelle,

data = d.spreng, subset = as.numeric(Stelle) <= 4)Fitting function: lm

Terms:coef stcoef signif R2.x df p.value

(Intercept) 2.510 NA 4.409 NA 1 NAlog10(dist) -1.338 -0.686 -4.711 0.435 1 0.000log10(ladung) 0.692 0.150 1.156 0.048 1 0.025Stelle NA NA 0.899 0.170 3 0.093

Coefficients for factors:$Stelle

1 2 3 40.0000 0.1643 0.0217 0.1108

St.dev.error: 0.147 on 42 degrees of freedomMultiple R^2: 0.832 Adjusted R-squared: 0.812F-statistic: 41.7 on 5 and 42 d.f., p.value: 3.22e-15

Page 48: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 793.4

g Resultate von regr

• Aufruf

• Haupttabelle, s. unten

• Falls Faktoren vorkommen, folgen ihre geschätzten Koeffiz.

• Tabelle mit

St.dev.error = σ , Freiheitsgr. der Residuen

Multiple Rˆ2 R2 und Adjusted R-squared

F-statistic : Gesamttest, mit Freiheitsgraden und P-Wert

• Falls correlation=TRUE , folgt die Korr.mx der βj

Page 49: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 803.4

h „Haupttabelle" hat die Spalten

• coef: gesch. Koeffiz. βj (ausser Faktoren)

• stcoef: standardisierte Koeffiz. β∗j = βj · sd〈X(j)〉/sd〈Y 〉,

• R2.x: Mass R2j für Kollinearität (später)

• df: Anzahl Freiheitsgrade, für Faktoren > 1

• signif: = T/q(tk)0.975 ,

Quotient t-Test-Statistik / Signifikanzgrenze.

βj = 0 abgelehnt, wenn signif > 1.

Faktoren: eine analoge Grösse

• p value .

Page 50: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 81

3.4

i Modell-Formeln

log10(ersch) ∼ log10(dist) + log10(ladung) + Stelle

Modell-Formeln allgemein

Klasse von S-Objekten, charakerisiert durch ∼Regression: Zielgrösse ∼ Regressor-Terme

Y ∼ X1 + X2 sieht wie Mathematik aus!

Bedeutet in der lin. Regression:

Yi = β0 + β1X(1)i + β2X

(2)i + Ei

Syntax hat eigene Regeln, die

nicht immer den math. Zeichen entsprechen!

Page 51: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 82

3.4

j Zielgrösse ∼ Regressor-Terme

Terme (rechte Seite):

– quantitative Variable

– Faktor

– Funktion von Eingangsvariablen

– Wechselwirkung zwischen solchen Termen

Linke Seite:

– Funktionen von (einzelnen) Variablen

– mehrere Variable (logistische, multivariate, ... Regr.)

– fehlt für multivariate Verfahren (Hauptkomponenten, ...)

Page 52: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 83

3.4

k Viele Funktionen brauchen Formeln.

plot(formula,...) benützt linke Seite vertikal, rechte horiz.

l Erweiterung: Y∼X|Z– coplot

– gemischte Modelle der Varianzanalyse. Ausserdem:

Y∼X|Z, Y∼X/Z, Y∼X%in%Z

m Wo werden Variable gesucht?

Funktionen, die formula als Argument haben, haben auch data .

Variable in der Formel sollen Spalten-Namen von data sein.

... sonst wird im search -Pfad gesucht, also zuerst im akt. workspace.

Page 53: 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression 3.1 Modell und Statistik a Zusammenhang zwischen

3.4. S-FUNKTIONEN 843.4

n Abkürzungen

• Y∼., data=t.d

. steht für „alle anderen Variablen" (untransformiert)

• Wechselwirkungen:

X1 * X2 ⇐⇒ X1 + X2 + X1:X2

• ( X1 + X2 + X3 )ˆ2 :

alle Haupteffekte & alle Wechselwirk. 1. Ord.

o Komplikation: Die Zeichen +, *, ˆ haben eine neue Bedeutung.

Manchmal möchte man die ursprüngliche Bedeutung haben.

−→ Funktion I(...) : ... nicht als Formel interpretieren!

I(X1ˆ2) , I(X1*(X2-4))

(Innerhalb von Funktionen unnötig, z.B. + sqrt(X1ˆ2+X2ˆ2) )