3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND...

Post on 06-Feb-2018

218 views 2 download

Transcript of 3 Multiple lineare Regression Modell und Statistik a Y X ... · PDF file3.1. MODELL UND...

3.1. MODELL UND STATISTIK 32

3 Multiple lineare Regression

3.1 Modell und Statistika Zusammenhang zwischen einer Zielgrösse Y und

mehreren Eingangsgrössen X(1), X(2), . . . , X(m)

Yi = β0 + β1x(1)i + β2x

(2)i + . . .+ βmx

(m)i + Ei

Parameter: β0 , β1, β2, . . . , βm , σ2 .

„abhängige" Variable = Zielvariable

„unabhängige" Variable = Eingangs-, erklärende Variable

b Beispiel Sprengungen: Y = log10〈Erschütterung〉,X(1) = log10〈Distanz〉 und X(2) = log10〈Ladung〉.

3.1. MODELL UND STATISTIK 33

3.1

c Schätzung, Tests, Vertrauensintervalle:

Kleinste Quadrate. Theorie etwas später.

d Computer-Ergebnis

Coefficients:Value Std. Error t value Pr(> |t|)

(Intercept) 2.8323 0.2229 12.71 0.000

log10(dist) -1.5107 0.1111 -13.59 0.000

log10(ladung) 0.8083 0.3042 2.66 0.011

Residual standard error: 0.1529 on 45 degrees of freedom

Multiple R-Squared: 0.8048

F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

3.1. MODELL UND STATISTIK 34

3.1

e Tests: Welche Fragen sind zu stellen?

Frage A.Beeinflusst die Gesamtheit der Eingangsgrössen die Zielgrösse?

−→ „F-Test"

Coefficients:...Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

f Varianzanalyse-Tabelle

Analysis of varianceDf Sum of Sq Mean Sq F Value Pr(F)

Regression m = 2 SSQ(R) = 136.772 68.386 T = 82.43 0.0000Residuals n− p = 120 SSQ(E) = 99.554 σ2 = 0.830 P-WertTotal 122 SSQ(Y ) = 236.326

3.1. MODELL UND STATISTIK 35

3.1

g Coefficients:...Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

„Multiple R-Squared" ist das Quadrat der

multiplen Korrelation = corr(Yi , angepasste Werte yi)

yi = β0 + β1x(1)i + β2x

(2)i + . . . + βmx

(m)i

R2 = Bestimmtheitsmass,

misst den Anteil der erklärten Streuung

an der Streuung der Y -Werte,

R2 = 1− SSQ(E)/SSQ(Y ) .

3.1. MODELL UND STATISTIK 36

angepasste Werte

log1

0(E

rsch

ütte

rung

)

−0.2 0.0 0.2 0.4 0.6 0.8

−0.5

0.0

0.5

1.0

3.1. MODELL UND STATISTIK 373.1

h Frage B.Einfluss der einzelnen Variablen X(j)?

Coefficients:Value Std. Error t value Pr(> |t|)

(Intercept) 2.8323 0.2229 12.71 0.000log10(dist) -1.5107 0.1111 -13.59 0.000log10(ladung) 0.8083 0.3042 2.66 0.011

Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

Der t-Wert und der P-Wert in derjenigen Zeile, die X(j) entspricht,

prüft, ob die Variable X(j)aus dem Modell weggelassen werden kann:

Nullhypothese βj = 0.

3.1. MODELL UND STATISTIK 38

3.1

i Vertrauensintervall für βj : βj ± t(0.975)n−2 se(βj)

Coefficients:Value Std. Error t value Pr(> |t|)

(Intercept) 2.8323 0.2229 12.71 0.000log10(dist) -1.5107 0.1111 -13.59 0.000log10(ladung) 0.8083 0.3042 2.66 0.011

Residual standard error: 0.1529 on 45 degrees of freedomMultiple R-Squared: 0.8048F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

j Beispiel: −1.5107± 2.014 · 0.1111

= −1.5107± 0.2237 = [1.2869, 1.7345].

3.1. MODELL UND STATISTIK 39

3.1

k “Significance”: Kolonne t in üblichen Tabellen: Überflüssig!?

Mass für Signifikanz, anders als P-Wert

Tj =βj

se(βj) ·q(tk)0.975

= Tj/q

(tk)0.975 .

Tj > 1 bedeutet signifikanter Koeffizient

3.1. MODELL UND STATISTIK 40

Coefficients:coef stcoef signif R2.x df p.value

(Intercept) 2.832 0.000 6.31 NA 1 0.000

log10(dist) -1.511 -0.903 -6.75 0.01659 1 0.000

log10(ladung) 0.808 0.176 1.32 0.01659 1 0.011

St.dev. of Error = 0.1529 on 45 degrees of freedom

Multiple R-Squared: 0.8048

F-statistic: 92.79 on 2 and 45 degrees of freedom

p-value 1.11e-16

3.1. MODELL UND STATISTIK 41

Vertrauensintervall: Bis auf Faktor Tj ± 1.

βj

Tj· (Tj ± 1) = βj · (1± 1/Tj) .

l Standardisierte Koeffizienten.

β∗j = βj · sd⟨X(j)

⟩/ sd 〈Y 〉 .

Einfache Regression: β∗j = Korrelation.

Allg: Um wie viel verändert sich Y , gemessen in sd 〈Y 〉 -Einh.,

wenn sich X(j) um eine sd⟨X(j)

⟩verändert?

−→ Vergleiche der Einflussstärke von versch. Eingangsgrössen.

3.1. MODELL UND STATISTIK 42

3.1

m Kollinearitätsmass. R2.x Bestimmtheitsmass für Regression von

X(j) als Zielgrösse auf alle anderen Regressoren.

Soll niedrig sein, sonst sind Koeffizienten schlecht bestimmt.

Siehe später.

3.2. VIELFALT DER FRAGESTELLUNGEN 43

3.2 Vielfalt der Fragestellungena Im Modell der multiplen Regression werden

keine Annahmen über die X -Variablen gemacht. Beliebig:

• Datentyp: stetig, diskret, zweiwertig,

später nominal.

• Verteilung der einzelnen Variablen: keine. Nicht zufällig.

• Gemeinsame Verteilung der Variablen: keine. Nicht zufällig.

Keine Unabhängigkeit vorausgesetzt!

Ein X(j) darf eine deterministische (nicht-lineare) Funktion

einer anderen oder mehrerer anderer sein.

3.2. VIELFALT DER FRAGESTELLUNGEN 44

3.2

c Binäre Eingangs-Variable, Yi = β0 + β1xi + Ei

−→ Yi = β0 + Ei für xi = 0,

Yi = β0 + β1 + Ei für xi = 1.

β0 = µ0 = Erwartungswert für Gr. xi = 0,

β0 + β1 = µ1 = Erwartungswert für Gr. xi = 1.

−→ Zwei-Gruppen-Problem = Spezialfall der (einfachen) Regression.

3.2. VIELFALT DER FRAGESTELLUNGEN 45

3.2

d Beispiel Sprengungen: Betrachte nur 2 Messstellen.

Yi = β0 + β1x(1)i + β2x

(2)i + Ei ,

X(1) : log Distanz, X(2) = 0 für eine Messst., = 1 für andere

−→ Zwei Geraden y = β0 + β1x(1) , y = (β0 + β2) + β1x

(1)

Gleiche Steigung β1 , Geraden sind parallel.

3.2. VIELFALT DER FRAGESTELLUNGEN 46

3.2

e 4 Messstellen −→ Indikatorvariable für Gruppen j :

x(j)i =

{1 falls i-te Beobachtung aus der j-ten Gruppe

0 sonst.

Modell:

Yi = µ1x(1)i + µ2x

(2)i + . . .+ Ei

Setzt man µj = βj , so steht das multiple Regressionsmodell da,

allerdings ohne Achsenabschnitt β0 .

Nominale Eingangs-Var., ` Werte −→ verwandeln in ` dummy variables.

3.2. VIELFALT DER FRAGESTELLUNGEN 47

3.2

f Modell mit Achsenabschnitt: Parameter nicht eindeutig. Lösung:

– eine „Nebenbedingung" einführen oder

– eine Variable weglassen.

g Coefficients:Value Std. Error t value Pr(> |t|) Signif

(Intercept) 2.51044 0.28215 8.90 0.000 ***log10(dist) -1.33779 0.14073 -9.51 0.000 ***log10(ladung) 0.69179 0.29666 2.33 0.025 *St2 0.16430 0.07494 2.19 0.034 *St3 0.02170 0.06366 0.34 0.735St4 0.11080 0.07477 1.48 0.146

Residual standard error: 0.1468 on 42 degrees of freedomMultiple R-Squared: 0.8322F-statistic: 41.66 on 5 and 42 degrees of freedom, p-value 3.22e-15

3.2. VIELFALT DER FRAGESTELLUNGEN 48

2

2

2

2

1

11

1

144

4

4

3

33

3

3

1.60 1.65 1.70 1.75 1.80 1.85 1.90

0.3

0.4

0.5

0.6

0.7

0.8

log10(dist)

log

10

(ers

ch

)

Stelle

1

2

3

4

3.2. VIELFALT DER FRAGESTELLUNGEN 49

3.2

h* Notation, Programm-Eingabe:

log10(ersch) ∼ log10(dist) + log10(ladung) + St

j Frage C:

Unterscheiden sich die Stellen überhaupt

in bezug auf die Zielgrösse?

Nullhypothese: Die Koeffizienten der Variablen St2 bis St4 sind alle =0.

k F-Test zum Vergleich von Modellenl Df Sum of Sq RSS F Value Pr(F)

log10(dist) 1 1.947 2.851 90.4 4.9e-12log10(ladung) 1 0.117 1.022 5.44 0.025

Stelle 3 0.148 1.052 2.283 0.093

3.2. VIELFALT DER FRAGESTELLUNGEN 50

Funktion regr

Call:regr(formula = log10(ersch) ~ log10(dist) + log10(ladung) + Stelle,

data = t.d)

Terms:coef stcoef signif R2.x df p.value

(Intercept) 2.5104436 0.0000000 4.408963 NA 1 0.0000log10(dist) -1.3377937 -0.7993097 -4.710628 0.24824540 1 0.0000log10(ladung) 0.6917912 0.1510358 1.155520 0.02408888 1 0.0246Stelle NA NA 1.322707 0.08883789 3 0.0930

Coefficients for factors:$Stelle

1 2 3 40.0000000 0.1643009 0.0216981 0.1107950

St.dev.error: 0.1468 on 42 degrees of freedomMultiple R^2: 0.8322 Adjusted R-squared: 0.8122F-statistic: 41.66 on 5 and 42 d.f., p.value: 3.22e-15

3.2. VIELFALT DER FRAGESTELLUNGEN 51

3.2

o Einfluss der Stelle: Je eine additive Konstante für jede Stelle.

Verschiedene Steigungen für verschiedene Stellen?

−→ Wechselwirkungen.

p Einfacher Fall: Sind zwei Geraden gleich?

Yi = α+ βxi + ∆αgi + ∆βxigi + Eigi : Gruppenzugehörigkeit

Multiple Regression?

Test für ∆β = 0 oder für ∆α = 0 , ∆β = 0.

3.2. VIELFALT DER FRAGESTELLUNGEN 523.2

q X(2) = (X(1))2 −→ quadratische Regression

Yi = β0 + β1xi + β2x2i + Ei .

7.4 7.6 7.8 8.0 8.2 8.4

23

45

67

Höh

e

pH

3.2. VIELFALT DER FRAGESTELLUNGEN 53

3.2

r quadratische→ polynomiale Regression.

Spezialfall der multiplen linearen Regression!

Linear in den Koeffizienten!

β0 + β1x(1)i + β2x

(2)i + . . .+ βmx

(m)i

s Optimum der Zielgrösse? −→ nicht monotone Regressionsfunktion

Einfachste Fn: Quadratisch.

2 Eingangs-Variable: Quardatische Fläche:

Y = β0 + β1x(1) + β2x

(2) + β11x(1)2 + β22x

(2)2 + β12x(1)x(2)

βs schätzen, Optimum bestimmen!

3.2. VIELFALT DER FRAGESTELLUNGEN 54

3.2

t Das Modell der multiplen linearen Regression

ist sehr flexibel:

• Transformation der X - (und Y -) Variablen:

Linearisieren des Zusammenhangs.

• Vergleich von zwei Gruppen.

• Zwei Geraden. „Wechselwirkungen".

• Mehrere Gruppen, nominale Eingangs-Variable.

Vgl. Varianzanalyse.

• Polynomiale Regression.

3.3. 55

3.3a Einfluss mehrerer Eingangsgrössen auf die Zielgrösse

• Multiple Regression

• Mehrere einfache Regressionen: einfacher zu verstehen!

3.3 Ist multiple Regression mehr alsdie Zusammenfassung von einfachen R.?

b Modifiziertes Beispiel der Sprengungen.

Beschränkung auf Stellen 3 und 6, Distanz<100 m, -1 Ausreisser

3.3. 56

--- Distanz -----------------------------------------------lm(formula = log10(ersch) ~ log10(dist), data = d.sprmod)Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.8976 0.5736 1.565 0.127log10(dist) -0.1316 0.3260 -0.404 0.689

Residual standard error: 0.2134 on 32 degrees of freedomMultiple R-Squared: 0.00507, Adjusted R-squared: -0.02602F-statistic: 0.1631 on 1 and 32 DF, p-value: 0.689--- Ladung -------------------------------------------------lm(formula = log10(ersch) ~ log10(ladung), data = d.sprmod)Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.1026 0.1938 0.530 0.60011log10(ladung) 1.3359 0.4525 2.952 0.00587 **

Residual standard error: 0.1896 on 32 degrees of freedomMultiple R-Squared: 0.2141, Adjusted R-squared: 0.1895F-statistic: 8.715 on 1 and 32 DF, p-value: 0.005867-----------------------------------------------------------

3.3. 57

--- Distanz und Ladung -------------------------------------lm(formula = log10(ersch) ~ log10(dist) + log10(ladung)

+ stelle, data = d.sprmod, na.action = na.omit)Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 1.193 0.582 2.05 0.0491 *log10(dist) -0.727 0.355 -2.05 0.0495 *log10(ladung) 1.493 0.442 3.38 0.0020 **stelle 0.170 0.086 1.97 0.0580 .

Residual standard error: 0.181 on 30 degrees of freedomMultiple R-Squared: 0.327, Adjusted R-squared: 0.26F-statistic: 4.86 on 3 and 30 DF, p-value: 0.00717-----------------------------------------------------------

Wir erwarten βdist < −1, βlad = 1.

3.3. 58

33

3

3

3

3

3

333

6

6

6

66

6

66

6

66

6

66

6

6

6

6

6

6

6

6

6

6

1.60 1.65 1.70 1.75 1.80 1.85 1.90 1.95

0.2

0.4

0.6

0.8

1.0

log10(Distanz)

log1

0(E

rsch

ütte

rung

)

Regr. / Stelleneinfache / beideeinfache / St.3einfache / St.6multiple, f. St.3multiple, f. St.6

3.3. 59

3.3

c Interpretation:

Höhere Distanz↔ andere Stelle, höhere Ladung

−→ etwa gleiche Erschütterung.

d Künstliches Bsp: Eine kontinuierliche X(1) und eine binäre X(2) .

3.3. 60

0 1 2 3 4 5 6 7

02

46

X(1)

Y

(A)

3.3. 61

0 1 2 3 4 5 6 7

02

46

X(1)

Y

(A)

estimates from multiple model

3.3. 62

0 1 2 3 4 5 6 7

02

46

X(1)

Y

(A)

estimates from simple models

3.3. 63

0 1 2 3 4 5 6 7

−2

02

46

X(1)

Y

(B)

estimates from multiple model

3.3. 64

0 1 2 3 4 5 6 7

−20

24

6

X(1)

Y

(B)

3.3. 65

0 1 2 3 4 5 6 7

02

46

8

X(1)

Y

(C)

3.3. 66

0 1 2 3 4 5 6 7

−3−2

−10

1

X(1)

Y

(D)

3.3. 67

0 1 2 3 4 5 6 7

02

46

Y

(A)

X2=0X2=1

0 1 2 3 4 5 6 7

−20

24

6

(B)

0 1 2 3 4 5 6 7

02

46

8

X(1)

Y

(C)

0 1 2 3 4 5 6 7

−3−2

−10

1

X(1)

(D)

Die Bedeutung der Regressionskoeffizienten hängt prinzipiell davon ab,

welche Eingangsgrössen im Modell auftreten!

3.3. 683.3

e Ursache-Wirkungs-Beziehungen?!.

Indizien für solche Beziehungen sammeln!

βj signifikant, Ursache-Wirkungs-Beziehung plausibel

−→ „Nachweis" der Wirkung (?)

Achtung: indirekte Wirkungen sind möglich!

• X(1) −→ Z −→ Y .

• Z −→ X(1) ; Z −→ Y .

Z im Modell −→ keine indirekten Wirkungen.

−→ „alle denkbaren" ursächlichen Var. ins Modell aufnehmen!

Besser:

• geplante Versuche,

• Nachweis eines Wirkungs-Mechanismus.

3.3. 69

3.3

i βj nicht signifikant −→ kein Einfluss! ???

• Nullhypothese kann man nicht beweisen

• Ursächlicher Effekt kompensiert durch

gegensätzlichen Effekt einer korrelierten Einflussgrösse.

• Einfluss nicht-linear.

j Deshalb:

• möglichst alle möglichen ursächlichen Grössen

ins Modell aufnehmen,

• die Linearität der Zusammenhänge überprüfen

(s. Residuenanalyse),

• ein Vertrauensintervall für den Koeffizienten liefern

– statt eines P-Wertes.

3.3. 70

3.3

k Indirekte Einflüsse können nicht vorkommen,

wenn X(j) und Z nicht zusammenhängen

(unkorreliert oder orthogonal sind).

Schätzung von βj im multiplen und im einfachen Modell

sind dann gleich.

l Multiples Modell ist trotzdem sehr nützlich:

Kleinere Residuenstreuung σ

−→ kürzere Vertrauensintervalle.

m Zusammenfassend: Ein multiples Regressionsmodell

sagt mehr aus als viele einfache Regressionen –

im Falle von korrelierten Eingangsgrössen viel mehr.

3.3. 71

Merkpunkte Multiple Regression

1. Die multiple lineare Regression bildet ein reichhaltiges Modell

mit vielen Anwendungen.

2. Mit Transformationen, quadrat. Termen, Wechselwirkungen

kann man nicht-lineare Beziehungen der Variablen modellieren!

3. Multiple Regression führt zu einer viel aussagekräftigeren Analyse

als viele einfache Regressionen.

4. Mit Regression allein kann man keine Ursache – Wirkungsbeziehungen

beweisen.

3.4. S-FUNKTIONEN 72

3.4 S-Funktionena

> r.lm <− lm(log10(ersch) ∼ log10(dist),

data = d.spreng)

b Fehlende Werte

Einfachste Behandlung: Zeilen mit ≥ 1 fehlenden Wert weglassen.

lm(..., na.action=na.omit, ...)

c summary(r.lm,cor=FALSE)

wird gebraucht, um Resultate anzuschauen.

d drop1(r.lm, test="F") . Faktoren prüfen. F-Test.

! anova , summary für aov -Objekte macht andere Tests ...

3.4. S-FUNKTIONEN 73

3.4

e Funktion regr . Argumente wie lm

• braucht kein summary ,

• prüft Faktoren ohne Aufruf von drop1 ,

• zeigt neue Grösse „signif", mit der man Vertrauensintervalle

einfach berechnen kann,

• liefert weitere nützliche Grössen stcoef und R2.x ,

• wird für viele weitere Modelle brauchbar sein.

3.4. S-FUNKTIONEN 74

R-Funktionen

a Im package stat (immer vorhanden): lm

> r.lm <− lm(log10(ersch) ∼ log10(dist),

data = d.spreng)

3.4. S-FUNKTIONEN 75

b Funktion summary produziert Resultate, die man üblicherweise will.

> summary(r.lm)

Genauer: print zeigt die Resultate.

(„generic function", „method" print.summary.lm )

> r.lms <− summary(r.lm)

> str(r.lms)

enthält u.a. $sigma, $R.square, ...

r.lm$coef : geschätzte Koeffizienten

r.lms$coef : Tabelle mit Std. Error, t value und P-Wert

3.4. S-FUNKTIONEN 76

c Funktion drop1: Signifikanz von „Faktoren" testen.

d Funktion predict: Generische Funktion, Hilfe durch ?predict.lm

> predict(r.lm)

> t.pred <− predict(r.lm,

newdata=data.frame(dist=seq(20,150,10)),

interval="prediction")

e Funktion plot: Residuen-Analyse, 4 Diagramme (s. später)

3.4. S-FUNKTIONEN 77

3.4

f Mühsam? −→ Package regr0 , Funktiion regr .

> r.regr <− regr(log10(ersch) ∼ log10(dist)+

log10(ladung)+Stelle, data = d.spreng,

subset = as.numeric(Stelle) <= 4)

Wie lm zu verwenden.

• Ruft lm, summary und drop1 auf und sammelt Ergebnisse.

• Gleicher Aufruf für verschiedene Modelle.

• Erweiterte Residuen-Analyse durch plot.regr

3.4. S-FUNKTIONEN 78

> r.regrCall:regr(formula = log10(ersch) ~ log10(dist) + log10(ladung) + Stelle,

data = d.spreng, subset = as.numeric(Stelle) <= 4)Fitting function: lm

Terms:coef stcoef signif R2.x df p.value

(Intercept) 2.510 NA 4.409 NA 1 NAlog10(dist) -1.338 -0.686 -4.711 0.435 1 0.000log10(ladung) 0.692 0.150 1.156 0.048 1 0.025Stelle NA NA 0.899 0.170 3 0.093

Coefficients for factors:$Stelle

1 2 3 40.0000 0.1643 0.0217 0.1108

St.dev.error: 0.147 on 42 degrees of freedomMultiple R^2: 0.832 Adjusted R-squared: 0.812F-statistic: 41.7 on 5 and 42 d.f., p.value: 3.22e-15

3.4. S-FUNKTIONEN 793.4

g Resultate von regr

• Aufruf

• Haupttabelle, s. unten

• Falls Faktoren vorkommen, folgen ihre geschätzten Koeffiz.

• Tabelle mit

St.dev.error = σ , Freiheitsgr. der Residuen

Multiple Rˆ2 R2 und Adjusted R-squared

F-statistic : Gesamttest, mit Freiheitsgraden und P-Wert

• Falls correlation=TRUE , folgt die Korr.mx der βj

3.4. S-FUNKTIONEN 803.4

h „Haupttabelle" hat die Spalten

• coef: gesch. Koeffiz. βj (ausser Faktoren)

• stcoef: standardisierte Koeffiz. β∗j = βj · sd〈X(j)〉/sd〈Y 〉,

• R2.x: Mass R2j für Kollinearität (später)

• df: Anzahl Freiheitsgrade, für Faktoren > 1

• signif: = T/q(tk)0.975 ,

Quotient t-Test-Statistik / Signifikanzgrenze.

βj = 0 abgelehnt, wenn signif > 1.

Faktoren: eine analoge Grösse

• p value .

3.4. S-FUNKTIONEN 81

3.4

i Modell-Formeln

log10(ersch) ∼ log10(dist) + log10(ladung) + Stelle

Modell-Formeln allgemein

Klasse von S-Objekten, charakerisiert durch ∼Regression: Zielgrösse ∼ Regressor-Terme

Y ∼ X1 + X2 sieht wie Mathematik aus!

Bedeutet in der lin. Regression:

Yi = β0 + β1X(1)i + β2X

(2)i + Ei

Syntax hat eigene Regeln, die

nicht immer den math. Zeichen entsprechen!

3.4. S-FUNKTIONEN 82

3.4

j Zielgrösse ∼ Regressor-Terme

Terme (rechte Seite):

– quantitative Variable

– Faktor

– Funktion von Eingangsvariablen

– Wechselwirkung zwischen solchen Termen

Linke Seite:

– Funktionen von (einzelnen) Variablen

– mehrere Variable (logistische, multivariate, ... Regr.)

– fehlt für multivariate Verfahren (Hauptkomponenten, ...)

3.4. S-FUNKTIONEN 83

3.4

k Viele Funktionen brauchen Formeln.

plot(formula,...) benützt linke Seite vertikal, rechte horiz.

l Erweiterung: Y∼X|Z– coplot

– gemischte Modelle der Varianzanalyse. Ausserdem:

Y∼X|Z, Y∼X/Z, Y∼X%in%Z

m Wo werden Variable gesucht?

Funktionen, die formula als Argument haben, haben auch data .

Variable in der Formel sollen Spalten-Namen von data sein.

... sonst wird im search -Pfad gesucht, also zuerst im akt. workspace.

3.4. S-FUNKTIONEN 843.4

n Abkürzungen

• Y∼., data=t.d

. steht für „alle anderen Variablen" (untransformiert)

• Wechselwirkungen:

X1 * X2 ⇐⇒ X1 + X2 + X1:X2

• ( X1 + X2 + X3 )ˆ2 :

alle Haupteffekte & alle Wechselwirk. 1. Ord.

o Komplikation: Die Zeichen +, *, ˆ haben eine neue Bedeutung.

Manchmal möchte man die ursprüngliche Bedeutung haben.

−→ Funktion I(...) : ... nicht als Formel interpretieren!

I(X1ˆ2) , I(X1*(X2-4))

(Innerhalb von Funktionen unnötig, z.B. + sqrt(X1ˆ2+X2ˆ2) )