Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist...

71
Statistik 2 (Regression) JProf. Dr. Hajo Holzmann Institut f¨ ur Stochastik der Universit¨ at Karlsruhe (TH) Wintersemester 2007/08 (Stand: 29. Januar 2008)

Transcript of Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist...

Page 1: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

Statistik 2 (Regression)

JProf. Dr. Hajo HolzmannInstitut fur Stochastik der Universitat Karlsruhe (TH)

Wintersemester 2007/08(Stand: 29. Januar 2008)

Page 2: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

ii INHALTSVERZEICHNIS

Inhaltsverzeichnis

1 Lineare Regression 2

1.1 Modell und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Modelldiskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3.1 Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . 5

1.3.2 Schatzen von σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3.3 βLS als Maximum-Likelihood-Schatzer . . . . . . . . . . . . . . . . . . 8

1.3.4 Mittlerer quadratischer Fehler und Ridge-Regression . . . . . . . . . . 9

1.3.5 Asymptotische Verteilungstheorie fur βLS . . . . . . . . . . . . . . . . 11

1.4 Verteilungstheorie bei normalverteilten Fehlern . . . . . . . . . . . . . . . . . 15

1.4.1 Multivariate Normalverteilung und quadratische Formen . . . . . . . . 15

1.4.2 Konfidenzintervalle und Konfidenzbereiche . . . . . . . . . . . . . . . 20

1.4.3 Hypothesen Testen mit dem t Test . . . . . . . . . . . . . . . . . . . . 21

1.4.4 Vorhersageintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.4.5 Testen allgemeiner linearer Hypothesen mit dem F-Test . . . . . . . . 22

1.5 Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.5.1 Das Bestimmtheitsmaß R2 . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.5.2 Residuen-Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.5.3 Weitere diagnostische Plots . . . . . . . . . . . . . . . . . . . . . . . . 26

1.5.4 Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.5.5 Ausreißer, Leverage- und Influenz-Punkte . . . . . . . . . . . . . . . . 28

1.6 Variablen-Selektion und Shrinkage Schatzung . . . . . . . . . . . . . . . . . . 32

1.6.1 Selektionsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

1.6.2 Test-basierte Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . 33

Page 3: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.6.3 Informationskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.6.4 Shrinkage Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.6.5 Inferenz nach Modellwahl . . . . . . . . . . . . . . . . . . . . . . . . . 43

1.7 Verallgemeinerte KQ und Varianzschatzen . . . . . . . . . . . . . . . . . . . . 48

1.7.1 Verallgemeinerte kleinste Quadrate . . . . . . . . . . . . . . . . . . . . 48

1.7.2 Varianzschatzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2 Nichtlineare Regression 51

2.1 Modell und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.2 Nichtlineare kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.3 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.4 Asymptotische Normalitat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.5 Asymptotische Konfidenzintervalle und Hypothesentests . . . . . . . . . . . . 56

3 Regression auf binomiale Daten 57

3.1 Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.2 Schatzen von β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3 Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.4 Odds und explorative Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . 60

3.5 Uberdispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

A Verzeichnis der Satze 67

Page 4: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

iv INHALTSVERZEICHNIS

Page 5: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

Einleitung

Allgemeines zur Regression

Page 6: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

2 1 LINEARE REGRESSION

1 Lineare Regression

Das grundlegende Regressionsmodell ist das lineare Regressionsmodell. Wir werden anhanddieses Modells Phanomene und Techniken kennenlernen, die auch spater bei komplizierterenModellen auftreten.

Literature

Angewandt

Faraway, J. (2005) Linear Models with R. Chapman & Hall/CRC, Boca Raton, FL

Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und Anwen-dungen. Springer, Berlin.

Weisberg, S. (2005) Applied Linear Regression. 3. Auflage, John Wiley & Sons, Hoboken, NJ.

Theorie

Searle, (1971) Linear Models. John Wiley & Sons, Inc., New York, 1997.

MEHR!

1.1 Modell und Beispiele

BemerkungIm Folgenden wird bei Großen wie Erwartungswert, Varianz, usw. der Index, der die Abhangig-keit von den unbekannten Parametern (Hauptparamter, Storparameter) ausdruckt (vgl. Sta-tistik 1), meist weggelassen, d.h. statt Eβ,σ2(·) wird nur E(·) usw. geschrieben.

Modell: Es liegen unabangige Beobachtungen (Yi, xi), i = 1, . . . , n, Yi ∈ R, xi ∈ Rp aus

dem ModellYi = xT

i β + εi

vor, wobei β ∈ Rp ein unbekannter, zu schatzender Parametervektor und ε1, . . . , εn un-

abhangig und identisch verteilte (uiv) unbeobachtete Fehler darstellen mir Eεi = 0, Eε2i =

Var εi = σ2. Die Vektoren xi ∈ Rp heißen Kovariable oder Pradiktoren, sie konnen entweder

fest (fixed design) oder auch zufallig (random design) sein. In letzterem Fall sind alle Vertei-lungsaussagen bedingt auf die xi zu verstehen. Die Variablen Yi heißen abhangige Variablenoder Zielgroßen.

Matrixschreibweise: In Matrixschreibweise lautet das Modell

Y =

Y1...

Yn

∈ R

n, X =

xT1...

xTn

∈ R

n×p, ε =

ε1...

εn

∈ R

n,

Y = Xβ + ε , (1)

Page 7: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.1 Modell und Beispiele 3

Es ist Cov ε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤ n.Haufig nehmen wir auch an, dass die Fehler ǫi normalverteilt sind: εi ∼ N (0, σ2). Dies werdenwir jedoch stets spezifieren.

BemerkungGleichung (1) beschreibt ein sogenanntes lineares Modell.Y ist ein beobachtbarer Zufallsvektor, X eine ebenfalls bekannte Matrix (Designmatrix) undε ein nicht beobachtbarer Zufallsvektor. Unter normalverteilten Fehlern heißt das Modellklassisch. (vgl. Statistik 1). Falls die Fehler nicht normalverteilt sind, ist die (standardisierte)Fehlerverteilung F der ǫi ein unendlichdimensionaler Storparameter.

Beispiel 1.1a) Einfache lineare Regression: Zwischen Großen y, t wird ein linearer Zusammenhang

mit Messfehlern der Formy = α0 + α1t + ǫ

vermutet. Somit ist x = (1, t)T und β = (α0, α1)T . Beobachtet wird nun an verschie-

denen Stellen ti mit unabhangigen, nicht beobachteten Fehlern ǫi, welches zu Beobach-tungen (yi, ti), i = 1, . . . , n fuhrt.

b) Multiple lineare Regression: Zwischen Großen y, t1, . . . , tq wird ein linearer Zusammen-hang der Form

y = α0 + α1t1 + . . . + αqtq + ε

vermutet, also x = (1, t1, . . . , tq)T , β = (α0, . . . , αq)

T , x, β ∈ Rq+1 (p = q + 1).

c) Polynomiale Regression: Zwischen Großen y, t wird ein polynomialer Zusammenhangder Form

y = α0 + α1t + . . . + αqtq + ǫ

vermutet, somit x = (1, t, . . . , tq)T , β = (α0, . . . , αq)T , (p = q + 1).

d) Trigonometrische Regression: Fur t ∈ [0, 1]

y = α0 +

q∑

j=1

(α2j−1 sin(2jπt) + α2j cos(2jπt))

Somit x = (1, sin(2πti), cos(2πti), . . . , sin(2πpti), cos(2πti))T , β = (α0, . . . , α2q)

T , (p =2q + 1)

Ziele Unsere primaren Ziele sind im Folgenden:

• Schatzen der unbekannten Parameter β, σ2

• statistische Inferenz, etwa Konfidenzintervalle, Hypothesentests, fur die Parameter β,σ2

• Modellwahl, Modelldiagnostik: Beschreibt das lineare Regressionsmodell die vorliegen-den Daten in angemessener Weise? Welche Kovariablen sollten tatsachlich in das Modellaufgenommen werden?

Page 8: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

4 1 LINEARE REGRESSION

1.2 Modelldiskussion

Diskussion der Modellannahmen: Unabhangigkeit der Fehler, gleiche Varianz, etc.

Kovariabelntypen: metrisch, nominal, ordinal, Kodierung, Interaktionen.

Page 9: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.3 Schatzer 5

1.3 Schatzer

1.3.1 Methode der kleinsten Quadrate

Der bekannteste Schatzer von β wird uber die Methode der kleinsten Quadrate bestimmt,also derart, dass ‖Y − Xβ‖2 =

∑ni=1(Yi − xT

i β)2 minimal wird,

β = βLS = argminβ∈Rp ‖Y − Xβ‖2

(LS : least squares = kleinste Quadrate).

Geometrische Interpretation: Xβ muss dafur die orthogonale Projektion von Y auf denvon den Spaltenvektoren von X = (v1, . . . , vp) erzeugten Unterraum spanv1, . . . , vp im R

n

sein.

In der Tat: Fur jedes andere β gilt nach Pythagoras:

‖Y − Xβ‖2 = ‖ Y − Xβ︸ ︷︷ ︸⊥ x1,...,xp

+X(β − β)‖2 = ‖Y − Xβ‖2 + ‖X(β − β)‖2 ≥ ‖Y − Xβ‖2

Da X vollen Rang hat, ist β eindeutig bestimmt.

Formeln Setzte V = spanv1, . . . , vp und betrachte die Matrix PX = X(XT X)−1XT ∈R

n×n (die sogenannte hat matrix). Es ist

PX : Rn → Vz 7→ PXz

ist die orthogonale Projektion. Dazu zeige:

a. PX ist orthogonale Projektion: P 2X = PX , P T

X = PX

b. PX lasst V invariant

c. PXRn ⊂ V

Somit muss gelten:Xβ = PXY = X(XT X)−1XT Y

X voller Rang⇒ β = (XT X)−1XT Y

Kleinste Quadrate Schatzer (Least Squares)

β = βLS = (XT X)−1XT Y

Rechenregeln fur lineare Transformationen von Zufallsvektoren:Sei Z ∈ R

n Zufallsvektor, EZ = µ, Cov Z = Σ > 0, A ∈ Rm×n. Dann:

E(AZ) = Aµ, Cov(AZ) = AΣAT

Page 10: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

6 1 LINEARE REGRESSION

Eigenschaften von βLS Fur βLS ergibt sich:

EβLS = E(XT X)−1XT Y

= E(XT X)−1XT (Xβ + ε)

= E(XT X)−1XT Xβ + E(XT X)−1XT ε

= β + (XT X)−1XT Eε︸︷︷︸=0

= β

⇒ βLS unverfalscht (unbiased).

Cov βLS = Cov((XT X)−1XT ( Xβ︸︷︷︸konst.

+ε))

= Cov((XT X)−1XT ε)

= (XT X)−1XT σ2InX(XT X)−1

= σ2(XT X)−1

Fur einen Schatzer σ2 von σ2 (s.u.) heißt σ((XT X)−1

ii

)1/2Standardfehler von βi, der i-ten

Komponente von β.

Im Folgenden zeigen wir, dass βLS der eindeutig bestimmte, lineare unverfalschte Schatzermit der kleinsten Varianz ist.

Satz 1.2 (Gauß-Markov-Aitken)a. Sei S(Y ) = AY , A ∈ R

p×n, ein linearer, unverfalschter Schatzer fur β (d.h. ES(Y ) =β ∀β ∈ R

p). Dann giltCov(S(Y )) ≥ Cov(βLS)

(im Sinne von(Cov(S(Y )) − Cov(βLS)

)ist positiv semidefinit).

b. Ist A 6= (XT X)−1XT , so existiert z = z(A) ∈ Rp, so dass

zT (Cov(S(Y )) − Cov(βLS))z > 0

Beweisa. Aus der Unverfalschtheit folgt

ES(Y ) = AXβ!= β ∀β ∈ R

p

⇒ AX = Ip.Weiter:

Cov(S(Y )) = Aσ2InAT = σ2AAT

Cov(βLS) = σ2(XT X)−1 = σ2AX(XT X)−1XT AT = σ2APXAT

Somit:Cov(S(Y )) − Cov(βLS) = σ2A(In − PX)AT

(In − PX) ist idempotent: (In − PX)2 = (In − PX) = (In − PX)T . Somit:

σ2zT A(In − PX)AT z = σ2‖(In − PX)AT z‖2 ≥ 0

Page 11: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.3 Schatzer 7

b. Annahme: ‖(In − PX)AT z‖2 = 0 ∀z ∈ Rp

⇒ (In − PX)AT = 0 (1)Sei AT = (a1, . . . , ap), ai ∈ R

n. Aus (1) folgt1: ai ∈ span(v1, . . . , vp), also AT = XM ,M ∈ R

p×p.Wegen AX = Ip folgt MT XT X = IP .⇒ MT = (XT X)−1 ⇒ A = (XT X)−1XT .

Der Schatzer βLS heißt auch der BLUE (best linear unbiased estimator).

Bemerkung 1.31. (b.) impliziert, dass es fur einen unverfalschten Schatzer S(Y ) 6= βLS ein z ∈ R

p gibt,

so dass gilt Var(zT S(Y )) > Var(zT βLS). (Schatzer fur zT β)

2. Aus (a.) folgt(Cov(S(Y )

)jj

≥(Cov βLS

)jj

fur j = 1, . . . , p, und daher

Spur(Cov(S(Y ))) ≥ Spur(Cov(βLS))

1.3.2 Schatzen von σ2

Y = Xβ =(Y1, . . . , Yn

)T: heißen vorhergesagte Werte (predicted values), und

εi = Yi − Yi: Residuen.

Idee: Nutze Variation der εi zum Schatzen von σ2.Schatze σ2 durch

σ2 =1

n − p

n∑

i=1

ε2i =

1

n − p‖Y − Y ‖2 (∗)

=1

n − pY T (I − PX)Y

(∗): Y = Xβ = PXY ; (I − PX) = (I − PX)2 = (I − PX)T

Satz 1.4 (Erwartungswert quadratischer Formen)Sei Z ∈ R

n Zufallsvektor mit EZ = µ ∈ Rn, Cov Z = Σ ∈ R

n×n, und sei A ∈ Rn×n

symmetrisch. Betrachte die quadratische Form Q = ZT AZ. Dann gilt:

EQ = Spur(A · Σ) + µT Aµ

Beweis

Q =n∑

i,j=1

aijZiZj , EZiZj = Σij + µiµj

Somit

EQ =n∑

i,j=1

aij(Σij + µiµj) = µT Aµ +n∑

i,j=1

aijΣij = µT Aµ + Spur(AΣ)

[Beachte: Sowohl A als auch Σ ist symmetrisch!]

1ai ∈ Kern(In − PX) = Bild(PX); Eigenschaft von Projektionen (hier: PX)

Page 12: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

8 1 LINEARE REGRESSION

Satz 1.5σ2 ist erwartungstreu fur σ2.

BeweisEY = Xµ, Cov Y = σ2In. Mit Satz 1.4 folgt

E(Y T (I − PX)Y ) = µT XT (I − PX)X︸ ︷︷ ︸=0

µ + Spur(σ2(I − PX))

Es gilt:

Spur(I − PX) = n − Spur(X(XT X)−1 · XT )

= n − Spur(XT · X(XT X)−1)

= n − Spur Ip

= n − p

Somit:

Eσ2 =1

n − pE(Y T (I − PX)Y ) = σ2

Ubung: Berechne Var σ2, insbesondere fur normalverteilte Fehler

1.3.3 βLS als Maximum-Likelihood-Schatzer

Modell mit normalverteiltem Fehler: Y ∼ N (Xβ, σ2In). Somit Likelihood-Funktion:

Ln(β, σ2) =1

(2πσ2)n2

exp

(− 1

2σ2

n∑

i=1

(Yi − xTi β)2

)

und die log-Likelihood-Funktion:

Ln(β, σ2) = log Ln(β, σ2) = −n

2log(2πσ2) − ‖Y − Xβ‖2

2σ2

Damit Ln(β, σ2) maximal wird, muss offenbar ‖Y − Xβ‖2 minimal werden.⇒ βLS ist Maximum Likelihood Schatzer fur β im linearen Regressionsmodell mit normal-verteilten Fehlern.

Page 13: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.3 Schatzer 9

Ubungen (SOLL EIGENES KAPITEL WERDEN!)

• Bei Laplace verteiltem Fehler fuhrt der ML Schatzer zur Median-Regression.

• Der ML-Schatzer fur σ2 ist 1n‖Y − XβLS‖2

1.3.4 Mittlerer quadratischer Fehler und Ridge-Regression

Der kleinste Quadrate Schatzer βLS ist zwar der beste lineare unverfalschte Schatzer, wirwerden im Folgenden aber zeigen, dass es (bzgl des mittleren quadratischen Fehlers) nochbessere lineare, aber nicht unverfalschte Schatzer gibt.

Fur einen Schatzer β von β definiert man den mittlerer quadratischen Fehler (meansquared error, MSE) durch

MSEβ(β) = Eβ‖β − β‖2 = E

(p∑

i=1

(βi − βi)2

)

Es gilt:

E‖β − β‖2 = E‖β − Eβ + Eβ − β‖2

= E‖β − Eβ‖2 + 2E〈β − Eβ, Eβ − β〉︸ ︷︷ ︸=0

+‖Eβ − β‖2

= E‖β − Eβ‖2 + ‖Eβ − β‖2

da

E〈β − Eβ, Eβ − β〉 =

p∑

i=1

E((βi − Eβi)(Eβi − βi)) = 0.

AlsoE‖β − β‖2 = E‖β − Eβ‖2

︸ ︷︷ ︸”Varianz-Term“

+ ‖Eβ − β‖2

︸ ︷︷ ︸”Bias-Term“

.

Fur unverfalschte Schatzer gilt: ‖Eβ − β‖2 = 0.Fur lineare Schatzer β = AY , A ∈ R

p×n gilt:

E‖β − Eβ‖2 = E‖Aε‖2 = E(εT AT Aε) = σ2 Spur(AT A)

= σ2 Spur(AAT ) = Spur(Cov β).

Somit sagt Gauß-Markov-Aitken (s. Bemerkung 1.3): βLS ist linearer, unverfalschter Schatzermit kleinstem MSE .

Page 14: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

10 1 LINEARE REGRESSION

Ziel Konstruktion von linearen, nicht unverfalschten Schatzern mit kleinerem MSE alsβLS .

Wir betrachten im Folgenden die Spektralzerlegung von XT X (existiert, da XT X positivdefinit, insbesondere symmetrisch), also

XT X = U diag(λ1, . . . , λp)UT

mit U orthogonal, λi > 0. Damit berechnet man den MSE von βLS als2:

MSE(βLS) = σ2 Spur(XT X)−1 = σ2p∑

i=1

λ−1i .

Ridge-Regression Fur α > 0 setze

βα = (αIp + XT X)−1XT Y

Berechne Bias- und Varianzterm fur βα:

E‖βα − Eβα‖2 = σ2 Spur(X(αIp + XT X)−2XT

)

= σ2 Spur(XT X(αIp + XT X)−2

)

Spektralzerlegung

XT X(αIp + XT X)−2 = U diag(λ1

(α + λ1)2, . . . ,

λp

(α + λp)2)UT

Somit:

E‖βα − Eβα‖2 = σ2 ·p∑

i=1

λi

(α + λi)2=: Var(α)

BemerkungDieser Varianz-Term ist stets kleiner als der Varianz-Term von βLS . Er wird kleiner fur wach-sendes α.

Bias(α) := ‖Eβα − β‖2

= ‖(αIp + XT X)−1XT Xβ − β‖2

= ‖diag(λ1

α + λ1− 1, . . . ,

λp

α + λp− 1) · UT β‖2

=

p∑

i=1

α2

(α + λi)2(UT β)2i

Der Bias-Term wachst mit α.

2Beachte: Spur(AB) = Spur(BA), sofern die Matrixprodukte definiert sind

Page 15: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.3 Schatzer 11

Satz 1.6Es existiert ein α > 0, so dass MSE(βα) < MSE(βLS).

Beweis

MSE(α) = Bias(α) + Var(α)

MSE(βLS) = MSE(0)

Es genugt zu zeigen, dass ein α0 > 0 existiert, so dass fur 0 < α < α0 gilt

d

dα(MSE(α)) < 0

Es gilt:

MSE(α)′ = −σ2p∑

i=1

2λi

(α + λi)3+

p∑

i=1

2αλi

(α + λi)3(UT β)2i

Also MSE(α)′ < 0, falls α < σ2

maxi(UT β)2i.

Interpretation: βLS ist zwar bester linearer unverfalschter Schatzer, aber es gibt noch bes-sere lineare (nicht unverfalschte) Schatzer. Konzept der Unverfalschtheit ist zu restriktiv.

Bemerkung: Der ridge Schatzer βα hat gegenuber dem kleinste Quadrate Schatzer denNachteil, dass man zur Berechnung den Regularisierungsparameter α > 0 wahlen muss. Ins-besondere muss dieser Parameter auch wirklich geeignet gewahlt werden, damit βα bessereMSE Eigenschaften als βLS hat. Daher wird der ridge Schatzer in Praxis relativ selten ver-wendet. Haufigere Verwendung finden andere Schrinkage Schatzer wie das LASSO, s. Kapitel1.6.4.

Literatur:

Hoerl, A.E. und Kennard, R.W.(1970). Ridge regression: Biased estimation for nonorthogonalproblems. Technometrics 12, 1970.

1.3.5 Asymptotische Verteilungstheorie fur βLS

In diesem Abschnitt zeigen wir, dass der Kleinste Quadrate Schatzer im linearen Regressi-onsmodell unter geeigneten Bedingungen asymptotisch normalverteilt ist. Dazu benotigen wirzunachst ein geeignetes Beobachtungsmodell, in dem die Anzahl der Beobachtungen n wachst(n → ∞), die Zahl der Parameter p sowie der Parametervektor β und σ2 fest bleiben. Wirnehmen also an, dass fur jedes n Beobachtungen (Yi,n, xi,n), i = 1, . . . , n, aus dem Modell

Yi,n = xTi,nβ + ǫi,n i = 1, . . . , n, (2)

vorliegen, wobei ǫi,n identisch verteilt sind fur alle i, n mit Eǫi,n = 0, Eǫ2i,n = σ2, undǫ1,n, . . . , ǫn,n unabhangig sind fur alle n. Setze

Xn = (xT1,n, . . . , xT

n,n)T ∈ Rn×p, Yn = (Y1,n, . . . , Yn,n) ∈ R

n, ǫ = (ǫ1,n, . . . , ǫn,n)T ∈ Rn,

Page 16: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

12 1 LINEARE REGRESSION

wobei wir im Vektor ǫ die Abhangigkeit von n unterdruckt haben.

Annahme. Alle Komponenten der xj,n (fur alle j, n) liegen in einer kompakter Menge K,und es gelte

1

nXT

n Xn → Q ∈ Rp×p (3)

fur eine positiv definite Matrix Q > 0.

Satz 1.7In einer Folge von linearen Regressionsmodellen (2) unter obigen Annahmen gilt fur die Folge

von Schatzern βLS,n und σ2n unter Annahme (3)

√n(βLS,n − β)

d→ N (0, σ2Q−1) (4)

sowieσ2

nP→ σ2

d.h. σ2n ist konsistent (vgl. Statistik 1).

Bemerkung a. Das Symbold→ steht fur Konvergenz in Verteilung, also im Falle einer Nor-

malverteilung als Grenzverteilung fur punktweise Konvergenz der entsprechenden Verteilungs-funktionen.b. Das Symbol

P→ steht fur stochastische Konvergenz, also ZnP→ Z falls P (|Zn−Z| ≥ δ) → 0,

n → ∞, fur alle δ > 0.

Zum Beweis von Satz 1.7 Wir benotigen folgende Resultate uber Verteilungskonvergenzaus der Stochastik.

ZGWS unter Lindeberg (Stochastik II) Fur jedes n ∈ N seien Zjn, j = 1, . . . , nunabhangige Zufallsvariablen (nicht notwendig identisch verteilt) mit EZjn = 0, VarZnj =σ2

jn < ∞.

Es sei Sn =∑n

j=1 Zjn, ES2n = s2

n = σ21n + . . . + σ2

nn. Gilt ∀δ > 0 die Lindeberg-Bedingung

1

s2n

n∑

j=1

|Zjn|≥δsn

|Zjn|2dP → 0, n → ∞,

so folgtSn

sn

d→ N (0, 1) (n → ∞).

Cramer-Wold-Technik (Stochastik II) Sei Zn ∈ Rd Zufallsvektor, EZn = 0, Cov Yn =

Σ. Dann:Zn

d→ N (0, Σ) ⇔ ∀a ∈ Rd gilt aT Zn

d→ N (0, aT Σa)

Satz von Slutzky Gilt Znd→ N (0, Σ) und An

P→ A ∈ Rd×p, A konstant, dann

AnZnd→ N (0, AΣAT ).

Page 17: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.3 Schatzer 13

Beweis von Satz 1.7. Es ist

√n(βLS,n − β) = (

1

nXT

n Xn)−1

︸ ︷︷ ︸→Q−1

1√n

XTn ε

Also genugt es nach dem Satz von Slutzky zu zeigen, dass

1√n

XTn ε

d→ N (0, σ2Q)

Dazu zeige nach Cramer-Wold fur a ∈ Rp beliebig (a 6= 0)

1√n

aT XTn ε

d→ N (0, σ2atQa)

Zunachst ist

Var(1√n

aT XTn ε) =

σ2

naT XT

n Xna ≥ η > 0 (5)

wegen Annahme (3) asymptotisch von 0 weg beschrankt (fur n ≥ n0). Weiter gilt

aT XTn = (aT xn,1, . . . , a

T xn,n),1√n

aT XTn ε =

n∑

i=1

aT xn,i√n

εi,n

Wegen Annahme (1) (kompakte Menge) gilt

supi,n

|aT xn,i| = c < ∞ (6)

Uberprufe nun die Lindeberg-Bedingung des ZGWS mit Zjn = 1√naT xj,nεj,n und s2

n =

σ2

n aT XTn Xna. Es gilt fur δ > 0 (und n ≥ n0) wegen (5)

1

s2n

n∑

j=1

| 1√n

aT xj,nεj,n|≥δsn

1

n(aT xj,n)2ε2

j,ndP

≤ 1

η2

n∑

j=1

1

n(aT xj,n)2

︸ ︷︷ ︸beschrankt wegen (6)

|εj,n|≥ δηc

√n|εj,n|2dP

︸ ︷︷ ︸→0

→ 0

Die Konvergenz des Integralterms ist unabhangig von j, n, da die ǫj,n identisch verteilt sind.Dies zeigt (4).

Zur Konsistenz von σ2n:

Rechenregeln fur das Symbol OP . Eine Folge Zn von d-dim. Zufallsvektoren (Zn) istOP (1), falls fur alle δ > 0 ein C > 0 existiert, so dass fur alle n,

P (‖Zn‖d ≥ C) ≤ δ,

wobei ‖ · ‖d eine Norm auf Rd ist. Dies ist aquivalent zur Straffheit der Folge (Zn) (vgl.

Stochastik). Fur eine positive Zahlenfolge (cn) ist nach Definition Zn = OP (cn), falls Zn/cn =

Page 18: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

14 1 LINEARE REGRESSION

OP (1). Dann gilt: ist Zn = OP (cn), Wn = OP (dn) (Wn Zufallsvektor im Rd, dn Zahlenfolge),

dann ist ZTn Wn = OP (cndn) (Ubung).

Zum Beweis: Es ist

σ2n =

εT ε

n − p− εT Xn(XT

n Xn)−1XTn ε

n − p

Wegen der oben gezeigten Konvergenz ist

1√n

εT Xn = OP (1)

Somit

εT Xn(XTn Xn)−1XT

n ε =1√n

εT Xn(1

nXT

n Xn)−1 1√n

XTn ε

= OP (1)O(1)OP (1)

= OP (1)

Daher ist

σ2 =εT ε

n − p+ OP (n−1)

=n

n − p

1

n

n∑

i=1

ε2i,n + OP (n−1).

Die Behauptung folgt somit aus dem schwachen Gesetzt der großen Zahlen.

Folgerung 1.1Unter den Annahmen von Satz 1.7 gilt

(XTn Xn)(−1/2) 1

σn

(βLS,n − β

) d→ N(0, Id). (7)

BemerkungMan kann nun auf dem asymptotischen Verteilungsresultat (7) eine Theorie der statistischenInferenz im linearen Regressionsmodell (asymptotische Konfidenzintervalle, Tests, etc.) auf-bauen. Wir werden dies aber nicht weiter ausfuhren, sondern im nachsten Abschnitt exak-te Verteilungstheorie unter normalverteilten Fehlern herleiten. Dies hat mehrere wesentlicheGrunde: a. Die Standard Statistik Software (etwa R) liefert stets Ergebnisse, die auf der exak-ten Verteilungstheorie fur normalverteilte Fehler basiert, b. diese berucksichtigt auch explizitden statistischen Fehler beim Schatzen von σ2 (also etwa t Verteilung statt Normalvertei-lung), und ist daher haufig genauer, c. Messfehler sind haufig approximativ normalverteilt(sie ergeben sich als Uberlagerung vieler kleiner Ursachen) d. die exakte Theorie ist auchrobust gegenuber Abweichungen von der Normalverteilungsannahme

BemerkungDie Asymptotik (7) gilt auch unter den wesentlich schwacheren Bedingungen:

(XTn Xn)−1 → 0 und max

1≤i≤nxT

i (XTn Xn)−1xi → 0 ( fur n → ∞).

Literatur

Eicker, F. (1963). Asymptotic normality and consistency of the least squares estimators forfamilies of linear regressions. Ann. Math. Statist. 34, 447–456.

Page 19: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.4 Verteilungstheorie bei normalverteilten Fehlern 15

1.4 Verteilungstheorie bei normalverteilten Fehlern

In diesem Kapitel untersuchen wir exakte Verteilungstheorie im linearen Regressionsmodellmit normalverteilten Fehlern. Dazu gehen wir im ersten Abschnitt nochmal auf die multiva-riate Normalverteilung und daraus abgeleitete Verteilungen ein.

1.4.1 Multivariate Normalverteilung und quadratische Formen

In diesem Abschnitt wiederholen wir einige Aussagen uber die multivariate Normalverteilungund betrachten Aussagen uber Verteilung und Unabhangigkeit von quadratischen Formen innormalverteilten Zufallsvariablen. In diesem Abschnitt ist X ein Zufallsvektor, und nicht dieDesign Matrix im linearen Regressionsmodell (1).

DefinitionSei µ ∈ R

d, Σ ∈ Rd×d symmetrisch, positiv definit. Die multivariate Normalverteilung

N (µ,Σ) ist gegeben durch die Dichte

f(x; µ,Σ) =1

(2π)d2 |Σ| 12

exp

(−1

2(x − µ)T Σ−1(x − µ)

)

|Σ| = detΣ.

Satz 1.8 (Lineare Transformation)Sei X ∼ N (µ,Σ), µ ∈ R

d, p ≤ d, A ∈ Rp×d mit vollem Rang und b ∈ R

p. Dann ist Y = AXverteilt nach Y ∼ N (Aµ + b, AΣAT ).

BeweisKlar fur p = d, ansonsten A erganzen.

Momente Ist X ∼ N (µ,Σ), so ist EX = µ, Cov X = Σ. Zum Beweis beachte, dassdiese Ergebnisse fur X ∼ N(0, I) richtig sind (zuruckfuhren auf den univariaten Fall), undbenutze fur allgemeines X ∼ N(µ,Σ) Satz 1.8 und das Verhalten der Momente unter linearenTransformationen.

Marginalverteilungen und Unabhangigkeit Sei X ∼ N (µ,Σ), µ ∈ Rd,

X =

(YZ

), Y ∈ R

r, Z ∈ Rd−r, wobei 1 ≤ r < d

Sei

µ =

(µ1

µ2

), Σ =

(Σ11 Σ12

ΣT12 Σ22

)

mit µ1 ∈ Rr, µ2 ∈ R

d−r, Σ11 ∈ Rr×r, Σ22 ∈ R

(d−r)×(d−r), Σ12 ∈ Rr×(d−r). Dann:

a. Y ∼ N (µ1, Σ11), Z ∼ N (µ2, Σ2)

(Beweis aus Satz 1.8 und A = (Ir, 0) ∈ Rr×d bzw. A = (0, Id−r) ∈ R

(d−r)×d.)

Page 20: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

16 1 LINEARE REGRESSION

b. Y und Z unabhangig ⇔ Σ12 = 0

(Beweis: direkt mit Definition, schreibe gemeinsame Dichte als Produktdichte)

bedingte Verteilungen→ Stochastik II, Ubung

Regression to the meanFur

µ = (µ1, µ2)T , Σ =

(σ2

1 ρσ1σ2

ρσ1σ2 σ22

), −1 < ρ < 1,

sei (X, Y ) ∼ N(µ,Σ) bivariat normalverteilt (s. etwa Dehling und Haupt, 2004, fur die expli-zite Form der Dichte). Dann gilt fur die bedingte Verteilung

Y |X = x ∼ N(µ2 + ρ

σ2

σ1(x − µ1), (1 − ρ2)σ2

2

).

Insbesondere ist fur

σ21 = σ2

2 = σ2, µ1 = µ2 = µ, (8)

E(Y |X = x) = µ + ρ(x − µ) und somit fur 0 < ρ < 1,

µ < E(Y |X = x) < x falls x > µ, x < E(Y |X = x) < µ falls x < µ

Selbst wenn also X und Y positiv korreliert sind, nahert sich im bedingten Mittel Y wiederµ an. Analog gilt fur die Anderung Y − X|X unter (8),

Y − X|X = x ∼ N((1 − ρ)(µ − x), (1 − ρ2)σ2

).

Also hat der Regressionskoeffizient von der Anderung Y −X (abhangige Variable) regressiertauf X (Kovariable) negatives Vorzeichen auch bei positivem ρ.

Satz 1.9Sei X ∼ N (µ,Σ), µ ∈ R

d, p, q ≤ d, B ∈ Rp×d mit vollem Rang, C ∈ R

q×d mit vollem Rang.Dann gilt:

BX und CX sind unabhangig ⇔ BΣCT = 0

Beweis

”⇒“ Klar, da

Cov(BX, CX) = E(B(X − µ)(X − µ)T CT ) = BΣCT = 0

bei Unabhangigkeit.

”⇐“ Betrachte zunachst den Fall Σ = Id.

Schreibe

B =(b1, . . . , bp

)T, C =

(c1, . . . , cq

)T, bi, cj ∈ R

d

Dann: BΣCT = BCT = 0 ⇔ bTi cj = 0. Somit hat

A =(b1, . . . , bp, c1, . . . , cq)

T

Page 21: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.4 Verteilungstheorie bei normalverteilten Fehlern 17

vollen Rang und

AX =

(BXCX

)∼ N (Aµ, AAT ) = N

(Aµ,

(BBT 0

0 CCT

))

da Σ = Id und BCT = 0. Also sind BX und CX unabhangig.

Zum allgemeiner Fall: Betrachte die Spektralzerlegung von Σ. Es existieren eine or-thogonale Matrix Q und λ1 > 0, . . . , λd > 0, so dass

Σ = Q diag(λ1, . . . , λd)︸ ︷︷ ︸=:D

QT

Σ12 = Qdiag(λ

121 , . . . , λ

12d )QT

da Σ12 · Σ 1

2 = Σ und

Σ− 12 = (Σ

12 )−1 = Qdiag(λ

− 12

1 , . . . , λ− 1

2d )QT

Betrachte Y = Σ− 12 X mit Y ∼ N (Σ− 1

2 µ,Σ− 12 ΣΣ− 1

2 ) = N (Σ− 12 µ, Id).

Weiter

BX = BΣ12︸ ︷︷ ︸

=:B

Y, CX = CΣ12︸ ︷︷ ︸

=:C

Y

und BCT = BΣ12 (Σ

12 )T CT = BΣCT .

Somit BΣCT = 0 ⇔ BCT = 0 und BY = BX und CY = CX nach obigem Fallunabhangig.

Aus der Normalverteilung abgeleitete Verteilungen

a. Ist X ∼ N (µ, Id), so hat XT X =∑d

i=1 X2i die nichtzentrale χ2-Verteilung mit d

Freiheitsgraden und Nichtzentralitatsparameter 12µT µ. Schreibweise: χ2(d; 1

2µT µ)

In der Tat hangt die Dichte von XT X,

f(u) = e−λ∞∑

k=0

λ2

k!

u12d+k−1e−

12u

212d+kΓ(1

2d + k), λ =

1

2µT µ

nur von λ und nicht von ganz µ ab.Fur λ = 0 (bzw. µ = 0): zentrale χ2-Verteilung (vgl. Statistik 1)

Weitere Notation:χ2

α(n) : Das α-Quantil der zentralen χ2 Verteilung mit n Freiheitsgraden (0 < α < 1).χ2(n)(x) : Wert der Verteilungsfunktion der zentralen χ2 Verteilung mit n Freiheitsgra-den bei x (x > 0).

Page 22: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

18 1 LINEARE REGRESSION

b. Ist U1 ∼ χ2(d1; λ), U2 ∼ χ2(d2), U1, U2 unabhangig, so hat

V =U1d1

U2d2

∼ F (d1; d2; λ)

die nichtzentrale F-Verteilung mit Freiheitsgraden d1 und d2 und Nichtzentralitatspa-rameter λ.Fur λ = 0: zentrale F-Verteilung (vgl. Statistik 1)

Weitere Notation:Fα(n, m) : Das α-Quantil der F Verteilung mit n und m Freiheitsgraden (0 < α < 1).F (n, m)(x) : Wert der Verteilungsfunktion der F Verteilung mit n Freiheitsgraden beix (x > 0).

c. Ist X ∼ N (0, 1), U ∼ χ2(d), so hat

V =X√

Ud

die t-Verteilung mit d Freiheitsgraden.

Weitere Notation:tn,α : Das α-Quantil der t Verteilung mit n und m Freiheitsgraden (0 < α < 1).tn(x) : Wert der Verteilungsfunktion der t Verteilung mit n Freiheitsgraden bei x (x > 0).

Verteilung quadratischer Formen

Satz 1.10Sei X ∼ N (µ,Σ), A ∈ R

d×d positiv semidefinit3. Ist AΣ idempotent, d.h. (AΣ)2 = AΣ, sogilt

XT AX ∼ χ2(r(A),1

2µT Aµ)

(r(A) ist der Rang von A)

BemerkungEs gilt auch die Ruckrichtung.

Beweisa. Zunachst sei wieder Σ = Id.

Wegen A = A2 hat die Spektralzerlegung von A die Form

A = QT diag( 1, . . . , 1︸ ︷︷ ︸r(A) mal

, 0, . . . , 0)Q

mit orthogonaler Matrix Q. Somit

XT AX = XT QT diag(1, . . . , 1, 0, . . . , 0)︸ ︷︷ ︸=:D

QX︸︷︷︸=:Y

= Y T DY = Y 21 + . . . + Y 2

r(A)

3setzt Symmetrie voraus!

Page 23: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.4 Verteilungstheorie bei normalverteilten Fehlern 19

wobei Y ∼ N ( Qµ︸︷︷︸=:v

, Id). Somit gilt:

XT AX ∼ χ2(r(A),1

2(v2

1 + . . . + v2r(A))︸ ︷︷ ︸

=vT Dv=µT Aµ

) = χ2(r(A),1

2µT Aµ)

b. Allgemeiner Fall:Ist X ∼ N (µ,Σ), so gilt Y = Σ− 1

2 X ∼ N (Σ− 12 µ, Id) und XT AX = Y T Σ

12 AΣ

12 Y .

Es ist Σ12 AΣ

12 idempotent, denn

Σ12 AΣ

12 Σ

12 AΣ

12 = Σ− 1

2 ΣAΣAΣ12 = Σ− 1

2 ΣAΣ12 = Σ

12 AΣ

12

Nach (a) gilt somit

XT AX ∼ χ2(r(Σ12 AΣ

12 ),

1

2(Σ− 1

2 µ)T Σ12 AΣ

12 (Σ− 1

2 µ))

= χ2(r(A),1

2µT µ)

da Σ12 vollen Rang hat.

Satz 1.11 (Craig und Sakamoto)Sei X ∼ N (µ,Σ).

a. Ist A ∈ Rd×d positiv semidefinit, B ∈ R

p×d, so gilt

BΣA = 0 ⇒ XT AX und BX sind unabhangig

b. Ist auch B ∈ Rd×d positiv semidefinit, so gilt

BΣA = 0 ⇒ XT AX und XT BX sind unabhangig

Bemerkung Es gilt jeweils auch die Ruckrichtung (dies ist der schwerere, aber wenigerrelevante Teil).

Beweisa. Spektralzerlegung von A

A = Qdiag(λ1, . . . , λr(A), 0, . . . , 0)QT

mit Q orthogonal, λi > 0.Sei Q = (q1, . . . , qd), Q = (q1, . . . , qr(A)) ∈ R

d×r(A). Dann

A = QDDQT , D = diag(λ121 , . . . , λ

12

r(A))

Setze L := QD, dann ist A = LLT . Weiter gilt

LT L = D QT Q︸ ︷︷ ︸=Ir(A)

D = D2

Page 24: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

20 1 LINEARE REGRESSION

ist invertierbar, also

BΣA = BΣLLT = 0 ⇒ BΣL(LT L)(LT L)−1 = BΣL = 0

Nach Satz 1.9 sind somit die Vektoren BX und LT X unabhangig und somit auch BXund XT LLT X = XT AX (ist Funktion von LT X).

b. Analog. (Zerlege A und B.)

Literatur

Discroll, M. F. (1999). An improved result relating quadratic forms and chi square distribu-tions. Amer. Statist. 53, 273-275.

Discroll, M. F. and Grundberg, W. R. (1986). A history of the development of Craig’s theo-rem. Amer. Statist. 40, 65-69.

Discroll, M. F. and Krasnicka, B. (1995). An accessible proof of Craig’s theorem in the generalcase. Amer. Statist. 49, 59-62.

1.4.2 Konfidenzintervalle und Konfidenzbereiche

Wir betrachten nun wieder das lineare Regressionsmodell (1), unter der Annahme normalver-teilter Fehler: ǫi ∼ N (0, σ2).

Konfidenzintervall fur cT β. Fur c ∈ Rp gilt

cT βLS ∼ N (cT β, σ2cT (XT X)−1c)

undcT βLS − cT β

σ(cT (XT X)−1c)12

∼ N (0, 1).

Weiter: σ2 = 1n−pY T (I − PX)Y .

Verteilung von σ2: (I − PX) ist idempotent, Y ∼ N (Xβ, σ2In)Somit gilt nach Satz 1.104:

(n − p)σ2

σ2=

1

σ2Y T (I − PX)Y ∼ χ2(n − p,

1

2σ2βT XT (I − PX)X︸ ︷︷ ︸

=0

β) = χ2(n − p)

Weiter: βLS = (XT X)−1XT Y und (XT X)−1XT (I − PX) = 0Satz 1.11 ⇒ βLS und σ2 sind unabhangig. Daher gilt:

cT βLS − cT β

σ · σσ (cT (XT X)−1c)

12

∼ tn−p (9)

4Beachte außerdem Rechenregeln fur Projektionen (LA).

Page 25: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.4 Verteilungstheorie bei normalverteilten Fehlern 21

Konfidenzintervall fur cT β zum Niveau α > 0:

[cT βLS − σ(cT (XT X)−1c)12 tn−p,1−α

2; cT βLS + σ(cT (XT X)−1c)

12 tn−p,1−α

2].

Insbesondere fur Komponente βi (c = ei):

[βLS,i − σ((XT X)−1)12iitn−p,1−α

2; βLS,i + σ((XT X)−1)

12iitn−p,1−α

2]

Konfidenzbereich fur AβA ∈ R

q×p, 1 ≤ q ≤ p, habe vollen Rang. Es gilt

AβLS ∼ N (Aβ, σ2 A(XT X)−1AT

︸ ︷︷ ︸=:S

)

Somit (nach Satz 1.10)

(A(βLS − β))T S−1

σ2A(βLS − β) ∼ χ2(q)

und(A(βLS − β))T S−1A(βLS − β)

qσ2∼ F (q; n − p)

Somit (1-α)-Konfidenzbereich fur Aβ:

Aβ :(A(βLS − β))T S−1A(βLS − β)

qσ2≤ F1−α(q; n − p)

(Insbesondere: A Teilmatrix von Ip)

AufgabeKonfidenzintervall fur σ2.

1.4.3 Hypothesen Testen mit dem t Test

Fur c ∈ Rp und δ ∈ R betrachten wir die Hypothese

Hc,δ : cT β = δ.

Unter Gultigkeit der Hypothese Hc,δ gilt nach (9):

Tc,δ =cT βLS − δ

σ(cT (XT X)−1c)12

∼ tn−p.

Man verwirft die zweiseitige Hypothese Hc,δ zum Niveau α > 0, falls Tc,δ < tn−p,α/2 oder fallsTc,δ > tn−p,1−α/2. Der zweiseitige p-Wert ergibt sich als

p-value =

2tn−p(Tc,δ), Tc,δ < 0,2(1 − tn−p(Tc,δ)), Tc,δ > 0.

(10)

Analog einseitiger Test, einseitige Hypothese. Wichtigster Spezialfall: c = ei, δ = 0. DannHi : βi = 0, und

Ti =(βLS)i

σ((XT X)−1)1/2ii

.

Page 26: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

22 1 LINEARE REGRESSION

1.4.4 Vorhersageintervalle

InhaltlichKonfidenzintervall (KI):Gebildet aus (xi, Yi), i = 1, . . . , nIntervall fur Erwartungswert cT β

Vorhersageinterall (Prediction Interval, PI):Aus (xi, Yi), i = 1, . . . , n sowie weiterem Pradiktor xn+1 soll ein Intervall fur den zugehorigenWert Yn+1 (der nicht beobachtet wird) erstellt werden.

Sei βLS der LS-Schatzer aus (xi, Yi), i = 1, . . . , n.Vorhersage fur Yn+1:

Y Pred = xTn+1βLS

Eigentlich:

Yn+1 = xTn+1β + εn+1

Somit

Y Pred − Yn+1 = xTn+1(βLS − β) + εn+1 ∼ N (0, σ2 + σ2xT

n+1(XT X)−1xn+1)

undY Pred − Yn+1

σ(1 + xTn+1(X

T X)−1xn+1)12

∼ tn−p

Somit Vorhersagebereich

[Y Pred− σ(1+xTn+1(X

T X)−1xn+1)12 tn−p,1−α

2, Y Pred + σ(1+xT

n+1(XT X)−1xn+1)

12 tn−p,1−α

2]

VergleichPI mit KI fur xT

n+1β: PI ist breiter, da der zusatzliche Fehler εn+1 beim Beobachten von Yn+1

mit berucksichtigt werden muss.

1.4.5 Testen allgemeiner linearer Hypothesen mit dem F-Test

Beispiele linearer Hypothesen.

a. H: β = 0 (alle βi = 0)

b. H: βi1 = . . . = βiq = 0, 1 ≤ i1 < . . . < iq ≤ p

c. H: β = β0, β0 6= 0

d. H: cT β = m, c ∈ Rp, m ∈ R

beinhaltet βi = m fur ein i

Page 27: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.4 Verteilungstheorie bei normalverteilten Fehlern 23

Allgemeine lineare Hypothese: Fur A ∈ Rq×p, q ≤ p, A voller Rang, m ∈ R

q betrachte

H : Aβ = m

Es giltAβ − m ∼ N (Aβ − m, σ2 A(XT X)−1AT

︸ ︷︷ ︸=:S

)

und

(Aβ − m)T S−1

σ2(Aβ − m) ∼ χ2(q,

1

2(Aβ − m)T S−1

σ2(Aβ − m)

︸ ︷︷ ︸=λ

)

und somit

FS =(Aβ − m)T S−1(Aβ − m)

qσ∼ F (q, n − p, λ)

Unter der Hypothese H (Aβ = m) gilt λ = 0. Daraus bestimme (zweiseitigen) p-Wert fur dielineare Hypothese H: p-Wert = 1 − F (q, n − p, )(FS).

Aufgabe Bestimme den kleinsten Quadrate Schatzer unter der linearen NebenbedingungAβ = m.

Page 28: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

24 1 LINEARE REGRESSION

1.5 Modelldiagnostik

Ein wesentlicher Teil der Analyse besteht darin zu untersuchen, ob das lineare Regressions-modell fur die vorliegenden Daten angemessen ist. Fragen, die dabei geklart werden sollten,sind etwa: a. Sind die Fehler ǫi wirklich normalverteilt und haben gleiche Varianz? b. liegenAusreißer in den Daten vor? c. Gibt es Cluster (Gruppen) in der Population? d. welche Be-obachtungen beeinflussen die Schatzung besonders stark? e. wieviel Streuung wird aus demModell heraus erklart? f. ist die Regressionsfunktion wirklich linear, sollte weitere Kovariableberucksichtigt werden? In diesem Abschnitt lernen wir Methoden kennen, um diese Fragenzu beantworten.

1.5.1 Das Bestimmtheitsmaß R2

Welcher Anteil der Streuung in den Daten wird durch das Modell erklart?

Angenommen, X = (1n, ∗), 1n = (1, . . . , 1)T ∈ Rn, enthalt den Achsenabschnitt. Dann gilt:

(I − PX)1n = 0

Mit Y = 1n

∑ni=1 Yi gilt5:

n∑

i=1

(Yi − Y )2

︸ ︷︷ ︸Gesamtstreuung

= ‖Y − Y 1n‖2

= ‖Y − Y + Y − Y 1n‖2

= ‖Y − Y ‖2 + ‖Y − Y 1n‖2 + 2 〈Y − Y , Y − Y 1n〉︸ ︷︷ ︸=0 (s.u.)

wobei ‖Y − Y 1n‖2 aus Regression erklarte Streuung und ‖Y − Y ‖2 Reststreuung (Summe derquadrierten Residuen) ist.

〈 Y − Y︸ ︷︷ ︸=(I−PX)Y

, Y︸︷︷︸=PXY

−Y 1n〉 = Y T (I − PX)PX︸ ︷︷ ︸=0

Y − Y T (I − PX)1n︸ ︷︷ ︸=0

Y = 0

Streuungszerlegung

‖Y − Y 1n‖2 = ‖Y − Y 1n‖2 + ‖Y − Y ‖2

Bestimmtheitsmaß

R2 =‖Y − Y 1n‖2

‖Y − Y 1n‖2, 0 ≤ R2 ≤ 1.

5Erinnerung: Y = XβLS

Page 29: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.5 Modelldiagnostik 25

Je großer das Bestimmheitsmaß, desto großer der Anteil der aus dem Modell heraus erklartenStreuung. Es gilt

R2 = 1 − ‖Y − Y ‖2

‖Y − Y 1n‖2=

∑ni=1(Yi − Y )2∑ni=1(Yi − Y )2

Bemerkung Ein Problem des R2 ist, dass es mit weiteren Kovaraiblen nur wachsen kann.Daher betrachtet man auch das gewichtete (adjusted) R2:‖Y − Y ‖2:

”n-p Freiheitsgrade“, ‖Y − Y 1n‖2:

”n-1 Freiheitsgrade“, also gewichtetes R2:

R2a = 1 − ‖Y − Y ‖2/(n − p)

‖Y − Y 1n‖2/(n − 1)

= 1 − n − 1

n − p

‖Y − Y ‖2

‖Y − Y 1n‖2

= 1 − n − 1

n − p(1 − R2)

1.5.2 Residuen-Analyse

Das wichtigstes Werkzeug der Diagnostik ist die Residuenanalyse.

a. Residuum εi = Yi − Yi, ǫ = (ǫ1, . . . , ǫn)T . ε ∼ N (0, σ2(I − PX))6. Also

Var εi = σ2(1 − (PX)ii), Cov εiεj = −σ2(PX)ij

b. skalierte Residuen: εi = εi

σ .

c. studentisierte Residuen: ri = εi

σ(1−(PX)ii)12

Diagnostische Plots:

• predicted value gegen (skalierte, studentisierte) Residuen : plotte also (Yi, εi), i =1, . . . , n.

• qq-Plots der Residuen gegen die Normalverteilung7

Hinweis: Plots zu Beispielen mit Abweichungen folgen!

AufgabeBei Vorliegen des Achsenabschnitts kann man schreiben:

(PX)ii =1

n+ (xi − x)T (XT X)−1(xi − x)

6Erinnerung: Y = Xβ = PXY7Vergleichswerte sind Quantile der Normalverteilung

Page 30: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

26 1 LINEARE REGRESSION

1.5.3 Weitere diagnostische Plots

a. Scatterplot Matrix: Matrix, die Scatterplots aller Variablen gegeneinander enthalt. Diesesollte stets zu Beginn betrachtet werden, um etwa Kolinearitat zwischen Kovariablenoder Cluster oder schiefe Verteilungen der Kovariablen (dann eventuell Transformation)zu erkennen.

b. Added Variable PlotsFrage: Wieviel erklart ein zusatzlicher Pradiktor? Sollte man diesen in das Modell auf-nehmen?

X = [v1 . . . vp−1|v], vi, v ∈ Rn

Y = Xβ + ε = v1β1 + . . . + vp−1βp−1 + vβp

Welcher Teil wird nicht schon durch X1 = [v1 . . . vp−1] erklart?

(I − PX1)Y = (I − PX1)vβ + (I − PX1)ε

→ Plotte (I − PX1)Y (Residuen aus Regression Y auf X1) gegen (I − PX1)v (Residuenaus Regression v auf X1).

In der Tat gilt (Aufgabe):

‖Y − PXY ‖2 +(Y T (I − PX1)v)2

‖(I − PX1)v‖2= ‖Y − PX1Y ‖2

c. Partial residuals plotWieder den Effekt von Pradiktor xi graphisch isolieren!Plotte dazu (xij , εj + βixij), j = 1, . . . , nund zugehorige Regression.

Beachte zur Motivation:yj −

l 6=i

xlj βl = xij βi + εj

Hinweis:

Plots folgen!

1.5.4 Transformation

Manchmal mussen Kovariable und/oder die abhangige Variable transformiert werden, damitein lineares Regressionsmodell vorliegt. Kovaraiblen transformiert man, falls sie etwa ausge-prag schief sind. Bei Transformationen, die auch die abhangige Variable betreffen, andert sichi.a. die Fehlerstruktur, wie infolgendem Beispiel.

Beispiel: Modelly = β0 · xβ1 · ε

Logarithmieren:log y = log β0 + β1 log x + log ε

Page 31: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.5 Modelldiagnostik 27

Erhalte lineares Modell, falls log ε ∼ N (0, σ2).

NOCH: TRANSFROMATION EINNZELNER KOVARIABLER

Transformation der abhangigen Variable: Box-Cox-Tramsformation

Die Familie der Box-Cox Transformationen stellt eine wichtige Klasse zur Transformation vonpositiven abhangigen Variablen dar. Dabei wird die optimale Transformation mit Hilfe derMaximum Likelihood Methode ermittelt.

Die Box-Cox-Transformationen haben folgende Form: Fur y > 0

fλ(y) =

yλ−1

λ , λ 6= 0log(y), λ = 0

Beachte: fλ(y) → f0(y), (λ → 0) (l’Hopitalsche Regel)

Annahme: Fur ein λ gilt:

fλ(y) = xT β + ε, ε ∼ N (0, σ2).

Sei Z := fλ(Y ) =(fλ(y1), . . . , fλ(yn)

)T(komponentenweise). Dann gilt fur t ∈ R

n:

P (Y ≤ t) = P (Y1 ≤ t1, . . . , Yn ≤ tn) = P (f−1λ (Z) ≤ t) = P (Z ≤ fλ(t)).

Bilden der partiellen Ableitungen ∂1 . . . ∂n liefert die Dichte8:

1

(2π)n2 σn

exp(−(fλ(Y ) − Xβ)T (fλ(Y ) − Xβ)

2σ2) ·

n∏

i=1

dfλ(yi)

dyi

Es ist dfλ(y)dy = yλ−1und somit gilt fur die Log-Likelihood-Funktion:

Ln(β, σ2λ) = −n

2(log(2π) + log σ2)− (fλ(Y ) − Xβ)T (fλ(Y ) − Xβ)

2σ2+ (λ− 1)

n∏

i=1

log yi. (11)

Schatze Parameter (β, σ2, λ) gemeinsam mit Maximum Likelihood, also durch Maximierenvon (11).

Fur festes λ erhalt manβλ

ML = βLS = (XT X)−1XT fλ(Y ),

σ2,λML =

1

nfλ(Y )T (I − PX)fλ(Y ).

Es ergibt sich fur die Log-Likelihood in Abhangigkeit von λ:

Ln(λ) = −n

2log σ2,λ

ML − n

2log(2π) − n

2+ (λ − 1)

n∏

i=1

log(yi).

8auch direkt aus Transformationssatz Stochastik II, Y = f−1λ (Z)

Page 32: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

28 1 LINEARE REGRESSION

Wahle λ so, dass Ln(λ) maximal wird, und dann βλML und σ2,λ

ML als ML Schatzer der anderenParameter.

Nun konnen mit dem Likelihood Quotienten Test Hypothesen der Form Hλ0 : λ = λ0 getestetwerden, da unter Hλ0 ,

Ln(λ) − Ln(λ0)d→ χ2

1.

Insbesondere kann die Hypothese H1 : λ = 1, also das keine Transformation benotigt wird,getestet werden. Durch Invertieren des LQ Tests erhalt man ein Konfidenzintervall zum (asym-ptotischen) Niveau α > 0 fur λ: Konfidenzintervall fur λ:

CI = λ : Lmax(λ) − Lmax(λ) <1

2χ2

1(1 − α)

Verwerfe H1, d.h. transformiere, falls 1 /∈ CI.

Literatur

Box, G. E. P. and Cox, D. R. (1964). An analysis of transformations. (With discussion) J.Roy. Statist. Soc. Ser. B 26, 211–252.

1.5.5 Ausreißer, Leverage- und Influenz-Punkte

Im Folgenden wird untersucht, welchen Einfluss auf die Schatzung die spezielle Beobachtung(Yi, xi) fur ein festes i hat.

Zunachst etwas Notation und ein Lemma. Sei X ∈ Rn×p und X(i) ∈ R

(n−1)×p die Matrix, dieentsteht, wenn in X die i-te Zeile weggelassen wird. Schreibe

X =

xT1...

xTn

, hii = xT

i (XT X)−1xi = (PX)ii

Lemma 1.12

(XT(i)X(i))

−1 = (XT X)−1 +(XT X)−1xix

Ti (XT X)−1

1 − hii(1)

Beweis

A = XT X =n∑

j=1

xjxTj

SomitXT

(i)X(i) = A − xixTi

Multipliziere (1) von rechts mit A − xixTi und erhalte die Einheitsmatrix I.

Page 33: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.5 Modelldiagnostik 29

Schatzer ohne die Beobachtung (Yi, xi). Dafur schreibe

β(i) = (XT(i)X(i))

−1XT(i)Y(i)

σ2(i) =

1

n − p − 1Y T

(i)(In−1 − PX(i))Y(i)

Lemma 1.13

a. β(i) = β − (XT X)−1xiεi

1 − hii

b. σ2(i) = σ2 · ( n − p − 1

n − p − r2i

)−1

mit9

ri =εi

σ(1 − hii)12

Beweisa. Nachrechnen mit (1) und

β(i) = (XT(i)X(i))

−1(XT Y − xiYi)

b. Nachrechnen mit (1) und

(n − p − 1)σ2(i) = Y T Y − Y 2

i − ((Y T X − YixTi )(XT

(i)X(i))−1(XT Y − Yixi))

Ausreißer-Test (Outlier-Test, R-student)Ein Aussreißertest untersucht, ob eine spezielle abhangige Beobachtung Yi nicht dem Modellfolgt, also nicht in der Weise Yi = xT

i β + ǫi entsteht, insbesondere einen anderen Erwartungs-wert als xT

i β hat.

Die Vorhersage von Yi durch xi und die ubrigen Daten ist Yi = xTi β(i).

Falls Yi kein Ausreißer ist, dann ist

E(Yi − Yi) = 0.

Weiter ist (wie bei Vorhersageintervallen)

Var Yi = σ2xTi (XT

(i)X(i))−1xi

Bilde t-Statistik ti (R-student Statistik):

ti =Yi − Yi

σ(i)(1 + xTi (XT

(i)X(i))−1xi)12

.

9Erinnerung: εi = Yi − Yi = Yi − (Xβ)i

Page 34: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

30 1 LINEARE REGRESSION

Diese hat (bei normalverteilten Fehlern) eine tn−p−1-Verteilung.10

Also: Falls |ti| > t1−α2

,n−p−1, dann Ausreißer!Beachte: Falls verschiedene Beobachtungen daraufhin untersucht werden, ob sie ausreißersind, muß man das Niveau α adjustieren an die Anzahl der Tests, etwa α/m, falls man bei mBeobachtungen testet!.

Die Statistik ti kann in einfacherer Weise berechnet werden mit Hilfe des folgenden

Lemma 1.14

xTi (XT

(i)X(i))−1xi =

hii

1 − hii

BeweisDirekt aus Lemma 1.12.

Mit Lemma 1.13, 1.14 und Yi − Yi = (1 + hii

1−hii)εi zeigt man

ti = ri ·(

n − p − 1

n − p − r2i

) 12

Leverage-Punkte, Hat-MatrixHigh Leverage Punkte sind ungewohnliche Werte der Kovariable x, die die Modellanpassungunter Umstanden stark beeinflussen. Da gilt Var εi = σ2(1−hii), gilt, dass je großer hii, destokleiner Var εi. Somit muss das i-te Residuum kleine Varianz haben, die Anpassung ist um Yi

herum eingeschrankt. Daher nennt man Kovariablen xi fur große Werte hii der Hat MatrixLeverage Punkte. “Groß” wird dabei folgender Weise quantifiziert:

Es gilt

n∑

i=1

hii = Spur(PX) = Spur(X(XT X)−1XT )

= Spur((XT X)(XT X)−1)

= Spur(Ip)

= p

Also ist ein typischer Wert hii von der Große ≈ pn

Richtlinie: Fur hii > 2pn ungewohnlich.

BemerkungKeine Theorie moglich ohne Details zur Verteilungsannahme der xi!

10vergleiche Abschnitt 1.3

Page 35: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.5 Modelldiagnostik 31

Influenz-PunkteHier wird die Frage gestellt: Welchen zusatzlichen Effekt hat die Beobachtung (Yi, xi) (alsodas Beobachtungspaar) auf den Schatzer βLS?

Dazu betrachte Cook’s Abstand:

Di =(β(i) − β)T (XT X)(β(i) − β)

pσ2

(∗)=

r2i

p(

hii

1 − hii)

(∗): Lemma 1.13 und 1.14

Keine exakte Verteilungstheorie fur Di!

Heuristische Regel: Fur |Di| > 1 ist (Yi, xi) ”influential“ (da 1 ≈ F0,5;p;n−p), hat also großen

zusatzlichen Einfluss auf den Schatzer von β.

Cook, R. D. (1979) Influential observations in linear regression. J. Amer. Statist. Assoc. 74,169–174.

Cook, R. D. (1977) Detection of influential observation in linear regression. Technometrics19, 15–18.

Page 36: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

32 1 LINEARE REGRESSION

1.6 Variablen-Selektion und Shrinkage Schatzung

1.6.1 Selektionsmethoden

Wir betrachte wieder das lineare Regressionsmodell

Y = β1x1 + β2x2 + . . . + βpxp + ε,

wobei typischer Weise x1 = 1 den Achsenabschnitt beschreibt.

Ziel: Wahle die relevanten Kovariablen xi, also diejenigen mit βi 6= 0, die also die abhangigeVariable in der Tat beeinflussen.

Dabei unterscheidet man folgende Modellstrukturen:

a. verschachtelte Modelle (nested Models)Bei verschachtelten Modellen gibt es eine naturliche Ordnung der Kovariablen, etwa beider polynomiale Regression

Y = β1 + β2x + . . . + βpxp−1 + ε.

Man schliesst dann alle Potenzen xi unterhalb eines zu wahlenden Grades p ein. Somitreduziert sich die Modellwahl auf die Wahl von p.

b. Allgemeine ModelleWahle eine beliebige Teilmenge xi1 , . . . , xir ⊂ x1, . . . xp aus den Kovariablen aus.Man behalt aber typischer Weise (aber nicht immer) den Achsenabschnitt x1 = 1 imModell, und wahlt nur innerhalb der anderen Kovariablen aus.

Modellwahl Strategien

1. Backward EliminationStarte mit allen Kovariablen und eliminiere nach einem betimmtem Kriterium systema-tisch nacheinander Kovariablen, bis ein Modell erreicht wird, bei dem keine Kovariablemehr das Kriterium erfullt, bei dem diese noch eliminiert wurde.

2. Forward SelectionStarte nur mit dem Achsenabschnitt x1 und nimm sukzessive nach einem bestimm-ten Kriterium Kovariablen hinzu, solange, bis das Kriterium von keiner verbleibendenKovariablen mehr erfullt wird.

3. Stepwise Regressioneine Kombination aus den Verfahren 1. und 2., es sind verschiedene Ausgestaltungenmoglich.

4. All subset selectionWahle unter allen moglichen 2p Teilmodellen (bzw 2p−1, falls der Achsenabschnitt festim Modell integriert ist) dasjenige aus, welches nach einem bestimmten Kriterium op-timal ist.

Page 37: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.6 Variablen-Selektion und Shrinkage Schatzung 33

1.6.2 Test-basierte Methoden

Entscheide aufgrund sukzessiv durchgefuhrter t-Tests oder F-Tests, ob Kovariablen hinzuge-nommen bzw. verworfen werden.

1. Backward EliminationEliminiere sukzessive diejenige Kovariable mit dem großten p-Wert, solange dieser großerals ein Schwellwert (haufig 0,05) ist.t-Test: hier wird jeweils der t-Test daraufhin ausgefuhrt, ob ein Koeffizient einer Kova-raible des bereits reduzierten Modells gleich null ist. F-Test: hier wird im reduziertenModell eine weitere Kovariable ausgewahlt, und eine F-Test gegen das volle Modell aus-gefuhrt, d.h. es wird getestet, ob der Koeffiziten dieser ausgewahlten Kovariable desreduzierten Modells sowie alle Koeffizienten der bereits eliminierten Kovariablen gleichNull sind.

2. Forward SelectionNimm sukzessive diejenige Kovariable mit dem kleinsten p-Wert hinzu, solange dieserkleiner als 0,05 ist. Hier gibt es keinen Unterschied ziwschen t-Test und F-Test.

1.6.3 Informationskriterien

Informationskriterien (Information Criteria, ICs) sind Zahlen, die die Gute der Anpassungdes Modells relativ zu dessen Komplexitat erfassen. Typischerweise gilt:

a. Je besser die Anpassung, desto kleiner das IC.

b. Je komplexer, desto großer das IC.

Wahle Modell mit moglichst kleinem IC.

1. Backward EliminationEliminiere Kovariable, so dass sich das IC am meisten verringert. Stoppe, falls es sichbei keiner Elimination mehr verringert.

2. Forward SelectionNimm Kovariable hinzu, so dass sich das IC am meisten verringert. Stoppe, falls es sichbei Hinzunahme einer Kovariable nicht mehr verringert.

3. Stepwise RegressionNimm eine der Kovariablen, die aktuell dem Modell nicht angehort, hinzu, oder eli-miniere eine der zugehorigen Kovariablen, so dass sich das IC am meisten verringert.Stoppe, falls es sich nicht mehr verringert.

4. All subset selectionWahle Modell aus allen Modellen mit dem kleinstem IC.

Page 38: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

34 1 LINEARE REGRESSION

1.5.3.1 Akaike’s InformationskriteriumBetrachte das lineare Regressionsmodell (M) mit Design Matrix X = XM und normalverteil-ten Fehlern

(M) : Y = XMβ + ε, ε ∼ N (0, σ2In).

Die Dichte von Y ist gegen durch

f(Y |X, β, σ2) =1

(2π)n2 σn

exp(−‖Y − Xβ‖2

2σ2).

Dies fuhrt zur Log-Likelihood:

L(β, σ2) = log f(Y |X, β, σ2) = −‖Y − Xβ‖2

2σ2− n

2log σ2 − n

2log(2π),

und man berechnet die Maximum Likelihood Schatzer (vgl. Abschnitt ??) als βML = βLS =(XT X)−1XT Y und σ2

ML = 1n‖Y − Xβ‖2. Somit ist der maximale Wert der Log-Likelihood

FunktionL(β, σ2

ML) = −n

2− n

2log σ2

ML − n

2log(2π). (12)

Man definiert nun Akaike’s Informationskriterium (AIC) wie folgt:

AIC(M) = −2L(β, σ2ML) + 2(dimβ + 1),

dabei beschreibt L(β, σ2ML) die Gute der Anpassung des Modells (M) und (dimβ + 1) (die

Anzahl der Parameter, die +1 kommt vom Parameter σ2) die Komplexitat des Modells.

Man wahlt nun ein Modell (M), also diejenigen Kovariablen mit resultierender Design MatrixXM , die zu kleinem AIC fuhren.Vernachlassigt man die Konstanten, so kann man aquivalent zu AIC auch

AIC(M) = −n log σ2ML − 2(dim β + 1)

benutzen.

Motivation des AIC uber den Kullbach-Leibler-AbstandWieso wird gerade der spezielle Strafterm 2(dimβ + 1) benutzt? Insbesondere scheint dieWahl der 2 zunachst willkurlich, diese lasst sich aber uber den Kullback-Leibler (KL) Abstandmotivieren.

Das Modell (M) ist gegeben durch Yi = xTi β + εi, εi ∼ N (0, σ2). Angenommen, der wahre

Zusammenhang ist(W ) Yi = ξ(xi) + εi,

somit ist bedingte Dichte g(yi|xi) ∼ N (ξ(xi), σ2)

Wir nehmen jetzt eine zufalliges Design an, also sind die xi zufallig, unabhangig, mit Dichteh(x). Dann ist der KL-Abstand zwischen g(y|x) und f(y|x, β, σ2) bedingt auf x:

KLx(g(y|x), f(y|x, β, σ2)) =

∫g(y|x) log

g(y|x)

f(y|x, β, σ2)dy,

und

KL =

∫KLx h(x)dx.

Page 39: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.6 Variablen-Selektion und Shrinkage Schatzung 35

Maximum Likelihood im Modell (M) schatzt nun die Parameter β, σ2 derart, dass der KL-Abstand zum wahrem Modell (W ) minimal wird.

Wir zeigen im Folgenden in einem speziellen Fall: Mit dem AIC wahlt man im Mittel dasje-niege Modell aus, bei dem bei geeigneter (maximum likelihood) Wahl der Parameter der KLAbstand zum wahren Modell (W ) minimal wird. Dazu aquivalent ist:

KL =

∫ ∫g(y|x) log f(y|x, β, σ2)dy h(x)dx.

KL wird erwartungstreu geschatzt durch

1

nLn(β, σ2) =

1

n

n∑

i=1

log f(Yi|xi, β, σ2).

Fur Modellwahl: Wahle Modell, welches im Mittel bei geeigneter (Maximum Likelihood) Wahlder Parameter den kleinsten KL-Abstand zum wahren Modell (W ) hat, d.h. wahle Modell(M), so dass

Rn = Eg,h

∫ ∫g(y|x) log f(y|x, βML, σ2

ML)dy h(x)dx,

βML, σ2ML die ML Schatzer im Modell (M), maximal wird. Dies ist nicht direkt moglich, denn

Rn muss geschatzt werden. Wir approximieren Rn in zwei Schritten: Ersetze Integration in xdurch Summation:

Rn =1

n

n∑

i=1

Eg

∫g(y|xi) log f(y|xi, βML, σ2

ML)dy

=1

n

n∑

i=1

Eg

∫(−(y − xT

i β)2

2σ2ML

− log σ − 1

2log 2π)g(y|xi)dy

= − log σ − 1

2log 2π − 1

n

n∑

i=1

Eg((ξ(xi) − xT

i β)2

2σ2ML

+σ2

2σ2ML

)

Wegen (12) ist dann

Eg(1

nLn(β, σ2

ML)) − Rn = −1

2+

1

2n

n∑

i=1

Eg(((ξ(xi) − xT

i β)2

σ2+ 1) · σ2

σ2ML

)

Von jetzt an betrachten wir den Spezialfall, dass (M) das wahre Modell enthalt (eventuellsind zu viele Kovariable enthalten). Dann ist ξ(xi) = xT

i β,

σ2

σ2ML

∼ n · 1

χ2n−p

,

und σ2ML und β sind unabhangig. Somit (benutze E 1

χ2n−p

= 1n−p−2 , REFERENZ):

Eg(1

nLn(β, σ2

ML)) − Rn = −1

2+

1

2(

n + p

n︸ ︷︷ ︸von 1

nE(εT PXε)+1

· n

n − p − 2) =

p + 1

n − p − 2

Page 40: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

36 1 LINEARE REGRESSION

Wir haben somit einen Schatzer von Rn hergeleitet:

1

nLn(β, σ2

ML) − p + 1

n − p − 2,

dieser gibt Anlass zur Definition des korrigierten (corrected) AIC, AICc,

AICc = −2Ln(β, σ2ML) + 2

(p + 1)n

n − p − 2

Fur n groß im Verhaltnis p ist dies nah am klassischen AIC.

Literatur:

Akaike, H. (1974), A new look at the statistical model identification. System identificationand time-series analysis. IEEE Trans. Automatic Control 19, 716–723.

Burnham, K. P. and Anderson, D. R. (2002), Model selection and multimodel inference. Apractical information-theoretic approach. 2nd edn, Springer-Verlag: New York.

Hurvich, C. M.; Tsai, C. L. (1989) Regression and time series model selection in small samples.Biometrika 76, 297–307.

Claeskens, G. und Hjort, N. L. (2008) Model selection and model averaging. CambridgeUniversity Press

1.5.3.2 Bayessches Informationskriterium Eine zum AIC alternative Wahl ist dasBayessche Informationskriterium BIC, bei dem die Komplixitat des Modells mit zunehmenderStichprobengroße immer mehr bestraft wird,

BIC(M) = −2Ln(β, σ2ML) + log(n) (dim β + 1) log n.

Ziel ist wieder die Wahl eines Modells mit moglichst kleinem BIC(M).

Motivation Das BIC ergibt sich als asymptotische Version eines maximalen a-posterioriAnsatzes, wobei die a-priori-Verteilung von der Form

M

αMµM (13)

ist. Dabei wird die Summe uber alle mogliche Modelle M gebildet, αM ist die Wahrschein-lichkeit fur die Auswahl des Modells M, und µM ist eine stetige, lokal von 0 weg beschrankteVerteilung auf den Parametern von M.

Eine Maximm a-posteriori Modellwahl wurde wie folgt erfolgen: Wahle (M) so, dass P (M |Y )maximal, also derart, dass die a-posteriori Wahrscheinlichkeit des Modells, gegeben die Daten,maximal wird. Nach Bayes gilt

P (M |Y ) =P (Y |M) · P (M)

P (Y )

prop.≈ P (Y |M) · P (M)

(da P (Y ) nicht von M abhangt).

Page 41: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.6 Variablen-Selektion und Shrinkage Schatzung 37

Es ist P (M) = αM , P (Y |M) ∼ N (XMβM , σ2IM ). Also wahle M, so dass

L(M) = αM

∫1

(2π)n2 σn

exp(−(Y − XMβM )T (Y − XMβM )

2σ2)dµM (βM , σ2). (14)

maximal wird. Es kann nun gezeigt werden, dass fur jede a-priori Verteilung der Form (13)das optimale Modell fur das Kriterium (14) asymptotisch das Modell mit maximalem BICist.

Literatur:

Schwarz, G. (1978), Estimating the dimension of a model. Ann. Statist. 6, 461–464.

Vegleich von AIC und BICZunachst bemerkt man, dass fur n ≥ 8 der Strafterm im BIC großer ist als der im AIC, daherwahlt das AIC tendenziell ein großeres Modell aus als das BIC, wobei sich dieser Effekt mitzunehmender Stichprobengroße verscharft.

Man kann nun folendes zeigen:

BIC ist konsistent: Falls ein festes Teilmodell zugrunde liegt, wahlt BIC dies asymptotischmit Wahrscheinlichkeit 1 aus.AIC wahlt in dieser Situation mit positiver Wahrscheinlichkeit auch großere Modelle aus.

Philosophie des AIC: Fur großeres n (Anzahl der Beobachtungen) durfen komplexere Modelleangepasst werden.

Fur AIC und BIC gilt: AIC und BIC haben als absolute Zahlen keine Bedeutung, sondernnur relativ zum Vergleich verschiedener Modelle. Werden die Daten transformiert, durfenAIC und BIC der ursprunglichen Modelle und der Modelle fur die transformierten Datennicht miteinander verglichen werden.

1.5.3.3 Mallow’s Cp Wir betrachten das lineare Regressionsmodell

(M) Y = Xβ + ε = X1β1 + X2β2 + ε, X1 ∈ Rn×p, X2 ∈ R

n×(q−p)

sowie das Teilmodell(S) Y = X1β + ε.

Die Varianz wird im vollen Modell (M) geschatzt durch

σ2 =‖Y − Xβ‖2

n − q

Das Modellwahlkriterium “Mallows’ Cp” berechnet sich dann als

Cp =‖Y − X1β1‖2

σ2− n + 2p

Komponenten von Cp:

Page 42: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

38 1 LINEARE REGRESSION

• ‖Y −X1β1‖2 (Residuell sum of squares, RSS): Qualitat der Anpassung des restringiertenModells (S); je großer X1, desto kleiner RSS.

• +2q: Komplexitat des restringierten Modells (S).

• σ2, n: zum Standardisieren, damit absolute Große von Cp Interpretation hat.

Man wahlt nun typischer Weise das Modell Y = X1β1 + ε mit moglichst kleinem Cp!

Motivation des Cp. Das Cp schatzt den Average Mean Square Error of Prediction (AM-SEP), welcher definiert ist durch

AMSEP(S) =1

σ2

i

E(Yi − EYi)2 =

1

σ2E‖X1β1 − Xβ‖2.

Zur Berechnung des AMSEP(S) setze MX1 = I − PX1 (idempotent) und

λ =βT

2 XT2 MX1X2β2

σ2.

Dann istβ1 = β1 + (XT

1 X1)−1XT

1 X2β2 + (XT1 X1)

−1XT1 ε

(der LS Schatzer im Modell (S) hat einen Bias, falls dieses nicht korrekt ist), und

X1β1 − Xβ = PX1ε + PX1X2β2 − X2β2︸ ︷︷ ︸=−MX1

X2β2

.

Es ergibt sich

AMSEP =1

σ2(EεT PX1ε + βT

2 XT2 MX1X2β2) = p + λ. (15)

Naturlich ist der AMSEP unbekannt (da β unbekannt).

Wir zeigen nun: Cp schatzt AMSEP.

Es istPX − PX1 = MX1X2(X

T2 MX1X2)

−1XT2 MX1 =: Q.

(orthogonale Projektion auf orthogonales Komplement der Spaltenvektoren von X1 im vonden Spaltenvektoren von X erzeugten Raum), und somit

(I − PX1)Y = (I − PX)Y + QY.

Außerdem ist (I − PX) · Q = 0 (da Q innerhalb von Spaltenraum von X). Es ergibt sich

Cp =‖Y − Xβ‖2 + Y T QY

σ2− n + 2p

= (n − q) · (1 +Y T QY

‖Y − Xβ‖2) − n + 2p

=(Y T QY )/(q − p)

σ2︸ ︷︷ ︸∼F (q−p,n−q, 1

2λ)

·(q − p) + 2p − q

Page 43: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.6 Variablen-Selektion und Shrinkage Schatzung 39

Beachte fur diese Rechnung die Satze 1.10 und 1.11 und βT XT QXβ = λ. Fur W ∼ F (q −p, n − q, 1

2λ) gilt (REFERENZ)

EW =(n − q)(q − p + λ)

(q − p)(n − q − 2)

Somit

ECp =n − q

n − q − 2(q − p + λ) + 2p − q

n→∞→ p + λ

Man konnte nun auch ein korrigiertes (dann erwartungstreues) Mallows’ Cp wie folgt definie-ren:

Ccp =

(n − q − 2)

n − q)

(Y T QY )

σ2+ 2p − q.

(dies wird aber ublicher Weise nicht verwendet.)

Bemerkungen

1. Das Cp ist zwar asymptotisch erwartungstreu fur den AMSEP, aber nicht konsistent,da die Varianz von Cp nicht gegen 0 konvergiert.

2. Das Modell mit minimalem AMSEP muss nicht unbedingt das minimale korrekte Mo-dell sein, es kann auch ein zu kleines Modell sein, falls λ < 1, vgl. (15). Daher wirdmachmal etwas wage empfohlen, das Modell mit moglichst kleinem Cp, das aber nichtzuviel großer als p sein sollte, zu wahlen. Dies fuhrt dann zu sogenannten Cp Plots, dieaber inzwischen nicht mehr besonders popular sind. Angesichts der Inkonsistenz des Cp

erscheint eine solche Anweisung auch etwas willkurlich, daher wahlt man gewohnlicheinfach das Modell mit kleinstem Cp.

3. Ein Vorteil des Cp gegenuber AIC und BIC ist, dass die absoluten Zahlenwerte (alsSchatzwerte fur den AMSEP) eine Bedeutung haben. Daher kann man mit dem Cp

auch Modelle fur transformierte und nicht transformierte Daten vergleichen.

Literatur:

Mallows, C. L. (1973), Some comments on Cp. Technometrics 15, 661–675

1.5.3.4 Cross Validation und Press-Statistic Die Press Statistik ist gegeben durch

Press =

n∑

i=1

(Yi − Yi)

wobei Yi = xTi β(i). Es gilt nach Lemma 1.13 Yi − Yi = εi

1−hii. Daher kann man schreiben

Press =n∑

i=1

(εi

1 − hii)2

Page 44: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

40 1 LINEARE REGRESSION

Man wahlt nun das Modell mit minimalem Press.

Literatur

Allen, David M. (1974) The relationship between variable selection and data augmentationand a method for prediction. Technometrics 16, 125–127.

Allen, David M. (1971) Mean Square Error of Prediction as a Criterion for Selecting Variables.Technometrics 13, 469-475

Page 45: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.6 Variablen-Selektion und Shrinkage Schatzung 41

1.6.4 Shrinkage Schatzer

Shrinkage Schatzer verkleinern tendenziell in einer gewissen Weise die sich aus der LS Schatzungergebenden Werte, sind also typischer Weise (nicht immer) im Absolutbetrag kleiner als dieEintrage von βLS Dies hat vor allem zwei Zwecke: a. Verringerung der Varianz der Schatzung,und b. falls Koeffzienten exakt auf 0 verkleinert werden konnen, liefert solch ein ShrinkageSchatzer automatisch eine Modellwahl. Solche Schrinkage Schatzer wollen wir im Folgendenkennenlernen. Wir beginnen jedoch zunachst mit der bereits bekannten

1.5.4.1 Ridge-Regression Fur den Ridge Parameter α > 0 erhalt man den Ridge Schatzerwie folgt:

βα = (αI + XT X)−1XT Y

Zeige als Aufgabe:

βα = argminβ(‖Y − Xβ‖2n + α‖β‖2

p)

Wieso fallt βα in die Klasse der Shrinkage Schatzer? Dazu betrachte den Fall eines orthogo-nalen Designs, XT X = Ip. Dann ist β = XT Y und

βα =β

1 + α

• Koeffizienten werden im Absolutbetrag kleiner. (dies gilt aber nicht unbedingt bei nicht-orthogonalem Design)

• Aber: Kein Koeffizient wird auf 0 reduziert.

Im Falle eines orthogonalen Designs gilt folgendes:Es existiert ein t = t(α) > 0, so dass βα Losung des folgenden Optimierungsproblems ist:

minimiere ‖Y − Xβ‖2n , unter Nebenbedingung ‖β‖2

p ≤ t. (16)

Beweisdirekt aus einem Lagrange Ansatz fur Extrema unter Nebenbedingungen.

1.5.4.2 Das Lasso (Tibshirani 1996)

LASSO steht fur: least absolute shrinkage and selection operator. Der LASSO Schatzer βLast

ist die Losung des folgenden Optimierungsproblems. Fur t > 0 fest (ein Regularisierungspa-rameter)

minimiere ‖Y − Xβ‖2n mit Nebenbedingung

p∑

k=1

|βk| ≤ t. (17)

Page 46: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

42 1 LINEARE REGRESSION

Bemerkunga. Das Minimierungsproblem (17) ist analog zu dem (16) fur den Ridge Schatzer,

b. Das LASSO kann Koeffizienten auf exakt 0 schatzen. Man hat also Modellwahl undSchatzung in einem Schritt.

c. Fur die explizite Berechnung:Reformuliere als quadratisches Minimierungsproblem mit den 2p Nebenbedingungen

±β1 ± . . . ± βp ≤ t

d. Es gilt: ‖Y − Xβ‖2n = ‖Y − XβLS‖2

n︸ ︷︷ ︸=const.

+‖X(βLS − β)‖2n Also ist (17) aquivalent zu:

minimiere (β − βLS)T XT X(β − βLS) mit Nebenbedingung

p∑

k=1

|βk| ≤ t.

• Man nimmt stets an, dass die Kovariablen auf Norm 1 standardisiert sind.

Lasso fur p = 2 Hier ist

XT X =

(1 γγ 1

), βLS = (β0

1 , β02)T

Minimiere (β1−β01)2 +(β2−β0

2)2 +2γ(β1−β01)(β2−β0

2). Dabei sind die Hohenlinien Ellipsen.Fur p = 2 gilt stets (hier o.E. βLS > 0):

βLasj = (βLS,j − γ)+ (3)

wobei γ bestimmt durch βLas1 + βLas

2 = t.

a+ =

a, a > 00, sonst

oder explizit

βLas1 = (

t

2+

β01 − β0

2

2)+, βLas

2 = (t

2− β0

1 − β02

2)+

Argument uber Hauptachsentransformation der Ellipse. Erhalte (β01 , β0

2), suche Projektionvon (β0

1 , β02) auf transformierte Raute bezuglich des euklidischen Abstands. Nach Drehung

liegt die Raute wieder auf den Koordinatenachsen. BILDER!!!

Nun nutze folgenden Satz uber Projektionen auf konvexe Mengen: Ist K konvex, dann ist yProjektion von x0 auf K falls

〈x0 − y, x − y〉 ≤ 0 ∀x ∈ K,

der Winkel also stets flach ist. Somit liegt Projektion auf Streckensegment S. Dort auflosenergibt eine quadratische Funktion, deren Losung liegt entweder beim Minimum oder auf dem

Page 47: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.6 Variablen-Selektion und Shrinkage Schatzung 43

Rand der Strecke. Ein Lagrange-Ansatz fur das uneingeschranktes Maximum auf der Geradenentlang der Strecke S liefert

(1, 1) = λ · (2(β1 − β01) + 2γ(β2 − β0

2), 2(β2 − β02) + 2γ(β1 − β0

1))

Lose auf und bekomme explizite Form.

Fur p ≥ 3 gilt die allgemeine Form (3) im allegemeinen nicht mehr, nur noch im orthogonalenDesign. Gilt XT X = Ip, dann existiert ein γ = γ(t), so dass

βLasj = sign(βLS,j)(|βLS,j | − γ)+ (4)

Fur ein nicht orthogonales Design konnen die Koeffizienten das Vorzeichen wechseln.

Literatur

Tibshirani, R. (1996) Regression shrinkage and selection via the lasso. J. Roy. Statist. Soc.Ser. B 58, 267–288.

1.5.4.3 Nonnegative Garrote (Breiman 1995)Sei β = βLS der LS-Schatzer. Wahle nun cj so, dass

k

(Yk −∑

j

cj βjxjk)2

minimal wird unter der Nebenbedingung cj ≥ 0 und∑

j cj ≤ s fur ein s > 0.Dann ist der Garotte Schatzer

βGars,j = cj βj

Im orthogonalen Design erhalt man

cj = (1 − λ2

β2j

)+

wobei λ aus s und∑

j cj = s bestimmt wird. Also im orthogonalen Design ahnlich wie dasLASSO, ansonsten konnen aber erhebliche Abweichungen auftreten.

Literatur

Breiman, L. (1995) Better subset regression using the nonnegative garrote. Technometrics 37,373–384.

1.6.5 Inferenz nach Modellwahl

BeobachtungDer Modellwahlschritt hat Auswirkungen auf die folgende Verteilung des Schatzers im schließ-lich gewahlten Modell.

ResultateWenn aus denselben Daten das Modell gewahlt wird und anschließend die Parameter geschatzt

Page 48: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

44 1 LINEARE REGRESSION

werden, verlieren die bisher hergeleiteten Verteilungsresultate ihre Gultigkeit. Der resultie-rende Schatzer kann bezuglich MSE sehr schlechte Eigenschaften haben und auch nicht nor-malverteilt sein.

Illustration an einem einfachen Beispiel Wir betrachten ein lineares Regressionsmodellmit zwei Kovariablen und normalverteilten Fehlern mit bekannter Varianz von 1, und einTeilmodell mit nur einer Kovariable

Yi = xi1β1 + xi2β2 + εi, εi ∼ N (0, 1) (M) ,

Yi = xi1β1 + εi (R)

Annahme:

(XT X

n)−1 =

(σ2

1 σ1σ2

σ1σ2 σ22

)→ Σ > 0

Es gilt:√

n(βM − β) ∼ N (0, Σ), wobei βM = (βM1 , βM

2 )T der LS-Schatzer im großen Modell

(M) ist. Wahle zwischen (M) und (R). Unter H0 : β2 = 0 ist√

nβ2

σ2∼ N (0, 1). Daher betrachte

ein Modellwahlverfahren basierend auf dem t-Test.

Modellwahlverfahren

Falls Tn = |√

nβ2

σ2|

≤ cn, wahle (R)> cn, wahle (M)

Satz 1.15Falls cn → ∞ so, dass cn√

n→ 0, dann ist das obige Modellwahlverfahren konsistent, d.h. mit

einer gegen 1 konvergierenden Wahrscheinlichkeit wird das richtige Modell gewahlt.

BeweisAngenommen, (R) ist richtig, also β2 = 0. Dann:

P (wahle (R)) = P (Tn ≤ cn) = Φ(cn) − Φ(−cn) → 1, da cn → ∞

(Φ Verteilungsfunktion der Standardnormalverteilung)

Angenommen, (M) ist richtig, also β2 6= 0.O.E. β2 > 0. Dann:

P (wahle (R)) ≥ P (

√nβ2

σ2> cn) = P (

√n(β2 − β2)

σ2> cn −

√nβ2

σ2) = 1 − Φ(cn −

√nβ2

σ2︸ ︷︷ ︸→−∞

) → 1

da cn√n→ 0 und σ2 von 0 weg beschrankt bleibt.

Der Schatzers von β1 nach Modellwahl, βpost1 , ergibt sich nun als

βpost1 =

βM

1 , Tn > c,

βR1 , Tn ≤ cn

Page 49: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.6 Variablen-Selektion und Shrinkage Schatzung 45

Wegen der Konsistenz der Modellwahlprozedur gilt:

fur festes β2 6= 0 : P (βpost1 6= βM

1 ) → 0

fur β2 = 0 : P (βpost1 6= βR

1 ) → 0

Also ist konsistente Modellwahl scheinbar kein Problem. Aber man kann zeigen: Es gibt eineUmgebung U von 0, so dass fur beliebig (hinreichend) großes n stets ein β1 ∈ U existiert,

so dass der Abstand der Verteilungen L(βpost1 ) und L(βM

1 ) groß ist, welches auch zu großenmittleren quadratischen Fehlern und Konfidenzintervallen mit realer Uberdeckungswarschein-

lichkeit, die gegen 0 konvergiert, fuhrt. Wir illustieren dies, indem wir die Dichte von βpost1

berechnen und fur einige Parameter Werte plotten.

Satz 1.16Die Zufallsvariable

√n(β

post1 − β1) hat die Dichte

fPost(t) =1

σ1(1 − 2)12

φ(t +

√nσ1

σ2β2

σ1(1 − 2)12

) · (Φ(cn −√

nβ2/σ2

σ1) − Φ(

−cn −√nβ2/σ2

σ1))

+1

σ1φ(

t

σ1)(1 − Φ(

√nβ2

σ2+

σ1t + cn

(1 − 2)12

+ Φ(

√nβ2

σ2+

σ1t − cn

(1 − 2)12

)),

wobei φ die Dichte und Φ die Verteilungsfunktion der N (0, 1) Verteilung ist.

BILDER!!! WEIT WEG VON DER NORMALVERTEILUNG!

Beweis (von Satz 1.16)Es ist

P (√

n(βpost1 − β1) ≤ t) = P (Tn ≤ cn,

√n(βR

1 − β1) ≤ t)︸ ︷︷ ︸=:A1(t)

+ P (Tn > cn,√

n(βM1 − β1) ≤ t)︸ ︷︷ ︸

=:A2(t)

.

Die Dichte erhalt man dann durch Ableiten nach t.

Betrachte zunachst A2(t):

P (Tn > cn,√

n(βM1 − β1) ≤ t) = P (

√n(β2 − β2) ≥ σ2cn −√

nβ2,√

n(βM1 − β1) ≤ t)︸ ︷︷ ︸

=:A21(t)

+ P (√

n(β2 − β2) ≤ −σ2cn −√nβ2,

√n(βM

1 − β1) ≤ t)︸ ︷︷ ︸=:A22(t)

Sei φ(x, y,Σ) die Dichte von N (0, Σ), φ(y|x,Σ) die bedingte Dichte von y|x bei (x, y) ∼N (0, Σ) und φ(t) die Dichte von N (0, 1). Dann:

A21(t) =

∫ t

−∞

∫ ∞

σ2cn−√

nβ2

φ(x, y,Σ)dy dx =

∫ t

−∞

∫ ∞

σ2cn−√

nβ2

φ(y|x,Σ)1

σ1φ(

x

σ1)dy dx.

Ableiten nach t liefert

A′21(t) =

1

σ1φ(t/σ1)

∫ ∞

σ2cn−√

nβ2

φ(y|t, Σ)1

σ1dy

Page 50: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

46 1 LINEARE REGRESSION

und es ist φ(y|t, Σ) die Dichte von N (σ2σ1

t, (1 − 2)σ22). Also

A′21(t) =

1

σ1φ(tσ1)

(1 − Φ

(σ2cn −√nβ2 − σ2

σ1t

(1 − 2)12 σ2

))

=1

σ1φ(tσ1)Φ

(√nβ2

σ2+

σ1t − cn

(1 − 2)12

). (18)

Analog berechnet man

A′22(t) =

1

σ1φ(tσ1)

(1 − Φ

(√nβ2

σ2+

σ1t + cn

(1 − 2)12

)). (19)

Jetzt berechne A1(t):

A1(t) = P(− σ2cn −√

nβ2 ≤ √n(βM

2 − β2) ≤ σ2cn −√nβ2,

√n(βR

1 − β1) ≤ t)

Man benotigt also die gemeinsame Verteilung von (βR1 , βM

2 ). Dazu verwenden wir die Inver-tierungsformel (

a bb c

)−1

=1

ac − b2

(c −b−b a

)

Fur X = (X1, X2) liefert dies

XT X =

(XT

1 X1 XT1 X2

XT1 X2 XT

2 X2

).

Somit:

Σ/n =1

XT1 X1XT

2 X2 − (XT1 X2)2

(XT

2 X2 −XT1 X2

−XT1 X2 XT

1 X1

)

und auch1

n

(XT

1 X1 XT1 X2

XT1 X2 XT

2 X2

)=

1

σ21σ

22(1 − 2)

(σ2

2 −σ1σ2−σ1σ2 σ2

1

)

Nun ist βR1 = XT

1 Y/XT1 X1, also

EβR1 = β1 +

XT1 X2

XT1 X1

β2 = β1 −σ1

σ2β2, Var

(√n(βR

1 − β1

)=

n

XT1 X1

=1

σ21(1 − 2)

.

Weiter berechnet sich βM2 explizit aus βM = (XT X)−1XT Y als

βM2 =

−XT1 X2X

T1 Y + XT

1 X1XT2 Y

XT1 X1XT

2 X2 − (XT1 X2)2

und naturlich EβM2 = β2, Var

(√n(βM

2 − β2))

= σ22, und es gilt

Cov(βR1 , βM

2 ) =−XT

1 X2XT1 X1 + XT

1 X1XT2 X1

XT1 X1XT

2 X2 − (XT1 X2)2

= 0.

Page 51: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.6 Variablen-Selektion und Shrinkage Schatzung 47

Da außerdem (βR1 , βM

2 ) gemeinsam normalverteilt sind (als lineare Transformation von nor-malverteilten Zufallsvariablen), sind diese auch unabhanig. Somit:

A1(t) = P (√

n(βR1 − β1) ≤ t) · P (−σ2cn −√

nβ2 ≤ √n(βM

2 − β2) ≤ σ2cn −√nβ2)

und

A′1(t) =

1

σ1(1 − 2)12

φ(t +

√nσ1

σ2β2

σ1(1 − 2)12

) · (Φ(σ2cn −√

nβ2

σ1 σ2) − Φ(

−σ2cn −√nβ2

σ1 σ2)).

Daraus und aus Gleichungen (18) und (19) erhalt man das Resultat des Satzes.

Literatur

Potscher, B. M. und Leeb, H. (2008) Sparse Estimators and the Oracle Property, or the Re-turn of Hodges’ Estimator. Journal of Econometrics 142, 201-211.

Potscher, B. M. und Leeb, H. (2005) Model Selection and Inference: Facts and Fiction. Eco-nometric Theory 21 2005, 29-59.

Wallace, T. D. und Ashar, V. G. (1972) Sequential methods in model selection. Review ofEconomics and Statistics 54, 172–178.

Page 52: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

48 1 LINEARE REGRESSION

1.7 Verallgemeinerte KQ und Varianzschatzen

1.7.1 Verallgemeinerte kleinste Quadrate

Wir betrachten das lineare Regressionsmodell:

Y = Xβ + ε, Eε = 0, Cov ε = Σ (20)

mit positiv definiter Kovarianzmatrix Σ > 0 fur die Fehler ε. Man uberfuhrt nun das Modell(20) in ein Modell mit Σ = In. Dazu zerlege Σ = Σ

12 Σ

12 (die Wurzel), oder auch Σ = LLT

(Cholesky-Zerlegung). Setze (bei Verwendun der Wurzel) Y = Σ− 12 Y , X = Σ− 1

2 X, ε = Σ− 12 ε.

Dann ergibt (20) mit Σ− 12 multipliziert:

Y = Xβ + ε, Cov ε = Σ− 12 ΣΣ− 1

2 = In. (21)

Kleinste-Quadrate-Schatzer in (21) ist nun

βGLS = (XT X)−1XT Y = (XT Σ−1X)−1XT Σ−1Y

Nach Satz von Gauß-Markov-Aitken gilt: βGLS ist bester linearer unverfalschter Schatzer inModell (21) und da Y und Y linear voneinander abhangen auch in Modell (20).

βGLS heißt der verallgemeinerte Kleinste-Quadrate-Schatzer (generalized least squaresestimator, GLS).Beachte: Fur die Berechnung von βGLS muss Σ bekannt sein.Falls Σ = diag(w1, . . . , wn), wi > 0, eine Diagonalmatrix ist, spricht man von dem gewichtetenKleinste-Quadrate-Schatzer.

In diesem Zusammenhang heisst der Schatzer βLS = (XT X)−1XT Y der gewohnliche kleinsteQuadrate Schatzer (ordinary least squares, OLS). Diese beleibt erwartungstreu und unterallgemeinen Bedingungen auch konsistent (s. Eicker, 1963), aber hat nicht mehr die kleinsteVarianz.

Aufgabe βGLS als ML-Schatzer, falls der Fehler N(0, Σ) verteilt ist.

1.7.2 Varianzschatzen

Betrachte das lineare Regressionsmodell

Yi = xTi β + εi, Eεi = 0, Var εi = σ2

i , (22)

mit unabhangigen Fehlern ε1, . . . , εn, die aber unterschiedliche Varianzen haben konnen.

Falls σ21 = . . . = σ2

n, heißt das Modell (22) homoskedastisch.Falls σ2

i 6= σ2j , heißt (22) heteroskedastisch und Schatzen fuhrt zu gewichteten kleinsten

Quadraten.

Im Allgemeinen werden aber die Varianzen σ2i unbekannt sein. In diesem Fall kann man daran

interessiert sein, diese zu schatzen. Zunachst kann man damit eine (geschatzte) Version des

Page 53: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

1.7 Verallgemeinerte KQ und Varianzschatzen 49

gewichteten kleinste Quadrate Schatzer bestimmen. Daruber hinaus ist die Varianzstrukturhaufig von unabhangigen Interesse (und kann sogar im Mittelpunkt des Interesses stehen, undnicht die Erwartungswertstruktur xT β.

Daher wenden wir uns noch kurz dem Schatzen der Varianzen in einem parametrischen Modelluber, und leiten zu dem nachste Thema, der nichtlinearen Regression, uber.

Zum schatzen der Varianzen wird auch ein parametrisches Modell angenommen, aber einnormales lineares Modell ist nicht geeignet, da die Varianzen positiv sein mussen. Beispielefur parametrische Modelle sind

σ2i = σ2|xT

i β|ϑ, ϑ > 0, σ > 0,

(σ2i proportional zu Potenz des Erwartungswertes |xT

i β|) oder

σ2i = σ2 exp(xT

i ϑ)

wobei ϑ ∈ Rp ein Parametervektor.

Ein allgemeines Modellhat die Form:

σ2i = σ2f(xi, β, ϑ)

Damit konnen die Varianzen von dem Parameter β abhangen, die den Erwartungswert bestim-men, sowie von zusatzlichen Parametern ϑ. Die Funktion f wird als bekannt angenommen,nur die Parameter sind unbekannt.

Schatzung der Parameter β und ϑ

1. Schatze β durch gewohnliche kleinste Quadrate βLS , bilde die Residuen εi = Yi−xTi βLS .

2. Schatze ϑ, σ2 durch Minimieren von

n∑

i=1

(εi − σ2f(xi, βLS , ϑ))2

Dies ist ein Beispiel fur eine nichtlineare kleinste Quadrate Schatzung, auf die wir imnachsten Kapitel naher eingehen werden.Unter bestimmten Annahmen erhalten wir auf diese Weise einen konsistente Schatzerϑ, σ2.

3. Nun kann man die Schatzungen noch weiter verbessern und die geschatzten Varianzenσ2

i = σ2f(xi, βGLS , ϑ) benutzten und den gewichteten Kleinste-Quadrate-Schatzer furβ berechnen.

4. Bilde unter Benutzung des gesichteten kleinsten Quadrate Schatzers neue Residuen undschatze ϑ, σ2 neu.

Diesen Prozess kann man iterieren. Es gibt hier zur Konvergenzanalyse und alternativenVerfahren eine umfangreiche Literatur. Siehe etwa

Page 54: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

50 1 LINEARE REGRESSION

Literatur

Carroll, R. J. und Ruppert, D. (1988). Transformation and weighting in regression. Chapmanand Hall, New York.

Page 55: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

51

2 Nichtlineare Regression

In diesem Abschnitt betrachten wir Regressionsmodelle, in denen die Parameter nichtlinearin den funktionalen Zusammenhang eingehen. Man beachte, dass auch bei nur linearen Pa-rametern nichtlineare Effekte (etwa Polynome, Splines oder trigonometrische Funktionen) inden Kovariablen modelliert werden konnen. Daher sollten nichtlineare Modelle nur dann ver-wendet werden, wenn sich dies aus dem sachwissenschaftlichen Zusammenhang ergibt. Einewichtige Klasse von nichtlinearen Regressionmodellen entstehen aus Wachstumsmodellen inder Biologie.

Bei nichtlinearen Regressionsmodellen ist der (nichtlineare) kleinste Quadrate Schatzer auchbei normalverteilten Fehlern nur noch asymptotisch normalverteilt. Daher muss die Inferenz(Konfidenzintervalle, Tests) auf den asymptotischen Approximation aufgebaut werden.

Referenzen

2.1 Modell und Beispiele

Modell: Beobachtungen (Yi, xi), i = 1, . . . , n, aus dem Modell

yi = f(xi, β0) + εi, i = 1, . . . , n, (23)

wobei

Yi abhangige Variable

f: bekannte Funktion

β0: unbekannter Parameter ∈ Θ ⊂ Rq

xi: Kovariablen, xi ∈ Rp

εi: unabhangig, identisch verteilter Fehler mit Eεi = 0, Var εi = σ2, (bzw. εi ∼ N (0, σ2)).Diese sind auf einem W-raum Ω definiert.

Beispiele:

1. Lineare Regressionf(xi, β) = xi1β1 + . . . + xipβp

2. Michaelis-Mentes Modell

f(x, β1, β2) =β1x

β2 + x

allgemeiner:

f(x, β1, β2, β3) =β2 + β1x

β3 + x

Page 56: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

52 2 NICHTLINEARE REGRESSION

3. Wachstumsmodelle

logistisches Wachstumsmodell:

f(x, β1, β2, β3) =β1

1 + β2 exp(−β3x)

Weibull Wachstumsmodell: NOCH

2.2 Nichtlineare kleinste Quadrate

Mit β0 bezeichnen wir im Folgenden den wahren Wert von β in Modell (23). Ein NLS-Schatzer(nichtlineare kleinste Quadrate, nonlinear least squares) βNLS minimiert

Qn(β) =1

n

n∑

i=1

(Yi − f(xi, β))2

Bemerkunga. Der NLS-Schatzer muss nicht eindeutig sein.

b. 1n kann in der Praxis weggelassen werden.

c. Der NLS-Schatzer ist ML-Schatzer fur normalverteilte Fehler.

Praktische Berechnung von βNLS.

Falls Differenzierbarkeit von f(·, ·) in β vorausgesetzt wird, kann das Newton Verfahren aufdie Gleichung

∂βQn(β) = − 2

n

n∑

i=1

(Yi − f(xi, β)

)∂β f(xi, β) = 0.

Eine einfacheres iteratives Verfahren besteht darin, zunachst zu linearisiren und dann iterativlineare kleinste Quadrate anzuwenden wie folgt: Fur eine Naherung βn an βNLS , linearisiere

Yi ≈ f(xi, βn) +∂f

∂β(xi, βn)(β − βn) + εi

Schatze β − βn durch lineare kleinste Quadrate mit abhangiger Variable yi,n = Yi − f(xi, βn)

und Kovariable xi,n = ∂f∂β (xi, βn) also

αn = (XTn Xn)−1XT

n Yn

und neue Naherung βn+1 mitβn+1 = αn + βn.

Man kann fur dieses Verfahren auch einen Satz uber Konvergenz beweisen.

Schatzer fur die Varianz σ2. Fur einen NLS-Schatzer βNLS setzte

σ2 = Qn(βNLS).

Page 57: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

2.3 Konsistenz 53

2.3 Konsistenz

Um die Konsistenz des NLS Schatzers zu zeigen, benotigen wir folgende Annahmen.

Annahme (A): Der Wertebereich Θ von β ist kompakt und konvex, und f(xi, ·) iststetig.

Offenbar existiert unter Annahme (A) ein (meßbarer) NLS-Schatzer.

Annahme (B): Es gilt gleichmaßig in α, β ∈ Θ

1

n

n∑

i=1

(f(xi, β)f(xi, α)) → K(α, β).

Weiter habe Q(β, β0) = K(β, β) + K(β0, β0) − 2K(β, β0) als Funktion von β ein eindeutigesMinimum (Nullstelle) in β0.

Offenbar gilt unter Annahme (B) gleichmaßig in β

1

n

n∑

i=1

(f(xi, β) − f(xi, β0))2 → Q(β, β0).

und das Grenzkriterium Q(·, β0) ist stetig (wegen gleichmaßiger Konvergenz).

Lemma 2.1Unter Annahmen (A) und (B) gilt fur fast alle ω ∈ Ω

1

n

n∑

k=1

εk(ω)(f(xk, β0) − f(xk, β)

)→ 0 gleichmaßig in β ∈ Θ.

BeweisPunktweise fast sichere Konvergenz fur festes β folgt mit Annahme (B) aus dem starkenGesetzt der großen Zahlen (REFERENZ), da

Var(εkf(xk, β0) − f(xk, β)) = (f(xk, β0) − f(xk, β))2.

Zur Gleichmaßigkeit: Fur α, β ∈ Θ gilt

| 1n

n∑

k=1

εk(f(xk, β) − f(xk, β0))|CSU≤ | 1

n

n∑

k=1

εk(f(xk, α) − f(xk, β0))|

+( 1

n

n∑

k=1

ε2k · 1

n

n∑

k=1

(f(xk, β) − f(xk, α))2) 1

2(24)

Da1

n

n∑

k=1

(f(xk, α) − f(xk, β))2 → K(α, α) + K(β, β) − 2K(α, β)

gleichmaßig und K(·, ·) stetig auf Θ × Θ (kompakt), gilt:Fur alle δ > 0 existieren endlich viele α1, . . . , αq ∈ Θ und ein n0, so dass fur alle β ∈ Θ ein1 ≤ i ≤ q existiert mit

1

n

n∑

k=1

(f(xk, αi) − f(xk, β))2 ≤ δ.

Page 58: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

54 2 NICHTLINEARE REGRESSION

Mit (24) und punktweiser fast sicherer Konvergenz an den Stellen αi folgt dann die Behaup-tung.

Satz 2.2Unter den Annahmen (A) und (B) sind βNLS und σ2 stark konsistent, d.h.

βNLS → β0 f.s., σ2 → σ2 f.s.

BeweisNach Lemma 2.1 und Annahmen (A) und (B) gilt fur fast alle ω ∈ Ω gleichmaßig in β

Qn(β)(ω) =1

n

n∑

k=1

(f(xk, β0) − f(xk, β))2 +1

n

n∑

k=1

ε2k(ω) +

2

n

n∑

k=1

εk(ω)(f(xk, β0) − f(xk, β))

→ Q(β, β0) + σ2 (25)

Fixiere ω ∈ Ω, so dass (25) gilt. Setzte βNLSn (ω) = βn, σ2

n(ω) = σ2n und zeige βn → β0,

σ2n → σ. Da Θ kompakt ist, genugt es fur βn → β0 zu zeigen, dass jeder Haufungspunkt von

(βn) gleich β0 ist.Sei also β′ ein Haufungspunkt von βn, also etwa βnk

→ β′, k → ∞. Dann ist

|Qnk(βnk

)(ω)−(Q(β′, β0)+σ2)| ≤ |Qnk(βnk

)(ω)−(Q(βnk, β0)+σ2)|+|Q(βnk

, β0)−Q(β′, β0)| → 0,

wobei der erste Term wegen der gleichmaßigen Konvergenz in (25) gegen 0 konvergiert, undder zweite wegen der Stetigkeit von Q(·, β0). Also haben wir

Qnk(βnk

)(ω) → Q(β′, β0) + σ2, k → ∞ (26)

Weiter gilt, da βn NLS Schatzer,

Qnk(βnk

, ω)NLS≤ Qnk

(β0, ω) =1

nk

nk∑

i=1

ε2i (ω)

Fur k → ∞ erhalt man mit (26):

Q(β′, β0) + σ2 ≤ σ2

Da Q(β′, β0) > 0 fur β′ 6= β0 (Annahme (B)) folgt β′ = β0.

Analog zu (26) gilt dann fur fast alle ω:

Qn(βNLSn (ω))(ω) → Q(β0, β0)︸ ︷︷ ︸

=0

+σ2 = σ2

also σ2 → σ2 fast sicher.

Literatur:

Jennrich, R. I. (1969) Asymptotic properties of non-linear least squares estimators. Ann.Math. Statist. 40, 633–643.

Page 59: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

2.4 Asymptotische Normalitat 55

2.4 Asymptotische Normalitat

Fur die asymptotische Normalitat des NLS Schatzers benotigen noch folgende Annahme

Annahme (C): Die Ableitungen ddβ f(xi, β) = gi(β) (Vektor im R

q), ddβ

dT

dβ f(xi, β) =

Hi(β) (Matrix aus Rq×q) existieren, und fur alle Kombinationen f(xi, β)·(gi(β))j , (gi(β))j(gi(β))l,

f(xi, β) · (Hi(β))jk, (gi(β))j(Hi(β))kl, und (Hi(β))kl(Hi(β))k′l′ existieren die gleichmaßigenLimiten (in (α, β) ∈ Θ × Θ) der Form (fur alle Kombinationen)

1

n

n∑

i=1

f(xi, α)(gi(β))j .

Insbesondere gilt gleichmaßig in β ∈ Θ

An(β) =1

n

n∑

i=1

gi(β)gi(β)T → A(β)(∈ Rq×q).

Lemma 2.3Unter den Annahmen (A), (B) und (C) gilt

1√n

n∑

i=1

εigi(β)d→ N (0, σ2A(β))

Dies Lemma wir mit dem zentralen Grenzwertsatz von Lindeberg und dem Cramer-WoldLemma bewiesen.

Satz 2.4Es gelten Annahmen (A), (B), (C), β0 ∈ int Θ und A(β0) sei invertierbar. Dann

√n(βNLS

n − β0)d→ N (0, σ2A(β0)

−1).

BeweisNach dem mehrdimensionalen Zwischenwertsatz derDifferentialrechnung gilt

0 = ∂βQn(βNLSn ) = ∂βQn(β0) + WN (βNLS

n − β0), (27)

wobei

Wn =

∫ 1

0

(∂β ∂T

β Qn

)(β0 + t(βNLS

n − β0))dt.

Es ist

∂β Qn(β) =2

n

n∑

i=1

(yi − f(xi, β))gi(β) also ∂βQn(β0) =2

n

n∑

i=1

εigi(β0).

Weiter

∂β∂Tβ Qn(β) =

2

n

n∑

i=1

((yi − f(xi, β))Hi(β) − (gi(β)gi(β)T )

).

Page 60: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

56 2 NICHTLINEARE REGRESSION

Somit gilt nach Annahme (C)

∂β∂Tβ Qn(β0)

f.s.→ −2A(β0),

sowie wegen der Konsistenz von βNLS

Wn − ∂β∂Tβ Qn(β0) → 0 f.s.

Somit ergibt sich aus (27) und Lemma 2.3

√n(βNLS

n − β0) =(− Wn/2

)−1√n∂βQn(β0)/2

d→ N (0, σ2A(β0)−1)

Referenz

Jennrich, R. (1969) Asymptotic properties of nonlinear leats squares.

2.5 Asymptotische Konfidenzintervalle und Hypothesentests

NOCH

Page 61: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

57

3 Regression auf binomiale Daten

3.1 Modell

Beobachtungen (Yi, xi), i = 1, . . . , n, wobei xi ∈ Rp Pradiktor, Yi ∼ B(ni, pi), also

P (Yi = yi) =

(ni

yi

)pyi

i (1 − pi)ni−yi , i = 1, . . . , n

Ziel: Schatze pi = p(xi) als Funktion der Pradiktoren.

Dazu betrachte den linearer Pradiktor ηi = xTi β = β1x1 + . . . + βpxp. Die direkte Wahl

ηi = pi ist ungeeignet, da ja 0 < pi < 1. Man wahlt daher eine streng monoton wachsendeLink-Funktion g : (0, 1) → R, so dass ηi = g(pi) bzw. pi = h(ηi) mit h = g−1.

Beispiel 3.1a. Logit-Link

g(p) = log(p

1 − p); h(η) =

1 + eη

b. Probit-Linkg(p) = Φ−1(p)

Φ Verteilungsfunktion der Standardnormalverteilung

c. Komplementare Log-log-Regression

g(p) = log(− log(1 − p))

3.2 Schatzen von β

Fur feste Linkfunktion kann der Parameter β durch die Maximum Likelihood Methode geschatztwerden. Dazu betrachtet man die Log-Likelihood-Funktion:

L(β) =n∑

i=1

(Yi log h(xT

i β) + (ni − Yi) log(1 − h(xTi β))

)+

n∑

i=1

log

(ni

Yi

),

wobei der letzte Summand nicht von β abhangt und somit vernachlassigt werden kann. EinMaximum Likelihood Schatzer ist dann gegeben durch

βML = argmaxβ∈Rp L(β)

Bemerkung

a. βML muss im allgemeinen weder existieren, noch, falls es existiert, eindeutig sein.

b. Asymptotisch (ni → ∞ oder n → ∞) existiert βML mit einer nach 1 konvergierendenWahrscheinlichkeit und ist asymptotisch normalverteilt.

Page 62: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

58 3 REGRESSION AUF BINOMIALE DATEN

c. Numerische Berechnung etwa durch Newton-Raphson-Algorithmus

Wir betrachten im Folgenden speziell das Modell mit logistischer Linkfuntion, die sogenanntelogistische Regression. Dann ist

Llogit(β) =

n∑

i=1

(Yi log(ext

1 + exTi β

) + (ni − Yi) log(1 − exTi β

1 + exTi β

)) + const.

=n∑

i=1

Yi(xTi β) −

n∑

i=1

ni log(1 + exTi β) + const.

Als notwendige Bedingung fur ein Maximum ergibt sich die Score-Gleichung

S(β) =∂

∂βLlogit(β) =

n∑

i=1

xi(yi − niexT

i β

1 + exTi β

︸ ︷︷ ︸=E(Yi|xi)

)!= 0.

Es ist offenbar E(S(β)) = 0. Fur die Matrix der zweiten Ableitungen (Hessische Matrix)erhalt man

H(β) =∂

∂βTS(β) = −

n∑

i=1

xixTi ni

exTi β

(1 + exTi β)2︸ ︷︷ ︸

=p(xi)(1−p(xi))

.

Somit hat diese folgende Eigenschaften

a. H(β) hangt nicht von Daten Yi ab.

b. H(β) ist negativ definit fur alle β ∈ Rp, falls

X =

xT1...

xTn

∈ R

n×p

vollen Rang hat. (Nachweis!)

Satz 3.2Der Parameterraum Θ ⊂ R

p der moglichen Werte von β sei konvex. Falls die DesignmatrixX vollen Rang hat, hat Llogit(β) im logistischen Regressionsmodell hochstens ein Maximum,

d.h. βML ist, falls existent, eindeutig bestimmt.

BeweisH(β) negativ definit ∀β ∈ R

p ⇒ Llogit(β) konkav ⇒ auf konvexer Menge hochstens einMaximum.

Beispiel 3.3 (MLE braucht finit nicht zu existieren)Es sei ni = 1, und die Kovariablen xi seien derart, dass β∗ ∈ R

p existiert mit

xTi β∗ > 0, falls Yi = 1, xT

i β∗ < 0, falls Yi = 0.

Page 63: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

3.3 Deviance 59

Dann ist

L(β∗) =

n∑

i=1yi=1

(xTi β∗ − log(1 + exT

i β∗)) −

n∑

i=1yi=0

log(1 + exTi β∗

).

Fur α → ∞ gilt dann L(αβ∗) → 0 (nutze dazu log(1 + ex) ≈ x fur x groß). Andererseits iststets

L(β) =n∏

i=1

p(xi)yi(1 − pi(xi))

1−yi < 1

uns somit L(β) < 0. Daher kann es kein Maximum geben.

3.3 Deviance

Wir wiederholen zunachst das Prinzip des Likelihood Quotienten Tests (LRT, LikelihoodRatio Test). Angenommen, man hat zwei parametrische Modelle:L: großes Modell mit l freien Parametern und maximaler Likelihood LL,S: kleines Teilmodell von L mit s freien Parametern und maximaler Likelihood LS .

Dann ist die Likelihood Quotienten Statistik gegeben durch

T = 2 logLL

LS.

Falls das Teilmodell S bereits den wahren Parameter enthalt, und falls zusatzliche Regula-

ritatsbedingungen erfullt sind, gilt Td→ χ2(l − s). Man verwirft das Teilmodell mit asym-

ptotischen Niveau α > 0, falls T ≥ χ2α(l − s). Die Deviance ist nun definiert als Likelihood

Quotienten Statistik fur das angepasste logistische Regressionsmodell gegen das sogenann-te saturierte Modell, wobei im saturierten Modell jeder Parameter pi als freier Parameterbehandelt wird und durch pi = Yi

nigeschatzt wird. Also explizit

D = 2 ·n∑

i=1

(Yi log

pi

h(xTi β)

+ (ni − Yi) log(1 − pi

1 − h(xTi β)

)).

Mit Yi = nih(xTi β) (den fitted values) kann man auch schreiben

D = 2 ·n∑

i=1

(Yi log(Yi

Yi

) + (ni − Yi) log(ni − Yi

ni − Yi

))

Falls das logistische Regressionsmodell korrekt ist, gilt fur ni → ∞ fur festes n Dd→ χ2(n−p).

Bemerkungen

a. Fur ni = 1 (Bernoulli-Daten) kann die Deviance nicht benutzt werden (WIESO).

b. Die Asymptotik Dd→ χ2(n − p) gilt nicht fur ni fest und n → ∞!

Die Deviance kann auch genutzt werden, um zwei ineinander geschachtelte logistische Regres-sionsmodelle miteinander zu vergleichen. Dazu seienL: das große logistische Regressionsmodell mit β ∈ R

l,

Page 64: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

60 3 REGRESSION AUF BINOMIALE DATEN

S: das klein Teilmodell von L mit β ∈ Rs, s < l.

Dann kann die Likelihood Quotienten Statistik von Modell S gegen Modell L durch Differenz-bildung der zugehorigen Deviances DS −DL, auch Partial Deviance Test genannt, berechnen.Falls S korrekt ist, gilt

DS − DLd→ χ2

l−s,

falls ni → ∞ oder auch n → ∞. Beachte dabei, dass die gesattigten Terme wegfallen, weshalbauch Asymptotik mit n → ∞ gilt.

3.4 Odds und explorative Datenanalyse

NOCH UBERARBEITEN!

(Yi, xi), xi ∈ Rp, p potentielle Kovariablen (mit Intercept)

Kovariablen konnen sein:

quantitativ qualitativ (kategoriell)

polytom dichotom

ordinal nomial

dichtom: 2 Auspragungennomial: k Auspragungen ohne Skalaordinal: k Auspragungen mit Skala

1. Einfluß einer Kovariable

a. dichotomDatenbeispiel

”Babyfood“

empirisch:Junge Madchen Junge Madchen

Krank p(0) p(1) Krank a bNicht krank 1-p(0) 1-p(1) Nicht krank c d

Odds:

O(i) =p(i)

1 − p(i)

(lace eines Erfolgs zu dem eines Mißerfolgs)Empirisch:

O(0) =a

a+cc

a+c

=a

c, O(1) =

b

d

Odds Ratio: (???)

Or =O(0)

O(0)

Page 65: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

3.4 Odds und explorative Datenanalyse 61

Logistisches Regressionsmodell:

log(p(i)

1 − p(i)) = β0 + β1i, i = 0, 1

Somit: eβ0 = O(0), eβ0+β1 = O(1)

eβ1 = Or

Auch fur empirische Odds-Ratios und ML-Schatzer fur die βi.

b. nomiale KovariableBeispiel

”Food“ (Babyfood)

J Kategorien, dann

logit(p(j)) = β0 + β1I1(j) + . . . + βJ−1IJ−1(j), j = 1, . . . , J

wobei

Ij(i) =

1, i = j0, sonst

j = 1, . . . , J − 1

Also:

logit p(J) = β0, logit p(j) = β0 + βj

(damit Matrix X vollen Rang hat!)

Wieder Zusammenhang zu den empirischen logits!

c. ordinale KovariableBeispiel

”Bliss Daten“

Linearitat der empirischen Logits prufen → ???Logits:

log(p(i)

1 − p(i)) = log(

yi

ni

1 − yi

ni

) = log(yi

ni − yi)

Empirische logits:

log(yi + 1

2

ni − yi + 12

)

d. quantitative KovariableAuch empirische Logits plotten.

2. Einfluß mehrerer Kovariablen

Beispiel 3.4Lineares Modell, eine Kovariable stetig, eine Kovariable dichotom

abhangig: Einkommen; dichotom: Geschlecht; stetig: AlterUntersuche (Modell mit Haupteffekten):

Yi = β0 + β1xi,A + β2xi,S + εi (1)

Page 66: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

62 3 REGRESSION AUF BINOMIALE DATEN

Bedeutet konkret:Fur Manner (xi,S = 1): Yi = β0 + β2 + β1xi,A

Fur Frauen (xi,S = 0): Yi = β0 + β1xi,A

Also: gleiche Steigung, ungleiche Intercepts

Falls aber der Zusammenhang so ist, dass ungleiche Steigung und ungleiche Intercepts, dannInteraktion.Erweitere Modell (1) zu:

Yi = β0 + β1xi,A + β2xi,S + β3xi,A · xi,S + εi

Dann fur Manner (xi,S = 1): Yi = β0 + β2 + xi,A(β1 + β3) + εi

Fur Frauen (xi,S = 0): Yi = β0 + β1xi,A + εi

Analog, falls zweite Kovariable nicht dichotom, sondern polytom (nominal) ist, oder wennbeide Kovariablen nomial (auch dichotom) sind.

Im logistischen Regressionsmodell plottet man nicht Yi, sondern empirische Logits, um Inter-aktionen zu entdecken.Beispiel: Babyfood, troutegg

3.5 Uberdispersion

Im logistischen Regressionsmodell gilt mit log(pi/(1 − pi)

)= xT

i β

EYi = pi · ni, Var Yi = ni pi (1 − pi) = EYi · (1 − EYi

ni)

Somit ist die Varianz VarYi durch den Erwartungswert EYi bereits bestimmt. Man sprichtnun von Uberdispersion (Overdispersion) gegenuber dem logistischen Regressionsmodell, fallsdie Varianz der Yi großer ist als EYi · (1 − EYi

ni).

Formale Grunde fur Uberdispersion

a. Korrelation zwischen den binaren Responses

Yi =

ni∑

j=1

Rij mit Rij =

1 Erfolg0 Mißerfolg

, P (Rij = 1) = pi

Es ist

Var Yi =

ni∑

j=1

Var Rij +∑

j 6=k

Cov(Rij , Rik),

Fur die erste Summe erhalt man ni pi(1 − pi). Sind die binaren Responses Rij korelliert, soist der zweite Summand ungleich 0. Falls etwa Cov(Rij , Rik) = δ ∀j 6= k, i, dann

Var Yi = ni pi(1 − pi) + pi(1 − pi)δni(ni − 1)

= nipi(1 − pi) · (1 + δ(ni − 1)).

Page 67: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

3.5 Uberdispersion 63

InhaltlichKorrelation entsteht durch Klustereffekte, falls Mitglieder einer Gruppe sich nicht unabhangigverhalten, etwa Mitglieder einer Familie, Firma, oder zeitlicher Verlauf bei einem Patientenin der Medizin.

b. Variabilitat in Erfolgswahrscheinlichkeiten

Hier nimmt man an, dass die Erfolgswahrscheinlichkeiten pi selbst Realisierungen von unbe-obachteten Zufallsvariablen sind. Genaue modelliert man Yi|ϑi ∼ B(ni, ϑi), wobei ϑi (latente,also nicht beobachtete) Zufallsvariable auf (0, 1) sind mit Eϑi = pi und Varϑi = φpi(1−pi) furein φ > 0 (spezielle Parametrisierung der Varianz, keine Einschrankung). Fur die bedingtenMomente erhalt man

E(Yi|ϑi) = niϑi, Var(Yi|ϑi) = niϑi(1 − ϑi)

Fur die unbedingten Momente: EY = Eϑ(E(Y |ϑ)) = Eϑ(n · ϑ) = n · p, sowie

Var Y = Eϑ(Var(Y |ϑ)) + Varϑ(E(Y |ϑ))

= Eϑ(n · ϑ(1 − ϑ)) + Varϑ(n · ϑ)

= n · (p − φp(1 − p) − p2) + n2φp(1 − p)

= np(1 − p) · (1 + (n − 1)φ)

Man erhalt also die gleiche Struktur wie bei konstanter Korrelation.Ist in der Tat

Yi =

ni∑

j=1

Rij , Rij |ϑi ∼ B(ϑi) unabhangig

so ist Cov(Rij , Rik) = φ.[Aufgabe! Benutze

Cov(Rj , Rk) = Eϑ(Cov(Rj , Rk|ϑ)) + Covϑ(E(Rj |ϑ), E(Rk|ϑ)) ]

Wie erkennt man Uberdispersion?Wir untersuchen diese Problem zunachst fur unabhangig, identisch verteilte (u.i.v.) Zufallsva-riablen. Dazu seien Y1, . . . , Yn u.i.v., vermute, dass jedes Yi ∼ B(m, p) (jeweils gleiche SampleSize).Dann vergleiche empirische Varianz

S2 =1

n − 1

j

(Yj − Y )2

mit Varianz geschatzt uber den Erwartungswert in einer Binomialverteilung: S2 = Y (1 − Ym)

(beachte, dass Y schatzt m · p) durch Quotientenbildung T = (n − 1)S2/S2. Dies ergibt diesogenannte Pearsonsche Chi-Quadrat Statistik.

Wir betrachten nun allgemeiner unabhangige 0 ≤ Yi ≤ ni, und wollen die Varianzstrukturvon Yi ∼ B(ni, p) uberprufen. Dazu schatzen wir p durch

p =1∑n

i=1 ni

n∑

i=1

Yi

Page 68: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

64 3 REGRESSION AUF BINOMIALE DATEN

(beachte∑n

i=1 Yi ∼ B(∑n

i=1 ni, p)) und bilden die Pearsonsche χ2-Statistik

T =n∑

j=1

(Yj − nj p)2

nj p(1 − p)

T ist fur festes n und ni → ∞ asymptotisch verteilt nach χ2n−1. Falls also der p-Wert P =

1 − χ2(n − 1)(T ) ≤ α, dann liegt mit Niveau α > 0 Uberdispersion vor.

Wir betrachten nun wieder das logistische Regressionsmodell, und schatzen β mit Maximum-Likelihood. Mit dem ML-Schatzer βML setze

pi =exT

i βML

1 + exTi βML

.

Dann vergleiche (Yi − nipi)2 mit nipi(1 − pi) durch Bildung der Pearsonschen χ2-Statistik

T =

n∑

i=1

(Yi − nipi)2

nipi(1 − pi),

wobei wiederum fur festes n und ni → ∞ gilt: Td→ χ2

n−p, wobei p = dimβ.

Weiter kann man zeigen, dass eine Varianzstruktur der Form φpi(1−pi) mit φ > 1 zu großererDeviance fuhrt (fur ni groß genug). Daher ist große Deviance (mehr als die degrees of freedom)ein Indiz fur Uberdispersion.

Bevor man Uberdispersion durch Modifikation des Modells mit aufnimmt, sollten anderemogliche Ursachen fur großes T und große Deviance ausgeschlossen werden:

• fehlende Kovariable / Interaktionen

• ni klein

• Ausreißer

• eventuell nichtlineare Effekte

• falsche Linkfunktion

Diese Ursachen sind durch explorative Datenanalyse / Residuenanalyse auszuschließen.

Folgen von Uberdispersion: Die Standardfehler der ML-Schatzer sind deutlich großer,werden also bei Nichtbeachtung der Uberdispersionsstruktur unterschatzt, wodurch die sta-tistische Inferenz ungultig wird.

Modellierung bzw. Schatzung von Uberdispersion

a. Quasilikelihood (s. Kapitel 4).

b. Hinzunahme zufalliger Effekte (s. Kapitel 6).

c. Das Beta-Binomial Modell

Dabei nutzen wir das Entstehen von Uberdispersion durch Variabilitat in den Erfolgswahr-

Page 69: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

3.5 Uberdispersion 65

scheinlichkeiten, und wahlen als Verteilung der Erfolgswahrscheinlichkeiten eine Beta Vertei-lung, also ϑi ∼ Beta(ai, bi), wobei

f(ϑi) =1

B(ai, bi)ϑai−1

i (1 − ϑi)bi−1, ai, bi > 0

und

B(a, b) =

∫ 1

0xa−1(1 − x)b−1dx

die Beta-Funktion bezeichnet. Somit

Eϑi =ai

ai + bi=: pi, Var ϑi =

aibi

(ai + bi)2(ai + bi + 1)= pi(1 − pi)

1

ai + bi.

Damit die Dichte von ϑi unimodal und am Rand = 0 ist, muss ai, bi > 1 gelten, welches

Var ϑi ≤pi(1 − pi)

3

impliziert. Parametrisiere nun uber (β, φ), wobei

log(pi/(1 − pi)

)= xT

i β, φ =1

ai + bi + 1, pi =

ai

ai + bi

also

bi =(1 − φ)(1 − pi)

φ, ai =

pi(1 − φ)

φ.

Schatze (β, φ) als argmax der marginalen Likelihood-Funktion

L(β, φ) =n∏

i=1

∫ 1

0f(yi|ϑi)f(ϑi)dϑi

=n∏

i=1

∫ 1

0

(ni

yi

)ϑyi

i (1 − ϑi)ni−yi

1

B(ai, bi)ϑai−1

i (1 − ϑi)bi−1dϑi

=n∏

i=1

(ni

yi

)B(yi + ai, ni − yi + bi)

B(ai, bi)

Bemerkung: Die Uberdispersionsstrukur in a. und c. unterscheidet sich, da der Faktor inder Varianz in c. von ni abhangt, in a. dagegen nicht. Es ist je nach Situation zu entscheiden,welches Modell zu bevorzugen ist.

Page 70: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

66 3 REGRESSION AUF BINOMIALE DATEN

Page 71: Statistik 2 (Regression) - KIT - Fakultät für Mathematik · 1.1 Modell und Beispiele 3 Es ist Covε = σ2 · In. Wir nehmen stets an, dass Rang(X) = p gilt, insbesondere ist p ≤

67

A Verzeichnis der Satze

1.2 Gauß-Markov-Aitken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4 Erwartungswert quadratischer Formen . . . . . . . . . . . . . . . . . . . . . . . . 7

1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.8 Lineare Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.11 Craig und Sakamoto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

1.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58