4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i...

43
(Y i ,X i ) i =1,...,n Y i X i [a, b] n n 40 Y i = m(X i )+ ² i m(X i )= E (Y i |X = X i ) ² 1 2 ,... E (² i )=0 var (² i )= σ 2 m(x) m(X )= β 0 + β 1 X ˆ β 0 ˆ β 1 n X i=1 (Y i - β 0 - β 1 X i ) 2 ˆ m(x)= ˆ β 0 + ˆ β 1 x

Transcript of 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i...

Page 1: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

4 Grundlagen der nichtparametrischenRegressionsanalyse

Daten: (Yi, Xi), i = 1, . . . , n, wobei

• Yi Zielvariable

• Xi ∈ [a, b] ⊂ IR erklärende Variable

• n groÿ (Faustregel: n ≥ 40)

Regressionsmodell (allgemeine Forumilerung):Yi = m(Xi) + εi

• m(Xi) = E(Yi|X = Xi) Regressionsfunktion

• ε1, ε2, . . . i.i.d., E(εi) = 0, var(εi) = σ2

Klassischer Ansatz:

• Lineare Einfachregression: m(x) ist eine Gerade

m(X) = β0 + β1X

• Schätzer der Koe�zienten durch die Kleinste Quadrate Me-thode: β0 und β1 minimieren

n∑

i=1

(Yi − β0 − β1Xi)2

• Schätzung der Regressionsfunktion:

m(x) = β0 + β1x (Ausgleichsgerade)

Nichtparametrisch@LS-Kneip 4�1

Page 2: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

In der Regressionsanalyse ist es oft von Bedeutung, auf welcheWeise die Beobachtungspunkte X1, . . . , Xn erzeugt werden. Manunterscheidet zwischen �Fixed� und �Random Design�.

• Fixed Design: Die Beobachtungspunkte X1, . . . , Xn sindfest vorgegebene (nicht stochastische) Werte.Beispiel: Ernteertrag (Y ) in Abhängigkeit von festgelegtenMengen von Düngemittel.Wichtigster Spezialfall: äquidistanten Design - alle Beob-achtungspunkte besitzen den gleichen Abstand, Xi+1−Xi =b−an .

• Random Design:Die Beobachtungspunkte X1, . . . , Xn sind(Realisationen von) unabhängig und identisch verteilten Zu-fallsvariablen mit einer Dichtefunktion f ; Xi und εi sind un-korreliert.f wird als �Designdichte� bezeichnet.Beispiel: Stichprobe (Y1, X1), . . . , (Yn, Xn) von Einkommen(Y ) und Alter (X) von n ≈ 7000 zufällig ausgewählten bri-tischen Haushalten.Bei Random Design ist m(x) der bedingte Erwartungswertvon Y gegeben X = x:

m(x) = E(Y | X = x)

Man beachte: Im Falle von Random Design sind im Folgen-den alle Erwartungswerte (bzw. Varianzen) als bedingte Er-wartungswerte (bzw. Varianzen) gegeben X1, . . . , Xn zu in-terpretieren.

Nichtparametrisch@LS-Kneip 4�2

Page 3: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

• Die Fehler- oder Störvariablen εi quanti�zieren unsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen Mittelwert β0 + β1xi. Diese Schwankungen beinhaltenMessfehler ebenso wie den Ein�uss zusätzlicher, unbeobach-teter Variablen, die den Wert von Yi mitbestimmen.

• ε1, . . . , εn sind als Zufallsvariablen aufzufassen. Wegen Yi =m(Xi) + εi folgt, dass auch Y1, . . . , Yn Zufallsvariablen sind.

Illustration: Die nachfolgende Figur zeigt jeweils 10 möglicheRealisationen von Yi für jeden Wert Xi, die die zugehörigen zu-fälligen Realisationen der Fehlervariablen εi widerspiegeln. DieStreuung der resultierenden Verteilungen der Yi (bzw. εi) wirddurch die Standardabweichung σ quanti�ziert.

0 5 10 15 20 25

x

5

9

13

17

β0+β1x

Y

Falls X1, . . . , Xn selbst Zufallsvariablen sind, so ist m(x) = E(Yi|Xi =X) als bedingter Erwartungswert von Yi gegeben Xi = x aufzu-fassen.

Nichtparametrisch@LS-Kneip 4�3

Page 4: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Beispiel: Ernteertrag von Weizen (Y) in Abhängigkeit von derMenge des eingesetzten Düngemittels (X) in kg/ha

Beobachtungen für n = 7 Parzellen

X 100 200 300 400 500 600 700

Y 40 50 50 70 65 65 80

100 200 300 400 500 600 700

Duenger

40

50

60

70

80

Ertra

g

Schätzungen im Beispiel Ernteertrag - Dünger:

Schätzwert Standardfehler t-Wert P (|T | > |t|)Konstante (β0) 36.42857 5.03812 7.23 0.001Dünger (β1) .0589286 .0112656 5.23 0.003

R2 = 0.8455

Nichtparametrisch@LS-Kneip 4�4

Page 5: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

• Mögliche Verallgemeinerung: m(x) quadratisches oder kubi-sches Polynom

m(X) = β0 + β1X + β2X2

oder m(X) = β0 + β1X + β2X2 + β3X

3

Beispiel: Dünger (X) -Ernteertrag (Y )7 zusätzliche Beobachtungen

0 200 400 600 800 1000 1200 1400

Duenger

40

60

80

100

120

Ansatz: Quadratisches Polynom

Y ≈ β0 + β1X + β2X2

Kleinste-Quadrate-Methode: β0, β1 und β2 minimieren

Q(β0, β1, β2) =n∑

i=1

(yi − β0 − β1xi − β2x2i )

2

⇒ β0 = 27, 6, β1 = 0, 11, β2 = −0, 000057

Nichtparametrisch@LS-Kneip 4�5

Page 6: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Die Genauigkeit von polynomialen Approximationender Regressionsfunktion

Lineare Einfachregression: Yi = β0 + β1Xi + εi.

• Falls das Modell gültig ist, sind β0 und β1 erwartungstreueSchätzer der wahren Koe�zienten und

E(m(x)) = E(β0) + E(β1)x = β0 + β1x = m(x).

m(x) ist dann ein erwartungstreuer Schätzer von m(x)

• Mittlere Varianz:1n

∑ni=1 V ar(m(Xi)) = V ar(β0)+ 1

n

∑ni=1 V ar(β1)X2

i = 2σ2

n

• Erwarteter mittlerer quadratischer Fehler:

MASE(m) = E

(1

n

n∑i=1

(m(Xi)−m(Xi))2

)

=1

n

n∑i=1

(E(m(Xi))−m(Xi))2

︸ ︷︷ ︸Bias2=0

+1

n

n∑i=1

V ar(m(Xi)) =2σ2

n

Verallgemeinerung: Yi = β0 +∑p

j=1 βjXji + εi für ein p > 0

• Die Kleinste-Quadrate Schätzer βj sind erwartungstreue Schät-zer von βj und m(x) = β0 +

∑pj=1 βjx ist ein erwartungs-

treuer Schätzer von m(x).

• 1n

∑ni=1 V ar(m(Xi)) = (p+1)σ2

n und MASE(m) = (p+1)σ2

n .

Man beachte: Diese Überlegungen setzen voraus, dass das Modell�wahr� ist. Falls die nicht der Fall ist, existiert ein systematischer Feh-ler und E(m(x)) 6= m(x). Der resultierende Bias ist konstant undkonvergiert nicht gegen Null für n →∞. m ist dann kein konsistenterSchätzer von m.

Nichtparametrisch@LS-Kneip 4�6

Page 7: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

• In einer ganzen Reihe von wichtigen Anwendungen ist dieStruktur der Regressionsfunktion relativ komplex. In solchenFällen sind alle diese Modelle zu einfach und liefern keinebrauchbare Approximation an m(x)�All models are false, but some are useful� (G. Box)

Alternative:• Nichtparametrische Regression: Es werden keine spezi�-

schen Annahmen über die Struktur der Regressionsfunktiongemacht. Die Analyse basiert allein auf der qualitativen An-nahme, dass m glatt ist.

Beispiel: Gesamtausgaben in Abhängigkeit vom AlterDie folgenden Daten stammen aus einer Stichprobe von briti-schen Haushalten aus dem Jahr 1980. Die Beobachtungen bein-halten die Gesamtausgaben für alle Güter und Dienstleistungenvon allen Haushalten mit einem gegeben Alter (Alter ≡ �Alterdes Haushaltsvorstands�).

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4�7

Page 8: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Anpassung einer Geraden:

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Anpassung eines Modells Yi = β0 +∑2

j=1 βjXji + εi :

20 30 40 50 60 70

age

0.7

1.2

1.7

inco

me

Nichtparametrisch@LS-Kneip 4�8

Page 9: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Anpassung eines Modells Yi = β0 +∑4

j=1 βjXji + εi:

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Anpassung eines Modells Yi = β0 +∑6

j=1 βjXji + εi:

20 30 40 50 60 70

age

0.7

1.2

1.7

inco

me

Nichtparametrisch@LS-Kneip 4�9

Page 10: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Nichtparametrische Approximation(Anzahl Freiheitsgrade dfh=10):

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4�10

Page 11: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

4.1 Der Nadaraya-Watson Kernschätzer

Idee: Bildung gewichteter lokaler Mittel der Beobachtungen Yi:

mh(x) =n∑

i=1

w(x,Xi, h)Yi

• Die Gewichtsfunktion w wird derart konstruiert, dass das Ge-wicht einer Beobachtung Yi immer kleiner wird, je gröÿer derAbstand |x − Xi| ist. Der Glättungsparameter h bestimmtdie Geschwindigkeit, mit der die Gewichte gegen Null kon-vergieren, wenn |x−Xi| wächst.

Die sogenannten �Kernschätzer� berechnen solche Gewichte ex-plizit auf der Basis einer Kernfunktion K. Üblicherweise ist K

eine symmetrische Dichtefunktion (z.B. Dichtefunktion der Stan-dardnormalverteilung).Nadaraya-Watson Kernschätzer:

mh(x) =n∑

i=1

K(x−Xi

h )∑n

j=1 K(x−Xj

h )Yi

Der Glättungsparameter h > 0 wird auch als Bandbreite be-zeichnet.

• Für jede mögliche Bandbreite h > 0 ist die Summe der Ge-wichte

w(x,Xi, h) = K(x−Xi

h)/

n∑

j=1

K(x−Xj

h)

immer gleich 1,∑

i w(x,Xi, h) = 1.

Nichtparametrisch@LS-Kneip 4�11

Page 12: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Wahl der Kernfunktion:

• Epanechnikov-Kern

K(x) =

34 (1− x2) if |x| ≤ 1

0 if |x| > 1

• Normal-Kern

K(x) =1√2π

exp(−x2/2)

• Biweight (quartic) Kern

K(x) =

1516 (1− x2)2 if |x| ≤ 1

0 if |x| > 1

Epanechnikov kernel Normal kernel Triangular kernel

Nichtparametrisch@LS-Kneip 4�12

Page 13: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Y

X

* *

**

**

x

*

• h klein ⇒ der Schätzer von m(x) beruht auf einem Mittelüber wenige Beobachtungen Yi ⇒ kleiner systematischerFehler (≡ kleiner Bias), aber groÿe Varianz

• h groÿ ⇒ es wird jeweils über viele Beobachtungen Yi

gemittelt. ⇒ niedrige Varianz, aber möglicherweise groÿersystematischer Fehler (≡ groÿer Bias).

True model

Estimatedmodel

bias

Estimatedmodel

variability

Estimatedmodel

variability

Nichtparametrisch@LS-Kneip 4�13

Page 14: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Beispiel 2.1: Kernschätzer (Normal-Kernfunktion, h = 1)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Kernschätzer (Normal-Kernfunktion, h = 4)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4�14

Page 15: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Kernschätzer (Normal-Kernfunktion, h = 10)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Kernschätzer (Normal-Kernfunktion, h = 25)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4�15

Page 16: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Systematischer Fehler bei äquidistantem Design

Der Bias eines Kernschätzers hängt von der gewählten Bandbrei-te h und der Struktur der wahren Regressionsfunktion m ab.

Bias2(mh) =1n

n∑

i=1

(m(Xi)−mh(Xi))2 =1n

mT (I−Sh)T (I−Sh)m

mit

mh(x) = E (mh(x)) =n∑

i=1

K(x−Xi

h )∑n

j=1 K(x−Xj

h )m(Xi)

Epanechnikov-Kern: K(x−Xi

h ) = 0 ⇔ |x−Xi| ≥ h

⇒ Nur Beobachtungen Xi ∈ [x − h, x + h] beein�ussen den je-weiligen Wert von mh(x) bzw. mh(x),

n∑

i=1

K(x−Xi

h )∑n

j=1 K(x−Xj

h )m(Xi) =

Xi∈[x−h,x+h]

K(x−Xi

h )∑n

j=1 K(x−Xj

h )m(Xi)

• Falls m lokal konstant im Punkt x, d.h. m(x) = m(x∗) füralle x∗ ∈ [x−h, x+h], so gilt m(x) = mh(x) (lokaler Bias =0).

• Allgemein: Di�erenz |m(x)− mh(x)| umso kleiner, je kleinerh

• �Äquidistanter Design�: [a, b] = [0, 1] mit Xi+1 −Xi = 1/n;m zweimal stetig di�erenzierbar; n groÿ:Ist x ein Punkt im Innern von [a, b], so erhält man folgendeApproximation für den lokalen Bias:

Bias2(mh(x)) = |m(x)−mh(x)|2 ≈ 14h4m′′(x)2

∫K(u)u2du

Nichtparametrisch@LS-Kneip 4�16

Page 17: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Variabilität bei äquidistantem Design

Die Varianz eines Kernschätzers hängt von der gewählten Band-breite h, der Fehlervarianz σ2 und der Stichprobengröÿe n ab.

V ar(mh) =1n

n∑

i=1

var(mh(Xi))2 =σ2

nspur(ST

h Sh)

=σ2

n

n∑

i=1

n∑

j=1

K(Xi−Xj

h )2

(∑n

k=1 K(Xi−Xk

h ))2

Allgemein: spur(STh Sh) sowie dfh = spur(Sh) sind (approxima-

tiv) proportional zu 1h . Daher ist V ar(mh) (approximativ) pro-

portional zu σ2

nh . Der genaue Wert hängt von der Verteilung der�Design-Punkte� Xi ab.

• Lokale Varianz eines Kernschätzers an einem Punkt x ∈[a, b]:

var(mh(x)) = var

(n∑

i=1

K(x−Xi

h )∑n

j=1 K(x−Xj

h )εi

)

= σ2n∑

j=1

K(x−Xj

h )2

(∑n

k=1 K(x−Xk

h ))2

• �Äquidistanter Design�: [a, b] = [0, 1] mit Xi+1 −Xi = 1/n,n groÿ:Ist x ein Punkt im Innern von [a, b], so erhält man folgendeApproximation für die lokale Varianz:

var(mh(x)) ≈ σ2

nh

∫K(u)2du

Nichtparametrisch@LS-Kneip 4�17

Page 18: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

MSE bei äquidistantem DesignZur Vereinfachung betrachte man einen sogenannten �äquidistan-ten Design� [a, b] = [0, 1] mit Xi+1 −Xi = 1/n. Weiterhin sei x

ein Punkt im Innern von [a, b].

• Der lokale mittlere quadratische Fehler errechnet sich alsSummes des quadrierten Bias und der Varianz:

MSE(mh(x)) = E((m(x)− mh(x))2

)

= Bias2(mh(x)) + V ar(mh(x))

≈ 14h4m′′(x)2

∫K(u)u2dx + σ2

nh

∫K(u)2du

• Optimale Bandbreite zum Ausgleich von Bias und Varianz:

hopt,x = n−1/5

( ∫K(u)2du

m′′(x)2∫

K(u)u2du

)1/5

• Bei Benutzung der optimalen Bandbreite hopt,x sind der qua-drierte Bias und die Varianz des Kernschätzers beide pro-portional zu n−4/5. Der Fehler wird daher immer kleiner jegröÿer n (Kernschätzer sind konsistente Schätzer von m)� Allerdings konvergiert der Fehler für n → ∞ langsamer

gegen Null als derjenige eines (gültigen) parametrischenModell mit einer festen Zahl p von Parametern. Für einsolches parametrisches Modell ist die Varianz proportio-nal zu σ2 p

n

Nichtparametrisch@LS-Kneip 4�18

Page 19: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Genauigkeit bei Random Design

Im Falle eines Random Designs hängen Bias und Varianz desKernschätzers noch zusätzlich von der Designdichte f ab. Manerhält dann

Bias2(mh(x)) =h4

4ν2(K)2

(m′′(x) +

2m′(x)f ′(x)f(x)

)2

undV ar(mh(x)) =

σ2

f(x)nhR(K)

mit ν2(K) =∫∞−∞K(z)z2dz, R(K) =

∫∞−∞K(z)2dz.

⇒ MSE(mh(x)) =h4

4ν2(K)2

(m′′(x) +

2m′(x)f ′(x)

f(x)

)2

+σ2

f(x)nhR(K)

Eine optimale lokale Bandbreite hopt,x hängt daher noch zusätz-liche von den Werten von f(x) und f ′(x) ab.

• Die Genauigkeit von Kernschätzungen sinkt, wenn man dieSchätzungen an Punkten x nahe den Rändern des Schätz-intervalls [a, b] betrachtet. Für x = a oder x = b gilt nurBias2(mh(x)) = O(h2) (und nicht Bias2(mh(x)) = O(h4)).

• Dieser E�ekt kann jedoch teilweise durch geeignete Modi�-kation der Kernfunktion an den Randpunkten kompensiertwerden.

Nichtparametrisch@LS-Kneip 4�19

Page 20: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Anmerkung : In der Praxis hängt die Gröÿenordnung einergeeigneten Bandbreite hängt von der jeweiligen Skalierung derX�-Variable ab:{Xi}, h ⇔ {10Xi}, 10h.In manchen statistischen Programmpaketen werden daher �stan-dardisierte� Bandbreiten c benutzt:

h = cQn−1/5

• Q: Quartilsabstand der X-Variable

• c ∈ [0, 1]

Theorie der optimalen Kerne:

• Asymptotisch ist der Epanechnikov-Kern die bestmöglicheKernfunktion in der Klasse aller symmetrischen Dichtefunk-tionen(Kriterium: minimaler MASE bei Verwendung der optimalenBandbreite).

• Der Normal-Kern ist fast genauso gut wie der Epanechnikov-Kern (kaum messbarer Verlust an E�zienz). Der trianguläreKern führt tendenziell auf schlechtere Schätzer.

• Literatur: Müller, H.G. (1988).Nonparametric regression ana-lysis of longitudinal data, Springer Verlag, Berlin

Nichtparametrisch@LS-Kneip 4�20

Page 21: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Anmerkung:Kernschätzer sind lineare Glättungsverfahren..Die Schätzungen m(X1), . . . , m(Xn) von m an den Beobach-tungspunkten ergeben sich durch Multiplikation einer Matrix mitden Beobachtungen Y1, . . . , Yn

m(X1)

m(X2)

...m(Xn)

=

K(0)n∑

l=1K(

X1−Xlh

)

K(X1−X2

h)

n∑l=1

K(X1−Xl

h)

. . .K(

X1−Xnh

)n∑

l=1K(

X1−Xlh

)

K(X2−X1

h)

n∑l=1

K(X2−Xl

h)

K(0)n∑

l=1K(

X2−Xlh

). . .

K(X2−Xn

h)

n∑l=1

K(X2−Xl

h)

......

...K(

Xn−X1h

)n∑

l=1K(

Xn−Xlh

)

K(Xn−X2

h)

n∑l=1

K(Xn−Xl

h)

. . . K(0)n∑

l=1K(

Xn−Xlh

)

︸ ︷︷ ︸Sh

·

Y1

Y2

...Yn

Die n× n Matrix Sh wird als �Glättungsmatrix� bezeichnet.

Es lässt sich leicht zeigen, dass

dfh := spur(Sh) =n∑

i=1

K(0)n∑

l=1

K(Xi−Xl

h )

von der Gröÿenordnung 1h ist.

Nichtparametrisch@LS-Kneip 4�21

Page 22: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

4.2 Bandbreitenwahl

Wichtige, allgemein anwendbare Methoden zur Schätzung eineroptimalen Bandbreite sind die Kreuzvalidierung und die verallge-meinerte Kreuzvalidierung. Sie zielen darauf ab, für jede möglicheBandbreite den zugehörigen Wert des MASE aus den Daten zuschätzen und sodann die Bandbreite mit dem minimalen (apro-ximierten) MASE auszuwählen.Erwarteter mittlerer quadratischer Fehler (MASE) anden Beobachtungspunkten:

MASE(mh) = E

(1

n

n∑i=1

(mh(Xi)−m(Xi))2

)

=1

n

n∑i=1

(E(mh(Xi)−m(Xi))2

︸ ︷︷ ︸Bias2(mh)

+1

n

n∑i=1

V ar(m(Xi))

︸ ︷︷ ︸V ar(mh)

• Eine optimale Bandbreite hopt minimiert MASE(mh) überalle h > 0

• Erinnerung: Bias2(mh) wächst mit h; V ar(mh) fällt, falls h

gröÿer wird⇒ hopt - optimaler Ausgleich zwischen Bias und Varianz

Problem: In der Praxis ist MASE(mh) natürlich nicht berechen-bar. Beobachtet werden nur Y1, . . . , Yn, Yi = m(Xi) + εi.Man betrachte nun die mittleren quadratischen Residuen1n

∑ni=1(Yi − mh(Xi))2.

Nichtparametrisch@LS-Kneip 4�22

Page 23: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Beziehung zwischen 1n

∑ni=1(Yi − mh(Xi))2 und MASE(mh)?

1

n

n∑i=1

(Yi − mh(Xi))2

=1

n

n∑i=1

(m(Xi)− mh(Xi))2 + 2

1

n

n∑i=1

εi(m(Xi)− mh(Xi)) +1

n

n∑i=1

ε2i

⇒ E

(1

n

n∑i=1

(Yi − mh(Xi))2

)

= MASE(mh) + E

(2

1

n

n∑i=1

εi(m(Xi)− mh(Xi))

)+ σ2

• Polynomiale Regression: Yi = β0 +∑p

j=1 βjXji + εi für ein

p > 0:E

(2 1

n

∑ni=1 εi(m(Xi)− mh(Xi))

)= − 2σ2(p+1)

n

⇒ E

(1

n

n∑i=1

(Yi − mh(Xi))2

)= MASE(mh)− 2σ2(p + 1)

n+ σ2

• Kernschätzer:E

(2 1

n

∑ni=1 εi(m(Xi)− mh(Xi))

)= − 2σ2·spur(Sh)

n

⇒ E

(1

n

n∑i=1

(Yi − mh(Xi))2

)= MASE(mh)− 2σ2 · spur(Sh)

n+ σ2

• dfh = spur(Sh) wird als Anzahl der Freiheitsgrade desKernschätzers mit Bandbreite h bezeichnet (dfh ist propor-tional zu 1/h). dfh ist ein Maÿ für die Komplexität der mögli-chen Datenanpassung und der damit einhergehenden Varia-bilität der Zufallsschwankungen; nichtparametrisches Ana-logon zur �Anzahl der zu schätzenden Parameter� in einemparametrischen Modell.

Nichtparametrisch@LS-Kneip 4�23

Page 24: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Kreuzvalidierung (CV): Schätzung eines optimalen Glät-tungsparameters durch minimieren von

CV (h) :=n∑

i=1

(Yi − mh,−i(Xi)

)2

über alle möglichen Werte von h. Hierbei ist mh,−i jeweils derSchätzer, den man erhält, wenn nur die n − 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn) verwendet wer-den.• Man beachte: Da jeweils nur eine einzige Beobachtung weg-

gelassen wird, werden sich mh und mh,−i i.Allg. nicht sehrstark unterscheiden, mh(x) ≈ mh,−i(x).

• mh,−i(x) ist jedoch unabhängig von εi ⇒ E(εimh,−i(Xi)) =0.

• Insgesamt erhält man daher approximativ:

E(CV (h)) = E

(1

n

n∑i=1

(m(Xi)− mh,−i(Xi))2

)

+ E

(2

1

n

n∑i=1

εi(m(Xi)− mh,−i(Xi))

)

︸ ︷︷ ︸=0

+σ2

≈ MASE(mh) + σ2

Aus diesen Überlegungen ist zu schlieÿen, dass bis auf einigeZufallsschwankungen:• Eine gute Modellanpassung verlangt, dass MASE(mh) klein

ist. CV (und GCV) liefern dann in einer ersten Approxima-tion eine Schätzung der Fehlervarianz σ2.

• Für verschiedene Bandbreiten h, h∗ spiegeln die Unterschiedein den Werten von CV (h) und CV (h∗) approximativ die Un-

Nichtparametrisch@LS-Kneip 4�24

Page 25: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

terschiede der mittleren quadratischen Fehler MASE(mh)und MASE(mh∗) wider.

• Eine Minimierung von CV (h) bezüglich h liefert daher einesinnvolle Schätzung hopt von hopt.

Verallgemeinerte Kreuzvalidierung (GCV): Schät-zung hopt durch minimieren von

GCV (p) =1

n(1− dfh

n )2

n∑

i=1

(Yi − mh(Xi)

)2

GCV (h) verhält sich analog zu CV (h).Asymptotische Approximation: n →∞, h → 0, nh →∞

E

(GCV (h)

)= E

(1

(1−2dfhn +(

dfhn )2)

1n

∑ni=1(Yi − mh(Xi))2

)

= E

(1n

∑ni=1(Yi − mh(Xi))2

)

+2dfh

n E

(1n

∑ni=1(Yi − mh(Xi))2

)+ o( 1

nh )

= E

(1n

∑ni=1(Yi − mh(Xi))2

)+ 2dfh

n σ2 + o( 1nh )

= MASE(mh) + σ2 + o( 1nh )

• Asymptotische Theorie (unter einigen Regularitätsbedingun-gen): Für groÿe Stichproben ist die durch GCV (oder CV )geschätze Bandbreite hopt nahe an dem Wert der optimalenBandbreite hopt, die MASE(mh) minimiert.

• Es existieren eine Reihe anderer Selektionskriterien, die asym-ptotisch zu CV und GCV äquivalent sind. Zu nennen sindbeispielsweise Mallows' CL oder Akaike's Informations Kri-terium.

Nichtparametrisch@LS-Kneip 4�25

Page 26: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

4.3 Vergleich mit parametrischen Methoden

Vorteile von Kernschätzern und anderen nichtparametrischenGlättungsverfahren:

• Hohe Flexibilität: Für groÿe Stichprobenzahl sind nichtpara-metrische Kurvenschätzer in der Lage jede mögliche glatteRegressionsfunktion zu approximieren

• Sie können dazu dienen, vernünftige parametrische Modellezu spezi�zieren und zu validieren

Nachteile der Benutzung von Kernschätzern und anderer nicht-parametrischer Methoden:

• Im Vergleich zu einem korrekten parametrischen Modell exi-stiert ein Verlust an Schätzgenauigkeit

• Im Allgemeinen ist es nicht möglich, die Werte von Y zueinem vorgegebenen x 6∈ [a, b] zu prognostizieren. Dies würdeeine Extrapolation erfordern, die mit lokalen Verfahren nichtmöglich ist.

• Statistische Inferenz (Konstruktion von Kon�denzinterval-len, Tests, etc.) ist schwieriger als bei parametrischen Ver-fahren

Nichtparametrisch@LS-Kneip 4�26

Page 27: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

4.4 Lokal lineare Regression

• Idee: Gewichtete lokale Anpassung einer Gerade an jedemPunkt x

• Für gegebenes x bestimme β0, β1 durch Minimieren vonn∑

i=1

(Yi − β0 − β1(x−Xi)

)2K(

x−Xi

h)

Lokal linearer Schätzer von m(x):

mh(x) := β0

• K - symmetrische Kernfunktion (z.B. Epanechnikov-Kernoder Normal-Kern)

• h - Bandbreite

Berechnungsformel: Der lokal lineare Schätzer mh(x) = β0 lässtsich wiederum als gewichtetes (lokales) Mittel der Beobachtungenschreiben

mh(x) = β0 =

∑ni=1 wi(x)Yi∑n

i=1 wi(x), wi(x) = K(

x−Xi

h)(s2(x)−(Xi−x)s1(x))

mit

sr(x) =n∑

j=1

(Xj − x)rK(x−Xj

h), r = 1, 2

Nichtparametrisch@LS-Kneip 4�27

Page 28: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

• Die grundlegendenen theoretischen und praktischen Eigen-schaften von lokal linearen Schätzern stimmen mit denen vonKernschätzern überein.

• Es gibt allerdings einige praktische und theoretische Vorteilevon lokal linearen Schätzern (z.B. keine Probleme an Rand-punkten; gröÿere E�zienz der Schätzer bei nicht-äquidistantenDesign)

• Lokal lineare Regression ist ein lineares Glättungsverfahren.

mh(X1)

mh(X2)

···

mh(Xn)

=

w1(X1) w2(X1) . . . wn(X1)

w1(X2) w2(X2) . . . wn(X2)

· · ·· · ·· · ·

w1(Xn) w2(Xn) . . . wn(Xn)

︸ ︷︷ ︸Sh

Y1

Y2

···

Yn

dfh = spur(Sh) ist proportional zu 1/h.

• Wie beim Nadaraya-Watson Kernschätzer hängt die Genau-igkeit von lokal linearen Schätzern wesentlich von der Wahlder Bandbreite ab� h klein ⇒ kleiner systematischer Fehler (≡ kleiner Bi-

as), aber groÿe Varianz� h groÿ ⇒ niedrige Varianz, aber möglicherweise groÿer

systematischer Fehler (≡ groÿer Bias).

Nichtparametrisch@LS-Kneip 4�28

Page 29: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:

200 400 600 800 1000 1200

400

600

800

1000

1200

1400

1600

newspaper circulation

Daily circulation

Sund

ay ci

rculat

ion

local linear (h=150)Nadaraya−Watson kernel (h=150)

200 400 600 800 1000 1200

400

600

800

1000

1200

1400

1600

newspaper circulation

Daily circulation

Sund

ay ci

rculat

ion

local linear (h=400)Nadaraya−Watson kernel (h=400)

Nichtparametrisch@LS-Kneip 4�29

Page 30: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:

30 40 50 60 70 80

2040

6080

100

Electricitiy usage

Average daily temperature

Avera

ge da

ily us

age

local linear (h=9)Nadaraya−Watson kernel (h=9)

30 40 50 60 70 80

2040

6080

100

Electricity usage

Average daily temperature

Avera

ge da

ily us

age

local linear (h=25)Nadaraya−Watson kernel (h=25)

Nichtparametrisch@LS-Kneip 4�30

Page 31: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Die Genauigkeit lokal linearer SchätzerDie Regressionsfunktion m sei zweimal stetig di�erenzierbar.

Äquidistantes Design (x im Innern von [a, b] = [0, 1]):

Bias2(mh(x)) =h4

4ν2(K)2m′′(x)2

undV ar(mh(x)) =

σ2

nhR(K)

mit ν2(K) =∫∞−∞K(z)z2dz, R(K) =

∫∞−∞K(z)2dz.

Random Design (x im Innern von [a, b]):

Bias2(mh(x)) =h4

4ν2(K)2m′′(x)2

undV ar(mh(x)) =

σ2

f(x)nhR(K)

mit ν2(K) =∫∞−∞K(z)z2dz, R(K) =

∫∞−∞K(z)2dz.

Auch an den Randpunkten x = a oder x = b gilt Bias2(mh(x)) ∼O(h4) und V ar(mh(x)) ∼ O(1/(nh) (aber: die zugehörigen Kon-stanten sind nicht gleich ν2(K)2 bzw. R(K)).

Nichtparametrisch@LS-Kneip 4�31

Page 32: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

MASE

Im Folgenden wird ein äquidistanter Design vorausgesetzt: [a, b] =[0, 1] mit Xi+1−Xi = 1/n. Weiterhin sei m zweimal stetig di�e-renzierbarFür groÿe Stichproben erhält man dann folgende asymptotischeApproximation:

MASE(mh) = E

(1n

n∑

i=1

(m(Xi)− mh(Xi))2)

≈ 14h4

∫ 1

0

m′′(x)2dx

∫ ∞

−∞K(u)u2du

︸ ︷︷ ︸Bias2(mh)

+σ2

nh

∫ ∞

−∞K(u)2du

︸ ︷︷ ︸V ar(mh)

Der Ein�uss von Randpunkten ist hier (im Gegensatz zu Kern-schätzern) bei der Berechnung des MASE asymptotisch vernach-lässigbar.

Die (asymptotisch) optimale Bandbreite, für die MASE(mh) mi-nimal wird ergibt somit durch

hopt =

(σ2

∫∞−∞K(u)2du

n∫ 1

0m′′(x)2dx

∫∞−∞K(u)u2du

)1/5

Nichtparametrisch@LS-Kneip 4�32

Page 33: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Lokal lineare Schätzer für verschiedene Bandbreiten h:

0 10 20 30 40 50

510

1520

25vineyard data

Row

Total

numb

er of

lugs

local linear (h=3)

0 10 20 30 40 50

510

1520

25

vineyard data

Row

Total

numb

er of

lugs

local linear (h=1,5)

Nichtparametrisch@LS-Kneip 4�33

Page 34: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Schätzung einer optimalen BandbreiteEs existieren verschiedene Methoden zur Bestimmung eines Schät-zers hopt der bestmöglichen Bandbreite hopt.

• Kreuzvalidierung (CV): Berechnung von hopt durch Mi-nimieren von

CV (h) =1n

n∑

i=1

(Yi − mh,−i(Xi)

)2

,

Hierbei ist mh,−i jeweils der lokal lineare Schätzer, den manerhält, wenn nur die n− 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn)zur Anpassung des Polynoms verwendet werden.n groÿ: E(CV (h)) ≈ σ2 + MASE(mh)

• Verallgemeinerte Kreuzvalidierung (GCV): Berechnungvon hopt durch Minimieren von

GCV (h) =1

n(1− dfh

n )2

n∑

i=1

(Yi − mh(Xi)

)2

n groÿ: E(GCV (h)) ≈ σ2 + MASE(mh)

• Plug-In Schätzer: Ein Schätzwert hopt wird aus der asym-ptotischen Formel für die opimale Bandbreite

hopt =

(σ2

∫∞−∞K(u)2du

n∫ 1

0m′′(x)2dx

∫∞−∞K(u)u2du

)1/5

berechnet. Die unbekannten Gröÿen∫ 1

0m′′(x)2dx und σ2

werden durch geeignete Approximationen ersetzt.

Nichtparametrisch@LS-Kneip 4�34

Page 35: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Verallgemeinerung: Lokal polynomialeRegression

• Idee: Gewichtete lokale Anpassung eines Polynoms vorgege-benen Grades q an jedem Punkt x

• Für gegebenes x bestimme β0, β1, . . . , βq durch Minimierenvon

n∑

i=1

(Yi − β0 − β1(x−Xi)− · · · − βq(x−Xi)q

)2K(

x−Xi

h)

Lokal polynomialer Schätzer von m(x):

mh(x) := β0

• K - Kernfunktion (z.B. Epanechnikov-Kern oder Normal-Kern)

• h - Bandbreite

• Der Nadaraya-Watson Kernschätzer lässt sich als lokal kon-stanter Schätzer au�assen (lokale Anpassung einer Konstan-te ≡ Polynom des Grades q = 0):Minimieren von

n∑

i=1

(Yi − β0

)2K(

x−Xi

h)

liefert

mh(x) := β0 =n∑

i=1

K(x−Xi

h )∑n

j=1 K(x−Xj

h )Yi

Nichtparametrisch@LS-Kneip 4�35

Page 36: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Lokal linearer Schätzer mit Bandbreite h = 3:

0 10 20 30 40 50

510

1520

25vineyard data

Row

Total

numb

er of

lugs

local linear (h=3)

Lokal kubischer Schätzer (q = 3) mit Bandbreite h = 3:

0 10 20 30 40 50

510

1520

25

vineyard data

Row

Total

numb

er of

lugs

local cubic (h=3)

Nichtparametrisch@LS-Kneip 4�36

Page 37: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

4.5 Schätzung der Fehlervarianz

Die Gröÿe der Varianz σ2 der Fehlerterme εi beein�usst die Ge-nauigkeit. Die Fehlervarianz lässt sich mit relativ einfachen Me-thoden konsistent aus den Daten schätzen. Zur Vereinfachungwird im folgenden angenommen, dass die Beobachtungen der X-Variable geordnet sind, d.h. X1 ≤ X2 ≤ · · · ≤ Xn, und dass m

eine glatte, zweimal stetig di�erenzierbare Funktion ist.

• Die Methode von Rice

σ2 =1

2(n− 1)

n∑

i=2

(Yi − Yi−1)2

Es lässt sich zeigen, dass E(σ2) = σ2+O( 1n2 ) und V ar(σ2) =

O( 1n ).

• Die Methode von Gasser et.al.: Man berechnet �Pseudo-Residuen�εi durch

εi =Xi+1 −Xi

Xi+1 −Xi−1Yi−1 +

Xi −Xi−1

Xi+1 −Xi−1Yi+1 − Yi

und setzt

σ2 =1

n− 2

n−1∑

i=2

ε2i

Die Methode von Gasser et al. besitzt i.Allg. einen kleinerenBias als die Methode von Rice.

Nichtparametrisch@LS-Kneip 4�37

Page 38: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

4.6 Kon�denzintervalle

Zur Vereinfachung betrachten wir einen lokal linearen Schätzermh und setzen einen äquidistanten Design mit [a, b] = [0, 1] vor-aus.Es sei mh(x) = E(mh(x)). Unter einigen zusätzlichen Regulari-tätsbedingungen lässt sich zeigen, dass auf Grund des zentralenGrenzwertsatzes asymptotisch (n → ∞, h → 0, nh → ∞) fürjeden Punkt x

mh(x)− mh(x)√var(mh(x))

→L N(0, 1)

gültig ist.Erinnerung: var(mh(x)) = σ2

nhR(K)+o( 1nh ), R(K) =

∫∞−∞K(x)2dx.

Aus dem obigen allgemeinen Resultat lässt sich daher schlieÿen,dass für groÿes n approximativ

mh(x)− mh(x) ∼ AN(0,σ2

nhR(K))

gilt. Die in Abschnitt 4.5 besprochenen Methoden liefern eineApproximation σ2 der Fehlervarianz σ2. Ein approximatives 95%Kon�denzintervall für mh(x) ist daher durch

mh(x)± 1.96

√σ2

nhR(K))

gegeben.Solche Intervalle lassen sich für jeden Punkt x berechnen⇒ Kon-videnzband für die Funktion mh.Man spricht von einem Kon�denzband für die �Variabilität� (d.h.für die durch die Fehlerterme bedingten Zufallsschwnkungen) desSchätzers. Der Bias wird hierbei nicht berücksichtigt.Nichtparametrisch@LS-Kneip 4�38

Page 39: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

4.7 Hypothesentests

In diesem Abschnitt wird zusätzlich vorausgesetzt, dass die Feh-lerterme εi approximativ normalverteilt sind.1) Test auf einen �E�ekt� der X-VariableIn der Praxis ist es häu�g von Interesse zu testen, ob X über-haupt einen Ein�uss auf Y besitzt. Ist dies nicht der Fall, somuss Y (im Mittel) unabhängig von X jeweils den gleichen Wertannehmen, d.h. m(x) = a für all x und eines feste Konstante a.Testproblem: H0 : m(x) = a gegen H1 : m ist eine nicht kon-stante Funktion von x.Unter der Alternative sollten sich Abweichungen von m(x) von ei-ner Konstante durch nichparametrische Regressionschätzer quan-ti�zieren lassen. Wir betrachten im Folgenden lokal polynomialeSchätzer (das Vorgehen z.B. für glättendene Splines, Kernschät-zer ist analog). Sei Y = 1

n

∑i Yi.

• Teststatistik

Lh =1

σ2n

n∑

i=1

(∑nj=1 wj(Xi)(Yj − Y )∑n

j=1 wj(Xi)

)2

,

wobei die Gewichte wj(x) wie in Abschnitt 4.4 de�niert sind.Zur Vereinfachung wird im Folgenden angenommen, dass dieFehlervarianz nach der Methode von Rice geschätzt wird,d.h. σ2 = 1

2(n−1)

∑ni=2(Yi − Yi−1)2.

• Ablehnung von H0 falls Lh zu groÿ, d.h. Lh,beob > lh;1−α,wobei lh;1−α das 1− α-Quantil der Verteilung von Lh unterH0 ist.

Nichtparametrisch@LS-Kneip 4�39

Page 40: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Problem: Verteilung von Lh unter H0?Es ist leicht zu sehen, dass die Verteilung von Lh nicht vomWert von σ2 abhängt. Bei normalverteilten Fehlern gilt daher,dass die Verteilung von Lh unter H0 gleich der Verteilung derZufallsvariablen

Lεh =

2(n− 1)∑ni=2(ε

∗i − ε∗i−1)2n

n∑

i=1

(∑nj=1 wj(Xi)(ε∗j − ε∗)∑n

j=1 wj(Xi)

)2

für unabhängige, standardnormalverteilte Fehler ε∗i ist.Die Quantile der Verteilung von Lε

h lassen sich durch Monte-Carlo-Simulationen (am Computer) approximieren.

• Mit Hilfe eines Zufallszahlengenerators werden n unabhängi-ge, standardnormalverteilte Zufallszahlen ε∗i erzeugt und derzugehörige Wert Lε

h berechnet.

• Diese Prozedur wird k mal wiederholt (k groÿ, z.B. k = 2000)⇒ m Werte: Lε

h,1, Lεh,2, . . . , L

εh,k

• Das (1− α)-Quantil der empirischen Verteilung vonLε

h,1, Lεh,2, . . . , L

εh,k liefert eine Approximation von lh;1−α (um-

so genauer, je gröÿer k)

Man beachte: Der obige Test lässt sich für alle möglichen Band-breiten h durchführen. Je nach Struktur einer möglichen Alterna-tive ist die Güte des Tests jedoch von der Wahl der Bandbreiteh abhängig.

Nichtparametrisch@LS-Kneip 4�40

Page 41: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

2) Test auf Linearität

Testproblem: H0 : m(x) = β0 + β1x gegen H1 : m ist einenichtlineare Funktion von x.Teststatistik:

Lh =1

σ2n

n∑

i=1

(∑nj=1 wj(Xi)(Yj − β0 − β1Xj)∑n

j=1 wj(Xi)

)2

,

wobei β0, β1 die Kleinste-Quadrate Schätzer von β0, β1 aus denBeobachtungen (Y1, X1), . . . , (Yn, Xn) sind. Für unabhängige, stan-dardnormalverteilte Fehler ε∗i lässt sich die Verteilung von Lh

durch die Verteilung von

Lεh =

2(n − 1)n∑

i=2(ε∗

i− ε∗

i−1)2n

n∑

i=1

n∑j=1

wj(Xi)(ε∗j − β∗0 − β∗1 Xi)

n∑j=1

wj(Xi)

2

,

approximieren, wobei β∗0 , β∗1 Kleinste-Quadrate Schätzeraus (ε∗1, X1), . . . , (ε∗n, Xn) sind.Kritische Werte von Lε

h lassen sich durch Monte-Carlo Simula-tionen simulieren.

Nichtparametrisch@LS-Kneip 4�41

Page 42: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

4.8 Multivariate Kernschätzer

Nichtparametrische Glättungsverfahren können auch dann zurSchätzung einer Regressionsfunktion verwendet werden, wenn dieRegression mehrere erklärende Variable Xi = (Xi1, Xi2, . . . , Xid)beinhaltet.Beispiel: Zeidimensionaler Nadaraya-Watson Kernschät-zer

• Sei Xi = (Xi1, Xi2)′. Wie im eindimensionalen Fall beruhtdie Kernschätzung auf der Idee der Bildung gewichteter lo-kaler Mittel der Beobachtungen Yi

• Für eine zweidimensionale X-Variable ist eine BeobachtungXi nahe an einem Punkt x = (x1, x2)′, falls sowohl |x1−Xi1|als auch |x2 −Xi2| klein sind.

Ansatz unter Verwendung von mehrdimensionalen Kernfunktio-nen K : IRd → IR (siehe Kapitel 3):

mh1,h2(x) =

∑ni=1 K(x1−Xi1

h1, x2−Xi2

h2)Yi∑n

i=1 K(x1−Xi1h1

, x2−Xi2h2

)

Die ist wiederum ein lineares Glättungsverfahren. Geeignete Band-breiten h1, h2 können durch Minimieren von GCV (h1, h2) be-stimmt werden.

Nichtparametrisch@LS-Kneip 4�42

Page 43: 4 Grundlagendernichtparametrischen Regressionsanalyse · †Die Fehler- oderStörvariablen †i quanti zierenunsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen

Problem:

• In der Literatur spricht man vom�Curse of Dimensionality�(Fluch der Dimensionalität)

• Kernschätzer sind lokale Schätzer, und hochdimensionale Räu-me sind in einem gewissen Sinne fast leer ( sparse). Falls d

groÿ ist, dann werden auch für groÿe Stichproben nur weni-ge Beobachtungen derart existieren, dass für einen gegebe-nen Punkt x die Abstände

|x1 −Xi1|, |x2 −Xi2|, . . . , |xd −Xid|bezüglich allen Koordinatenrichtungen klein sind.

• Die Schätzgenauigkeit von Kernschätzern und anderen nicht-parametrischen Kurvenschätzern nimmt mit wachsender Di-mension d sehr schnell ab

• Optimale Konvergenzrate: MSE(mh) = O(n−4/(d+4)) (beizweimal stetig di�erenzierbarer Regressionsfunktion m)

• Sei Xi uniform verteilt in [0, 1]d. Um ungefähr 5 Beobach-tungen im Intervall [x − 0.1, x + 0.1]d zu erhalten, werdenfolgende Stichprobengröÿen benötigt:� n = 25 Beobachtungen für d = 1

� n = 125 Beobachtungen für d = 2

� n = 625 Beobachtungen für d = 3

� n = 15625 Beobachtungen für d = 5

� n = 48828125 Beobachtungen für d = 10

Nichtparametrisch@LS-Kneip 4�43