Fehlspezi kation, Quasi-Likelihood und Sch...

22
Kapitel 6 Fehlspezifikation, Quasi-Likelihood und Sch¨ atzgleichungen Bisher haben wir volle (genuine ) Likelihood-Inferenz betrieben: Gegeben war ein parametri- sches statistisches Modell, das heißt eine Familie von Verteilungen oder Dichten mit Parame- ter θ Θ. Bisherige Grundannahme: Es existiert ein wahres” θ 0 Θ derart, dass P θ 0 die Verteilung des datengenerierenden Prozesses P 0 ist, das heißt P θ 0 = P 0 gilt. P θ P θ 0 P 0 Fragen: Was passiert, wenn wir Likelihood-Inferenz innerhalb von P θ betreiben, aber der da- tengenerierende Prozess P 0 6∈P θ ist (Fehlspezifikation)? Was passiert, wenn zwar der Verteilungstyp fehlspezifiziert, jedoch der Erwartungswert korrekt spezifiziert ist (Quasi-Likelihood)? Kann man auf die Likelihood verzichten und direkt von den Quasi-ML-Sch¨ atzgleichun- gen E s(θ) ! =0 starten? Beispiel 6.1 (Lineares Modell). Wir betrachten wieder die Standard-Annahme y i = x > i β + ε i , ε i i.i.d. N (02 ) bzw. y|X N (2 I ) ≡P θ , θ =(β2 ). 31

Transcript of Fehlspezi kation, Quasi-Likelihood und Sch...

Page 1: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Kapitel 6

Fehlspezifikation, Quasi-Likelihoodund Schatzgleichungen

Bisher haben wir volle (genuine) Likelihood-Inferenz betrieben: Gegeben war ein parametri-sches statistisches Modell, das heißt eine Familie von Verteilungen oder Dichten mit Parame-ter θ ∈ Θ.

Bisherige Grundannahme: Es existiert ein”wahres” θ0 ∈ Θ derart, dass Pθ0 die Verteilung

des datengenerierenden Prozesses P0 ist, das heißt Pθ0 = P0 gilt.'

&

$

%Pθ

•Pθ0 •P0

Fragen:

• Was passiert, wenn wir Likelihood-Inferenz innerhalb von Pθ betreiben, aber der da-tengenerierende Prozess P0 6∈ Pθ ist (Fehlspezifikation)?

• Was passiert, wenn zwar der Verteilungstyp fehlspezifiziert, jedoch der Erwartungswertkorrekt spezifiziert ist (Quasi-Likelihood)?

• Kann man auf die Likelihood verzichten und direkt von den Quasi-ML-Schatzgleichun-gen

E s(θ)!

= 0

starten?

Beispiel 6.1 (Lineares Modell). Wir betrachten wieder die Standard-Annahme

yi = x>i β + εi, εii.i.d.∼ N(0, σ2)

bzw.

y|X ∼ N(Xβ, σ2I) ≡ Pθ, θ = (β, σ2).

31

Page 2: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Mogliche Fehlspezifikationen:

(a) Die N(0, σ2)-Annahme fur die εi ist falsch, zum Beispiel konnte die wahre Verteilungdie Doppel-Exponential-Verteilung (Laplace-Verteilung) sein:

f(εi) ∝ exp(− |εi/σ|

).

0

Doppel-Exponential-Verteilung

φ(0, σ2)

���

���

Die Doppel-Exponential-Verteilung (oder auch die Cauchy-/t(1)-Verteilung) ist spitzerim Zentrum und hat breitere Enden (heavy-tails).

⇒ Sie ist ausreißerunempfindlicher.

(b) Die Kovarianzstruktur ist falsch, d.h. Cov(y) 6= σ2I.

Wahre Kovarianzstruktur: Cov(y) = σ2W , zum Beispiel

– W = diag(W1, . . . ,Wn) (heteroskedastische Fehler) oder

– W nichtdiagonal (korrelierte Fehler).

(c) Die Erwartungswertstruktur ist falsch: Ey 6= Xβ, zum Beispiel wegen

– Fehlspezifikation nichtlinearer Effekte, zum Beispiel xβ1 + x2β2 oder β log x,

– fehlender Regressoren.

6.1 ML-Schatzung bei Fehlspezifikation

Wir beschranken uns auf den i.i.d. Fall: Seien X1, . . . , Xn i.i.d. wie X ∼ g(x) und g(x) diewahre Dichte. Als statistisches Modell betrachten wir die Familie von Dichten

Pθ ={f(x|θ), θ ∈ Θ

}.

Falls ein θ0 ∈ Θ existiert mit g(x) ≡ f(x|θ0), so ist das Modell korrekt spezifiziert. Falls keinθ0 ∈ Θ existiert mit g(x) ≡ f(x|θ0), ist das Modell fehlspezifiziert.'

&

$

%f(x|θ)

θ ∈ Θ•g(x) ∼ P0

32

Page 3: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Definition 6.1 (Kullback-Leibler-Distanz). Die Kullback-Leibler-Distanz von g und fθ istdefiniert durch

D(g, fθ) = Eg

(log

g(X)

f(X|θ)

),

d.h.

D(g, fθ) =

∫log

g(x)

f(x|θ)g(x) dx

fur X stetig. Dabei wird der Erwartungswert bzgl. der”

wahren” Dichte bzw. Wahrscheinlich-keitsfunktion g(x) gebildet.

Es gilt:

D(g, fθ) ≥ 0

mit

D(g, fθ0) = 0 ⇔ g ≡ fθ0 .

Also:

D(g, fθ0) = 0 ⇔ Modell korrekt spezifiziert.

Der Beweis erfolgt mit Ungleichung von Jensen.

Bemerkung. Der (negative) Erwartungswert

−Eg log g(X) = −∫g(x) log(g(x)) dx

heißt Entropie von g.

Sei θ0 ”der” Minimierer der Kullback-Leibler-Distanz:

θ0 = argminθ∈Θ

[Eg

{log g(X)

}− Eg

{log f(X|θ)

} ].

Da Eg

{log g(X)

}nicht von θ abhangt, gilt auch

θ0 = argmaxθ∈Θ

Eg

{log f(X|θ)

}.

Die Dichte f(x|θ0) liegt dann im Sinne der Kullback-Leibler-Distanz am”nachsten” bei g.'

&

$

%f(x|θ0)

• g•

33

Page 4: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Der ML-Schatzer ist

θn = argmaxθ∈Θ

1

n

n∑i=1

log f(xi|θ).

Da 1n

n∑i=1

log f(xi|θ)P−→ Eg log f(X|θ) (Gesetz der großen Zahlen), gilt vermutlich

θnP−→ θ0,

das heißt der (Quasi-) ML-Schatzer konvergiert gegen jenes θ0, dessen Dichte f(x|θ0) amnachsten bei g (bezuglich der Kullback-Leibler-Distanz) liegt.

Genauer gilt:

Satz 6.2 (Asymptotische Eigenschaften des ML-Schatzers bei Missspezifikation).

1. Konsistenz: Sei θ0 ein (lokaler) Maximierer von

λ(θ) ≡ Eg log f(X|θ)

(bzw. ein Minimierer von D(g, fθ)). Unter Regularitatsannahmen (ahnlich wie bei Fisher-Regularitat) existiert eine Folge θn von (

”Quasi-”) ML-Schatzern, das heißt lokalen

Maximierern von

1

n

n∑i=1

log f(xi|θ)

mit

θnP−→ θ0.

2. Asymptotische Normalitat: Es gilt

√n(θn − θ0)

d−→ N(

0,J−11 (θ0) I1(θ0)J−1

1 (θ0))

mit

I1(θ) ≡ Eg(∂ log f(X|θ)

∂θ

)︸ ︷︷ ︸

s1(θ)

(∂ log f(X|θ)

∂θ

)>︸ ︷︷ ︸

s1(θ)>

und der (Quasi-) Fisher-Information

J1(θ) = Eg

(−∂

2 log f(X|θ)∂θ ∂θ>

).

34

Page 5: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Bemerkung.

• Falls g(x) ≡ f(x|θ), also das Modell korrekt spezifiziert ist, gilt

I1(θ) = J1(θ)

(vergleiche Satz 2.16 aus Schatzen und Testen I), und man erhalt die ubliche asympto-tische Normalverteilung des ML-Schatzers bei korrekter Modellspezifikation.

• Informell gilt

θna∼ N

θ0,1

nJ−1

1 (θ0) I1(θ0)J−11 (θ0)︸ ︷︷ ︸

V (θ0)

,

und V (θ0) wird geschatzt durch

V (θn) = J−1(θn) I(θn)J−1(θn) (”

Sandwich”-Matrix)

mit

I(θn) =

n∑i=1

si(θn) s>i (θn) empirische Fisher-Matrix der Stichprobe,

J(θn) = −n∑i=1

∂2log f(xi|θ)∂θ ∂θ>︸ ︷︷ ︸∂2 l(θ)

∂θ ∂θ>

∣∣∣∣∣θ=θn

empirische beobachtete Informations-Matrix.

• Formal gilt:√n(θn − θ0)

d→ N(0,J−11 (θ0)I1(θ0)J−1

1 (θ0)).

Bemerkung.

1. Im i.n.i.d. Fall gilt (informell):

Sei l(θ, x) = logf(x|θ) und

θ0 := argmaxθ

Eg l(θ,X) = argmaxθ

Eg

{n∑i=1

li(θ,Xi)

},

bzw. sei θ0 die Nullstelle von Eg s(θ), das heißt Eg(s(θ0)) = 0. Außerdem

θn = argmaxθ

l(θ, x) bzw. s(θn) = 0.

Dann gilt

θna∼ N

(θ0, V (θn)

)wie oben, nur mit fi(xi|θ) an Stelle von f(xi|θ).

35

Page 6: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

2. Angenommen, der Modellparameter θ = (θ, α)> setze sich zusammen aus einem eigent-lich interessierenden Parameter θ und einem Nuisance-Parameter α. Die Scorefunktionlautet dann

s(θ, α) =

(sθ(θ, α)sα(θ, α)

)=

(sθ(θ)

sα(θ)

).

Falls trotz fehlspezifizierter Likelihood der eigentlich interessierende Parameter die ML-Gleichung Eg(sθ(θ0)) = 0 erfullt, so gilt weiterhin

θna∼ N

(θ0, V (θn)

)⇒ Quasi-Likelihood.

6.2 Quasi-Likelihood und Schatzgleichungen

Frage: Lassen sich Parameter von Interesse wie der Mittelwert µ im i.i.d. Fall oder der Kova-riablenvektor β im Regressionsfall noch konsistent und asymptotisch normalverteilt schatzen,wenn das statistische Modell nur teilweise fehlspezifiziert bzw. unvollstandig spezifiziert ist?

Beispiel 6.2. Seien Y1, . . . , Yn i.i.d. wie Y ∼ f(Y |µ, σ2), f symmetrisch um µ, aber nichtnormal, etwa

P0 =

{f(y|µ0) =

1

2σe−|y−µ0|/σ

}(Laplace- oder Doppel-Exponential-Verteilung).

Trotzdem wahlt man die (Log-) Likelihood

ql(µ) = − 1

2σ2

n∑i=1

(yi − µ)2 + const

der Normalverteilung als Quasi-(Log-)Likelihood und maximiert diese. So kommt man aufdie Quasi-Scorefunktion

qs(µ) =1

σ2

n∑i=1

(yi − µ).

Es gilt

E0 qs(µ0) =1

σ2

n∑i=1

(E0(Yi)︸ ︷︷ ︸=µ0

−µ0) = 0,

also µQML = y wie ublich und wegen E0Y = µ0 erwartungstreu.

Allerdings ist y kein (asymptotisch) effizienter Schatzer mehr (die Rao-Cramer-Schranke wirdnicht erreicht).

Beispiel 6.3. Seien Y1, . . . , Yn unabhangig, Yi ∼ N(µ0, σ2i ) und

P0 =

{n∏i=1

φ(yi|µ0, σ2i ) =

1

(2π)n/2 ·∏ni=1 σi

exp

(−

n∑i=1

1

2

(yi − µ0)2

σ2i

)}.

36

Page 7: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Dann wahlt man als Quasi-Log-Likelihood:

ql(µ) = −1

2

n∑i=1

(yi − µσ

)2

,

das heißt man ignoriert die Abhangigkeit der Varianz von i und berechnet

qs(µ) =1

σ2

n∑i=1

(yi − µ),

E0 qs(µ) =1

σ2

n∑i=1

(µ0 − µ) = 0 ⇔ µ0 = µ,

µQML = y, E(µQML) = µ0 erwartungstreu,

aber

Var0(µQML) = Var0(Y ) =1

n2

n∑i=1

Var(Yi) =1

n2

n∑i=1

σ2i ,

das heißt µQML = y ist ineffizient, aber (falls zum Beispiel σ2i ≤ c) konsistent und normal-

verteilt.

Beispiel 6.4 (Lineares Modell). Standard–Annahme:

yi|xi ∼ N(x>i β, σ2)

bzw.y|X ∼ N(Xβ, σ2I) .

Mogliche Fehlspezifikationen:

(a) Normalverteilungsannahme falsch,

(b) Kovarianzstruktur Cov y = σ2I falsch,

(c) Erwartungswertstruktur Ey = Xβ falsch.

zu (a): Dies ist der Fall, wenn y nicht normalverteilt ist, aber die Kovarianzstruktur und dasErwartungswertmodell korrekt sind.

Es gilt: E0y = Xβ0 ist das wahre Modell.

s(β) =1

σ2X>(y −Xβ)

E0s(β0) = 0

Dabei ist E0s(β0) der Erwartungswert im wahren Modell vom wahren Parameter. Esergibt sich

βQML = βKQ = (X>X)−1X>y

37

Page 8: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

mit

E0(βQML) = (X>X)−1X>Ey = β0 (erwartungstreu),

Cov0(βQML) = σ2(X>X)−1,

alsoβQML

a∼ N(β0, σ2(X>X)−1).

Damit ist βQML effizient.

zu (b): Die wahre Kovarianzmatrix ist σ2W statt σ2I:

P0 : y ∼ N(Xβ0, σ2W )

E0s(β0) = 0

βQML = (X>X)−1X>y

E0(βQML) = (X>X)−1X>Xβ0 = β0

Cov0(βQML) = (X>X)−1X>Cov0(Y )X(X>X)−1

= σ2(X>X)−1X>WX(X>X)−1

( 6= σ2(X>X)−1 )

βQML ist konsistent, aber nicht effizient.

(Ein effizienter Schatzer ware der gewichtete KQ– bzw. Aitken–SchatzerβAITKEN = (X>W−1X)−1X>W−1y.)

zu (c): Der wahre Erwartungswert ist ungleich Xβ:

wahrer Erwartungswert: E0y = µ0 = X0β0

⇒ wahres Modell: y ∼ N(X0β0, σ2I)

(falls N und σ2I = Cov0(y) richtig). Dann ist

βQML = (X>X)−1X>y

E0(βQML) = (X>X)−1X>X0β0 6= β0 .

Somit ist βQML verzerrter Schatzer, aber liefert das best–approximierende lineareModell mit Designmatrix X. Die Kovarianzmatrix ist dann gegeben durch:

Cov0(βQML) = (X>X)−1X>Cov0(y)︸ ︷︷ ︸σ2I

X(X>X)−1 = σ2(X>X)−1.

Fazit aus den Beispielen:

• Falls die Likelihood oder die Varianzstruktur fehlspezifiziert sind, jedoch die Erwar-tungswertstruktur

Eyi = µi = x>i β

korrekt spezifiziert ist, erhalt man konsistente Schatzer fur µ bzw. β.

38

Page 9: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

• Es genugt sogar, die Nullstelle der Quasi–Scorefunktion

qs(µ)!

= 0 bzw. qs(β)!

= 0

zu bestimmen. Falls fur das”wahre“ µ0 bzw. β0

E0 qs(µ0) = 0 , E0 qs(β0) = 0

gilt, dann ist die Nullstelle µ bzw. β konsistent und asymptotisch normalverteilt fur µbzw. β.

⇒ Idee der”

Schatzgleichungen“ (estimating equations):

Definiere eine Schatzfunktion oder Quasi–Scorefunktion

qs(θ) =

n∑i=1

ψi(yi, θ)

so, dass fur den”wahren“ Parameter θ0

E0 qs(θ0) =

n∑i=1

E0[ψi(yi, θ0)] = 0

erfullt ist. Dann ist der Quasi–ML–Schatzer oder”

M–Schatzer“ definiert als Nullstelle

qs(θQML)!

= 0 (Schatzgleichung)

der Schatzfunktion qs(θ).

Beispiel 6.5 (Generalisierte Regression). Sei

E0 yi = µi(β) korrekt spezifiziert ,

Var0 yi = φ vi(β) (eventuell) fehlspezifiziert .

Es gilt: E0s(β) = 0.

Es wird nur eine Annahme hinsichtlich der Schatzgleichung getroffen, jedoch nicht fur dieVerteilung:

s(β) =1

φ

n∑i=1

(∂µi(β)

∂β

)vi(β)−1 (yi − µi(β))︸ ︷︷ ︸

E(yi)−µi(β)=0

∝n∑i=1

(∂µi(β)

∂β

)vi(β)−1(yi − µi(β))

hat Erwartungswert 0 und

s(β)!

= 0 .

⇒ β ist konsistent und asymptotisch normalverteilt.

Speziell:”generalized estimating equation“ (wie in GLM: µi(β) = x>i β).

39

Page 10: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Beispiel 6.6 ((Binare) Longitudinaldaten (repeated measures) oder Clusterdaten). Die Da-tenpaare (yij ,xij) , i = 1, . . . , n , j = 1, . . . , ni, seien je ni wiederholte Beobachtungen anIndividuen oder in

”Clustern“, wie zum Beispiel Familien oder Klassen i = 1, . . . , n.

ni: Anzahl der (zeitlich) wiederholten Beobachtungen pro Individuum oder Cluster

yij: Zielvariable

xij: Kovariablenvektor

yij |xij sei aus einer Exponentialfamilie (normal, binomial, Poisson, . . . ) mit Erwartungswert

E(yij |xij) = h(x>ijβ) = µij .

Die Schatzgleichungen bei Vernachlassigung von (zeitlichen) Korrelationen zwischen den Messwie-derholungen lauten

qs(β) =n∑i=1

ni∑j=1

xijwij(β)(yij − h(x>ijβ))!

= 0

mitEβ0 qs(β0) = 0,

wobei die wij(β) geeignete Gewichte sind. Somit ist βQML konsistent und asymptotisch nor-mal, jedoch unter Effizienzverlust.

6.3 M–Schatzer in der robusten Statistik

Ein weiteres Anwendungsgebiet von M–Schatzern ist die robuste (ausreißerresistente) Schatzungvon Lokalisationsparametern (wie E(X) = µ) und Regressionsparametern.

(a) Schatzung von µ:

Die Losung der KQ–Schatzgleichung

n∑i=1

(yi − µ)!

= 0 ⇒ µ = y

reagiert sensitiv auf Ausreißer. Als Schatzgleichung wurde hier

ψ(y, µ) = y − µ

verwendet. Eine allgemeinere Schatzgleichung wird so formuliert:

n∑i=1

ψ(yi, µ)!

= 0 .

Dabei ist ψ eine geeignete Funktion, zum Beispiel ψ(y, µ) = y − µ fur Lokalistionspara-meter mit Losung µψ.

40

Page 11: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

"""""""""""""""""

ψ(y, µ) = y − µ

µ

Huber´s ψ

µµ− k µ+ k

getrimmtes ψ

µµ− k µ+ k

Extreme Version von Hubers ψ:

ψ(y, µ) = sgn(y − µ) =

1 y > µ0 y = µ−1 y < µ .

Daraus erhalt man den Median.

Quantilschatzung:

ψ(y, µ) =

p

1−p y > µ

0 y = µ−1 y < µ.

(b) Robuste Regression: Die KQ-Gleichung fur yi = x>i β + εi lautet

n∑i=1

xi(yi − x>i β)!

= 0.

Allgemein:n∑i=1

xiψ(yi,x>i β)

!= 0 .

Die Losung dieser Schatzgleichung βψ ist ein robuster Schatzer.

41

Page 12: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Asymptotische Eigenschaften von M–Schatzern θM

Unter Regularitatsvoraussetzungen, insbesondere

E0 qs(θ0) = 0,

giltθM

a∼ N(θ0,V (θM )) .

Dabei ist V (θM ) definiert als

V (θM ) = J−1(θM )I(θM )J−1(θM )

mit der empirischen (Quasi–) Fisher–Matrix

I(θM ) =

n∑i=1

qsi(θM )qs>i (θM )

und der (empirischen) beobachteten (Quasi–) Informationsmatrix

J(θM ) = −∂ qs(θ)

∂θ>

∣∣∣∣θ=θM

.

Der Beweis dafur verlauft analog wie fur ML–Schatzer.

Bemerkung. Nachteil von Quasi–Likelihood: Im Allgemeinen sind keine Likelihood–Ratio–Tests und darauf basierende Modellwahlkriterien moglich.

Aus

Eqs(θ) = 0

⇒ Cov(qs(θ)) = E(qs(θ)>qs(θ)) =: I(θ)

⇒ qs(θ)a∼ N(0, I(θ))

und Taylorentwicklung von qs(θM ) = 0 um θ,

0 = qs(θM )a∼ qs(θ) +

∂ qs(θ)

∂θ>︸ ︷︷ ︸−J(θ)

(θM − θ) ,

folgt

(θM − θ)a∼ N(0,J−1(θM )I(θM )J−1(θM ))

⇒ θMa∼ N(θ,J−1(θM )I(θM )J−1(θM )) .

6.4 Verallgemeinerte Schatzgleichungen (Generalized Estima-ting Equations)

Siehe Folien zur Vorlesung.

42

Page 13: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

6.5 Quantilregression

Die Grafiken in diesem Abschnitt stammen großtenteils aus der Diplomarbeit von Nora Fens-ke (2008) zum Thema “Flexible Longitudinaldaten-Regression mit Anwendungen auf Adipo-sitas”.

Literatur: Roger Koenker (2005): Quantile Regression, Cambridge University Press.

Zur Person: Roger Koenker ist McKinley Professor of Economics and Statistics an der Uni-versity of Illinois (1976-1983 Bell-Labs) und wendete 25 Jahre Forschung fur dieses Themaauf.

6.5.1 Einleitung

Idee der Quantilregression:

Analog zur (linearen) Regression, welche den bedingten Erwartungswert E(Y |x) als Funktionvon Kovariablen x modelliert, sollen Ansatze fur die Modellierung der bedingten Quantils-funktion entwickelt werden.

Wir nehmen im Folgenden stetigen Response Y an. Eine Anwendung der Quantilregressionliefert folgendes Beispiel aus der Diplomarbeit von Nora Fenske (2008).

Beispiel 6.7 (Einflussfaktoren fur Adipositas (Fettleibigkeit, Fettsucht) bei Kindern). ZurErkennung von Ubergewicht wird haufig der sogenannte Body Mass Index

BMI =Korpergewicht [kg]

(Korpergroße)2 [m2]

verwendet. Fur Erwachsene gelten folgende von der Weltgesundheitsorganisation festgelegteGrenzen:

BMI Einstufung

< 19 Untergewicht19− 25 Normalgewicht

25− 30 Ubergewicht> 30 Adipositas

Dieses Schema lasst sich jedoch nicht auf Kinder ubertragen, da diese im Allgemeinen einenviel kleineren BMI besitzen als Erwachsene. Daher benotigt man fur Kinder anderes Vorgehen,zum Beispiel durch folgende zwei Schritte:

1. Bilden einer Referenzpopulation; hier sind mehrere Methoden moglich, zum Beispielunterschiedliche Referenzpopulationen fur verschiedene Lander und getrennt nach Al-tersstufen.

2. Ein Kind wird als ubergewichtig bzw. adipos eingestuft, wenn der BMI großer ist alsbestimmte Quantile der Referenzpopulation, zum Beispiel konnte ein Kind als uberge-wichtig gelten, wenn der BMI großer ist als das 90%-Quantil der Referenzpopulation,und als adipos, wenn der BMI großer ist als das 97%-Quantil.

43

Page 14: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Q 0.97

Anmerkung: In diesem Beispiel liegen zusatzlich Langsschnittdaten vor, dies wird hier jedochnicht weiter betrachtet.

In diesem Beispiel wurde ein Standardmodell wie das lineare Modell zunachst nicht die Fragebeantworten, welche Einflussfaktoren fur Adipositas verantwortlich sein konnten, da es nurden mittleren BMI als Funktion der Kovariablen modelliert.

Warum”

zunachst”? — Unter Umstanden liefert auch das lineare Modell den gewunschtenZusammenhang (folgt spater).

Definition 6.3. Eine reellwertige Zufallsvariable Y wird durch ihre (rechtsstetige) Vertei-lungsfunktion charakterisiert:

FY (y) = P(Y ≤ y) .

Fur jedes τ , 0 < τ < 1, ist

yτ = Qτ (y) = F−1Y (τ) = inf {y : F (y) ≥ τ}

das τ · 100%-Quantil von Y .

Definition 6.4. Bei Vorliegen von Kovariableninformation lassen sich entsprechend Defini-tion 6.3 die bedingte Verteilung

FY |X=x(y) = P(Y ≤ y|X = x)

und die bedingte Quantilsfunktion Qτ als

Qτ (y|X = x) = F−1Y |X=x(τ |X = x) = yτ (x)

definieren.

Bemerkung.

1. Die bedingte Quantilsfunktion stellt die τ -Quantile von Y in Abhangigkeit von Kova-riablen X = x dar (zunachst nur formal!).

44

Page 15: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

2. Angenommen, es gilt das lineare Modell

Yi = β0 + β1xi + εi , εii.i.d.∼ N(0, σ2) .

Dann folgt:

FYi|X=xi(y) = P(Yi ≤ y|X = xi)

= P

(Yi − β0 − β1xi

σ≤ y − β0 − β1xi

σ

)= Φ

(y − β0 − β1xi

σ

)(Φ = Verteilungsfkt. der Standard-NV)

= τ

⇐⇒ yτ (xi)− β0 − β1xiσ

= Φ−1(τ)

mityτ (xi) = Qτ (y|X = xi) = β0 + β1xi + σ · Φ−1(τ)

bzw.

Qτ (y|X = x) = β0 + β1x+ σ · Φ−1(τ)

= (β0 + σ · Φ−1(τ))︸ ︷︷ ︸β0τ

+ β1x .

Das heißt, im klassischen linearen Regressionsmodell mit Normalverteilungsannahmeentspricht β1 sowohl dem Einfluss der Kovariablen auf den bedingten Erwartungswertals auch dem Einfluss der Kovariablen auf die bedingte Quantilsfunktion. Die bedingteQuantilsfunktion geht durch Parallelverschiebung (um σ · Φ−1(τ)) aus der bedingtenErwartungswertfunktion hervor.

Speziell: Fur τ = 0.5 (bedingte Medianfunktion) ergibt sich wegen der Symmetrie derDichte der Standardnormalverteilung:

Φ−1(τ) = 0 ⇒ Q0.5(y|X = x) = β0 + β1x.

3. BetrachteYi = β0 + β1xi + εi mit εi

i.i.d.∼ Fε .

Analoge Berechnungen wie in 2. fuhren auf

Qτ (y|X = x) = β0 + F−1ε (τ) + β1x .

Fε ist nicht notwendigerweise symmetrisch, das heißt F−1ε (0.5) ist im Allgemeinen un-

gleich 0 und die bedingte Medianfunktion ist ungleich der bedingten Erwartungswert-funktion.

Ansonsten: Wiederum Parallelverschiebung im i.i.d.-Fall.

45

Page 16: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Die folgende Grafik zeigt theoretische Quantilsfunktionen fur 2. und 3.

Symmetrischer Fall (2) (c gleich c')

x

Qττ(

y|X

=x)

ττ = 0.9

ττ = 0.1

ττ = 0.5

Unsymmetrischer Fall (3) (c ungleich c')

xQ

ττ(y|

X=

x)

ττ = 0.9

ττ = 0.1

ττ = 0.5

Idee fur die Praxis:

Schatze fur eine Folge von Werten von τ , zum Beispiel τ = 0.05, 0.1, . . . , 0.95, jeweils einebedingte Quantilsfunktion

Qτ (y|X = x) = x>βτ .

Damit lasst sich die gesamte bedingte Verteilung charakterisieren/modellieren, im Gegensatzzur klassischen linearen Regression, wo wir nur den bedingten Erwartungswert erhalten (vgl.Mittelwert/Boxplot im univariaten Fall).

6.5.2 Spezialfall: Zweistichproben-Problem

Betrachte eine Zielvariable yi, die durch eine Kovariable xi mit genau zwei moglichen Aus-pragungen spezifiziert wird; zum Beispiel konnte yi ein Blutwert sein und

xi =

{0 Placebo,1 Medikament.

Wir nehmen fur yi|xi eine Normalverteilung an:

yi|{xi = 0} ∼ N(µ0, σ20),

yi|{xi = 1} ∼ N(µ1, σ21).

Es ergeben sich drei mogliche Situationen:

1. Location-Shift: µ1 = µ0 + ∆ (µ0 6= µ1), aber σ20 = σ2

1.

2. Scale-Shift: σ20 6= σ2

1, aber µ0 = µ1.

3. Location-Scale-Shift: µ0 6= µ1, σ20 6= σ2

1.

46

Page 17: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Skizze:

●●●

●●

0 = Placebo 1 = Med.

468

1012141618

Location−Shift

y =

Blut

wer

t

µµ0 =10 µµ1 =11 σσ0 = σσ1 =1

4 6 8 10 12 14 16 18

0.0

0.1

0.2

0.3

0.4

y = Blutwert

f Y(y

|x)

4 6 8 10 12 14 16 18

0.0

0.2

0.4

0.6

0.8

1.0

y = Blutwert

F Y(y

|x) =

ττ

ββ0.2

ββ0.8

0.0 0.2 0.4 0.6 0.8 1.0

−3

−2

−1

0

1

2

3

4

ττ

ββ ττ1

●●

●●●

0 = Placebo 1 = Med.

468

1012141618

Scale−Shift

y =

Blut

wer

t

µµ0 = µµ1 =10 σσ0 =1 σσ1 =2

4 6 8 10 12 14 16 18

0.0

0.1

0.2

0.3

0.4

y = Blutwert

f Y(y

|x)

4 6 8 10 12 14 16 18

0.0

0.2

0.4

0.6

0.8

1.0

y = Blutwert

F Y(y

|x) =

ττ

0.0 0.2 0.4 0.6 0.8 1.0

−3

−2

−1

0

1

2

3

4

ττ

ββ ττ1

●●

●●

●●

0 = Placebo 1 = Med.

468

1012141618

Location−Scale−Shift

y =

Blut

wer

t

µµ0 =10 µµ1 =11 σσ0 =1 σσ1 =2

4 6 8 10 12 14 16 18

0.0

0.1

0.2

0.3

0.4

y = Blutwert

f Y(y

|x)

4 6 8 10 12 14 16 18

0.0

0.2

0.4

0.6

0.8

1.0

y = Blutwert

F Y(y

|x) =

ττyττc

ττc

0.0 0.2 0.4 0.6 0.8 1.0

−3

−2

−1

0

1

2

3

4

ττ

ββ ττ1

Interpretation (unter der Annahme, dass ein hoherer Blutwert einem besseren Gesundheits-zustand entspricht):

1. Konstanter Behandlungseffekt.

2. Positiver Behandlungseffekt rechts vom Median, negativer Behandlungseffekt links vomMedian.

3. Positiver Behandlungseffekt rechts vom Quantil yτ , negativer Behandlungseffekt linksvom Quantil yτ .

Also allgemein:F: Placebo (X = 0)G: Medikament (X = 1)

}Verteilungsfunktionen

47

Page 18: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Behandlungseffekt βτ im Quantil τ :

F

G

Der Behandlungseffekt lasst sich theoretisch berechnen durch

βτ = G−1(τ)− F−1(τ) .

Empirisch:βτ = G−1

n (τ)− F−1m (τ) ,

wobei Gn und Fm die empirischen Verteilungsfunktionen auf Basis von n bzw. m Beobach-tungen sind.

Zusammenhang mit dem Erwartungswert:

µ = E(Y ) =

∫ +∞

−∞y dF (y) =

∫ 1

0F−1(t) dt .

Damit gilt: ∫ 1

0G−1(τ)− F−1(τ) dτ = E(Y |X = 1)− E(Y |X = 0) .

6.5.3 Quantile als Losung eines Optimierungsproblems, Schatzung der Pa-rameter der Quantilregression

Es soll nun ein Schatzer βτ fur βτ auf Grundlage eines entscheidungstheoretischen Konzeptshergeleitet werden. Betrachte als Verlustfunktion die sogenannte Check-Funktion

ρτ (u) = u · (τ −I(u < 0)︸ ︷︷ ︸Indikatorfunktion

) , τ ∈ (0, 1) .

Die Check-Funktion ist im Folgenden grafisch dargestellt. Fur ein gegebenes τ bildet sie denasymmetrischen Verlust ab. Fur τ = 0.5 ergibt sich ρ0.5(u) = 0.5|u|.

48

Page 19: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

−4 −2 0 2 4

0

1

2

3

4

5

u

Che

ck−

Fun

ktio

n ρρ ττ

(u)

ττ == 0.1ττ == 0.5ττ == 0.8

Sei Y eine stetige Zufallsvariable mit der Verteilungsfunktion FY . Um einen Schatzer y fur yτzu erhalten, minimiere den erwarteten Verlust, das heißt

EFY [ρτ (y − y)]→ miny

. (6.1)

Satz 6.5. Der Minimierer von (6.1) ist y = F−1Y (τ).

Beweis. Nach Definition der Indikatorfunktion ergibt sich

ρτ (y − y) =

{(y − y) · (τ − 1) falls y − y < 0⇔ y < y,(y − y) · τ falls y − y ≥ 0⇔ y ≥ y.

Der erwartete Verlust ist somit

EFY [ρτ (y − y)] = (τ − 1) ·∫ y

−∞(y − y) dFY (y) + τ ·

∫ ∞y

(y − y) dFY (y) .

Ableiten nach y ergibt

∂yEFY [ρτ (y − y)] = −(τ − 1) ·

∫ y

−∞dFY (y)− τ ·

∫ ∞y

dFY (y)

= −τ · 1 +

∫ y

−∞dFY (y)

= FY (y)− τ != 0

und damitFY (y) = τ ⇒ y = yτ = F−1

Y (τ) .

49

Page 20: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Damit ergeben sich die Quantile als Losung eines entscheidungstheoretischen Optimierungs-problems mit der Check-Funktion als spezieller Verlustfunktion.

Auf diese Weise gelangt man zum Schatzprinzip in der Quantilregression (”analog” zu KQ,

nur mit anderer Verlustfunktion):

1. Der Minimierer

argminα∈R

n∑i=1

ρτ (yi − α)

liefert α(τ), das τ ·100%-Stichprobenquantil.

2. Ubertrage die Idee auf die bedingte Quantilsfunktion Qτ (yi|X = xi) = x>i βτ :

argminβτ∈Rp

n∑i=1

ρτ (yi − x>i βτ ) .

Die Zielfunktion ist stuckweise linear und stetig. → Lineare Programmierung (Simplex-Verfahren).

Alternativ:

Herleitung eines Schatzers βτ durch Quasi-ML-Ansatz (Vorteil: asymptotische Verteilung,Standardfehler etc.).

Dazu eignet sich die asymmetrische Laplace-Verteilung (ALD)

Y ∼ ALD(µ, σ, τ)

mit −∞ < y <∞, µ ∈ R, σ > 0 und τ ∈ (0, 1). Die Dichtefunktion der ALD lautet

fY (y) =τ(1− τ)

σ· exp

{−ρτ

(y − µσ

)},

Erwartungswert und Varianz sind

E(Y ) = µ+σ(1− 2τ)

τ(1− τ)

Var(Y ) =σ2(1− 2τ + 2τ2)

(1− τ)2τ2.

Die folgende Abbildung zeigt die Dichte der ALD-Verteilung in Abhangigkeit von den Para-metern τ und σ. Links von µ betragt die Wahrscheinlichkeitsmasse genau τ und rechts vonµ dementsprechend genau 1− τ . Das τ · 100%-Quantil der Verteilung liegt also genau bei µ.Außerdem ist die Dichte linksschief, falls τ > 0.5, und rechtsschief, falls τ < 0.5.

50

Page 21: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

−15 −10 −5 0 5 10 15

0.00

0.05

0.10

0.15

0.20

0.25

0.30

y

ALD

−D

icht

e f Y

(y)

µµ=0, σσ=1

ττ == 0.1ττ == 0.5ττ == 0.8

−15 −10 −5 0 5 10 15

0.00

0.05

0.10

0.15

0.20

0.25

0.30

yA

LD−

Dic

hte

f Y(y

)

µµ=0, ττ=0.3

σσ == 0.7σσ == 1σσ == 3

Als Quasi-Likelihood ergibt sich

1

σexp

{−

n∑i=1

ρτ

(yi − x>i βτ

σ

)}→ max

βτ.

Dies ist aquivalent zun∑i=1

ρτ (yi − x>i βτ )→ minβτ

,

also dem ursprunglichen Ansatz.

6.5.4 Zusammenfassung

Die Modellformel fur die lineare Quantilregression lautet

yi = x>i βτ + ετi

mit unabhangigen, aber moglicherweise heteroskedastischen ετi. Die einzige Forderung andie ετi ist

Fετi(0) =

∫ 0

−∞f(ετi) dετi = τ ,

das heißtF−1ετi (τ) = 0

und damitQτ (yi|X = xi) = x>i βτ + F−1

ετi (τ) = x>i βτ .

51

Page 22: Fehlspezi kation, Quasi-Likelihood und Sch …semwiso.userweb.mwn.de/schaetzentesten2-ss10/skript/ST2...Kapitel 6 Fehlspezi kation, Quasi-Likelihood und Sch atzgleichungen Bisher haben

Eigenschaften der Quantilregression:

– Aquivarianz, d.h. Unempfindlichkeit von Schatzern gegenuber Transformationen oderReparametrisierungen der Zielvariablen, zum Beispiel

βτ (ay,X) = aβτ (y,X),

βτ (y,XA) = A−1βτ (y,X)

mit einem Skalar a und regularer Matrix A. Fur monoton wachsende Funktionen h gilt:

Qτ (h(y)|X = x) = h(Qτ (y|X = x)).

– Robustheit, d.h. Unempfindlichkeit von Schatzern gegenuber Ausreißern. Die Robustheitkann zum Beispiel durch den sogenannten Breakdown Point gemessen werden, das istder Anteil an willkurlich ins Extreme gezogene Beobachtungen, die ein Schatzer aushalt,bevor er sich in eine extreme Richtung verandert.

– Asymptotische Verteilung (nicht i.i.d.-Fall, sondern nur Unabhangigkeit gegeben): Esgilt √

n(βτ − βτ )→ N(0, τ(1− τ) H−1(τ)J(τ)H−1(τ)︸ ︷︷ ︸”Huber Sandwich”

)

mit

J(τ) = limn→∞

1

n

n∑i=1

xix>i ,

H(τ) = limn→∞

1

n

n∑i=1

xix>i · fi(yiτ ) .

Dabei ist fi(yiτ ) die bedingte Dichte von yi an der Stelle yiτ .

Die Schatzung fur fi(yiτ ) bzw. H(τ) ist allerdings problematisch (→ Differenzenquoti-ent, . . . ).

Praxis-Version:

βτa∼ N

βτ , τ(1− τ)

(n∑i=1

xix>i · fi(yiτ )

)−1( n∑i=1

xix>i

)(n∑i=1

xix>i · fi(yiτ )

)−1 .

– Quantiluberschneidung (Quantile Crossing): Dieses Problem tritt auf, wenn sich zweiunabhangig voneinander ermittelte Quantilregressionskurven uberschneiden. Zum Bei-spiel konnte fur eine bestimmte Kombination von Kovariablen das (geschatzte) 90%-Quantil (falschlicherweise) großer sein als das 97%-Quantil.

– Unabhangige Schatzungen der Koeffizienten: Die Schatzungen βτ und βτ ′ fur τ 6= τ ′

werden unabhangig voneinander durchgefuhrt; tatsachlich sind βτ und βτ ′ aber korre-liert.

52