Fehlspezi kation, Quasi-Likelihood und Sch...

Click here to load reader

  • date post

    12-Jan-2020
  • Category

    Documents

  • view

    2
  • download

    0

Embed Size (px)

Transcript of Fehlspezi kation, Quasi-Likelihood und Sch...

  • Kapitel 6

    Fehlspezifikation, Quasi-Likelihoodund Schätzgleichungen

    Bisher haben wir volle (genuine) Likelihood-Inferenz betrieben: Gegeben war ein parametri-sches statistisches Modell, das heißt eine Familie von Verteilungen oder Dichten mit Parame-ter θ ∈ Θ.

    Bisherige Grundannahme: Es existiert ein”wahres” θ0 ∈ Θ derart, dass Pθ0 die Verteilung

    des datengenerierenden Prozesses P0 ist, das heißt Pθ0 = P0 gilt.'

    &

    $

    %Pθ

    •Pθ0 •P0

    Fragen:

    • Was passiert, wenn wir Likelihood-Inferenz innerhalb von Pθ betreiben, aber der da-tengenerierende Prozess P0 6∈ Pθ ist (Fehlspezifikation)?

    • Was passiert, wenn zwar der Verteilungstyp fehlspezifiziert, jedoch der Erwartungswertkorrekt spezifiziert ist (Quasi-Likelihood)?

    • Kann man auf die Likelihood verzichten und direkt von den Quasi-ML-Schätzgleichun-gen

    E s(θ)!

    = 0

    starten?

    Beispiel 6.1 (Lineares Modell). Wir betrachten wieder die Standard-Annahme

    yi = x>i β + εi, εi

    i.i.d.∼ N(0, σ2)

    bzw.

    y|X ∼ N(Xβ, σ2I) ≡ Pθ, θ = (β, σ2).

    31

  • Mögliche Fehlspezifikationen:

    (a) Die N(0, σ2)-Annahme für die εi ist falsch, zum Beispiel könnte die wahre Verteilungdie Doppel-Exponential-Verteilung (Laplace-Verteilung) sein:

    f(εi) ∝ exp(− |εi/σ|

    ).

    0

    Doppel-Exponential-Verteilung

    φ(0, σ2)

    ���

    ���

    Die Doppel-Exponential-Verteilung (oder auch die Cauchy-/t(1)-Verteilung) ist spitzerim Zentrum und hat breitere Enden (heavy-tails).

    ⇒ Sie ist ausreißerunempfindlicher.

    (b) Die Kovarianzstruktur ist falsch, d.h. Cov(y) 6= σ2I.Wahre Kovarianzstruktur: Cov(y) = σ2W , zum Beispiel

    – W = diag(W1, . . . ,Wn) (heteroskedastische Fehler) oder

    – W nichtdiagonal (korrelierte Fehler).

    (c) Die Erwartungswertstruktur ist falsch: Ey 6= Xβ, zum Beispiel wegen– Fehlspezifikation nichtlinearer Effekte, zum Beispiel xβ1 + x

    2β2 oder β log x,

    – fehlender Regressoren.

    6.1 ML-Schätzung bei Fehlspezifikation

    Wir beschränken uns auf den i.i.d. Fall: Seien X1, . . . , Xn i.i.d. wie X ∼ g(x) und g(x) diewahre Dichte. Als statistisches Modell betrachten wir die Familie von Dichten

    Pθ ={f(x|θ), θ ∈ Θ

    }.

    Falls ein θ0 ∈ Θ existiert mit g(x) ≡ f(x|θ0), so ist das Modell korrekt spezifiziert. Falls keinθ0 ∈ Θ existiert mit g(x) ≡ f(x|θ0), ist das Modell fehlspezifiziert.'

    &

    $

    %f(x|θ)

    θ ∈ Θ•g(x) ∼ P0

    32

  • Definition 6.1 (Kullback-Leibler-Distanz). Die Kullback-Leibler-Distanz von g und fθ istdefiniert durch

    D(g, fθ) = Eg

    (log

    g(X)

    f(X|θ)

    ),

    d.h.

    D(g, fθ) =

    ∫log

    g(x)

    f(x|θ)g(x) dx

    für X stetig. Dabei wird der Erwartungswert bzgl. der”

    wahren” Dichte bzw. Wahrscheinlich-keitsfunktion g(x) gebildet.

    Es gilt:

    D(g, fθ) ≥ 0

    mit

    D(g, fθ0) = 0 ⇔ g ≡ fθ0 .

    Also:

    D(g, fθ0) = 0 ⇔ Modell korrekt spezifiziert.

    Der Beweis erfolgt mit Ungleichung von Jensen.

    Bemerkung. Der (negative) Erwartungswert

    −Eg log g(X) = −∫g(x) log(g(x)) dx

    heißt Entropie von g.

    Sei θ0 ”der” Minimierer der Kullback-Leibler-Distanz:

    θ0 = argminθ∈Θ

    [Eg

    {log g(X)

    }− Eg

    {log f(X|θ)

    } ].

    Da Eg

    {log g(X)

    }nicht von θ abhängt, gilt auch

    θ0 = argmaxθ∈Θ

    Eg

    {log f(X|θ)

    }.

    Die Dichte f(x|θ0) liegt dann im Sinne der Kullback-Leibler-Distanz am ”nächsten” bei g.'

    &

    $

    %f(x|θ0) • g•

    33

  • Der ML-Schätzer ist

    θ̂n = argmaxθ∈Θ

    1

    n

    n∑i=1

    log f(xi|θ).

    Da 1n

    n∑i=1

    log f(xi|θ)P−→ Eg log f(X|θ) (Gesetz der großen Zahlen), gilt vermutlich

    θ̂nP−→ θ0,

    das heißt der (Quasi-) ML-Schätzer konvergiert gegen jenes θ0, dessen Dichte f(x|θ0) amnächsten bei g (bezüglich der Kullback-Leibler-Distanz) liegt.

    Genauer gilt:

    Satz 6.2 (Asymptotische Eigenschaften des ML-Schätzers bei Missspezifikation).

    1. Konsistenz: Sei θ0 ein (lokaler) Maximierer von

    λ(θ) ≡ Eg log f(X|θ)

    (bzw. ein Minimierer von D(g, fθ)). Unter Regularitätsannahmen (ähnlich wie bei Fisher-Regularität) existiert eine Folge θ̂n von (”

    Quasi-”) ML-Schätzern, das heißt lokalenMaximierern von

    1

    n

    n∑i=1

    log f(xi|θ)

    mit

    θ̂nP−→ θ0.

    2. Asymptotische Normalität: Es gilt

    √n(θ̂n − θ0)

    d−→ N(

    0,J−11 (θ0) I1(θ0)J−11 (θ0)

    )mit

    I1(θ) ≡ Eg(∂ log f(X|θ)

    ∂θ

    )︸ ︷︷ ︸

    s1(θ)

    (∂ log f(X|θ)

    ∂θ

    )>︸ ︷︷ ︸

    s1(θ)>

    und der (Quasi-) Fisher-Information

    J1(θ) = Eg

    (−∂

    2 log f(X|θ)∂θ ∂θ>

    ).

    34

  • Bemerkung.

    • Falls g(x) ≡ f(x|θ), also das Modell korrekt spezifiziert ist, gilt

    I1(θ) = J1(θ)

    (vergleiche Satz 2.16 aus Schätzen und Testen I), und man erhält die übliche asympto-tische Normalverteilung des ML-Schätzers bei korrekter Modellspezifikation.

    • Informell gilt

    θ̂na∼ N

    θ0, 1nJ−11 (θ0) I1(θ0)J−11 (θ0)︸ ︷︷ ︸V (θ0)

    ,und V (θ0) wird geschätzt durch

    V̂ (θ̂n) = J−1(θ̂n) I(θ̂n)J

    −1(θ̂n) (”Sandwich”-Matrix)

    mit

    I(θ̂n) =

    n∑i=1

    si(θ̂n) s>i (θ̂n) empirische Fisher-Matrix der Stichprobe,

    J(θ̂n) = −n∑i=1

    ∂2log f(xi|θ)∂θ ∂θ>︸ ︷︷ ︸∂2 l(θ)

    ∂θ ∂θ>

    ∣∣∣∣∣θ=θ̂n

    empirische beobachtete Informations-Matrix.

    • Formal gilt:√n(θ̂n − θ0)

    d→ N(0,J−11 (θ0)I1(θ0)J−11 (θ0)).

    Bemerkung.

    1. Im i.n.i.d. Fall gilt (informell):

    Sei l(θ, x) = logf(x|θ) und

    θ0 := argmaxθ

    Eg l(θ,X) = argmaxθ

    Eg

    {n∑i=1

    li(θ,Xi)

    },

    bzw. sei θ0 die Nullstelle von Eg s(θ), das heißt Eg(s(θ0)) = 0. Außerdem

    θ̂n = argmaxθ

    l(θ, x) bzw. s(θ̂n) = 0.

    Dann gilt

    θ̂na∼ N

    (θ0, V̂ (θ̂n)

    )wie oben, nur mit fi(xi|θ) an Stelle von f(xi|θ).

    35

  • 2. Angenommen, der Modellparameter θ̃ = (θ, α)> setze sich zusammen aus einem eigent-lich interessierenden Parameter θ und einem Nuisance-Parameter α. Die Scorefunktionlautet dann

    s(θ, α) =

    (sθ(θ, α)sα(θ, α)

    )=

    (sθ(θ̃)

    sα(θ̃)

    ).

    Falls trotz fehlspezifizierter Likelihood der eigentlich interessierende Parameter die ML-Gleichung Eg(sθ(θ̃0)) = 0 erfüllt, so gilt weiterhin

    θ̂na∼ N

    (θ0, V̂ (θ̂n)

    )⇒ Quasi-Likelihood.

    6.2 Quasi-Likelihood und Schätzgleichungen

    Frage: Lassen sich Parameter von Interesse wie der Mittelwert µ im i.i.d. Fall oder der Kova-riablenvektor β im Regressionsfall noch konsistent und asymptotisch normalverteilt schätzen,wenn das statistische Modell nur teilweise fehlspezifiziert bzw. unvollständig spezifiziert ist?

    Beispiel 6.2. Seien Y1, . . . , Yn i.i.d. wie Y ∼ f(Y |µ, σ2), f symmetrisch um µ, aber nichtnormal, etwa

    P0 ={f(y|µ0) =

    1

    2σe−|y−µ0|/σ

    }(Laplace- oder Doppel-Exponential-Verteilung).

    Trotzdem wählt man die (Log-) Likelihood

    ql(µ) = − 12σ2

    n∑i=1

    (yi − µ)2 + const

    der Normalverteilung als Quasi-(Log-)Likelihood und maximiert diese. So kommt man aufdie Quasi-Scorefunktion

    qs(µ) =1

    σ2

    n∑i=1

    (yi − µ).

    Es gilt

    E0 qs(µ0) =1

    σ2

    n∑i=1

    (E0(Yi)︸ ︷︷ ︸=µ0

    −µ0) = 0,

    also µ̂QML = ȳ wie üblich und wegen E0Ȳ = µ0 erwartungstreu.

    Allerdings ist ȳ kein (asymptotisch) effizienter Schätzer mehr (die Rao-Cramer-Schranke wirdnicht erreicht).

    Beispiel 6.3. Seien Y1, . . . , Yn unabhängig, Yi ∼ N(µ0, σ2i ) und

    P0 =

    {n∏i=1

    φ(yi|µ0, σ2i ) =1

    (2π)n/2 ·∏ni=1 σi

    exp

    (−

    n∑i=1

    1

    2

    (yi − µ0)2

    σ2i

    )}.

    36

  • Dann wählt man als Quasi-Log-Likelihood:

    ql(µ) = −12

    n∑i=1

    (yi − µσ

    )2,

    das heißt man ignoriert die Abhängigkeit der Varianz von i und berechnet

    qs(µ) =1

    σ2

    n∑i=1

    (yi − µ),

    E0 qs(µ) =1

    σ2

    n∑i=1

    (µ0 − µ) = 0 ⇔ µ0 = µ,

    µ̂QML = ȳ, E(µ̂QML) = µ0 erwartungstreu,

    aber

    Var0(µ̂QML) = Var0(Ȳ ) =1

    n2

    n∑i=1

    Var(Yi) =1

    n2

    n∑i=1

    σ2i ,

    das heißt µ̂QML = ȳ ist ineffizient, aber (falls zum Beispiel σ2i ≤ c) konsistent und normal-

    verteilt.

    Beispiel 6.4 (Lineares Modell). Standard–Annahme:

    yi|xi ∼ N(x>i β, σ2)

    bzw.y|X ∼ N(Xβ, σ2I) .

    Mögliche Fehlspezifikationen:

    (a) Normalverteilungsannahme falsch,

    (b) Kovarianzstruktur Cov y = σ2I falsch,

    (c) Erwartungswertstruktur Ey = Xβ falsch.

    zu (a): Dies ist der Fall, wenn y nicht normalverteilt ist, aber die Kovarianzstruktur und dasErwartungswertmodell korrekt sind.

    Es gilt: E0y = Xβ0 ist das wahre Modell.

    s(β) =1

    σ2X>(y −Xβ)

    E0s(β0) = 0

    Dabei ist E0s(β0) der Erwartungswert im wahren Modell vom wahren Parameter. Esergibt sich

    β̂QML = β̂KQ = (X>X)−1X>y

    37

  • mit

    E0(β̂QML) = (X>X)−1X>Ey = β0 (erwartungstreu),

    Cov0(β̂QML) = σ2(X>X)−1,

    alsoβ̂QML

    a∼ N(β0, σ2(X>X)−1).

    Damit ist β̂QML effizient.

    zu (b): Die wahre Kovarianzmatrix ist σ2W statt σ2I:

    P0 : y ∼ N(Xβ0, σ2W )E0s(β0) = 0

    β̂QML = (X>X)−1X>y

    E0(β̂QML) = (X>X)−1X>Xβ0 = β0

    Cov0(β̂QML) = (X>X)−1X>Cov0(Y )X(X

    >X)−1

    = σ2(X>X)−1X>WX(X>X)−1

    ( 6= σ2(X>X)−1 )

    β̂QML ist konsistent, aber nicht effizient.

    (Ein effizienter Schätzer wäre der gewichtete KQ– bzw. Aitken–Schätzerβ̂AITKEN = (X

    >W−1X)−1X>W−1y.)

    zu (c): Der wahre Erwartungswert ist ungleich Xβ:

    wahrer Erwartungswert: E0y = µ0 = X0β0

    ⇒ wahres Modell: y ∼ N(X0β0, σ2I)

    (falls N und σ2I = Cov0(y) richtig). Dann ist

    β̂QML = (X>X)−1X>y

    E0(β̂QML) = (X>X)−1X>X0β0 6= β0 .

    Somit ist β̂QML verzerrter Schätzer, aber liefert das best–approximierende lineareModell mit Designmatrix X. Die Kovarianzmatrix ist dann gegeben durch:

    Cov0(β̂QML) = (X>X)−1X>Cov0(y)︸ ︷︷ ︸

    σ2I

    X(X>X)−1 = σ2(X>X)−1.

    Fazit aus den Beispielen:

    • Falls die Likelihood oder die Varianzstruktur fehlspezifiziert sind, jedoch die Erwar-tungswertstruktur

    Eyi = µi = x>i β

    korrekt spezifiziert ist, erhält man konsistente Schätzer für µ bzw. β.

    38

  • • Es genügt sogar, die Nullstelle der Quasi–Scorefunktion

    qs(µ̂)!

    = 0 bzw. qs(β̂)!

    = 0

    zu bestimmen. Falls für das”wahre“ µ0 bzw. β0

    E0 qs(µ0) = 0 , E0 qs(β0) = 0

    gilt, dann ist die Nullstelle µ̂ bzw. β̂ konsistent und asymptotisch normalverteilt für µbzw. β.

    ⇒ Idee der”

    Schätzgleichungen“ (estimating equations):

    Definiere eine Schätzfunktion oder Quasi–Scorefunktion

    qs(θ) =

    n∑i=1

    ψi(yi, θ)

    so, dass für den”wahren“ Parameter θ0

    E0 qs(θ0) =

    n∑i=1

    E0[ψi(yi, θ0)] = 0

    erfüllt ist. Dann ist der Quasi–ML–Schätzer oder”

    M–Schätzer“ definiert als Nullstelle

    qs(θ̂QML)!

    = 0 (Schätzgleichung)

    der Schätzfunktion qs(θ).

    Beispiel 6.5 (Generalisierte Regression). Sei

    E0 yi = µi(β) korrekt spezifiziert ,

    Var0 yi = φ vi(β) (eventuell) fehlspezifiziert .

    Es gilt: E0s(β) = 0.

    Es wird nur eine Annahme hinsichtlich der Schätzgleichung getroffen, jedoch nicht für dieVerteilung:

    s(β) =1

    φ

    n∑i=1

    (∂µi(β)

    ∂β

    )vi(β)

    −1 (yi − µi(β))︸ ︷︷ ︸E(yi)−µi(β)=0

    ∝n∑i=1

    (∂µi(β)

    ∂β

    )vi(β)

    −1(yi − µi(β))

    hat Erwartungswert 0 und

    s(β̂)!

    = 0 .

    ⇒ β̂ ist konsistent und asymptotisch normalverteilt.

    Speziell:”generalized estimating equation“ (wie in GLM: µi(β) = x

    >i β).

    39

  • Beispiel 6.6 ((Binäre) Longitudinaldaten (repeated measures) oder Clusterdaten). Die Da-tenpaare (yij ,xij) , i = 1, . . . , n , j = 1, . . . , ni, seien je ni wiederholte Beobachtungen anIndividuen oder in

    ”Clustern“, wie zum Beispiel Familien oder Klassen i = 1, . . . , n.

    ni: Anzahl der (zeitlich) wiederholten Beobachtungen pro Individuum oder Cluster

    yij: Zielvariable

    xij: Kovariablenvektor

    yij |xij sei aus einer Exponentialfamilie (normal, binomial, Poisson, . . . ) mit Erwartungswert

    E(yij |xij) = h(x>ijβ) = µij .

    Die Schätzgleichungen bei Vernachlässigung von (zeitlichen) Korrelationen zwischen den Messwie-derholungen lauten

    qs(β) =n∑i=1

    ni∑j=1

    xijwij(β)(yij − h(x>ijβ))!

    = 0

    mitEβ0 qs(β0) = 0,

    wobei die wij(β) geeignete Gewichte sind. Somit ist β̂QML konsistent und asymptotisch nor-mal, jedoch unter Effizienzverlust.

    6.3 M–Schätzer in der robusten Statistik

    Ein weiteres Anwendungsgebiet von M–Schätzern ist die robuste (ausreißerresistente) Schätzungvon Lokalisationsparametern (wie E(X) = µ) und Regressionsparametern.

    (a) Schätzung von µ:

    Die Lösung der KQ–Schätzgleichung

    n∑i=1

    (yi − µ̂)!

    = 0 ⇒ µ̂ = y

    reagiert sensitiv auf Ausreißer. Als Schätzgleichung wurde hier

    ψ(y, µ) = y − µ

    verwendet. Eine allgemeinere Schätzgleichung wird so formuliert:

    n∑i=1

    ψ(yi, µ)!

    = 0 .

    Dabei ist ψ eine geeignete Funktion, zum Beispiel ψ(y, µ) = y − µ für Lokalistionspara-meter mit Lösung µ̂ψ.

    40

  • """""""""""""""""

    ψ(y, µ) = y − µ

    µ

    Huber´s ψ

    µµ− k µ+ k

    getrimmtes ψ

    µµ− k µ+ k

    Extreme Version von Hubers ψ:

    ψ(y, µ) = sgn(y − µ) =

    1 y > µ0 y = µ−1 y < µ .

    Daraus erhält man den Median.

    Quantilschätzung:

    ψ(y, µ) =

    p

    1−p y > µ

    0 y = µ−1 y < µ.

    (b) Robuste Regression: Die KQ-Gleichung für yi = x>i β + εi lautet

    n∑i=1

    xi(yi − x>i β)!

    = 0.

    Allgemein:n∑i=1

    xiψ(yi,x>i β)

    != 0 .

    Die Lösung dieser Schätzgleichung β̂ψ ist ein robuster Schätzer.

    41

  • Asymptotische Eigenschaften von M–Schätzern θ̂M

    Unter Regularitätsvoraussetzungen, insbesondere

    E0 qs(θ0) = 0,

    giltθ̂M

    a∼ N(θ0,V (θ̂M )) .

    Dabei ist V (θ̂M ) definiert als

    V (θ̂M ) = J−1(θ̂M )I(θ̂M )J

    −1(θ̂M )

    mit der empirischen (Quasi–) Fisher–Matrix

    I(θ̂M ) =

    n∑i=1

    qsi(θ̂M )qs>i (θ̂M )

    und der (empirischen) beobachteten (Quasi–) Informationsmatrix

    J(θ̂M ) = −∂ qs(θ)

    ∂θ>

    ∣∣∣∣θ=θ̂M

    .

    Der Beweis dafür verläuft analog wie für ML–Schätzer.

    Bemerkung. Nachteil von Quasi–Likelihood: Im Allgemeinen sind keine Likelihood–Ratio–Tests und darauf basierende Modellwahlkriterien möglich.

    Aus

    Eqs(θ) = 0

    ⇒ Cov(qs(θ)) = E(qs(θ) >qs(θ)) =: I(θ)⇒ qs(θ) a∼ N(0, I(θ))

    und Taylorentwicklung von qs(θ̂M ) = 0 um θ,

    0 = qs(θ̂M )a∼ qs(θ) + ∂ qs(θ)

    ∂θ>︸ ︷︷ ︸−J(θ)

    (θ̂M − θ) ,

    folgt

    (θ̂M − θ)a∼ N(0,J−1(θ̂M )I(θ̂M )J−1(θ̂M ))

    ⇒ θ̂Ma∼ N(θ,J−1(θ̂M )I(θ̂M )J−1(θ̂M )) .

    6.4 Verallgemeinerte Schätzgleichungen (Generalized Estima-ting Equations)

    Siehe Folien zur Vorlesung.

    42

  • 6.5 Quantilregression

    Die Grafiken in diesem Abschnitt stammen größtenteils aus der Diplomarbeit von Nora Fens-ke (2008) zum Thema “Flexible Longitudinaldaten-Regression mit Anwendungen auf Adipo-sitas”.

    Literatur: Roger Koenker (2005): Quantile Regression, Cambridge University Press.

    Zur Person: Roger Koenker ist McKinley Professor of Economics and Statistics an der Uni-versity of Illinois (1976-1983 Bell-Labs) und wendete 25 Jahre Forschung für dieses Themaauf.

    6.5.1 Einleitung

    Idee der Quantilregression:

    Analog zur (linearen) Regression, welche den bedingten Erwartungswert E(Y |x) als Funktionvon Kovariablen x modelliert, sollen Ansätze für die Modellierung der bedingten Quantils-funktion entwickelt werden.

    Wir nehmen im Folgenden stetigen Response Y an. Eine Anwendung der Quantilregressionliefert folgendes Beispiel aus der Diplomarbeit von Nora Fenske (2008).

    Beispiel 6.7 (Einflussfaktoren für Adipositas (Fettleibigkeit, Fettsucht) bei Kindern). ZurErkennung von Übergewicht wird häufig der sogenannte Body Mass Index

    BMI =Körpergewicht [kg]

    (Körpergröße)2 [m2]

    verwendet. Für Erwachsene gelten folgende von der Weltgesundheitsorganisation festgelegteGrenzen:

    BMI Einstufung

    < 19 Untergewicht19− 25 Normalgewicht25− 30 Übergewicht> 30 Adipositas

    Dieses Schema lässt sich jedoch nicht auf Kinder übertragen, da diese im Allgemeinen einenviel kleineren BMI besitzen als Erwachsene. Daher benötigt man für Kinder anderes Vorgehen,zum Beispiel durch folgende zwei Schritte:

    1. Bilden einer Referenzpopulation; hier sind mehrere Methoden möglich, zum Beispielunterschiedliche Referenzpopulationen für verschiedene Länder und getrennt nach Al-tersstufen.

    2. Ein Kind wird als übergewichtig bzw. adipös eingestuft, wenn der BMI größer ist alsbestimmte Quantile der Referenzpopulation, zum Beispiel könnte ein Kind als überge-wichtig gelten, wenn der BMI größer ist als das 90%-Quantil der Referenzpopulation,und als adipös, wenn der BMI größer ist als das 97%-Quantil.

    43

  • Q 0.97

    Anmerkung: In diesem Beispiel liegen zusätzlich Längsschnittdaten vor, dies wird hier jedochnicht weiter betrachtet.

    In diesem Beispiel würde ein Standardmodell wie das lineare Modell zunächst nicht die Fragebeantworten, welche Einflussfaktoren für Adipositas verantwortlich sein könnten, da es nurden mittleren BMI als Funktion der Kovariablen modelliert.

    Warum”

    zunächst”? — Unter Umständen liefert auch das lineare Modell den gewünschtenZusammenhang (folgt später).

    Definition 6.3. Eine reellwertige Zufallsvariable Y wird durch ihre (rechtsstetige) Vertei-lungsfunktion charakterisiert:

    FY (y) = P(Y ≤ y) .

    Für jedes τ , 0 < τ < 1, ist

    yτ = Qτ (y) = F−1Y (τ) = inf {y : F (y) ≥ τ}

    das τ · 100%-Quantil von Y .

    Definition 6.4. Bei Vorliegen von Kovariableninformation lassen sich entsprechend Defini-tion 6.3 die bedingte Verteilung

    FY |X=x(y) = P(Y ≤ y|X = x)

    und die bedingte Quantilsfunktion Qτ als

    Qτ (y|X = x) = F−1Y |X=x(τ |X = x) = yτ (x)

    definieren.

    Bemerkung.

    1. Die bedingte Quantilsfunktion stellt die τ -Quantile von Y in Abhängigkeit von Kova-riablen X = x dar (zunächst nur formal!).

    44

  • 2. Angenommen, es gilt das lineare Modell

    Yi = β0 + β1xi + εi , εii.i.d.∼ N(0, σ2) .

    Dann folgt:

    FYi|X=xi(y) = P(Yi ≤ y|X = xi)

    = P

    (Yi − β0 − β1xi

    σ≤ y − β0 − β1xi

    σ

    )= Φ

    (y − β0 − β1xi

    σ

    )(Φ = Verteilungsfkt. der Standard-NV)

    = τ

    ⇐⇒ yτ (xi)− β0 − β1xiσ

    = Φ−1(τ)

    mityτ (xi) = Qτ (y|X = xi) = β0 + β1xi + σ · Φ−1(τ)

    bzw.

    Qτ (y|X = x) = β0 + β1x+ σ · Φ−1(τ)= (β0 + σ · Φ−1(τ))︸ ︷︷ ︸

    β0τ

    + β1x .

    Das heißt, im klassischen linearen Regressionsmodell mit Normalverteilungsannahmeentspricht β1 sowohl dem Einfluss der Kovariablen auf den bedingten Erwartungswertals auch dem Einfluss der Kovariablen auf die bedingte Quantilsfunktion. Die bedingteQuantilsfunktion geht durch Parallelverschiebung (um σ · Φ−1(τ)) aus der bedingtenErwartungswertfunktion hervor.

    Speziell: Für τ = 0.5 (bedingte Medianfunktion) ergibt sich wegen der Symmetrie derDichte der Standardnormalverteilung:

    Φ−1(τ) = 0 ⇒ Q0.5(y|X = x) = β0 + β1x.

    3. BetrachteYi = β0 + β1xi + εi mit εi

    i.i.d.∼ Fε .

    Analoge Berechnungen wie in 2. führen auf

    Qτ (y|X = x) = β0 + F−1ε (τ) + β1x .

    Fε ist nicht notwendigerweise symmetrisch, das heißt F−1ε (0.5) ist im Allgemeinen un-

    gleich 0 und die bedingte Medianfunktion ist ungleich der bedingten Erwartungswert-funktion.

    Ansonsten: Wiederum Parallelverschiebung im i.i.d.-Fall.

    45

  • Die folgende Grafik zeigt theoretische Quantilsfunktionen für 2. und 3.

    Symmetrischer Fall (2) (c gleich c')

    x

    Qττ(

    y|X

    =x)

    ττ = 0.9

    ττ = 0.1

    ττ = 0.5

    Unsymmetrischer Fall (3) (c ungleich c')

    xQ

    ττ(y|

    X=

    x)

    ττ = 0.9

    ττ = 0.1

    ττ = 0.5

    Idee für die Praxis:

    Schätze für eine Folge von Werten von τ , zum Beispiel τ = 0.05, 0.1, . . . , 0.95, jeweils einebedingte Quantilsfunktion

    Qτ (y|X = x) = x>βτ .

    Damit lässt sich die gesamte bedingte Verteilung charakterisieren/modellieren, im Gegensatzzur klassischen linearen Regression, wo wir nur den bedingten Erwartungswert erhalten (vgl.Mittelwert/Boxplot im univariaten Fall).

    6.5.2 Spezialfall: Zweistichproben-Problem

    Betrachte eine Zielvariable yi, die durch eine Kovariable xi mit genau zwei möglichen Aus-prägungen spezifiziert wird; zum Beispiel könnte yi ein Blutwert sein und

    xi =

    {0 Placebo,1 Medikament.

    Wir nehmen für yi|xi eine Normalverteilung an:

    yi|{xi = 0} ∼ N(µ0, σ20),yi|{xi = 1} ∼ N(µ1, σ21).

    Es ergeben sich drei mögliche Situationen:

    1. Location-Shift: µ1 = µ0 + ∆ (µ0 6= µ1), aber σ20 = σ21.

    2. Scale-Shift: σ20 6= σ21, aber µ0 = µ1.

    3. Location-Scale-Shift: µ0 6= µ1, σ20 6= σ21.

    46

  • Skizze:

    ●●●

    ●●

    0 = Placebo 1 = Med.

    468

    1012141618

    Location−Shift

    y =

    Blut

    wer

    t

    µµ0 =10 µµ1 =11 σσ0 = σσ1 =1

    4 6 8 10 12 14 16 18

    0.0

    0.1

    0.2

    0.3

    0.4

    y = Blutwert

    f Y(y

    |x)

    4 6 8 10 12 14 16 18

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    y = Blutwert

    F Y(y

    |x) =

    ττ

    ββ0.2

    ββ0.8

    0.0 0.2 0.4 0.6 0.8 1.0

    −3

    −2

    −1

    0

    1

    2

    3

    4

    ττ

    ββ ττ1

    ●●

    ●●●

    0 = Placebo 1 = Med.

    468

    1012141618

    Scale−Shift

    y =

    Blut

    wer

    t

    µµ0 = µµ1 =10 σσ0 =1 σσ1 =2

    4 6 8 10 12 14 16 18

    0.0

    0.1

    0.2

    0.3

    0.4

    y = Blutwert

    f Y(y

    |x)

    4 6 8 10 12 14 16 18

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    y = Blutwert

    F Y(y

    |x) =

    ττ

    0.0 0.2 0.4 0.6 0.8 1.0

    −3

    −2

    −1

    0

    1

    2

    3

    4

    ττ

    ββ ττ1

    ●●

    ●●

    ●●

    0 = Placebo 1 = Med.

    468

    1012141618

    Location−Scale−Shift

    y =

    Blut

    wer

    t

    µµ0 =10 µµ1 =11 σσ0 =1 σσ1 =2

    4 6 8 10 12 14 16 18

    0.0

    0.1

    0.2

    0.3

    0.4

    y = Blutwert

    f Y(y

    |x)

    4 6 8 10 12 14 16 18

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    y = Blutwert

    F Y(y

    |x) =

    ττyττc

    ττc

    0.0 0.2 0.4 0.6 0.8 1.0

    −3

    −2

    −1

    0

    1

    2

    3

    4

    ττ

    ββ ττ1

    Interpretation (unter der Annahme, dass ein höherer Blutwert einem besseren Gesundheits-zustand entspricht):

    1. Konstanter Behandlungseffekt.

    2. Positiver Behandlungseffekt rechts vom Median, negativer Behandlungseffekt links vomMedian.

    3. Positiver Behandlungseffekt rechts vom Quantil yτ , negativer Behandlungseffekt linksvom Quantil yτ .

    Also allgemein:F: Placebo (X = 0)G: Medikament (X = 1)

    }Verteilungsfunktionen

    47

  • Behandlungseffekt βτ im Quantil τ :

    F

    G

    Der Behandlungseffekt lässt sich theoretisch berechnen durch

    βτ = G−1(τ)− F−1(τ) .

    Empirisch:β̂τ = G

    −1n (τ)− F−1m (τ) ,

    wobei Gn und Fm die empirischen Verteilungsfunktionen auf Basis von n bzw. m Beobach-tungen sind.

    Zusammenhang mit dem Erwartungswert:

    µ = E(Y ) =

    ∫ +∞−∞

    y dF (y) =

    ∫ 10F−1(t) dt .

    Damit gilt: ∫ 10G−1(τ)− F−1(τ) dτ = E(Y |X = 1)− E(Y |X = 0) .

    6.5.3 Quantile als Lösung eines Optimierungsproblems, Schätzung der Pa-rameter der Quantilregression

    Es soll nun ein Schätzer β̂τ für βτ auf Grundlage eines entscheidungstheoretischen Konzeptshergeleitet werden. Betrachte als Verlustfunktion die sogenannte Check-Funktion

    ρτ (u) = u · (τ −I(u < 0)︸ ︷︷ ︸Indikatorfunktion

    ) , τ ∈ (0, 1) .

    Die Check-Funktion ist im Folgenden grafisch dargestellt. Für ein gegebenes τ bildet sie denasymmetrischen Verlust ab. Für τ = 0.5 ergibt sich ρ0.5(u) = 0.5|u|.

    48

  • −4 −2 0 2 4

    0

    1

    2

    3

    4

    5

    u

    Che

    ck−

    Fun

    ktio

    n ρρ ττ

    (u)

    ττ == 0.1ττ == 0.5ττ == 0.8

    Sei Y eine stetige Zufallsvariable mit der Verteilungsfunktion FY . Um einen Schätzer ŷ für yτzu erhalten, minimiere den erwarteten Verlust, das heißt

    EFY [ρτ (y − ŷ)]→ minŷ

    . (6.1)

    Satz 6.5. Der Minimierer von (6.1) ist ŷ = F−1Y (τ).

    Beweis. Nach Definition der Indikatorfunktion ergibt sich

    ρτ (y − ŷ) ={

    (y − ŷ) · (τ − 1) falls y − ŷ < 0⇔ y < ŷ,(y − ŷ) · τ falls y − ŷ ≥ 0⇔ y ≥ ŷ.

    Der erwartete Verlust ist somit

    EFY [ρτ (y − ŷ)] = (τ − 1) ·∫ ŷ−∞

    (y − ŷ) dFY (y) + τ ·∫ ∞ŷ

    (y − ŷ) dFY (y) .

    Ableiten nach ŷ ergibt

    ∂ŷEFY [ρτ (y − ŷ)] = −(τ − 1) ·

    ∫ ŷ−∞

    dFY (y)− τ ·∫ ∞ŷ

    dFY (y)

    = −τ · 1 +∫ ŷ−∞

    dFY (y)

    = FY (ŷ)− τ!

    = 0

    und damitFY (ŷ) = τ ⇒ ŷ = yτ = F−1Y (τ) .

    49

  • Damit ergeben sich die Quantile als Lösung eines entscheidungstheoretischen Optimierungs-problems mit der Check-Funktion als spezieller Verlustfunktion.

    Auf diese Weise gelangt man zum Schätzprinzip in der Quantilregression (”analog” zu KQ,

    nur mit anderer Verlustfunktion):

    1. Der Minimierer

    argminα∈R

    n∑i=1

    ρτ (yi − α)

    liefert α̂(τ), das τ ·100%-Stichprobenquantil.

    2. Übertrage die Idee auf die bedingte Quantilsfunktion Qτ (yi|X = xi) = x>i βτ :

    argminβτ∈Rp

    n∑i=1

    ρτ (yi − x>i βτ ) .

    Die Zielfunktion ist stückweise linear und stetig. → Lineare Programmierung (Simplex-Verfahren).

    Alternativ:

    Herleitung eines Schätzers β̂τ durch Quasi-ML-Ansatz (Vorteil: asymptotische Verteilung,Standardfehler etc.).

    Dazu eignet sich die asymmetrische Laplace-Verteilung (ALD)

    Y ∼ ALD(µ, σ, τ)

    mit −∞ < y 0 und τ ∈ (0, 1). Die Dichtefunktion der ALD lautet

    fY (y) =τ(1− τ)

    σ· exp

    {−ρτ

    (y − µσ

    )},

    Erwartungswert und Varianz sind

    E(Y ) = µ+σ(1− 2τ)τ(1− τ)

    Var(Y ) =σ2(1− 2τ + 2τ2)

    (1− τ)2τ2.

    Die folgende Abbildung zeigt die Dichte der ALD-Verteilung in Abhängigkeit von den Para-metern τ und σ. Links von µ beträgt die Wahrscheinlichkeitsmasse genau τ und rechts vonµ dementsprechend genau 1− τ . Das τ · 100%-Quantil der Verteilung liegt also genau bei µ.Außerdem ist die Dichte linksschief, falls τ > 0.5, und rechtsschief, falls τ < 0.5.

    50

  • −15 −10 −5 0 5 10 15

    0.00

    0.05

    0.10

    0.15

    0.20

    0.25

    0.30

    y

    ALD

    −D

    icht

    e f Y

    (y)

    µµ=0, σσ=1

    ττ == 0.1ττ == 0.5ττ == 0.8

    −15 −10 −5 0 5 10 15

    0.00

    0.05

    0.10

    0.15

    0.20

    0.25

    0.30

    yA

    LD−

    Dic

    hte

    f Y(y

    )

    µµ=0, ττ=0.3

    σσ == 0.7σσ == 1σσ == 3

    Als Quasi-Likelihood ergibt sich

    1

    σexp

    {−

    n∑i=1

    ρτ

    (yi − x>i βτ

    σ

    )}→ max

    βτ.

    Dies ist äquivalent zun∑i=1

    ρτ (yi − x>i βτ )→ minβτ

    ,

    also dem ursprünglichen Ansatz.

    6.5.4 Zusammenfassung

    Die Modellformel für die lineare Quantilregression lautet

    yi = x>i βτ + ετi

    mit unabhängigen, aber möglicherweise heteroskedastischen ετi. Die einzige Forderung andie ετi ist

    Fετi(0) =

    ∫ 0−∞

    f(ετi) dετi = τ ,

    das heißtF−1ετi (τ) = 0

    und damitQτ (yi|X = xi) = x>i βτ + F−1ετi (τ) = x

    >i βτ .

    51

  • Eigenschaften der Quantilregression:

    – Äquivarianz, d.h. Unempfindlichkeit von Schätzern gegenüber Transformationen oderReparametrisierungen der Zielvariablen, zum Beispiel

    β̂τ (ay,X) = aβ̂τ (y,X),

    β̂τ (y,XA) = A−1β̂τ (y,X)

    mit einem Skalar a und regulärer Matrix A. Für monoton wachsende Funktionen h gilt:

    Qτ (h(y)|X = x) = h(Qτ (y|X = x)).

    – Robustheit, d.h. Unempfindlichkeit von Schätzern gegenüber Ausreißern. Die Robustheitkann zum Beispiel durch den sogenannten Breakdown Point gemessen werden, das istder Anteil an willkürlich ins Extreme gezogene Beobachtungen, die ein Schätzer aushält,bevor er sich in eine extreme Richtung verändert.

    – Asymptotische Verteilung (nicht i.i.d.-Fall, sondern nur Unabhängigkeit gegeben): Esgilt √

    n(β̂τ − βτ )→ N(0, τ(1− τ) H−1(τ)J(τ)H−1(τ)︸ ︷︷ ︸”Huber Sandwich”

    )

    mit

    J(τ) = limn→∞

    1

    n

    n∑i=1

    xix>i ,

    H(τ) = limn→∞

    1

    n

    n∑i=1

    xix>i · fi(yiτ ) .

    Dabei ist fi(yiτ ) die bedingte Dichte von yi an der Stelle yiτ .

    Die Schätzung für fi(yiτ ) bzw. H(τ) ist allerdings problematisch (→ Differenzenquoti-ent, . . . ).

    Praxis-Version:

    β̂τa∼ N

    βτ , τ(1− τ)( n∑i=1

    xix>i · fi(yiτ )

    )−1( n∑i=1

    xix>i

    )(n∑i=1

    xix>i · fi(yiτ )

    )−1 .– Quantilüberschneidung (Quantile Crossing): Dieses Problem tritt auf, wenn sich zwei

    unabhängig voneinander ermittelte Quantilregressionskurven überschneiden. Zum Bei-spiel könnte für eine bestimmte Kombination von Kovariablen das (geschätzte) 90%-Quantil (fälschlicherweise) größer sein als das 97%-Quantil.

    – Unabhängige Schätzungen der Koeffizienten: Die Schätzungen β̂τ und β̂τ ′ für τ 6= τ ′werden unabhängig voneinander durchgeführt; tatsächlich sind βτ und βτ ′ aber korre-liert.

    52

    Fehlspezifikation, Quasi-Likelihood und SchätzgleichungenML-Schätzung bei FehlspezifikationQuasi-Likelihood und SchätzgleichungenM–Schätzer in der robusten StatistikVerallgemeinerte Schätzgleichungen (Generalized Estimating Equations)QuantilregressionEinleitungSpezialfall: Zweistichproben-ProblemQuantile als Lösung eines OptimierungsproblemsZusammenfassung