Klassische Sch atz- und...

42
Kapitel 2 Klassische Sch¨ atz- und Testtheorie Grundmodell: Die Stichprobe X =(X 1 ,...,X n ) besitzt die Verteilung P ∈P = {P θ : θ Θ}, Θ R k , wobei θ: k-dimensionaler Parameter Θ: Parameterraum k<n, oft k n, mit dim(θ)= k fest f¨ ur asymptotische (n →∞)-Betrachtungen. In der Regel vorausgesetzt: Es existiert Dichte f (x|θ)= f (x 1 ,,...,x n |θ) zu P θ , so dass man analog schreiben kann: P = {f (x|θ): θ Θ}. Klassische Sch¨ atz- und Testtheorie f¨ ur finite (d.h. f¨ ur festen Stichprobenumfang n) i.i.d.-Stichprobe von besonderer Relevanz; es gilt: f (x|θ)= f (x 1 |θ) · ... · f (x n |θ). Viele Begriffe, insbesondere der Sch¨ atztheorie, jedoch von genereller Bedeutung. Literatur: Lehmann & Casella (1998), Lehmann & Romano (2005), R¨ uger (1999, 2002) Band I+II Definition 2.1 (Statistik). Eine Statistik ist eine messbare Funktion T : X -→ R l x 7-→ T (x). Normalerweise ist l<n, da mit der Statistik T eine Dimensionsreduktion erzielt werden soll. 19

Transcript of Klassische Sch atz- und...

Page 1: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Kapitel 2

Klassische Schatz- und Testtheorie

Grundmodell:

Die Stichprobe X = (X1, . . . , Xn) besitzt die Verteilung P ∈ P = {Pθ : θ ∈ Θ},Θ ⊆ Rk,wobei

• θ: k-dimensionaler Parameter

• Θ: Parameterraum

• k < n, oft k � n, mit dim(θ) = k fest fur asymptotische (n→∞)-Betrachtungen.

• In der Regel vorausgesetzt: Es existiert Dichte

f(x|θ) = f(x1, , . . . , xn|θ) zu Pθ,

so dass man analog schreiben kann:

P = {f(x|θ) : θ ∈ Θ}.

• Klassische Schatz- und Testtheorie fur finite (d.h. fur festen Stichprobenumfang n)i.i.d.-Stichprobe von besonderer Relevanz; es gilt:

f(x|θ) = f(x1|θ) · . . . · f(xn|θ).

• Viele Begriffe, insbesondere der Schatztheorie, jedoch von genereller Bedeutung.

• Literatur: Lehmann & Casella (1998), Lehmann & Romano (2005), Ruger (1999, 2002)Band I+II

Definition 2.1 (Statistik). Eine Statistik ist eine messbare Funktion

T :

{X −→ Rlx 7−→ T (x).

Normalerweise ist l < n, da mit der Statistik T eine Dimensionsreduktion erzielt werden soll.

19

Page 2: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Beispiel 2.1.

→ T (x) Schatzfunktion

→ T (x) Teststatistik

→ T (x) = `(θ;x) Log-Likelihoodfunktion

2.1 Klassische Schatztheorie

Gesucht: Punkt- oder Bereichsschatzung fur θ oder einen transformierten Parametervek-tor τ(θ).

Beispiel 2.2. X1, . . . , Xni.i.d.∼ N(µ, σ2) mit θ = (µ, σ2)>. Hier konnte τ(θ) = µ sein (d.h. σ2

ist Nuisance-Parameter) oder τ(θ) = 1/σ2 (d.h. die Prazision ist von Interesse).

Definition 2.2 (Punktschatzung, Schatzer, Schatzfunktion). Sei

T :

{X −→ Θ ⊆ Rkx 7−→ T (x)

eine messbare Abbildung. Man bezeichnet mit T (x) den Schatzwert oder die Punktschatzung(zu konkreter Realisation x) und mit T (X) den Punktschatzer von θ, der eine Zufallsvariableist (auch gebrauchlich: θ(x) oder kurz θ, d.h. notationell wird nicht zwischen Schatzwert undSchatzfunktion unterschieden).

2.1.1 Suffizienz

Der Begriff der Suffizienz ist von grundlegender Bedeutung in der klassischen parametrischenInferenz; daruber hinaus ist die Bedeutung (stark) abgeschwacht, vgl. auch Statistik IV.

Definition 2.3. Eine Statistik T heißt suffizient fur θ (oder auch fur P)def⇔ die bedingte

Verteilung bzw. Dichte von X gegeben T (x) = t ist fur alle Werte von T (x) = t von θunabhangig, d.h.

fX|T (x|T (x) = t, θ) = fX|T (x|T (x) = t)

hangt nicht von θ ab.

Idee: Zusatzliche Information in X, die nicht in T enthalten ist, ist durch fX|T gegeben. FallsfX|T von θ unabhangig ist, dann enthalt die Stichprobe x nicht mehr Information uber θals T (x).

Folgender Satz ist aquivalent und konstruktiv:

Satz 2.4 (Faktorisierungssatz, Neyman-Kriterium). Eine Statistik T ist suffizient fur θ genaudann wenn

f(x|θ) = h(x)g(T (x)|θ)

fur fast alle x, d.h. die Dichte lasst sich in zwei Teile faktorisieren, von denen ein Teil von x,aber nicht von θ, und der andere nur von θ und T (x) abhangt.

20

Page 3: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Beweis.

”⇒”: Falls T suffizient ist, gilt:

fX|T (x|T (x) = t, θ) =fX,T (x, t|θ)fT |θ(t|θ)

.

Weiterhin ist

fX,T (x, t|θ) =

{fX|θ(x|θ) fur T (x) = t

0 sonst,

d.h.fX|T (x|t)︸ ︷︷ ︸

h(x)

· fT |θ(t|θ)︸ ︷︷ ︸g(T (x)|θ)

= fX|θ(x|θ).

”⇐”: Man erhalt die Dichte von T , ausgewertet an t, indem man im obigen Faktorisierungs-

kriterium uber die x, fur die T (x) = t gilt, summiert (bzw. integriert). Im diskretenFall also:

fT |θ(t|θ) =∑

x:T (x)=t

h(x)g(T (x)|θ) = g(t|θ)∑

x:T (x)=t

h(x).

Damit ist die bedingte Dichte von X gegeben T = t,

fX|θ(x|θ)fT |θ(t|θ)

=h(x)g(T (x)|θ)∑x:T (x)=t h(x)g(t|θ)

=h(x)∑

x:T (x)=t h(x),

unabhangig von θ. Im stetigen Fall werden Summen durch Integrale ersetzt; im Detailwerden Messbarkeitsbedingungen verwendet.

Beispiel 2.3 (Bernoulli-Experiment). Seien X1, . . . , Xni.i.d.∼ Bin(1, π) und Z =

∑ni=1Xi die

Anzahl der Erfolge. Dann ist Z suffizient fur π, denn

fX|Z(x|z, π) = Pπ(X = x|Z = z)

=

∏ni=1 π

xi(1− π)1−xi(nz

)πz(1− π)n−z

, wobein∑i=1

xi = z

=

(n

z

)−1

ist unabhangig von π. Gemaß Faktorisierungssatz ist

f(x|π) =1(nz

)︸︷︷︸=h(x)

(n

z

)πz(1− π)n−z︸ ︷︷ ︸

=g(z|π)

= 1︸︷︷︸=h∗(x)

πz(1− π)n−z︸ ︷︷ ︸=g∗(z|π)

.

Beispiel 2.4 (Normalverteilung). Sei X = (X1, . . . , Xn) mit Xii.i.d.∼ N(µ, σ2) und

θ = (µ, σ2)>.

fX|θ(x|θ) =

(1√2πσ

)nexp

(− 1

2σ2

n∑i=1

(xi − µ)2

)

= (2π)−n/2︸ ︷︷ ︸h(x)

(σ2)−n/2 exp

(− 1

2σ2

(n∑i=1

x2i − 2µ

n∑i=1

xi + nµ2

))︸ ︷︷ ︸

g((∑ni=1 xi,

∑ni=1 x

2i )|θ)

,

21

Page 4: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

d.h. T (x) =(∑n

i=1 xi,∑n

i=1 x2i

)ist suffizient fur θ = (µ, σ2)>. Aber: Die bijektive Transfor-

mation T (x) = (x, s2) ist auch suffizient fur θ, wobei s2 die Stichprobenvarianz bezeichnet.

Beispiel 2.5 (Exponentialverteilung). Sei X = (X1, . . . , Xn)i.i.d.∼ Exp(λ), dann

f(x|λ) =

n∏i=1

f(xi|λ) = 1︸︷︷︸h(x)

·λn exp

(−λ

n∑i=1

xi

)︸ ︷︷ ︸

g(T (x)|λ)

mit T (x) =∑n

i=1 xi. Nach der ursprunglichen Definition ist

fX,T |λ(x, t|λ)

fT |λ(t|λ)=

λn exp (−λ∑n

i=1 xi)λn

Γ(n) (∑n

i=1 xi)n−1 exp (−λ

∑ni=1 xi)

=Γ(n)

(∑n

i=1 xi)n−1 .

Dabei wird benutzt, dass die Summe von n unabhangigen und identisch exponentialverteiltenZufallsvariablen mit Parameter λ gammaverteilt ist mit Parametern n und λ.

Beispiel 2.6 (Order-Statistik). Sei X1, . . . , Xni.i.d.∼ f(x|θ) (wobei f stetige Dichte ist) und

T (x) = x(·) = (x(1), . . . , x(n)) die Order-Statistik. Dann gilt

fX|T,θ(x|T = x(·), θ) =1

n!.

Die Gleichheit folgt aus der Stetigkeit, denn xi 6= xj ∀i 6= j (mit Wahrscheinlichkeit 1).x(·) ist suffizient fur θ. Wir haben also bei i.i.d.-Beobachtungen keinen Informationsverlustdurch Ordnen der Daten.

Bemerkung.

• Offensichtlich ist T (x) = x, d.h. die Stichprobe selbst, suffizient.

• Ebenso ist jede eineindeutige Transformation von x oder von einer suffizienten Stati-stik T (x) suffizient.

• Ist T suffizient, dann auch (T, T ∗), wobei T ∗ eine beliebige weitere Statistik darstellt.

Dies zeigt: Die Dimension einer suffizienten Statistik sollte soweit wie moglich reduziert wer-den.

Definition 2.5 (Minimalsuffizienz). Eine Statistik T heißt minimalsuffizient fur θdef⇔ T ist

suffizient, und zu jeder anderen suffizienten Statistik V existiert eine Funktion H mit

T (x) = H(V (x)) P − fast uberall.

Frage: Existieren minimalsuffiziente Statistiken? Wenn ja, sind sie eindeutig?

Beispiel 2.7 (Normalverteilung).

1. T (x) = x ist minimalsuffizient fur µ bei bekanntem σ2.

2. T (x) =∑n

i=1(xi − µ)2 ist minimalsuffizient fur σ2 bei bekanntem µ.

22

Page 5: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

3. T (x) =(∑n

i=1 xi,∑n

i=1 x2i

)ist minimalsuffizient fur µ und σ2.

Lemma 2.6. Sind T und S minimalsuffiziente Statistiken, dann existieren injektive Funk-tionen g1, g2, so dass T = g1(S) und S = g2(T ).

Satz 2.7 (Charakterisierung von Minimalsuffizienz durch Likelihood-Quotienten). Definiereden Likelihood-Quotienten

Λx(θ1, θ2) =f(x|θ1)

f(x|θ2).

Eine notwendige und hinreichende Bedingung fur die Minimalsuffizienz einer Statistik T fur θist, dass fur alle θ1 und θ2 gilt:

T (x) = T (x′) ⇔ Λx(θ1, θ2) = Λx′(θ1, θ2).

Beispiel 2.8 (Suffizienz in Exponentialfamilien). Die Dichte einer k-parametrischen Expo-nentialfamilie hat die Form

f(x|θ) = h(x) · c(θ) · exp(γ1(θ)T1(x) + . . .+ γk(θ)Tk(x))

= h(x) · exp(b(θ) + γ(θ)>T (x)),

d.h. T (x) = (T1(x), . . . , Tk(x))> ist suffizient fur θ nach Faktorisierungssatz. Falls Θ einoffenes Rechteck in Rk enthalt, ist T auch minimalsuffizient.

Es folgt nun die Charakterisierung der Minimalsuffizienz nach Lehmann-Scheffe. Dazu wirdder Begriff der Vollstandigkeit benotigt.

Definition 2.8. Eine Statistik T ist vollstandigdef⇔ fur jede reelle Funktion g gilt:

Eθ[g(T )] = 0 ∀θ ⇒ Pθ(g(T ) = 0) = 1 ∀θ.

Aus der Definiton wird nicht unmittelbar klar, warum”Vollstandigkeit” eine wunschenswerte

Eigenschaft eines Schatzers sein sollte. Einen moglichen Grund liefert der folgende Satz.

Satz 2.9 (Lehmann-Scheffe). Angenommen, X besitzt eine Dichte f(x|θ) und T (X) ist suf-fizient und vollstandig fur θ. Dann ist T (x) minimalsuffizient fur θ.

Bemerkung (Ancillarity-Statistik). Eine Statistik V (X) heißt ancillary (”

Hilfsstatistik”)fur P, wenn ihre Verteilung nicht von θ abhangt (also bekannt ist).

Haufiger Sachverhalt: T = (U, V ) ist suffizient fur θ, V ancillary, U nicht suffizient.

Beispiel 2.9. X1, . . . , Xni.i.d.∼ U

[θ − 1

2 , θ + 12

]. Man kann dann zeigen (Davison, 2004), dass

mit

U =1

2(X(1) +X(n))

V = X(n) −X(1)

T = (U, V ) suffizient, aber nicht vollstandig fur θ ist. Ferner ist U alleine nicht suffizient undV ancillary.

23

Page 6: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

2.1.2 Erwartungstreue, Varianz und MSE

• Fehler eines Schatzers θ = θ(X) ist θ − θ.

• Messung des Fehlers durch Verlustfunktion, zum Beispiel

L(θ, θ) = |θ − θ| Abstand (θ skalar),

L(θ, θ) = ‖θ − θ‖2 quadratischer Fehler,

L(θ, θ) =‖θ − θ‖2

‖θ‖2relativer quadratischer Fehler,

L(θ, θ) = (θ − θ)>D(θ − θ) gewichteter quadratischer Fehler (D positiv definit).

• Risikofunktion R(θ, θ) = Eθ[L(θ, θ)].

• Hier wird (hauptsachlich) quadratischer Verlust betrachtet.

Definition 2.10 (Erwartungstreue, Bias, Varianz eines Schatzers).

• θ heißt erwartungstreudef⇔ Eθ[θ] = θ.

• Biasθ(θ) = Eθ[θ]− θ.

• Varθ(θ) = Eθ[(θ − Eθ[θ])2], θ skalar.

Definition 2.11 (MSE). Der mittlere quadratische Fehler (mean squared error) ist definiertals

MSEθ(θ) = Eθ[(θ − θ)2] = Varθ(θ) + (Biasθ(θ))2.

Der Gesamtfehler lasst sich also aufteilen in einen zufalligen Fehler (Varianz) und einensystematischen (quadrierter Bias).

Vergleicht man zwei Schatzer bezuglich ihres MSE, kann fur einen Teilbereich von Θ der MSEdes einen, fur andere Teilbereiche der MSE des zweiten Schatzers kleiner sein:

Beispiel 2.10. X1, . . . , Xni.i.d.∼ B(1, π).

1. MSE von π = X:

Eπ[(X − π)2] = Varπ(X) =π(1− π)

n.

2. MSE des Bayes-Schatzers (Posteriori-Erwartungswert) bei einer Priori p(π) ∼ Be(α, β):

πB =Y + α

α+ β + n, Y =

n∑i=1

Xi,

MSE(πB) = Varπ

(Y + α

α+ β + n

)+

(Eπ

[Y + α

α+ β + n− π

])2

=nπ(1− π)

(α+ β + n)2+

(nπ + α

α+ β + n− π

)2

.

24

Page 7: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Fur α = β =√n/4 ergibt sich

MSEπ(πB) = Eπ[(πB − π)2] =1

4

n

(n+√n)2

= const bezuglich π.

Fazit: In der Regel wird man keinen”MSE-optimalen” Schatzer θopt finden in dem Sinne,

dass MSEθ(θopt) ≤ MSEθ(θ) fur alle θ und alle konkurrierenden θ. Bei Einschrankung auf

erwartungstreue Schatzer ist dies ofter moglich. Deshalb die Forderung:

Definition 2.12 (zulassiger (”admissible”) Schatzer). Ein Schatzer θ heißt zulassig

def⇔ esgibt keinen Schatzer θ mit MSEθ(θ) ≤ MSEθ(θ) fur alle θ und MSEθ(θ) < MSEθ(θ) furmindestens ein θ, d.h. es gibt keinen Schatzer θ, der θ gleichmaßig/strikt

”dominiert”.

Definition 2.13 (Verallgemeinerungen des MSE auf θ ∈ Rp, p > 1). Ublich sind die folgendenzwei Alternativen:

1. MSE (skalar):

MSE(1)θ (θ) = Eθ[‖θ − θ‖2]

=

p∑j=1

Eθ[(θj − θj)2]

=

p∑j=1

MSEθ(θj)

2. MSE-Matrix:

MSE(2)θ (θ) = Eθ[(θ − θ)(θ − θ)>]

= Covθ(θ) + (Eθ[θ]− θ)(Eθ[θ]− θ)>

Diese Variante wird haufig bei linearen Modellen betrachtet.

25

Page 8: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Bemerkung. Das j-te Diagonalelement der MSE-Matrix ist MSEθ(θj). Vergleich von MSE-Matrizen gemaß

”Lowner”-Ordnung:

MSEθ(θ)(≤)< MSEθ(θ)

bedeutet, dass die Differenz MSEθ(θ)−MSEθ(θ) positiv (semi-)definit ist. Man definiert all-gemein fur geeignete Matrizen A,B:

A ≤ Bdef⇔ B−A ist positiv semidefinit,

A < Bdef⇔ B−A ist positiv definit.

Beispiel 2.11 (Gauß-Experiment). Seien X1, . . . , Xni.i.d.∼ N(µ, σ2).

• σ2 bekannt, µ unbekannt: MSE-Vergleich von X und T = bX + a.

• σ2 unbekannt, µ bekannt:

– Eine Moglichkeit:

S2µ =

1

n

n∑i=1

(Xi − µ)2, Eσ2(S2µ) = σ2

– Weitere Moglichkeit:

V 2µ =

1

n+ 2

n∑i=1

(Xi − µ)2,Eσ2(V 2µ ) =

n

n+ 2σ2

Es stellt sich heraus, dass MSEσ2(V 2µ ) < MSEσ2(S2

µ) ist.

• µ und σ2 unbekannt:

– Eine Moglichkeit:

S2 =1

n− 1

n∑i=1

(Xi − X)2,

Eσ2(S2) = σ2, MSEσ2(S2) = Varσ2(S2) =2

n− 1σ4.

– Weitere Moglichkeit:

V 2 =1

n+ 1

n∑i=1

(Xi − X)2,

Eσ2(V 2) =n− 1

n+ 1σ2, MSEσ2(V 2) =

2

n+ 1σ4,

d.h. V 2 dominiert S2.

– Der sogenannte Stein-Schatzer

T = min

{V 2,

1

n+ 2

n∑i=1

X2i

}

26

Page 9: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

dominiert V 2 (und damit S2). Plausibilitatsbetrachtung: Ist µ = 0, so ist∑ni=1X

2i /(n+2) besserer Schatzer als V 2. Ist µ 6= 0, so ist V 2 ein besserer Schatzer

als∑n

i=1X2i /(n + 2). Beim Stein-Schatzer wird fallweise mit hoher Wahrschein-

lichkeit der jeweils bessere Schatzer benutzt.

Beispiel 2.12 (Stein’s Paradoxon). Seien (X1, . . . , Xm)> ∼ Nm(µ,C) multivariat normal-verteilt mit µ = (µ1, . . . , µm)>, C = diag(σ2

1, . . . , σ2m). Es sollen simultan die Erwartungs-

werte µ1, . . . , µm geschatzt werden. Man beachte dabei, dass die einzelnen Komponenten alsunabhangig angenommen werden. Die Stichprobe hat die Form

X11, . . . , X1n1 , . . . , Xm1, . . . , Xmnm

(i.i.d. Stichproben aus”

Gruppen” 1, . . . ,m). Ubliche Schatzer:

Tj = Xj , j = 1, . . . ,m, T = (T1, . . . , Tm)> = (X1, . . . , Xm)>.

Der (skalare) MSE ist:

Eµ[‖T − µ‖2] =m∑j=1

Eµ[(Xj − µj)2] =m∑j=1

σ2j

nj.

Paradoxerweise gilt:

1. Fur m ≤ 2 ist T zulassig.

2. Fur m ≥ 3 ist T nicht zulassig und wird dominiert durch den Stein-Schatzer

T ∗ =

(1− m− 2

T>T

)T =

(1− m− 2∑m

j=1 X2j

)T .

Dieses Ergebnis ist unabhangig von den Stichprobenumfangen n1, . . . , nm in den Gruppen. Eslasst sich zeigen: T ∗ ist Minimax-Schatzer, aber selbst unzulassig. Der Stein-Schatzer ist einsogenannter Shrinkage-Schatzer.

Beispiel 2.13 (Lineares Modell).

y = Xβ + ε, ε ∼ (N)(0, σ2I)

KQ-Schatzer: βKQ = (X>X)−1X>y

Ridge-Schatzer: βRidge = (X>X + λD)−1X>y,

wobei D eine Diagonalmatrix mit positiven Diagonalelementen ist. Fur einen MSE-Vergleichsiehe Vorlesung/Buch zu Lineare Modelle.

Fazit: Bereits im einfachen Beispiel der Schatzung von π in B(1, π) (siehe Beispiel 2.10) zeigtsich, dass es im Allgemeinen keine MSE-optimalen Schatzer gibt.

27

Page 10: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Auswege:

1. Einschrankung auf Teilklasse von Schatzern, zum Beispiel erwartungstreue (und lineare)Schatzer, aquivariante Schatzer, . . .

2. MSE-Kriterium verandern:

• Ersetze MSEθ(θ) durch Minimierung von maxθ∈Θ MSEθ(θ) (Minimax-Kriterium)

• oder ersetzte MSEθ(θ) durch Ep(θ)[MSEθ(θ)] bei einer Priori-Verteilung p(θ) (Bayes-Schatzer).

Hier: Strategie 1 mit erwartungstreuen Schatzern, vgl. 2.1.4.

2.1.3 Fisher-Information und Suffizienz

Definition 2.14 (Fisher-regulare Verteilungsfamilien). Eine Familie von Verteilungen Pθmit Dichte f(x|θ) = f(x1, . . . , xn|θ), θ ∈ Θ, heißt Fisher-regular, wenn Folgendes gilt:

1. Der Trager {x ∈ X : f(x|θ) > 0} ist unabhangig von θ (dies ist zum Beispiel bei

X1, . . . , Xni.i.d.∼ U [0; θ] oder bei der Pareto-Verteilung verletzt).

2. Θ ist offen in Rp (verletzt zum Beispiel bei σ2 ≥ 0).

3. Die ersten und zweiten Ableitungen von f(x|θ) bzgl. θ existieren und sind fur jedes θendliche Funktionen von x.

4. Vertauschbarkeit: Sowohl fur f(x|θ) als auch fur log(f(x|θ)) kann erstes und zweitesDifferenzieren nach θ und Integration uber x vertauscht werden.

Definition 2.15 (Log-Likelihood, Scorefunktion und Information).

`(θ;x) = log f(x|θ) ( Log-Likelihood von θ bzgl. der Stichprobe x)

s(θ;x) =∂

∂θ`(θ;x) =

(∂

∂θ1`(θ;x), . . . ,

∂θp`(θ;x)

)>( Score-Funktion)

J(θ;x) = −∂2`(θ;x)

∂θ∂θ>( beobachtete Informationsmatrix der Stichprobe mit Elementen

(J(θ;x))ij = −∂2 log f(x|θ)∂θi∂θj

)I(θ) = Eθ[J(θ;X)] ( erwartete oder Fisher-Informationsmatrix)

Satz 2.16. Ist Pθ Fisher-regular, so gilt:

1. Eθ [s(θ;X)] = 0

2. Eθ

[−∂2`(θ;X)

∂θ∂θ>

]= Covθ(s(θ;X))

28

Page 11: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Beweis.

Zu 1.:

Eθ[s(θ;X)] =

∫s(θ;x)f(x|θ) dx

=

∫∂

∂θlog(f(x|θ))f(x|θ) dx

=

∫ ∂∂θf(x|θ)f(x|θ)

f(x|θ)dx

=∂

∂θ

∫f(x|θ)dx = 0

Zu 2.:

[−∂

2`(θ;X)

∂θ∂θ>

]= −Eθ

[∂

∂θ

(∂∂θ>

f(X|θ)f(X|θ)

)]

= −Eθ

[f(X|θ) ∂2

∂θ∂θ>f(X|θ)− ( ∂∂θf(X|θ))( ∂

∂θ>f(X|θ))

f(X|θ)2

]

unter Verwendung der Quotientenregel der Differentiation. Dies ist gleich

− Eθ

[∂2

∂θ∂θ>f(X|θ)

f(X|θ)

]+ Eθ

[∂∂θf(X|θ)f(X|θ)

·∂f(X|θ)∂θ>

f(X|θ)

]

= −∫

∂2

∂θ∂θ>f(x|θ)dx+ Eθ[s(θ;X)s(θ;X)>]

Der erste Summand ist unter Vertauschung von Differentiation und Integration gleichnull. Fur den zweiten Teil ergibt sich mit Teil 1.

E[s(θ;X)s(θ;X)>] = Covθ(s(θ;X)).

Weitere Eigenschaften:

• Sind X1, . . . , Xn unabhangig und gemaß Xi ∼ fi(x|θ), i = 1, . . . , n, verteilt, so gilt:

`(θ) =

n∑i=1

`i(θ) , `i(θ) = log fi(xi|θ)

s(θ) =n∑i=1

si(θ) , si(θ) =∂

∂θlog fi(xi|θ)

J(θ) = − ∂2`(θ)

∂θ∂θ>=

n∑i=1

−∂2 log fi(xi|θ)∂θ∂θ>

29

Page 12: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

• Fur X1, . . . , Xn i.i.d. wie X1 ∼ f1(x|θ) folgt

I(θ) = Eθ[J(θ)] = n · i(θ),

wobei

i(θ) = Eθ

[−∂

2`1(θ;X)

∂θ∂θ>

]= Covθ

(∂ log f1(X|θ)

∂θ

)die erwartete Information einer Einzelbeobachtung ist, d.h. die erwartete Informations-matrix der StichprobeX1, . . . , Xn ist die n-fache erwartete Information einer (typischen)Stichprobenvariable X1.

• Fur eine Statistik T = T (X), X = (X1, . . . , Xn)> mit T ∼ fT (t|θ) kann man die BegriffeScore-Funktion und Fisher-Information vollig analog definieren. Insbesondere ist

IT (θ) = Eθ

[−∂

2 log fT (t|θ)∂θ∂θ>

].

Satz 2.17 (Suffizienz und Fisher-Information). Sei I(θ) die Fisher-Information fur X. Danngilt unter Fisher-Regularitat fur jede Statistik T :

1. IT (θ) ≤ I(θ).

2. IT (θ) = I(θ) ⇔ T ist suffizient fur θ.

Also: Bei einer suffizienten Statistik T wird keine (erwartete) Information”

verschenkt”.

2.1.4 Erwartungstreue Schatzer

•”Schone” Resultate fur finites n, aber fur vergleichsweise einfache statistische Modelle.

• Problem: Fur komplexere Modelle existieren keine”vernunftigen” erwartungstreuen

Schatzer.

• Aber: Etliche Resultate besitzen allgemeine Eigenschaften fur n → ∞.

Informationsungleichungen

I. θ ∈ R (skalar). Neben θ werden auch transformierte Parameter τ(θ) betrachtet. WennAbleitungen benotigt werden, nehmen wir stillschweigend an, dass sie existieren.

Satz 2.18. Sei f(x|θ) Fisher-regular.

1. Ist θ erwartungstreu fur θ, so gilt:

Varθ(θ) ≥1

I(θ)(Cramer-Rao-Ungleichung).

2. Ist T = T (x) erwartungstreu fur τ(θ), so gilt:

Varθ(T ) ≥ (τ ′(θ))2

I(θ).

(τ ′(θ))2

I(θ) heißt Cramer-Rao-Schranke.

30

Page 13: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

3. Besitzt θ den Bias B(θ) = Eθ[θ]− θ, so gilt

MSEθ(θ) ≥ B2(θ) +(1 +B′(θ))2

I(θ).

Beweis. Gezeigt wird 2. Daraus folgt 1. fur τ(θ) = θ und 3. fur τ(θ) = θ + B(θ).Differentiation von

τ(θ) = Eθ[T ] =

∫T (x)f(x|θ) dx

bezuglich θ, und Verwendung der Fisher-Regularitat liefert:

τ ′(θ) =

∫T (x)

d

dθf(x|θ) dx

=

∫T (x)s(θ;x)f(x|θ) dx

= Covθ(T (X), s(θ;X)).

Unter Verwendung der Cauchy-Schwarz-Ungleichung

|Cov(U, V )| ≤√

Var(U)√

Var(V )

folgt

(τ ′(θ))2 ≤ Varθ(T (X))Varθ(s(θ;X))

= Varθ(T (X))I(θ).

Also:

Varθ(T (X)) ≥ (τ ′(θ))2

I(θ).

Bemerkung. Die Gleichheit wird genau dann angenommen, wenn eine einparametri-sche Exponentialfamilie f(x|θ) = h(x) exp(γ(θ)T (x)+b(θ)) vorliegt, τ(θ) = −b′(θ)/γ′(θ)gilt und T (x) ein Schatzer fur τ(θ) ist. Also: eher eine kleine Modellklasse.

II. θ = (θ1, . . . , θp) bzw. τ (θ) mehrdimensional.

Satz 2.19. Sei f(x|θ) Fisher-regular.

1. Ist θ erwartungstreu fur θ, so gilt:

Covθ(θ) ≥ I−1(θ),

wobei sich das”≥” auf die Lowner-Ordnung bezieht (vergleiche Seite 26). Daraus

folgt insbesondere Varθ(θj) ≥ vjj , j = 1, . . . , p, wobei vjj das j-te Diagonalelementvon I−1(θ) bezeichnet.

2. Ist T erwartungstreu fur τ (θ), so gilt

Covθ(T ) ≥H(θ)I−1(θ)H(θ)>

mit der Funktionalmatrix (H(θ))ij = ∂∂θjτi(θ). Die Matrix H(θ)I−1(θ)H(θ)> ist die

Cramer-Rao-Schranke.

31

Page 14: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Bemerkung. Obige Bemerkung fur skalares θ gilt analog fur

f(x|θ) = h(x) exp(b(θ) + γ>(θ)T (x)),

d.h. fur mehrparametrische Exponentialfamilien.

Beispiel 2.14 (Cramer-Rao-Schranke beiX ∼ N(µ, σ2)). X1, . . . , Xn i.i.d. wie X ∼ N(µ, σ2),θ = (µ, σ2). Dann gilt fur die Informationsmatrix

I(θ) =

(nσ2 00 n

2σ4

)bzw. I−1(θ) =

(σ2

n 0

0 2σ4

n

).

Beste erwartungstreue Schatzer

Erwartungstreue Schatzer minimaler Varianz innerhalb einer vorgegebenen Klasse nennt maneffizient. Die Informationsungleichungen motivieren:

Definition 2.20 (Gleichmaßig bester erwartungstreuer (UMVU) Schatzer).

1. θ skalar:

Der Schatzer θeff fur θ heißt gleichmaßig bester erwartungstreuer oder UMVU (”uni-

formly minimum variance unbiased”)-Schatzerdef⇔ θeff ist erwartungstreu, und es gilt

Varθ(θeff) ≤ Varθ(θ) fur alle θ und jeden erwartungstreuen Schatzer θ.

2. θ mehrdimensional:

Ersetze in 1. Varθ(θeff) ≤ Varθ(θ) durch Covθ(θeff) ≤ Covθ(θ).

Satz 2.21 (Effizienz und Informationsungleichungen). Sei f(x|θ) Fisher-regular und θ er-wartungstreu fur θ. Falls Covθ(θ) = I−1(θ) fur alle θ, so ist θ ein UMVU-Schatzer.

Beweis. Die Aussage folgt direkt aus der Informationsungleichung und obiger Definition.

Beispiel 2.15 (Gauß-Experiment). Seien X1, . . . , Xni.i.d.∼ N(µ, σ2) mit µ, σ2 unbekannt. Aus

Beispiel 2.14 wissen wir, dass I(µ) = n/σ2 und somit I−1(µ) = σ2/n = Var(X). Dann ist XUMVU fur µ. Aber

Var(S2) =2σ4

n− 1>

2σ4

n= I−1(σ2).

Die Cramer-Rao-Schranke wird also nicht erreicht, somit kann nicht gefolgert werden, dass S2

UMVU fur σ2 ist.

Beispiel 2.16 (Lineares Modell).

y = Xβ + ε, ε ∼ N(0, σ2I) bzw. y ∼ N(Xβ, σ2I)

βKQ = βML = (X>X)−1X>y ist effizient fur β,

σ2 =1

n− p

n∑i=1

(yi − yi)2 ist nicht effizient fur σ2.

32

Page 15: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Bemerkung. Zu unterscheiden sind folgende Situationen:

1. Es existiert ein UMVU-Schatzer, dessen Varianz gleich der Cramer-Rao-Schranke ist.

2. Es existiert ein UMVU-Schatzer, dessen Varianz großer als die Cramer-Rao-Schrankeist (findet man mit dem Satz von Lehmann-Scheffe, siehe Satz 2.23).

3. Der haufigste Fall: Es existiert (fur finiten Stichprobenumfang) kein UMVU-Schatzer.

Fazit: Finite Theorie erwartungstreuer Schatzer ist von eingeschrankter Anwendungsrelevanz.

Aber: Es existiert eine analoge asymptotische Theorie mit breiter Anwendungsrelevanz, diesich an finiter Theorie orientiert (siehe Abschnitt 2.1.5).

Zur Konstruktion von UMVU-Schatzern sind folgende zwei Aussagen nutzlich:

Satz 2.22 (Rao-Blackwell). Sei T = T (X) suffizient fur θ bzw. Pθ und θ erwartungstreufur θ. Fur den Schatzer

θRB = Eθ[θ|T ] (”Rao-Blackwellization”)

gilt:

1. θRB ist erwartungstreu fur θ.

2. Varθ(θRB) ≤ Varθ(θ).

3. In 2. gilt die Gleichheit, wenn θ nur von T abhangt, d.h. θRB = θ mit Wahrscheinlich-keit 1.

Satz 2.23 (Lehmann-Scheffe). Ist T = T (X) suffizient und vollstandig (also minimalsuffizi-ent) und θ = θ(x) ein erwartungstreuer Schatzer, so ist

θ∗ = Eθ[θ|T ]

der mit Wahrscheinlichkeit 1 eindeutig bestimmte UMVU-Schatzer fur θ.

2.1.5 Asymptotische Eigenschaften und Kriterien

Wichtige Schatzer (Momentenschatzer, Shrinkage-Schatzer, ML- und Quasi-ML-Schatzer etc.)sind im Allgemeinen nicht erwartungstreu, besitzen aber gunstige asymptotische (n → ∞)Eigenschaften. Im Folgenden sei

θn = θ(X1, . . . , Xn)

Schatzer fur θ.

Definition 2.24 (Asymptotische Erwartungstreue). θn heißt asymptotisch erwartungstreudef⇔

limn→∞

Eθ[θn] = θ fur alle θ.

33

Page 16: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Definition 2.25 (Konsistenz).

1. θn ist (schwach) konsistent fur θ (in Zeichen: θnP→ θ (fur alle θ))

def⇔

limn→∞

Pθ(|θn − θ| ≤ ε) = 1 fur alle ε > 0 und alle θ.

2. θn heißt MSE-konsistent fur θdef⇔

limn→∞

MSEθ(θn) = 0 fur alle θ.

3. θn ist stark konsistent fur θdef⇔

(lim

n→∞θn = θ

)= 1 fur alle θ.

Bemerkung.

1. Aus der (verallgemeinerten) Tschebyscheff-Ungleichung folgt

θn MSE-konsistent ⇒ θn schwach konsistent.

2. Wegen MSEθ(θn) = Varθ(θn) + (Biasθ(θn))2 folgt:

θn ist MSE-konsistent ⇔ Varθ(θn) → 0 und Biasθ(θn) → 0 fur alle θ.

3. Ist θn konsistent fur θ und g eine stetige Abbildung, so ist auch g(θn) konsistent fur g(θ)(Continuous Mapping Theorem/Stetigkeitssatz).

4. Konsistenznachweise bestehen in der Regel in der Anwendung (schwacher) Gesetzegroßer Zahlen (fur i.i.d. Variablen; i.n.i.d. Variablen; abhangige Variablen, z.B. Mar-tingale, Markov-Prozesse, ...).

Beispiel 2.17.

1. Xn = 1n

n∑i=1

Xi ist wegen E(Xn) = µ und Var(Xn) = σ2

n → 0 fur n→∞ konsistent.

2. S2n = 1

n−1

n∑i=1

(Xi − Xn)2 und S2n = 1

n

n∑i=1

(Xi − Xn)2 sind MSE-konsistent fur σ2.

3. Mit g(x) =√x folgt, dass

Sn =

√√√√ 1

n− 1

n∑i=1

(Xi − Xn)2 und Sn =

√√√√ 1

n

n∑i=1

(Xi − Xn)2

konsistent sind fur σ.

4. Sn/Xn ist konsistent fur σ2/µ fur µ > 0, da mit θ = (µ, σ) und g(θ) = σ2/µ wieder derStetigkeitssatz benutzt werden kann.

5. πn ist konsistent fur π (im Bernoulli-Experiment).

6. βKQ, βRidge sind konsistent fur β im linearen Modell.

34

Page 17: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Asymptotische Normalitat

Viele Schatzer (KQ-, Momenten-, ML-, Quasi-ML-, Bayes-Schatzer) sind unter Regularitats-annahmen asymptotisch normalverteilt. Informell ausgedruckt heißt das: Fur große n ist θnnicht nur approximativ erwartungstreu, sondern zusatzlich approximativ normalverteilt, kurz

θna∼ N(θ, V (θ))

mit (approximativer) Kovarianzmatrix

Covθ(θn)a∼ V (θ),

die durchCovθ(θn) := V (θn)

geschatzt wird. In der Diagonalen von V (θn) stehen dann die (geschatzten) Varianzen

Var(θj) = vjj(θn)

der Komponenten θj , j = 1, . . . , p, von θ.

⇒ ”Ublicher” Output statistischer Software ist

θj︸︷︷︸Schatzer

σθj

=

√vjj(θ)︸ ︷︷ ︸

Standardfehler

t︸︷︷︸t-Statistik

p︸︷︷︸p-Wert

Beispiel 2.18. Seien X1, . . . , Xni.i.d.∼ F (x|θ) mit E(Xi) = µ und Var(Xi) = σ2. Aber F sei

nicht gleich Φ, sondern z.B. die Verteilungsfunktion von B(π) oder Po(λ). Fur Xn gilt

E(Xn) = µ und Var(Xn) =σ2

n.

Aufgrund des zentralen Grenzwertsatzes folgt

Xna∼ N

(µ,σ2

n

),

zum Beispiel

Xna∼ N

(π,π(1− π)

n

)bei B(π).

Genauere Formulierung:√n(Xn − µ)

d→ N(0, σ2) fur n → ∞,

im Beispiel also√n(Xn − π)

d→ N(0, π(1− π)) fur n → ∞bzw.

X−µσ

√n

d→ N(0, 1),X−π√π(1−π)

√n

d→ N(0, 1).

}zentraler

Grenzwertsatz

Die√n-Normierung ist vor allem bei i.i.d. Stichprobenvariablen geeignet. Fur nicht identisch

verteilte Stichprobenvariablen wie zum Beispiel y1|x1, . . . , yn|xn in Regressionssituationenbenotigt man bei

√n-Normierung Voraussetzungen, die (teilweise) unnotig restriktiv sind.

Besser ist dann eine”Matrix-Normierung” mit Hilfe einer

”Wurzel” I

12 (θ) der Informations-

matrix.

35

Page 18: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Einschub: Wurzel einer positiv definiten Matrix

• A ist positiv definit, wenn A symmetrisch ist und x>Ax > 0 fur alle x 6= 0 gilt.

• Dann heißt eine Matrix A12 (linke) Wurzel von A

def⇔

A12 (A

12 )>︸ ︷︷ ︸

=A>2 , rechte Wurzel

= A.

Allerdings ist A12 nicht eindeutig, da fur eine beliebige orthogonale Matrix auch A

12Q

eine linke Wurzel ist:

A12Q(A

12Q)> = A

12 QQ>︸ ︷︷ ︸

=I

A>2 = A.

• Zwei gebrauchliche Wurzeln sind:

1. Symmetrische Wurzel: Betrachte die Spektralzerlegung von A ∈ Rp×p. Mit derMatrix P ∈ Rp×p der orthonormalen Eigenvektoren als Spalten ist

P>AP = Λ =

λ1 0. . .

0 λp

,

wobei fur alle i die λi > 0 die Eigenwerte von A sind. (Diese Zerlegung ist nume-risch aufwandig!) Dann gilt auch

A = PΛP> = PΛ12︸ ︷︷ ︸

=A12

(Λ12 )>P>︸ ︷︷ ︸=A

>2

,

und A12 heißt symmetrische Wurzel von A.

2. Cholesky-Wurzel: Sei A12 := C untere Dreiecksmatrix mit positiven Diagonal-

elementen und CC> = A. Dann ist C die eindeutig bestimmte Cholesky-Wurzelvon A. (Diese ist numerisch vergleichsweise einfach zu erhalten!)

• Anwendungen in der Statistik

1. Erzeugen vonNp(0,Σ)-verteilten Zufallszahlen (Σ vorgegeben): FallsZ ∼ Np(0, I),ist einfache Simulation moglich, indem p unabhangige N(0, 1)-verteilte Zufallsva-riablen Z1, . . . , Zp simuliert werden. Dann gilt auch

Σ1/2Z ∼ N(0,Σ1/2IΣ>/2).= N(0,Σ).

Also: Berechne Cholesky-Wurzel von Σ, ziehe p N(0, 1)-verteilte ZufallsvariablenZ = (z1, . . . , zp)

>, berechne Y = Σ1/2Z. Dann ist Y = (Y1, . . . , Yp)> einNp(0,Σ)-

verteilter Zufallsvektor.

36

Page 19: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

2. Matrixnormierung bei asymptotischer Normalverteilung:

Beispiel 2.19 (Asymptotische Normalitat des KQ-Schatzers im linearen Modell).Seien y1|x1, . . . , yn|xn unabhangig. Dann gilt

E[yi|xi] = x>i β, Var(yi|xi) = σ2, i = 1, . . . , n,

⇔ yn = Xnβ + εn, E[εn] = 0, Cov(εn) = σ2In.

Der KQ-Schatzer ist

βn = (X>nXn)−1X>n yn, E[βn] = β, Cov(βn) = σ2(X>nXn)−1.

Die Informationsmatrix unter der Normalverteilungsannahme ist

I(β) =X>nXn

σ2= Cov(βn)−1.

Zentrale Grenzwertsatze (fur unabhangige, nicht identisch verteilte Zufallsvaria-blen, kurz: i.n.i.d.) liefern unter geeigneten Voraussetzungen (informell):

βna∼ N(β, σ2(X>nXn)−1).

Genauere Formulierungen nehmen an, dass

limn→∞

1

nX>nXn =: A > 0 (2.1)

existiert (also: X>nXn ≈ nA ⇔ (X>nXn)−1 ≈ A−1/n fur große A). Anwendungdes (multivariaten) zentralen Grenzwertsatzes liefert dann:

√n(βn − β)

d→ N(0, σ2A−1)

bzw.

βna∼ N(β, σ2A−1/n)

βna∼ N(β, σ2(X>nXn)−1).

Die Annahme (2.1) ist zum Beispiel erfullt, wenn xi, i = 1, . . . , n, i.i.d. Reali-sierungen stochastischer Kovariablen x = (x1, . . . , xp)

> sind. Dann gilt nach demGesetz der großen Zahlen:

1

nX>nXn =

1

n

n∑i=1

xix>i

n→∞→ E[xx>] =: A.

Typischerweise ist die Annahme (2.1) nicht erfullt bei deterministischen Regres-soren mit Trend. Das einfachste Beispiel hierfur ist ein linearer Trend: xi = i furi = 1, . . . , n und yi = β1i+ εi. Dann ist

X>nXn =n∑i=1

i2

37

Page 20: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

und daher1

nX>nXn =

∑ni=1 i

2

n≥ n n→∞→ ∞.

In diesem Fall ist eine andere Normierung notig, zum Beispiel eine Matrixnor-mierung mit

Cn = (X>nXn).

Dann lasst sich die asymptotische Normalitat des KQ-Schatzers

C1/2n (βn − β)

d→ Np(0, σ2I)

bzw.

C1/2n (βn − β) :=

C1/2n

σ(βn − β)

d→ Np(0, I)

unter folgenden, sehr schwachen Bedingungen zeigen:

(D) Divergenzbedingung: Fur n → ∞ gilt:

(X>nXn)−1 → 0.

Eine aquivalente Forderung ist:

λmin(X>nXn) → ∞,

wobei λmin den kleinsten Eigenwert von X>nXn bezeichnet. Die Divergenzbe-dingung sichert, dass die

”Informationsmatrix”

X>nXn =n∑i=1

xix>i

fur n → ∞ gegen ∞ divergiert, die Information mit n → ∞ also laufendwachst.

Es gilt: (D) ist hinreichend und notwendig fur die (schwache und starke) Kon-sistenz des KQ-Schatzers βn.

(N) Normalitatsbedingung:

maxi=1,...,n

x>i (X>nXn)−1xi → 0 fur n→∞

(N) sichert, dass die Information jeder Beobachtung i asymptotisch gegenuberder Gesamtinformation

∑ni=1 xix

>i vernachlassigbar ist.

Unter (D) und (N) gilt

(X>nXn)1/2(βn − β)d→ N(0, σ2I)

(Beweis mit Grenzwertsatzen fur unabhangige, nicht identisch verteilte Zufallsva-riablen), d.h. fur praktische Zwecke:

βna∼ N(β, σ2(X>nXn)−1)

fur genugend großen Stichprobenumfang n. Dabei darf zusatzlich σ2 durch einenkonsistenten Schatzer σ2 ersetzt werden.

38

Page 21: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Definition 2.26 (Asymptotische Normalitat).

1. Mit√n-Normierung: θn heißt asymptotisch normalverteilt fur θ

def⇔

√n(θn − θ)

d→ N(0, V (θ)) fur n→∞

mit nicht-negativ definiter (in der Regel positiv definiter) asymptotischer Kovarianzma-trix V (θ).

2. Mit Matrix-Normierung: θn heißt asymptotisch normalverteilt fur θdef⇔ es existiert

eine Folge von Matrizen An mit λmin(An) → ∞, so dass

A1/2n (θn − θ)

d→ N(0, V (θ)).

Bemerkung.

1. Praxisformulierung:θn

a∼ N(θ, V (θ)/n)

bzw.θn

a∼ N(θ, (A1/2n )−1V (θ)(A1/2

n )−>).

Dabei darf θ in V (θ) durch θn ersetzt werden.

2. Oft: V (θ) = I moglich, wenn geeignet normiert wird, zum Beispiel bei ML-Schatzung.

Beispiel 2.20. Seien X1, . . . , Xn i.i.d. Zufallsvariablen mit (bekanntem) Erwartungswert µund Varianz σ2.

S2µ =

1

n

n∑i=1

(Xi − µ)2

ist asymptotisch normal fur σ2 mit V (θ) = µ4 − σ4, µ4 = E[(Xi − µ)4] < ∞. S2µ ist erwar-

tungstreu. Fur die Varianz erhalt man:

Var(S2µ) = Var

(1

n

n∑i=1

(Xi − µ)2

)

=1

n2· n ·Var

[(X1 − µ)2

]=

1

n

(E[(X1 − µ)4]−

(E[(X1 − µ)2]

)2)=

1

n(µ4 − σ4).

Es liegen die Voraussetzungen zur Anwendung des zentralen Grenzwertsatzes vor. Aus ihmfolgt:

S2µ

a∼ N(σ2, (µ4 − σ4)/n) bzw.√n(S2

µ − σ2)d→ N(0, µ4 − σ4).

39

Page 22: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Die Delta-Methode

θn sei asymptotisch normalverteilter Schatzer fur θ.

Frage: Wie ist fur eine gegebene Abbildung

h : Rp → Rk, k ≤ p

der Schatzer h(θ) fur h(θ) verteilt?

Satz 2.27 (Delta-Methode). Sei h wie oben.

1. θ skalar: Fur alle θ, fur die h stetig differenzierbar ist mit h′(θ) 6= 0, gilt:

√n(θn − θ)

d→ N(0, V (θ)) ⇒√n(h(θn)− h(θ))

d→ N(0, [h′(θ)]2V (θ))

2. θ vektoriell: Sei

θ = (θ1, . . . , θp)> 7→ h(θ) = (h1(θ), . . . , hk(θ))

>

mit Funktionalmatrix

(H(θ))ij =∂hi(θ)

∂θj

mit vollem Rang. Fur alle θ, fur die h(θ) komponentenweise stetig partiell differenzierbarist und jede Zeile von H(θ) ungleich dem Nullvektor ist, gilt:

√n(θn − θ)

d→ N(0, V (θ)) ⇒√n(h(θn)− h(θ))

d→ N(0, H(θ)V (θ)H(θ)>).

Beweisskizze fur skalares θ. Taylorentwicklung von h(θn) um θ liefert:

h(θn) = h(θ) + (θn − θ)h′(θ) + o(θn − θ)2.

Dabei ist fur eine Folge von Zufallsvariablen Xn

Xn = o(an) falls Xn/anP→ 0 fur n → ∞.

Also:h(θn) ≈ h(θ) + (θn − θ)h′(θ)

bzw. √n(h(θn)− h(θ)) ≈

√n(θn − θ)h′(θ)

Aus√n(θn − θ)

d→ N(0, V (θ)) folgt dann, dass√n(h(θn)− h(θ))

d→ N(0, h′(θ)2V (θ)).

40

Page 23: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Asymptotische Cramer-Rao Schranke und asymptotische Effizienz

Seien X1, . . . , Xni.i.d.∼ f(x|θ) und

i(θ) = −E[∂2 log f(x|θ)∂θ∂θ>

]die erwartete Fisher-Information einer Beobachtung Xi. Die Information der gesamten Stich-probe X1, . . . , Xn ist dann

I(θ) = n · i(θ).

Satz 2.28 (Asymptotische Cramer-Rao Ungleichung). Unter Fisher-Regularitat sowie leich-ten Zusatzannahmen gilt:

1. Aus√n(θn − θ)

d→ N(0, V (θ)) folgt V (θ) ≥ i−1(θ).

2. Aus√n(h(θn)− h(θ))

d→ N(0, D(θ)) folgt

D(θ) ≥ H(θ)i−1(θ)H(θ)>

mit ”≥” Lowner-Ordnung (und den Bezeichnungen aus der Delta-Regel, Satz 2.27).

Definition 2.29 (Bester asymptotisch normaler (BAN)-Schatzer). θn heißt BAN-Schatzer,falls in 1. oben gilt:

V (θ) = i−1(θ).

Mit der Delta-Regel folgt unmittelbar:

Satz 2.30 (Transformation von BAN-Schatzern). Ist θn BAN-Schatzer fur θ, so ist h(θn)BAN-Schatzer fur h(θ).

Bemerkung. Das Konzept der asymptotischen Effizienz lasst sich auf die Matrix-Normierungubertragen: θ ist BAN-Schatzer fur θ genau dann, wenn

I1/2(θ)(θn − θ)d→ N(0, I)

bzw. θna∼ N(θ, I−1(θn)), mit I1/2(θ) Wurzel der Fisher-Information I(θ) der Stichprobe

X1, . . . , Xn. Anstelle der erwarteten kann auch die beobachtete Fisher-Information J(θ) ver-wendet werden.

2.2 Klassische Testtheorie

Ziel: Finde Test zum Niveau α mit optimaler Gute (Power) fur θ ∈ Θ1. Dabei ist n finit.

41

Page 24: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

2.2.1 Problemstellung

• Sei Θ der Parameterraum; die Hypothesen seien

H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1,

mit Θ0 ∩ Θ1 = ∅, d.h. Θ0 und Θ1 sind disjunkt. Moglicherweise, jedoch nicht notwen-digerweise, gilt Θ0 ∪Θ1 = Θ.

• Eine Nullhypothese heißt einfach, wenn sie aus einem einzelnen Element aus Θ besteht,d.h. Θ0 = {θ0}. Ansonsten spricht man von zusammengesetzten Hypothesen. Dabei istFolgendes zu beachten: Etliche Nullhypothesen sind scheinbar einfach, aber tatsachlichzusammengesetzt. Dies ist haufig dann der Fall, wenn Nuisanceparameter auftauchen.

Beispiel: Seien X1, . . . , Xn ∼ N(µ, σ2) mit µ und σ2 unbekannt. Die NullhypotheseH0 : µ = 0 ist eine zusammengesetzte Hypothese, da

Θ = {(µ, σ2) : −∞ < µ ≤ ∞, 0 < σ2 <∞}

undΘ0 = {(µ, σ2) : µ = 0, 0 < σ2 <∞}.

• Ergebnisse/Aktionen:

A0 : H0 wird nicht abgelehnt

A1 : H0 wird abgelehnt

• Test zum Niveau α:Pθ(A1) ≤ α, fur alle θ ∈ Θ0

• Testfunktionen (vgl. Abschnitt 1.2.1): Tests werden oft folgendermaßen formuliert:Wahle eine Teststatistik T (X), eine Stichprobe X und einen kritischen Bereich Cα.Dann lautet der Test

φ(x) =

{1 , falls T (x) ∈ Cα (H0 ablehnen),0 , falls T (x) /∈ Cα (H0 nicht ablehnen).

• Fur die Testtheorie dieses Abschnitts werden solche Testfunktionen φ(x) ∈ {0, 1} er-weitert zu randomisierten Testfunktionen φ(x) ∈ [0, 1]:

1. Fur gegebene Daten X = x ist φ(x) ∈ [0, 1].

2. Ziehe eine (davon unabhangige) Bernoullivariable W ∼ Bin(1, φ(x)).

3. Lehne H0 genau dann ab, wenn W = 1.

Interpretation: φ(x) ist die Wahrscheinlichkeit fur die Ablehnung von H0 gegeben dieBeobachtung X = x. Im Spezialfall φ(x) ∈ {0, 1} reduziert sich ein randomisierterTest auf einen ublichen, nicht randomisierten Test. Randomisierte Tests sind (fur dieTheorie) vor allem bei diskreten Teststatistiken relevant.

42

Page 25: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Beispiel 2.21 (Randomisierter Binomialtest). Sei X ∼ Bin(10, π) und

H0 : π ≤ 1

2, H1 : π >

1

2.

Test: H0 ablehnen ⇔ X ≥ kα, wobei kα so, dass

Pπ(X ≥ kα) ≤ α fur π =1

2.

Es ist

P0.5(X ≥ k) =

0.00098 , k = 10

0.01074 , k = 9

0.05469 , k = 8

. . .

Fur α = 0.05 wurde die Wahl kα = 8 wegen 0.054 > 0.05 nicht moglich sein. Wahlt manaber kα = 9, so schopft man α = 0.05 bei weitem nicht aus, d.h. der Test ist sehr konservativ.Die Losung ist ein randomisierter Test

φ(x) =

1 , x ∈ {9, 10}67/75 , x = 8

0 , x ≤ 7,

d.h. ziehe bei x = 8 eine bernoulliverteilte Zufallsvariable mit Wahrscheinlichkeit 67/75.Wird 1 realisiert, so wird H0 abgelehnt.

Die Randomisierung ist ein kunstlicher Vorgang, um das Signifikanzniveau α auszuschopfen,d.h.

Pθ(A1) = α

fur dasjenige θ auf dem Rand zwischen Θ0 und Θ1 zu erreichen. Ein randomisierter Testbesitzt in der Regel folgende Struktur:

φ(x) =

1 , x ∈ B1

γ(x) , x ∈ B10

0 , x ∈ B0.

Der Stichprobenraum wird also in drei Teile zerlegt:

B1 strikter Ablehnungsbereich von H0, d.h. x ∈ B1 ⇒ Aktion A1.

B0 strikter Annahmebereich, d.h. x ∈ B0 ⇒ Aktion A0.

B10 Randomisierungsbereich, d.h. x ∈ B10 fuhrt mit Wahrscheinlichkeit γ(x) zur Ablehnungund mit Wahrscheinlichkeit 1− γ(x) zur Annahme von H0. B10 kann als Indifferenzbe-reich interpretiert werden.

43

Page 26: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

In der Regel wird ein Test mit einer Teststatistik T = T (X) formuliert. Dann haben rando-misierte Tests oft die Form:

φ(x) =

1, T (x) > c

γ, T (x) = c

0, T (x) < c .

Falls T (X) eine stetige Zufallsvariable ist, gilt P(T (X) = c) = 0, d.h. fur stetige T reduziertsich φ(x) zu

φ(x) =

{1, T (x) ≥ c0, T (x) < c .

Bei diskreten Teststatistiken T wie beim exakten Binomialtest ist γ = P(T (X) = c) > 0. DerWert c ist an der

”Entscheidungsgrenze” zwischen A1 und A0. Dass man die Entscheidung

durch eine zufallige Prozedur herbeifuhrt, stoßt in der Praxis auf Bedenken.

Die (frequentistische) Theorie zeigt, dass die Priori-Wahrscheinlichkeit

Pθ(A1) =

∫XP(A1|x)︸ ︷︷ ︸

φ(x)

f(x|θ)dx︸ ︷︷ ︸dPθ

= Eθ[φ(X)], θ ∈ Θ1

bei Randomisierung maximiert werden kann (φ(x) ist die bedingte Wahrscheinlichkeit, aposteriori, d.h. bei gegebener Stichprobe, fur A1 zu entscheiden).

”Maximal” bezieht sich auf

”durchschnittliche” Optimalitat des Tests bei wiederholter Durchfuhrung.

Subjektive Sichtweise: Man wird bei T (x) = c bzw. x ∈ B10 eher noch keine Entscheidungtreffen (

”Indifferenzbereich”).

Fur n → ∞ geht (in der Regel) P(T (X) = c) gegen 0, d.h. fur großes n wird der Randomi-sierungsbereich B10 immer kleiner. Idee: Bei T (x) = c zusatzliche Daten erheben.

Gute, Gutefunktion (power, power function)

Bei einer Testentscheidung gibt es folgende Moglichkeiten:

A0: H0 beibehalten A1: H1 ist signifikant

H0 trifft zu richtige Aussage Fehler 1. Art

H1 trifft zu Fehler 2. Art richtige Aussage

Es ist φ(x) = P(A1|x) die bedingte Wahrscheinlichkeit fur A1 gegeben die Stichprobe x. IstPθ(A1) die unbedingte Wahrscheinlichkeit / Priori-Wahrscheinlichkeit, dann gilt (wie oben)

Pθ(A1) =

∫XP(A1|x)f(x|θ) dx =

∫φ(x)f(x|θ) dx = Eθ[φ(X)]

und somit auch Pθ(A0) = Eθ(1− φ(X)) fur θ ∈ Θ.

44

Page 27: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Definition 2.31 (Gutefunktion eines Tests φ).

1. Die Abbildung gφ(θ) = Eθ[φ(X)] = Pθ(A1), θ ∈ Θ, heißt Gutefunktion des Tests φ.

gφ(θ) = Pθ(A1) Wahrscheinlichkeit fur Fehler 1. Art, θ ∈ Θ0

1− gφ(θ) = Pθ(A0) Wahrscheinlichkeit fur Fehler 2. Art, θ ∈ Θ1

Außerdem:

gφ(θ) = Pθ(A1) Macht (power) des Tests, θ ∈ Θ1

2. Die Großeα(φ) = sup

θ∈Θ0

Pθ(A1) = supθ∈Θ0

gφ(θ)

heißt (tatsachliches) Niveau (level, size) von φ und ist die supremale Wahrscheinlichkeitfur den Fehler 1. Art.

β(φ) = supθ∈Θ1

Pθ(A0) = 1− infθ∈Θ1

gφ(θ)

ist die supremale Wahrscheinlichkeit fur den Fehler 2. Art.

• Bei den”ublichen” Tests gilt wegen der Monotonie und Stetigkeit von gφ(θ)

α(φ) + β(φ) = 1,

d.h. α(φ) kann nur auf Kosten von β(φ) klein gehalten werden (und umgekehrt).

Allgemein gilt dagegen nurα(φ) + β(φ) ≥ 1,

zum Beispiel beim einseitigen Gauß-Test.

• Programm der klassischen Testtheorie: Maximiere unter Beschrankung

gφ(θ) ≤ α fur alle θ ∈ Θ0

bei fest vorgegebenem α > 0 die Gute fur θ ∈ Θ1, d.h.

gφ(θ) ≥ maxφ

gφ(θ) fur θ ∈ Θ1

bei”konkurrierenden” Tests φ. H0 und H1 werden also unsymmetrisch betrachtet.

• Wegen der Beziehung α(φ) +β(φ) = 1 muss dabei das vorgegebene Signifikanzniveau αausgeschopft werden, d.h.

α(φ) = α

gelten. Bei α(φ) < α wird automatisch

β(φ) = 1− infθ∈Θ1

gθ(φ)

fur θ ∈ Θ1 großer als notwendig, d.h. die Gute des Tests schlechter.

45

Page 28: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

• Folgende Problemstellungen werden nach diesem Konzept betrachtet:

1. Einfaches H0 vs. einfaches H1: Neyman-Pearson-Theorem zeigt, wie bester Testzu konstruieren ist.

2. Einfaches H0 vs. zusammengesetztes H1: Basierend auf dem Neyman-Pearson-Theorem kann fur bestimmte Falle ein

”gleichmaßig bester Test” (UMP, uniformly

most powerful test) konstruiert werden. In anderen Fallen existiert — zumindestohne weitere Restriktionen — kein UMP-Test.

3. Zusammengesetztes H0 vs. zusammengesetztes H1: Suche nach einem UMP-Testist noch schwieriger.

2.2.2 Satz von Neyman-Pearson

Problemstellung: Einfache Nullhypothese vs. einfache Alternativhypothese, also

H0 : θ = θ0, vs. H1 : θ = θ1

mit θ0 6= θ1. Sei f0(x) = f(x|θ0), f1(x) = f(x|θ1). Dann heißt

Λ(x) =f1(x)

f0(x)

Likelihood-Quotient. Ein (bester) Test hat nach Neyman-Pearson die Form:

H0 ablehnen⇔ Λ(x) > kα

mit kα so gewahlt, dass der Test das Niveau α einhalt. Aber: Falls Λ(x) diskret ist, gibt esein theoretisches Problem. Dies fuhrt zu

Definition 2.32 (Randomisierter LQ-Test). Ein Test φ∗(x) heißt randomisierter Likelihood-

Quotienten-Test, kurz LQ-Test (likelihood ratio test, LRT)def⇔ φ∗(x) hat die Struktur

φ∗(x) =

1 , f1(x) > kf0(x) ⇔ Λ(x) > k

γ(x) , f1(x) = kf0(x) ⇔ Λ(x) = k

0 , f1(x) < kf0(x) ⇔ Λ(x) < k

mit Konstante k > 0 und 0 < γ(x) < 1. Falls Λ(X) stetig ist, gilt Pθ(Λ(X) = k) = 0. Dannreicht ein nicht-randomisierter Test

φ∗(x) =

{1, f1(x) > kf0(x) ⇔ Λ(x) > k

0, sonst.

Satz 2.33 (Neyman-Pearson, Fundamentallemma).

1. Optimalitat: Fur jedes k und γ(x) hat der Test φ∗ maximale Macht unter allen Tests,deren Niveau hochstens gleich dem Niveau von φ∗ ist.

2. Existenz: Zu vorgegebenem α ∈ (0, 1) existieren Konstanten k∗ und γ∗, so dass derLQ-Test φ∗ mit diesem k∗ und γ(x) = γ∗ fur alle x exakt das Niveau α besitzt.

46

Page 29: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

3. Eindeutigkeit: Falls ein Test φ mit Niveau α maximale Macht (= kleinsten Fehler 2. Art)unter allen anderen Tests mit Niveau α besitzt, dann ist φ ein LQ-Test (eventuell mitAusnahme einer Nullmenge X0 ⊂ X von Stichproben x, d.h. Pθ0(X0) = Pθ1(X0) = 0).

Beweis.

1. Sei φ ein Test mitEθ0 [φ(X)] ≤ Eθ0 [φ∗(X)] (2.2)

undU(x) = (φ∗(x)− φ(x))(f1(x)− kf0(x)).

– Fur f1(x)− kf0(x) > 0 ist φ∗(x) = 1, also U(x) ≥ 0.

– Fur f1(x)− kf0(x) < 0 ist φ∗(x) = 0, also U(x) ≥ 0.

– Fur f1(x) = kf0(x) = 0 ist U(x) = 0.

Also: U(x) ≥ 0 fur alle x. Somit:

0 ≤∫U(x)dx

=

∫(φ∗(x)− φ(x))(f1(x)− kf0(x)) dx

=

∫φ∗(x)f1(x) dx−

∫φ(x)f1(x) dx+ k

(∫φ(x)f0(x) dx−

∫φ∗(x)f0(x) dx

)= Eθ1 [φ∗(X)]− Eθ1 [φ(X)] + k(Eθ0 [φ(X)]− Eθ0 [φ∗(X)])︸ ︷︷ ︸

≤0 wegen (2.2)

⇒ Eθ1 [φ∗(X)] ≥ Eθ1 [φ(X)], d.h. die Macht von φ∗ ist großer als die Macht von φ.

2. Die Verteilungsfunktion G(k) = Pθ0(Λ(x) ≤ k) ist monoton steigend in k. Sie ist fernerrechtsstetig, d.h.

G(k) = limy↓k

G(y) fur alle k.

Betrachtet man die GleichungG(k∗) = 1− α

und versucht diese bezuglich k∗ zu losen, so gibt es zwei Moglichkeiten:

(i) Entweder ein solches k∗ existiert,

(ii) oder die Gleichung kann nicht exakt gelost werden, aber es existiert ein k∗, so dass

G−(k∗) = Pθ0(Λ(X) < k∗) ≤ 1− α < G(k∗)

(das entspricht der”Niveaubedingung”).

Im ersten Fall setzt man γ∗ = 0, im zweiten

γ∗ =G(k∗)− (1− α)

G(k∗)−G−(k∗).

47

Page 30: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

In diesem Fall hat der Test genau das Niveau α, wie behauptet, denn:

Eθ0 [φ(X)] = Pθ0

(f1(X)

f0(X)> k∗

)+

G(k∗)− 1 + α

G(k∗)−G−(k∗)Pθ0

(f1(X)

f0(X)= k∗

)= (1−G(k∗)) +

G(k∗)− 1 + α

G(k∗)−G−(k∗)(G(k∗)−G−(k∗))

= α.

3. Sei φ∗ der LQ-Test definiert durch eine Konstante k und eine Funktion γ(x) und mannehme an, φ ist ein anderer Test mit gleichem Niveau α und der gleichen Macht wie φ∗.Definiert man U(x) wie in 1., dann ist U(x) ≥ 0 fur alle x und

∫U(x) dx = 0, da

Eθ1 [φ∗(X)]− Eθ1 [φ(X)] = 0 und Eθ0 [φ∗(X)]− Eθ0 [φ(X)] = 0 nach Annahme. Daraus,dass U nicht-negativ mit Integral 0 ist, folgt, dass U(x) = 0 fur fast alle x. Dies wiederumbedeutet, dass φ(x) = φ∗(x) oder f1(x) = kf0(x), d.h. φ(x) ist ein LQ-Test.

Bemerkung. Fur einfache Hypothesen H0 und H1 sind klassische Testtheorie und Likelihood-Quotienten-Test noch identisch. Fur zusammengesetzte Hypothesen (der Praxisfall) trennensich die Konzepte:

• Klassische Testtheorie sucht weiter nach optimalen Tests (fur finite Stichproben).

• Likelihoodbasierte Tests verallgemeinern Λ(x) bzw. sind quadratische Approximationenvon Λ(x), deren Verteilungsfunktion (unter H0) nur asymptotisch (n→∞) gilt.

Beispiel 2.22 (Binomialtest). Betrachte

H0 : π = π0 vs. H1 : π = π1

mit 0 < π0 < π1 < 1. Die Dichte (Wahrscheinlichkeitsfunktion) der i.i.d. StichprobeX = (X1, . . . , Xn)> lautet

f(x|π) = πz(1− π)n−z mit z =n∑i=1

xi,

der Likelihood-Quotient

Λ(x) =πz1(1− π1)n−z

πz0(1− π0)n−z=

(1− π1

1− π0

)n·(π1(1− π0)

π0(1− π1)

)z:= Λ(z).

Da Λ(x) = Λ(z) streng monoton in z ist, lasst sich Λ(z) > k aquivalent umformen inz > Λ−1(k) =: c. Der Likelihood-Quotienten-Test φ∗ mit kritischer Zahl k und (konstan-ter) Randomisierung γ∗ hat dann die Form

φ∗(x) =

1 , Z = Z(x) > c

γ∗ , Z = Z(x) = c

0 , Z = Z(x) < c

mit der”

Teststatistik” Z. Dabei konnen wir uns (wegen des Wertebereichs von Z) aufc ∈ {0, 1, . . . , n} beschranken. γ∗ ist aus der Niveaubedingung

Pπ0(Z > c) + γ∗Pπ0(Z = c)!

= α

zu bestimmen. Der Test φ∗ hangt von π0 ab, jedoch nicht von π1!

48

Page 31: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Bemerkung. Falls H1 wahr ist, dann bestimmt π1 die Wahrscheinlichkeit fur den”

reali-sierten” Fehler 2. Art Pπ1(A0). Je weiter π1 von π0 entfernt ist, umso kleiner ist die Wahr-scheinlichkeit fur den Fehler 2. Art und umso großer ist die Power an der Stelle π = π1.

2.2.3 Gleichmaßig beste Tests

Definition 2.34 (Gleichmaßig bester (UMP, uniformly most powerful) Test). Ein Niveau-

α-Test φ∗ heißt gleichmaßig bester oder UMP Test zum Niveau αdef⇔

1. Eθ[φ∗(X)] ≤ α fur alle θ ∈ Θ0.

2. Fur jeden anderen Niveau-α-Test φ mit Eθ[φ(X)] ≤ α fur alle θ ∈ Θ0 gilt:

Eθ[φ∗(X)] ≥ Eθ[φ(X)] fur alle θ ∈ Θ1.

Bemerkung. Der Begriff”

gleichmaßig” in obiger Definition bezieht sich auf die Gleichmaßig-keit der Eigenschaft gφ∗ ≥ gφ auf Θ1 fur jeden anderen Test φ.

Beste einseitige Tests bei skalarem θ

In Beispiel 2.22 (Binomialtest fur einfache Hypothesen) hing die Power nicht vom speziellenπ1(≡ H1) > π0(≡ H0) ab. Daraus folgt, dass φ∗ fur alle π1 > π0 besser ist als ein andererTest φ. Entscheidend dafur ist, dass der Dichte- bzw. Likelihood-Quotient monoton in z ist.Dies gilt allgemeiner und fuhrt zu folgender Definition.

Definition 2.35 (Verteilungen mit monotonem Dichtequotienten). Die Verteilungsfamilie{f(x|θ), θ ∈ Θ ⊆ R} mit skalarem Parameter θ besitzt monotonen Dichte- bzw. Likelihood-

Quotienten (kurz: MLQ)def⇔ es existiert eine Statistik T , so dass

Λ(x) =f(x|θ1)

f(x|θ0)

monoton wachsend in T (x) fur je zwei θ0, θ1 ∈ Θ mit θ0 ≤ θ1 ist.

49

Page 32: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Bemerkung.

1. Monoton wachsend ist keine echte Einschrankung; ist T (x) monoton fallend, so defi-niert man T (x) = −T (x).

2. Jede einparametrische Exponentialfamilie in T (x) und γ(θ) besitzt monotonen Dichte-quotienten, wenn γ(θ) monoton in θ ist. Letzteres gilt fur die naturliche Parametrisie-rung γ(θ) = θ.

Satz 2.36 (UMP-Test bei MLQ). Gegeben sei Pθ = {f(x|θ) : θ ∈ Θ ⊆ R} mit MLQ in T (x)und die Hypothesen

H0 : θ ≤ θ0 vs. H1 : θ > θ0.

1. Existenz: Es gibt einen UMP-Test φ∗ zum Niveau α, namlich

φ∗(x) =

1, T (x) > c

γ, T (x) = c

0, T (x) < c.

Dabei sind c und γ eindeutig bestimmt durch die Niveaubedingung

Pθ0(T (X) > c) + γPθ0(T (X) = c) = α.

2. Die Gutefunktion gφ∗(θ) ist monoton wachsend in θ und sogar streng monoton wachsendfur alle θ mit 0 < gφ∗(θ) < 1. Die maximale Wahrscheinlichkeit fur den Fehler 1. Artist gφ∗(θ0) = α.

3. φ∗ besitzt auch gleichmaßig minimale Wahrscheinlichkeiten fur den Fehler 2. Art unterallen Tests φ fur H0 vs. H1 mit gφ(θ0) = α.

4. φ∗ ist (mit Wahrscheinlichkeit 1) eindeutig bestimmt.

Bemerkung. Es gilt weiterhin: Ist φ∗ der beste Test fur das einfache Alternativproblem

H0 : θ = θ0 vs. H1 : θ = θ1,

so ist φ∗ auch der UMP-Test zum Niveau α fur zusammengesetzte Hypothesen

H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1,

wenn φ∗ nicht von dem speziellen Wert θ1 ∈ H1 abhangt und fur alle θ ∈ H0 das Niveau αeinhalt.

Beispiel 2.23.

1. Binomialtest mit H0 : π ≤ π0 gegen H1 : π > π0 hat MLQ in Z(x) = ”Anzahl der Erfolge”(vgl. obiges Beispiel und Bemerkung). Der Binomialtest ist also UMP-Test.

2. Gleichverteilung

3. Gauß-Test

50

Page 33: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

4. Exponentialverteilung

5. Poissonverteilung

Bemerkung. Oft existiert zwar kein UMP-Test, jedoch ein lokal bester (einseitiger) Test:

φlok heißt lokal bester Niveau α-Testdef⇔

g′φlok

(θ0) =d

dθgφlok(θ0) ≥ d

dθgφ(θ0),

wobei gφlok(θ0) = gφ(θ0) = α gilt.

Beste unverfalschte zweiseitige Tests bei skalarem θ

Fur zweiseitige Testprobleme der Form

H0 : θ = θ0 vs. H1 : θ 6= θ0

gibt es in der Regel keinen UMP-Test, insbesondere auch dann nicht, wenn MLQ vorliegt.Deshalb wird eine Restriktion auf eine kleinere Klasse von konkurrierenden Tests notwendig.

Definition 2.37 (Unverfalschter Niveau-α-Test). Ein Test φ fur H0 vs. H1 heißt unverfalsch-

ter (unbiased) Niveau-α-Testdef⇔

gφ(θ) ≤ α fur alle θ ∈ Θ0, gφ(θ) ≥ α fur alle θ ∈ Θ1.

Satz 2.38 (Zweiseitige UMPU (uniformly most powerful unbiased) Tests). Sei

f(x|θ) = c(θ) exp(θT (x))h(x)

eine einparametrische Exponentialfamilie mit naturlichem Parameter θ ∈ Θ (Θ sei ein offenesIntervall) und Statistik T (x). Dann ist

φ∗(x) =

1 , T (x) < c1

γ1 , T (x) = c1

0 , c1 < T (x) < c2

γ2 , T (x) = c2

1 , T (x) > c2

ein UMPU-Test zum Niveau α unter allen unverfalschten Tests φ zum Niveau α. Dabei wer-den c1, c2, γ1, γ2 aus

Eθ0 [φ∗(X)] = α, Eθ0 [φ∗(X)T (X)] = αEθ0 [T (X)]

bestimmt.

Beispiel 2.24.

1. Zweiseitiger Binomial-Test

H0 : π = π0 vs. H1 : π 6= π0

ist UMPU-Test.

51

Page 34: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

2. Zweiseitiger Gauß-Test mit X1, . . . , Xni.i.d.∼ N(µ, σ2), σ2 bekannt, ist fur

H0 : µ = µ0 vs. H1 : µ 6= µ0

UMPU-Test.

3. Zweiseitiger Poisson-Test: Bei X1, . . . , Xni.i.d.∼ Po(λ)

H0 : λ = λ0 vs. H1 : λ 6= λ0

liegt eine einparametrische Exponentialfamilie mit naturlichem Parameter θ=log λ vor.Aquivalente Hypothesen in θ sind

H0 : θ = θ0 vs. H1 : θ 6= θ0.

Bestimmung der Prufgroße:

f(xi|θ) = h(xi)c(θ) exp (θxi)

f(x|θ) = f(x1|θ) · . . . · f(xn|θ) ∝ exp(θ

n∑i=1

xi︸ ︷︷ ︸T (x)

)

und somit

φ∗(x) =

1 ,∑n

i=1 xi < c1

γ1 ,∑n

i=1 xi = c1

0 , c1 <∑n

i=1 xi < c2

γ2 ,∑n

i=1 xi = c2

1 ,∑n

i=1 xi > c2 .

4. Zweiseitiger χ2-Test auf die Varianz: Seien X1, . . . , Xni.i.d.∼ N(µ, σ2), µ bekannt. Gete-

stet wirdH0 : σ2 = σ2

0 vs. H1 : σ2 6= σ20.

Mehrparametrische Verteilungsannahme

• Bislang: θ skalar.

⇒ θ = (µ, σ2) ist bei N(µ, σ2) Verteilung nicht in der Theorie optimaler Tests ent-halten.

⇒ t-Test auf µ (bei unbekanntem σ2) und andere sind nicht erfasst.

• Idee:”Optimale” Tests lassen sich (noch) fur eine skalare Komponente η von

θ = (η, ξ), wobei ξ mehrdimensional sein darf, konstruieren. ξ ist als Stor-/Nuisance-parameter zu betrachten.

• Voraussetzung an Verteilungsfamilie: {f(x|θ), θ ∈ Θ ⊆ Rk} ist eine (strikt)k-parameterische Exponentialfamilie mit naturlichem Parameter θ = (η, ξ) undT = (U, V ), U skalar. Dies fuhrt auf die Theorie bedingter Tests.

52

Page 35: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

• Passend zum Beispiel fur

– t-Test: Vergleich von µ1, µ2 bei unabhangigen Stichproben nur, falls σ21 = σ2

2 = σ2

ist.

– Test auf Signifikanz von β1 in linearer Einfachregression.

• Bereits nicht mehr anwendbar fur

– Vergleich von µ1, µ2 bei σ21 6= σ2

2 (Behrens-Fisher-Problem).

– Test auf Signifikanz von β1 im Logit- oder Poisson-Regressionsmodell.

⇒ (asymptotische) Likelihood-Theorie, Bayes-Inferenz.

2.3 Bereichsschatzungen und Konfidenzintervalle

2.3.1 Definition und Beurteilung der Gute

Definition 2.39 (Bereichsschatzung). Eine Bereichsschatzung (ein Konfidenzbereich) Cfur τ(θ) zum (vorgegebenen) Vertrauensgrad ( Konfidenzniveau) 1−α ist eine Abbildung desStichprobenraums X in die σ-Algebra Lm des Rm, also x→ C(x)(⊆ Rm) ∈ Lm, mit

Pθ(τ(θ) ∈ C(X)) ≥ 1− α fur alle θ.

Dabei sei τ(θ) m-dimensionaler Parameter.

C(X) ist ein zufalliger Bereich im Rm. Nach Beobachtung der Stichprobe X = x ist C(x)gegeben. Der Aussage

τ(θ) ∈ C(x) (richtig!

oder falsch)

wird der Vertrauensgrad 1 − α zugeordnet. Dabei gilt die bekannte Haufigkeitsinterpretati-on. Ist C(x) fur jedes x ein Intervall, so heißt C(x) Konfidenzintervall und C eine Inter-vallschatzung.

Eine Wahrscheinlichkeitsaussage zuτ(θ) ∈ C(x)

bei gegebenem x ist im Rahmen der Bayes-Inferenz (ohne logische Probleme) moglich.

Die”Prazision” von C(X) wird gemessen durch die erwartete Große des Bereichs bzw. durch

die Lange des Konfidenzintervalls.

Beispiel 2.25. Seien X1, . . . , Xni.i.d.∼ N(µ, σ2) und

C(X) =

[X − tn−1

(α2

) S√n, X + tn−1

(α2

) S√n

]ein Konfidenzintervall fur µ. Die Lange

L = 2 tn−1

(α2

) S√n

53

Page 36: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

von C(X) ist zufallig mit Erwartungswert

E(L) = 2 tn−1

(α2

) 1√nE(S) = 2 tn−1

(α2

) σ√n

√2

n− 1

Γ(n/2)

Γ((n− 1)/2).

Es gilt:

1− α großer → E(L) großer,

n großer → E(L) kleiner.

Bei der Beurteilung der Prazision eines Konfidenzintervalls durch die Lange ist ein Konfi-denzintervall umso besser, je kurzer seine erwartete Lange ist. Allgemein wird ein Konfi-denzbereich C durch die mittlere

”Große” beurteilt. Dazu sei π eine Verteilung (oder ein

Maß) auf Θ. Dann istπ(C(x))

die Große von C(x). Bei Konfidenzintervallen ergibt sich die Lange, wenn π das Lebesgue-Maßist. Dann ist

Eθ(π(C(X)))

die zu erwartende Große. Zur Beurteilung der Gute reicht die erwartete Lange bzw. Großeallein nicht aus.

Definition 2.40 (Kennfunktion eines Konfidenzbereichs). Eine Kennfunktion ist definiertals eine Funktion

kC(θ, θ′) := Pθ(C(x) 3 τ(θ

′)).

Dabei ist θ der”

wahre” Wert und θ′ irgendein Wert in Θ.

Fur θ = θ′

ist”C(x) 3 τ(θ

′)” eine Aussage, deren Wahrscheinlichkeit moglichst groß sein

soll. Fur θ 6= θ′

mit τ(θ′) 6= τ(θ) ist

”C(x) 3 τ(θ

′)” eine Aussage, deren Wahrscheinlichkeit

moglichst klein gehalten werden soll.

Im Weiteren betrachten wir den Spezialfall τ(θ) = θ mit skalarem θ. Dann ist

kC(θ, θ′) = Pθ(C(x) 3 θ′).

Definition 2.41.

1. Ein Konfidenzintervall besitzt den Vertrauensgrad 1− α :def⇔

kC(θ, θ′) ≥ 1− α fur alle θ′

= θ.

2. Ein Konfidenzintervall zum Vertrauensgrad 1− α heißt unverfalscht :def⇔

kC(θ, θ′) ≤ 1− α fur θ′ 6= θ.

3. Ein Konfidenzbereich C0 zum Vertrauensgrad 1 − α heißt gleichmaßig bester (trenn-

scharfer) [bzw. gleichmaßig bester unverfalschter] Konfidenzbereich :def⇔ fur alle θ

′ 6= θund alle [unverfalschten] Konfidenzbereiche C zum Vertrauensgrad 1− α gilt

kC0(θ, θ′) ≤ kC(θ, θ

′).

54

Page 37: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Lemma 2.42. Jeder gleichmaßig beste Konfidenzbereich besitzt auch die kleinste zu erwar-tende Große (aber nicht umgekehrt).

Beweis. ∫X

π(C(x))dPθ(x) =

∫X

∫Θ

IC(x)(θ′)dπ(θ

′)dPθ(x)

=

∫X

∫Θ

IC(x)(θ′)dPθ(x)dπ(θ

′) (Fubini)

=

∫Θ

Pθ({x : C(x) 3 θ′})︸ ︷︷ ︸kC(θ,θ′ )

dπ(θ′).

Fur jedes”wahre” θ gilt also∫

X

π(C(x))dPθ(x)

︸ ︷︷ ︸erwartete Große

=

∫Θ

kC(θ, θ′)dπ(θ

′)

︸ ︷︷ ︸erwarteter Wert der Kenn-

funktion des Konfidenzbereichs

.

2.3.2 Dualitat zwischen Konfidenzbereichen und Tests

Wir legen den oben beschriebenen Spezialfall τ(θ) = θ mit skalarem θ zugrunde.

Zu jedem festen θ betrachten wir einen Niveau-α-Test φθ(x) fur die Nullhypothese H0 = {θ}gegen die Alternative H1 = Θ\H0. Die Tests sollen nicht randomisiert sein, so dass sie durchdie Festlegung einer Prufgroße Tθ = Tθ(x) und eines kritischen Bereichs (Ablehnbereichs) Kθ

bestimmt werden:

φθ(x) =

{1 fur Tθ(x) ∈ Kθ,

0 sonst.

Die Nullhypothese”Der unbekannte Parameter hat den Wert θ” wird nach Beobachtung

von X = x genau dann nicht abgelehnt — durch die Beobachtung”bestatigt” — wenn

Tθ (x) ∈ Kθ = Annahmebereich des Tests φθ

gilt. Daher ist es naheliegend, als einen Konfidenzbereich nach der Beobachtung X = x denBereich

C(x) := {θ ∈ Θ : Tθ(x) ∈ Kθ}

zu definieren; dem entspricht vor der Beobachtung der zufallige Bereich

C(X) = {θ ∈ Θ : Tθ(X) ∈ Kθ}

bzw.C(X) = {θ ∈ Θ : φθ(X) = 0}

Eine Bestatigung dieser Vorgangsweise ist der folgende Satz.

55

Page 38: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Satz 2.43 (Korrespondenzsatz).

1. Ist {φθ} eine Menge von Tests φθ fur H0 = {θ} gegen H1 = Θ\{θ} zum Niveau α, soist C(X) := {θ ∈ Θ : φθ(X) = 0} ein Konfidenzbereich zum Vertrauensgrad γ = 1− α.

2. Ist {φθ} eine Menge gleichmaßig bester [unverfalschter] Tests, so ist auch C(X) eingleichmaßig bester [unverfalschter] Konfidenzbereich.

Beweis. Der Beweis zu 1. ergibt sich aus

Pθ(C(X) 3 θ) = Pθ(φθ(X) = 0) = 1− α fur alle θ ∈ Θ,

derjenige fur 2. aus der Beziehung

kC(θ, θ′) = Pθ(C(X) 3 θ′) = Pθ(φθ′ (X) = 0)

= 1− Pθ(φθ′ (X) = 1) = 1− gφθ′ (θ)

fur alle θ, θ′ ∈ Θ. Dabei bezeichnet gφ

θ′ die Gutefunktion des Tests φθ′ .

Der Korrespondenzsatz lasst sich verallgemeinern auf die Situation, in der man gegenuberbestimmten Fehlschatzungen besonders empfindlich ist; man hat dazu eine Testfamilie solcherTests zugrunde zu legen, die die entsprechenden Hypothesen testen, also nicht mehr Tests mitzweiseitiger Fragestellung. Daruber hinaus gilt der im Korrespondenzsatz enthaltene Zusam-menhang zwischen Tests und einem Konfidenzbereich auch dann, wenn randomisierte Testszugelassen werden, so dass man auf diese Weise zu einem randomisierten Konfidenzbereichkommt: C(x) ist die Menge aller θ, die bei der Beobachtung x von dem Test φθ (auch nachRandomisierung) nicht abgelehnt werden.

Auf diese Weise lasst sich die Theorie der Bereichsschatzungen auf die Testtheorie zuruck-fuhren bis auf das folgende Problem: Damit ein

”vernunftiger” Konfidenzbereich (vernunftig

im topologischen Sinn, also zum Beispiel ein Konfidenzintervall) aus der Testfamilie kon-struierbar ist, muss die Testfunktion φθ(x), besser noch die Prufgroße Tθ(x) als Funktion inθ (fur jedes feste θ)

”gutartig” sein (im Idealfall monoton in θ); außerdem darf die Vertei-

lung von Tθ(X) nicht von θ abhangen, zusammen bedeutet dies: Tθ(X) muss eine Pivotgroßesein, die auf

”einfache” (zum Beispiel monotone) Weise von θ abhangt: Gesucht sind einfach

strukturierte Pivotgroßen.

2.4 Multiples Testen

Literatur:

• Lehmann & Romano, Kapitel 9

• Dudoit, Shaffer & Boldrick (2003): Multiple Hypothesis Testing in Microarray Ex-periments, Statistical Science (18), Seiten 71-103

Problem: Eine endliche Menge von (Null-) Hypothesen H1, ...,Hm soll mit Hilfe eines Da-tensatzes simultan getestet werden.

56

Page 39: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Beispiele:

• Varianzanalyse: Vergleich mehrerer Behandlungsarten mit Kontrolle (zum BeispielPlacebo oder

”ubliche” Therapie). Ein simultaner Test der Form

H0 : θ1 = . . . = θm = 0 vs. Halter : wenigstens ein θj 6= 0

ist oft nicht ausreichend: Wenn H0 abgelehnt wird, mochte man wissen, welcheθj ’s signifikant von 0 verschieden sind. Hierzu konnen (simultan) die einzelnenHypothesen

Hj := H0j : θj = 0

fur j = 1, . . . ,m getestet werden. In der Regel ist m vergleichsweise klein; eskonnen

”klassische” multiple Testverfahren verwendet werden.

• Microarray-Experimente: Seien X1, . . . , Xm (normalisierte log-) Expressionen vonGenen 1, . . . ,m auf Microarrays, Xj

a∼ N(µj , σj) fur j = 1, . . . ,m und m vonder Großenordnung 1000 bis 10000. Es soll untersucht werden, welche Gene sig-nifikanten Einfluss auf einen Phanotyp, zum Beispiel eine bestimmte Krankheit,haben. In einem naiven Ansatz konnte dies wie oben durch simultane Tests unter-sucht werden. Wenn m und die Anzahl m0 richtiger Hypothesen jedoch groß ist,werden mit hoher Wahrscheinlichkeit eine oder mehr Hypothesen falschlicherweiseabgelehnt. Fur unabhangige Teststatistiken T1, . . . , Tm gilt zum Beispiel folgendeTabelle.

m 1 2 5 10 50

P(mindestens eine falsche Ablehnung) 0.05 0.10 0.23 0.40 0.92

Es werden”neue” multiple Testverfahren gesucht, um Fehlerraten zu kontrollieren.

2.4.1 Fehlerraten

Die Situation bei m vorgegebenen Hypothesen kann wie folgt beschrieben werden:

Anzahl nicht abge-lehnter Nullhypothesen

Anzahl abge-lehnter Nullhypothesen

Anzahl richtigerNullhypothesen U V m0Anzahl falscherNullhypothesen T S m1

m−R R

Dabei sind

• m0 die (unbekannte) Anzahl richtiger Nullhypothesen,

• m1 = m−m0 die (unbekannte) Anzahl falscher Nullhypothesen,

• R eine beobachtbare Zufallsvariable,

• S, T, U, V unbeobachtbare Zufallsvariablen (ruft nach Bayes!).

57

Page 40: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

In der Microarray-Analyse bedeutet das Ablehnen von Hj , dass das Gen j”differentiell ex-

primiert” ist.

Idealerweise: Minimiere

• Anzahl V von Fehlern 1. Art (falsch positiv),

• Anzahl T von Fehlern 2. Art (falsch negativ).

Klassische Testtheorie (m = 1):

P(Fehler 1. Art) ≤ α

P(Fehler 2. Art) → min

Verschiedene Verallgemeinerungen zur Kontrolle der Fehlerraten sind bei multiplem Testenmoglich.

Fehlerraten 1. Art (type I error rates)

• PCER (per-comparison error rate):

PCER =E(V )

m

Das ist die relative Anzahl erwarteter Fehler 1. Art.

• PFER (per-family error rate):PFER = E(V )

Das ist die absolute Anzahl erwarteter Fehler 1. Art.

• FWER (family-wise error rate):

FWER = P(V ≥ 1)

Das ist die Wahrscheinlichkeit fur mindestens einen Fehler 1. Art.

• FDR (false discovery rate; Benjamini & Hochberg, 1995):

FDR = E(Q) mit Q =

{VR fur R > 0,

0 fur R = 0.

Das ist die erwartete relative Haufigkeit von Fehlern 1. Art unter den R abgelehntenHypothesen.

Starke und schwache Kontrolle

Typischerweise gilt: Fur eine unbekannte Teilmenge

Λ0 ⊆ {1, . . . ,m}

58

Page 41: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

sind die Hypothesen Hj , j ∈ Λ0, richtig, fur den Rest falsch. Starke Kontrolle liegt vor, wenneine Fehlerrate fur jede Teilmenge Λ0 nach oben durch α beschrankt wird, zum Beispiel

FWER ≤ α

gilt. Schwache Kontrolle liegt vor, wenn alle Nullhypothesen richtig sind.

Klassische Ansatze (zum Beispiel Bonferroni- und Holm-Prozedur, siehe folgender Abschnitt)kontrollieren stark. Der FDR-Ansatz von Benjamini und Hochberg kontrolliert die FDRschwach und ist (deshalb) weniger konservativ.

2.4.2 Multiple Testprozeduren

Bonferroni-Prozedur

Lehne fur j = 1, . . . ,m die Hypothesen Hj ab, falls fur den p-Wert gilt: pj ≤ αm . Es gilt:

FWER ≤ α stark,

d.h.

P

V ≥ 1∣∣∣ ⋂j∈Λ0

Hj

≤ α.Nachteil: Das Niveau α/m der individuellen Tests wird bei großem m und ublichem α ex-trem klein. Bei Microarrays bleiben relevante Gene deshalb mit hoher Wahrscheinlichkeitunentdeckt.

Holm-Prozedur

Ordne die p-Werte pj , j = 1, . . . ,m, der individuellen Tests H1, . . . ,Hm der Große nach an.Dann ist

p(1) ≤ . . . ≤ p(m)

mit den entsprechend sortierten Hypothesen H(1), . . . ,H(m). Als nachstes erfolgt schrittweisefolgende Prozedur:

Schritt 1. Falls p(1) ≥ αm , akzeptiere H1, . . . ,Hm.

Falls p(1) <αm , lehne H(1) ab und teste die verbleibenden m− 1 Hypothesen zum

Niveau αm−1 .

Schritt 2. Falls p(1) <αm , aber p(2) ≥ α

m−1 , akzeptiere H(2), . . . ,H(m) und stoppe.

Falls p(1) < αm und p(2) < α

m−1 , lehne nach H(1) auch H(2) ab und teste dieverbleibenden m− 2 Hypothesen zum Niveau α

m−2 .

Schritt 3. usw.

59

Page 42: Klassische Sch atz- und Testtheoriesemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap02.pdf · 3. T(x) = P n i=1 x i; n i=1 x 2 i ist minimalsu zient fur und ˙2.

Es gilt:FWER ≤ α stark.

Die Holm-Prozedur ist eine spezielle Form folgender Step-Down-Prozeduren:

Step-Down-Prozeduren

Allgemeine Struktur: Seiα1 ≤ α2 ≤ . . . ≤ αm.

Falls p(1) ≥ α1, akzeptiere alle Hypothesen. Sonst lehne fur r = 1, . . . , s die HypothesenH(1), . . . ,H(r) ab, falls

p1 < α1, . . . , pr < αr.

Eine Alternative sind:

Step-Up-Prozeduren

Falls p(m) < αm, verwerfe alle Hypothesen. Sonst lehne fur r = 1, . . . , s die HypothesenH(1), . . . ,H(r) ab, falls

p(s) ≥ αs, . . . , p(r+1) ≥ αr+1,

aber p(r) < αr.

Bemerkung.

• Aussagen uber starke Kontrolle finden sich zum Beispiel in Lehmann & Romano.

• Fur m ∼ 100, 1000 und großer: Immer noch Ablehnung fast aller Hypothesen. Benjamini& Hochberg (1995) raten, die false discovery rate FDR zu kontrollieren. Untersuchungder Eigenschaften ist Gegensatz aktueller Forschung.

• Die diversen Prozeduren lassen sich teils gunstig mit Hilfe von adjustierten p-Werten pjformulieren, siehe Dudoit, Shaffer & Boldrick (2003).

• Resampling Methoden (Bootstrap, Permutationen, ...) sind notwendig, um (adjustierte)p-Werte zu berechnen.

• Software: R-Package multtest, www.bioconductor.org.

60