3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen...

62
3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der Cram´ er-Rao-Ungleichung das Gleichheitszeichen gelten muss. Dazu betrachten wir die Situation aus Satz 2.38 (d.h. Θ R) und nehmen an, dass die Regularit¨ atsvorausstzungen erf¨ ullt sind. Grundlegend f¨ ur den Beweis der Information- sungleichung von Cram´ er-Rao ist die Cauchy-Schwarz-Ungleichung Cov θ (T (X ), ∂θ log f θ (X ) 2 Var θ (T (X )) Var θ ∂θ log f θ (X ) . In dieser gilt das Gleichheitszeichen, falls f¨ ur jedes θ Θ Konstanten a 1 (θ),a 2 (θ) ex- istieren, f¨ ur die gilt P θ ∂θ log f θ (X )= a 1 (θ)T (X )+ a 2 (θ) =1. Die Integration bez¨ uglich θ liefert P θ f θ (X ) = exp{c(θ)T (X )+ d(θ)+ S (X )} =1, wobei c und d die Stammfunktionen von a 1 und a 2 bezeichnen und S (X ) eine weitere Zufallsvariable ist (die nicht von θ abh¨ angt). Definition 3.1: Eine Familie von Verteilungen P = {f θ | θ Θ} auf X heißt k-parametrige exponentielle Familie, falls die Lebesgue- bzw. ahldichten von P in der Form f θ (x)= c(θ)h(x) exp k j =1 Q j (θ)T j (x) I A (x) geschrieben werden k¨ onnen, wobei die Menge A ⊂X unabh¨ angig von θ ist [man beachte, dass f¨ ur k k eine k-parametrige exponentielle Familie auch immer eine k -parametrige exponentielle Familie ist und wir implizit von dem kleinstm¨ oglichen k mit der obigen Darstellung sprechen]. Beispiele 3.2: (1) (Binomialverteilung) Es sei X Bin(n, θ) mit θ (0, 1). Dann gilt f¨ ur x {0,...,n} f θ (x)= n x θ x (1 - θ) n-x = (1 - θ) n n x exp x log θ 1 - θ 1

Transcript of 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen...

Page 1: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

3 Exponentielle Familien

In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, beidenen u.a. in der Cramer-Rao-Ungleichung das Gleichheitszeichen gelten muss. Dazubetrachten wir die Situation aus Satz 2.38 (d.h. Θ ⊂ R) und nehmen an, dass dieRegularitatsvorausstzungen erfullt sind. Grundlegend fur den Beweis der Information-sungleichung von Cramer-Rao ist die Cauchy-Schwarz-Ungleichung{

Covθ(T (X),∂

∂θlog fθ(X)

}2

≤ Varθ(T (X)) Varθ

( ∂∂θ

log fθ(X)).

In dieser gilt das Gleichheitszeichen, falls fur jedes θ ∈ Θ Konstanten a1(θ), a2(θ) ex-istieren, fur die gilt

( ∂∂θ

log fθ(X) = a1(θ)T (X) + a2(θ))

= 1.

Die Integration bezuglich θ liefert

(fθ(X) = exp{c(θ)T (X) + d(θ) + S(X)}

)= 1,

wobei c und d die Stammfunktionen von a1 und a2 bezeichnen und S(X) eine weitereZufallsvariable ist (die nicht von θ abhangt).

Definition 3.1: Eine Familie von Verteilungen

P = {fθ | θ ∈ Θ}

auf X heißt k-parametrige exponentielle Familie, falls die Lebesgue- bzw. Zahldichtenvon P in der Form

fθ(x) = c(θ)h(x) exp( k∑

j=1

Qj(θ)Tj(x))IA(x)

geschrieben werden konnen, wobei die Menge A ⊂ X unabhangig von θ ist [man beachte,dass fur k′ ≥ k eine k-parametrige exponentielle Familie auch immer eine k′-parametrigeexponentielle Familie ist und wir implizit von dem kleinstmoglichen k mit der obigenDarstellung sprechen].

Beispiele 3.2:

(1) (Binomialverteilung) Es sei X ∼ Bin(n, θ) mit θ ∈ (0, 1). Dann gilt fur x ∈{0, . . . , n}

fθ(x) =

(n

x

)θx(1− θ)n−x = (1− θ)n

(n

x

)exp{x log

θ

1− θ

}1

Page 2: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

und die VerteilungsfamilieP = {fθ | θ ∈ (0, 1)]

bildet eine einparametrige exponentielle Familie mit

h(x) =

(n

x

), c(θ) = (1− θ)n,

Q1(θ) = log(θ/(1− θ))

undT1(x) = x.

(2) (Normalverteilung) Es sei X ∼ N1(µ, σ2) mit θ = (µ, σ2) ∈ R × R+, dann gilt fur

die Lebesgue-Dichte von X

fθ(x) =1√

2πσ2exp[−(x− µ)2

2σ2

]=

1√2πσ2

exp(− µ2

2σ2

)exp[− x2

2σ2+

µ

σ2x]

und die Familie von Verteilungen

P = {fθ : R → R+ | θ = (µ, σ2) ∈ R× R+}

bildet eine zweiparametrige exponentielle Familie mit

Q1(θ) = µσ2 ; T1(x) = x

Q2(θ) = − 12σ2 ; T2(x) = x2.

(3) (Poissonverteilung) X ∼ Po(λ) mit λ > 0, dann gilt fur die Zahldichte von X

fθ(x) =λxe−λ

x!IN0(x) = e−λ 1

x!exp(x log λ)IN0(x)

und es liegt eine einparametrige exponentielle Familie vor mit

c(λ) := e−λ;h(x) = 1/x!, T1(x) = x

undQ1(λ) = log λ.

Bemerkungen 3.3:

2

Page 3: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(1) Es sei P = {f (1)θ | θ ∈ Θ} eine k-parametrige exponentielle Familie mit Statistiken

T1, . . . , Tk und fur x = (x1, . . . , xn) sei

fθ(x) =n∏

j=1

f(1)θ (xj)

eine Dichte auf X n (man beachte, dass fθ die gemeinsame Dichte von n Zufallsvari-

ablen X1, . . . , Xn i.i.d. ∼ f(1)θ ist).

Dann ist P⊗ = {fθ | θ ∈ Θ} ebenfalls eine k-parametrige exponentielle Familie mitden Statistiken

n∑j=1

T1(xj), . . . ,n∑

j=1

Tk(xj).

(2) Aus dem Faktorisierungskriterium von Neyman [Satz 2.5] folgt unmittelbar, dass ineiner k-parametrigen exponentiellen Familie die Statistik T = (T1, . . . , Tk) suffizientfur den Parameter θ ist.

Beispiel 3.4: Es seien X1, . . . , Xn i.i.d. ∼ N1(µ, σ2), dann bilden nach Beispiel 3.2 und

Bemerkung 3.3(1) die gemeinsamen Verteilungen des Vektors X = (X1, . . . , Xn)T eine2-parametrige exponentielle Familie mit Statistiken

T (x) =

(T1(x)

T2(x)

)=

( ∑nj=1 xj∑nj=1 x

2j

).

Nach Bemerkung 3.3 (2) ist die Statistik T suffizient fur den Parameter θ = (µ, σ2).

Bemerkung 3.5: Man beachte, dass in der Definition der exponentiellen Familie die Kon-stante c(θ) ,,nur“ ein Normierungsfaktor ist, der von θ nur uberQ(θ) = (Q1, (θ), . . . , Qk(θ))

T

abhangt. So erhalt man z.B. im stetigen Fall aus der Bedingung

1 =

∫Xfθ(x)dx = c(θ) ·

∫A

exp( n∑

j=1

Qj(θ)Tj(x))dx

die Darstellung

c(θ) ={∫

A

exp( n∑

j=1

Qj(θ)Tj(x))dx}−1

,

und ein analoges Resultat gilt fur diskrete Verteilungen, indem man die Integration durchSummation ersetzt.

Durch das Einfuhren neuer Koordinaten

ξ = Q(θ) = (Q1(θ), . . . , Qk(θ))

3

Page 4: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

erhalt man dann eine Darstellung der Form

fξ(x) = c(ξ)h(x) exp( k∑

j=1

ξjTj(x))IA(x)

fur die Dichte fθ, wobei die Konstante durch die Bedingung c(ξ) = 1/k(ξ) mit

k(ξ) =

Ah(x) exp

(∑kj=1 ξjTj(x)

)dx falls fθ Lebesgue-Dichte

∑x∈A h(x) exp

(∑kj=1 ξjTj(x)

)falls fθ Zahl-Dichte .

definiert ist (man beachte, dass k(ξ) auch unendlich sein kann!).Der Parameter ξ ∈ Z := Q(Θ) heißt naturlicher Parameter und die Menge

Z∗ = {ξ ∈ Rk | k(ξ) <∞}

heißt naturlicher Parameterbereich der exponentiellen Familie (man beachte, dass

Z = Q(Θ)⊂6=Z∗

gelten kann).

Beispiel 3.6: (Fortsetzung von Beispiel 3.2)

(1) Es sei X ∼ Bin(n, θ) mit θ ∈ (0, 1), dann ist

ξ = Q1(θ) = logθ

1− θ

der naturliche Parameter, Z = Q1(Θ) = R,

k(ξ) =n∑

x=0

(n

x

)exp(ξx) = (eξ + 1)n

und damit ist Z∗ = Z = R der naturliche Parameterraum Mit diesen neuen Koor-dinaten kann die Zahldichte der Bionomialverteilung als

fξ(x) = c(ξ)

(n

x

)eξxI{0,...,n}(x)

dargestellt werden wobei c(ξ) = 1/k(ξ) die entsprechende Normierungskonstantedarstellt.

(2) Es sei X ∼ N1(µ, σ2), θ = (µ, σ2) ∈ R× R+, dann ist

ξ = (ξ1, ξ2) =( µσ2,− 1

σ2

)4

Page 5: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

der naturliche Parameter und damit Z = R × R−. Fur die Dichte erhalten wir dieDarstellung

fξ(x) = c(ξ) exp(ξ1x+ ξ2x2),

wobei c(ξ) = 1/k(ξ) ist mit

k(ξ) =

∫R

exp(ξ1x+ ξ2x2)dx.

Da fur ξ2 < 0 die Ungleichung k(ξ) <∞ gilt, erhalten wir als naturlichen Parame-terbereich Z∗ = Z = R× R−.

(3) Fur die Poissonverteilung X ∼ P0(λ) erhalt man fur den naturlichen Parameterξ = log λ und fur den naturlichen Parameterraum Z∗ = Z = R.

Ubung 3.7: Man zeige, dass mit den Bezeichnungen aus 3.5 gilt: Z∗ ist konvex und Z∗

hat nichtleeres Inneres.

Satz 3.9: Es sei P = {fξ | ξ ∈ Z} eine k-parametrige exponentielle Familie mitnaturlicher Parametrisierung und Lebesgue- oder Zahldichten

fξ(x) = c(ξ)h(x) exp{ k∑

j=1

ξjTj(x)}IA(x),

ϕ : X → R eine (messbare und) beschrankte Funktion und Z∗∗ ⊂ Z∗ eine offene Menge,so dass fur alle ξ ∈ Z∗∗ mit X ∼ fξ der Erwartungswert Eξ[ϕ(X)] existiert. Dann ist dieFunktion

β :

{Z∗∗ → Rξ → Eξ

[ϕ(X)c(ξ)

]=∫

Aϕ(x)h(x) exp

{∑kj=1 ξjTj(x)

}dx

beliebig oft differenzierbar und es gilt:

(∗)( ∂

∂ξ1

)`1. . .( ∂

∂ξk

)`k

β(ξ) = Eξ

[ϕ(x)

c(ξ)T `1

1 (X) . . . T `kk (X)

].

Man beachte, dass im stetigen Fall die Gleichung (∗) aquivalent zu der Darstellung

( ∂

∂ξ1

)`1. . .( ∂

∂ξk

)`k∫

A

h(x)ϕ(x) exp( k∑

j=1

ξjTj(x))dx

=

∫A

h(x)ϕ(x)T `11 (x) . . . T `k

k (x) exp( k∑

j=1

ξjTj(x))dx

5

Page 6: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

und bedeutet, dass Differentiation und Integration vertauscht werden durfen. Eine ent-sprechende Deutung erhalten wir im diskreten Fall, wobei die Integration durch Summa-tion ersetzt werden muss.

Ubung 3.10: Es sei P = {fξ | ξ ∈ Z} eine einparametrige exponentielle Familie mitnaturlicher Parametrisierung und Dichten

fξ(x) = c(ξ)h(x) exp(ξT1(x)).

Man zeige fur die Zufallsvariablen X ∼ fξ

Eξ[T (X)] = −(log c(ξ))′

Varξ(T (X)) = −(log c(ξ))′′.

Bestimmen Sie die Fisher-Information von P bzgl. ξ. Nimmt T (X) die untere Schranke derCramer-Rao-Ungleichung an? Man formuliere und beweise ein entsprechendes Ergebnisfur k-parametrige exponentielle Familien.

Beispiel 3.11: (Fortsetzung von Beispiel 3.6)

(1) Falls X ∼ Bin(n, θ), dann ist T1(X) = X, ξ = log θ1−θ

, c(ξ) = (1 + eξ)−n und wirerhalten

−(log c(ξ))′ = neξ

1 + eξ= nθ

−(log c(ξ))′′ = neξ

(1 + eξ)2= nθ(1− θ).

(2) Fall X ∼ P0(λ), dann ist ξ = log λ, c(ξ) = e−eξ, T (X) = X und wir erhalten

−(log c(ξ))′ = eξ = λ

−(log c(ξ))′′ = eξ = λ.

Satz 3.12: Es sei P = {fθ | θ ∈ Θ} eine k-parametrige exponentielle Familie mit Dichten

fθ(x) = c(ξ) exp( k∑

j=1

Qj(θ)Tj(x))h(x)IA(x)

und das Innere von Z = Q(Θ) sei nicht leer, dann ist die Statistik T = (T1, . . . , Tk)vollstandig fur θ.

6

Page 7: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Ubung 3.13: Es sei P = {fθ | θ ∈ Θ} und T : X → τ eine suffiziente und vollstandigeStatistik fur den Parameter θ. Ist h : τ → τ bijektiv, so ist auch die Statistik T = h◦T suf-fizient und vollstandig fur θ. [Man beachte, dass eine mathematisch exakte Formulierungeine zugehorige Bedingung an die zugehorigen σ-Algebren benotigt (vgl. Witting, S. 354)].

Beispiele 3.14: Bei Vorliegen einer exponentiellen Familie erhalten wir UMVU-Schatzerdirekt mit dem Satz von Lehmann Scheffe.

(1) Es sei X ∼ Bin(n, θ), dann ist T1(X) = X suffizient und vollstandig fur θ (vgl.Beispiel 3.2) und nach 3.10(1) Eθ[X/n] = θ. Damit ist

T ∗(X) = Eθ

[Xn| T1(X)

]=X

n

UMVU-Schatzer fur θ.

(2) Es seien X1, . . . , Xn i.i.d. ∼ N1(µ, σ2). Nach Beispiel 3.4 und Satz 3.12 ist

T (X) =n∑

i=1

(Xi

X2i

)suffizient und vollstandig fur den Parameter θ = (µ, σ2). Die Ubung 3.13 zeigt, dassauch die Statistik

T (X) =

( ∑ni=1Xi∑ni=1(Xi − Xn)2

)

suffizient und vollstandig fur den Parameter (µ, σ2) ist. Nach Beispiel 2.27 ist

(Xn, S2n)T = (Xn,

1

n− 1

n∑i=1

(Xi − Xn)2)T

erwartungstreu fur (µ, σ2) und somit die Komponenten von

T ∗(X) = E[(Xn

S2n

)| T (X)

]=

(Xn

S2n

)UMVU-Schatzer fur die jeweiligen Parameter µ und σ2.

Beispiel 3.15: (zweifaktorielle Kontingenztafeln) Es sollen Objekte (z.B. Schuler)mit zwei Merkmalen (z.B. Geschlecht und Note in Mathematik) untersucht werden. VonInteresse sind hier die Wahrscheinlichkeiten fur eine bestimmte Merkmalskombination(z.B. ein mannlicher Schuler hat eine 2). Die Merkmale werden auch oft Faktoren genanntund mit A und B bezeichnet. Die verschiedenen Moglichkeiten fur ein Merkmal heißenStufen , wobei der Faktor A die r ≥ 2 Stufen A1, . . . , Ar und der Faktor die s ≥ 2 Stufen

7

Page 8: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

B1, . . . , Br haben soll (z.B. hat der Faktor Geschlecht 2 Stufen und der Faktor Note 6Stufen). Die mathematische Modellierung dieses Experiments erfolgt durch Zufallsvari-able Y1, . . . , Yn mit

Yk ∼ (X11k, X12k, . . . , Xrsk)T ∼ M(1, p11, . . . , prs),

wobei die Wahrscheinlichkeiten pij fur die Faktorkombination (Ai, Bj) (i = 1, . . . , r; j =1, . . . , s) positiv sind und

r∑i=1

s∑j=1

pij = 1

gilt. Man beachte, dass Yk ein Vektor ist, in dem genau an einer Stelle eine 1 und sonstNullen stehen. Ist Xijk die entsprechende Komponente mit der 1, so bedeutet das, dass beiYk fur den Faktor A die Stufe i und fur den Faktor B die Stufe j auftritt. Wir definieren

Xij =n∑

k=1

Xijk

als die Anzahl der Objekte in der Stichprobe mit der Faktorkombination (Ai, Bj) furFaktor A und Faktor B und erhalten nach Definition der Multinomialverteilung

Y =n∑

k=1

Yk = (X11, . . . , Xrs)T ∼ M(n, p11, . . . , prs).

Als Messwertschema ergibt sich dann die folgende r × s Kontingenztafel

A \B B1 B2 . . . Bs

A1 X11 X12 . . . X1s X1·

A2 X21 X22 . . . X2s X2·...

......

......

Ar Xr1 Xrs . . . Xrs Xr·

X·1 X·2 . . . X·s n

wobei

Xi· =s∑

j=1

Xij; X·j =r∑

i=1

Xij

die Zeilen- bzw. Spaltensummen in dieser Tafel bezeichnet. Aus Beispiel 1.5 erkenntman, dass die Multinomialverteilungen mit (Zahl-)Dichten [θ = (p11, . . . , pr,s−1); prs =1−

∑ri=1

∑s−1j=1 pij]

fθ(x) =n!

x11! . . . xrs!

r∏i=1

s∏j=1

pxij

ij I{xij ∈ {0, . . . , n},

∑i,j

xij = n}

8

Page 9: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

eine rs− 1 parametrige exponentielle Familie bilden und daher die Statistik

Y = (X11, X12, . . . , Xr,s−1)T

vollstandige und suffiziente Statistik fur θ is [vgl. Satz 3.12]. Man beachte, dass wegender Beziehung

Xrs =r∑

i=1

s−1∑j=1

Xij

die letzte Koordinate von Y durch Y bestimmt ist und eine entsprechende Aussage furdie zugehorige Wahrscheinlichkeit prs gilt. Wegen

E[Xij

n

]= pij i = 1, . . . , r; j = 1, . . . , s

ist nach dem Satz von Lehmann-Scheffe fur i = 1, . . . , r; j = 1, . . . , s

pij =Xij

n

ein UMVU-Schatzer fur den Parameter pij. Man beachte, dass man die Zellhaufigkeitenals Schatzer benutzt, und diese Statistiken auch sofort durch ein heuristisches Argumentgewonnen werden konnen. Die obige Argumentation weist aber gleichzeitig die Opti-malitat dieser Schatzungen nach.

Beispiel 3.16: Wir nehmen zusatzlich in Beispiel 3.15 an, dass die Faktoren A und Bunabhangig sind (z.B. dass das Geschlecht und die Noten im Unterricht unabhangig sind),d.h. es gilt

pij = P (Ai ∩Bj) = P (Ai)P (Bj) = pi·p·j

mit

pi· =s∑

j=1

pij; p·j =r∑

i=1

pij (i = 1, . . . , r; j = 1, . . . , s).

Fur die Dichten erhalt man dann

fθ(x) =n!

x11! . . . xrs!

r∏i=1

s∏j=1

(pi·p·j)xijI{xij ∈

{0, . . . , n},

∑i,j

xij = n}

=n!

x11! . . . xrs!

r∏i=1

pxi·i·

s∏j=1

px·j·j I{xij ∈ {0, . . . , n};

∑ij

xij = n}

und es liegt eine r+s−2 parametrige exponentielle Familie vor (man beachte die Nebenbe-dingungen

∑ri=1 pi· =

∑sj=1 p·j = 1) mit suffizienter und vollstandiger Statistik

(X1·, . . . , Xr−1,·, X·1, . . . , X·,s−1)T

9

Page 10: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(man beachte, dass die Zufallsvariablen X·s und Xr· durch die Relation

X·s = n−r−1∑j=1

X·j; Xr· = n−r−1∑i=1

Xi·

bestimmt sind. Unter der obigen Annahme der Unabhangigkeit erhalt man dann

pij =Xi·X·j

n2i = 1, . . . , r; j = 1, . . . , s

als UMVU-Schatzer fur die Wahrscheinlichkeiten pij = pi·p·j.

4 Asymptotische Eigenschaften von Schatzern

In diesem Abschnitt sei X = (X1, . . . , Xn)T eine Zufallsvariable mit mit Werten in Dn

und Dichte fθ, wobei der Parameter θ [oder allgemeiner ein Funktional γ(θ)] aus denDaten geschatzt werden soll. Eine Minimalvoraussetzung fur eine sinnvolle Schatzmethodeist, dass bei wachsendem Stichprobenumfang die Genauigkeit der Schatzungen verbessertwerden sollte.

Definition 4.1: Es γ : Θ → Γ ⊂ R` ein Funktional. Ein Schatzer Tn : Xn → Γ heißtkonstent fur γ(θ), genau dann, wenn fur alle θ ∈ Θ und fur alle ε > 0 gilt

(∗) limn→∞

Pθ(‖Tn(X)− γ(θ)‖ > ε) = 0.

Dabei bezeichnet ‖ · ‖ eine beliebige Norm auf R`. Schreibweise:

Tn(X)Pθ−→ γ(θ)

bzw.Tn

Pθ−→ γ(θ) ∀ θ ∈ Θ,

man sagt auch die Zufallsvariable Tn(X) konvergiert stochastisch gegen den Parameter γ(θ).Der Schatzer Tn heißt asymptotisch erwartungstreu fur den Parameter γ(θ), falls fur alleθ ∈ Θ gilt

limn→∞

Eθ[Tn(X)] = γ(θ)

(naturlich setzen wir in diesem Fall die Existenz des Erwartungswerts voraus).

Bemerkung 4.2:

(1) Anschaulich bedeutet die Gleichung (∗), dass bei großem Stichprobenumfang derSchatzer Tn(X) mit großer Wahrscheinlichkeit nahe bei dem unbekannten Parameterγ(θ) liegt. Diese Aussage ist naturlich nicht besonders prazise, da keine Aussageuber die Konvergenzgeschwindigkeit gemacht wird.

10

Page 11: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(2) Eine typische Methode zum Nachweis der Konsistenz im Fall ` = 1 ist die Markov-Un-gleichung, nach der fur jede reellwertige Zufallsvariable Z und jede konvexe Funktionϕ : R0 → R0 gilt

P (|Z| > ε) ≤ E[ϕ(Z)]

ϕ(ε).

Fur die spezielle Wahl Z = Tn(X)− γ(θ) (P = Pθ) erhalt man dann

Pθ(|Tn(X)− γ(θ)| > ε) ≤ Eθ[ϕ(|Tn(X)− γ(θ)|)]ϕ(ε)

,

wobei ϕ : R+0 → R+

0 eine beliebige konvexe Funktion ist (oft wird ϕ(X) = |x|kbenutzt). Man beachte, dass diese Ungleichung fur ϕ(x) = x2 und erwartungstreueSchatzer fur den Parameter γ(θ) die Chebyshev-Ungleichung ergibt:

Pθ(|Tn(X)− γ(θ)| > ε) ≤ Varθ(Tn(X))

ε2.

(3) Der Begriff der Konsistenz kann immer dann definiert werden, sobald ein Abstands-maß auf dem interessierenden Parameterbereich Γ erklart ist. In Definition 4.1 istΓ Teilmenge eines normierten linearen Raums. Man konnte aber auch allgemeinerTeilmengen metrischer Raume betrachten (siehe Vorlesung statistik II).

Beispiele 4.3:

(1) Es seien X1, . . . , Xn i.i.d. ∼ N1(µ, σ2), dann ist Xn konsistenter Schatzer fur den

Parameter µ und

σ2n =

1

n

n∑i=1

(Xi − Xn)2; S2n =

1

n− 1

n∑i=1

(Xi − Xn)2

sind konsistente Schatzer fur den Parameter σ2. Dabei ist S2n erwartungstreu fur σ2

und σ2n asymptotisch erwartungstreu fur σ2 (vgl. Beispiel 2.27).

(2) Es seien X1, . . . , Xn i.i.d. ∼ M(1, θ1, . . . , θs) θ1, . . . , θs > 0,∑s

i=1, θi = 1), dann istder Schatzer

Tn(X) =1

n

n∑i=1

Xi

erwartungstreuer und konsistenter Schatzer fur θ = (θ1, . . . , θs)T .

Ubung 4.4: Man zeige:

11

Page 12: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(1) Fur i = 1, . . . , ` sei Tni : X → R Schatzer fur den Parameter γi(θ), dann gilt: DerSchatzer

Tn(X) = (Tn1(X), . . . , Tn`(X))T

ist genau dann konsistent fur den Parameter γ(θ) = (γ1(θ), . . . , γ`(θ))T falls jede

Komponente Tni(X) konsistent fur γi(θ) ist (i = 1, . . . , `).

(2) Es sei Tn(X) ein konsistenter Schatzer fur γ(θ) und g : Γ → Γ ⊂ R˜eine stetige

Funktion, dann ist auch g(Tn(X)) konsistenter Schatzer fur g(γ(θ)).

Bemerkung 4.5: Die mit dem Schatzprinzip der Momentenmethode erhaltenen Schatzer(vgl. Bemerkung 2.13) sind konsistent. Genauer sind X1, . . . , Xn i.i.d. ∼ fθ;

mj(θ) = Eθ[Xji ] (j = 1, . . . , k)

und existiert fur das interessierende Funktional des Parameters eine Darstellung der Form

γ(θ) = g(m1(θ), . . . ,mk(θ))

mit einer stetigen Funktion g : Rk → R`, dann ist im Fall der Existenz der MomenteE[X2k

i ] der Schatzer

Tn(X) = g( 1

n

n∑i=1

Xi, . . . ,1

n

n∑i=1

Xki

)konsistent fur den Parameter γ(θ).

Im Folgenden wollen wir ein entsprechendes Resultat fur die Maximum-Likelihood-Schatzungherleiten. Die Schwierigkeit ist hier, dass im allgemeinen Fall weder die Existenz nochEindeutigkeit der Losung der Maximum-Likelihood-Gleichungen gewahrleistet ist, da eineexplizite Auflosung der Gleichung

∂θlog f(x, θ) = 0

nur in den seltensten Fallen moglich ist. Wir betrachten hier nur den Fall von unabhangigidentisch verteilten Beobachtungen und verweisen fur ein allgemeineres Resultat auf dasLehrbuch von Pruscha.

Satz 4.6: Es seien X1, . . . , Xn i.i.d. ∼ f(1)θ ; θ ∈ Θ; Θ ⊂ Rk offen und es seien die

Annahmen (i) – (iii) aus Bemerkung 2.42 erfullt. Gilt zusatzlich, dass fur jedes x ∈ Mf

die Funktionθ → log f

(1)θ (x)

zweimal stetig differenzierbar ist und fur i, j = 1, . . . , k die stochastische Konvergenz

1

n

n∑`=1

∂2

∂θi∂θj

log f(1)θ∗n

(X`)Pθ−→ −Eθ

[ ∂∂θi

log f(1)θ (X`)

∂θj

log f(1)θ (X`)

]=: −(iθ)ij

12

Page 13: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

fur jeden Schatzer θ∗n mit der Eigenschaft θ∗nPθ−→ θ; dann gilt mit einer Pθ-Wahrscheinlichkeit,

die gegen 1 konvergiert:

(1) Es existiert eine Losung θn = θn(X) der Maximum-Likelihood-Gleichungen

∂θlog fθ(X) =

n∑j=1

∂θlog f

(1)θ (Xj) = 0

Man beachte, dass fur die Dichte von fθ von X = (X1, . . . , Xn)T gilt

fθ(X) =n∏

j=1

f(1)θ (Xj).

(2) Im Punkt θn nimmt die Funktion log fθ(X) (als Funktion von θ) ein lokales Maxi-mum an und θn(X) is konsistenter Schatzer fur den Parameter θ.

Bemerkung 4.7:

(1) Wie bei der Cramer-Rao-Ungleichung werden diese Voraussetzungen bei der konkretenAnwendung der Maximum-Likelihood-Methode nur selten uberpruft. Der Satz4.6 zeigt aber, dass unter Regularitatsvoraussetzungen die ML-Schatzung als uni-verselles Schatzprinzip konsistent ist.

(2) Man beachte, dass unter der Annahme der Vertauschbarkeit von Differentiation undIntegration gilt (Ubung)

[ ∂2

∂θi∂θj

log f(1)θ (X1)

]= −Eθ

[ ∂∂θi

log f(1)θ (X1)

∂θlog f

(1)θ (X1)

]und daher die Voraussetzung (∗) aus Stetigkeitsgrunden wegen des schwachen Geset-zes der großen Zahlen in vielen Fallen erfullt ist.

Bemerkung: Der Beweis des hoherdimensionalen Falls unterscheidet sich nur dadurch,dass man fur den Nachweis der Existenz der Nullstelle von g den Fixpunktsatz vonBrouwer verwendet.

Beispiel 4.8: (ML-Schatzung bei Gamma-Verteilung) Es seien X1, . . . , Xn un-abhangig identisch verteilte Zufallsvariable mit der Dichte

f(1)θ (x1) =

λα

Γ(α)xα−1

1 e−λx1I(0,∞)(x1)

13

Page 14: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

θ = (λ, α)T ∈ (0,∞)2. Die Verteilung der Zufallsvariablen Xi heißt Gamma-Verteilungmit Parametern (λ, α); als Schreibweise verwenden wir: X1, . . . , Xn i.i.d. ∼ Γ(λ, α).Um die ML-Gleichungen aufzustellen, bestimmen wir die gemeinsame Dichte von X =(X1, . . . , Xn) und erhalten mit x = (x1, . . . , xn)T

fθ(x) =λnα

(Γ(α))n

n∏i=1

xα−1i e−λ

Pni=1 xiI(0,∞)

( n

mini=1

xi

).

Differenzieren bzgl. (λ, α)T liefert die Maximum-Likelihood-Gleichungen

∂λlog fθ(x) =

λ−

n∑i=1

xi = 0,

∂αlog fθ(x) = n log λ+

n∑i=1

log xi −nΓ′(α)

Γ(α)= 0,

und wir erhalten die Maximum-Likelihood-Schatzungen (λ, α) als Losung des (nichtlin-earen) Gleichungssystems

λ =( 1

n∑i=1

Xi

)−1

Γ′(α)

Γ(α)− log λ =

1

n

n∑i=1

Xi.

Satz 4.6 besagt, dass mit einer Wahrscheinlichkeit, die fur n→∞ gegen 1 konvergiert, einekonsistente Losung dieser Gleichungen existiert. Die Uberprufung der Voraussetzungen(i) – (iii) aus Bemerkung 2.42 uberlassen wir dem Leser. Zum Nachweis der Bedingungen(∗) berechnen wir die Fisher-Informationsmatrix und erhalten (Ubung)

I(θ) = (iθ)2i,j=1 = Eθ

[( ∂

∂θi

log f(1)θ (X1)

∂θj

log f(1)θ (X1)

)2

i,j=1

]=

αλ2 − 1

λ

− 1λ

Γ′′(α)Γ(α)

−(

Γ′(α)Γ(α)

)2

und die Eigenschaft (∗) folgt direkt durch Ubung 4.4(2) und Berechnung der zweitenAbleitungen

∂2

∂2λlog f

(1)θ (x1) = − α

λ2

∂2

∂α∂λlog f

(1)θ (x1) =

1

λ∂2

∂2αlog f

(1)θ (x1) = −Γ′′(α)

Γ(α)+(Γ′(α)

Γ(α)

)2

,

die offensichtlich stetig sind.

In den vorigen Betrachtungen haben wir gesehen, dass unter Regularitatsvoraussetzungender Maximum-Likelihood-Schatzer stochastisch gegen den ,,wahren“ Parameter konvergiert.

14

Page 15: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Allerdings gibt dieses Resultat keine Auskunft uber die Konvergenzgeschwindigkeit. Z.B.ist in Beispiel 4.6 die untere Schranke fur die Varianz eines erwartungstreuen Schatzersfur den Parameter λ durch λ2/αn gegeben, aber es ist nicht klar, ob die ML-Methode eineerwartungstreue Schatzung mit einer Varianz von derselben Großenordnung liefert. Umeine solche Eigenschaft fur die ML-Schatzungen nachzuweisen, fuhren die Prinzipien derVerteilungskonvergenz und asymptotischen Effizienz ein [vgl. auch Vorlesung Wahrschein-lichkeitstheorie I].

Definition 4.9: Es sei (Z(n))n∈N eine Folge von d-dimensionalen Zufallsvariablen (Z(n) =(Zn1, . . . , Znd)

T ) mit Verteilungsfunktionen

P (Zn1 ≤ t1, . . . , Znd ≤ td) = Fn(t1, . . . , td)

und Z = (Z1, . . . , Zd)T d-dimensionale Zufallsvariable mit Verteilungsfunktion

P (Z1 ≤ t1, . . . , Zd ≤ td) = F (t1, . . . , td).

Die Folge (Zn)n∈N konvergiert in Verteilung gegen Z (bzw. konvergiert schwach gegen Z),falls in jedem Stetigkeitspunkt (t1, . . . , td)

T der Verteilungsfunktion F gilt:

limn→∞

Fn(t1, . . . , td) = F (t1, . . . , td).

Als Schreibweise verwenden wir:

ZnD−→ Z;Zn

D−→ F

(dabei steht dasD fur distribution). Ist Z ∼ Nd(µ,Σ), so heißt (Zn)n∈N asymptotisch normal-verteilt und man schreibt

ZnD−→ Nd(µ,Σ).

Bemerkungen 4.10:

(1) Liegt Verteilungskonvergenz vor, so konnen fur großes n ∈ N die Wahrschein-lichkeiten

P (Zn ∈ B)

durch die WahrscheinlichkeitenP (Z ∈ B)

approximiert werden.

(2) Es seienX1, . . . , Xn unabhangig identisch verteilte Zufallsvariable mitX1 ∼ Bin(1, θ);θ ∈ (0, 1) and Zn = 1

n

∑ni=1Xi, dann gilt:

√n(Zn − θ)

D−→ N1(0, θ(1− θ))

[Satz von Moivre Laplace]

15

Page 16: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(3) Es gilt Z(n) = (Zn1, . . . , Znd)T D−→ Z = (Z1, . . . , Zd)

T genau dann, wenn fur alleVektoren a ∈ Rd gilt

aTZ(n) D−→ aTZ.

(4) Es sei a ∈ Rd und es gelte Z(n) D−→ a, dann gilt auch

Z(n) P−→ a.

Satz 4.11: (Zentraler Grenzwertsatz) Es seien X1, . . . , Xn unabhangig identischverteilte d-dimensionale Zufallsvariable mit E[Xk] = µ ∈ Rd und Cov(Xi) =

∑> 0,

dann gilt fur den Mittelwert Z(n) = 1n

∑ni=1Xi

√n(Z(n) − µ)

D−→n→∞

Ns−1(0,Σ).

Beispiel 4.12: Es sei

X = (X1, . . . , Xs)T ∼ M(n, p1, . . . , ps)

mit p1, . . . , ps > 0,∑s

i=1 pi = 1 und Z(n) = 1n(X1, . . . , Xs−1)

T fur n→∞

√n(Z(n) − p)

D−→n→∞

Ns(0,Σ),

wobei p = (p1, . . . , ps−1)T und die Matrix Σ = (Σij)

s−1i,j=1 durch

Σij =

{pi(1− pi) fur i = j

−pipj fur i 6= j

definiert ist. Diese Aussage ergibt sich unmittelbar aus der Definition der Multinomi-alverteilung [vgl. Beispiel 1.5], Ubung 1.23 und Satz 4.11.

Lemma 4.13:

(1) (Lemma von Slutsky) Es seien (Z(n))n∈N und (Y (n))n∈N Folgen d-dimensionaler Zu-fallsvariablen, fur die gilt

Z(n) D−→ Z; Y (n) P−→ y0

wobei y0 ∈ Rd einen d-dimensionalen Vektor und Z eine dimensionale Zufallsvariablebezeichne. Dann gilt:

Y Tn Z

(n) D−→ yT0 Z

Z(n) + Y (n) D−→ Z + y0.

16

Page 17: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(2) (δ-Methode) Es sei (Z(n))n∈N Folge von d-dimensionalen Zufallsvariablen, Z Zu-fallsvariable, b ∈ Rd, (Σn)n∈N ⊂ Rd×d eine Folge invertierbare Matrizen, so dass

Σ−1n (Z(n) − b)

D−→ Nd(0, S)

mit einer positiven definiten Matrix S ∈ Rd×d gilt. Ist dann g : Rd → R` differen-zierbare Funktion, so dass die Ableitung

g′(·) ∈ R`×d

im Punkt b stetig ist und (die Matrix g′ ⊂ b) Rang ` hat, dann gilt

Σ−1n (g(Z(n))− g(b)) → N`(0, g

′(b)S(g′(b))T )

Beispiel 4.14:

(1) Es seienX1, . . . , Xn unabhangig identisch verteilte Zufallsvariable mitX1 ∼ Bin(1, θ),dann gilt nach dem Satz von Moivre-Laplace

√n(Xn − θ)

D−→ N1(0, θ(1− θ))

und wegen des schwachen Gesetzes der großen Zahlen

XnPθ−→ θ.

Nach dem Lemma von Slutksy gilt dann auch

√n(Xn − θ)√Xn(1− Xn)

D−→ N1(0, 1),

und damit erhalt man auf der rechten Seite eine von θ unabhangige Verteilung.

Alternativ kann man auch eine Transformation mit der Funktion g benutzen, diedie Differentialgleichung

g′(θ) = 1/√θ(1− θ)

erfullt, d.h.g(θ) = 2 arcsin

√θ.

Dann gilt nach der δ-Methode

2√n(arcsin

√Xn − arcsin θ)

D−→ N1(0, 1).

Eine solche Transformation nennt man auch varianzstabilisierende Transformation.

17

Page 18: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(2) Es seienX1, . . . , Xn unabhangig identisch verteilte Zufallsvariable mitX1 ∼ N1(µ, σ2),

dann ist nach Satz 4.11

√n{ 1

n

(Xi

X2i

)−(

µ

µ2 + σ2

)}D−→ N2(0,Σ)

wobei die asymptotische Kovarianzmatrix durch

Σ =

(Var(X1) Cov(X1, X

21 )

Cov(X1, X21 ) Var(X2

1 )

)=

(σ2 2µσ2

2µσ2 2σ4 + 4µ2σ2

)

gegeben ist. Mit der Transformation g(x1, x2) = −x21 + x2 erhalten wir

g(µ, µ2 + σ2) = σ2, g′(x1, x2) = (−2x1, 1),

g′(µ, σ2)Σ(g′(µ, σ2))T = 2σ4

und nach Satz 4.13 (2) gilt fur den Schatzer

σ2n =

1

n

n∑i=1

(Xi − Xn)2 =1

n

n∑i=1

X2i −

( 1

n

n∑i=1

Xi

)2

= g( 1

n

n∑i=1

Xi,1

n

n∑i=1

X2i

)die asymptotische Normalitat, d.h.

√n(σ2

n − σ2) =√n(g( 1

n

n∑i=1

Xi,1

n

n∑i=1

X2i

)− g(µ, σ2)

)D−→ N1(0, 2σ

4).

Bemerkung 4.15: Die Aussage der Verteilungskonvergenz eines Schatzers fur θ

(∗)√n(θn(X)− θ)

Dθ−→ Z

legt die Vermutung nahe, dass θn(X) asymptotisch erwartungstreu fur θ ist, falls dieGrenzverteilung Erwartungswert 0 hat, d.h. E[Z] = 0 gilt. Diese Schlussweise ist aberim allgemeinen nicht korrekt und erfordert zusatzliche Voraussetzungen. Allerdings folgtnach dem Satz von Slutsky aus der Annahme (∗)

θn(X)− θ =1√n

√n(θn(X)− θ)

Dθ−→ 0 · Z = 0

und aus Bemerkung 4.10 (4) die Konsistenz des Schatzers θn(X) fur den Parameter θ d.h.

θn(X)Pθ−→ θ.

Definition 4.16: Es seien X1, . . . , Xn unabhangig identisch verteilte Zufallsvariable mitDichte ∼ f

(1)θ ; θ ∈ Θ; Θ ⊂ Rk offen und es gelten die Annahmen aus Bemerkung 2.42.

18

Page 19: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Ein Schatzer Tn(X) fur den Parameter θ heißt asymptotisch effizient, falls fur n→∞ dieVerteilungskonvergenz √

n(Tn(X)− θ)Dθ−→ Nk(0, I

−1(θ))

gilt, wobei die k × k-Matrix

I(θ) =(Eθ

[ ∂∂θi

log f(1)θ (X1)

∂θj

log f(1)θ (X1)

])k

i,j=1

die Fisher-Informationsmatrix von f(1)θ bezeichnet.

Man beachte, dass aus der Eigenschaft der asymptotischen Effizienz die Konsistenz desSchatzers Tn(X) fur den Parameter θ folgt und außerdem Tn(X) asymptotisch die un-tere Schranke in der Cramer-Rao-Ungleichung annimmt, die unter den obigen Annahmendurch

I−1n (θ) =

1

nI−1(θ)

gegeben ist [vgl. Bemerkung 2.39].

Beispiel 4.17: Es seien X1, . . . , Xn ∼ N1(µ, σ2) unabhangig identisch verteilte Zu-

fallsvariable, dann ist der Schatzer

Tn(X) = (Xn,1

n

n∑i=1

(Xi − Xn)2)T

asymptotisch effizient fur den Parameter θ = (µ, σ2), denn ein analoges Argument wie inBeispiel 4.14 (2) zeigt, dass fur den Schatzer

Tn(X) =( 1

n

∑Xi,

1

n

n∑i=1

X2i −

( 1

n

n∑i=1

Xi

)2)T

= g( 1

n

n∑i=1

Xi,1

n

n∑i=1

X2i

)gilt √

n(Tn(X)− (µ, σ2)T )Dθ−→ N2(0,Σ(θ))

wobei die Kovarianzmatrix durch

Σ(θ) =

(σ2 0

0 2σ4

)= I−1(θ)

gegeben ist [vgl. Beispiel 2.43].

Satz 4.18: (Unter Regularitatsvoraussetzungen sind Maximum-Likelihood-Schatzungenasymptotisch effizient). Unter den Annahmen aus Satz 4.6 gilt fur den nach diesem Satzexistierenden Maximum-Likelihood-Schatzer θn(X) :

√n(θn(X)− θ)

Dθ−→ Nk(0, I−1(θ)),

19

Page 20: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

wobei die k × k-Matrix

I(θ) =(Eθ

[ ∂∂θi

log f(1)θ (X`)

∂θj

log f(1)θ (X`)

])k

i,j=1

die Fisher Informationsmatrix von f(1)θ bezeichnet.

Beispiele 4.19:

(1) Fur den in Beispiel 4.8 implizit definierten ML-Schatzer (λn, αn) fur die Parameterder Gamma-Verteilung gilt

√n((λn

αn

)−(λ

α

))D−→ N2(0,Σ(λ, α))

mit der Kovarianzmatrix

Σ(λ, α) =

αλ2 − 1

λ

− 1λ

Γ′′(α)Γ(α)

−(

Γ′(α)Γ(α)

)2

−1

.

(2) Es seien X, Y eindimensionale Zufallsvariable, dann heißt die Große

Corr(X) =Cov(X, Y )√Var(X)VarY

Korrelationskoeffizient und ist ein Maß fur die Abhangigkeit von X und Y. Manbeachte die Ungleichung

|Corr(X, Y )| ≤ 1.

Das Gleichheitszeichen in dieser Ungleichung gilt genau dann, wenn Konstantena, b, c ∈ R mit

P (aX + bY = c) = 1,

existieren. Es seien(X1

Y1

), . . . ,

(Xn

Yn

)i.i.d. ∼ N2

((µ1

µ2

),( σ2 ρστ

ρστ τ 2

)),

dann gilt offensichtlich ρ = Corr(X1, Y1) und mit der Bezeichnung θ = (µ1, µ2, σ2, τ 2, ρ)

erhalt man fur die Dichte von (X1, Y1)

f(1)θ (X1, Y1) =

1

2πστ√

1− ρ2exp{−τ

2(x1 − µ1)2 − 2στ(x1 − µ1)(y1 − µ2) + τ 2(y1 − µ2)

2

2σ2τ 2(1− ρ2)

}Damit ergibt sich mit der Bezeichnung (x, y)T = ((x1, y1)

T , . . . , (x1, yn))T fur dieLog-Likelihood-Funktion

`n(θ) = log fθ(x, y) =n∑

i=1

log f(1)θ (xi, yi).

20

Page 21: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Fur die Maximum-Likelihood-Gleichungen erhalten wir durch eine direkte Rechnungdas (nichtlineare) Gleichungssystem

∂µ1

`n(θ) =τ 2∑n

i=1(xi − µ1)− στρ∑n

i=1(yi − µ2)

σ2τ 2(1− ρ2)= 0

∂µ2

`n(θ) =σ2∑n

i=1(yi − µ2)− στρ∑n

i=1(xi − µ1)

σ2τ 2(1− ρ2)= 0

∂σ2`n(θ) = − n

2σ2+

∑ni=1(xi − µ1)

2

2σ4(1− ρ2)− ρ

∑ni=1(xi − µ1)(yi − µ2)

2(σ2)3/2τ(1− ρ2)= 0

∂τ 2`n(θ) = − n

2τ 2+

∑ni=1(yi − µ2)

2

2τ 4(1− ρ2)− ρ

∑ni=1(xi − µi)(yi − µ2)

2(τ 2)3/2σ(1− ρ2)= 0

∂ρ`n(θ) =

1− ρ2− ρ

(1− ρ2)2σ2 − τ 2

{τ 2

n∑i=1

(xi − µ1)2 + σ2

n∑i=1

(yi − µ2)2}

+1 + ρ2

(1− ρ2)2στ

n∑i=1

(xi − µ1)(yi − µ2) = 0,

und die Losung dieser Gleichungen ergibt fur den Maximum-Likelihood-Schatzer

µ1 = Xn; µ2 = Yn

σ2n =

1

n

n∑i=1

(Xi − Xn)2; τ 2n =

1

n

n∑i=1

(Yi − Yn)2

ρn =

∑ni=1(Xi − Xn)(Yi − Yn)√∑n

i=1(Xi − Xn)2∑n

i=1(Yi − Yn)2.

Der Schatzer ρn heißt empirischer Korrelationskoeffizient und nach Satz 4.18 gilt

√n(ρn − ρ)

D−→ N (0, (1− ρ2)2),

wobei sich die asymptotische Varianz als Element (I(θ)−1)55 der Fisher-Informations-matrix

I(θ) =1

σ2τ 2(1− ρ2)

τ 2 −ρστ 0 0 0

−ρστ σ2 0 0 0

0 0 τ2(2−ρ2S)4σ2 −ρ2

4−ρ

2τ 2

0 0 −ρ2

4σ2(2−ρ2)

4τ2 −ρ2σ2

0 0 −ρ2τ 2 −ρ

2σ2 σ2τ2(1+ρ2)

1−ρ2

ergibt [die Berechnung dieser Matrix sei dem Leser als Ubung uberlassen].

21

Page 22: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

5 Konfidenzbereiche

Die Angabe eines Punktschatzers gibt keine Auskunft uber Genauigkeit der Schatzungund sollte daher immer durch die Angabe eines Fehlermaßes (wie z.B. Varianz oder MSE)erganzt werden. Als Alternative bieten sich Bereiche an, in denen der unbekannte Parame-ter mit ,,großer“ Wahrscheinlichkeit liegt. Solche Mengen nennt man Konfidenzbereiche.

Beispiel 5.1: In einem Experiment wurden die Daten

x1 = 3.45, x2 = 2.37, x3 = 4.13, x4 = 5.23

beobachtet. Unter der Annahme unabhangiger Daten

X1, . . . , Xn ∼ N (µ, 1)

erhalt man als UMVU-Schatzer fur µ; man beachte (n = 4) :

µn = xn = 3.795.

Fur die Berechnung eines Bereichs, in dem der unbekannte Parameter µ mit großerWahrscheinlichkeit liegt, bezeichne

Φ(x) =1√2π

∫ x

−∞e−t2/2dt

die Verteilungsfunktion der Standardnormalverteilung und fur den Parameter β ∈ (0, 1)

uβ := Φ−1(β)

das β-Quantil der Standard-Normalverteilung (man beachte, dass fur Z ∼ N (0, 1) dieIdentitat P (Z ≤ uβ) = Φ(β) = β gilt). Fur die ,,zufalligen“ Grenzen

µ+n (X) = Xn +

1√nu1−α/2; µ−n = Xn −

1√nu1−α/2

mit α ∈ (0, 1) gilt dann [man beachte√n(Xn − µ) ∼ N (0, 1)]

Pµ(µ−n (X) < µ < µ+n (X)) = Pµ(−u1−α/2 <

√n(Xn − µ) < u1−α/2)

= Φ(u1−α/2)− Φ(−u1−α/2) = 2Φ(u1−α/2) − 1 = 1− α,

wobei die Identitat Φ(x) = 1− Φ(−x) verwendet wurde (man beachte, dass diese Ungle-ichung fur jede Verteilungsfunktion mit symmetrischer Dichte gilt). In anderen Worten:das Intervall (µ−(X), µ+(X)) enthalt den unbekannten Parameter µ mit Wahrschein-lichkeit 1− α. Fur die speziellen Daten ergibt sich z.B. fur α = 5% das Intervall

(2.815, 4.775)

als 95%-Konfidenzintervall. Eine exakte Definition dieses Begriffes liefert die folgendeDefinition.

22

Page 23: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Definition 5.2: Es sei X eine Zufallsvariable mit Werten in X und Verteilung Pθ (stetigoder diskret) und C eine Familie von Untermengen von Θ. Eine Abbildung

c : X → C

heißt Konfidenzbereich fur θ (Vertrauensbereich, Bereichsschatzer). Fur α ∈ (0, 1) heißtc Konfidenzbereich fur θ zum Niveau 1− α, falls fur alle θ ∈ Θ gilt:

Pθ(θ ∈ c(X)) = Pθ({x ∈ X | θ ∈ c(x)) ≥ 1− α.

Die Zahlinfθ∈Θ

Pθ(θ ∈ c(X))

heißt effektives Konfidenzniveau von c.

Bemerkung 5.3:

(1) Oft wird fur das Mengensystem C die Potenzmenge von Θ verwendet. Besteht C imFall Θ ⊂ R nur aus Intervallen, so nennt man die Abbildung c auch Konfidenzintervall.Entsprechend spricht man fur Θ ⊂ Rk von Konfidenzrechtecken, Konfidenzellipsoidenetc.

(2) Bezeichnet x ∈ X den Datenvektor, so wird oft auch c(x) als Konfidenzbereichbezeichnet (genauer heißt c(x) konkreter Konfidenzbereich).

(3) Ist γ : Θ → Γ ein Funktional, so werden Konfidenzbereiche fur γ(θ) analog definiert.

(4) Man beachte, dass im Fall der Lebesgue-Dichte die Menge {x ∈ X | θ ∈ c(x)}messbar sein muss.

(5) Man beachte die folgende Interpretation des Begriffs Konfidenzbereich: Die ,,zufallige“Menge c(X) enthalt den unbekannten Parameter θ mit Wahrscheinlichkeit 1 − α.Das bedeutet nicht, dass fur die konkret vorliegenden Daten x ∈ X die Menge c(x)den Parameter θ mit Wahrscheinlichkeit 1 − α enthalt [diese Aussage ist entwederrichtig oder falsch - auch wenn man sie nicht uberprufen kann], sondern dass beihaufiger Wiederholung des Experiments in mindestens (1 − α) 100% der Falle derunbekannte Parameter in den erhaltenen Bereichen liegen wurde.

(6) Im Beispiel 5.1 ist C die Menge der Intervalle, X = Rn, n = 4

c :

{X → Cx → [xn − 1√

nu1−α/2, xn + 1√

nu1−α/2]

(7) Wunschenswert ware ein moglichst großes Konfidenzniveau 1−α (d.h. α→ 0) undgleichzeitig ein moglichst kleiner Konfidenzbereich. Offensichtlich ist eine solchesimultane Optimierung nicht moglich [man denke z.B. an die Abbildung c(x) =Θ ∀ x ∈ X , die Konfidenzniveau 1 besitzt.].

23

Page 24: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(8) Es bezeichne A(θ) := {x ∈ X | θ ∈ c(x)}, dann gilt offensichtlich:

x ∈ A(θ) ⇐⇒ θ ∈ c(x),

d.h. c ist Konfidenzbereich zum Niveau 1− α falls

Pθ(A(θ)) ≥ 1− α ∀ θ ∈ Θ

gilt. D.h. fur die Angabe von c sind die Mengen A(θ) festzulegen. Damit c kleineBereiche liefert, sollte daher die Menge A(θ) moglichst wenig Punkte enthalten. Imdiskreten Fall wurde man daher der Menge A(θ) diejenigen Werte x ∈ X zuordnen,fur die die Wahrscheinlichkeiten Pθ(X = x} am großten werden.

Beispiel 5.3: Es seien X1, . . . , Xn ∼ B(1, θ), unabhangig identisch verteilte Zufallsvari-able, dann ist

B =n∑

i=1

Xi ∼ B(n, θ)

suffiziente Statistik fur den Parameter θ und wegen der Ungleichung

Pθ(B = x)

Pθ(B = x− 1)=n− x+ 1

x

θ

1− θ≤ 1 ⇐⇒ (n+ 1)θ ≤ x

sollte man die Menge A(θ) in der Form

A(θ) ∈ {x ∈ {0, . . . , n} | a(θ) ≤ x ≤ A(θ)}

wahlen, so dass fur alle θ ∈ Θ

Pθ(A(θ)) =

A(θ)∑x=a(θ)

(n

x

)θx(1− θ)n−x ≥ 1− α

gilt. Man beachte, dass durch diese Ungleichung die Grenzen a(θ) undA(θ) nicht eindeutigfestgelegt sind. Wir wahlen die Grenzen ,,symmetrisch“, d.h.

a(θ) = max{k ∈ {0, . . . , n} |k−1∑j=0

(n

j

)θ(1− θ)n−j ≤ α

2}

A(θ) = min{k ∈ {0, . . . , n} |n∑

j=k+1

(n

j

)θj(1− θ)n−j ≤ α

2}.

Durch Vergleich der Ableitung bezuglich θ zeigt man leicht die Identitat

(∗),n∑

j=x

(n

j

)θj(1− θ)n−j =

n!

(x− 1)!(n− x)!

∫ θ

0

tx−1(1− t)n−xdt

24

Page 25: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

und wir erhalten, dass A(θ) und a(θ) monoton wachsende Funktionen in θ sind [manbeachte außerdem, dass a(θ) ≤ A(θ) gilt]. Damit ergibt sich

a(θ) ≤ x ⇐⇒ θ ≤ L(x) := sup{θ ∈ Θ | a(θ) = x}

A(θ) ≥ x ⇐⇒ θ ≥ `(x) := inf{θ ∈ Θ | A(θ) = x},

und man erhalt als Konfidenzintervall zum Niveau 1− α

(`(x), L(x))

Mit der Substitutiont =

1 + uα; α =

x

n− x+ 1

erhalt man fur die Wahrscheinlichkeiten in (∗)n∑

j=x

(n

j

)θj(1− θ)n−j =

∫ g(θ)

0

f2x,2(n−x+1)(u)du,

wobei f2x,2(n−x+1) die in Beispiel 1.17 (3) definierte Dichte der F -Verteilung mit

(2x, 2(n− x+ 1))

Freiheitsgraden ist und die Funktion g durch

g(θ) =θ

1− θ

1

α=

θ

1− θ

n− x+ 1

x

definiert ist. Bezeichnet nun F (· | m,n) die Verteilungsfunktion der F -Verteilung mit(m,n)-Freiheitsgraden und fur β ∈ (0, 1)

Fm,n,β = F−1(β | m,n)

das β-Quantil der F -Verteilung mit (m,n)-Freiheitsgraden, so gilt nach Definition derF -Verteilung (Ubung)

Fm,n,β = 1/Fn,m,1−β

und wir erhalten fur die Grenzen

`(x) =x

x+ (n− x+ 1)F2x,2(n−x+1)α/2

=x

x+ (n− x+ 1)F2(n−x+1),2x,1−α/2

L(x) =(x+ 1)F2x+2,2(n−x),1−α/2

(x+ 1)F2x+2,2(n−x),1−α/2 + n− x.

Man beachte, dass L(x) Losung der Gleichung

x∑j=0

(n

j

)θj(1− θ)n−j =

α

2

25

Page 26: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

und `(x) Losung der Gleichung

n∑j=x

(n

j

)θj(1− θ)n−j =

α

2

ist. Die Quantile der F -Verteilung sind tabelliert und die Großen `(x) und L(x) heißenClopper-Pearson-Schranken fur den Parameter θ.

Beispiel 5.4: (Konfidenzbereiche bei Normalverteilung) Es seien X1, . . . , Xn i.i.d.∼ N (µ, σ2), dann sind

Xn =1

n

n∑j=1

Xj

S2n =

1

n− 1

n∑j=1

(Xj − Xn)2

UMVU-Schatzer fur die Parameter µ und σ2 [vgl. Beispiel 3.14)]. Nach Beispiel 1.19 (3)gilt fur

T =

√n(Xn − µ)

Sn

∼ tn−1.

Es bezeichnet(x | n− 1) = P (T ≤ x) = 1− t(−x | n− 1)

die Verteilungsfunktion der t-Verteilung mit (n− 1)-Freiheitsgraden und fur β ∈ (0, 1)

tn−1,β = t−1(β | n− 1)

das β-Quantil der t-Verteilung mit (n − 1) Freiheitsgraden. Dann gilt wegen der Eigen-schaft (Ubung) tn−1,β = −tn−1,1−β

Pθ(Xn −Sn√ntn−1,1−α/2 < µ < Xn +

Sn√ntn−1,1−α/2)

= Pθ(−tn−1,1−α/2 < T < tn−1,1−α/2)

= t(tn−1,1−α/2 | n− 1)− t(−tn−1,1−α/2 | n− 1) = 1− α,

und damit ist das Intervall

Iµn := (Xn −

Sn√ntn−1,1−α/2, Xn +

Sn√ntn−1,1−α/2)

ein (1 − α)-Konfidenzintervall fur den Parameter µ. Bezeichnet entsprechend fur β ∈(0, 1) χ2

n−1,β das β-Quantil der χ2-Verteilung mit (n− 1)-Freiheitsgraden [d.h. fur Z ∼χ2

n−1 gilt P (Z ≤ χ2n−1,β) = β], so gilt wegen

S2n ∼

σ2

n− 1χ2

n−1

26

Page 27: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(vgl. Beispiel 1.19 (1))

( S2n(n− 1)

χ2n−1,1−α/2

< σ2 <S2

n(n− 1)

χ2n−1,α/2

)= Pθ

(X 2

n−1,α/2 <n− 1

σ2S2

n < χ2n−1,1−α/2

)= 1− α

2− α

2= 1− α.

Damit ist

Iσ2

n :=( S2

n(n− 1)

χ2n−1,1−α/2

,S2

n(n− 1)

χ2n−1,α/2

)ein (1− α) Konfidenzintervall fur den Parameter σ2.

Ubung 5.5: Man zeige, dass fur die Langen λ(Iµn ) und λ(Iσ2

n ) der in Beispiel 5.4definierten Konfidenzbereiche gilt [θ = (µ, σ2)]

λ(Iµn )

Pθ−→n→∞

0

λ(Iσ2

n )Pθ−→

n→∞0.

D.h. bei wachsendem Stichprobenumfang und konstanten Konfidenzniveau werden dieIntervalle beliebig klein.

In den obigen Beispielen ging man von einer ,,naheliegenden Form“ des Konfidenzbere-ichs aus und bestimmte dann durch elementare Umformungen das Konfidenzintervall. Invielen Fallen ist aber eine solche Vorgehensweise unmoglich. Man kann aber dennoch oftKonfidenzbereiche bestimmen, die zumindest naherungsweise das Niveau (1− α) liefern.

Definition 5.6: Fur n ∈ N sei X(n) ∼ fθ eine Zufallsvariable mit Werten in Xn,cn : Xn → C ein Konfidenzbereich fur θ ∈ Θ. Die Folge (cn)n∈N heißt asymptotischerKonfidenzbereich zum Niveau α, falls fur alle θ ∈ Θ gilt:

limn→∞

Pθ(θ ∈ cn(X(n))) ≥ 1− α

(in den wichtigsten Fallen ist der lim ein lim und das , ,≥ “ ein , ,= “).

Beispiel 5.7: (asymptotisches Konfidenzintervall bei Binomialverteilung) Esseien X1, . . . , Xn unabhangig identisch verteilte Zufallsvariable mit X1 ∼ B(1, θ), danngilt nach Beispiel 4.14

Zn :=

√n(Xn − θ)√Xn(1− Xn)

D−→ N (0, 1).

27

Page 28: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Mit

θ−n (X) = Xn −u1−α/2√

n

√Xn(1− Xn)

θ+n (X) = Xn +

u1−α/2√n

√Xn(1− Xn)

gilt daher

limn→∞

Pθ(θ−n (X) < θ < θ+

n (X)) = limn→∞

P (−u1−α/2 < Zn < u1−α/2)

= Φ(u1−α/2)− Φ(−u1−α/2) = 1− α

und damit ist (θ−n (X), θ+n (X)) ein asymptotisches (1− α) Konfidenzintervall fur den Pa-

rameter θ.

Bemerkung 5.8: (ein allgemeines Prinzip zur Konstruktion von asymptotis-chen Konfidenzbereichen mit der ML-Methode) Es seien X1, . . . , Xn unabhangig

identisch verteilte Zufallsvariable mit Dichte f(1)θ ; θ ∈ Θ ⊂ R, dann gilt unter den Annah-

men aus Satz 4.6 und 4.18 fur einen Maximum-Likelihood-Schatzer θn = θn(X) :

θnPθ−→ θ

√n(θn − θ)

Dθ−→ N1(0,1

I1(θ))

wobei

I1(θ) = Eθ

[( ∂∂θ

log f(1)θ (X1)

)2]die Fisher-Information der Dichte f

(1)θ bezeichnet. Unter Stetigkeitsvoraussetzungen gilt

auchI1(θn)

D−→ I1(θ) (∀ θ ∈ Θ),

und man erhalt mit dem Lemma von Slutsky√nI1(θn)(θn − θ)

Dθ−→ N1(0, 1).

Daher ergibt sich [θn −

u1−α/2√nI1(θn)

, θn +u1−α/2√nI1(θn)

]als asymptotisches (1−α)-Konfidenzintervall fur den Parameter θ. Man beachte, dass wirdiese Methode in Beispiel 5.7 verwendet haben.

Beispiel 5.9: Es seien X1, . . . , Xn unabhangig identisch exponential-verteilte Zufallsvari-able mit Parameter λ, d.h. fur die Dichte f

(1)λ von X1 gilt

f(1)λ (t) =

1

λe−t/λI[0,∞)(t), λ > 0.

28

Page 29: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Man zeigt leicht, dassλn = Xn

der Maximum-Likelihood-Schatzer fur den Parameter λ ist und aus Beispiel 2.41 erhaltenwir fur die Fisher-Information von f

(1)λ

I1(λ) =1

λ2.

Offensichtlich ist die Fisher-Information I1 (als Funktion von λ stetig. Damit gilt

√n

λn

(λn − λ)Dλ−→ N (0, 1)

und [λn(1−

u1−α/2√n

), λn

(1 +

u1−α/2√n

)]ist asymptotisches (1− α)-Konfidenzintervall fur den Parameter λ.

Bemerkung 5.10 (konservative Konfidenzbereiche fur Parametervektoren) Essei X ∼ fθ eine Zufallsvariable, θ = (θ1, . . . , θd)

T ∈ Θ = Θ1 × . . . × Θd und fur jedesi = 1, . . . , d; ci : X → Θi ein 1− αi-Konfidenzbereich fur θi, d.h.

Pθ(θi ∈ ci(X)) ≥ 1− α ∀ θ ∈ Θ.

Dann ist

c :

{X → Θ

x → c1(x)× . . .× cd(x)

ein Konfidenzbereich fur den Vektor θ = (θ1, . . . , θd) zum Niveau 1 −∑d

i=1 αi. Eineentsprechende Aussage gilt fur asymptotische Konfidenzbereiche.

Beispiel 5.11: Es seien X1, . . . , Xn ∼ γ(α, λ) unabhangig identisch verteilte Zerfallsvari-able mit θ = (α, λ) ∈ (0,∞)2 [vgl. Beispiel 4.8]. In Beispiel 4.19 haben wir fur denMaximum-Likelihood-Schatzer (λn, αn)T gezeigt

√n

((λn

αn

)−(λ

α

))Dθ−→ N2(0,Σ(λ, α)),

wobei die Kovarianzmatrix durch

Σ(λ, α) =

αλ2 − 1

λ

− 1λ

Γ′′(α)Γ(α)

−(

Γ′(α)Γ(α)

)2

−1

29

Page 30: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

gegeben ist. Mit Lemma 4.13(2) und Beispiel 1.15 gilt dann

√n

d11(λn, αn)(λn − λ) → N (0, 1)

√n

d22(λn, αn)(αn − α) → N (0, 1),

wobei d2ii(λ, α) das i-te Diagonalelement der Matrix Σ(λ, α) bezeichnet. Damit sind

c1(x) =[λn − u1−γ/2

d11(λn, αn)√n

, λn + u1−γ/2d11(λn, αn)√

n

]c2(x) =

[αn − u1−γ/2

d22(λn, αn)√n

, αn + u1−γ/2d22(λn, αn)√

n

]jeweils asymptotische Konfidenzintervall e zum Niveau 1− γ und

c1(x)× c2(x)

ein asymptotisches Konfidenzrechteck fur den Vektor (λ, α) zum Niveau 1− 2γ.

6 Grundbegriffe statistischer Tests

Beispiel 6.1: In diesem Abschnitt sollen Hypothesen uber den unbekannten Parameterθ ∈ Θ in einem statistischen Experiment (X ,P);

P = {fθ | θ ∈ Θ}

untersucht werden. Man betrachte dazu als einfachstes Beispiel ein lang erprobtes Medika-ment A mit einer Heilungswahrscheinlichkeit θ0 = 0.65. Ein neues Medikament B wurdean 100 Patienten getestet und es ergaben sich dabei 90 erfolgreiche Therapien. Diegrundsatzliche Frage ist, ob das neue Medikament B besser als das Medikament A ist,oder ob dieses Ergebnis zufallsbedingt zu Stande gekommen ist. Bezeichnet der Parame-ter θ die (unbekannte) Heilungswahrscheinlichkeit von Medikament B, so sind auf Basisder gegebenen Stichprobe die Hypothesen

H : θ ≤ θ0 = 0.65 K : θ > θ0

zu prufen.

Definition 6.2: Es sei X ∼ fθ; eine Zufallsvariable θ ∈ Θ und

Θ = ΘH ∪Θk

eine disjunkte Zerlegung des Parameterbereichs. Ein randomisierter Test ist eine (mess-bare) Abbildung

ϕ : X → [0, 1].

30

Page 31: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Dabei gibt ϕ(x) die Wahrscheinlichkeit fur die EntscheidungK : θ ∈ Θk an, falls x = X(ω)beobachtet wurde. Die Menge ΘH heißt Nullhypothese und die Menge ΘK Alternative.Mit Φ bezeichnen wir die Menge aller Tests, fur ϕ ∈ Φ heißt die Menge

K := {x ∈ X | ϕ(x) = 1}

kritischer Bereich und die Menge

R := {x ∈ X | 0 < ϕ(x) < 1} ⊂ X

Randomisierungsbereich. Ein Test ϕ heißt nichtrandomisiert, falls

R = ∅ ⇐⇒ ϕ(X ) = {0, 1}

gilt.

Beispiel 6.3: In Beispiel 6.1 ist Θ = (0, 1),ΘH = (0, 0.65],ΘK = (0.65, 1), wobei θdie unbekannte Wahrscheinlichkeit fur einen Therapieerfolg bezeichnet. Eine geeignetstochastische Modellierung erhalt man, indem man die Versuchsausgange fur die einzelnenExperimente durch unabhangige identisch verteilte Zufallsvariable X1, . . . , Xn mit X1 ∼B(1, θ) modelliert. Dabei bedeutet Xi = 1, dass der i-te Patient durch das MedikamentB geheilt wurde, θ bezeichnet die Wahrscheinlichkeit fur einen Therapieerfolg und derStichprobenumfang ist n = 100.Da Xn ein UMVU-Schatzer fur den Parameter θ ist, ist es naheliegend, fur ,,große“ Wertevon Xn fur die Alternative K : θ > 0.65 zu entscheiden. Ein ,,typischer“ Test fur dieseFragestellung ist die Abbildung ϕ : {0, 1}n → [0, 1], die durch

ϕ(x) :=

{1

0

}falls xn

{>

}0.7

definiert ist. Offensichtlich ist der Test ϕ nichtrandomisiert.

Bemerkung 6.4: Bei der Anwendung eines Tests konnen zwei Fehler auftreten. Manspricht von einem Fehler erster Art, falls der Test fur die Alternative θ ∈ ΘK entscheidet,aber in Wirklichkeit θ ∈ ΘH gilt, und von einem Fehler zweiter Art, falls der Test fur dieNullhypothese θ ∈ ΘH entscheidet, aber in Wirklichkeit θ ∈ ΘK gilt. Beide Fehler tretenmit bestimmten Wahrscheinlichkeiten auf und die Aufgabe der schließenden Statistikbesteht darin, diese Wahrscheinlichkeiten fur dieses Auftreten zu quantifizieren. Manbeachte, dass man nicht feststellen kann, ob ein Fehler erster oder zweiter Art aufgetretenist, da der ,,wahre“ Parameter θ nicht bekannt ist.

Test WirklichkeitΘH ΘK

ΘH korrekt Fehler 2-ter ArtΘK Fehler 1-ter Art korrekt

31

Page 32: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Beispiel 6.5: (Fortsetzung von Beispiel 6.1 und 6.3) Fur den Test aus Beispiel 6.3erhalt man

Pθ(ϕ(X) = 1) = Pθ(Xn > 0.7)

= Pθ

( √n(Xn − θ)√Xn(1− Xn)

>

√n(0.7− θ)√Xn(1− Xn)

))≈ 1− Φ

( √n(0.7− θ)√Xn(1− Xn)

),

wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet und sich dieApproximation aus dem Satz von Moivre-Laplace und dem Lemma von Slutsky ergibt[vgl. Bsp. 4.14 (1)]. Fur die konkret vorliegenden Daten (n = 100, Xn = 0.8) erhaltenwir dann

Pθ(ϕ(X) = 1) ≈ Φ(10(θ − 0.7)

0.4

)und Monotonie-Betrachtungen ergeben fur die Fehlerwahrscheinlichkeiten naherungsweise

Pθ(Fehler erster Art)

≈ 0 falls θ = 0.5

≈ 0.006 falls θ = 0.6

≤ supθ∈(0,0.65)

Pθ(ϕ(X) = 1) ≈ 0.106

Pθ(Fehler zweiter Art)

≈ 0 falls θ = 0.9

≈ 0.006 falls θ = 0.8

≈ 0.5 falls θ = 0.7

≤ supθ∈(0.65,1)

Pθ(ϕ(X) = 0) ≈ 0.894

Bemerkung 6.6: Offensichtlich hangen in Beispiel 6.5 die Fehlerwahrscheinlichkeitenvon dem unbekannten Parameter θ ab. Wunschenswert ware eine simultane Minimierungder Wahrscheinlichkeiten fur Fehler erster und zweiter Art durch geeignete Wahl desTestverfahrens ϕ. Durch Betrachtung der konstanten Abbildungen ϕ1(x) ≡ 1 und ϕ0(x) ≡0 sieht man allerdings sofort, dass eine solche Minimierung unmoglich ist.Man geht daher pragmatisch vor und legt eine Schranke α ∈ (0, 1) fur eine noch tolerier-bare Wahrscheinlichkeit fur den Fehler erster Art fest [ublich sind Werte α ∈ [0.01, 0.1]und versucht dann optimale Testverfahren zu konstruieren, die die Wahrscheinlichkeit furden Fehler 2-ter Art minimieren. Man beachte, dass durch diese Vorgehensweis das ur-sprunglich symmetrische Entscheidugnsproblem unsymmetrisch wird. Man wird daher inder Alternative immer diejenige Entscheidung formulieren, die die schwerwiegenden Kon-sequenzen hat (da man bei einer Entscheidung fur ΘK entweder keinen Fehler gemachtoder die Wahrscheinlichkeit fur diesen Fehler (erster Art) kontrolliert hat).

32

Page 33: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Definition 6.7: Es sei X eine Zufallsvariable mit Dichte fθ und ϕ ein Test fur dieHypothesen H : θ ∈ ΘH ;K : θ ∈ ΘK , dann heißt die Funktion

βϕ :

{Θ → [0, 1]

θ → βϕ(θ) := Eθ[ϕ(X)]

Gutefunktion von ϕ. Ein Test ϕ ∈ Φ heißt Test zum Niveau α ∈ (0, 1), falls

supθ∈ΘH

βϕ(θ) ≤ α

gilt, und Φα bezeichne die Menge aller Tests zum Niveau α. Die Große α heißt Irrtums-wahrscheinlichkeit. Ein Test ϕ ∈ Φ heißt unverfalscht zum Niveau α, falls gilt

ϕ ∈ Φα

(d.h. ϕ ist Test zum Niveau α) und

infθ∈ΘK

βϕ(θ) ≥ α

gilt; Φαα bezeichne die Menge aller unverfalschten Tests zum Niveau α.

Bemerkungen 6.8:

(1) βϕ(θ) gibt die Wahrscheinlichkeit an, fur die Alternative ΦK zu entscheiden, falls θder ,,wahre“ Parameter ist. Fur θ ∈ ΘH ist also βϕ(θ) die Wahrscheinlichkeit fureinen Fehler erster Art, wahrend 1 − βϕ(θ) fur θ ∈ ΘK die Wahrscheinlichkeit fureinen Fehler zweiter Art angibt. Z.B. gilt namlich im diskreten Fall fur θ ∈ ΘH

Pθ(Fehler erster Art) =∑

x

Pθ(Entscheidung fur ΘK | X = x)Pθ(X = x)

=∑

x

ϕ(x)Pθ(X = x) = Eθ[ϕ(X)] = βϕ(θ)

und analoge Darstellungen ergeben sich fur die anderen Falle.

(2) Ist ϕ Test zum Niveau α ∈ (0, 1), dann gilt fur alle Parameterwerte θ ∈ ΘH

Pθ(Fehler erster Art) ≤ α,

d.h. die Wahrscheinlichkeit fur einen Fehler erster Art ist maximal α.

(3) Ist ϕ unverfalscht, so soll fur Parameterwerte θ ∈ ΘK die Wahrscheinlichkeit, furΘK zu entscheiden, nicht kleiner sein als fur Parameterwerte θ ∈ ΘH .

Beispiel 6.9: (approximative Berechnung der Gutefunktion im Beispiel 6.5)Mit den Bezeichnungen aus Beispiel 6.3 und Beispiel 6.5 gilt fur die Gutefunktion desTests aus Beispiel 6.3 naherungsweise

βϕ :

{[0, 1] → [0, 1]

θ → βϕ(θ) ≈ Φ(

10(θ−0.7)0.4

)33

Page 34: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(4) Wunschenswert ist also fur θ ∈ ΘH : βϕ(θ) ≈ 0 und fur θ ∈ ΘK : βϕ(θ) ≈ 1 zuerreichen!

Definition 6.10:

(1) Ein Test ϕ∗ ∈ Φα heißt gleichmaßig bester Test zum Niveau α bzw. UMP-Test

(uniformly most powerful), falls fur alle Parameterwerte θ ∈ ΘK gilt:

βϕ∗(θ) = supϕ∈Φα

βϕ(θ).

In anderen Worten: fur alle θ ∈ ΘK minimiert ϕ∗ die Wahrscheinlichkeit fur einenFehler 2-ter Art in der Klasse aller Tests zum Niveau α.

(2) Ein Test ϕ∗ ∈ Φαα heißt gleichmaßig bester unverfalschter Test zum Niveau α bzw.UMPU-Test (uniformly most powerful unbiased), falls fur alle θ ∈ ΘK gilt:

βϕ∗(θ) = supϕ∈Φαα

βϕ(θ).

Satz 6.11: Es sei X eine Zufallsvariable mit Dichte fθ;ϕ : X → [0, 1] ein Test fur dieHypothesen H : θ ∈ ΘH ;K : θ ∈ ΘK und T : X → τ eine suffiziente Statistik fur denParameter θ. Dann existiert ein Test der Form ψ ◦ T (mit ψ : τ → [0, 1]), der dieselbeGutefunktion wie ϕ hat, namlich

(ψ ◦ T )(X) = Eθ[ϕ(X) | T (X)]

(man beachte, dass der Erwartungswert wegen der Suffizienz der Statistik T unabhangigvon dem Parameter θ ist).

Bemerkung 6.12: Satz 6.11 zeigt dass man sich bei der Konstruktion von Tests aufVerfahren beschranken kann, die nur von der suffizienten Statistik abhangen. Fur dieKonstruktion optimaler Tests ist zunachst ein genaues Verstandnis des einfachsten (abernicht unbedingt praxisrelevanten) Falls von einfachen Hypothesen

Θ = {θ0, θ1}; ΘH = {θ0}; ΘK = {θ1}

erforderlich. In diesem Fall ist die Statistik

Lθ0,θ1(x) :=fθ1(x)

fθ0(x)

(nach dem Neyman-Kriterium 2.5) suffizient fur den Parameter θ (falls fθ0(x) = fθ1(x) = 0definieren wir den Quotienten beliebig, falls fθ0(x) = 0 und fθ1(x) > 0 als∞). Die Statistik

34

Page 35: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Lθ0,θ1(x) heißt Likelihood-Quotient und ein UMP-Test zum Niveau α fur die HypothesenH : θ = θ0;K : θ = θ1 maximiert

βϕ(θ1) = Eθ1 [ϕ(x)]

bzgl. der Wahl von ϕ unter der Nebenbedingung

βϕ(θ0) = Eθ0 [ϕ(x)] ≤ α.

Definition 6.13: Mit den Bezeichnungen aus Bemerkung 6.12 heißt ein Test ϕ ∈ Φ einNeyman-Pearson-Test, falls es ein c ∈ [0,∞] gibt, so dass fur alle x ∈ X gilt:

ϕ(x) =

{1

0

}falls fθ1(x)

{>

<

}cfθ0(x)

(man beachte, dass keine Aussage uber den Fall fθ1(x) = cfθ0(x) gemacht wird).

Satz 6.14: (Neyman-Pearson-Lemma)

(1) Ein Neyman-Pearson-Test ϕ∗ ist UMP-Test zum Niveau α = Eθ0 [ϕ∗(X)] fur die

Hypothesen H : θ = θ0;K : θ = θ1.

(2) Fur alle α ∈ [0, 1] existiert ein Neyman-Pearson-Test ϕ fur die Hypothesen

H : θ = θ0;K : θ = θ1 mit Eθ0 [ϕ(x)] = α.

(3) Ist ϕ ein UMP-Test fur die Hypothesen H : θ = θ0;K : θ = θ1 zum Niveau α, dannist ϕ vom Neyman-Pearson-Typ, d.h. es existiert ein c ∈ [0,∞] und eine Funktionγ : χ→ [0, 1], so dass

ϕ(x) = I{fθ1(x) > cfθ0(x)}+ γ(x)I{fθ1(x) = cfθ0(x)}

fur alle x ∈ {z | fθ0(z) + fθ1(z) > 0} gilt.

Beachte: Teil (1) und Teil (2) aus Satz 6.14 liefern die Existenz eines UMP=Tests zugegebenem Niveau α ∈ [0, 1] fur einfache Hypothesen. Teil (3) dieses Satzes zeigt, dassder UMP-Test im wesentlichen eindeutig bestimmt ist. Ist die Funktion α aus dem obigenBeweis stetig, so kann in der Konstruktion des UMP-Tests ϕ∗ zum Niveau α ∈ [0, 1] furdie Hypothesen H : θ = θ0; θ = θ1 stets γ∗ = 0 gewahlt werden.

Beispiel 6.15: Es seien X1, . . . , Xn unabhangig identisch verteilte Zufallsvariable mitX1∼ N1(µ, σ

2), wobei der Parameter σ2 als bekannt angenommen wird. Fur die Bestim-mung des UMP-Tests fur die Hypothesen

H : µ = µ0 K : µ = µ1

35

Page 36: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(µ0 < µ1 gegeben) berechnen wir die gemeinsame Dichte der Zufallsvariablen X1, . . . , Xn

fµj(x) = (2πσ2)−n/2 exp

{− 1

2σ2

( n∑`=1

x2` − 2µj

n∑`=1

x` + nµ2j

)}k(µ0, µ1, σ

2) j = 1, 2

und erhalten fur den Likelihood-Quotienten

Lµ0,µ1(x) =fµ1(x)

fµ0(x)= exp

{ 1

σ2

n∑`=1

x`(µ1 − µ0)}k(µ0, µ1, σ

2)

mit der von den Daten unabhangigen Konstanten

k(µ0, µ1, σ2) = exp

(− n

2σ2(µ2

1 − µ20)).

Damit ist die Ungleichung Lµ0,µ1(x) > c aquivalent zu der Ungleichung (man beachteµ1 > µ0)

1

n

n∑i=1

xi > c

und wir erhalten fur die Funktion α(·) aus dem Beweis von Satz 6.14(2)

α(c) = Pµ0

( 1

n

n∑i=1

Xi > c) = 1− Φ(√nσ

(c− µ0)).

Diese Funktion ist offensichtlich stetig und fur α ∈ (0, 1) ergibt die Bedingung α(c) = αdie Gleichung c = µ0 +σ/

√nu1−α. Der UMP-Test fur die obigen Hypothesen lautet damit

ϕ(x) =

{1

0

}falls xn

{>

}µ0 +

σ√nu1−α

(man beachte, dass die Zufallsvariable 1n

∑ni=1Xi eine stetige Verteilungsfunktion besitzt

und daher die Konstante γ∗ = 0 gewahlt werden kann).

Ubung 6.16: Man zeige fur die Situation aus Beispiel 6.15 mit bekannten µ ∈ R undunbekanntem σ2 > 0, dass der Test

ϕ(x) =

{1

0

}falls

n∑j=1

(xj − µ)2

{>

}σ2

0χ2n,1−α

einen UMP-Test fur die Hypothesen

H : σ2 = σ20 K : σ2 = σ2

1

definiert (dabei sei σ20 < σ2

1 gegeben und χ2n,β bezeichne das β-Quantil der χ2-Verteilung

mit n Freiheitsgraden).

36

Page 37: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Das Neyman-Pearson-Lemma ist ein wichtiges Hilfsmittel fur die Konstruktion von op-timalen Tests fur kompliziertere Hypothesen. UMP-Tests existieren im wesentlichen nurfur einfache Hypothesen und im Fall Θ ⊂ R fur einseitige Hypothesen der Form

H : θ ≤ θ0 K : θ > θ0,

falls die zugehorige Verteilungsfamilie die Eigenschaft des isotonen Dichtequotienten be-sitzt, die in der folgenden Definition erlautert wird.

Definition 6.17: Es sei X ∼ fθ eine n-dimensionale Zufallsvariable, θ ⊂ R und T : X →R eine Statistik. Die Familie von Verteilungen

P = {fθ | θ ∈ Θ}

heißt Klasse mit (strikt) isotonem Dichtequotienten in der Statistik T, falls fur alle θ0, θ1 ∈Θ mit θ0 < θ1 eine strikt isotone Funktion

Hθ0,θ1 : R → [0,∞]

existiert, so dass der Likelihood-Quotient die Darstellung

fθ1(x)

fθ0(x)= Hθ0,θ1(T (x))

fur allex ∈ {z ∈ X | fθ0(z) + fθ1(z) > 0}

besitzt.

Beispiel 6.18: In der Situation von Beispiel 6.15 ist T (x) =∑n

`=1 x` und

Hµ0,µ1(t) = k(µ0, µ1, σ2) exp

{µ1 − µ0

σ2t}

streng monoton wachsende Funktion (man beachte µ0 < µ1), so dass gilt

Lµ0,µ1(x) = Hµ0,µ1(T (x)).

Damit hat die zugehorige Verteilungsfamilie einen strikt isotonen Dichte-Quotienten inder Statistik T (x) =

∑ni=1 xi.

Ubung 6.19: Es sei P = {fθ | θ ∈ Θ} eine Verteilungsfamilie mit Θ ⊂ R,

fθ(x) = c(θ)h(x) exp(Q(θ)T (x))IA(x)

eine einparametrige exponentielle Familie mit monoton wachsender Funktion Q. Manzeige: die Verteilungsfamilie P besitzt einen isotonen Dichte-Quotienten in der StatistikT.

37

Page 38: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Satz 6.20: Es sei X ∼ fθ eine n-dimensionale Zufallsvariable und fur die StatistikT : X → R besitze die Familie von Verteilungen

P = {fθ | θ ∈ Θ}

(Θ ⊂ R) einen isotonen Dichte-Quotienten. Fur α ∈ (0, 1) und θ0 ∈ Θ gilt fur den durch

ϕ∗(x) := I{T (x) > c}+ γI{T (x) = c}

mit

c := inf{t | Pθ0(T (X) > t) ≤ α}

γ :=

{α−Pθ0

(T (X)>c)

Pθ0(T (X))=c)

falls Pθ0(T (X) = c) > 0

0 falls Pθ0(T (X) = c) = 0

definierten Test:

(1) ϕ∗ ist UMP-Test zum Niveau α fur die einseitigen Hypothesen

H : θ ≤ θ0; K : θ > θ0.

(2) Fur alle θ < θ0 gilt:

βϕ∗(θ) = inf{βϕ(θ) | ϕ ∈ Φ; βϕ(θ0) = α}.

D.h. ϕ∗ minimiert auch gleichmaßig die Wahrscheinlichkeit fur einen Fehler ersterArt unter allen Tests, die fur θ = θ0 als Wahrscheinlichkeit fur einen Fehler ersterArt exakt α liefern.

(3) Die Gutefunktion

βϕ∗ :

{Θ → [0, 1]

θ → βϕ∗(θ) = Eθ[ϕ∗(X)]

ist strikt isoton auf dem Urbild β−1ϕ∗ ((0, 1)).

Beispiel 6.21: In der Situation aus Beispiel 6.15 hat (vgl. Beispiel 6.18) die zugehorigeVerteilungsfamilie einen isotonen Dichtequotienten in der Statistik

T (X) =1

n

n∑i=1

Xi ∼ N (µ, σ2),

und wie in Beispiel 6.15 zeigt man fur µ0 ∈ R

c = inf{t | Pµ0

( 1

n

n∑i=1

Xi > t)≤ α

}= µ0 +

σ√nu1−α.

38

Page 39: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Damit definiertϕ∗(x) = I{xn > µ0 +

σ√nu1−α}

einen UMP-Test zum Niveau α fur die Hypothesen

H : µ ≤ µ0;K : µ > µ0

Dieser Test heißt einseitiger Gaußtest und kann auch leicht heuristisch hergeleitet werden.(man beachte, dass σ2 als bekannt vorausgestzt wird). Da Xn UMVU-Schatzer fur µ ist,liegt es nahe, die Hypothese H fur ,,große“ Werte von Xn zu verwerfen und bei ,,kleinen“Werten fur die Nullhypothese H zu entscheiden. D.h. ein sinnvoller Test die Form

ϕ∗(x) = I{xn > c}

besitzen, wobei die Konstante c durch die vorgegebene Irrtumswahrscheinlichkeit fest-gelegt wird. Wegen

βϕ(µ) = Pµ(Xn > c) = Pµ

(Xn − µ√σ2

n

>c− µ√

σ2

n

)= Φ

(√nµ− c

σ

)gilt

supµ≤µ0

βϕ∗(µ) = βϕ∗(µ0) = Φ(√n(µ0 − c)

σ

)≤ α.

Will man die vorgegebene Irrtumswahrscheinlichkeit voll ausschopfen, so erhalt man ausder Gleichung supµ≤µ0

βϕ∗(µ) = α die Darstellung c = µ0 + σ√nu1−α und damit den obigen

Gauß-Test.

Man beachte, dass dieses heuristische Prinzip auch leicht im Fall unbekannter Varianzanwendbar ist. In diesem Fall ersetzt man σ2 in der obigen Rechnung durch seinenUMVU-Schatzer S2

n = 1n−1

∑nj=1(Xj − Xn)2 und erhalt mit Ubung 1.19 (4)

βϕ(µ) = Pµ

(√n(Xn − µ)

Sn

>

√n

Sn

(c− µ)).

Man beachte, dass die Zufallsvariable

√n(Xn − µ)

Sn

eine t-Verteilung mit (n− 1)-Freiheitsgraden besitzt. Man erkennt wieder, dass die Funk-tion µ→ βϕ(µ) monoton wachsend in µ ist und dass man mit der Wahl

c = µ0 +Sn√ntn−1,1−α

die Gleichungsupµ≤µ0

βϕ(µ) = α

39

Page 40: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

erfullt ist. Damit erhalt man

ϕ∗∗(x) = I{Xn > µ0 +

Sn√ntn−1,1−α

}als Test zum Niveau α fur die Hypothesen H : µ ≤ µ0;K : µ > µ0 bei normalverteiltenDaten mit unbekannter Varianz σ2. Dieser Test heißt einseitiger (Einstichproben) t-Testund die Vorgehensweise σ2 durch seinen Schatzer S2

n zu ersetzen, nennt man ,,studentisieren“.Die Optimalitat dieses Verfahrens wird in Beispiel 6.29 geklart.

Bemerkung 6.22 : Fur Hypothesen der Form

(∗) H : θ = θ0; K : θ 6= θ0

existieren im allgemeinen keine UMP-Tests, da ein solcher Test fur alle Hypothesen derForm

(∗∗) H : θ = θ0; K : θ = θ1

mit θ0 6= θ1 optimal sein musste. Fur solche Hypothesen ist aber der Neyman-Pearson-Test optimal und man kann zeigen, dass jeder UMP-Test fur die Hypothesen in (∗∗) vomNeyman-Pearson-Typ ist (vgl. 6.14(3)). Damit musste ein UMP-Test fur die Hypothesen(∗∗) im Fall θ1 > θ0 die Darstellung

ϕ(x) = I{T (x) > c}+ γ(x)I{T (x) = c}

und im Fall θ1 < θ0 die Darstellung

ϕ(x) = I{T (x) < c}+ γ(x)I{T (x) = c}

besitzen, was einen Widerspruch ergibt. In diesen Fallen erhalt man optimale Tests, indem man sich auf die Klasse der unverfalschten Tests beschrankt und einparametrigeexponentielle Familien betrachtet.

Satz 6.23: Es sei X ∼ fθ, θ ∈ Θ ⊂ R eine n-dimensionale Zufallsvariable und, so dassdie Familie P = {fθ | θ ∈ Θ} eine einparametrige exponentielle Familie (vgl. Ubung 6.19)mit monoton wachsender Funktion Q(θ) bildet θ0, θ1, θ2 ∈ Θ; θ1 < θ2.

(1) Es existiert ein UMP-Test zum Niveau α ∈ (0, 1) fur die Hypothesen

H : θ 6∈ (θ1, θ2); K : θ ∈ (θ1, θ2),

namlich ein Test der Form

ϕ∗(x) =

1

γi

0

falls T (x)

∈ (c1, c2)

= ci i = 1, 2

6∈ [c1, c2]

40

Page 41: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

wobei die Konstanten c1, c2, γ1, γ2 aus den Bedingungen

βϕ∗(θ1) = βϕ∗(θ2) = α

bestimmt werden.

(2) Es existiert ein UMPU-Test zum Niveau α ∈ (0, 1) fur die Hypothesen

H : θ ∈ [θ1, θ2]; K : θ 6∈ [θ1, θ2],

namlich ein Test der Form

(∗) ϕ∗(x) =

1

γi

0

falls T (x)

6∈ [c1, c2]

= ci i = 1, 2

∈ (c1, c2)

wobei die Konstanten c1, c2, γ1, γ2 durch die Bedingungen

βϕ∗(θ1) = βϕ∗(θ2) = α

bestimmt werden.

(3) Es existiert ein UMPU-Test zum Niveau α ∈ (0, 1) fur die Hypothesen

H : θ = θ0; K : θ 6= θ0,

namlich ein Test der Form (∗), wobei die Konstanten c1, c2, γ1, γ2 durch die Bedin-gungen

βϕ∗(θ0) = α

β′ϕ(θ0) = 0 ⇐⇒ Eθ0 [T (X)ϕ∗(X)] = αEθ[T (X)]

festgelegt werden.

Beispiel 6.24: Es seienX1, . . . , Xn ∼ N (µ, σ2) unabhangig identisch verteilte Zufallsvari-able und σ2 bekannt und es soll ein Test fur die Hypothesen

H : µ ∈ [−ε, ε]; K : µ 6∈ [−ε, ε]

konstruiert werden ( man spricht vom Testen auf einen relevanten Unterschied). Diegemeinsamen Dichten

fµ(x) =(√

2πσ2)−n

exp(− 1

2σ2

n∑j=1

x2j

)exp(−nµ

2

2σ2

)exp( µσ2

n∑j=1

xj

)bilden eine einparametrige exponentielle Familie mit T (x) = 1

n

∑nj=1 xj undQ(µ) = nµ/σ2

(man beachte, dass der Parameter σ2 als bekannt vorausgesetzt wurde). Da die Verteilungder Zufallsvariablen

T (X) =1

n

n∑j=1

Xj

41

Page 42: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

stetig ist, konnen die Konstanten γ1, γ2 als 0 gewahlt werden und im Fall ε > 0 hat einUMPU-Test die Gestalt

(∗) ϕ∗ =

{1

0

}falls T (x)

{6∈ (c1, c2)

∈ [c1, c2],

wobei die Konstanten c1, c2 durch die Bedingung

α = βϕ∗(µ) = Eµ[ϕ∗(X)] = 1− Pµ

(c1 ≤

1

n

n∑i=1

Xi ≤ c2

)= 1− Pµ

(√n(c2 − µ)

σ≤√n(Xn − µ)

σ≤√n(c2 − µ)

σ

)= 1− Φ

(√n(c2 − µ)

σ

)+ Φ

(√n(c1 − µ)

σ

)fur µ = ∓ε festgelegt werden. Wegen der Symmetrie des Problems bietet sich die Wahlc1 = −c2 < 0 an und wir erhalten fur beide Gleichungen

α = 1− Φ(√n(c2 − ε)

σ

)+ Φ

(√n(−c2 − ε)

σ

)= h(c2).

Durch Differenzieren zeigt man, dass diese Gleichung genau eine Losung hat, die numerischermittelt werden muss.Fur ε = 0 erhalten wir aus Satz 6.23(3) die Gleichungen

α = βϕ∗(0) = 1− Φ(√nσc2

)+ Φ

(√nσc1

)0 = β′ϕ∗(0) =

√n

σ

{ϕ(√nσc2

)− ϕ

(√nσc1

)},

wobei

ϕ(t) =1√2πe−t2

die Dichte der Standardnormalverteilung bezeichnet. Das liefert als explizite Losung

c2 = −c1 =σ√nu1−α/2,

und mit diesen kritischen Werten aus (∗) einen UMPU-Test fur die Hypothesen

H : µ = 0; K : µ 6= 0.

Dieser Test heißt zweiseitiger Gauß-Test.

Wir bemerken abschließend, dass durch Translation jedes Testproblem fur die Hypothesen

H : µ ∈ [µ1, µ2]; K : µ 6∈ [µ1, µ2]

mit µ1 ≤ µ2 auf die obige Form transformiert werden kann [man betrachte statt derZufallsvariablen Xi = Xi die Zufallsvariablen X := Xi − (µ1 + µ2)/2].

42

Page 43: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Ubung 6.25: Wie in Beispiel 6.21 leite man den zweiseitigen Gauß-Test fur die Hypothe-sen

H : µ = µ0; K : µ 6= µ0

mit einem heuristischen Argument her. Man zeige dann, dass bei unbekannter Varianzder Test

ϕ(x) = I{|xn − µ0| >

sn√ntn−1,1−α/2

}das Niveau α besitzt, wobei tn−1,β das β-Quantil der t-Verteilung mit n−1 Freiheitsgradenbezeichnet. Dieser Test heißt zweiseitiger t-Test.

Ubung 6.26: (Varianztest bei Normalverteilung) Es seien X1, . . . , Xn ∼ N (µ, σ2)unabhangig identisch verteilte Zufallsvariable und µ bekannt. Die Verteilungen von(X1, . . . , Xn) bilden eine einparametrige exponentielle Familie

fσ2(x) = (2πσ2)−n/2 exp(− 1

2σ2

n∑i=1

(xj − µ)2)

mit isotoner Funktion Q(σ2) = − 1σ2 und Statistik T (x) =

∑nj=1(xj − µ)2. Wegen Ubung

6.19 und Satz 6.20 liefertϕ(x) = I{T (x) > c}

einen UMP-Test zum Niveau α ∈ (0, 1) fur die Hypothesen

H : σ2 ≤ σ20; K : σ2 > σ2

0,

falls die Konstante c durch die Bedingung

α = βϕ(σ20) = Pσ2

0

( n∑j=1

(Xj − µ)2 > c)

festgelegt ist. Falls σ2 = σ20 ist, gilt

n∑j=1

(Xj − µ)2 ∼ σ20χ

2n

und wir erhalten c = σ20χ

2n,1−α, wobei χ2

n,1−α das (1− α)-Quantil der χ2-Verteilung mit nFreiheitsgraden bezeichnet. Damit ist

ϕ(x) = I{ n∑

j=1

(xj − µ)2 > σ20χ

2n,1−α

}ein UMP-Test zum Niveau α fur die Hypothesen H : σ2 ≤ σ2

0; K : σ2 > σ20. Fur die

HypothesenH : σ2 = σ2

0; K : σ2 6= σ20

43

Page 44: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

istϕ(x) = I{T (x) 6∈ [c1, c2]}

ein UMPU-Test zum Niveau α [vgl. Satz 6.23 (3)], wobei die Konstanten c1, c2 durch dieBedingungen

α = βϕ(σ20) = 1− Fχ2

n

( c2σ2

0

)+ Fχ2

n

( c1σ2

0

)0 = β′ϕ(σ2

0) =1

σ40

{c2F

′χ2

n

( c2σ2

0

)− c1F

′χ2

n

( c1σ2

0

)}festgelegt werden und Fχ2

n(·) die Verteilungsfunktion der χ2-Verteilung mit n Freiheits-

graden bezeichnet. Die Losung dieser Gleichungen muss numerisch erfolgen ( man kannzeigen, dass es eine eindeutige Losung gibt). In der Praxis ignoriert man oft die zweiteGleichung und setzt c2 = σ2

0χ2n,1−α/2, c1 = σ2

0χ2n,α/2 und erhalt als Test

ϕ(x) = I{T (x) > σ20 · χ2

n,1−α/2}+ I{T (x) < σ20 · χ2

n,α/2}

als Test zum Niveau α fur die obigen Hypothesen (der dann nicht notwendig UMPU-Testist). Ist der Parameter µ unbekannt, so wird dieser mit xn geschatzt und wir erhaltenwegen

∑nj=1(xj − xn)2 ∼ σ2χ2

n−1 als einen Test zum Niveau α fur die die Hypothesen

H : σ2 = σ20;K : σ2 6= σ2

0

ϕ(x) = I{ n∑

j=1

(xj − xn)2 > σ20χ

2n−1,1−α/2

}+I{ n∑

j=1

(xj − xn)2 < σ20χ

2n−1,α/2

}.

Die Optimalitat dieses Verfahrens wird in Beispiel 6.29 geklart. Dieser Test heißt χ2-Testfur die Varianz bei Normalverteilung.

Bemerkung 6.27: Mit der bis jetzt besprochenen Theorie konnen nur optimale Testsfur Hypothesen in einparametrigen Verteilungsfamilien hergeleitet werden. Viele fur dieAnwendungen wichtige Beispiele basieren aber auf mehrparametrigen Verteilungsfamilien(man denke an Beispiel 6.21 und 6.26, in denen bei Kenntnis eines Parameters optimaleTests bestimmt werden konnen, die Optimalitat der Tests mit geschatzten Nebenpara-meter aber nicht klar ist). In diesem Fall kann dennoch die Optimalitat von vielen Testsnachgewiesen werden. Wir wollen im Folgenden die prinzipielle Vorgehensweise erlauternund an zwei wichtigen Beispielen illustrieren. Dazu betrachten wir eine zweiparametrigeexponentielle Familie mit naturlicher Parametrisierung

fηξ(x) = c(ξ, η)h(x) exp(ηU(x) + ξV (x))IA(x),

in der die Hypothesen bzgl. des Parameters η getestet werden sollen (d.h. der Parameterξ wird als Nebenparameter behandelt). Man kann dann (mit einem maßtheoretischenArgument) zeigen, dass die bedingten Verteilungen

PU |V =vηξ

44

Page 45: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

eine einparametrige exponentielle Familie bilden, deren Verteilungen nicht von dem Pa-rameter ξ abhangen [siehe z.B. Witting (1985), Seite 159-162]. Damit sind bedingtauf V = v UPM-Tests und UMPU-Tests fur die besprochenen Hypothesen (wie z.B.H : η ≤ η0;K : η > η0) konstruierbar, und man kann zeigen, dass diese Tests dann auchUMPU-Tests fur diese Hypothesen im unbedingten Fall sind. In vielen Fallen kann mandurch eine geeignet Transformation von den bedingten zu unbedingten Tests ubergehen.Man beachte, dass durch dieses Prinzip ,,nur“ UMPU-Tests erhalten werden [vgl. Witting(1985); Kapitel 3.3].

Beispiel 6.28: (der exakte Test von Fisher zum Vergleich von Binomialverteilun-gen) Es seienX ∼ Bin(n1, π1), Y ∼ Bin(n2, π2) unabhangige Zufallsvariable (man denkean den Vergleich des Therapieerfolgs von zwei Medikamenten, die jeweils an n1 und n2

verschiedenen Patienten getestet werden). Gesucht ist ein Test fur die Hypothesen

H : π1 ≤ π2; K : π1 > π2.

Mit θ = (π1, π2) ∈ (0, 1)2 erhalten wir fur die gemeinsame Verteilung von X und Y

Pθ(X = k, Y = `) =

(n1

k

)πk

1(1− π − 1)n1−k

(n2

`

)π`

2(1− π2)n2−`

=

(n1

k

)(n2

`

)(1− π1)

n1(1− π2)n2 exp

{log

π1

1− π1

1− π2

π2

k + logπ2

1− π2

(k + `)}

[k ∈ {0, . . . , n1}; ` ∈ {0, . . . , n2}], und daher liegt eine zweiparametrige exponentielleFamilie mit Parametern

η = logπ1

1− π1

− logπ2

1− π2

; ξ = logπ2

1− π2

und StatistikenU(x) = x; V (x) = x+ y

vor. Die obigen Hypothesen konnen in dieser Parametrisierung geschrieben werden als

H : η ≤ η0 := 0; K : η > η0.

Die bedingten Verteilungen PU |X=vηξ = P

X|X+Y =vηξ bilden eine einparametrige exponentielle

Familie mit Parameter η und Statistik u = u(x) [man beachte, dass wir diese Aussagenicht bewiesen haben; vgl. Witting (1985), Seite 159-162] und wir erhalten aus Satz 6.20und Ubung 6.19, dass bei gegebenem V = X + Y = v ∈ {0, . . . , n1 + n2] ein UMP-Testfur H : η ≤ η0;K : η > η0 zum Niveau α existiert, namlich

ϕ∗(u, v) =

1

γ(v)

0

falls u

>

=

<

c(v),

wobei die Konstanten c(v) und γ(v) durch die Bedingung

Eη0 [ϕ∗(U, V ) | V = v] = α

45

Page 46: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

festgelegt werden. Fur die bedingte Verteilung erhalten wir (man beachte, dass η = η0 = 0genau dann gilt, wenn π1 = π2 erfullt ist)

Pη0ξ(X = u | X + Y = v) =Pπ1(X = u)Pπ1(Y = v − u)

Pπ1(X + Y = v)

=

(n1

u

)(n2

v−u

)(n1+n2

v

) =: hv(u)

falls v ∈ {0, . . . , n1 +n2}, u ∈ {0, . . . , v} und 0 sonst (d.h. es liegt eine hypergeometrischeVerteilung vor). Die Konstanten c(v) und γ(v) konnen fur gegebenes v jetzt aus derGleichung

α = Eη0ξ[ϕ(U, V ) | V = v] =v∑

u=c(v)+1

hv(u) + γ(v)hv(c(v))

bestimmt werden. Der so durchgefuhrte bedingte Test ist UMPU-Test fur die Hypothesen

H : η ≤ η0; K : η > η0 ⇐⇒ H : π1 ≤ π2; K : π1 > π2

[vgl. Witting (1985), Seite 376].Als Anwendungsbeispiel betrachten wir den Vergleich von 2 Medikamenten A1 und A2

die jeweils an n1 = 10 und n2 = 10 Patienten getestet wurden. Intuitiv wurde man dieHypothese H : π1 ≤ π2 zu Gunsten von K : π1 > π2 ablehnen, falls bedingt auf die Anzahlder Therapieerfolge in der Gesamtstichprobe die Anzahl der Therapieerfolge in der erstenStichprobe (Behandlung unter Medikament A1) unverhaltnismaßig groß ist, und genaudas macht der oben konstruierte UMPU-Test. Bei 2 Erfolgen in Gruppe 1 und 4 Erfolgenin Gruppe 2 erhalten wir: x = 2; y = 4;u = 2, v = 6 und fur α = 10% wegen

h6(u) =

(10u

)(10

6−u

)(26

) u = 0, . . . , 6

aus der obigen Gleichungc(6) = 5, γ(6) = 0.1213.

Damit wird wegen u = 2 ≤ c(6) = 4 die Hypothese H : π1 ≤ π2 nicht verworfen. Wirbemerken abschließend, dass in der Praxis oft auf die Randomisierung verzichtet wird undγ(v) = 0 gesetzt wird. Man erhalt dann naturlich einen Test mit kleinerem Niveau alsdie vorgegebene Irrtumswahrscheinlichkeit α.

Beispiel 6.29: (Optimalitat von Einstichprobentests bei Normalverteilung) Esseien X1, . . . , Xn ∼ N (µ, σ2) unabhangig identisch verteilte Zufallsvariable, wobei beideParameter als nicht bekannt vorausgesetzt werden. Fur die gemeinsame Dichte erhaltenwir wegen

(2πσ2)−n/2 exp(−nµ

2

2σ2

)exp(− 1

2σ2

n∑i=1

x2i

)exp( µσ2

n∑i=1

xi

)

46

Page 47: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

eine zweiparametrige exponentielle Familie mit naturlichen Parametern

η = − 1

2σ2ξ =

µ

σ2

und Statistiken

u(x) =n∑

i=1

x2i v(x) =

n∑i=1

xi.

(1) Fur das Testen der Hypothesen

H : σ2 ≤ σ20; K : σ2 > σ2

0 ⇐⇒ H : η ≤ η0; K : η > η0

(wobei η0 = −1/σ20 gegeben ist) erhalten wir als bedingten UMPU-Test fur gegebenes

V = v

ϕ∗(u, v) =

1

γ(v)

0

falls u

>

=

0

c(v),

wobei die Konstanten c(v) und γ(v), durch die Gleichung

α = Eη0ξ[ϕ∗(u, v) | V = v]

bestimmt werden. In diesem Fall konnen wird durch eine einfache Transformationzu einem unbedingten Test gelangen. Fur festes v ist namlich die Abbildung

u→ h(u, v) :=1

σ20

(u− v2

n)

monoton wachsend und damit der Test ϕ∗ aquivalent zu dem Test

ψ∗(u, v) =

1

γ(v)

0

falls h(u, v)

>

=

<

c(v),

wobei die Konstanten γ(v), c(v) durch die Gleichung

α = Eη0ξ[ψ∗(U, V ) | V = v]

festgelegt werden. Nach Ubung 1.19 gilt aber, dass die Zufallsvariablen

h(U, V ) =1

σ20

{ n∑i=1

X2i −

(∑ni=1Xi

)2

n

}=

1

σ20

n∑i=1

(Xi − Xn)2 ∼ χ2n−1

und V =∑n

i=1Xi stochastisch unabhangig sind und wir erhalten

α = Eη0ξ[ψ∗(U, V ) | V = v] = Pη0ξ(h(U, V ) > c(v)) = 1− Fχ2

n−1(c(v)).

47

Page 48: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Damit kann c(v) = χ2n−1,1−α unabhangig von v gewahlt werden und es ergibt sich

als unbedingter UMPU-Test fur die Hypothesen

H : σ2 ≤ σ20; K : σ2 > σ2

0

der Test

ψ∗(x) = I{ n∑

i=1

(xi − xn)2 > σ20χ

2n−1,1−α

},

wobei χ2n−1,1−α das (1 − α) Quantil der χ2-Verteilung mit n Freiheitsgraden beze-

ichnet (die Optimalitat folgt dabei wiederum aus dem allgemeinen Prinzip: Witting(1985), Seite 376).

(2) In ahnlicher Weise erhalt man einen UMPU-Test fur die Hypothesen

H : µ ≤ µ0 K : µ > µ0 ⇐⇒ H : ξ ≤ ξ0; K : ξ > ξ0

(wobei ξ0 = µ0/σ2 gegeben ist). Als bedingten UMPU-Test ergibt sich fur gegebenes

U = u

ϕ∗(u, v) =

1

γ(u)

0

falls v

>

=

<

c(u)

ist. Mit der fur festes u streng monotonen Abbildung

h(u, v) =

√n√1

n−1

v/n− µ0√u− 1

nv2

ist dieser Test aquivalent zu dem Test

ψ∗(u, v) = I{h(u, v) > c(u)}+ γ(u)I{h(u, v) = c(u)},

wobei die Konstanten c(u) und γ(u) durch die Bedingung

Eηξ0 [ψ∗(U, V ) | U = u] = α

festgelegt werden. Man kann zeigen, dass die Statistiken

h(U, V ) = T (X) =

√n(Xn − µ0)√

1n−1

∑ni=1(Xi − Xn)2

∼ tn−1

V =n∑

i=1

X2i

stochastisch unabhangig sind [das geht entweder direkt mit der Transformations-formel oder mit dem Satz von Basu (vgl. Lehmann, Testing Statistical Hypotheses,Seite 191] und wir erhalten fur alle u : γ(u) = 0, c(u) = tn−1,1−α, d.h.

ψ∗(x) = I{T (x) > tn−1,1−α}

ist ein UMPU-Test fur die oben genannten Hypothesen.

48

Page 49: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Bemerkung 6.30: Wendet man das in Bemerkung 6.28 und Beispiel 6.29 erlautertePrinzip auf Hypothesen der Form H : η = η0; K : η 6= η0, so muss die Abbildung h indem entsprechenden Argument streng wachsend und linear sein.

7 Likelihood-Quotienten-Tests und asymptotische Ei-

genschaften von Tests

Bemerkung 7.1: Ein allgemeines Prinzip fur die Konstruktion eines Tests fur die Hy-pothesen

H : θ ∈ ΘH ; K : θ ∈ ΘK

in einem statistischen Experiment ist die Likelihood-Quotienten-Methode. Dabei bildetman bei Vorliegen einer Realisierung x = X(ω) einer Zufallsvariablen X ∼ Pθ denLikelihood-Quotienten

λ(x) =sup{fθ(x) | θ ∈ ΘH}sup{fθ(x) | θ ∈ Θ}

und lehnt die Nullhypothese fur kleine Werte von λ(x) ab (da man unter der AlternativeK einen kleinen Wert von λ(x) erwarten wurde). Damit lautet die Entscheidungsregel

ϕ(x) = I{λ(x) < c}+ γI{λ(x) = c},

wobei die Konstante c ∈ (0, 1), so festzulegen ist, dass dieser Test das Niveau α hat, d.h.

supθ∈ΘH

Eθ[ϕ(X)] ≤ α

gilt.

Beispiel 7.2: (F -Test fur den Varianzquotienten) Es seien X1, . . . , Xm ∼ N1(µ, σ2)

unabhangig identisch verteilte Zufallsvariablen und Y1, . . . , Yn ∼ N1(v, τ2). unabhangig

identisch verteilte Zufallsvariable. Außerdem seien die Zufallsvariablen X1, . . . , Xm undY1, . . . , Yn stochastisch unabhangig (man spricht von unabhangigen Stichproben). Gesuchtist ein Test fur die Hypothesen

H : σ2 = τ 2; K : σ2 6= τ 2.

In diesem Beispiel ist Θ = R× R× R+ × R+, θ = (µ, v, σ2, τ 2) und

ΘH = {(µ, v, σ2, σ2) | µ, v ∈ R, σ2 ∈ R+}.

Die gemeinsame Dichte der Beobachtungen X1, . . . , Xm, Y1, . . . , Yn lautet

fθ(x, y) =( 1

2πσ2

)m2( 1

2πτ 2

)n2

exp{− 1

2σ2

m∑i=1

(xi − µ)2 − 1

2τ 2

n∑j=1

(yj − v)2}.

49

Page 50: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Fur die Berechnung des Supremums im Nenner sind die Maximum-Likelihood-Schatzungenzu berechnen und wir erhalten mit

θn = (µm, νn, σ2m, τ

2n)T = (xn, yn,

1

n

m∑i=1

(xi − xm)2,1

m

n∑j=1

(yj − yn)2)T

fur den Nenner

supθ∈Θ

fθ(x, y) = fθn(x, y) = (2π)−

m+n2 e

m+n2 (σ2

m)−m2 (τ 2

n)−n2 .

Fur die Berechnung des Supremums im Zahler bestimmen wir die Maximum-Likelihood-Schatzungen unter der Nebenbedingung σ2 = τ 2 und erhalten

θn = (µm, νn, σ2m,n, σ

2m,n)T ,

wobei fur den Varianzschatzer

σ2m,n =

1

m+ n

{ m∑i=1

(xi − xm)2 +n∑

j=1

(yj − yn)2}

gilt. Das liefert fur den Zahler

supθ∈ΘH

fθ(x, y) = fθn(x, y) = (2π)−

m+n2 e−

m+n2

(σ2

m,n

)−m+n2,

und fur den Likelihood-Quotienten

λ(x, y) =

(σ2

m

)m/2(τ 2n

)n/2(σ2

m,n

)m+n

2

= cm,n

(1 +

1

Hm,n

)−m2(1 +Hm,n

)−n2,

wobei die Konstante cm,n durch

cm,n =(m+ n

m

)m/2(m+ n

n

)n/2

definiert ist und die Statistik Hm,n durch

Hm,n(x, y) =

∑mi=1(xi − xm)2∑nj=1(yj − yn)2

gegeben ist. Man zeigt leicht, dass die Funktion

H → (1 +1

H)−

m2 (1 +H)−

n2

auf R+ genau ein Maximum besitzt und das diese Funktion fur H → 0, H →∞ gegen 0konvergiert. Damit erhalt man die Aquivalenz

λ(x, y) ≤ c ⇐⇒ Hm,n(x, y) 6∈ [c1, c2]

50

Page 51: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

fur geeignete Konstanten 0 ≤ c1 < c2 ≤ ∞. Nach Ubung 1.19 (1) und Definition 1.17(3)ist unter der Nullhypothese H : σ2 = τ 2

F (X, Y ) =n− 1

m− 1Hm,n(X, Y ) =

1m−1

∑mi=1(Xi − Xm)2

1n−1

∑nj=1(Yj − Yn)2

∼ Fm−1,n−1

F -verteilt mit (m− 1, n− 1) Freiheitsgraden. Damit erhalt man durch

ϕ(x, y) = 1− I{Fm−1,n−1,α/2 < F (x, y) < Fm−1,ns−1,1−α/2

}einen Likelihood-Quotiententest zum Niveau α, wobei Fm,n,β das β-Quantil der F -Verteilungmit m,n Freiheitsgraden bezeichnet. Man beachte, dass eine Randomisierung nichtnotwendig ist (d.h. γ = 0 kann gewahlt werden) und das

EH0 [ϕ(X, Y )] = 1− PH0

(Fm−1,n−1,α/2 < F (X, Y ) < Fm−1,n−1,1−α/2

)= 1− (1− α/2) + α/2 = α

gilt. Mit diesem Argument kann man auch andere Quantile wahlen, um einen Test zumNiveau α zu erhalten, z.B. Fm−1,n−1,β und Fm−1n−1,1−γ, wobei β + γ = α gilt.

Beispiel 7.3: (Zwei Stichproben t-Test) In der Situation aus Beispiel 7.2 setzen wirzusatzlich σ2 = τ 2 voraus und suchen einen Test fur die Hypothesen

H : µ = ν; K : µ 6= ν.

In diesem Beispiel ist Θ = R× R× R+ und

ΘH = {θ = (µ, v, σ2) | µ = v}.

Fur das Supremum im Zahler des Likelihood-Quotienten erhalt man mit einfacher Rech-nung

supθ∈ΘH

fθ(x, y) = (2πs2)−m+n

2 exp(−m+ n

2),

wobei S2 durch

s2 =1

m+ n

{ m∑i=1

(xi − m)2 +n∑

j=1

(Yj − m)2}

mit

m2 =1

m+ n

{ m∑i=1

xi +n∑

j=1

yj

}=

m

m+ nxm +

n

m+ nyn

definiert ist. Das Supremum des Nenners haben wir in Beispiel 7.2 als

supθ∈Θ

fθ(x, y) = (2π)m+n

2 e−m+n

2 (σ2m,n)−

m+n2

51

Page 52: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

bestimmt, und damit erhalt man fur den Likelihood-Quotienten

λ(x, y) =sup{fθ(x, y) | θ ∈ ΘH}sup{fθ(x, y) | θ ∈ Θ}

=( σ2

m,n

s2

)m+n2.

Wegen

s2 = σ2m,n +

m

m+ n(xm − m)2 +

n

m+ n(yn − m)2

= σ2m,n +

mn

(m+ n)2(xm − yn)2

erhalten wir

λ(x, y) ={ 1

1 + 1(m+n)(m+n−2)

T 2(x, y)

}m+n2,

wobei die Statistik T (x, y) durch

T (x, y) =

√mn

m+ n

xm − yn√1

m+n−2

{∑mi=1(xi − xm)2 +

∑nj=1(yj − yn)2

definiert ist. Wegen der Unabhangigkeit der Stichproben erhalten wir unter der Annahmeµ = ν √

mn

m+ n(Xm − Yn) ∼ σ · N (0, 1)

m∑i=1

(Xi − Xm)2 +n∑

j=1

(Yn − Yn)2 ∼ σ2χ2m+n−2.

Außerdem sind die Zufallsvariablen Xm, Yn,∑m

i=1(Xi− Xm)2,∑n

j=1(Yj− Yn)2 stochastischunabhangig und damit Zahler und Nenner in T (X, Y ) ebenfalls stochastisch unabhangig.Daher gilt unter der Nullhypothese H : µ = ν

T (X, Y ) ∼ tm+n−2

und wegen der Monotonie der Abbildung

t→( 1

1 + at2

)m+n2

(fur positives a) lautet ein Likelihood-Quotiententest zum Niveau α fur die Hypothesen

H : µ = ν; K : µ = ν

ϕ(x, y) = I{|T (x, y)| > tm+n−2,1−α/2,

wobei tr,β das Quantil der t-Verteilung mit r Freiheitsgraden bezeichnet. Der obige Testheißt Zwei-Stichproben t-Test. Man beachte, dass dieser Test gleiche Varianzen in beiden

52

Page 53: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Stichproben voraussetzt und diese Annahme zunachst uberpruft werden muss (z.B. mitdem F -Test aus Beispiel 7.2 mit einem relativ hohen Niveau).

Bemerkung 7.4:

(1) Mit ahnlichen Argumenten erhalt man in Beispiel 7.2 und 7.3 Tests fur einseitigeHypothesen. Z.B. lautet der Likelihood-Quotiententest fur die Hypothesen

H : σ21 ≤ σ2

2; K : σ21 > σ2

2

in der Situation von Beispiel 7.2

ϕ(x, y) = I{F (x, y) > Fm−1,n−1,1−α}

und der Zwei-Stichproben t-Test fur die Hypothesen

H : µ ≤ ν; K : µ > ν

ϕ(x, y) = I{T (x, y) > tm+n−2,1−α}.

(2) Fur die so bestimmten Tests kann mit der Argumentation aus Bemerkung 6.27 (vgl.auch Beispiel 6.28, 6.29) die UMPU-Eigenschaft nachweisen.

Ubung 7.5: Es seien X1, . . . , Xn ∼ N1(µ, σ2)unabhangig identisch verteilte Zufallsvari-

able. Man bestimme den Likelihood-Quotienten-Test fur die Hypothesen

H : µ = µ0; K : µ 6= µ0

H : σ2 = σ20; K : σ2 6= σ2

0

und zeige, dass sich analoge Testverfahren wie in Beispiel 6.29 ergeben (dort wurdeneinseitige Hypothesen betrachtet).

In den vorigen Beispielen erkennt man, dass die Berechnung des Likelihood-Quotientenprinzipiell kein Problem darstellt (obwohl diese in den meisten Fallen numerisch erfolgenmuss). Die Schwierigkeit besteht in der Festlegung des kritischen Werts c, so dass dieAblehnung der Nullhypothese im Fall λ(x) < c einen Test zum Niveau α liefert. In denobigen Beispielen konnten wir durch eine Transformation von λ(X) eine Zufallsvariablemit bekannter Verteilung erhalten. In den meisten Fallen ist eine solche Transformationnicht moglich! Dennoch konnen bei großem Stichprobenumfang die Wahrscheinlichkeiten

Pθ(λ(X) ≤ c)

fur θ ∈ ΘH zumindest naherungsweise bestimmt werden. Wir betrachten dazu eine Stich-probe X1, . . . , Xn von unabhangigen Zufallsvariablen mit Dichte ∼ f

(1)θ ; θ ∈ Θ.

Bezeichnungen und Annahmen 7.6:

53

Page 54: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(A1) Es sei Θ ⊂ Rd ∆ ⊂ Rc offen, c < d, und h : ∆ → Θ eine Abbildung mit h(∆) = ΘH ,die zweimal stetig differenzierbar ist und deren Jacobi-Matrix h′(η) fur alle η ∈ ∆vollen Rang hat (Parametrisierung der Nullhypothese).

(A2) Fur die Verteilungsfamilie

Ph := {f (1)h(η) | η ∈ ∆} ⊂ P = {f (1)

θ | θ ∈ Θ}

gelten die Annahmen aus Satz 4.6. Mit diesen Bezeichnung kann der Likelihood-Quotient dann geschrieben werden als

λ(x) =sup{fh(η)(x) | η ∈ ∆}sup{fθ(x) | θ ∈ ∆}

=fh(ηn)(x)

fθn(x)

,

wobei θn der Maximum-Likelihood-Schatzer in P⊗ ist und ηn der Maximum-Liklihood-Schatzer in P⊗

h ist (Schatzer unter Nullhypothese).

Beispiel 7.7: Wir betrachten die Situation aus Beispiel 7.3. Dann ist θ = (µ, ν, σ2)

Θ = R× R× R+ ⊂ R3

ΘH = {θ = (µ, ν, σ2) | µ = ν}.

Die Parametrisierung der Nullhypothese erfolgt mit der Abbildung

h :

{∆ → Θ

(µ, σ2) → (µ, µ, σ2),

wobei die Menge ∆ durch

∆ = {(µ, σ2) | µ ∈ R, σ2 ∈ R+} = R× R+

definiert ist. Da h linear ist, ist h zweimal stetig differenzierbar und die Ableitung

h′(η) =

1 0

1 0

0 1

hat vollen Rang c = 2 fur alle η ∈ ∆. Die Maximum-Likelihood-Schatzer lauten

θn =

Xn

Yn

σ2m,n

(vgl. Beispiel 7.3) und in der Teilfamilie P⊗

h erhalt man als Maximum-Likelihood-Schatzer

ηn =

(m

m+nXm + n

m+nYn

S2

)

54

Page 55: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(vgl. Beispiel 7.3).

Satz 7.8: Unter den Annahmen aus Satz 4.6 und 7.6 gilt fur jedes θ ∈ ΘH = h(∆)

Tn := −2 log λ(X) = 2{log fθn(X)− log fh(ηn)(X)} D−→

n→∞χ2

d−c

d.h. fur großen Stichprobenumfang konnen die Wahrscheinlichkeiten Pθ(Tn > c) mit derVerteilungsfunktion der χ2-Verteilung mit (d− c)-Freiheitsgraden berechnet werden.

Beispiel 7.9: (Unabhangigkeitstest in r × s Kontingenztafel) Wir betrachten dieSituation aus Beispiel 3.15: Y1, . . . , Yn i.i.d. ∼M(1, p11, p12, . . . , prs)

Y =n∑

j=1

Yj = (X11, . . . , Xrs)T ∼ M(n, p11, . . . , prs).

Wir wollen untersuchen, ob die Faktoren A und B unabhangig sind, d.h.

H : pij = P (Ai ∩Bj) = P (Ai)P (Bj) = pi·p·j

mit

pi· =s∑

j=1

pij p·j =r∑

i=1

pij .

Die gemeinsame Dichte von Y lautet

fp(x) = Pp(Xij = xij ∀ i, j)

=n!∏r

i=1

∏sj=1 xij!

r∏i=1

s∏j=1

pxij

ij I{xij ∈ {0, . . . , n};∑ij

xij = n}

und es ist

Θ = {p = (p11, . . . , prs)T |

r∑i=1

s∑j=1

pij = 1}⊂∼

Rd

mit d = rs− 1,ΘH = {p ∈ Θ | pij = pi·p·j}⊂

∼Rc

mit c = r + s − 2 (man beachte, dass∑r

i=1 pi· =∑s

j=1 p·j = 1 gilt). Man rechnet leichtnach, dass die Maximum-Likelihood-Schatzung im allgemeinen Modell durch

pij =Xij

ni, j = 1, . . . , n

gegeben ist und erhalt fur das Supremum im Nenner

sup{fp(x) | p ∈ Θ} =n!∏r

i=1

∏sj=1 xij!

r∏i=1

s∏j=1

(xij

n

)xij

I{. . .}.

55

Page 56: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

Um die Maximum-Likelihood-Schatzung unter Nullhypothese zu berechnen beachte man,dass fur p ∈ ΘH gilt

fp(x) =n!∏r

i=1

∏sj=1 xij!

r∏i=1

pxi·i·

s∏j=1

px·j·j I{. . .},

wobei xi· =∑r

j=1 xij und x·j =∑r

i=1 xij gilt. Das liefert als Maximum-Likelihood-Schatzung unter der Nullhypothese

pij = pi·p·j

mitpi· =

xi·

n; p·j =

x·jn,

und wir erhalten fur das Supremum im Zahler

sup{fp(x) | p ∈ ΘH} =n!∏r

i=1

∏sj=1 xij!

r∏i=1

(xi·

n

)xi·s∏

j=1

(x·jn

)x·jI{. . .}.

Das liefert dann

−2 log λ(x) = 2r∏

i=1

s∏j=1

xij log( xij

xi·x·jn

)und nach Satz 7.8 [d−c = rs−1−(r+s−2) = (r−1)(s−1)] gilt unter der Nullhypothese

Zn = −2 log λ(X) = 2r∑

i=1

s∑j=1

Xij log( Xij

Xi·X·jn

)D−→ χ2

(r−1)(s−1).

Mit der Approximation log x ≈ (x− 1)− 12(x− 1)2 kann man dann zeigen, dass

Zn − TnP−→ 0,

wobei fur die Zufallsvariable

Tn =r∑

i=1

s∑j=1

(Xij − Xi·X·j

n

)2

Xi·X·jn

D−→ χ2(r−1)(s−1)

gilt. Damit verwirft der Likelihood-Quotiententest die Hypothese der Unabhangigkeit,falls

Tn > χ2(r−1)(s−1),1−α

gilt. Dieser Test heißt Unabhangigkeitstest von Pearson und Fisher. Wegen der obigenVerteilungskonvergenz gilt fur alle θ ∈ H

limn→∞

Pθ(Tn > χ2(r−1)(s−1),1−α) = 1− (1− α) = α,

56

Page 57: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

d.h. bei großem Stichprobenumfang hat der Test naherungsweise das Niveau α. Manbeachte die anschauliche Interpretation der Teststatistik Tn. Man vergleicht die gefun-denen Klassenhaufigkeiten mit den Haufigkeiten, die man unter der Nullhypothese derUnabhangigkeit erwarten wurde und verwirft die Unabhangigkeitshypothese fur großeWerte des Abstandsmaßes.

Definition 7.10: Es sei X(n) ∼ (X1, . . . , Xn) ∼ f(n)θ eine n-dimensionale Zufallsvariable

mit Werten in Xn und fur n ∈ N

ϕn :

{Xn → [0, 1]

x(n) → ϕn(x(n))

ein Test fur die Hypothesen

H : θ ∈ ΘH ; K : θ ∈ ΘK .

(1) Die Folge von Tests (ϕn)n∈N besitzt asymptotisch das Niveau α, falls

limn→∞ supθ∈ΘH

βϕn(θ) ≤ α.

(2) Die Folge von Tests (ϕn)n∈N heißt konsistent (fur H gegen K) falls fur alle θ ∈ ΘK

giltlim

n→∞βϕn(θ) = 1.

Man beachte, dass bei großem Stichprobenumfang (n → ∞) ein asymptotischerNiveau α-Test ϕn naherungsweise das Niveau α hat und dass fur einen konsistentenTest die Wahrscheinlichkeit fur einen Fehler zweiter Art bei wachsendem Stichprobe-numfang gegen Null konvergiert.

Bemerkungen 7.11:

(1) Man spricht abkurzend von einem asymptotischen Test zum Niveau α und von einemkonsistenten Test.

(2) Wie im Fall des Schatzens ist die Konsistenz eine Minimalforderung an einen sta-tistischen Test.

Beispiele 7.12:

(1) Unter den Annahmen aus Satz 4.6 und 7.7 besitzt der Test

ϕn(x(n)) = I{−2 log λ(x(n)) > χ2d−c,1−α}

57

Page 58: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

asymptotisch das Niveau α, denn nach Satz 7.8 gilt fur alle θ ∈ ΘH

limn→∞

Pθ(Tn > χ2d−c,1−α) = 1− (1− α) = α.

Man kann auch zeigen, dass dieser Test konsistent ist (Lit. D. Morgenstern: Einfuhrungin die Wahrscheinlichkeitstheorie und Mathematische Statistik).

Fur den Unabhangigkeitstest von Pearson-Fisher kann man die Konsistenz auchdirekt einsehen. Wegen

Xij

n

P−→ pij;Xi·

n

P−→ pi·;X·j

n

P−→ p·j

gilt namlich

1

nTn =

r∑i=1

s∑j=1

(Xij

n− Xi·

n

X·jn

)2

Xi·n

X·jn

P−→r∑

i=1

s∑j=1

(pij − pi·p·j)2

pi·p·j=: ∆

und ∆ > 0, falls die Nullhypothese der Unabhangigkeit nicht gilt. Damit erhaltenwir fur die Gutefunktion

[I{Tn > χ2

(r−1)(s−1),1−α

}]= Pθ

( 1

nTn >

1

nχ2

(r−1)(s−1),1−α

)−→n→∞

1.

(2) Es seien X1, . . . , XM i.i.d. ∼ N1(µ, σ2) und Y1, . . . , Yn ∼ N1(µ, τ

2) i.i.d. un-abhangige Stichproben. Unter der Annahme σ2 = τ 2 ist der Zwei-Stichprobentestaus Beispiel 7.3 ein unverfalschter Test zum Niveau α. fur die Hypothesen

H : µ = ν; K : µ 6= ν

(Dieser Test ist sogar gleichmaßig bester unverfalschter Test). Falls man diese An-nahme nicht mehr machen kann, ist die Konstruktion eines solchen Tests unmoglichund man bezeichnet dieses Problem als Behrens-Fisher-Problem. Die Konstruktioneines asymptotischen Niveau-α-Tests bereitet weniger Schwierigkeiten. Dazu setzenwir

T ∗n,m(X, Y ) =Xm − Yn√

1m

1m−1

∑mj=1(Xj − Xm)2 + 1

n1

n−1

∑nj=1(Yj − Yn)2

und definieren durch

ϕ(x, y) = I{|T ∗n,m(x, y)| > u1−α/2)

einen Test, wobei u1−α das (1−α)-Quantil der Standardnormalverteilung ist. Wegen

Xm ∼ N (µ,σ2

m), Yn ∼ N (v,

τ 2

n)

gilt fur den Zahler der Statistik T ∗m,n(σ2

m+τ 2

n

)−1/2

(Xm − Yn − (µ− ν)) ∼ N (0, 1)

58

Page 59: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

und

1

m− 1

m∑i=1

(Xi − Xm)2 P−→n→∞

σ2

1

n− 1

n∑j=1

(Yj − Yn)2 P−→n→∞

τ 2.

Die letzte Aussage erhalt man entweder mit Satz 4.6, da diese Schatzer bis auf dieFaktoren m

m−1und n

n−1mit den Maximum-Likelihood-Schatzern ubereinstimmen,

oder mit Bemerkung 4.5, da sich diese Schatzer auch mit der Momentenmethodeergeben [vgl. auch Beispiel 4.3(1)]. Damit erhalten wir mit

S2m,n =

1

m

1

m− 1

m∑i=1

(Xi − Xm)2 +1

n

1

n− 1

n∑j=1

(Xj − Xn)2

die stochastische Konvergenz(σ2

m+τ 2

n

)−1

S2m,n

P−→ 1,

falls m → ∞, n → ∞ und m/n → κ ∈ [0,∞] gilt. Fur die Gutefunktion mitθ = (µ, v, σ2, τ 2) ergibt sich dann

βϕ(θ) = Eθ[ϕ(X, Y )] = Pθ(|T ∗m,n(X, Y )| > u1−α/2)

1− Pθ

(µ− ν

sm,n

− u1−α/2 <Xm − Yn − (µ− ν)

Sm,n

< u1−α/2 −µ− ν

Sm,n

)−→

m,n→∞m/n→∞

{α falls µ = ν

1 falls µ 6= ν,

da nach dem Lemma von Slutsky

Xm − Yn − (µ− ν)

Sm,n

D−→ N (0, 1)

gilt und fur µ 6= ν|µ− ν|Sm,n

P−→∞

gilt. Daher ist der Test ϕ konsistent und hat asymptotisch das Niveau α. Manbeachte, dass sich dieser Test auch mit dem Likelihood-Quotienten-Prinzip ergibt.

Beispiel 7.13: (Bartlett-Bartlett-Test auf Varianzhomogenitat) Es seien Xij ∼N1(µi, σ

2i ) i = 1, . . . , r; j = 1, . . . , ni unabhangige Zufallsvariable (man denke an r Grup-

pen, mit je ni-Objekten). Wir bestimmen den Likelihood-Quotienten-Test fur die Hy-pothesen

H : σ21 = . . . = σ2

r ; K : σ2i 6= σ2

j (∃ i 6= j)

59

Page 60: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

(man beachte, dass d = 2r und c = r+1 gilt). Die gemeinsame Dichte von X11, . . . , Xr,nr

lautet

fθ(x) =r∏

i=1

( 1√2πσ2

i

)ni

exp(− 1

2σ2i

ni∑j=1

(xij − µi)2),

wobei θ = (µ1, . . . , µr, σ21, . . . , σ

2r) ∈ Rr × (R+)r ist und x = (x11, . . . , xrnr) ∈ Rn mit

n =∑r

i=1 ni gesetzt wird. Man sieht sofort, dass die Statistiken

Xi· =1

ni

ni∑j=1

Xij ∼ N1(µi,σ2

i

ni

) i = 1, . . . , r

(i-tes Gruppenmittel) und

σ2i =

1

ni

ni∑j=1

(Xij − Xi·)2 ∼ σ2

i

ni

χ2ni−1 i = 1, . . . , r

(Streuung in der i-ten Gruppe) die Maximum-Likelihood-Schatzer fur die Parameterµ1, . . . , µr und σ2

1, . . . , σ2r liefern.

Die Maximum-Likelihood-Schatzer unter Null-Hypothese lauten

µi = Xi·

σ2 =1

n

r∑i=1

ni∑j=1

(Xij − Xi·)2 =

r∑i=1

ni

nσ2

i

und fur den Likelihood-Quotienten erhalt man

λ(X) =sup{fθ(x) | θ ∈ ΘH}sup{fθ(x) | θ ∈ Θ}

=(2πσ2)−n/2 exp(−n/2)∏r

i=1(2πσ2i )−ni/2 exp(−ni/2)

=r∏

i=1

( σ2i

σ2

)ni/2

.

Mit einer Verallgemeinerung von Satz 7.8 kann man dann zeigen, dass fur ni → ∞(i =1, . . . , r);ni/n→ κi ∈ (0, 1) gilt

T (X) = −2 log λ(X) = n log σ2 −r∑

i=1

ni log σ2i

D−→ χ2r−1

(man beachte d− c = 2r − (r + 1) = r − 1) und damit ist der Test

ϕ(x) = I{T (x) > χ2r−1,1−α}

ein asymptotischer Niveau-α-Test. Wegen

1

nT (X) = log σ2 −

r∑i=1

ni

nlog σ2

iP−→ log σ2 −

r∑i=1

κi log σ2i = ∆

mit

σ2 =n∑

i=1

κiσ2i

60

Page 61: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

konvergiert 1nT (X) gegen eine Große ∆ ≥ 0, die genau dann positiv ist, wenn die Null-

hypothese gleicher Varianzen nicht gilt. Damit erhalten wir fur ∆ > 0 (d.h. unter derAlternative der Inhomogenitat)

βϕ(θ) = Eθ[ϕ(X)] = Pθ(T (X) > χ2r−1,1−α)

= Pθ

( 1

nT (X) >

1

nχ2

r−1,1−α

)−→n→∞

1

und der obige Test ist konsistent. Dieser Test heißt Bartlett-Test auf Varianzhomogenitat.

Bemerkung 7.14: Die Konsistenz eines Tests bedeutet, dass der Test bei beliebig großemStichprobenumfang auch beliebig kleine Abweichungen von der Nullhypothese aufdeckt.Wir bemerken abschließend, dass man mit der Interpretation eines solchen Ergebnissessorgfaltig umgehen sollte, da man in der Regel an beliebig kleinen Abweichungen nicht in-teressiert sein wird. Dazu betrachten wir als Beispiel eine zweifaktorielle Kontingenztafel,die verschiedene Haushalte nach Jahreseinkommen und Anzahl der Kinder klassifiziert.

Anzahl der Jahreseinkommen

Kinder 0 1 2 3 Summe

0 2161 3577 2184 1636 9558

1 2755 5081 2222 1052 11110

2 936 1753 640 306 3635

3 2255 419 96 38 778

≥ 4 39 98 31 14 182

Summe 6116 10928 5173 3046 25263

Wir wollen die Frage untersuchen, ob die Faktoren Jahreseinkommen und Anzahl derKinder unabhangig sind (vgl. Beispiel 7.9). Dazu beachten wir, dass r = 5, s = 4 gilt undberechnen fur die konkret vorliegenden Daten die Pearson-Fisher-Statistik

Tn(x) =r∑

i=1

s∑j=1

(xij − xi·x·j/n)2

xi·x·jn

= 568, 566.

Fur einen (asymptotischen) Test zum Niveau α = 0.05 findet man in einer Tabelle (odermit Software) χ2

3·4,0.95 ≈ 21.026 und wegen Tn(x) > 568, 566 wird die Hypothese derUnabhangigkeit klar verworfen. Wir schließen also, dass die Faktoren Anzahl der Kinderund Jahreseinkommen abhangig sind. Allerdings haben wir mit dieser Testentscheidungkeine Information uber die Starke dieser Abhangigkeit. Als Maß fur die Abhangigkeitverwendet man oft

Vn = Vn(X) =

√Tn(X)

nmin{r, s} − 1,

61

Page 62: 3 Exponentielle Familien - ruhr-uni-bochum.de · 3 Exponentielle Familien In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei denen u.a. in der

denn es gilt (vgl. Beispiel 7.12(1))

VnP−→

√√√√ 1

min{r, s} − 1

r∑i=1

s∑j=1

(pij − pi·p·j)2

pi·p·j.

Fur die konkret vorliegenden Daten erhalt man

Vn(x) ≈ 0.087,

d.h. es liegt nur eine schwache Abhangigkeit vor, die unser Test nur deshalb entdeckt hat,da eine sehr große Anzahl von Daten vorliegt (namlich n = 25263).Als Konsequenz dieses Beispiels bemerken wir, dass man eine Testentscheidung moglichstimmer mit einem Maß fur die Abweichung von der Nullhypothese angeben sollte. Leiderwird das in der statistischen Praxis fast nie gemacht.

62