Klassische Sch atz- und...

of 42 /42
Kapitel 2 Klassische Sch¨ atz- und Testtheorie Grundmodell: Die Stichprobe X =(X 1 ,...,X n ) besitzt die Verteilung P ∈P = {P θ : θ Θ}, Θ R k , wobei θ: k-dimensionaler Parameter Θ: Parameterraum k<n, oft k n, mit dim(θ)= k fest f¨ ur asymptotische (n →∞)-Betrachtungen. In der Regel vorausgesetzt: Es existiert Dichte f (x|θ)= f (x 1 ,,...,x n |θ) zu P θ , so dass man analog schreiben kann: P = {f (x|θ): θ Θ}. Klassische Sch¨ atz- und Testtheorie f¨ ur finite (d.h. f¨ ur festen Stichprobenumfang n) i.i.d.-Stichprobe von besonderer Relevanz; es gilt: f (x|θ)= f (x 1 |θ) · ... · f (x n |θ). Viele Begriffe, insbesondere der Sch¨ atztheorie, jedoch von genereller Bedeutung. Literatur: Lehmann & Casella (1998), Lehmann & Romano (2005), R¨ uger (1999, 2002) Band I+II Definition 2.1 (Statistik). Eine Statistik ist eine messbare Funktion T : X -→ R l x 7-→ T (x). Normalerweise ist l<n, da mit der Statistik T eine Dimensionsreduktion erzielt werden soll. 19

Embed Size (px)

Transcript of Klassische Sch atz- und...

  • Kapitel 2

    Klassische Schätz- und Testtheorie

    Grundmodell:

    Die Stichprobe X = (X1, . . . , Xn) besitzt die Verteilung P ∈ P = {Pθ : θ ∈ Θ},Θ ⊆ Rk,wobei

    • θ: k-dimensionaler Parameter

    • Θ: Parameterraum

    • k < n, oft k � n, mit dim(θ) = k fest für asymptotische (n→∞)-Betrachtungen.

    • In der Regel vorausgesetzt: Es existiert Dichte

    f(x|θ) = f(x1, , . . . , xn|θ) zu Pθ,

    so dass man analog schreiben kann:

    P = {f(x|θ) : θ ∈ Θ}.

    • Klassische Schätz- und Testtheorie für finite (d.h. für festen Stichprobenumfang n)i.i.d.-Stichprobe von besonderer Relevanz; es gilt:

    f(x|θ) = f(x1|θ) · . . . · f(xn|θ).

    • Viele Begriffe, insbesondere der Schätztheorie, jedoch von genereller Bedeutung.

    • Literatur: Lehmann & Casella (1998), Lehmann & Romano (2005), Rüger (1999, 2002)Band I+II

    Definition 2.1 (Statistik). Eine Statistik ist eine messbare Funktion

    T :

    {X −→ Rlx 7−→ T (x).

    Normalerweise ist l < n, da mit der Statistik T eine Dimensionsreduktion erzielt werden soll.

    19

  • Beispiel 2.1.

    → T (x) Schätzfunktion

    → T (x) Teststatistik

    → T (x) = `(θ;x) Log-Likelihoodfunktion

    2.1 Klassische Schätztheorie

    Gesucht: Punkt- oder Bereichsschätzung für θ oder einen transformierten Parametervek-tor τ(θ).

    Beispiel 2.2. X1, . . . , Xni.i.d.∼ N(µ, σ2) mit θ = (µ, σ2)>. Hier könnte τ(θ) = µ sein (d.h. σ2

    ist Nuisance-Parameter) oder τ(θ) = 1/σ2 (d.h. die Präzision ist von Interesse).

    Definition 2.2 (Punktschätzung, Schätzer, Schätzfunktion). Sei

    T :

    {X −→ Θ ⊆ Rkx 7−→ T (x)

    eine messbare Abbildung. Man bezeichnet mit T (x) den Schätzwert oder die Punktschätzung(zu konkreter Realisation x) und mit T (X) den Punktschätzer von θ, der eine Zufallsvariableist (auch gebräuchlich: θ̂(x) oder kurz θ̂, d.h. notationell wird nicht zwischen Schätzwert undSchätzfunktion unterschieden).

    2.1.1 Suffizienz

    Der Begriff der Suffizienz ist von grundlegender Bedeutung in der klassischen parametrischenInferenz; darüber hinaus ist die Bedeutung (stark) abgeschwächt, vgl. auch Statistik IV.

    Definition 2.3. Eine Statistik T heißt suffizient für θ (oder auch für P) def⇔ die bedingteVerteilung bzw. Dichte von X gegeben T (x) = t ist für alle Werte von T (x) = t von θunabhängig, d.h.

    fX|T (x|T (x) = t, θ) = fX|T (x|T (x) = t)

    hängt nicht von θ ab.

    Idee: Zusätzliche Information in X, die nicht in T enthalten ist, ist durch fX|T gegeben. FallsfX|T von θ unabhängig ist, dann enthält die Stichprobe x nicht mehr Information über θals T (x).

    Folgender Satz ist äquivalent und konstruktiv:

    Satz 2.4 (Faktorisierungssatz, Neyman-Kriterium). Eine Statistik T ist suffizient für θ genaudann wenn

    f(x|θ) = h(x)g(T (x)|θ)

    für fast alle x, d.h. die Dichte lässt sich in zwei Teile faktorisieren, von denen ein Teil von x,aber nicht von θ, und der andere nur von θ und T (x) abhängt.

    20

  • Beweis.

    ”⇒”: Falls T suffizient ist, gilt:

    fX|T (x|T (x) = t, θ) =fX,T (x, t|θ)fT |θ(t|θ)

    .

    Weiterhin ist

    fX,T (x, t|θ) =

    {fX|θ(x|θ) für T (x) = t0 sonst,

    d.h.fX|T (x|t)︸ ︷︷ ︸

    h(x)

    · fT |θ(t|θ)︸ ︷︷ ︸g(T (x)|θ)

    = fX|θ(x|θ).

    ”⇐”: Man erhält die Dichte von T , ausgewertet an t, indem man im obigen Faktorisierungs-

    kriterium über die x, für die T (x) = t gilt, summiert (bzw. integriert). Im diskretenFall also:

    fT |θ(t|θ) =∑

    x:T (x)=t

    h(x)g(T (x)|θ) = g(t|θ)∑

    x:T (x)=t

    h(x).

    Damit ist die bedingte Dichte von X gegeben T = t,

    fX|θ(x|θ)fT |θ(t|θ)

    =h(x)g(T (x)|θ)∑x:T (x)=t h(x)g(t|θ)

    =h(x)∑

    x:T (x)=t h(x),

    unabhängig von θ. Im stetigen Fall werden Summen durch Integrale ersetzt; im Detailwerden Messbarkeitsbedingungen verwendet.

    Beispiel 2.3 (Bernoulli-Experiment). Seien X1, . . . , Xni.i.d.∼ Bin(1, π) und Z =

    ∑ni=1Xi die

    Anzahl der Erfolge. Dann ist Z suffizient für π, denn

    fX|Z(x|z, π) = Pπ(X = x|Z = z)

    =

    ∏ni=1 π

    xi(1− π)1−xi(nz

    )πz(1− π)n−z

    , wobein∑i=1

    xi = z

    =

    (n

    z

    )−1ist unabhängig von π. Gemäß Faktorisierungssatz ist

    f(x|π) = 1(nz

    )︸︷︷︸=h(x)

    (n

    z

    )πz(1− π)n−z︸ ︷︷ ︸

    =g(z|π)

    = 1︸︷︷︸=h∗(x)

    πz(1− π)n−z︸ ︷︷ ︸=g∗(z|π)

    .

    Beispiel 2.4 (Normalverteilung). Sei X = (X1, . . . , Xn) mit Xii.i.d.∼ N(µ, σ2) und

    θ = (µ, σ2)>.

    fX|θ(x|θ) =(

    1√2πσ

    )nexp

    (− 1

    2σ2

    n∑i=1

    (xi − µ)2)

    = (2π)−n/2︸ ︷︷ ︸h(x)

    (σ2)−n/2 exp

    (− 1

    2σ2

    (n∑i=1

    x2i − 2µn∑i=1

    xi + nµ2

    ))︸ ︷︷ ︸

    g((∑ni=1 xi,

    ∑ni=1 x

    2i )|θ)

    ,

    21

  • d.h. T (x) =(∑n

    i=1 xi,∑n

    i=1 x2i

    )ist suffizient für θ = (µ, σ2)>. Aber: Die bijektive Transfor-

    mation T̃ (x) = (x̄, s2) ist auch suffizient für θ, wobei s2 die Stichprobenvarianz bezeichnet.

    Beispiel 2.5 (Exponentialverteilung). Sei X = (X1, . . . , Xn)i.i.d.∼ Exp(λ), dann

    f(x|λ) =n∏i=1

    f(xi|λ) = 1︸︷︷︸h(x)

    ·λn exp

    (−λ

    n∑i=1

    xi

    )︸ ︷︷ ︸

    g(T (x)|λ)

    mit T (x) =∑n

    i=1 xi. Nach der ursprünglichen Definition ist

    fX,T |λ(x, t|λ)fT |λ(t|λ)

    =λn exp (−λ

    ∑ni=1 xi)

    λn

    Γ(n) (∑n

    i=1 xi)n−1 exp (−λ

    ∑ni=1 xi)

    =Γ(n)

    (∑n

    i=1 xi)n−1 .

    Dabei wird benutzt, dass die Summe von n unabhängigen und identisch exponentialverteiltenZufallsvariablen mit Parameter λ gammaverteilt ist mit Parametern n und λ.

    Beispiel 2.6 (Order-Statistik). Sei X1, . . . , Xni.i.d.∼ f(x|θ) (wobei f stetige Dichte ist) und

    T (x) = x(·) = (x(1), . . . , x(n)) die Order-Statistik. Dann gilt

    fX|T,θ(x|T = x(·), θ) =1

    n!.

    Die Gleichheit folgt aus der Stetigkeit, denn xi 6= xj ∀i 6= j (mit Wahrscheinlichkeit 1).x(·) ist suffizient für θ. Wir haben also bei i.i.d.-Beobachtungen keinen Informationsverlustdurch Ordnen der Daten.

    Bemerkung.

    • Offensichtlich ist T (x) = x, d.h. die Stichprobe selbst, suffizient.

    • Ebenso ist jede eineindeutige Transformation von x oder von einer suffizienten Stati-stik T (x) suffizient.

    • Ist T suffizient, dann auch (T, T ∗), wobei T ∗ eine beliebige weitere Statistik darstellt.

    Dies zeigt: Die Dimension einer suffizienten Statistik sollte soweit wie möglich reduziert wer-den.

    Definition 2.5 (Minimalsuffizienz). Eine Statistik T heißt minimalsuffizient für θdef⇔ T ist

    suffizient, und zu jeder anderen suffizienten Statistik V existiert eine Funktion H mit

    T (x) = H(V (x)) P − fast überall.

    Frage: Existieren minimalsuffiziente Statistiken? Wenn ja, sind sie eindeutig?

    Beispiel 2.7 (Normalverteilung).

    1. T (x) = x̄ ist minimalsuffizient für µ bei bekanntem σ2.

    2. T (x) =∑n

    i=1(xi − µ)2 ist minimalsuffizient für σ2 bei bekanntem µ.

    22

  • 3. T (x) =(∑n

    i=1 xi,∑n

    i=1 x2i

    )ist minimalsuffizient für µ und σ2.

    Lemma 2.6. Sind T und S minimalsuffiziente Statistiken, dann existieren injektive Funk-tionen g1, g2, so dass T = g1(S) und S = g2(T ).

    Satz 2.7 (Charakterisierung von Minimalsuffizienz durch Likelihood-Quotienten). Definiereden Likelihood-Quotienten

    Λx(θ1, θ2) =f(x|θ1)f(x|θ2)

    .

    Eine notwendige und hinreichende Bedingung für die Minimalsuffizienz einer Statistik T für θist, dass für alle θ1 und θ2 gilt:

    T (x) = T (x′) ⇔ Λx(θ1, θ2) = Λx′(θ1, θ2).

    Beispiel 2.8 (Suffizienz in Exponentialfamilien). Die Dichte einer k-parametrischen Expo-nentialfamilie hat die Form

    f(x|θ) = h(x) · c(θ) · exp(γ1(θ)T1(x) + . . .+ γk(θ)Tk(x))= h(x) · exp(b(θ) + γ(θ)>T (x)),

    d.h. T (x) = (T1(x), . . . , Tk(x))> ist suffizient für θ nach Faktorisierungssatz. Falls Θ ein

    offenes Rechteck in Rk enthält, ist T auch minimalsuffizient.

    Es folgt nun die Charakterisierung der Minimalsuffizienz nach Lehmann-Scheffé. Dazu wirdder Begriff der Vollständigkeit benötigt.

    Definition 2.8. Eine Statistik T ist vollständigdef⇔ für jede reelle Funktion g gilt:

    Eθ[g(T )] = 0 ∀θ ⇒ Pθ(g(T ) = 0) = 1 ∀θ.

    Aus der Definiton wird nicht unmittelbar klar, warum”Vollständigkeit” eine wünschenswerte

    Eigenschaft eines Schätzers sein sollte. Einen möglichen Grund liefert der folgende Satz.

    Satz 2.9 (Lehmann-Scheffé). Angenommen, X besitzt eine Dichte f(x|θ) und T (X) ist suf-fizient und vollständig für θ. Dann ist T (x) minimalsuffizient für θ.

    Bemerkung (Ancillarity-Statistik). Eine Statistik V (X) heißt ancillary (”

    Hilfsstatistik”)für P, wenn ihre Verteilung nicht von θ abhängt (also bekannt ist).

    Häufiger Sachverhalt: T = (U, V ) ist suffizient für θ, V ancillary, U nicht suffizient.

    Beispiel 2.9. X1, . . . , Xni.i.d.∼ U

    [θ − 12 , θ +

    12

    ]. Man kann dann zeigen (Davison, 2004), dass

    mit

    U =1

    2(X(1) +X(n))

    V = X(n) −X(1)

    T = (U, V ) suffizient, aber nicht vollständig für θ ist. Ferner ist U alleine nicht suffizient undV ancillary.

    23

  • 2.1.2 Erwartungstreue, Varianz und MSE

    • Fehler eines Schätzers θ̂ = θ̂(X) ist θ̂ − θ.

    • Messung des Fehlers durch Verlustfunktion, zum Beispiel

    L(θ̂, θ) = |θ̂ − θ| Abstand (θ skalar),

    L(θ̂, θ) = ‖θ̂ − θ‖2 quadratischer Fehler,

    L(θ̂, θ) =‖θ̂ − θ‖2

    ‖θ‖2relativer quadratischer Fehler,

    L(θ̂, θ) = (θ̂ − θ)>D(θ̂ − θ) gewichteter quadratischer Fehler (D positiv definit).

    • Risikofunktion R(θ̂, θ) = Eθ[L(θ̂, θ)].

    • Hier wird (hauptsächlich) quadratischer Verlust betrachtet.

    Definition 2.10 (Erwartungstreue, Bias, Varianz eines Schätzers).

    • θ̂ heißt erwartungstreu def⇔ Eθ[θ̂] = θ.

    • Biasθ(θ̂) = Eθ[θ̂]− θ.

    • Varθ(θ̂) = Eθ[(θ̂ − Eθ[θ̂])2], θ skalar.

    Definition 2.11 (MSE). Der mittlere quadratische Fehler (mean squared error) ist definiertals

    MSEθ(θ̂) = Eθ[(θ̂ − θ)2] = Varθ(θ̂) + (Biasθ(θ̂))2.

    Der Gesamtfehler lässt sich also aufteilen in einen zufälligen Fehler (Varianz) und einensystematischen (quadrierter Bias).

    Vergleicht man zwei Schätzer bezüglich ihres MSE, kann für einen Teilbereich von Θ der MSEdes einen, für andere Teilbereiche der MSE des zweiten Schätzers kleiner sein:

    Beispiel 2.10. X1, . . . , Xni.i.d.∼ B(1, π).

    1. MSE von π̂ = X̄:

    Eπ[(X̄ − π)2] = Varπ(X̄) =π(1− π)

    n.

    2. MSE des Bayes-Schätzers (Posteriori-Erwartungswert) bei einer Priori p(π) ∼ Be(α, β):

    π̂B =Y + α

    α+ β + n, Y =

    n∑i=1

    Xi,

    MSE(π̂B) = Varπ

    (Y + α

    α+ β + n

    )+

    (Eπ

    [Y + α

    α+ β + n− π

    ])2=

    nπ(1− π)(α+ β + n)2

    +

    (nπ + α

    α+ β + n− π

    )2.

    24

  • Für α = β =√n/4 ergibt sich

    MSEπ(π̂B) = Eπ[(π̂B − π)2] =1

    4

    n

    (n+√n)2

    = const bezüglich π.

    Fazit: In der Regel wird man keinen”MSE-optimalen” Schätzer θ̂opt finden in dem Sinne,

    dass MSEθ(θ̂opt) ≤ MSEθ(θ̂) für alle θ und alle konkurrierenden θ̂. Bei Einschränkung auf

    erwartungstreue Schätzer ist dies öfter möglich. Deshalb die Forderung:

    Definition 2.12 (zulässiger (”admissible”) Schätzer). Ein Schätzer θ̂ heißt zulässig

    def⇔ esgibt keinen Schätzer θ̃ mit MSEθ(θ̃) ≤ MSEθ(θ̂) für alle θ und MSEθ(θ̃) < MSEθ(θ̂) fürmindestens ein θ, d.h. es gibt keinen Schätzer θ̃, der θ̂ gleichmäßig/strikt

    ”dominiert”.

    Definition 2.13 (Verallgemeinerungen des MSE auf θ ∈ Rp, p > 1). Üblich sind die folgendenzwei Alternativen:

    1. MSE (skalar):

    MSE(1)θ (θ̂) = Eθ[‖θ̂ − θ‖

    2]

    =

    p∑j=1

    Eθ[(θ̂j − θj)2]

    =

    p∑j=1

    MSEθ(θ̂j)

    2. MSE-Matrix:

    MSE(2)θ (θ̂) = Eθ[(θ̂ − θ)(θ̂ − θ)

    >]

    = Covθ(θ̂) + (Eθ[θ̂]− θ)(Eθ[θ̂]− θ)>

    Diese Variante wird häufig bei linearen Modellen betrachtet.

    25

  • Bemerkung. Das j-te Diagonalelement der MSE-Matrix ist MSEθ(θ̂j). Vergleich von MSE-Matrizen gemäß

    ”Löwner”-Ordnung:

    MSEθ(θ̃)(≤)< MSEθ(θ̂)

    bedeutet, dass die Differenz MSEθ(θ̂)−MSEθ(θ̃) positiv (semi-)definit ist. Man definiert all-gemein für geeignete Matrizen A,B:

    A ≤ B def⇔ B−A ist positiv semidefinit,

    A < Bdef⇔ B−A ist positiv definit.

    Beispiel 2.11 (Gauß-Experiment). Seien X1, . . . , Xni.i.d.∼ N(µ, σ2).

    • σ2 bekannt, µ unbekannt: MSE-Vergleich von X̄ und T = bX̄ + a.

    • σ2 unbekannt, µ bekannt:

    – Eine Möglichkeit:

    S2µ =1

    n

    n∑i=1

    (Xi − µ)2, Eσ2(S2µ) = σ2

    – Weitere Möglichkeit:

    V 2µ =1

    n+ 2

    n∑i=1

    (Xi − µ)2,Eσ2(V 2µ ) =n

    n+ 2σ2

    Es stellt sich heraus, dass MSEσ2(V2µ ) < MSEσ2(S

    2µ) ist.

    • µ und σ2 unbekannt:

    – Eine Möglichkeit:

    S2 =1

    n− 1

    n∑i=1

    (Xi − X̄)2,

    Eσ2(S2) = σ2, MSEσ2(S

    2) = Varσ2(S2) =

    2

    n− 1σ4.

    – Weitere Möglichkeit:

    V 2 =1

    n+ 1

    n∑i=1

    (Xi − X̄)2,

    Eσ2(V2) =

    n− 1n+ 1

    σ2, MSEσ2(V2) =

    2

    n+ 1σ4,

    d.h. V 2 dominiert S2.

    – Der sogenannte Stein-Schätzer

    T = min

    {V 2,

    1

    n+ 2

    n∑i=1

    X2i

    }

    26

  • dominiert V 2 (und damit S2). Plausibilitätsbetrachtung: Ist µ = 0, so ist∑ni=1X

    2i /(n+2) besserer Schätzer als V

    2. Ist µ 6= 0, so ist V 2 ein besserer Schätzerals∑n

    i=1X2i /(n + 2). Beim Stein-Schätzer wird fallweise mit hoher Wahrschein-

    lichkeit der jeweils bessere Schätzer benutzt.

    Beispiel 2.12 (Stein’s Paradoxon). Seien (X1, . . . , Xm)> ∼ Nm(µ,C) multivariat normal-

    verteilt mit µ = (µ1, . . . , µm)>, C = diag(σ21, . . . , σ

    2m). Es sollen simultan die Erwartungs-

    werte µ1, . . . , µm geschätzt werden. Man beachte dabei, dass die einzelnen Komponenten alsunabhängig angenommen werden. Die Stichprobe hat die Form

    X11, . . . , X1n1 , . . . , Xm1, . . . , Xmnm

    (i.i.d. Stichproben aus”

    Gruppen” 1, . . . ,m). Übliche Schätzer:

    Tj = X̄j , j = 1, . . . ,m, T = (T1, . . . , Tm)> = (X̄1, . . . , X̄m)

    >.

    Der (skalare) MSE ist:

    Eµ[‖T − µ‖2] =m∑j=1

    Eµ[(X̄j − µj)2] =m∑j=1

    σ2jnj.

    Paradoxerweise gilt:

    1. Für m ≤ 2 ist T zulässig.

    2. Für m ≥ 3 ist T nicht zulässig und wird dominiert durch den Stein-Schätzer

    T ∗ =

    (1− m− 2

    T>T

    )T =

    (1− m− 2∑m

    j=1 X̄2j

    )T .

    Dieses Ergebnis ist unabhängig von den Stichprobenumfängen n1, . . . , nm in den Gruppen. Eslässt sich zeigen: T ∗ ist Minimax-Schätzer, aber selbst unzulässig. Der Stein-Schätzer ist einsogenannter Shrinkage-Schätzer.

    Beispiel 2.13 (Lineares Modell).

    y = Xβ + ε, ε ∼ (N)(0, σ2I)

    KQ-Schätzer: β̂KQ = (X>X)−1X>y

    Ridge-Schätzer: β̂Ridge = (X>X + λD)−1X>y,

    wobei D eine Diagonalmatrix mit positiven Diagonalelementen ist. Für einen MSE-Vergleichsiehe Vorlesung/Buch zu Lineare Modelle.

    Fazit: Bereits im einfachen Beispiel der Schätzung von π in B(1, π) (siehe Beispiel 2.10) zeigtsich, dass es im Allgemeinen keine MSE-optimalen Schätzer gibt.

    27

  • Auswege:

    1. Einschränkung auf Teilklasse von Schätzern, zum Beispiel erwartungstreue (und lineare)Schätzer, äquivariante Schätzer, . . .

    2. MSE-Kriterium verändern:

    • Ersetze MSEθ(θ̂) durch Minimierung von maxθ∈Θ MSEθ(θ̂) (Minimax-Kriterium)• oder ersetzte MSEθ(θ̂) durch Ep(θ)[MSEθ(θ̂)] bei einer Priori-Verteilung p(θ) (Bayes-

    Schätzer).

    Hier: Strategie 1 mit erwartungstreuen Schätzern, vgl. 2.1.4.

    2.1.3 Fisher-Information und Suffizienz

    Definition 2.14 (Fisher-reguläre Verteilungsfamilien). Eine Familie von Verteilungen Pθmit Dichte f(x|θ) = f(x1, . . . , xn|θ), θ ∈ Θ, heißt Fisher-regulär, wenn Folgendes gilt:

    1. Der Träger {x ∈ X : f(x|θ) > 0} ist unabhängig von θ (dies ist zum Beispiel beiX1, . . . , Xn

    i.i.d.∼ U [0; θ] oder bei der Pareto-Verteilung verletzt).

    2. Θ ist offen in Rp (verletzt zum Beispiel bei σ2 ≥ 0).

    3. Die ersten und zweiten Ableitungen von f(x|θ) bzgl. θ existieren und sind für jedes θendliche Funktionen von x.

    4. Vertauschbarkeit: Sowohl für f(x|θ) als auch für log(f(x|θ)) kann erstes und zweitesDifferenzieren nach θ und Integration über x vertauscht werden.

    Definition 2.15 (Log-Likelihood, Scorefunktion und Information).

    `(θ;x) = log f(x|θ) ( Log-Likelihood von θ bzgl. der Stichprobe x)

    s(θ;x) =∂

    ∂θ`(θ;x) =

    (∂

    ∂θ1`(θ;x), . . . ,

    ∂θp`(θ;x)

    )>( Score-Funktion)

    J(θ;x) = −∂2`(θ;x)

    ∂θ∂θ>( beobachtete Informationsmatrix der Stichprobe mit Elementen

    (J(θ;x))ij = −∂2 log f(x|θ)∂θi∂θj

    )I(θ) = Eθ[J(θ;X)] ( erwartete oder Fisher-Informationsmatrix)

    Satz 2.16. Ist Pθ Fisher-regulär, so gilt:

    1. Eθ [s(θ;X)] = 0

    2. Eθ

    [−∂

    2`(θ;X)∂θ∂θ>

    ]= Covθ(s(θ;X))

    28

  • Beweis.

    Zu 1.:

    Eθ[s(θ;X)] =

    ∫s(θ;x)f(x|θ) dx

    =

    ∫∂

    ∂θlog(f(x|θ))f(x|θ) dx

    =

    ∫ ∂∂θf(x|θ)f(x|θ)

    f(x|θ)dx

    =∂

    ∂θ

    ∫f(x|θ)dx = 0

    Zu 2.:

    [−∂

    2`(θ;X)

    ∂θ∂θ>

    ]= −Eθ

    [∂

    ∂θ

    (∂∂θ>

    f(X|θ)f(X|θ)

    )]

    = −Eθ

    [f(X|θ) ∂2

    ∂θ∂θ>f(X|θ)− ( ∂∂θf(X|θ))(

    ∂∂θ>

    f(X|θ))f(X|θ)2

    ]

    unter Verwendung der Quotientenregel der Differentiation. Dies ist gleich

    − Eθ

    [∂2

    ∂θ∂θ>f(X|θ)

    f(X|θ)

    ]+ Eθ

    [∂∂θf(X|θ)f(X|θ)

    ·∂f(X|θ)∂θ>

    f(X|θ)

    ]

    = −∫

    ∂2

    ∂θ∂θ>f(x|θ)dx+ Eθ[s(θ;X)s(θ;X)>]

    Der erste Summand ist unter Vertauschung von Differentiation und Integration gleichnull. Für den zweiten Teil ergibt sich mit Teil 1.

    E[s(θ;X)s(θ;X)>] = Covθ(s(θ;X)).

    Weitere Eigenschaften:

    • Sind X1, . . . , Xn unabhängig und gemäß Xi ∼ fi(x|θ), i = 1, . . . , n, verteilt, so gilt:

    `(θ) =

    n∑i=1

    `i(θ) , `i(θ) = log fi(xi|θ)

    s(θ) =n∑i=1

    si(θ) , si(θ) =∂

    ∂θlog fi(xi|θ)

    J(θ) = − ∂2`(θ)

    ∂θ∂θ>=

    n∑i=1

    −∂2 log fi(xi|θ)∂θ∂θ>

    29

  • • Für X1, . . . , Xn i.i.d. wie X1 ∼ f1(x|θ) folgt

    I(θ) = Eθ[J(θ)] = n · i(θ),

    wobei

    i(θ) = Eθ

    [−∂

    2`1(θ;X)

    ∂θ∂θ>

    ]= Covθ

    (∂ log f1(X|θ)

    ∂θ

    )die erwartete Information einer Einzelbeobachtung ist, d.h. die erwartete Informations-matrix der StichprobeX1, . . . , Xn ist die n-fache erwartete Information einer (typischen)Stichprobenvariable X1.

    • Für eine Statistik T = T (X), X = (X1, . . . , Xn)> mit T ∼ fT (t|θ) kann man die BegriffeScore-Funktion und Fisher-Information völlig analog definieren. Insbesondere ist

    IT (θ) = Eθ

    [−∂

    2 log fT (t|θ)∂θ∂θ>

    ].

    Satz 2.17 (Suffizienz und Fisher-Information). Sei I(θ) die Fisher-Information für X. Danngilt unter Fisher-Regularität für jede Statistik T :

    1. IT (θ) ≤ I(θ).

    2. IT (θ) = I(θ) ⇔ T ist suffizient für θ.

    Also: Bei einer suffizienten Statistik T wird keine (erwartete) Information”

    verschenkt”.

    2.1.4 Erwartungstreue Schätzer

    •”Schöne” Resultate für finites n, aber für vergleichsweise einfache statistische Modelle.

    • Problem: Für komplexere Modelle existieren keine”vernünftigen” erwartungstreuen

    Schätzer.

    • Aber: Etliche Resultate besitzen allgemeine Eigenschaften für n → ∞.

    Informationsungleichungen

    I. θ ∈ R (skalar). Neben θ werden auch transformierte Parameter τ(θ) betrachtet. WennAbleitungen benötigt werden, nehmen wir stillschweigend an, dass sie existieren.

    Satz 2.18. Sei f(x|θ) Fisher-regulär.

    1. Ist θ̂ erwartungstreu für θ, so gilt:

    Varθ(θ̂) ≥1

    I(θ)(Cramer-Rao-Ungleichung).

    2. Ist T = T (x) erwartungstreu für τ(θ), so gilt:

    Varθ(T ) ≥(τ ′(θ))2

    I(θ).

    (τ ′(θ))2

    I(θ) heißt Cramer-Rao-Schranke.

    30

  • 3. Besitzt θ̂ den Bias B(θ) = Eθ[θ̂]− θ, so gilt

    MSEθ(θ̂) ≥ B2(θ) +(1 +B′(θ))2

    I(θ).

    Beweis. Gezeigt wird 2. Daraus folgt 1. für τ(θ) = θ und 3. für τ(θ) = θ + B(θ).Differentiation von

    τ(θ) = Eθ[T ] =

    ∫T (x)f(x|θ) dx

    bezüglich θ, und Verwendung der Fisher-Regularität liefert:

    τ ′(θ) =

    ∫T (x)

    d

    dθf(x|θ) dx

    =

    ∫T (x)s(θ;x)f(x|θ) dx

    = Covθ(T (X), s(θ;X)).

    Unter Verwendung der Cauchy-Schwarz-Ungleichung

    |Cov(U, V )| ≤√

    Var(U)√

    Var(V )

    folgt

    (τ ′(θ))2 ≤ Varθ(T (X))Varθ(s(θ;X))= Varθ(T (X))I(θ).

    Also:

    Varθ(T (X)) ≥(τ ′(θ))2

    I(θ).

    Bemerkung. Die Gleichheit wird genau dann angenommen, wenn eine einparametri-sche Exponentialfamilie f(x|θ) = h(x) exp(γ(θ)T (x)+b(θ)) vorliegt, τ(θ) = −b′(θ)/γ′(θ)gilt und T (x) ein Schätzer für τ(θ) ist. Also: eher eine kleine Modellklasse.

    II. θ = (θ1, . . . , θp) bzw. τ (θ) mehrdimensional.

    Satz 2.19. Sei f(x|θ) Fisher-regulär.

    1. Ist θ̂ erwartungstreu für θ, so gilt:

    Covθ(θ̂) ≥ I−1(θ),

    wobei sich das”≥” auf die Löwner-Ordnung bezieht (vergleiche Seite 26). Daraus

    folgt insbesondere Varθ(θ̂j) ≥ vjj , j = 1, . . . , p, wobei vjj das j-te Diagonalelementvon I−1(θ) bezeichnet.

    2. Ist T erwartungstreu für τ (θ), so gilt

    Covθ(T ) ≥H(θ)I−1(θ)H(θ)>

    mit der Funktionalmatrix (H(θ))ij =∂∂θjτi(θ). Die Matrix H(θ)I

    −1(θ)H(θ)> ist die

    Cramer-Rao-Schranke.

    31

  • Bemerkung. Obige Bemerkung für skalares θ gilt analog für

    f(x|θ) = h(x) exp(b(θ) + γ>(θ)T (x)),

    d.h. für mehrparametrische Exponentialfamilien.

    Beispiel 2.14 (Cramer-Rao-Schranke beiX ∼ N(µ, σ2)). X1, . . . , Xn i.i.d. wie X ∼ N(µ, σ2),θ = (µ, σ2). Dann gilt für die Informationsmatrix

    I(θ) =

    (nσ2

    00 n

    2σ4

    )bzw. I−1(θ) =

    (σ2

    n 0

    0 2σ4

    n

    ).

    Beste erwartungstreue Schätzer

    Erwartungstreue Schätzer minimaler Varianz innerhalb einer vorgegebenen Klasse nennt maneffizient. Die Informationsungleichungen motivieren:

    Definition 2.20 (Gleichmäßig bester erwartungstreuer (UMVU) Schätzer).

    1. θ skalar:

    Der Schätzer θ̂eff für θ heißt gleichmäßig bester erwartungstreuer oder UMVU (”uni-

    formly minimum variance unbiased”)-Schätzerdef⇔ θ̂eff ist erwartungstreu, und es gilt

    Varθ(θ̂eff) ≤ Varθ(θ̂) für alle θ und jeden erwartungstreuen Schätzer θ̂.

    2. θ mehrdimensional:

    Ersetze in 1. Varθ(θ̂eff) ≤ Varθ(θ̂) durch Covθ(θ̂eff) ≤ Covθ(θ̂).

    Satz 2.21 (Effizienz und Informationsungleichungen). Sei f(x|θ) Fisher-regulär und θ̂ er-wartungstreu für θ. Falls Covθ(θ̂) = I

    −1(θ) für alle θ, so ist θ̂ ein UMVU-Schätzer.

    Beweis. Die Aussage folgt direkt aus der Informationsungleichung und obiger Definition.

    Beispiel 2.15 (Gauß-Experiment). Seien X1, . . . , Xni.i.d.∼ N(µ, σ2) mit µ, σ2 unbekannt. Aus

    Beispiel 2.14 wissen wir, dass I(µ) = n/σ2 und somit I−1(µ) = σ2/n = Var(X̄). Dann ist X̄UMVU für µ. Aber

    Var(S2) =2σ4

    n− 1>

    2σ4

    n= I−1(σ2).

    Die Cramer-Rao-Schranke wird also nicht erreicht, somit kann nicht gefolgert werden, dass S2

    UMVU für σ2 ist.

    Beispiel 2.16 (Lineares Modell).

    y = Xβ + ε, ε ∼ N(0, σ2I) bzw. y ∼ N(Xβ, σ2I)

    β̂KQ = β̂ML = (X>X)−1X>y ist effizient für β,

    σ̂2 =1

    n− p

    n∑i=1

    (yi − ŷi)2 ist nicht effizient für σ2.

    32

  • Bemerkung. Zu unterscheiden sind folgende Situationen:

    1. Es existiert ein UMVU-Schätzer, dessen Varianz gleich der Cramer-Rao-Schranke ist.

    2. Es existiert ein UMVU-Schätzer, dessen Varianz größer als die Cramer-Rao-Schrankeist (findet man mit dem Satz von Lehmann-Scheffé, siehe Satz 2.23).

    3. Der häufigste Fall: Es existiert (für finiten Stichprobenumfang) kein UMVU-Schätzer.

    Fazit: Finite Theorie erwartungstreuer Schätzer ist von eingeschränkter Anwendungsrelevanz.

    Aber: Es existiert eine analoge asymptotische Theorie mit breiter Anwendungsrelevanz, diesich an finiter Theorie orientiert (siehe Abschnitt 2.1.5).

    Zur Konstruktion von UMVU-Schätzern sind folgende zwei Aussagen nützlich:

    Satz 2.22 (Rao-Blackwell). Sei T = T (X) suffizient für θ bzw. Pθ und θ̂ erwartungstreufür θ. Für den Schätzer

    θ̂RB = Eθ[θ̂|T ] (”Rao-Blackwellization”)

    gilt:

    1. θ̂RB ist erwartungstreu für θ.

    2. Varθ(θ̂RB) ≤ Varθ(θ̂).

    3. In 2. gilt die Gleichheit, wenn θ̂ nur von T abhängt, d.h. θ̂RB = θ̂ mit Wahrscheinlich-keit 1.

    Satz 2.23 (Lehmann-Scheffé). Ist T = T (X) suffizient und vollständig (also minimalsuffizi-ent) und θ̂ = θ̂(x) ein erwartungstreuer Schätzer, so ist

    θ̂∗ = Eθ[θ̂|T ]

    der mit Wahrscheinlichkeit 1 eindeutig bestimmte UMVU-Schätzer für θ.

    2.1.5 Asymptotische Eigenschaften und Kriterien

    Wichtige Schätzer (Momentenschätzer, Shrinkage-Schätzer, ML- und Quasi-ML-Schätzer etc.)sind im Allgemeinen nicht erwartungstreu, besitzen aber günstige asymptotische (n → ∞)Eigenschaften. Im Folgenden sei

    θ̂n = θ̂(X1, . . . , Xn)

    Schätzer für θ.

    Definition 2.24 (Asymptotische Erwartungstreue). θ̂n heißt asymptotisch erwartungstreudef⇔

    limn→∞

    Eθ[θ̂n] = θ für alle θ.

    33

  • Definition 2.25 (Konsistenz).

    1. θ̂n ist (schwach) konsistent für θ (in Zeichen: θ̂nP→ θ (für alle θ)) def⇔

    limn→∞

    Pθ(|θ̂n − θ| ≤ ε) = 1 für alle ε > 0 und alle θ.

    2. θ̂n heißt MSE-konsistent für θdef⇔

    limn→∞

    MSEθ(θ̂n) = 0 für alle θ.

    3. θ̂n ist stark konsistent für θdef⇔

    (lim

    n→∞θ̂n = θ

    )= 1 für alle θ.

    Bemerkung.

    1. Aus der (verallgemeinerten) Tschebyscheff-Ungleichung folgt

    θ̂n MSE-konsistent ⇒ θ̂n schwach konsistent.

    2. Wegen MSEθ(θ̂n) = Varθ(θ̂n) + (Biasθ(θ̂n))2 folgt:

    θ̂n ist MSE-konsistent ⇔ Varθ(θ̂n) → 0 und Biasθ(θ̂n) → 0 für alle θ.

    3. Ist θ̂n konsistent für θ und g eine stetige Abbildung, so ist auch g(θ̂n) konsistent für g(θ)(Continuous Mapping Theorem/Stetigkeitssatz).

    4. Konsistenznachweise bestehen in der Regel in der Anwendung (schwacher) Gesetzegroßer Zahlen (für i.i.d. Variablen; i.n.i.d. Variablen; abhängige Variablen, z.B. Mar-tingale, Markov-Prozesse, ...).

    Beispiel 2.17.

    1. X̄n =1n

    n∑i=1

    Xi ist wegen E(X̄n) = µ und Var(X̄n) =σ2

    n → 0 für n→∞ konsistent.

    2. S2n =1

    n−1

    n∑i=1

    (Xi − X̄n)2 und S̃2n = 1nn∑i=1

    (Xi − X̄n)2 sind MSE-konsistent für σ2.

    3. Mit g(x) =√x folgt, dass

    Sn =

    √√√√ 1n− 1

    n∑i=1

    (Xi − X̄n)2 und S̃n =

    √√√√ 1n

    n∑i=1

    (Xi − X̄n)2

    konsistent sind für σ.

    4. Sn/X̄n ist konsistent für σ2/µ für µ > 0, da mit θ = (µ, σ) und g(θ) = σ2/µ wieder der

    Stetigkeitssatz benutzt werden kann.

    5. π̂n ist konsistent für π (im Bernoulli-Experiment).

    6. β̂KQ, β̂Ridge sind konsistent für β im linearen Modell.

    34

  • Asymptotische Normalität

    Viele Schätzer (KQ-, Momenten-, ML-, Quasi-ML-, Bayes-Schätzer) sind unter Regularitäts-annahmen asymptotisch normalverteilt. Informell ausgedrückt heißt das: Für große n ist θ̂nnicht nur approximativ erwartungstreu, sondern zusätzlich approximativ normalverteilt, kurz

    θ̂na∼ N(θ, V (θ))

    mit (approximativer) Kovarianzmatrix

    Covθ(θ̂n)a∼ V (θ),

    die durchĈovθ(θ̂n) := V (θ̂n)

    geschätzt wird. In der Diagonalen von V (θ̂n) stehen dann die (geschätzten) Varianzen

    V̂ar(θ̂j) = vjj(θ̂n)

    der Komponenten θj , j = 1, . . . , p, von θ.

    ⇒ ”Üblicher” Output statistischer Software ist

    θ̂j︸︷︷︸Schätzer

    σ̂θ̂j

    =

    √vjj(θ̂)︸ ︷︷ ︸

    Standardfehler

    t︸︷︷︸t-Statistik

    p︸︷︷︸p-Wert

    Beispiel 2.18. Seien X1, . . . , Xni.i.d.∼ F (x|θ) mit E(Xi) = µ und Var(Xi) = σ2. Aber F sei

    nicht gleich Φ, sondern z.B. die Verteilungsfunktion von B(π) oder Po(λ). Für X̄n gilt

    E(X̄n) = µ und Var(X̄n) =σ2

    n.

    Aufgrund des zentralen Grenzwertsatzes folgt

    X̄na∼ N

    (µ,σ2

    n

    ),

    zum Beispiel

    X̄na∼ N

    (π,π(1− π)

    n

    )bei B(π).

    Genauere Formulierung:√n(X̄n − µ)

    d→ N(0, σ2) für n → ∞,

    im Beispiel also√n(X̄n − π)

    d→ N(0, π(1− π)) für n → ∞bzw.

    X̄−µσ

    √n

    d→ N(0, 1),X̄−π√π(1−π)

    √n

    d→ N(0, 1).

    }zentraler

    Grenzwertsatz

    Die√n-Normierung ist vor allem bei i.i.d. Stichprobenvariablen geeignet. Für nicht identisch

    verteilte Stichprobenvariablen wie zum Beispiel y1|x1, . . . , yn|xn in Regressionssituationenbenötigt man bei

    √n-Normierung Voraussetzungen, die (teilweise) unnötig restriktiv sind.

    Besser ist dann eine”Matrix-Normierung” mit Hilfe einer

    ”Wurzel” I

    12 (θ) der Informations-

    matrix.

    35

  • Einschub: Wurzel einer positiv definiten Matrix

    • A ist positiv definit, wenn A symmetrisch ist und x>Ax > 0 für alle x 6= 0 gilt.

    • Dann heißt eine Matrix A12 (linke) Wurzel von A

    def⇔

    A12 (A

    12 )>︸ ︷︷ ︸

    =A>2 , rechte Wurzel

    = A.

    Allerdings ist A12 nicht eindeutig, da für eine beliebige orthogonale Matrix auch A

    12Q

    eine linke Wurzel ist:

    A12Q(A

    12Q)> = A

    12 QQ>︸ ︷︷ ︸

    =I

    A>2 = A.

    • Zwei gebräuchliche Wurzeln sind:1. Symmetrische Wurzel: Betrachte die Spektralzerlegung von A ∈ Rp×p. Mit der

    Matrix P ∈ Rp×p der orthonormalen Eigenvektoren als Spalten ist

    P>AP = Λ =

    λ1 0. . .0 λp

    ,wobei für alle i die λi > 0 die Eigenwerte von A sind. (Diese Zerlegung ist nume-risch aufwändig!) Dann gilt auch

    A = PΛP> = PΛ12︸ ︷︷ ︸

    =A12

    (Λ12 )>P>︸ ︷︷ ︸=A

    >2

    ,

    und A12 heißt symmetrische Wurzel von A.

    2. Cholesky-Wurzel: Sei A12 := C untere Dreiecksmatrix mit positiven Diagonal-

    elementen und CC> = A. Dann ist C die eindeutig bestimmte Cholesky-Wurzelvon A. (Diese ist numerisch vergleichsweise einfach zu erhalten!)

    • Anwendungen in der Statistik

    1. Erzeugen vonNp(0,Σ)-verteilten Zufallszahlen (Σ vorgegeben): FallsZ ∼ Np(0, I),ist einfache Simulation möglich, indem p unabhängige N(0, 1)-verteilte Zufallsva-riablen Z1, . . . , Zp simuliert werden. Dann gilt auch

    Σ1/2Z ∼ N(0,Σ1/2IΣ>/2) .= N(0,Σ).

    Also: Berechne Cholesky-Wurzel von Σ, ziehe p N(0, 1)-verteilte ZufallsvariablenZ = (z1, . . . , zp)

    >, berechne Y = Σ1/2Z. Dann ist Y = (Y1, . . . , Yp)> einNp(0,Σ)-

    verteilter Zufallsvektor.

    36

  • 2. Matrixnormierung bei asymptotischer Normalverteilung:

    Beispiel 2.19 (Asymptotische Normalität des KQ-Schätzers im linearen Modell).Seien y1|x1, . . . , yn|xn unabhängig. Dann gilt

    E[yi|xi] = x>i β, Var(yi|xi) = σ2, i = 1, . . . , n,

    ⇔ yn = Xnβ + εn, E[εn] = 0, Cov(εn) = σ2In.

    Der KQ-Schätzer ist

    β̂n = (X>nXn)

    −1X>n yn, E[β̂n] = β, Cov(β̂n) = σ2(X>nXn)

    −1.

    Die Informationsmatrix unter der Normalverteilungsannahme ist

    I(β) =X>nXnσ2

    = Cov(β̂n)−1.

    Zentrale Grenzwertsätze (für unabhängige, nicht identisch verteilte Zufallsvaria-blen, kurz: i.n.i.d.) liefern unter geeigneten Voraussetzungen (informell):

    β̂na∼ N(β, σ2(X>nXn)−1).

    Genauere Formulierungen nehmen an, dass

    limn→∞

    1

    nX>nXn =: A > 0 (2.1)

    existiert (also: X>nXn ≈ nA ⇔ (X>nXn)−1 ≈ A−1/n für große A). Anwendungdes (multivariaten) zentralen Grenzwertsatzes liefert dann:

    √n(β̂n − β)

    d→ N(0, σ2A−1)

    bzw.

    β̂na∼ N(β, σ2A−1/n)

    β̂na∼ N(β, σ2(X>nXn)−1).

    Die Annahme (2.1) ist zum Beispiel erfüllt, wenn xi, i = 1, . . . , n, i.i.d. Reali-sierungen stochastischer Kovariablen x = (x1, . . . , xp)

    > sind. Dann gilt nach demGesetz der großen Zahlen:

    1

    nX>nXn =

    1

    n

    n∑i=1

    xix>i

    n→∞→ E[xx>] =: A.

    Typischerweise ist die Annahme (2.1) nicht erfüllt bei deterministischen Regres-soren mit Trend. Das einfachste Beispiel hierfür ist ein linearer Trend: xi = i füri = 1, . . . , n und yi = β1i+ εi. Dann ist

    X>nXn =n∑i=1

    i2

    37

  • und daher1

    nX>nXn =

    ∑ni=1 i

    2

    n≥ n n→∞→ ∞.

    In diesem Fall ist eine andere Normierung nötig, zum Beispiel eine Matrixnor-mierung mit

    Cn = (X>nXn).

    Dann lässt sich die asymptotische Normalität des KQ-Schätzers

    C1/2n (β̂n − β)d→ Np(0, σ2I)

    bzw.

    C̃1/2n (β̂n − β) :=C

    1/2n

    σ(β̂n − β)

    d→ Np(0, I)

    unter folgenden, sehr schwachen Bedingungen zeigen:

    (D) Divergenzbedingung: Für n → ∞ gilt:

    (X>nXn)−1 → 0.

    Eine äquivalente Forderung ist:

    λmin(X>nXn) → ∞,

    wobei λmin den kleinsten Eigenwert von X>nXn bezeichnet. Die Divergenzbe-

    dingung sichert, dass die”

    Informationsmatrix”

    X>nXn =n∑i=1

    xix>i

    für n → ∞ gegen ∞ divergiert, die Information mit n → ∞ also laufendwächst.

    Es gilt: (D) ist hinreichend und notwendig für die (schwache und starke) Kon-sistenz des KQ-Schätzers β̂n.

    (N) Normalitätsbedingung:

    maxi=1,...,n

    x>i (X>nXn)

    −1xi → 0 für n→∞

    (N) sichert, dass die Information jeder Beobachtung i asymptotisch gegenüberder Gesamtinformation

    ∑ni=1 xix

    >i vernachlässigbar ist.

    Unter (D) und (N) gilt

    (X>nXn)1/2(β̂n − β)

    d→ N(0, σ2I)

    (Beweis mit Grenzwertsätzen für unabhängige, nicht identisch verteilte Zufallsva-riablen), d.h. für praktische Zwecke:

    β̂na∼ N(β, σ2(X>nXn)−1)

    für genügend großen Stichprobenumfang n. Dabei darf zusätzlich σ2 durch einenkonsistenten Schätzer σ̂2 ersetzt werden.

    38

  • Definition 2.26 (Asymptotische Normalität).

    1. Mit√n-Normierung: θ̂n heißt asymptotisch normalverteilt für θ

    def⇔

    √n(θ̂n − θ)

    d→ N(0, V (θ)) für n→∞

    mit nicht-negativ definiter (in der Regel positiv definiter) asymptotischer Kovarianzma-trix V (θ).

    2. Mit Matrix-Normierung: θ̂n heißt asymptotisch normalverteilt für θdef⇔ es existiert

    eine Folge von Matrizen An mit λmin(An) → ∞, so dass

    A1/2n (θ̂n − θ)d→ N(0, V (θ)).

    Bemerkung.

    1. Praxisformulierung:θ̂n

    a∼ N(θ, V (θ)/n)

    bzw.θ̂n

    a∼ N(θ, (A1/2n )−1V (θ)(A1/2n )−>).

    Dabei darf θ in V (θ) durch θ̂n ersetzt werden.

    2. Oft: V (θ) = I möglich, wenn geeignet normiert wird, zum Beispiel bei ML-Schätzung.

    Beispiel 2.20. Seien X1, . . . , Xn i.i.d. Zufallsvariablen mit (bekanntem) Erwartungswert µund Varianz σ2.

    S2µ =1

    n

    n∑i=1

    (Xi − µ)2

    ist asymptotisch normal für σ2 mit V (θ) = µ4 − σ4, µ4 = E[(Xi − µ)4] < ∞. S2µ ist erwar-tungstreu. Für die Varianz erhält man:

    Var(S2µ) = Var

    (1

    n

    n∑i=1

    (Xi − µ)2)

    =1

    n2· n ·Var

    [(X1 − µ)2

    ]=

    1

    n

    (E[(X1 − µ)4]−

    (E[(X1 − µ)2]

    )2)=

    1

    n(µ4 − σ4).

    Es liegen die Voraussetzungen zur Anwendung des zentralen Grenzwertsatzes vor. Aus ihmfolgt:

    S2µa∼ N(σ2, (µ4 − σ4)/n) bzw.

    √n(S2µ − σ2)

    d→ N(0, µ4 − σ4).

    39

  • Die Delta-Methode

    θ̂n sei asymptotisch normalverteilter Schätzer für θ.

    Frage: Wie ist für eine gegebene Abbildung

    h : Rp → Rk, k ≤ p

    der Schätzer h(θ̂) für h(θ) verteilt?

    Satz 2.27 (Delta-Methode). Sei h wie oben.

    1. θ skalar: Für alle θ, für die h stetig differenzierbar ist mit h′(θ) 6= 0, gilt:

    √n(θ̂n − θ)

    d→ N(0, V (θ)) ⇒√n(h(θ̂n)− h(θ))

    d→ N(0, [h′(θ)]2V (θ))

    2. θ vektoriell: Sei

    θ = (θ1, . . . , θp)> 7→ h(θ) = (h1(θ), . . . , hk(θ))>

    mit Funktionalmatrix

    (H(θ))ij =∂hi(θ)

    ∂θj

    mit vollem Rang. Für alle θ, für die h(θ) komponentenweise stetig partiell differenzierbarist und jede Zeile von H(θ) ungleich dem Nullvektor ist, gilt:

    √n(θ̂n − θ)

    d→ N(0, V (θ)) ⇒√n(h(θ̂n)− h(θ))

    d→ N(0, H(θ)V (θ)H(θ)>).

    Beweisskizze für skalares θ. Taylorentwicklung von h(θ̂n) um θ liefert:

    h(θn) = h(θ) + (θ̂n − θ)h′(θ) + o(θ̂n − θ)2.

    Dabei ist für eine Folge von Zufallsvariablen Xn

    Xn = o(an) falls Xn/anP→ 0 für n → ∞.

    Also:h(θ̂n) ≈ h(θ) + (θ̂n − θ)h′(θ)

    bzw. √n(h(θ̂n)− h(θ)) ≈

    √n(θ̂n − θ)h′(θ)

    Aus√n(θ̂n − θ)

    d→ N(0, V (θ)) folgt dann, dass√n(h(θ̂n)− h(θ))

    d→ N(0, h′(θ)2V (θ)).

    40

  • Asymptotische Cramer-Rao Schranke und asymptotische Effizienz

    Seien X1, . . . , Xni.i.d.∼ f(x|θ) und

    i(θ) = −E[∂2 log f(x|θ)∂θ∂θ>

    ]die erwartete Fisher-Information einer Beobachtung Xi. Die Information der gesamten Stich-probe X1, . . . , Xn ist dann

    I(θ) = n · i(θ).

    Satz 2.28 (Asymptotische Cramer-Rao Ungleichung). Unter Fisher-Regularität sowie leich-ten Zusatzannahmen gilt:

    1. Aus√n(θ̂n − θ)

    d→ N(0, V (θ)) folgt V (θ) ≥ i−1(θ).

    2. Aus√n(h(θ̂n)− h(θ))

    d→ N(0, D(θ)) folgt

    D(θ) ≥ H(θ)i−1(θ)H(θ)>

    mit ”≥” Löwner-Ordnung (und den Bezeichnungen aus der Delta-Regel, Satz 2.27).

    Definition 2.29 (Bester asymptotisch normaler (BAN)-Schätzer). θ̂n heißt BAN-Schätzer,falls in 1. oben gilt:

    V (θ) = i−1(θ).

    Mit der Delta-Regel folgt unmittelbar:

    Satz 2.30 (Transformation von BAN-Schätzern). Ist θ̂n BAN-Schätzer für θ, so ist h(θ̂n)BAN-Schätzer für h(θ).

    Bemerkung. Das Konzept der asymptotischen Effizienz lässt sich auf die Matrix-Normierungübertragen: θ̂ ist BAN-Schätzer für θ genau dann, wenn

    I1/2(θ)(θ̂n − θ)d→ N(0, I)

    bzw. θ̂na∼ N(θ, I−1(θ̂n)), mit I1/2(θ) Wurzel der Fisher-Information I(θ) der Stichprobe

    X1, . . . , Xn. Anstelle der erwarteten kann auch die beobachtete Fisher-Information J(θ) ver-wendet werden.

    2.2 Klassische Testtheorie

    Ziel: Finde Test zum Niveau α mit optimaler Güte (Power) für θ ∈ Θ1. Dabei ist n finit.

    41

  • 2.2.1 Problemstellung

    • Sei Θ der Parameterraum; die Hypothesen seien

    H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1,

    mit Θ0 ∩ Θ1 = ∅, d.h. Θ0 und Θ1 sind disjunkt. Möglicherweise, jedoch nicht notwen-digerweise, gilt Θ0 ∪Θ1 = Θ.

    • Eine Nullhypothese heißt einfach, wenn sie aus einem einzelnen Element aus Θ besteht,d.h. Θ0 = {θ0}. Ansonsten spricht man von zusammengesetzten Hypothesen. Dabei istFolgendes zu beachten: Etliche Nullhypothesen sind scheinbar einfach, aber tatsächlichzusammengesetzt. Dies ist häufig dann der Fall, wenn Nuisanceparameter auftauchen.

    Beispiel: Seien X1, . . . , Xn ∼ N(µ, σ2) mit µ und σ2 unbekannt. Die NullhypotheseH0 : µ = 0 ist eine zusammengesetzte Hypothese, da

    Θ = {(µ, σ2) : −∞ < µ ≤ ∞, 0 < σ2

  • Beispiel 2.21 (Randomisierter Binomialtest). Sei X ∼ Bin(10, π) und

    H0 : π ≤1

    2, H1 : π >

    1

    2.

    Test: H0 ablehnen ⇔ X ≥ kα, wobei kα so, dass

    Pπ(X ≥ kα) ≤ α für π =1

    2.

    Es ist

    P0.5(X ≥ k) =

    0.00098 , k = 10

    0.01074 , k = 9

    0.05469 , k = 8

    . . .

    Für α = 0.05 würde die Wahl kα = 8 wegen 0.054 > 0.05 nicht möglich sein. Wählt manaber kα = 9, so schöpft man α = 0.05 bei weitem nicht aus, d.h. der Test ist sehr konservativ.Die Lösung ist ein randomisierter Test

    φ(x) =

    1 , x ∈ {9, 10}67/75 , x = 8

    0 , x ≤ 7,

    d.h. ziehe bei x = 8 eine bernoulliverteilte Zufallsvariable mit Wahrscheinlichkeit 67/75.Wird 1 realisiert, so wird H0 abgelehnt.

    Die Randomisierung ist ein künstlicher Vorgang, um das Signifikanzniveau α auszuschöpfen,d.h.

    Pθ(A1) = α

    für dasjenige θ auf dem Rand zwischen Θ0 und Θ1 zu erreichen. Ein randomisierter Testbesitzt in der Regel folgende Struktur:

    φ(x) =

    1 , x ∈ B1γ(x) , x ∈ B100 , x ∈ B0.

    Der Stichprobenraum wird also in drei Teile zerlegt:

    B1 strikter Ablehnungsbereich von H0, d.h. x ∈ B1 ⇒ Aktion A1.

    B0 strikter Annahmebereich, d.h. x ∈ B0 ⇒ Aktion A0.

    B10 Randomisierungsbereich, d.h. x ∈ B10 führt mit Wahrscheinlichkeit γ(x) zur Ablehnungund mit Wahrscheinlichkeit 1− γ(x) zur Annahme von H0. B10 kann als Indifferenzbe-reich interpretiert werden.

    43

  • In der Regel wird ein Test mit einer Teststatistik T = T (X) formuliert. Dann haben rando-misierte Tests oft die Form:

    φ(x) =

    1, T (x) > c

    γ, T (x) = c

    0, T (x) < c .

    Falls T (X) eine stetige Zufallsvariable ist, gilt P(T (X) = c) = 0, d.h. für stetige T reduziertsich φ(x) zu

    φ(x) =

    {1, T (x) ≥ c0, T (x) < c .

    Bei diskreten Teststatistiken T wie beim exakten Binomialtest ist γ = P(T (X) = c) > 0. DerWert c ist an der

    ”Entscheidungsgrenze” zwischen A1 und A0. Dass man die Entscheidung

    durch eine zufällige Prozedur herbeiführt, stößt in der Praxis auf Bedenken.

    Die (frequentistische) Theorie zeigt, dass die Priori-Wahrscheinlichkeit

    Pθ(A1) =

    ∫XP(A1|x)︸ ︷︷ ︸

    φ(x)

    f(x|θ)dx︸ ︷︷ ︸dPθ

    = Eθ[φ(X)], θ ∈ Θ1

    bei Randomisierung maximiert werden kann (φ(x) ist die bedingte Wahrscheinlichkeit, aposteriori, d.h. bei gegebener Stichprobe, für A1 zu entscheiden). ”

    Maximal” bezieht sich auf

    ”durchschnittliche” Optimalität des Tests bei wiederholter Durchführung.

    Subjektive Sichtweise: Man wird bei T (x) = c bzw. x ∈ B10 eher noch keine Entscheidungtreffen (

    ”Indifferenzbereich”).

    Für n → ∞ geht (in der Regel) P(T (X) = c) gegen 0, d.h. für großes n wird der Randomi-sierungsbereich B10 immer kleiner. Idee: Bei T (x) = c zusätzliche Daten erheben.

    Güte, Gütefunktion (power, power function)

    Bei einer Testentscheidung gibt es folgende Möglichkeiten:

    A0: H0 beibehalten A1: H1 ist signifikant

    H0 trifft zu richtige Aussage Fehler 1. Art

    H1 trifft zu Fehler 2. Art richtige Aussage

    Es ist φ(x) = P(A1|x) die bedingte Wahrscheinlichkeit für A1 gegeben die Stichprobe x. IstPθ(A1) die unbedingte Wahrscheinlichkeit / Priori-Wahrscheinlichkeit, dann gilt (wie oben)

    Pθ(A1) =

    ∫XP(A1|x)f(x|θ) dx =

    ∫φ(x)f(x|θ) dx = Eθ[φ(X)]

    und somit auch Pθ(A0) = Eθ(1− φ(X)) für θ ∈ Θ.

    44

  • Definition 2.31 (Gütefunktion eines Tests φ).

    1. Die Abbildung gφ(θ) = Eθ[φ(X)] = Pθ(A1), θ ∈ Θ, heißt Gütefunktion des Tests φ.

    gφ(θ) = Pθ(A1) Wahrscheinlichkeit für Fehler 1. Art, θ ∈ Θ01− gφ(θ) = Pθ(A0) Wahrscheinlichkeit für Fehler 2. Art, θ ∈ Θ1

    Außerdem:

    gφ(θ) = Pθ(A1) Macht (power) des Tests, θ ∈ Θ1

    2. Die Größeα(φ) = sup

    θ∈Θ0Pθ(A1) = sup

    θ∈Θ0gφ(θ)

    heißt (tatsächliches) Niveau (level, size) von φ und ist die supremale Wahrscheinlichkeitfür den Fehler 1. Art.

    β(φ) = supθ∈Θ1

    Pθ(A0) = 1− infθ∈Θ1

    gφ(θ)

    ist die supremale Wahrscheinlichkeit für den Fehler 2. Art.

    • Bei den”üblichen” Tests gilt wegen der Monotonie und Stetigkeit von gφ(θ)

    α(φ) + β(φ) = 1,

    d.h. α(φ) kann nur auf Kosten von β(φ) klein gehalten werden (und umgekehrt).

    Allgemein gilt dagegen nurα(φ) + β(φ) ≥ 1,

    zum Beispiel beim einseitigen Gauß-Test.

    • Programm der klassischen Testtheorie: Maximiere unter Beschränkung

    gφ(θ) ≤ α für alle θ ∈ Θ0

    bei fest vorgegebenem α > 0 die Güte für θ ∈ Θ1, d.h.

    gφ(θ) ≥ maxφ̃

    gφ̃(θ) für θ ∈ Θ1

    bei”konkurrierenden” Tests φ̃. H0 und H1 werden also unsymmetrisch betrachtet.

    • Wegen der Beziehung α(φ) +β(φ) = 1 muss dabei das vorgegebene Signifikanzniveau αausgeschöpft werden, d.h.

    α(φ) = α

    gelten. Bei α(φ) < α wird automatisch

    β(φ) = 1− infθ∈Θ1

    gθ(φ)

    für θ ∈ Θ1 größer als notwendig, d.h. die Güte des Tests schlechter.

    45

  • • Folgende Problemstellungen werden nach diesem Konzept betrachtet:

    1. Einfaches H0 vs. einfaches H1: Neyman-Pearson-Theorem zeigt, wie bester Testzu konstruieren ist.

    2. Einfaches H0 vs. zusammengesetztes H1: Basierend auf dem Neyman-Pearson-Theorem kann für bestimmte Fälle ein

    ”gleichmäßig bester Test” (UMP, uniformly

    most powerful test) konstruiert werden. In anderen Fällen existiert — zumindestohne weitere Restriktionen — kein UMP-Test.

    3. Zusammengesetztes H0 vs. zusammengesetztes H1: Suche nach einem UMP-Testist noch schwieriger.

    2.2.2 Satz von Neyman-Pearson

    Problemstellung: Einfache Nullhypothese vs. einfache Alternativhypothese, also

    H0 : θ = θ0, vs. H1 : θ = θ1

    mit θ0 6= θ1. Sei f0(x) = f(x|θ0), f1(x) = f(x|θ1). Dann heißt

    Λ(x) =f1(x)

    f0(x)

    Likelihood-Quotient. Ein (bester) Test hat nach Neyman-Pearson die Form:

    H0 ablehnen⇔ Λ(x) > kα

    mit kα so gewählt, dass der Test das Niveau α einhält. Aber: Falls Λ(x) diskret ist, gibt esein theoretisches Problem. Dies führt zu

    Definition 2.32 (Randomisierter LQ-Test). Ein Test φ∗(x) heißt randomisierter Likelihood-

    Quotienten-Test, kurz LQ-Test (likelihood ratio test, LRT)def⇔ φ∗(x) hat die Struktur

    φ∗(x) =

    1 , f1(x) > kf0(x) ⇔ Λ(x) > kγ(x) , f1(x) = kf0(x) ⇔ Λ(x) = k0 , f1(x) < kf0(x) ⇔ Λ(x) < k

    mit Konstante k > 0 und 0 < γ(x) < 1. Falls Λ(X) stetig ist, gilt Pθ(Λ(X) = k) = 0. Dannreicht ein nicht-randomisierter Test

    φ∗(x) =

    {1, f1(x) > kf0(x) ⇔ Λ(x) > k0, sonst.

    Satz 2.33 (Neyman-Pearson, Fundamentallemma).

    1. Optimalität: Für jedes k und γ(x) hat der Test φ∗ maximale Macht unter allen Tests,deren Niveau höchstens gleich dem Niveau von φ∗ ist.

    2. Existenz: Zu vorgegebenem α ∈ (0, 1) existieren Konstanten k∗ und γ∗, so dass derLQ-Test φ∗ mit diesem k∗ und γ(x) = γ∗ für alle x exakt das Niveau α besitzt.

    46

  • 3. Eindeutigkeit: Falls ein Test φ mit Niveau α maximale Macht (= kleinsten Fehler 2. Art)unter allen anderen Tests mit Niveau α besitzt, dann ist φ ein LQ-Test (eventuell mitAusnahme einer Nullmenge X0 ⊂ X von Stichproben x, d.h. Pθ0(X0) = Pθ1(X0) = 0).

    Beweis.

    1. Sei φ ein Test mitEθ0 [φ(X)] ≤ Eθ0 [φ∗(X)] (2.2)

    undU(x) = (φ∗(x)− φ(x))(f1(x)− kf0(x)).

    – Für f1(x)− kf0(x) > 0 ist φ∗(x) = 1, also U(x) ≥ 0.– Für f1(x)− kf0(x) < 0 ist φ∗(x) = 0, also U(x) ≥ 0.– Für f1(x) = kf0(x) = 0 ist U(x) = 0.

    Also: U(x) ≥ 0 für alle x. Somit:

    0 ≤∫U(x)dx

    =

    ∫(φ∗(x)− φ(x))(f1(x)− kf0(x)) dx

    =

    ∫φ∗(x)f1(x) dx−

    ∫φ(x)f1(x) dx+ k

    (∫φ(x)f0(x) dx−

    ∫φ∗(x)f0(x) dx

    )= Eθ1 [φ

    ∗(X)]− Eθ1 [φ(X)] + k(Eθ0 [φ(X)]− Eθ0 [φ∗(X)])︸ ︷︷ ︸≤0 wegen (2.2)

    ⇒ Eθ1 [φ∗(X)] ≥ Eθ1 [φ(X)], d.h. die Macht von φ∗ ist größer als die Macht von φ.

    2. Die Verteilungsfunktion G(k) = Pθ0(Λ(x) ≤ k) ist monoton steigend in k. Sie ist fernerrechtsstetig, d.h.

    G(k) = limy↓k

    G(y) für alle k.

    Betrachtet man die GleichungG(k∗) = 1− α

    und versucht diese bezüglich k∗ zu lösen, so gibt es zwei Möglichkeiten:

    (i) Entweder ein solches k∗ existiert,

    (ii) oder die Gleichung kann nicht exakt gelöst werden, aber es existiert ein k∗, so dass

    G−(k∗) = Pθ0(Λ(X) < k

    ∗) ≤ 1− α < G(k∗)

    (das entspricht der”Niveaubedingung”).

    Im ersten Fall setzt man γ∗ = 0, im zweiten

    γ∗ =G(k∗)− (1− α)G(k∗)−G−(k∗)

    .

    47

  • In diesem Fall hat der Test genau das Niveau α, wie behauptet, denn:

    Eθ0 [φ(X)] = Pθ0

    (f1(X)

    f0(X)> k∗

    )+

    G(k∗)− 1 + αG(k∗)−G−(k∗)

    Pθ0

    (f1(X)

    f0(X)= k∗

    )= (1−G(k∗)) + G(k

    ∗)− 1 + αG(k∗)−G−(k∗)

    (G(k∗)−G−(k∗))

    = α.

    3. Sei φ∗ der LQ-Test definiert durch eine Konstante k und eine Funktion γ(x) und mannehme an, φ ist ein anderer Test mit gleichem Niveau α und der gleichen Macht wie φ∗.Definiert man U(x) wie in 1., dann ist U(x) ≥ 0 für alle x und

    ∫U(x) dx = 0, da

    Eθ1 [φ∗(X)]− Eθ1 [φ(X)] = 0 und Eθ0 [φ∗(X)]− Eθ0 [φ(X)] = 0 nach Annahme. Daraus,

    dass U nicht-negativ mit Integral 0 ist, folgt, dass U(x) = 0 für fast alle x. Dies wiederumbedeutet, dass φ(x) = φ∗(x) oder f1(x) = kf0(x), d.h. φ(x) ist ein LQ-Test.

    Bemerkung. Für einfache Hypothesen H0 und H1 sind klassische Testtheorie und Likelihood-Quotienten-Test noch identisch. Für zusammengesetzte Hypothesen (der Praxisfall) trennensich die Konzepte:

    • Klassische Testtheorie sucht weiter nach optimalen Tests (für finite Stichproben).

    • Likelihoodbasierte Tests verallgemeinern Λ(x) bzw. sind quadratische Approximationenvon Λ(x), deren Verteilungsfunktion (unter H0) nur asymptotisch (n→∞) gilt.

    Beispiel 2.22 (Binomialtest). Betrachte

    H0 : π = π0 vs. H1 : π = π1

    mit 0 < π0 < π1 < 1. Die Dichte (Wahrscheinlichkeitsfunktion) der i.i.d. StichprobeX = (X1, . . . , Xn)

    > lautet

    f(x|π) = πz(1− π)n−z mit z =n∑i=1

    xi,

    der Likelihood-Quotient

    Λ(x) =πz1(1− π1)n−z

    πz0(1− π0)n−z=

    (1− π11− π0

    )n·(π1(1− π0)π0(1− π1)

    )z:= Λ(z).

    Da Λ(x) = Λ(z) streng monoton in z ist, lässt sich Λ(z) > k äquivalent umformen inz > Λ−1(k) =: c. Der Likelihood-Quotienten-Test φ∗ mit kritischer Zahl k und (konstan-ter) Randomisierung γ∗ hat dann die Form

    φ∗(x) =

    1 , Z = Z(x) > c

    γ∗ , Z = Z(x) = c

    0 , Z = Z(x) < c

    mit der”

    Teststatistik” Z. Dabei können wir uns (wegen des Wertebereichs von Z) aufc ∈ {0, 1, . . . , n} beschränken. γ∗ ist aus der Niveaubedingung

    Pπ0(Z > c) + γ∗Pπ0(Z = c)

    != α

    zu bestimmen. Der Test φ∗ hängt von π0 ab, jedoch nicht von π1!

    48

  • Bemerkung. Falls H1 wahr ist, dann bestimmt π1 die Wahrscheinlichkeit für den ”reali-

    sierten” Fehler 2. Art Pπ1(A0). Je weiter π1 von π0 entfernt ist, umso kleiner ist die Wahr-scheinlichkeit für den Fehler 2. Art und umso größer ist die Power an der Stelle π = π1.

    2.2.3 Gleichmäßig beste Tests

    Definition 2.34 (Gleichmäßig bester (UMP, uniformly most powerful) Test). Ein Niveau-

    α-Test φ∗ heißt gleichmäßig bester oder UMP Test zum Niveau αdef⇔

    1. Eθ[φ∗(X)] ≤ α für alle θ ∈ Θ0.

    2. Für jeden anderen Niveau-α-Test φ mit Eθ[φ(X)] ≤ α für alle θ ∈ Θ0 gilt:

    Eθ[φ∗(X)] ≥ Eθ[φ(X)] für alle θ ∈ Θ1.

    Bemerkung. Der Begriff”

    gleichmäßig” in obiger Definition bezieht sich auf die Gleichmäßig-keit der Eigenschaft gφ∗ ≥ gφ auf Θ1 für jeden anderen Test φ.

    Beste einseitige Tests bei skalarem θ

    In Beispiel 2.22 (Binomialtest für einfache Hypothesen) hing die Power nicht vom speziellenπ1(≡ H1) > π0(≡ H0) ab. Daraus folgt, dass φ∗ für alle π1 > π0 besser ist als ein andererTest φ. Entscheidend dafür ist, dass der Dichte- bzw. Likelihood-Quotient monoton in z ist.Dies gilt allgemeiner und führt zu folgender Definition.

    Definition 2.35 (Verteilungen mit monotonem Dichtequotienten). Die Verteilungsfamilie{f(x|θ), θ ∈ Θ ⊆ R} mit skalarem Parameter θ besitzt monotonen Dichte- bzw. Likelihood-Quotienten (kurz: MLQ)

    def⇔ es existiert eine Statistik T , so dass

    Λ(x) =f(x|θ1)f(x|θ0)

    monoton wachsend in T (x) für je zwei θ0, θ1 ∈ Θ mit θ0 ≤ θ1 ist.

    49

  • Bemerkung.

    1. Monoton wachsend ist keine echte Einschränkung; ist T̃ (x) monoton fallend, so defi-niert man T (x) = −T̃ (x).

    2. Jede einparametrische Exponentialfamilie in T (x) und γ(θ) besitzt monotonen Dichte-quotienten, wenn γ(θ) monoton in θ ist. Letzteres gilt für die natürliche Parametrisie-rung γ(θ) = θ.

    Satz 2.36 (UMP-Test bei MLQ). Gegeben sei Pθ = {f(x|θ) : θ ∈ Θ ⊆ R} mit MLQ in T (x)und die Hypothesen

    H0 : θ ≤ θ0 vs. H1 : θ > θ0.

    1. Existenz: Es gibt einen UMP-Test φ∗ zum Niveau α, nämlich

    φ∗(x) =

    1, T (x) > c

    γ, T (x) = c

    0, T (x) < c.

    Dabei sind c und γ eindeutig bestimmt durch die Niveaubedingung

    Pθ0(T (X) > c) + γPθ0(T (X) = c) = α.

    2. Die Gütefunktion gφ∗(θ) ist monoton wachsend in θ und sogar streng monoton wachsendfür alle θ mit 0 < gφ∗(θ) < 1. Die maximale Wahrscheinlichkeit für den Fehler 1. Artist gφ∗(θ0) = α.

    3. φ∗ besitzt auch gleichmäßig minimale Wahrscheinlichkeiten für den Fehler 2. Art unterallen Tests φ für H0 vs. H1 mit gφ(θ0) = α.

    4. φ∗ ist (mit Wahrscheinlichkeit 1) eindeutig bestimmt.

    Bemerkung. Es gilt weiterhin: Ist φ∗ der beste Test für das einfache Alternativproblem

    H0 : θ = θ0 vs. H1 : θ = θ1,

    so ist φ∗ auch der UMP-Test zum Niveau α für zusammengesetzte Hypothesen

    H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1,

    wenn φ∗ nicht von dem speziellen Wert θ1 ∈ H1 abhängt und für alle θ ∈ H0 das Niveau αeinhält.

    Beispiel 2.23.

    1. Binomialtest mit H0 : π ≤ π0 gegen H1 : π > π0 hat MLQ in Z(x) = ”Anzahl der Erfolge”(vgl. obiges Beispiel und Bemerkung). Der Binomialtest ist also UMP-Test.

    2. Gleichverteilung

    3. Gauß-Test

    50

  • 4. Exponentialverteilung

    5. Poissonverteilung

    Bemerkung. Oft existiert zwar kein UMP-Test, jedoch ein lokal bester (einseitiger) Test:

    φlok heißt lokal bester Niveau α-Testdef⇔

    g′φlok

    (θ0) =d

    dθgφlok(θ0) ≥

    d

    dθgφ(θ0),

    wobei gφlok(θ0) = gφ(θ0) = α gilt.

    Beste unverfälschte zweiseitige Tests bei skalarem θ

    Für zweiseitige Testprobleme der Form

    H0 : θ = θ0 vs. H1 : θ 6= θ0

    gibt es in der Regel keinen UMP-Test, insbesondere auch dann nicht, wenn MLQ vorliegt.Deshalb wird eine Restriktion auf eine kleinere Klasse von konkurrierenden Tests notwendig.

    Definition 2.37 (Unverfälschter Niveau-α-Test). Ein Test φ für H0 vs. H1 heißt unverfälsch-

    ter (unbiased) Niveau-α-Testdef⇔

    gφ(θ) ≤ α für alle θ ∈ Θ0, gφ(θ) ≥ α für alle θ ∈ Θ1.

    Satz 2.38 (Zweiseitige UMPU (uniformly most powerful unbiased) Tests). Sei

    f(x|θ) = c(θ) exp(θT (x))h(x)

    eine einparametrische Exponentialfamilie mit natürlichem Parameter θ ∈ Θ (Θ sei ein offenesIntervall) und Statistik T (x). Dann ist

    φ∗(x) =

    1 , T (x) < c1

    γ1 , T (x) = c1

    0 , c1 < T (x) < c2

    γ2 , T (x) = c2

    1 , T (x) > c2

    ein UMPU-Test zum Niveau α unter allen unverfälschten Tests φ zum Niveau α. Dabei wer-den c1, c2, γ1, γ2 aus

    Eθ0 [φ∗(X)] = α, Eθ0 [φ

    ∗(X)T (X)] = αEθ0 [T (X)]

    bestimmt.

    Beispiel 2.24.

    1. Zweiseitiger Binomial-Test

    H0 : π = π0 vs. H1 : π 6= π0

    ist UMPU-Test.

    51

  • 2. Zweiseitiger Gauß-Test mit X1, . . . , Xni.i.d.∼ N(µ, σ2), σ2 bekannt, ist für

    H0 : µ = µ0 vs. H1 : µ 6= µ0

    UMPU-Test.

    3. Zweiseitiger Poisson-Test: Bei X1, . . . , Xni.i.d.∼ Po(λ)

    H0 : λ = λ0 vs. H1 : λ 6= λ0

    liegt eine einparametrische Exponentialfamilie mit natürlichem Parameter θ=log λ vor.Äquivalente Hypothesen in θ sind

    H0 : θ = θ0 vs. H1 : θ 6= θ0.

    Bestimmung der Prüfgröße:

    f(xi|θ) = h(xi)c(θ) exp (θxi)

    f(x|θ) = f(x1|θ) · . . . · f(xn|θ) ∝ exp(θ

    n∑i=1

    xi︸ ︷︷ ︸T (x)

    )

    und somit

    φ∗(x) =

    1 ,∑n

    i=1 xi < c1

    γ1 ,∑n

    i=1 xi = c1

    0 , c1 <∑n

    i=1 xi < c2

    γ2 ,∑n

    i=1 xi = c2

    1 ,∑n

    i=1 xi > c2 .

    4. Zweiseitiger χ2-Test auf die Varianz: Seien X1, . . . , Xni.i.d.∼ N(µ, σ2), µ bekannt. Gete-

    stet wirdH0 : σ

    2 = σ20 vs. H1 : σ2 6= σ20.

    Mehrparametrische Verteilungsannahme

    • Bislang: θ skalar.

    ⇒ θ = (µ, σ2) ist bei N(µ, σ2) Verteilung nicht in der Theorie optimaler Tests ent-halten.

    ⇒ t-Test auf µ (bei unbekanntem σ2) und andere sind nicht erfasst.

    • Idee:”Optimale” Tests lassen sich (noch) für eine skalare Komponente η von

    θ = (η, ξ), wobei ξ mehrdimensional sein darf, konstruieren. ξ ist als Stör-/Nuisance-parameter zu betrachten.

    • Voraussetzung an Verteilungsfamilie: {f(x|θ), θ ∈ Θ ⊆ Rk} ist eine (strikt)k-parameterische Exponentialfamilie mit natürlichem Parameter θ = (η, ξ) undT = (U, V ), U skalar. Dies führt auf die Theorie bedingter Tests.

    52

  • • Passend zum Beispiel für

    – t-Test: Vergleich von µ1, µ2 bei unabhängigen Stichproben nur, falls σ21 = σ

    22 = σ

    2

    ist.

    – Test auf Signifikanz von β1 in linearer Einfachregression.

    • Bereits nicht mehr anwendbar für

    – Vergleich von µ1, µ2 bei σ21 6= σ22 (Behrens-Fisher-Problem).

    – Test auf Signifikanz von β1 im Logit- oder Poisson-Regressionsmodell.

    ⇒ (asymptotische) Likelihood-Theorie, Bayes-Inferenz.

    2.3 Bereichsschätzungen und Konfidenzintervalle

    2.3.1 Definition und Beurteilung der Güte

    Definition 2.39 (Bereichsschätzung). Eine Bereichsschätzung (ein Konfidenzbereich) Cfür τ(θ) zum (vorgegebenen) Vertrauensgrad ( Konfidenzniveau) 1−α ist eine Abbildung desStichprobenraums X in die σ-Algebra Lm des Rm, also x→ C(x)(⊆ Rm) ∈ Lm, mit

    Pθ(τ(θ) ∈ C(X)) ≥ 1− α für alle θ.

    Dabei sei τ(θ) m-dimensionaler Parameter.

    C(X) ist ein zufälliger Bereich im Rm. Nach Beobachtung der Stichprobe X = x ist C(x)gegeben. Der Aussage

    τ(θ) ∈ C(x) (richtig!

    oder falsch)

    wird der Vertrauensgrad 1 − α zugeordnet. Dabei gilt die bekannte Häufigkeitsinterpretati-on. Ist C(x) für jedes x ein Intervall, so heißt C(x) Konfidenzintervall und C eine Inter-vallschätzung.

    Eine Wahrscheinlichkeitsaussage zuτ(θ) ∈ C(x)

    bei gegebenem x ist im Rahmen der Bayes-Inferenz (ohne logische Probleme) möglich.

    Die”Präzision” von C(X) wird gemessen durch die erwartete Größe des Bereichs bzw. durch

    die Länge des Konfidenzintervalls.

    Beispiel 2.25. Seien X1, . . . , Xni.i.d.∼ N(µ, σ2) und

    C(X) =

    [X̄ − tn−1

    (α2

    ) S√n, X̄ + tn−1

    (α2

    ) S√n

    ]ein Konfidenzintervall für µ. Die Länge

    L = 2 tn−1

    (α2

    ) S√n

    53

  • von C(X) ist zufällig mit Erwartungswert

    E(L) = 2 tn−1

    (α2

    ) 1√nE(S) = 2 tn−1

    (α2

    ) σ√n

    √2

    n− 1Γ(n/2)

    Γ((n− 1)/2).

    Es gilt:

    1− α größer → E(L) größer,n größer → E(L) kleiner.

    Bei der Beurteilung der Präzision eines Konfidenzintervalls durch die Länge ist ein Konfi-denzintervall umso besser, je kürzer seine erwartete Länge ist. Allgemein wird ein Konfi-denzbereich C durch die mittlere

    ”Größe” beurteilt. Dazu sei π eine Verteilung (oder ein

    Maß) auf Θ. Dann istπ(C(x))

    die Größe von C(x). Bei Konfidenzintervallen ergibt sich die Länge, wenn π das Lebesgue-Maßist. Dann ist

    Eθ(π(C(X)))

    die zu erwartende Größe. Zur Beurteilung der Güte reicht die erwartete Länge bzw. Größeallein nicht aus.

    Definition 2.40 (Kennfunktion eines Konfidenzbereichs). Eine Kennfunktion ist definiertals eine Funktion

    kC(θ, θ′) := Pθ(C(x) 3 τ(θ

    ′)).

    Dabei ist θ der”

    wahre” Wert und θ′ irgendein Wert in Θ.

    Für θ = θ′

    ist”C(x) 3 τ(θ′)” eine Aussage, deren Wahrscheinlichkeit möglichst groß sein

    soll. Für θ 6= θ′ mit τ(θ′) 6= τ(θ) ist”C(x) 3 τ(θ′)” eine Aussage, deren Wahrscheinlichkeit

    möglichst klein gehalten werden soll.

    Im Weiteren betrachten wir den Spezialfall τ(θ) = θ mit skalarem θ. Dann ist

    kC(θ, θ′) = Pθ(C(x) 3 θ

    ′).

    Definition 2.41.

    1. Ein Konfidenzintervall besitzt den Vertrauensgrad 1− α : def⇔

    kC(θ, θ′) ≥ 1− α für alle θ′ = θ.

    2. Ein Konfidenzintervall zum Vertrauensgrad 1− α heißt unverfälscht : def⇔

    kC(θ, θ′) ≤ 1− α für θ′ 6= θ.

    3. Ein Konfidenzbereich C0 zum Vertrauensgrad 1 − α heißt gleichmäßig bester (trenn-scharfer) [bzw. gleichmäßig bester unverfälschter] Konfidenzbereich :

    def⇔ für alle θ′ 6= θund alle [unverfälschten] Konfidenzbereiche C zum Vertrauensgrad 1− α gilt

    kC0(θ, θ′) ≤ kC(θ, θ

    ′).

    54

  • Lemma 2.42. Jeder gleichmäßig beste Konfidenzbereich besitzt auch die kleinste zu erwar-tende Größe (aber nicht umgekehrt).

    Beweis. ∫X

    π(C(x))dPθ(x) =

    ∫X

    ∫Θ

    IC(x)(θ′)dπ(θ

    ′)dPθ(x)

    =

    ∫X

    ∫Θ

    IC(x)(θ′)dPθ(x)dπ(θ

    ′) (Fubini)

    =

    ∫Θ

    Pθ({x : C(x) 3 θ′})︸ ︷︷ ︸

    kC(θ,θ′ )

    dπ(θ′).

    Für jedes”wahre” θ gilt also∫

    X

    π(C(x))dPθ(x)︸ ︷︷ ︸erwartete Größe

    =

    ∫Θ

    kC(θ, θ′)dπ(θ

    ′)

    ︸ ︷︷ ︸erwarteter Wert der Kenn-

    funktion des Konfidenzbereichs

    .

    2.3.2 Dualität zwischen Konfidenzbereichen und Tests

    Wir legen den oben beschriebenen Spezialfall τ(θ) = θ mit skalarem θ zugrunde.

    Zu jedem festen θ betrachten wir einen Niveau-α-Test φθ(x) für die Nullhypothese H0 = {θ}gegen die Alternative H1 = Θ\H0. Die Tests sollen nicht randomisiert sein, so dass sie durchdie Festlegung einer Prüfgröße Tθ = Tθ(x) und eines kritischen Bereichs (Ablehnbereichs) Kθbestimmt werden:

    φθ(x) =

    {1 für Tθ(x) ∈ Kθ,0 sonst.

    Die Nullhypothese”Der unbekannte Parameter hat den Wert θ” wird nach Beobachtung

    von X = x genau dann nicht abgelehnt — durch die Beobachtung”bestätigt” — wenn

    Tθ (x) ∈ K̄θ = Annahmebereich des Tests φθ

    gilt. Daher ist es naheliegend, als einen Konfidenzbereich nach der Beobachtung X = x denBereich

    C(x) := {θ ∈ Θ : Tθ(x) ∈ K̄θ}

    zu definieren; dem entspricht vor der Beobachtung der zufällige Bereich

    C(X) = {θ ∈ Θ : Tθ(X) ∈ K̄θ}

    bzw.C(X) = {θ ∈ Θ : φθ(X) = 0}

    Eine Bestätigung dieser Vorgangsweise ist der folgende Satz.

    55

  • Satz 2.43 (Korrespondenzsatz).

    1. Ist {φθ} eine Menge von Tests φθ für H0 = {θ} gegen H1 = Θ\{θ} zum Niveau α, soist C(X) := {θ ∈ Θ : φθ(X) = 0} ein Konfidenzbereich zum Vertrauensgrad γ = 1− α.

    2. Ist {φθ} eine Menge gleichmäßig bester [unverfälschter] Tests, so ist auch C(X) eingleichmäßig bester [unverfälschter] Konfidenzbereich.

    Beweis. Der Beweis zu 1. ergibt sich aus

    Pθ(C(X) 3 θ) = Pθ(φθ(X) = 0) = 1− α für alle θ ∈ Θ,

    derjenige für 2. aus der Beziehung

    kC(θ, θ′) = Pθ(C(X) 3 θ

    ′) = Pθ(φθ′ (X) = 0)

    = 1− Pθ(φθ′ (X) = 1) = 1− gφθ′ (θ)

    für alle θ, θ′ ∈ Θ. Dabei bezeichnet gφ

    θ′ die Gütefunktion des Tests φθ′ .

    Der Korrespondenzsatz lässt sich verallgemeinern auf die Situation, in der man gegenüberbestimmten Fehlschätzungen besonders empfindlich ist; man hat dazu eine Testfamilie solcherTests zugrunde zu legen, die die entsprechenden Hypothesen testen, also nicht mehr Tests mitzweiseitiger Fragestellung. Darüber hinaus gilt der im Korrespondenzsatz enthaltene Zusam-menhang zwischen Tests und einem Konfidenzbereich auch dann, wenn randomisierte Testszugelassen werden, so dass man auf diese Weise zu einem randomisierten Konfidenzbereichkommt: C(x) ist die Menge aller θ, die bei der Beobachtung x von dem Test φθ (auch nachRandomisierung) nicht abgelehnt werden.

    Auf diese Weise lässt sich die Theorie der Bereichsschätzungen auf die Testtheorie zurück-führen bis auf das folgende Problem: Damit ein

    ”vernünftiger” Konfidenzbereich (vernünftig

    im topologischen Sinn, also zum Beispiel ein Konfidenzintervall) aus der Testfamilie kon-struierbar ist, muss die Testfunktion φθ(x), besser noch die Prüfgröße Tθ(x) als Funktion inθ (für jedes feste θ)

    ”gutartig” sein (im Idealfall monoton in θ); außerdem darf die Vertei-

    lung von Tθ(X) nicht von θ abhängen, zusammen bedeutet dies: Tθ(X) muss eine Pivotgrößesein, die auf

    ”einfache” (zum Beispiel monotone) Weise von θ abhängt: Gesucht sind einfach

    strukturierte Pivotgrößen.

    2.4 Multiples Testen

    Literatur:

    • Lehmann & Romano, Kapitel 9• Dudoit, Shaffer & Boldrick (2003): Multiple Hypothesis Testing in Microarray Ex-

    periments, Statistical Science (18), Seiten 71-103

    Problem: Eine endliche Menge von (Null-) Hypothesen H1, ...,Hm soll mit Hilfe eines Da-tensatzes simultan getestet werden.

    56

  • Beispiele:

    • Varianzanalyse: Vergleich mehrerer Behandlungsarten mit Kontrolle (zum BeispielPlacebo oder

    ”übliche” Therapie). Ein simultaner Test der Form

    H0 : θ1 = . . . = θm = 0 vs. Halter : wenigstens ein θj 6= 0

    ist oft nicht ausreichend: Wenn H0 abgelehnt wird, möchte man wissen, welcheθj ’s signifikant von 0 verschieden sind. Hierzu können (simultan) die einzelnenHypothesen

    Hj := H0j : θj = 0

    für j = 1, . . . ,m getestet werden. In der Regel ist m vergleichsweise klein; eskönnen

    ”klassische” multiple Testverfahren verwendet werden.

    • Microarray-Experimente: Seien X1, . . . , Xm (normalisierte log-) Expressionen vonGenen 1, . . . ,m auf Microarrays, Xj

    a∼ N(µj , σj) für j = 1, . . . ,m und m vonder Größenordnung 1000 bis 10000. Es soll untersucht werden, welche Gene sig-nifikanten Einfluss auf einen Phänotyp, zum Beispiel eine bestimmte Krankheit,haben. In einem naiven Ansatz könnte dies wie oben durch simultane Tests unter-sucht werden. Wenn m und die Anzahl m0 richtiger Hypothesen jedoch groß ist,werden mit hoher Wahrscheinlichkeit eine oder mehr Hypothesen fälschlicherweiseabgelehnt. Für unabhängige Teststatistiken T1, . . . , Tm gilt zum Beispiel folgendeTabelle.

    m 1 2 5 10 50

    P(mindestens eine falsche Ablehnung) 0.05 0.10 0.23 0.40 0.92

    Es werden”neue” multiple Testverfahren gesucht, um Fehlerraten zu kontrollieren.

    2.4.1 Fehlerraten

    Die Situation bei m vorgegebenen Hypothesen kann wie folgt beschrieben werden:

    Anzahl nicht abge-lehnter Nullhypothesen

    Anzahl abge-lehnter Nullhypothesen

    Anzahl richtigerNullhypothesen U V m0Anzahl falscherNullhypothesen T S m1

    m−R R

    Dabei sind

    • m0 die (unbekannte) Anzahl richtiger Nullhypothesen,

    • m1 = m−m0 die (unbekannte) Anzahl falscher Nullhypothesen,

    • R eine beobachtbare Zufallsvariable,

    • S, T, U, V unbeobachtbare Zufallsvariablen (ruft nach Bayes!).

    57

  • In der Microarray-Analyse bedeutet das Ablehnen von Hj , dass das Gen j ”differentiell ex-

    primiert” ist.

    Idealerweise: Minimiere

    • Anzahl V von Fehlern 1. Art (falsch positiv),

    • Anzahl T von Fehlern 2. Art (falsch negativ).

    Klassische Testtheorie (m = 1):

    P(Fehler 1. Art) ≤ αP(Fehler 2. Art) → min

    Verschiedene Verallgemeinerungen zur Kontrolle der Fehlerraten sind bei multiplem Testenmöglich.

    Fehlerraten 1. Art (type I error rates)

    • PCER (per-comparison error rate):

    PCER =E(V )

    m

    Das ist die relative Anzahl erwarteter Fehler 1. Art.

    • PFER (per-family error rate):PFER = E(V )

    Das ist die absolute Anzahl erwarteter Fehler 1. Art.

    • FWER (family-wise error rate):

    FWER = P(V ≥ 1)

    Das ist die Wahrscheinlichkeit für mindestens einen Fehler 1. Art.

    • FDR (false discovery rate; Benjamini & Hochberg, 1995):

    FDR = E(Q) mit Q =

    {VR für R > 0,

    0 für R = 0.

    Das ist die erwartete relative Häufigkeit von Fehlern 1. Art unter den R abgelehntenHypothesen.

    Starke und schwache Kontrolle

    Typischerweise gilt: Für eine unbekannte Teilmenge

    Λ0 ⊆ {1, . . . ,m}

    58

  • sind die Hypothesen Hj , j ∈ Λ0, richtig, für den Rest falsch. Starke Kontrolle liegt vor, wenneine Fehlerrate für jede Teilmenge Λ0 nach oben durch α beschränkt wird, zum Beispiel

    FWER ≤ α

    gilt. Schwache Kontrolle liegt vor, wenn alle Nullhypothesen richtig sind.

    Klassische Ansätze (zum Beispiel Bonferroni- und Holm-Prozedur, siehe folgender Abschnitt)kontrollieren stark. Der FDR-Ansatz von Benjamini und Hochberg kontrolliert die FDRschwach und ist (deshalb) weniger konservativ.

    2.4.2 Multiple Testprozeduren

    Bonferroni-Prozedur

    Lehne für j = 1, . . . ,m die Hypothesen Hj ab, falls für den p-Wert gilt: pj ≤ αm . Es gilt:

    FWER ≤ α stark,

    d.h.

    P

    V ≥ 1 ∣∣∣ ⋂j∈Λ0

    Hj

    ≤ α.Nachteil: Das Niveau α/m der individuellen Tests wird bei großem m und üblichem α ex-trem klein. Bei Microarrays bleiben relevante Gene deshalb mit hoher Wahrscheinlichkeitunentdeckt.

    Holm-Prozedur

    Ordne die p-Werte pj , j = 1, . . . ,m, der individuellen Tests H1, . . . ,Hm der Größe nach an.Dann ist

    p(1) ≤ . . . ≤ p(m)mit den entsprechend sortierten Hypothesen H(1), . . . ,H(m). Als nächstes erfolgt schrittweisefolgende Prozedur:

    Schritt 1. Falls p(1) ≥ αm , akzeptiere H1, . . . ,Hm.Falls p(1) <

    αm , lehne H(1) ab und teste die verbleibenden m− 1 Hypothesen zum

    Niveau αm−1 .

    Schritt 2. Falls p(1) <αm , aber p(2) ≥

    αm−1 , akzeptiere H(2), . . . ,H(m) und stoppe.

    Falls p(1) <αm und p(2) <

    αm−1 , lehne nach H(1) auch H(2) ab und teste die

    verbleibenden m− 2 Hypothesen zum Niveau αm−2 .

    Schritt 3. usw.

    59

  • Es gilt:FWER ≤ α stark.

    Die Holm-Prozedur ist eine spezielle Form folgender Step-Down-Prozeduren:

    Step-Down-Prozeduren

    Allgemeine Struktur: Seiα1 ≤ α2 ≤ . . . ≤ αm.

    Falls p(1) ≥ α1, akzeptiere alle Hypothesen. Sonst lehne für r = 1, . . . , s die HypothesenH(1), . . . ,H(r) ab, falls

    p1 < α1, . . . , pr < αr.

    Eine Alternative sind:

    Step-Up-Prozeduren

    Falls p(m) < αm, verwerfe alle Hypothesen. Sonst lehne für r = 1, . . . , s die HypothesenH(1), . . . ,H(r) ab, falls

    p(s) ≥ αs, . . . , p(r+1) ≥ αr+1,

    aber p(r) < αr.

    Bemerkung.

    • Aussagen über starke Kontrolle finden sich zum Beispiel in Lehmann & Romano.

    • Für m ∼ 100, 1000 und größer: Immer noch Ablehnung fast aller Hypothesen. Benjamini& Hochberg (1995) raten, die false discovery rate FDR zu kontrollieren. Untersuchungder Eigenschaften ist Gegensatz aktueller Forschung.

    • Die diversen Prozeduren lassen sich teils günstig mit Hilfe von adjustierten p-Werten p̃jformulieren, siehe Dudoit, Shaffer & Boldrick (2003).

    • Resampling Methoden (Bootstrap, Permutationen, ...) sind notwendig, um (adjustierte)p-Werte zu berechnen.

    • Software: R-Package multtest, www.bioconductor.org.

    60

    Klassische Schätz- und TesttheorieKlassische SchätztheorieSuffizienzErwartungstreue, Varianz und MSEFisher-Information und SuffizienzErwartungstreue SchätzerAsymptotische Eigenschaften und Kriterien

    Klassische TesttheorieProblemstellungSatz von Neyman-PearsonGleichmäßig beste Tests

    Bereichsschätzungen und KonfidenzintervalleDefinition und Beurteilung der GüteDualität zwischen Konfidenzbereichen und Tests

    Multiples TestenFehlerratenMultiple Testprozeduren