Bayes Inferenz - Arbeitsgruppe...
Transcript of Bayes Inferenz - Arbeitsgruppe...
Bayes Inferenz
Helga Wagner Bayes Statistik WS 2010/11 245
Statistische Inferenz
• Beobachtungen: Daten y = (y1, . . . , yn) ∈ Y
• Annahme: Daten werden von einem (stochastischen) Modell spezifiziert durcheinen unbekannten Parameter ϑ ∈ Θ erzeugt
Statistische Inferenz: Schließen aus den Daten auf unbeobachtete Großen ϑ
Helga Wagner Bayes Statistik WS 2010/11 246
Bayes Inferenz
Bayesianisches Modell M: gemeinsames stochastisches Modell fur Daten y undunbekannten Parameter ϑ
• stochastisches Modell: Spezifikation der Stichprobenverteilung p(y|ϑ), e.g.i.i.d.Modell, Strukturbruch-Modell, AR-Modell
• Priori-Verteilung p(ϑ): quantifiziert subjektive Unsicherheit uber ϑ
Aktualisierung der Unsicherheit uber die unbeobachteten Großen durch die Daten=⇒ Bestimmen der Posteriori-Verteilung Inferenz bezuglich ϑ auf der Posteriori-Verteilung
p(ϑ|y) = p(y|ϑ)p(ϑ)p(y)
.
Helga Wagner Bayes Statistik WS 2010/11 247
Prinzipien des statistischen Schließens
• Likelihood Prinzip
• Suffizienz-Prinzip
• Konditionalitats-Prinzip
Helga Wagner Bayes Statistik WS 2010/11 248
Das Likelihood-Prinzip
• Die Likelihood p(y|ϑ) enthalt die gesamte Information uber den unbekanntenParameter ϑ aus den Daten.
• Zwei Likelihood-Funktionen enthalten dieselbe Information uber ϑ, wenn siezueinander proportional sind
Held (2008) unterscheidet das
• schwache Likelihoodprinzip: Alle Beobachtungen eines Modells sollen zu iden-tischen statistischen Schlussen fuhren, wenn die Likelihood gleich ist.
• und das starke Likelihoodprinzip: Alle Beobachtungen mit gleicher Likelihood(auch bei verschiedenen Modellen, die durch denselben Parameter ϑ spezifiziertsind) sollen zu identischen statistischen Schlussen fuhren
Helga Wagner Bayes Statistik WS 2010/11 249
Das Likelihood-Prinzip
Beispiel: Test, ob eine Munze fair ist
H0 : ϑ = 0.5 gegen ϑ > 0.5
Daten: 9×”Wappen“, 3×
”Zahl“=⇒ y = 9
2 verschiedene Modelle sind moglich:
• Zahl der Versuche n = 12 fix =⇒ Y ∼ BiNom (n, ϑ)
• Anzahl von”Zahl“z = 3 ist fest
Helga Wagner Bayes Statistik WS 2010/11 250
Das Likelihood-Prinzip
Modell M1: Zahl der Versuche n = 12 fix =⇒ Y ∼ BiNom (n, ϑ)
P (Y = 9|ϑ) =(
12
9
)
ϑ9 (1− ϑ)3
p-Wert:
P (Y ≥ 9) =12∑
y=9
(
12
y
)
0.5y 0.512−y = 0.073 =⇒ H0
Helga Wagner Bayes Statistik WS 2010/11 251
Das Likelihood-Prinzip
Modell M2: Anzahl von ”Zahl “z = 3 fix
W =Zahl der Fehlversuche bis zum 3. Erfolg =⇒W ∼ NegBin (z, 1− ϑ) (andereParametrisierung der negativen Binomialverteilung mit ϑ = β/(β + 1))
P (W = 9) =
(
3 + 9− 1
9− 1
)
ϑ9 (1− ϑ)3
p-Wert:
P (W ≥ 9) =∞∑
w=9
(
z + w − 1
z − 1
)
0.5w 0.5z = 0.0327 =⇒ H1
es gilt:∞∑
x=k
(
2 + x
2
)
0.5x=
8 + 5k + k2
2k
Helga Wagner Bayes Statistik WS 2010/11 252
Das Likelihood-Prinzip
In beiden Modellen ist die Likelihood
l(ϑ) = ϑ9(1− ϑ)3,
aber p-Wert fuhrt zu unterschiedlichen Entscheidungen.
Bem.: ML-Schatzung und Bayes-Inferenz erfullen das (strenge) Likelihood-Prinzip.
Helga Wagner Bayes Statistik WS 2010/11 253
Suffizienz-Prinzip
Ist t(y) suffizient fur ϑ, so kann die Likelihood dargestellt werden als
p(y|ϑ) = g(t(y)|ϑ) h(y|t(y))
Suffizienz-Prinzip: Eine suffiziente Statistik enthalt alle Information uber denParameter ϑ der Stichprobenverteilung p(y|ϑ) .
• Gleiche Werte einer suffizienten Statistik fur ϑ
• und alle (verschiedenen) suffizienten Statistiken fur ϑ
sollen zu identischen statistischen Schlussen uber ϑ fuhren.
Helga Wagner Bayes Statistik WS 2010/11 254
Suffizienz-Prinzip
Fur die Posteriori-Verteilung p(ϑ|y) gilt:
p(ϑ|y) = g(t(y)|ϑ)h(y|t(y))p(ϑ)∫
Θg(t(y)|ϑ)h(y|t(y))p(ϑ) =
g(t(y)|ϑ)p(ϑ)∫
Θg(t(y)|ϑ)p(ϑ)dϑ ∝ g(t(y)|ϑ)p(ϑ)
Mit
p(t|ϑ) =∫
y:t(y)=t
p(y|ϑ)dy = g(t|ϑ)∫
y:t(y)=t
h(y|t(y))dy = = g(t|ϑ)ψ(t)
ist
p(ϑ|y) = g(t|ϑ)ψ(t)p(ϑ)∫
Θg(t|ϑ)ψ(t)dϑ =
p(t|ϑ)p(ϑ)∫
Θp(t|ϑ)dϑ = p(ϑ|t)
Helga Wagner Bayes Statistik WS 2010/11 255
Konditionalitatsprinzip
mehrere mogliche Experimente, die Information uber ϑ liefern konnen, stehen zurWahl
Konditionalitatsprinzip: Wird eines dieser Experimente ua. von ϑ ausgewahlt, soist jedes nicht gewahlte Experiment irrelevant fur die Inferenz.
Die Information uber ϑ hangt nur vom durchgefuhrten Experiment ab.
Aus Suffizienzprinzip und Konditionalitatsprinzip folgt das (starke) Likelihood-prinzip.
Helga Wagner Bayes Statistik WS 2010/11 256
Konditionalitatsprinzip
Beispiel 1: Um die Fairness der Munze zu testen, wird zufallig
• mit Wahrscheinlichkeit π das durch Modell M1 beschriebene
• und mit Wahrscheinlichkeit 1− π das durch Modell M2 Experiment
durchgefuhrt. Das Experiment ergab 9×”Wappen “und 3×
”Zahl.
Der p-Wert hangt von π ab!
Beispiel 2: Das durchzufuhrende Experiment wird durch einenWurf mit der zutestenden Munze bestimmt. Bei Zahl wird das durch Modell M1 beschriebeneExperiment, sonst das andere durchgefuhrt.
Das Experiment ergab 9×”Wappen“und 3×
”Zahl“; der Wurf zur Wahl des
Experimentes wurde nicht mitgezahlt.
Helga Wagner Bayes Statistik WS 2010/11 257
Sequentielles Lernen aus den Daten
Stichprobe y von bedingt auf ϑ ua. Daten wird in 2 Teilstichproben y1,y2
verarbeitet
p(ϑ|y) = p(ϑ|y1,y2) =p(y1|ϑ)p(y2|ϑ)p(ϑ)
p(y1,y2)=p(y2|ϑ)p(ϑ|y1)
p(y2|y1)
mit
p(y2|y1) =
∫
Θ
p(y2|y1,ϑ)p(ϑ|y1)dϑ
• Kombination der Information aus y1 und y2: Posteriori-Verteilung bedingt aufy1 wird Priori-Verteilung fur die Analyse von y2
• Reihenfolge, in der die Daten beobachtet wurden, ist (bei bedingter Ua.)belanglos
Helga Wagner Bayes Statistik WS 2010/11 258
Bayes InferenzWahl der Priori-Verteilung
Helga Wagner Bayes Statistik WS 2010/11 259
Wahl der Priori-Verteilung
Bayes -Analyse berucksichtigt Information uber unbekannte Großen vor Erhebungder Daten. Diese Information ist durch die Priori-Verteilung zu quantifizieren.
Wie soll die Priori-Verteilung gewahlt werden?
• konjugiert / nicht konjugiert?
• informativ / nicht informativ?
– informative Priori-Information: Erheben von Expertenwissen (O’Hagan et al.,2006; Kass and Raftery, 1995)
– nicht informative Priori-Verteilungen: was ist nicht informativ?
• eigentlich / uneigentlich?
Helga Wagner Bayes Statistik WS 2010/11 260
Exponentialfamilien
Die Verteilungsfamilie Pγ,γ ∈ Γ, deren Dichten von der Form
p(x|γ) = h(x) exp(
p∑
j=1
ϑj(γ)tj(x)− a(γ))
sind, nennt man p-parametrische Exponentialfamilie, wenn a, h und tj, ϑj, j =1, . . . p reellwertige Funktionen sind. x kann multivariat sein.
Sind die Funktionen (1, ϑ1, . . . , ϑp) und (1, t1(x), . . . , tp(x)) linear unabhangig,so heisst die Familie strikt p-parametrisch.
ϑ = (ϑ1, . . . , ϑp) mit ϑj = ϑj(γ) heisst kanonischer bzw. naturlicher Parameterder Exponentialfamilie mit naturlichem Parameterraum Θ = {ϑ(γ)|γ ∈ Γ} ⊆ R
p.
Helga Wagner Bayes Statistik WS 2010/11 261
Exponentialfamilien
In kanonischer (naturlicher) Parametrisierung sind die Dichten der Exponential-familie gegeben als
p(x|ϑ) = h(x) exp(ϑ′t(x)− b(ϑ))
• t(x) = (t1(x), . . . , tp(x)) ist die (p-dimensionale) suffiziente Statistik fur dennaturlichen Parameter ϑ.
• exp(b(ϑ)) ist ein Normierungsfaktor:
∫
p(x|ϑ)dx = exp(−b(ϑ))∫
h(x) exp(ϑ′t(x))dx
d.h.
exp(b(ϑ) =
∫
h(x) exp(ϑ′t(x))dx
Helga Wagner Bayes Statistik WS 2010/11 262
Exponentialfamilien
Eine strikt p-parametrische naturliche Exponentialfamilie mit naturlichem Para-meterraum, fur den gilt
Θ = {ϑ|∫
h(x) exp(ϑ′t(x))dx <∞}
und Θ ist eine nichtleere offene Teilmenge des Rp heisst regulare naturliche
Exponentialverteilung.
Helga Wagner Bayes Statistik WS 2010/11 263
Exponentialfamilien
Die Likelihood einer i.i.d. Stichprobe y = (y1, . . . , yn) mit Verteilung aus einernaturlichen Exponentialfamilie ist
p(y|ϑ) =n∏
i=1
h(yi) exp(ϑ′
n∑
i=1
t(yi)− nb(ϑ)) ∝
∝ exp(ϑ′nt(y)− nb(ϑ))) =
= exp(n(ϑ′t(y)− b(ϑ)))
mit nt(y) =∑n
i=1 t(yi).
Helga Wagner Bayes Statistik WS 2010/11 264
Naturlich konjugierte Priori-Verteilungen
Fur eine regulare naturliche Exponentialfamilie ist die Familie der Priori-Verteilungder Form
p(ϑ) ∝ exp(
n0(ϑ′t0 − b(ϑ))
)
• eigentlich, wenn n0 > 0 und t0 ∈ Y• die (minimal) konjugierte Familie bzw. die naturlich konjugierte Familie vonPriori-Verteilungen.
Die Posteriori-Verteilung
p(ϑ|y) ∝ exp(
n1(ϑ′t1 − b(ϑ)
)
gehort zur selben Familie wie die Priori-Verteilung, mit
n1 = n0 + n und t1 =n0t0 + nt(y)
n0 + n
Helga Wagner Bayes Statistik WS 2010/11 265
Naturlich konjugierte Priori-Verteilungen
Fur die Zufallsgroße t(Y ) ist
E(t(Y )|ϑ) = ∇b(ϑ) d.h. E(tj(y)|ϑ) =∂b(ϑ)
∂ϑj.
Diaconis and Ylvisaker (1979) zeigen, dass fur regulare kanonische Exponential-familien gilt
E(t(Y )) = E(E(t(Y )|ϑ)) = E(∇b(ϑ)) = t0
d.h. t0 ist der Priori-Erwartungswert von t(Y ).
Helga Wagner Bayes Statistik WS 2010/11 266
Naturlich konjugierte Priori-Verteilungen
Der Posteriori-Erwartungswert E(t(Y )|y) ist gegeben als gewichtetes Mittel vonPriori-Mittelwert und Mittelwert in den Daten
E(t(Y )|y) = t1 =n0
n0 + nt0 +
n
n0 + nt(y) = (1− ω)t0 + ωt(y)
Die Priori-Verteilung hat dieselbe Information uber ϑ wie eine Stichprobe von n0Beobachtungen y1, . . . , yn0 mit Mittelwert 1/n0
∑
t(yi) = t0.
Helga Wagner Bayes Statistik WS 2010/11 267
Naturlich konjugierte Priori-Verteilungen
• Fur Verteilungen, die zur regularen Exponentialfamilie gehoren, konnen alsokonjugierte Priori-Verteilungen konstruiert werden.
• Die naturlich konjugierte Familie der Priori-Verteilungen ist diejenige mit mini-maler Anzahl von Parametern - die Familie der Mischungen dieser Verteilungenbzw. die Familie aller Verteilungen ist ebenfalls konjugiert.
• ϑ ist der naturliche Parameter der Stichprobenverteilung p(y|ϑ). In der Priori-Verteilung p(ϑ) spielt ϑ die Rolle der suffizienten Statistik fur n0t0.
• Naturlich konjugierte Priori-Verteilungen sind nicht notwendigerweise einfachanzugeben, da die Normierungskonstante bestimmt werden muss.
Helga Wagner Bayes Statistik WS 2010/11 268
i.i.d. Poisson Modell
Die Stichprobenverteilung von n i.i.d.P (µ) verteilten Beobachtungen y ist
p(y|µ) ∝ µ∑
yie−nµ
Geschrieben in Form einer einparametrischen Exponentialfamilie ist die Likelihood
p(y|µ) ∝ exp(∑
yi logµ− nµ)
d.h. t(y) =∑
yi = ny ist die suffiziente Statistik und ϑ(µ) = logµ ist derkanonische Parameter.
Helga Wagner Bayes Statistik WS 2010/11 269
i.i.d. Poisson Modell
Die konjugierte Priori-Verteilung fur ϑ = logµ ist daher
p(ϑ) ∝ exp(n0ϑt0 − exp(ϑ))
bzw.
p(µ) ∝ exp(n0t0(logµ)− µ)1
µ= µn0t0−1 exp(−n0µ)
d.h. µ ∼ G (n0t0, n0)
Die posteriori-Verteilung ist µ ∼ G (n1t1, n1) mit
n1 = n0 + n und t1 =n0t0 + ny
n0 + n
Helga Wagner Bayes Statistik WS 2010/11 270
COM-Poisson-Verteilung
Die Conway-Maxwell-Poissonverteilung (COM-Poisson-Verteilung) ist eine Ver-allgemeinerung der Poissonverteilung.
Ihre Wahrscheinlichkeitsfunktion ist gegeben als
P (y|λ, ν) = λy
(y!)ν1
Z(λ, ν)fur y = 0, 1, . . .
In Form einer Exponentialfamilie geschrieben
P (y|λ, ν) = exp(y log λ− ν log(y!)− logZ(λ, ν))
Die COM-Poisson-Verteilung ist also eine 2-parametrische Exponentialfamiliemit naturlichem Parameter ϑ = (log λ,−ν) und suffizienter Statistik t(y) =(y, log(y!)) .
Helga Wagner Bayes Statistik WS 2010/11 271
COM-Poisson-Verteilung
Die konjugierte Priori-Verteilung (Kadane et al., 2006) hat die Form
p(ϑ) ∝ exp(
n0(ϑ1t01 + ϑ2t02 − logZ(λ(ϑ1), ν(ϑ2))))
bzw. als Funktion der Parameter λ und ν
p(λ, µ) ∝ λn0t01−1 exp(−νn0t02)1
Zn0(λ, ν)
Helga Wagner Bayes Statistik WS 2010/11 272
Modellierung von Unwissenheit
Wenn kein oder wenig Vorwissen vorhanden ist, soll die Priori-Verteilung imVergleich zu den Daten moglichst wenig Effekt auf die Schlusse haben (Bernardoand Smith, 1994).
moglicher Ansatz: flache Priori-Verteilung
pϑ(ϑ) ∝ constant
• Die resultierende Posteriori-Verteilung ist nicht notwendigerweise regular, d.h.integrierbar.
• Die flache Priori-Verteilung ist nicht invariant bezuglich Parameter-Transformationen: Eine Priori-Verteilung, die gleichformig fur ϑ ist, ist nichtgleichformig fur eine beliebige nichtlineare Transformation ϕ on ϑ.
Helga Wagner Bayes Statistik WS 2010/11 273
Parametertransformation
Fur eine bijektive Transformation ϕ = h(ϑ) von ϑ ist
p(ϕ) = p(h−1(ϕ))
∣
∣
∣
∣
dh−1(ϕ)
dϕ
∣
∣
∣
∣
Fur p(x) = const. ist p(x) nur dann konstant, wenn h eine lineare Funktion ist.
Helga Wagner Bayes Statistik WS 2010/11 274
Flache Priori-Verteilungen fur binare Daten
Fur einen unbekannten Anteil ϑ ist die konjugierte Priori-Verteilung die B (a0, b0)-Priori.
Zur Modellierung von binaren Daten konnte man auch ein Logit-Modell mitParameter
ϕ = log(ϑ)− log(1− ϑ) = logit (ϑ). (32)
verwenden.
Welche Priori fur die Log-Odds-Ratio ϕ entspricht der B (a0, b0)-Priori auf ϑ?
Helga Wagner Bayes Statistik WS 2010/11 275
Flache Priori-Verteilungen fur binare Daten
Transformationssatz fur Dichten
p(ϕ) = p(ϑ(ϕ))
∣
∣
∣
∣
dϑ(ϕ)
dϕ
∣
∣
∣
∣
,
wobei ϑ(ϕ) die inverse logit-Transformation ist
dϑ(ϕ)
dϕ= eϕ/(1 + eϕ)2.
Aus der B (a0, b0)-Priori fur ϑ ergibt sich die folgende Priori-Verteilung fur ϕ:
p(ϕ) ∝ ea0ϕ
(1 + eϕ)b0(33)
mit a0 = a0 and b0 = a0 + b0.
Helga Wagner Bayes Statistik WS 2010/11 276
Flache Priori-Verteilungen fur binare Daten
• Die flache Priori-Verteilung fur ϑ (a0 = 1, b0 = 1) ergibt die standard-logistische Verteilung als Priori fur die Log-Odds-Ratio ϕ
f(ϕ) =eϕ
(1 + eϕ)2
Der Modus der Verteilung ist Null
=⇒ Log-Odds-Ratios um Null werden bevorzugt
• Wahlt man hingegen als Priori-Verteilung fur ϕ eine Gleichverteilung (d.h.a0 = 0, b0 = 0), so erhalt man die (uneigentliche) B (0, 0)-Priori-Verteilung(Haldane-Priori) fur ϑ.
Diese Priori-Verteilung hat Pole bei Null und 1 =⇒ Werte am Rande desParameterraumes werden bevorzugt
Helga Wagner Bayes Statistik WS 2010/11 277
Flache Priori-Verteilungen fur binare Daten
0 0.5 10
0.5
1
1.5
2
θ
−10 −5 0 5 100
0.05
0.1
0.15
0.2
0.25
log(θ/(1−θ))−10 −5 0 5 100
0.5
1
1.5
2
log(θ/(1−θ))
0 0.5 10
20
40
60
80
100
120
θ
Abbildung 30: links: Gleichverteilung fur ϑ (oben) mit entsprechender Priorifur die Log-Odds-Ratio ϕ (unten);rechts: Gleichverteilung fur die Log-Odds-Ratio ϕ (unten) und entsprechendePriori fur ϑ (oben)
Helga Wagner Bayes Statistik WS 2010/11 278
Jeffreys’ Priori-Verteilung
Jeffreys’ Invarianz-Prinzip: Die Priori und damit auch die Posteriori-Verteilungsoll invariant bezuglich einer eineindeutigen Transformation des Paramters sein
Ist Y eine Zufallsvariable mit Dichtefunktion p(y|ϑ) und ϑ der unbekannteeindimensionale Parameter, so ist Jeffreys’ Priori gegeben als
p(ϑ) ∝√
I(ϑ), (34)
I(ϑ) ist die erwartete Fisher-Information von ϑ im Modell p(y|ϑ)
Jeffrey’s Priori-Verteilung ist proportional zur Wurzel aus der erwarteten Fisher-Information und kann uneigentlich sein.
Helga Wagner Bayes Statistik WS 2010/11 279
Jeffreys’ Priori-Verteilung
Invarianz von Jeffreys’ Priori-Verteilung: Ist
p(ϑ) ∝√
I(ϑ),
so ist die Dichtefunktion einer eineindeutigen Transformation ϕ = h(ϑ) gege-ben als
p(ϕ) ∝√
I(ϕ).wobei I(ϕ) die erwartete Fisher-Information von ϕ ist.
Beweis:
p(ϕ) ∝ p(h−1(ϕ))
∣
∣
∣
∣
dh−1(ϕ)
dϕ
∣
∣
∣
∣
=
√
I(ϑ)∣
∣
∣
∣
dh−1(ϕ)
dϕ
∣
∣
∣
∣
2
=
√
I(ϕ)
Helga Wagner Bayes Statistik WS 2010/11 280
Jeffreys’ Priori-VerteilungJeffreys’ Priori-Verteilung
• fur den Mittelwert der Poissonverteilung µ:
p(µ) ∝√
nµ ∝ 1/
õ
• fur einen unbekannten Anteil ϑ:p(ϑ) ∝
√
nϑ(1−ϑ) ∝ 1/
√
ϑ(1− ϑ), d.h. die B (0.5, 0.5)-Priori (die Arcus-Sinus-
Verteilung)
• fur den Mittelwert der Normalverteilung µ bei bekanntem σ2:p(µ) ∝
√
n/σ2 ∝ 1
• fur die Varianz der Normalverteilung σ2 bei bekanntem µ:p(σ2)
√
n/2σ2 ∝ 1/σ2
Helga Wagner Bayes Statistik WS 2010/11 281
Jeffreys’ Priori-Verteilung
Fur einen mehrdimensionalen Parameter ϑ ist Jeffreys’ Priori-Verteilung
p(ϑ) ∝√
|I(ϑ)|,
Fur y ∼ N(
µ, σ2)
mit µ, σ2 unbekannt, ist die Priori-Verteilung damit
p(µ, σ2) ∝√
n
σ2
n
2σ4∝( 1
σ2)3/2
Die bedingte posteriori-Verteilung fur µ ist N(
y, σ2/n)
und die marginalePosteriori-Verteilung fur σ2 ist:
σ2|y ∼ G−1(
n/2, n/2s2y)
Helga Wagner Bayes Statistik WS 2010/11 282
Probleme mit Jeffreys’ Priori
Fur y ∼ N(
µ, σ2)
mit bekanntem µ und σ2 unbekannt, ergibt Jeffreys’ Priorip(σ2) ∝ 1/σ2 die Posteriori-Verteilung
σ2|y ∼ G−1
(
n/2, n/2
(
1
n
n∑
i=1
(yi − µ)2
))
.
• beide Posteriori-Verteilungen unterscheiden sich also nur im Skalenparameter
• Informationsverlust durch Schatzung des Parameters µ kommt nicht zumAusdruck
=⇒ anderer Vorschlag: Anwendung von Jeffreys Regel ua. auf beide Parameterund Multiplikation der Priori-Verteilungen. Damit erhalt man die Priori
p(µ, σ2) ∝ 1
σ2
Helga Wagner Bayes Statistik WS 2010/11 283
Probleme mit Jeffreys’ Priori
Jeffrey’s Priori-Verteilung verletzt das Likelihoodprinzip!
Beispiel Munzwurf:
• Experiment 1: n Wurfe fix, Y= Anzahl von”Wappen“
=⇒ Modell M1: Y ∼ BiNom (n, ϑ)
Jeffrey’s Priori-Verteilung: ϑ ∝ ϑ−0.5(1− ϑ)−0.5 =”B (0.5, 0.5)“
• Experiment 2: Anzahl von”Zahl“z ist vorgegeben
=⇒ Modell M2: W ∼ NegBin (z, 1− ϑ)
Jeffrey’s Priori-Verteilung: ϑ ∝ ϑ−0.5(1− ϑ)−1 =”B (0.5, 0)“
Die Log-Likelihood ist
p(w|ϑ)
(
z + w − 1
w − 1
)
ϑw (1 − ϑ)z.
Helga Wagner Bayes Statistik WS 2010/11 284
Probleme mit Jeffreys’ Priori
Aus∂ log p(w|ϑ)
∂ϑ= −
w
ϑ2−
z
(1 − ϑ)2
folgt mit E(W ) = zϑ/(1 − ϑ)
I(ϑ) =z
ϑ(1 − ϑ)+
z
(1 − ϑ)2=
z
ϑ(1 − ϑ)2
Helga Wagner Bayes Statistik WS 2010/11 285
Invariante Priori-Verteilungen fur Lage-und Skalenparameter
• Ist ϑ ein Lageparameter, d.h. p(y|ϑ) = f(y−ϑ), kann fur die Priori-VerteilungInvarianz gegenuber Lageverschiebungen gefordert werden, d.h.
p(ϑ) = p(ϑ− a) fur alle a
Dies erfullt nur die flache Priori p(ϑ) ∝ c.
• Fur einen Skalenparameter ϑ, d.h. p(y|ϑ) = f(y/ϑ)/ϑ ist eine Priori-Verteilung, die invariant gegenuber Skalentransformationen ist, d.h.
p(ϑ) = p(ϑ/a)/a fur alle a
die uneigentliche Priori p(ϑ) ∝ 1/ϑ.
Helga Wagner Bayes Statistik WS 2010/11 286
Uneigentliche Priori-Verteilungen
Uneigentliche Priori-Verteilungen, sind Verteilungen, die nicht integrierbar sind,d.h. die Normierungskonstante kann nicht bestimmt werden. Die Dichte eineruneigentlichen Verteilung wird mit ∝ angegeben.
Uneigentliche Priori-Verteilungen treten nur auf, wenn der Parameterraum Θnicht kompakt ist, z.B. Θ = R oder Θ = R
+
Obwohl eine uneigentliche Priori-Verteilung kein gemeinsames stochastisches Mo-dell p(y,ϑ) definiert, ist in die resultierende Posteriori-Verteilung eine eigentlicheVerteilung, wenn
p(y) =
∫
p(y|ϑ)p(ϑ)dϑ <∞
fur alle y.
Helga Wagner Bayes Statistik WS 2010/11 287
Uneigentliche Verteilungen fur die Poisson-Verteilung
Modell: y ∼ i.i.d. P (µ)
Ubliche uneigentliche Priori-Verteilungen fur µ:
• Jeffrey’s Priori: p(µ) ∝ µ−12 ( =
”G (1/2, 0)“)
• µ: p(µ) ∝ constant (=”G (1, 0) “)
• Gleichverteilungs-Priori fur logµ: p(logµ) ∝ constant=⇒ p(µ ∝ µ−1) (=
”G (0, 0) “)
Die Posteriori ist eigentlich
• mit einer Beobachtung fur”G (a, 0)“mit a > 0
• der ersten Beobachtung ungleich 0 fur”G (0, 0)“
Helga Wagner Bayes Statistik WS 2010/11 288
Uneigentliche Posteriori-Verteilungen
Modell: y ∼ i.i.d. with P(Yi = 1) = ϑ =
Priori: uneigentliche”B (0, 0)“-Priori (entspricht Gleichverteilung des Logits)
Eigentliche Posteriori, wenn an > 0 and bn > 0, d.h. 0 < Sn =∑
yi < n
Wahrscheinlichkeit dafur, dass die Posteriori uneigentlich ist
P ((Sn = 0) ∪ (Sn = n)|ϑ, n) = (1− ϑ)n + ϑn.
Helga Wagner Bayes Statistik WS 2010/11 289
Uneigentliche Posteriori-Verteilungen
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
10
20
30
40
50
60
70
80
90
100
θ
NProb(p(y)=∞|θ,N)
Abbildung 31: Contourplot von P ((Sn = 0) ∪ (Sn = n)|ϑ, n) als Funktionvon ϑ and n (strichlierte Linien entsprechen den 0.1 - 0.9 Isolinien, die volleLinie der 0.01-Isolinie
Helga Wagner Bayes Statistik WS 2010/11 290
Uneigentliche Posteriori-Verteilungen
Uneigentliche Priori-Verteilungen konnen jedoch auch fur alle Stichproben, d.h.immer zu uneigentlichen Posteriori-Verteilungen fuhren.
Beispiel: Student-t Verteilung mit unbekanntem FreiheitsgradModell: y ∼ i.i.d. tν
(
µ, σ2)
Die Likelihood kann sehr”irregular“sein, z.B.
• multimodal bei Ausreißern
• flach fur ν → ∞=⇒ Probleme mit numerischen Maximierungsverfahren
Mit wachsendem ν nahert sich die Likelhood jener unter einer N(
µ, σ2)
-Verteilung
limν→∞
p(y|ν, µ, σ2) = pN(y|µ, σ2).
Helga Wagner Bayes Statistik WS 2010/11 291
Nichtregulare Likelihood
100
101
102
103
−2250
−2200
−2150
−2100
−2050
−2000
−1950
−1900
−1850
−1800
−1750
ν
log f(y
|ν)
Loglikelihood of Data Set 1 given ν
100
101
102
103
−1600
−1590
−1580
−1570
−1560
−1550
−1540
−1530
−1520
−1510
ν
log f(y
|ν)
Loglikelihood of Data Set 2 given ν
101
102
103
104
−1426
−1425
−1424
−1423
−1422
−1421
−1420
−1419
−1418
−1417
−1416
ν
log f(y
|ν)
Loglikelihood of Data Set 3 given ν
102
103
104
−1378.5
−1378
−1377.5
−1377
ν
log f(y
|ν)
Loglikelihood of Data Set 4 given ν
Abbildung 32: 1000 simulierte Beobachtungen aus tν (0, 1) (Daten 1: ν = 3,Daten 2: ν = 10, Daten 3: ν = 100, Daten 4: N (0, 1) (ν = ∞));Loglikelihood (horizontale Linie entspricht der Loglikelihood der N (0, 1))
Helga Wagner Bayes Statistik WS 2010/11 292
Nichtregulare Likelihood
Die Likelihood
• hat einen endlichen Modus ν mit p(y|ν = ν, µ, σ2) > fN(y|µ, σ2) und nahertsich dem Grenzwert von oben
• oder keinen Modus und nahert sich dem Grenzwert von unten
Da das Integral∫
ℜ+p(y|ν, µ, σ2)dν
nicht existiert, ist die Posteriori-Verteilung mit der uneigentlichen Priori-Verteilungp(ν) ∝ constant uneigentlich !
Helga Wagner Bayes Statistik WS 2010/11 293
Nichtregulare Likelihood
100
101
102
103
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
ν
f(y|ν)
Likelihood of Data Set 1 given ν
100
101
102
103
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
ν
f(y|ν)
Likelihood of Data Set 2 given ν
100
101
102
103
104
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
ν
f(y|ν)
Likelihood of Data Set 3 given ν
102
103
104
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
ν
f(y|ν)
Likelihood of Data Set 4 given ν
Abbildung 33: 1000 simulierte Beobachtungen aus tν (0, 1) (Daten 1: ν = 3,Daten 2: ν = 10, Daten 3: ν = 100, Daten 4: N (0, 1) (ν = ∞)); nicht-normalisierte Posteriori p(ν|y) unter der Priori-Verteilung p(ν) = constant
Keine dieser nichtnormierten”Posterioris“ist integrierbar !
Helga Wagner Bayes Statistik WS 2010/11 294
Wahl der Freiheitsgrade
Welche uneigentlichen Priori-Verteilungen ergeben eigentliche Posteriori-Verteilungen?
Entscheidend ist das Integral uber die nichtnormierte Posteriori-Verteilungπ⋆(ν|µ, σ2,y) im Endbereich (C,∞). Mit
∫ ∞
C
p(y|ν)p(ν)dν ≈ pN(y|µ, σ2)
∫ ∞
C
p(ν)dν,
Die Priori auf ν kann uneigentlich sein, solange
∫ ∞
C
p(ν)dν <∞.
Helga Wagner Bayes Statistik WS 2010/11 295
Wahl der Freiheitsgrade
Uneigentliche Priori-Verteilungen der Form
p(ν) ∝(
1
ν
)n0
, (35)
oder
p(ν) ∝(
1
1 + ν
)n0
, (36)
mit n0 > 1 ergeben eigentliche Posteriori-Verteilungen .
Mit n0 = 2 implizieren diese Priori-Verteilungen eine Gleichverteilung auf a = 1/νbzw. a = 1/(1 + ν).
Helga Wagner Bayes Statistik WS 2010/11 296
Wahl der Freiheitsgrade
Vorgeschlagene eigentliche Priori-Verteilungen:
• Exponential-Verteilung ν ∼ E (λ)
• Gleichverteilung ν ∼ U [0, νmax]
Diese Priori-Verteilungen konnen sehr einflußreich sein. Hierarchische Priori-Verteilungen, d.h. Priori-Verteilungen mit einem sogenannten Hyper-Parameter,fur den ebenfalls eine Priori-Verteilung spezifiziert ist, sind meist weniger einfluß-reich, hier z.B. (Congdon, 2003)
ν ∼ E (λ) , λ ∼ U [λ0, λmax]
Mit λ ∝ constant ergibt sich die Priori-Verteilung p(ν) ∝(
11+ν
)2
Helga Wagner Bayes Statistik WS 2010/11 297
Wahl der Freiheitsgrade
Tabelle 15: 1000 simulierte Werte aus der tν (0, 1) -Verteilung fur ver-schiedene Werte von ν; Posteriori-Erwartungswert ν mit U [0, νmax]-Priori
Daten 1 Daten 2 Daten 3 Daten 4
(ν = 3) (ν = 10) (ν = 100) (Normal)
νmax = 100 3.078 11.82 65.94 76.59
νmax = 200 3.078 11.82 116.2 139.1
νmax = 500 3.078 11.82 261.7 310.5
νmax = 1000 3.077 11.83 504.8 580.4
Helga Wagner Bayes Statistik WS 2010/11 298
Wenig informative Priori-Verteilungen
Um uneigentliche Priori-Verteilungen zu vermeiden, werden oft eigentliche, aberwenig informative Priori-Verteilungen gewahlt, d.h. Priori-Verteilungen, die ineinem großen Teil des Parameterraumes ahnlich der uneigentlichen Priori ist.
Beispiel: Schatzung eines Anteils ϑ ∼ B (a0, b0) mit kleinen, positiven Wertenfur die Parameter. Diese Priori-Verteilung kann sehr einflussreich sein, wenn der
”wahre“Wert von ϑ am Rande des Parameterraumes liegt.
Sn = 0 =⇒ 100%(1− α)-HPD-Intervall ist fur a0 ≤ 1 von der Form (0, Q1−α),wobei Q1−α das (1− α)-Quantil der B (a0, b0 + n)-Verteilung ist.
=⇒ Sensitivitatsanalyse
Q0.95 a0 = b0 = 0.01 a0 = b0 = 0.1 a0 = b0 = 0.5 a0 = b0 = 1
n = 10 0.00035 0.0583 0.1708 0.2384
n = 100 0.00003 0.0058 0.0190 0.0292
Helga Wagner Bayes Statistik WS 2010/11 299
Wenig informative Priori-Verteilungen
0 0.5 10
0.1
0.2
0.3
0.4
0.5
θ
−10 −5 0 5 100
0.5
1
1.5
2
log(θ/(1−θ))−10 −5 0 5 100
0.5
1
1.5
2
log(θ/(1−θ))
0 0.5 10
20
40
60
80
100
120
θ
Abbildung 34: Die eigentliche B (0.01, 0.01)-Priori fur ϑ im Vergleich zuruneigentlichen
”B (0, 0)“-Priori
Helga Wagner Bayes Statistik WS 2010/11 300