Bayes Inferenz - Arbeitsgruppe...

Bayes Inferenz

Helga Wagner Bayes Statistik WS 2010/11 245

Statistische Inferenz

• Beobachtungen: Daten y = (y1, . . . , yn) ∈ Y

• Annahme: Daten werden von einem (stochastischen) Modell spezifiziert durcheinen unbekannten Parameter ϑ ∈ Θ erzeugt

Statistische Inferenz: Schließen aus den Daten auf unbeobachtete Großen ϑ


Bayes Inferenz

Bayesianisches Modell M: gemeinsames stochastisches Modell fur Daten y undunbekannten Parameter ϑ

• stochastisches Modell: Spezifikation der Stichprobenverteilung p(y|ϑ), e.g.i.i.d.Modell, Strukturbruch-Modell, AR-Modell

• Priori-Verteilung p(ϑ): quantifiziert subjektive Unsicherheit uber ϑ

Aktualisierung der Unsicherheit uber die unbeobachteten Großen durch die Daten=⇒ Bestimmen der Posteriori-Verteilung Inferenz bezuglich ϑ auf der Posteriori-Verteilung

p(ϑ|y) = p(y|ϑ)p(ϑ)p(y)

.


Prinzipien des statistischen Schließens

• Likelihood Prinzip

• Suffizienz-Prinzip

• Konditionalitats-Prinzip


Das Likelihood-Prinzip

• Die Likelihood p(y|ϑ) enthalt die gesamte Information uber den unbekanntenParameter ϑ aus den Daten.

• Zwei Likelihood-Funktionen enthalten dieselbe Information uber ϑ, wenn siezueinander proportional sind

Held (2008) unterscheidet das

• schwache Likelihoodprinzip: Alle Beobachtungen eines Modells sollen zu iden-tischen statistischen Schlussen fuhren, wenn die Likelihood gleich ist.

• und das starke Likelihoodprinzip: Alle Beobachtungen mit gleicher Likelihood(auch bei verschiedenen Modellen, die durch denselben Parameter ϑ spezifiziertsind) sollen zu identischen statistischen Schlussen fuhren



Beispiel: Test, ob eine Munze fair ist

H0 : ϑ = 0.5 gegen ϑ > 0.5

Daten: 9×”Wappen“, 3×

”Zahl“=⇒ y = 9

2 verschiedene Modelle sind moglich:

• Zahl der Versuche n = 12 fix =⇒ Y ∼ BiNom (n, ϑ)

• Anzahl von”Zahl“z = 3 ist fest



Modell M1: Zahl der Versuche n = 12 fix =⇒ Y ∼ BiNom (n, ϑ)

P (Y = 9|ϑ) =(

12

9

)

ϑ9 (1− ϑ)3

p-Wert:

P (Y ≥ 9) =12∑

y=9

(

12

y

)

0.5y 0.512−y = 0.073 =⇒ H0



Modell M2: Anzahl von ”Zahl “z = 3 fix

W =Zahl der Fehlversuche bis zum 3. Erfolg =⇒W ∼ NegBin (z, 1− ϑ) (andereParametrisierung der negativen Binomialverteilung mit ϑ = β/(β + 1))

P (W = 9) =

(

3 + 9− 1

9− 1

)

ϑ9 (1− ϑ)3

p-Wert:

P (W ≥ 9) =∞∑

w=9

(

z + w − 1

z − 1

)

0.5w 0.5z = 0.0327 =⇒ H1

es gilt:∞∑

x=k

(

2 + x

2

)

0.5x=

8 + 5k + k2

2k



In beiden Modellen ist die Likelihood

l(ϑ) = ϑ9(1− ϑ)3,

aber p-Wert fuhrt zu unterschiedlichen Entscheidungen.

Bem.: ML-Schatzung und Bayes-Inferenz erfullen das (strenge) Likelihood-Prinzip.


Suffizienz-Prinzip

Ist t(y) suffizient fur ϑ, so kann die Likelihood dargestellt werden als

p(y|ϑ) = g(t(y)|ϑ) h(y|t(y))

Suffizienz-Prinzip: Eine suffiziente Statistik enthalt alle Information uber denParameter ϑ der Stichprobenverteilung p(y|ϑ) .

• Gleiche Werte einer suffizienten Statistik fur ϑ

• und alle (verschiedenen) suffizienten Statistiken fur ϑ

sollen zu identischen statistischen Schlussen uber ϑ fuhren.


Konditionalitatsprinzip

mehrere mogliche Experimente, die Information uber ϑ liefern konnen, stehen zurWahl

Konditionalitatsprinzip: Wird eines dieser Experimente ua. von ϑ ausgewahlt, soist jedes nicht gewahlte Experiment irrelevant fur die Inferenz.

Die Information uber ϑ hangt nur vom durchgefuhrten Experiment ab.

Aus Suffizienzprinzip und Konditionalitatsprinzip folgt das (starke) Likelihood-prinzip.


Konditionalitatsprinzip

Beispiel 1: Um die Fairness der Munze zu testen, wird zufallig

• mit Wahrscheinlichkeit π das durch Modell M1 beschriebene

• und mit Wahrscheinlichkeit 1− π das durch Modell M2 Experiment

durchgefuhrt. Das Experiment ergab 9×”Wappen “und 3×

”Zahl.

Der p-Wert hangt von π ab!

Beispiel 2: Das durchzufuhrende Experiment wird durch einenWurf mit der zutestenden Munze bestimmt. Bei Zahl wird das durch Modell M1 beschriebeneExperiment, sonst das andere durchgefuhrt.

Das Experiment ergab 9×”Wappen“und 3×

”Zahl“; der Wurf zur Wahl des

Experimentes wurde nicht mitgezahlt.


Bayes InferenzWahl der Priori-Verteilung


Wahl der Priori-Verteilung

Bayes -Analyse berucksichtigt Information uber unbekannte Großen vor Erhebungder Daten. Diese Information ist durch die Priori-Verteilung zu quantifizieren.

Wie soll die Priori-Verteilung gewahlt werden?

• konjugiert / nicht konjugiert?

• informativ / nicht informativ?

– informative Priori-Information: Erheben von Expertenwissen (O’Hagan et al.,2006; Kass and Raftery, 1995)

– nicht informative Priori-Verteilungen: was ist nicht informativ?

• eigentlich / uneigentlich?


Exponentialfamilien

Die Verteilungsfamilie Pγ,γ ∈ Γ, deren Dichten von der Form

p(x|γ) = h(x) exp(

p∑

j=1

ϑj(γ)tj(x)− a(γ))

sind, nennt man p-parametrische Exponentialfamilie, wenn a, h und tj, ϑj, j =1, . . . p reellwertige Funktionen sind. x kann multivariat sein.

Sind die Funktionen (1, ϑ1, . . . , ϑp) und (1, t1(x), . . . , tp(x)) linear unabhangig,so heisst die Familie strikt p-parametrisch.

ϑ = (ϑ1, . . . , ϑp) mit ϑj = ϑj(γ) heisst kanonischer bzw. naturlicher Parameterder Exponentialfamilie mit naturlichem Parameterraum Θ = {ϑ(γ)|γ ∈ Γ} ⊆ R

p.


Exponentialfamilien

In kanonischer (naturlicher) Parametrisierung sind die Dichten der Exponential-familie gegeben als

p(x|ϑ) = h(x) exp(ϑ′t(x)− b(ϑ))

• t(x) = (t1(x), . . . , tp(x)) ist die (p-dimensionale) suffiziente Statistik fur dennaturlichen Parameter ϑ.

• exp(b(ϑ)) ist ein Normierungsfaktor:

∫

p(x|ϑ)dx = exp(−b(ϑ))∫

h(x) exp(ϑ′t(x))dx

d.h.

exp(b(ϑ) =

∫

h(x) exp(ϑ′t(x))dx


Exponentialfamilien

Eine strikt p-parametrische naturliche Exponentialfamilie mit naturlichem Para-meterraum, fur den gilt

Θ = {ϑ|∫

h(x) exp(ϑ′t(x))dx <∞}

und Θ ist eine nichtleere offene Teilmenge des Rp heisst regulare naturliche

Exponentialverteilung.


Exponentialfamilien

Die Likelihood einer i.i.d. Stichprobe y = (y1, . . . , yn) mit Verteilung aus einernaturlichen Exponentialfamilie ist

p(y|ϑ) =n∏

i=1

h(yi) exp(ϑ′

n∑

i=1

t(yi)− nb(ϑ)) ∝

∝ exp(ϑ′nt(y)− nb(ϑ))) =

= exp(n(ϑ′t(y)− b(ϑ)))

mit nt(y) =∑n

i=1 t(yi).


Naturlich konjugierte Priori-Verteilungen

Fur eine regulare naturliche Exponentialfamilie ist die Familie der Priori-Verteilungder Form

p(ϑ) ∝ exp(

n0(ϑ′t0 − b(ϑ))

)

• eigentlich, wenn n0 > 0 und t0 ∈ Y• die (minimal) konjugierte Familie bzw. die naturlich konjugierte Familie vonPriori-Verteilungen.

Die Posteriori-Verteilung

p(ϑ|y) ∝ exp(

n1(ϑ′t1 − b(ϑ)

)

gehort zur selben Familie wie die Priori-Verteilung, mit

n1 = n0 + n und t1 =n0t0 + nt(y)

n0 + n



Fur die Zufallsgroße t(Y ) ist

E(t(Y )|ϑ) = ∇b(ϑ) d.h. E(tj(y)|ϑ) =∂b(ϑ)

∂ϑj.

Diaconis and Ylvisaker (1979) zeigen, dass fur regulare kanonische Exponential-familien gilt

E(t(Y )) = E(E(t(Y )|ϑ)) = E(∇b(ϑ)) = t0

d.h. t0 ist der Priori-Erwartungswert von t(Y ).



Der Posteriori-Erwartungswert E(t(Y )|y) ist gegeben als gewichtetes Mittel vonPriori-Mittelwert und Mittelwert in den Daten

E(t(Y )|y) = t1 =n0

n0 + nt0 +

n

n0 + nt(y) = (1− ω)t0 + ωt(y)

Die Priori-Verteilung hat dieselbe Information uber ϑ wie eine Stichprobe von n0Beobachtungen y1, . . . , yn0 mit Mittelwert 1/n0

∑

t(yi) = t0.



• Fur Verteilungen, die zur regularen Exponentialfamilie gehoren, konnen alsokonjugierte Priori-Verteilungen konstruiert werden.

• Die naturlich konjugierte Familie der Priori-Verteilungen ist diejenige mit mini-maler Anzahl von Parametern - die Familie der Mischungen dieser Verteilungenbzw. die Familie aller Verteilungen ist ebenfalls konjugiert.

• ϑ ist der naturliche Parameter der Stichprobenverteilung p(y|ϑ). In der Priori-Verteilung p(ϑ) spielt ϑ die Rolle der suffizienten Statistik fur n0t0.

• Naturlich konjugierte Priori-Verteilungen sind nicht notwendigerweise einfachanzugeben, da die Normierungskonstante bestimmt werden muss.


i.i.d. Poisson Modell

Die Stichprobenverteilung von n i.i.d.P (µ) verteilten Beobachtungen y ist

p(y|µ) ∝ µ∑

yie−nµ

Geschrieben in Form einer einparametrischen Exponentialfamilie ist die Likelihood

p(y|µ) ∝ exp(∑

yi logµ− nµ)

d.h. t(y) =∑

yi = ny ist die suffiziente Statistik und ϑ(µ) = logµ ist derkanonische Parameter.


i.i.d. Poisson Modell

Die konjugierte Priori-Verteilung fur ϑ = logµ ist daher

p(ϑ) ∝ exp(n0ϑt0 − exp(ϑ))

bzw.

p(µ) ∝ exp(n0t0(logµ)− µ)1

µ= µn0t0−1 exp(−n0µ)

d.h. µ ∼ G (n0t0, n0)

Die posteriori-Verteilung ist µ ∼ G (n1t1, n1) mit

n1 = n0 + n und t1 =n0t0 + ny

n0 + n


COM-Poisson-Verteilung

Die Conway-Maxwell-Poissonverteilung (COM-Poisson-Verteilung) ist eine Ver-allgemeinerung der Poissonverteilung.

Ihre Wahrscheinlichkeitsfunktion ist gegeben als

P (y|λ, ν) = λy

(y!)ν1

Z(λ, ν)fur y = 0, 1, . . .

In Form einer Exponentialfamilie geschrieben

P (y|λ, ν) = exp(y log λ− ν log(y!)− logZ(λ, ν))

Die COM-Poisson-Verteilung ist also eine 2-parametrische Exponentialfamiliemit naturlichem Parameter ϑ = (log λ,−ν) und suffizienter Statistik t(y) =(y, log(y!)) .


COM-Poisson-Verteilung

Die konjugierte Priori-Verteilung (Kadane et al., 2006) hat die Form

p(ϑ) ∝ exp(

n0(ϑ1t01 + ϑ2t02 − logZ(λ(ϑ1), ν(ϑ2))))

bzw. als Funktion der Parameter λ und ν

p(λ, µ) ∝ λn0t01−1 exp(−νn0t02)1

Zn0(λ, ν)


Modellierung von Unwissenheit

Wenn kein oder wenig Vorwissen vorhanden ist, soll die Priori-Verteilung imVergleich zu den Daten moglichst wenig Effekt auf die Schlusse haben (Bernardoand Smith, 1994).

moglicher Ansatz: flache Priori-Verteilung

pϑ(ϑ) ∝ constant

• Die resultierende Posteriori-Verteilung ist nicht notwendigerweise regular, d.h.integrierbar.

• Die flache Priori-Verteilung ist nicht invariant bezuglich Parameter-Transformationen: Eine Priori-Verteilung, die gleichformig fur ϑ ist, ist nichtgleichformig fur eine beliebige nichtlineare Transformation ϕ on ϑ.


Parametertransformation

Fur eine bijektive Transformation ϕ = h(ϑ) von ϑ ist

p(ϕ) = p(h−1(ϕ))

∣

∣

∣

∣

dh−1(ϕ)

dϕ

∣

∣

∣

∣

Fur p(x) = const. ist p(x) nur dann konstant, wenn h eine lineare Funktion ist.


Flache Priori-Verteilungen fur binare Daten

Fur einen unbekannten Anteil ϑ ist die konjugierte Priori-Verteilung die B (a0, b0)-Priori.

Zur Modellierung von binaren Daten konnte man auch ein Logit-Modell mitParameter

ϕ = log(ϑ)− log(1− ϑ) = logit (ϑ). (32)

verwenden.

Welche Priori fur die Log-Odds-Ratio ϕ entspricht der B (a0, b0)-Priori auf ϑ?



Transformationssatz fur Dichten

p(ϕ) = p(ϑ(ϕ))

∣

∣

∣

∣

dϑ(ϕ)

dϕ

∣

∣

∣

∣

,

wobei ϑ(ϕ) die inverse logit-Transformation ist

dϑ(ϕ)

dϕ= eϕ/(1 + eϕ)2.

Aus der B (a0, b0)-Priori fur ϑ ergibt sich die folgende Priori-Verteilung fur ϕ:

p(ϕ) ∝ ea0ϕ

(1 + eϕ)b0(33)

mit a0 = a0 and b0 = a0 + b0.



• Die flache Priori-Verteilung fur ϑ (a0 = 1, b0 = 1) ergibt die standard-logistische Verteilung als Priori fur die Log-Odds-Ratio ϕ

f(ϕ) =eϕ

(1 + eϕ)2

Der Modus der Verteilung ist Null

=⇒ Log-Odds-Ratios um Null werden bevorzugt

• Wahlt man hingegen als Priori-Verteilung fur ϕ eine Gleichverteilung (d.h.a0 = 0, b0 = 0), so erhalt man die (uneigentliche) B (0, 0)-Priori-Verteilung(Haldane-Priori) fur ϑ.

Diese Priori-Verteilung hat Pole bei Null und 1 =⇒ Werte am Rande desParameterraumes werden bevorzugt



0 0.5 10

0.5

1

1.5

2

θ

−10 −5 0 5 100

0.05

0.1

0.15

0.2

0.25

log(θ/(1−θ))−10 −5 0 5 100

0.5

1

1.5

2

log(θ/(1−θ))

0 0.5 10

20

40

60

80

100

120

θ

Abbildung 30: links: Gleichverteilung fur ϑ (oben) mit entsprechender Priorifur die Log-Odds-Ratio ϕ (unten);rechts: Gleichverteilung fur die Log-Odds-Ratio ϕ (unten) und entsprechendePriori fur ϑ (oben)


Jeffreys’ Priori-Verteilung

Jeffreys’ Invarianz-Prinzip: Die Priori und damit auch die Posteriori-Verteilungsoll invariant bezuglich einer eineindeutigen Transformation des Paramters sein

Ist Y eine Zufallsvariable mit Dichtefunktion p(y|ϑ) und ϑ der unbekannteeindimensionale Parameter, so ist Jeffreys’ Priori gegeben als

p(ϑ) ∝√

I(ϑ), (34)

I(ϑ) ist die erwartete Fisher-Information von ϑ im Modell p(y|ϑ)

Jeffrey’s Priori-Verteilung ist proportional zur Wurzel aus der erwarteten Fisher-Information und kann uneigentlich sein.



Invarianz von Jeffreys’ Priori-Verteilung: Ist

p(ϑ) ∝√

I(ϑ),

so ist die Dichtefunktion einer eineindeutigen Transformation ϕ = h(ϑ) gege-ben als

p(ϕ) ∝√

I(ϕ).wobei I(ϕ) die erwartete Fisher-Information von ϕ ist.

Beweis:

p(ϕ) ∝ p(h−1(ϕ))

∣

∣

∣

∣

dh−1(ϕ)

dϕ

∣

∣

∣

∣

=

√

I(ϑ)∣

∣

∣

∣

dh−1(ϕ)

dϕ

∣

∣

∣

∣

2

=

√

I(ϕ)


Jeffreys’ Priori-VerteilungJeffreys’ Priori-Verteilung

• fur den Mittelwert der Poissonverteilung µ:

p(µ) ∝√

nµ ∝ 1/

√µ

• fur einen unbekannten Anteil ϑ:p(ϑ) ∝

√

nϑ(1−ϑ) ∝ 1/

√

ϑ(1− ϑ), d.h. die B (0.5, 0.5)-Priori (die Arcus-Sinus-

Verteilung)

• fur den Mittelwert der Normalverteilung µ bei bekanntem σ2:p(µ) ∝

√

n/σ2 ∝ 1

• fur die Varianz der Normalverteilung σ2 bei bekanntem µ:p(σ2)

√

n/2σ2 ∝ 1/σ2



Fur einen mehrdimensionalen Parameter ϑ ist Jeffreys’ Priori-Verteilung

p(ϑ) ∝√

|I(ϑ)|,

Fur y ∼ N(

µ, σ2)

mit µ, σ2 unbekannt, ist die Priori-Verteilung damit

p(µ, σ2) ∝√

n

σ2

n

2σ4∝( 1

σ2)3/2

Die bedingte posteriori-Verteilung fur µ ist N(

y, σ2/n)

und die marginalePosteriori-Verteilung fur σ2 ist:

σ2|y ∼ G−1(

n/2, n/2s2y)


Probleme mit Jeffreys’ Priori

Fur y ∼ N(

µ, σ2)

mit bekanntem µ und σ2 unbekannt, ergibt Jeffreys’ Priorip(σ2) ∝ 1/σ2 die Posteriori-Verteilung

σ2|y ∼ G−1

(

n/2, n/2

(

1

n

n∑

i=1

(yi − µ)2

))

.

• beide Posteriori-Verteilungen unterscheiden sich also nur im Skalenparameter

• Informationsverlust durch Schatzung des Parameters µ kommt nicht zumAusdruck

=⇒ anderer Vorschlag: Anwendung von Jeffreys Regel ua. auf beide Parameterund Multiplikation der Priori-Verteilungen. Damit erhalt man die Priori

p(µ, σ2) ∝ 1

σ2



Jeffrey’s Priori-Verteilung verletzt das Likelihoodprinzip!

Beispiel Munzwurf:

• Experiment 1: n Wurfe fix, Y= Anzahl von”Wappen“

=⇒ Modell M1: Y ∼ BiNom (n, ϑ)

Jeffrey’s Priori-Verteilung: ϑ ∝ ϑ−0.5(1− ϑ)−0.5 =”B (0.5, 0.5)“

• Experiment 2: Anzahl von”Zahl“z ist vorgegeben

=⇒ Modell M2: W ∼ NegBin (z, 1− ϑ)

Jeffrey’s Priori-Verteilung: ϑ ∝ ϑ−0.5(1− ϑ)−1 =”B (0.5, 0)“

Die Log-Likelihood ist

p(w|ϑ)

(

z + w − 1

w − 1

)

ϑw (1 − ϑ)z.



Aus∂ log p(w|ϑ)

∂ϑ= −

w

ϑ2−

z

(1 − ϑ)2

folgt mit E(W ) = zϑ/(1 − ϑ)

I(ϑ) =z

ϑ(1 − ϑ)+

z

(1 − ϑ)2=

z

ϑ(1 − ϑ)2


Invariante Priori-Verteilungen fur Lage-und Skalenparameter

• Ist ϑ ein Lageparameter, d.h. p(y|ϑ) = f(y−ϑ), kann fur die Priori-VerteilungInvarianz gegenuber Lageverschiebungen gefordert werden, d.h.

p(ϑ) = p(ϑ− a) fur alle a

Dies erfullt nur die flache Priori p(ϑ) ∝ c.

• Fur einen Skalenparameter ϑ, d.h. p(y|ϑ) = f(y/ϑ)/ϑ ist eine Priori-Verteilung, die invariant gegenuber Skalentransformationen ist, d.h.

p(ϑ) = p(ϑ/a)/a fur alle a

die uneigentliche Priori p(ϑ) ∝ 1/ϑ.


Uneigentliche Priori-Verteilungen

Uneigentliche Priori-Verteilungen, sind Verteilungen, die nicht integrierbar sind,d.h. die Normierungskonstante kann nicht bestimmt werden. Die Dichte eineruneigentlichen Verteilung wird mit ∝ angegeben.

Uneigentliche Priori-Verteilungen treten nur auf, wenn der Parameterraum Θnicht kompakt ist, z.B. Θ = R oder Θ = R

+

Obwohl eine uneigentliche Priori-Verteilung kein gemeinsames stochastisches Mo-dell p(y,ϑ) definiert, ist in die resultierende Posteriori-Verteilung eine eigentlicheVerteilung, wenn

p(y) =

∫

p(y|ϑ)p(ϑ)dϑ <∞

fur alle y.


Uneigentliche Verteilungen fur die Poisson-Verteilung

Modell: y ∼ i.i.d. P (µ)

Ubliche uneigentliche Priori-Verteilungen fur µ:

• Jeffrey’s Priori: p(µ) ∝ µ−12 ( =

”G (1/2, 0)“)

• µ: p(µ) ∝ constant (=”G (1, 0) “)

• Gleichverteilungs-Priori fur logµ: p(logµ) ∝ constant=⇒ p(µ ∝ µ−1) (=

”G (0, 0) “)

Die Posteriori ist eigentlich

• mit einer Beobachtung fur”G (a, 0)“mit a > 0

• der ersten Beobachtung ungleich 0 fur”G (0, 0)“


Uneigentliche Posteriori-Verteilungen

Modell: y ∼ i.i.d. with P(Yi = 1) = ϑ =

Priori: uneigentliche”B (0, 0)“-Priori (entspricht Gleichverteilung des Logits)

Eigentliche Posteriori, wenn an > 0 and bn > 0, d.h. 0 < Sn =∑

yi < n

Wahrscheinlichkeit dafur, dass die Posteriori uneigentlich ist

P ((Sn = 0) ∪ (Sn = n)|ϑ, n) = (1− ϑ)n + ϑn.



0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

10

20

30

40

50

60

70

80

90

100

θ

NProb(p(y)=∞|θ,N)

Abbildung 31: Contourplot von P ((Sn = 0) ∪ (Sn = n)|ϑ, n) als Funktionvon ϑ and n (strichlierte Linien entsprechen den 0.1 - 0.9 Isolinien, die volleLinie der 0.01-Isolinie



Uneigentliche Priori-Verteilungen konnen jedoch auch fur alle Stichproben, d.h.immer zu uneigentlichen Posteriori-Verteilungen fuhren.

Beispiel: Student-t Verteilung mit unbekanntem FreiheitsgradModell: y ∼ i.i.d. tν

(

µ, σ2)

Die Likelihood kann sehr”irregular“sein, z.B.

• multimodal bei Ausreißern

• flach fur ν → ∞=⇒ Probleme mit numerischen Maximierungsverfahren

Mit wachsendem ν nahert sich die Likelhood jener unter einer N(

µ, σ2)

-Verteilung

limν→∞

p(y|ν, µ, σ2) = pN(y|µ, σ2).


Nichtregulare Likelihood

100

101

102

103

−2250

−2200

−2150

−2100

−2050

−2000

−1950

−1900

−1850

−1800

−1750

ν

log f(y

|ν)

Loglikelihood of Data Set 1 given ν

100

101

102

103

−1600

−1590

−1580

−1570

−1560

−1550

−1540

−1530

−1520

−1510

ν

log f(y

|ν)


101

102

103

104

−1426

−1425

−1424

−1423

−1422

−1421

−1420

−1419

−1418

−1417

−1416

ν

log f(y

|ν)


102

103

104

−1378.5

−1378

−1377.5

−1377

ν

log f(y

|ν)


Abbildung 32: 1000 simulierte Beobachtungen aus tν (0, 1) (Daten 1: ν = 3,Daten 2: ν = 10, Daten 3: ν = 100, Daten 4: N (0, 1) (ν = ∞));Loglikelihood (horizontale Linie entspricht der Loglikelihood der N (0, 1))



Die Likelihood

• hat einen endlichen Modus ν mit p(y|ν = ν, µ, σ2) > fN(y|µ, σ2) und nahertsich dem Grenzwert von oben

• oder keinen Modus und nahert sich dem Grenzwert von unten

Da das Integral∫

ℜ+p(y|ν, µ, σ2)dν

nicht existiert, ist die Posteriori-Verteilung mit der uneigentlichen Priori-Verteilungp(ν) ∝ constant uneigentlich !



100

101

102

103

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

ν

f(y|ν)

Likelihood of Data Set 1 given ν

100

101

102

103

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

ν

f(y|ν)


100

101

102

103

104

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

ν

f(y|ν)


102

103

104

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

ν

f(y|ν)


Abbildung 33: 1000 simulierte Beobachtungen aus tν (0, 1) (Daten 1: ν = 3,Daten 2: ν = 10, Daten 3: ν = 100, Daten 4: N (0, 1) (ν = ∞)); nicht-normalisierte Posteriori p(ν|y) unter der Priori-Verteilung p(ν) = constant

Keine dieser nichtnormierten”Posterioris“ist integrierbar !


Wahl der Freiheitsgrade

Welche uneigentlichen Priori-Verteilungen ergeben eigentliche Posteriori-Verteilungen?

Entscheidend ist das Integral uber die nichtnormierte Posteriori-Verteilungπ⋆(ν|µ, σ2,y) im Endbereich (C,∞). Mit

∫ ∞

C

p(y|ν)p(ν)dν ≈ pN(y|µ, σ2)

∫ ∞

C

p(ν)dν,

Die Priori auf ν kann uneigentlich sein, solange

∫ ∞

C

p(ν)dν <∞.



Uneigentliche Priori-Verteilungen der Form

p(ν) ∝(

1

ν

)n0

, (35)

oder

p(ν) ∝(

1

1 + ν

)n0

, (36)

mit n0 > 1 ergeben eigentliche Posteriori-Verteilungen .

Mit n0 = 2 implizieren diese Priori-Verteilungen eine Gleichverteilung auf a = 1/νbzw. a = 1/(1 + ν).



Vorgeschlagene eigentliche Priori-Verteilungen:

• Exponential-Verteilung ν ∼ E (λ)

• Gleichverteilung ν ∼ U [0, νmax]

Diese Priori-Verteilungen konnen sehr einflußreich sein. Hierarchische Priori-Verteilungen, d.h. Priori-Verteilungen mit einem sogenannten Hyper-Parameter,fur den ebenfalls eine Priori-Verteilung spezifiziert ist, sind meist weniger einfluß-reich, hier z.B. (Congdon, 2003)

ν ∼ E (λ) , λ ∼ U [λ0, λmax]

Mit λ ∝ constant ergibt sich die Priori-Verteilung p(ν) ∝(

11+ν

)2



Tabelle 15: 1000 simulierte Werte aus der tν (0, 1) -Verteilung fur ver-schiedene Werte von ν; Posteriori-Erwartungswert ν mit U [0, νmax]-Priori

Daten 1 Daten 2 Daten 3 Daten 4

(ν = 3) (ν = 10) (ν = 100) (Normal)

νmax = 100 3.078 11.82 65.94 76.59

νmax = 200 3.078 11.82 116.2 139.1

νmax = 500 3.078 11.82 261.7 310.5

νmax = 1000 3.077 11.83 504.8 580.4


Wenig informative Priori-Verteilungen

Um uneigentliche Priori-Verteilungen zu vermeiden, werden oft eigentliche, aberwenig informative Priori-Verteilungen gewahlt, d.h. Priori-Verteilungen, die ineinem großen Teil des Parameterraumes ahnlich der uneigentlichen Priori ist.

Beispiel: Schatzung eines Anteils ϑ ∼ B (a0, b0) mit kleinen, positiven Wertenfur die Parameter. Diese Priori-Verteilung kann sehr einflussreich sein, wenn der

”wahre“Wert von ϑ am Rande des Parameterraumes liegt.

Sn = 0 =⇒ 100%(1− α)-HPD-Intervall ist fur a0 ≤ 1 von der Form (0, Q1−α),wobei Q1−α das (1− α)-Quantil der B (a0, b0 + n)-Verteilung ist.

=⇒ Sensitivitatsanalyse

Q0.95 a0 = b0 = 0.01 a0 = b0 = 0.1 a0 = b0 = 0.5 a0 = b0 = 1

n = 10 0.00035 0.0583 0.1708 0.2384

n = 100 0.00003 0.0058 0.0190 0.0292


Wenig informative Priori-Verteilungen

0 0.5 10

0.1

0.2

0.3

0.4

0.5

θ

−10 −5 0 5 100

0.5

1

1.5

2

log(θ/(1−θ))−10 −5 0 5 100

0.5

1

1.5

2

log(θ/(1−θ))

0 0.5 10

20

40

60

80

100

120

θ

Abbildung 34: Die eigentliche B (0.01, 0.01)-Priori fur ϑ im Vergleich zuruneigentlichen

”B (0, 0)“-Priori


Bayes Inferenz - Arbeitsgruppe...

Documents

Transcript of Bayes Inferenz - Arbeitsgruppe...