8. La Vraisemblance - stat · 8.1 Motivation La vraisemblance est une des id´ees de base de la...

http://statwww.epfl.ch

8. La Vraisemblance8.1: Motivation

8.2: La vraisemblance

8.3: Vecteur parametre θ

8.4: Recette pour inference statistique

8.5: Inference bayesienne

References: Davison (2003, §§4.1–4.5, §11.1.1)Exercices: 123, 124, (125, 126), 127, 128, du Recueil d’exercices;

(34, 35), 36–38 du Complements d’exercices.

Idees principales : Vraisemblance; estimation de maximum de

vraisemblance; information observee; statistique du rapport de

vraisemblance; theoreme de Bayes; applications.

Probabilite et Statistique I/II — Chapıtre 8 1


Petit Vocabulaire Statistique

Mathematics English Francais

y = (y1, . . . , yn) (observed) data, sample donnees (observees), echantillon observe

dataset un jeu de donnees

Y = (Y1, . . . , Yn) random sample echantillon aleatoire

F, f probability model, statistical model loi de probabilite, modele statistique

L(θ) Likelihood fonction la fonction de vraisemblance

`(θ) Log likelihood fonction log vraisemblance

θ maximum likelihood estimation du maximum

estimate/estimator (MLE) de vraisemblance (EMV)

J(θ) observed information information observee

I(θ) expected (Fisher) information information esperee

W (θ) likelihood ratio statistic statistique du rapport de vraisemblance



8.1 Motivation

La vraisemblance est une des idees de base de la statistique. Elle

donne un cadre general et tres puissant pour traiter toutes sortes

d’applications, en particulier pour

• trouver les estimateurs dont la variance est la plus petite possible

dans les grands echantillons; et

• construire des tests puissants.



Illustration

Quand on lance une piece, des petites asymetries influencent la

probabilite d’obtenir une , qui n’est pas forcement 1/2. Soient

Y1, . . . , Yn les resultats d’ essais independants, alors

P(Yj = 1) = θ, P(Yj = 0) = 1 − θ, 0 ≤ θ ≤ 1, j = 1, . . . , n.

Ci-dessous une telle suite pour une piece de 5Fr, de 1996, avec n = 10:

1 1 1 1 1 0 1 1 1 1

Quelles valeurs de θ vous semblent les plus et les moins credibles :

θ = 0, θ = 0.3, θ = 0.5, θ = 0.7, θ = 0.9, θ = 0.99, θ = 1?

Comment les comparer? Comment trouver les θs les plus plausibles?



Idee de base

Pour une valeur de θ peu credible, la densite des donnees sera petite :

plus cette densite est grande, plus credible est le θ correspondant.

Puisque les y1, . . . , y10 resultent d’essais independants, on a

f(y1, . . . , y10; θ) =10∏

j=1

f(yj ; θ)

= f(y1; θ) × · · · × f(y10; θ)

= θ5 × (1 − θ) × θ4

= θ9(1 − θ),

que nous allons considerer comment fonction de θ pour 0 ≤ θ ≤ 1,

que nous appelons la vraisemblance L(θ) (anglais ‘likelihood’).

Voir graphique suivant.



0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.01

0.02

0.03

0.04

n=10

theta

Like

lihoo

d



Vraisemblance relative

Pour comparer les valeurs de θ, il nous suffit de considerer le rapport

des valeurs de L(θ) correspondantes:

L(θ1)

L(θ2)=f(y1, . . . , y10; θ1)

f(y1, . . . , y10; θ2)=θ91(1 − θ1)

θ92(1 − θ2)

= c

implique que θ1 est c fois plus plausible que θ2.

La valeur la plus plausible est θ, qui satisfait

L(θ) ≥ L(θ), 0 ≤ θ ≤ 1;

θ s’appelle l’estimation du maximum de vraisemblance (anglais

‘maximum likelihood estimate’).

Alors la vraisemblance relative RL(θ) = L(θ)/L(θ) donne la

plausibilite de θ par rapport a θ.



Exemple 8.1 (Essais de Bernoulli): Trouver θ et RL(θ) pour

une suite d’essais de Bernoulli independants. •

Le graphique suivant represente RL(θ), pour n = 10, 20, 100 et la

suite

1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 0 1 1

1 1 1 1 1 1 0 1 0 1 0 0 1 1 0 1 1 1 0 1

1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1

1 0 1 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 1

1 0 0 0 0 1 0 1 0 0 1 0 0 1 1 1 1 1 1 0

Note : Plus n augmente, plus RL(θ) se concentre autour de θ : des

valeurs de θ eloignees de θ deviennent moins credibles par rapport a

θ.

Ceci suggere que l’on pourrait construire un IC en prenant les θ tel

que RL(θ) ≥ c. On verra plus tard comment choisir c.



0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

n=10 (black), n=20 (blue), n=100 (red)

theta

Rel

ativ

e lik

elih

ood



0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0


theta

Rel

ativ

e lik

elih

ood

c=0.1

c=0.3



8.2 La vraisemblance

Definition : Soit y un jeu de donnees, dont la densite de

probabilite conjointe f(y; θ) depend d’un parametre θ, alors la

vraisemblance et la log vraisemblance sont

L(θ) = f(y; θ), `(θ) = logL(θ),

considerees comme fonction de θ.

Si y = (y1, . . . , yn) est une realisation des variables aleatoires

independantes de Y1, . . . , Yn, alors

L(θ) = f(y; θ) =n∏

j=1

f(yj ; θ), `(θ) =n∑

j=1

log f(yj ; θ),

ou f(yj ; θ) represente la densite d’une des yj .



Definition : L’estimation du maximum de vraisemblance θ

satisfait

L(θ) ≥ L(θ) pour tout θ,

ce qui est equivalent a `(θ) ≥ `(θ), car L(θ) et `(θ) ont les meme

maximums. . La variable aleatoire correspondante s’appelle

l’estimateur du maximum de vraisemblance (EMV) —

anglais ‘maximum likelihood estimator (MLE)’.

Dans la plupart des cas θ satisfait

d`(θ)

dθ= 0,

d2`(θ)

dθ2< 0.

Pour ce cours on supposera que la premiere de ces equations n’a

qu’une solution (pas toujours vrai en realite).

Dans des cas realistes on utilise des algorithmes numeriques pour

obtenir θ et d2`(θ)/dθ2.



Definition : L’information observee J(θ) et l’information

esperee (parfois aussi information de Fisher) I(θ) sont

J(θ) =−d2`(θ)

dθ2, I(θ) = E{J(θ)} = E

{−d2`(θ)

dθ2

}.

Elles mesurent la courbure de −`(θ) : plus J(θ) et I(θ) sont grandes,

plus `(θ) et L(θ) sont concentrees.

Exemple 8.2 (Poisson): Soient y1, . . . , yniid∼ Poiss(θ), calculer

L(θ), `(θ), θ, var(θ), J(θ), et I(θ). •

Exemple 8.3 (Exponentielle): Soient y1, . . . , yniid∼ exp(λ),

calculer L(θ), `(θ), λ, var(λ), J(λ), et I(λ). •

Exemple 8.4 (Poisson regression): Soient x1, . . . , xn des

constantes dans (0, xmax), et Yj ∼ Poiss(βxj) des variables

independantes. Comment choisir les xj pour maximiser I(β)? •



Loi limite de l’EMV

Theoreme : Soient Y1, . . . , Yn un echantillon aleatoire issu d’une

densite parametrique f(y; θ), et soit θ l’EMV de θ. Si f satisfait des

‘conditions de regularite’ (voir ci-apres), alors

J(θ)1/2(θ − θ)D−→ N(0, 1) quand n→ ∞.

Donc pour n grand,

θ.∼ N(θ, J(θ)−1).

Ainsi un IC pour θ de niveau (a peu pres) (1 − α) est

(θ − J(θ)−1/2z1−α/2, θ − J(θ)−1/2zα/2).

En fait, pour n grand aucun estimateur peut avoir une variance plus

petite que celle de l’EMV. L’EMV est alors optimal dans ce sens.



Exemple 8.5 (Essais de Bernoulli): Trouver ces ICs a 95% pour

les donnees avec n = 10, 20, 100 (nombre de piles 9, 16, 69). •

Exemple 8.6 (Exponentielle): Calculer un IC a (1 − α) dans

l’Exemple 8.3. •

Exercice : Calculer un IC a (1 − α) dans l’Exemple 8.2. •

Exercice : Calculer L(θ), `(θ), θ, var(θ), J(θ), et I(θ) pour un

echantillon aleatoire y1, . . . , yn issu de la densite

f(y; θ) = θ(1 − θ)y−1, y = 1, 2, . . . , 0 < θ < 1.

Calculer un IC pour θ a (1 − α). •



Statistique du Rapport de Vraisemblance

Parfois un IC base sur la loi limite normale de θ n’est pas bon (voir

Ex 5.4). Il vaut alors mieux utiliser `(θ) elle-meme.

Definition : Soit `(θ) la log vraisemblance pour un parametre θ de

dimension p, dont l’EMV est θ. Alors la statistique de rapport de

vraisemblance est

W (θ) = 2{`(θ) − log(θ)

}.

Theoreme : Soit θ0 la valeur de θ qui a genere les donnees, alors

sous les conditions de regularite donnant a θ une loi limite normale,

W (θ0)D−→ χ2

p quand n→ ∞;

ainsi W (θ0).∼ χ2

p pour n grand.



Implications du theoreme I

Soit θ0 une valeur fixee de θ, et supposons que l’on veuille tester

l’hypothese θ = θ0. Si l’hypothese est vraie, le theoreme implique que

W (θ0).∼ χ2

p. Plus W (θ0) est grand, plus on doute de l’hypothese.

Alors on peut prendre W (θ0) comme statistique de test, dont la

valeur est wobs, et

P{W (θ0) ≥ wobs

} .= P

{χ2

p ≥ wobs

}

comme niveau de signification.

Exemple 8.7 (Top quark): On suppose que X ∼ Poiss(θ), et sous

l’hypothese que le TQ n’existe pas, on a θ = 6.7. On a observe

x = 17. Est-ce que le TQ existe? •



Vraisemblance pour TQ

5 10 15 20 25

−8

−6

−4

−2

0

theta

Log

likel

ihoo

d



Implications du theoreme II

Soit cp(1 − α) le (1 − α)-quantile de la loi χ2p. Alors ce theoreme

implique qu’un IC pour θ0 de niveau (1 − α) est l’ensemble

{θ : W (θ) ≤ cp(1 − α)} ={θ : 2

{`(θ) − `(θ)

}≤ cp(1 − α)

}

={θ : `(θ) ≥ `(θ) − 1

2cp(1 − α)

}.

Donc on dessine `(θ) comme fonction de θ, et on prend comme valeur

credible a niveau (1 − α) tout θ tel que `(θ) ≥ `(θ) − 1

2cp(1 − α).

Souvent on a p = 1, 1 − α = 0.95, et donc c1(0.95) = 3.84. Donc l’IC

a 95% est forme de tout θ tel que `(θ) ≥ `(θ) − 1.92.

Voir le graphique suivant.



0.0 0.2 0.4 0.6 0.8 1.0

−6

−5

−4

−3

−2

−1

0


theta

Log

likel

ihoo

d

Level 0.9

Level 0.95

Level 0.99



Notons

I θ1−α =

{θ : θ − z1−α/2J(θ)−1/2 ≤ θ ≤ θ − zα/2J(θ)−1/2

},

IW1−α =

{θ : `(θ) ≥ `(θ) − 1

2c1(1 − α)

}

pour les IC a (1 − α) bases sur la lois limites de θ et de W (θ0).

Alors les IC a 95% pour θ pour les pieces sont

n θ J(θ) I θ0.95 IW

0.95

10 0.9 111.1 (0.72,1.08) (0.63, 0.99)

20 0.8 125.0 (0.62, 0.98) (0.59, 0.94)

100 0.69 467.5 (0.60, 0.78) (0.60, 0.78)

Note : Plus n est grand, plus l’information augmente, plus `(θ)

devient quadratique avec maximum a θ, plus les IC deviennent

petits. Pour n petit, il vaut mieux utiliser IW1−α si possible.



Les conditions de regularite

Les conditions de regularite sont compliquees. Les cas ou elles sont

fausses sont le plus souvent les cas ou (a) le support de f depend de

θ, ou (b) le vrai θ se trouve sur une borne des valeurs possibles. Elles

sont satisfaites dans la grande majorite des cas rencontres en

pratique.

Voici un exemple ou elles ne sont pas verifiees :

Exemple 8.8 (Uniforme): Soient Y1, . . . , Yniid∼ U(0, θ), trouver la

vraisemblance L(θ) et l’EMV θ. Montrer que la loi limite de θ quand

n→ ∞ n’est pas normale. •

Exemple 8.9 (Plaque!): Estimer le nombre de plaques de voitures

dans le canton de Vaud, et donner un IC a 95% pour ce nombre. •



Parenthese : Loi limite de θ

Soient Y1, . . . , Yniid∼ f(y; θ) des variables aleatoires continues, ou le

support de f ne depend pas de θ. Alors∫f(y; θ) dy = 1 pour tout θ,

donc

E

{d

dθlog f(Yj ; θ)

}=

∫d

dθlog f(y; θ)f(y; θ) dy

=

∫df(y; θ)/dθ

f(y; θ)f(y; θ) dy

=

∫df(y; θ)

dθdy =

d

dθ

∫f(y; θ) dy =

d(1)

dθ= 0.

Une 2me differentiation et un calcul semblable donne

var

{d log f(Yj ; θ)

dθ

}= E

{−d

2 log f(Yj ; θ)

dθ2

}= i(θ).



La log vraisemblance est `(θ) =∑n

j=1log f(Yj ; θ). Soit

U(θ) =d`(θ)

dθ=

n∑

j=1

d log f(Yj ; θ)

dθ,

alors U(θ) etant une somme des variables d log f(Yj ; θ)/dθ

independantes, son esperance E{U(θ)} et variance var{U(θ)} sont

E

n∑

j=1

d log f(Yj ; θ)

dθ

=n∑

j=1

E

{d log f(Yj ; θ)

dθ

}= 0,

var

n∑

j=1

d log f(Yj ; θ)

dθ

=

n∑

j=1

var

{d log f(Yj ; θ)

dθ

}= ni(θ).

Le CLT s’applique donc a U(θ), nous donnant

{ni(θ)}−1/2U(θ)D−→ Z ∼ N(0, 1).



Supposons que θ satisfait

0 =d`(θ)

dθ

.=d`(θ)

dθ+ (θ − θ)

d2`(θ)

dθ2= U(θ) + (θ − θ){−J(θ)},

par developpement de Taylor. Ainsi

J(θ)1/2(θ − θ).= J(θ)−1/2U(θ).

Mais la loi faible des grandes nombres donne

1

nJ(θ) =

1

n

−d2`(θ)

dθ2=

1

n

n∑

j=1

−d2 log f(Yj ; θ)

dθ2

P−→ i(θ),

donc par le lemme de Slutsky, on trouve la loi limite de θ:

J(θ)1/2(θ − θ).= J(θ)−1/2U(θ) =

{ni(θ)

J(θ)

}1/2

× {ni(θ)}−1/2U(θ)

D−→ 1 × Z ∼ N(0, 1).



Parenthese: Loi limite de W (θ)

Pour θ scalaire, le developpement de Taylor de `(θ) donne

`(θ).= `(θ) + (θ − θ)

d`(θ)

dθ+ 1

2(θ − θ)2

d2`(θ)

dθ2= `(θ) − 1

2(θ − θ)2J(θ),

car d`(θ)/dθ = 0. Donc les arguments precedents donnent

W (θ) = 2{`(θ) − `(θ)

}.= (θ − θ)2J(θ)

= (θ − θ)2ni(θ) × J(θ)

ni(θ)

D−→ Z2 × 1

avec Z ∼ N(0, 1). Mais Z2 ∼ χ21, ce que nous cherchons a montrer.

Pour θ de dimension p, l’argument vectorise donne W (θ).∼ χ2

p.



8.3 Vecteur parametre θ

Souvent θ est un vecteur de dimension p. Alors les definitions et

resultats ci-dessus sont valables avec des petits changements. En

bref: l’EMV θ satisfait souvent l’equation vectorielle

d`(θ)

dθ= 0;

J(θ) et I(θ) sont des matrices p× p; et dans des cas reguliers,

θ.∼ Np(θ, J(θ)−1).

Exemple 8.10 (Normale): Soit y1, . . . , yn un echantillon aleatoire

N(µ, σ2), calculer µ et σ2 et leurs lois asymptotiques. •



Statistique du rapport de vraisemblance

Mettons θ = (ψ, λ), ou ψ a dimension q, et supposons que l’on veuille

tester l’hypothese que ψ = ψ0, une valeur donnee. Soit θ = (ψ0, λ0)

l’EMV de θ quand ψ = ψ0, et soit la statistique du rapport de

vraisemblance

W (ψ0) = 2{`(θ) − `(θ)

}.

Alors s’il est vrai que ψ = ψ0,

W (ψ0).∼ χ2

q.

Ceci donne une base pour les tests et les ICs comme auparavant.



Exemple 8.11 (Essais de Bernoulli): Ci-dessous les resultats de

100 lances de deux pieces differentes:

1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 0 1 1

1 1 1 1 1 1 0 1 0 1 0 0 1 1 0 1 1 1 0 1

1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1

1 0 1 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 1

1 0 0 0 0 1 0 1 0 0 1 0 0 1 1 1 1 1 1 0

1 0 1 1 0 0 1 0 1 1 0 0 0 1 1 0 0 0 1 0

1 1 0 1 0 1 0 1 1 0 0 0 0 1 0 1 1 0 0 0

1 1 1 0 0 1 1 0 0 1 1 0 1 0 1 1 0 0 0 1

1 0 1 1 1 1 1 0 1 1 1 1 0 1 0 0 1 1 0 0

0 1 1 1 1 1 1 0 1 0 0 1 0 0 1 1 1 1 0 1

Soient θ1, θ2 les probabilites d’obtenir pile correspondantes. Est-ce

que θ1 = θ2? Les probabilites sont-elles egales?



Il y a 69 piles pour la 1re piece, et 55 piles pour la 2me, et on

suppose que les essais sont independants. Alors

L(θ1, θ2) = θ69

1 (1 − θ1)31 × θ55

2 (1 − θ2)45, 0 ≤ θ1, θ2 ≤ 1,

dont les contours sont traces sur la page suivante. Trouver l’EMV

(θ1, θ2) correspondante, et la statistique du rapport de vraisemblance.

Sous le modele θ1 = θ2 = θ, on a

L(θ, θ) = θ69(1 − θ)31 × θ55(1 − θ)45 = θ124(1 − θ)76, 0 ≤ θ ≤ 1,

ce qui correspond a la ligne rouge sur la page suivante. Trouver

l’EMV θ correspondante.

Semble-t-il vrai que θ1 = θ2? •



Contours of log likelihood

theta1

thet

a2

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0



Exemple 8.12 (Echantillon normal): Si Y1, . . . , Yniid∼ N(µ, σ2),

trouver la statistique W (µ0) qui correspond a un test de µ = µ0

quand σ2 est inconnu. •

Exemple 8.13 (Test 1): Est-ce que les notes de Test 1 semblent

meilleur pour les etudiants qui ont repondu au questionnaire? (On

avait n = 35, y = 4.57, s2 = 0.65 pour le questionnaire, et une

moyenne generale de 4.09.)

Voir graphique suivant. •



Contours of log likelihood

mu

sigm

a2

1 2 3 4 5 6

0.0

0.5

1.0

1.5

2.0



8.4 Recette pour inference statistique

1. Examiner les donnees y, souvent par des graphiques appropries,

pour comprendre le probleme et les donnees;

2. formuler un modele probabiliste f(y; θ);

3. si possible examiner un graphique de `(θ);

4. calculer l’EMV θ, l’information observee J(θ), et des IC si

besoin; puis

5. verifier si le modele est bien ajuste. Si ce n’est pas le cas, revenir

a 2, et re-formuler . . .



Cas d’etudes: Morts des fumeurs

La table donne le nombre de morts du au cancer du poumon pour

des medecins anglais, class’ee par le nombre d’annees de tabagisme t

(age moins 20) et par le nombre de cigarettes fumees par jour, d.

Pour chaque combinaison (t, d) on a le nombre d’annees a risque T et

le nombre de morts y du au cancer du poumon.

On remarque que le nombre de morts augmente quand on parcourt le

tableau d’en haut a gauche a en bas a droite; le graphique suivant

donne la meme information de maniere plus directe.



Annees de Consommation quotidienne de cigarettes d

tabagisme t

Non fumeurs 1–9 10–14 15–19 20–24 25–34 35+

15–19 10366/1 3121 3577 4317 5683 3042 670

20–24 8162 2937 3286/1 4214 6385/1 4050/1 1166

25–29 5969 2288 2546/1 3185 5483/1 4290/4 1482

30–34 4496 2015 2219/2 2560/4 4687/6 4268/9 1580/4

35–39 3512 1648/1 1826 1893 3646/5 3529/9 1336/6

40–44 2201 1310/2 1386/1 1334/2 2411/12 2424/11 924/10

45–49 1421 927 988/2 849/2 1567/9 1409/10 556/7

50–54 1121 710/3 684/4 470/2 857/7 663/5 255/4

55–59 826/2 606 449/3 280/5 416/7 284/3 104/1

Pour chaque combinaison la table montre T/y, avec T le nombre

d’annees a risque, et y le nombre des morts.



Taux de mortalite

Years smoking

Dea

th r

ate

05

1015

15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59

cigarettes

20+1-190



Modele statistique

Une mort due a ce cancer etant un evenement rare, on suppose que le

nombre de morts Y dans une des cellules de la table suit la loi de

Poisson avec esperance Tλ(t, d); donc

P(Y = y) ={Tλ(d, t)}y

y!exp{−Tλ(d, t)}, y = 0, 1, 2, . . . ;

on prend λ(t, d) comme le taux de mortalite du a ce cancer pour 106

homme-annees. On renormalise de maniere a ce que t = 1 a l’age de

62.5 ans, et on prend

λ(d, t) =(β0 + β1d

β2)tβ3 , β0, β2 > 0,−∞ < β1, β3;

ainsi β0 est le taux pour un non-fumeur a l’age de 62.5, et β2dβ3

represente l’augmentation du ‘baseline’ β0 si l’on fume d cigarettes

par jour.



On suppose que les nombres dans les cellules de la table sont

independantes; donc la vraisemblance est

L(β0, . . . , β3) =n∏

j=1

{Tjλ(dj , tj)}yj

yj !exp{−Tjλ(dj , tj)},

ou (dj , tj , Tj, yj) sont les valeurs de (d, t, T, y) pour le jieme cellule de

la table, et n = 63. On maximise L avec des algorithmes standards,

et on trouve les paires de EMV (ecart-type) suivantes :

β0 = 18.9 (11.0), β1 = 6.2 (4.1), β2 = 1.29 (0.20), β3 = 4.46 (0.33).

On calcule les ecart-types√vrr par inversion de la matrice 4 × 4

d’information observee,

V −1 = J(θ) = −∂`(β0, . . . , β3)

∂β∂βT;

vrr est le rieme element de la diagonale de V , pour r = 1, . . . , 4.



Interpretation

β2

.= 1, suggerant que l’effet de dose de cigarettes est lineaire. La

statistique du rapport de vraisemblance pour β2 = 1 est 2.26 avec 1

degre de liberte. Puisque

P(χ2

1 > 2.26).= 0.13,

il est plausible que β2 = 1.

Le modele suggere que le taux de mortalite pour un non-fumeur age

de 62.5 ans est de 18.9 par 100,000 personnes.

Pour chaque cigarette fumee journalierement pendant les annees

20–62.5, ceci augmente de 15.2.



8.5 Inference Bayesienne

Jusqu’a ici nous avons suppose que toute information a propos de θ

provient des donnees y. Mais si on des connaissances a priori sur θ

sous forme d’une densite a priori (anglais prior density) π(θ), on

peut trouver la densite a posteriori (anglais posterior density)

pour θ, sachant les donnees y, par le theoreme de Bayes. On peut

baser π(θ) sur

• des donnees separees de y;

• une notion ‘objective’ de ce qu’il est ‘raisonnable’ a croire a

propos de θ;

• une notion ‘subjective’ de ce que ‘je’ crois a propos de θ.

On considera π(θ) apres discussion de la mechanisme bayesienne.



Rappel: Theoreme de Bayes

Soient B1, . . . , Bk une partition de l’espace des echantillons E, et soit

A un evenement quelconque de l’espace des echantillons. Alors

P(Bi | A) =P(A ∩Bi)

P(A)

=P(A | Bi)P(Bi)

P(A)

=P(A | Bi)P(Bi)∑k

j=1P(A | Bj)P(Bj)

.

Interpretation: la connaissance de la realisation de l’evenement A

met a jour les probabilites des evenements B1, . . . , Bk:

P(B1), . . . ,P(Bk) −→ P(B1 | A), . . . ,P(Bk | A).



Application du theoreme de Bayes (TB)

On suppose que le parametre θ a pour densite π(θ), et que la densite

conditionelle de Y sachant θ, est f(y | θ). La densite conjointe est

f(y, θ) = f(y | θ)π(θ),

et par le TB la densite conditionelle de θ sachant que Y = y est

π(θ | y) =f(y | θ)π(θ)

f(y),

ou

f(y) =

∫f(y | θ)π(θ) dθ

est la densite marginale des donnees Y .



Mise a jour Bayesienne

D’ou l’utilisation du TB pour mettre a jour la densite a priori de θ en

une densite a posteriori de θ:

π(θ)y−→ π(θ | y),

ou de maniere equivalente

incertitude a prioridonnees−→ incertitude a posteriori.

Nous utilisons π(θ), π(θ | y) (plutot que f(θ), f(θ | y)) pour expliciter

que ces lois dependent des informations exterieures aux donnees.

Note : Si je peux reconnaitre π(θ | y), je n’ai pas a faire l’integration.



La densite Beta(a, b)

C’est une densite pour θ ∈ (0, 1). La formule mathematique est :

π(θ) =θa−1(1 − θ)b−1

B(a, b), 0 < θ < 1, a, b > 0,

ou a et b sont les parametres, B(a, b) = Γ(a)Γ(b)/Γ(a+ b) est la

fonction beta, et

Γ(a) =

∫∞

0

ua−1e−u du, a > 0,

est la fonction gamma.

Exemple 8.14 (Densite Beta): Montrer que si θ ∼ Beta(a, b),

alors E(θ) = a/(a+ b), et var(θ) = ab/{(a+ b+ 1)(a+ b)2}. •



Une piece

Quelle π(θ) represente au mieux vos croyances a priori sur

θ = P(pile), quand je fait tourner une piece a 5Fr?

Exemple 8.15 (Essais de Bernoulli): Calculer la densite a

posteriori de θ pour une suite d’essais de Bernoulli, si la densite a

priori est Beta(a, b).

Voir graphiques suivants. •



Densites a priori

0.0 0.4 0.8

02

46

812

a= 0.5 , b= 0.5

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a= 1 , b= 1

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a= 5 , b= 5

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a= 5 , b= 10

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a= 10 , b= 5

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a= 10 , b= 10

theta

Den

sity

of t

heta



Densites a posteriori avec n = 10, s = 9

0.0 0.4 0.8

02

46

812

a+s= 9.5 , b+n−s= 1.5

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 10 , b+n−s= 2

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 14 , b+n−s= 6

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 14 , b+n−s= 11

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 19 , b+n−s= 6

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 19 , b+n−s= 11

theta

Den

sity

of t

heta




0.0 0.4 0.8

02

46

812

a+s= 24.5 , b+n−s= 6.5

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 25 , b+n−s= 7

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 29 , b+n−s= 11

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 29 , b+n−s= 16

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 34 , b+n−s= 11

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 34 , b+n−s= 16

theta

Den

sity

of t

heta




0.0 0.4 0.8

02

46

812

a+s= 69.5 , b+n−s= 31.5

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 70 , b+n−s= 32

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 74 , b+n−s= 36

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 74 , b+n−s= 41

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 79 , b+n−s= 36

theta

Den

sity

of t

heta

0.0 0.4 0.8

02

46

812

a+s= 79 , b+n−s= 41

theta

Den

sity

of t

heta



Interpretation de π(θ | y)

π(θ | y) contient ma croyance au sujet de θ ayant vu les donnees y,

quand ma croyance initiale de θ est resumee dans la densite π(θ).

La densite contient toute cette information, mais il est parfois utile

d’extraire des sommaires, tel que l’esperance et la variance a

posteriori,

E(θ | y), var(θ | θ),ou l’estimation maximum a posteriori (estimation MAP), θ

tel que

π(θ | y) ≥ π(θ | y), ∀θ.

Exemple 8.16 (Essais de Bernoulli): Calculer l’esperance et la

variance a posteriori de θ, et son estimation MAP. •



Densites conjuguees

Des combinaisons particulieres de donnees et de densites a priori

engendrent des densites a posteriori de la meme forme que celles a

priori. Exemple:

θ ∼ Beta(a, b)s,n−→ θ | x ∼ Beta(a+ s, b+ n− s),

ou les donnees s ∼ B(n, θ).

La densite beta est dite conjuguee avec la binomial.

Exemple 8.17 (Poisson/gamma): Soient Y1, . . . , Yniid∼ Poiss(θ)

et θ ∼ Gamma(λ,m) a priori, calculer la loi a posteriori de θ.

Calculer l’esperance et la variance a posteriori de θ, et son estimation

MAP. •



Les intervalles de credibilite

L’equivalent de l’IC a (1− α) pour θ, est l’intervalle de credibilite

de niveau (1 − α) de θ obtenu en utilisant les quantiles α/2 et

(1 − α/2) de π(θ | y). En prenant α = 0.05, a = b = 0.5, on obtient

n = 10 n = 30 n = 100 θ ± 1.96J(θ)−1/2

Lower 0.619 0.633 0.595 0.599

Upper 0.989 0.912 0.774 0.781

Ici θ est le MLE de θ, et J(θ) est l’information observee.

a, b n’ont que peu d’influence pour des grands echantillons, car les

donnees contiennent alors beaucoup d’information sur θ.



L’approche Bayesienne

Traiter chaque inconnu (parametre θ, predicat Z, . . .) comme une

variable aleatoire, donner lui une distribution (en utilisant souvent

l’independance), et calculer sa distribution a posteriori sachant les

donnees, utilisant le theoreme de Bayes.

Point centrale : Est ce justifie d’incorporer les connaissances a

priori de cette maniere ? D’ou cela proviennent-ils ? Sont-ils fiable?

Est ce mieux d’utiliser juste l’estimation du maximum de

vraisemblance, qui utilise la vraisemblance mais pas la densite a

priori?



Prediction d’une future variable aleatoire Z

Est ce que le prochain resultat sera pile (Z = 0) ou face (Z = 1)?

Utiliser le theoreme de Bayes pour calculer la densite a posteriori de

Z sachant Y = y:

P(Z = z | Y = y) =P(Z = z, Y = y)

P(Y = y)=

∫f(z, y | θ)π(θ) dθ∫f(y | θ)π(θ) dθ

.

Exemple 8.18 (Essais de Bernoulli): Calculer la loi a a

posteriori pour un autre essai, independant des precedents. •

Rappel : B(a, b) = Γ(a)Γ(b)/Γ(a+ b), and Γ(a+ 1) = aΓ(a),

a, b > 0.


8. La Vraisemblance - stat · 8.1 Motivation La vraisemblance est une des id´ees de base de la...

Documents

Transcript of 8. La Vraisemblance - stat · 8.1 Motivation La vraisemblance est une des id´ees de base de la...