8. La Vraisemblance - stat · 8.1 Motivation La vraisemblance est une des id´ees de base de la...
Transcript of 8. La Vraisemblance - stat · 8.1 Motivation La vraisemblance est une des id´ees de base de la...
http://statwww.epfl.ch
8. La Vraisemblance8.1: Motivation
8.2: La vraisemblance
8.3: Vecteur parametre θ
8.4: Recette pour inference statistique
8.5: Inference bayesienne
References: Davison (2003, §§4.1–4.5, §11.1.1)Exercices: 123, 124, (125, 126), 127, 128, du Recueil d’exercices;
(34, 35), 36–38 du Complements d’exercices.
Idees principales : Vraisemblance; estimation de maximum de
vraisemblance; information observee; statistique du rapport de
vraisemblance; theoreme de Bayes; applications.
Probabilite et Statistique I/II — Chapıtre 8 1
http://statwww.epfl.ch
Petit Vocabulaire Statistique
Mathematics English Francais
y = (y1, . . . , yn) (observed) data, sample donnees (observees), echantillon observe
dataset un jeu de donnees
Y = (Y1, . . . , Yn) random sample echantillon aleatoire
F, f probability model, statistical model loi de probabilite, modele statistique
L(θ) Likelihood fonction la fonction de vraisemblance
`(θ) Log likelihood fonction log vraisemblance
θ maximum likelihood estimation du maximum
estimate/estimator (MLE) de vraisemblance (EMV)
J(θ) observed information information observee
I(θ) expected (Fisher) information information esperee
W (θ) likelihood ratio statistic statistique du rapport de vraisemblance
Probabilite et Statistique I/II — Chapıtre 8 2
http://statwww.epfl.ch
8.1 Motivation
La vraisemblance est une des idees de base de la statistique. Elle
donne un cadre general et tres puissant pour traiter toutes sortes
d’applications, en particulier pour
• trouver les estimateurs dont la variance est la plus petite possible
dans les grands echantillons; et
• construire des tests puissants.
Probabilite et Statistique I/II — Chapıtre 8 3
http://statwww.epfl.ch
Illustration
Quand on lance une piece, des petites asymetries influencent la
probabilite d’obtenir une , qui n’est pas forcement 1/2. Soient
Y1, . . . , Yn les resultats d’ essais independants, alors
P(Yj = 1) = θ, P(Yj = 0) = 1 − θ, 0 ≤ θ ≤ 1, j = 1, . . . , n.
Ci-dessous une telle suite pour une piece de 5Fr, de 1996, avec n = 10:
1 1 1 1 1 0 1 1 1 1
Quelles valeurs de θ vous semblent les plus et les moins credibles :
θ = 0, θ = 0.3, θ = 0.5, θ = 0.7, θ = 0.9, θ = 0.99, θ = 1?
Comment les comparer? Comment trouver les θs les plus plausibles?
Probabilite et Statistique I/II — Chapıtre 8 4
http://statwww.epfl.ch
Idee de base
Pour une valeur de θ peu credible, la densite des donnees sera petite :
plus cette densite est grande, plus credible est le θ correspondant.
Puisque les y1, . . . , y10 resultent d’essais independants, on a
f(y1, . . . , y10; θ) =10∏
j=1
f(yj ; θ)
= f(y1; θ) × · · · × f(y10; θ)
= θ5 × (1 − θ) × θ4
= θ9(1 − θ),
que nous allons considerer comment fonction de θ pour 0 ≤ θ ≤ 1,
que nous appelons la vraisemblance L(θ) (anglais ‘likelihood’).
Voir graphique suivant.
Probabilite et Statistique I/II — Chapıtre 8 5
http://statwww.epfl.ch
0.0 0.2 0.4 0.6 0.8 1.0
0.00
0.01
0.02
0.03
0.04
n=10
theta
Like
lihoo
d
Probabilite et Statistique I/II — Chapıtre 8 6
http://statwww.epfl.ch
Vraisemblance relative
Pour comparer les valeurs de θ, il nous suffit de considerer le rapport
des valeurs de L(θ) correspondantes:
L(θ1)
L(θ2)=f(y1, . . . , y10; θ1)
f(y1, . . . , y10; θ2)=θ91(1 − θ1)
θ92(1 − θ2)
= c
implique que θ1 est c fois plus plausible que θ2.
La valeur la plus plausible est θ, qui satisfait
L(θ) ≥ L(θ), 0 ≤ θ ≤ 1;
θ s’appelle l’estimation du maximum de vraisemblance (anglais
‘maximum likelihood estimate’).
Alors la vraisemblance relative RL(θ) = L(θ)/L(θ) donne la
plausibilite de θ par rapport a θ.
Probabilite et Statistique I/II — Chapıtre 8 7
http://statwww.epfl.ch
Exemple 8.1 (Essais de Bernoulli): Trouver θ et RL(θ) pour
une suite d’essais de Bernoulli independants. •
Le graphique suivant represente RL(θ), pour n = 10, 20, 100 et la
suite
1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 0 1 1
1 1 1 1 1 1 0 1 0 1 0 0 1 1 0 1 1 1 0 1
1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1
1 0 1 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 1
1 0 0 0 0 1 0 1 0 0 1 0 0 1 1 1 1 1 1 0
Note : Plus n augmente, plus RL(θ) se concentre autour de θ : des
valeurs de θ eloignees de θ deviennent moins credibles par rapport a
θ.
Ceci suggere que l’on pourrait construire un IC en prenant les θ tel
que RL(θ) ≥ c. On verra plus tard comment choisir c.
Probabilite et Statistique I/II — Chapıtre 8 8
http://statwww.epfl.ch
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
n=10 (black), n=20 (blue), n=100 (red)
theta
Rel
ativ
e lik
elih
ood
Probabilite et Statistique I/II — Chapıtre 8 9
http://statwww.epfl.ch
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
n=10 (black), n=20 (blue), n=100 (red)
theta
Rel
ativ
e lik
elih
ood
c=0.1
c=0.3
Probabilite et Statistique I/II — Chapıtre 8 10
http://statwww.epfl.ch
8.2 La vraisemblance
Definition : Soit y un jeu de donnees, dont la densite de
probabilite conjointe f(y; θ) depend d’un parametre θ, alors la
vraisemblance et la log vraisemblance sont
L(θ) = f(y; θ), `(θ) = logL(θ),
considerees comme fonction de θ.
Si y = (y1, . . . , yn) est une realisation des variables aleatoires
independantes de Y1, . . . , Yn, alors
L(θ) = f(y; θ) =n∏
j=1
f(yj ; θ), `(θ) =n∑
j=1
log f(yj ; θ),
ou f(yj ; θ) represente la densite d’une des yj .
Probabilite et Statistique I/II — Chapıtre 8 11
http://statwww.epfl.ch
Definition : L’estimation du maximum de vraisemblance θ
satisfait
L(θ) ≥ L(θ) pour tout θ,
ce qui est equivalent a `(θ) ≥ `(θ), car L(θ) et `(θ) ont les meme
maximums. . La variable aleatoire correspondante s’appelle
l’estimateur du maximum de vraisemblance (EMV) —
anglais ‘maximum likelihood estimator (MLE)’.
Dans la plupart des cas θ satisfait
d`(θ)
dθ= 0,
d2`(θ)
dθ2< 0.
Pour ce cours on supposera que la premiere de ces equations n’a
qu’une solution (pas toujours vrai en realite).
Dans des cas realistes on utilise des algorithmes numeriques pour
obtenir θ et d2`(θ)/dθ2.
Probabilite et Statistique I/II — Chapıtre 8 12
http://statwww.epfl.ch
Definition : L’information observee J(θ) et l’information
esperee (parfois aussi information de Fisher) I(θ) sont
J(θ) =−d2`(θ)
dθ2, I(θ) = E{J(θ)} = E
{−d2`(θ)
dθ2
}.
Elles mesurent la courbure de −`(θ) : plus J(θ) et I(θ) sont grandes,
plus `(θ) et L(θ) sont concentrees.
Exemple 8.2 (Poisson): Soient y1, . . . , yniid∼ Poiss(θ), calculer
L(θ), `(θ), θ, var(θ), J(θ), et I(θ). •
Exemple 8.3 (Exponentielle): Soient y1, . . . , yniid∼ exp(λ),
calculer L(θ), `(θ), λ, var(λ), J(λ), et I(λ). •
Exemple 8.4 (Poisson regression): Soient x1, . . . , xn des
constantes dans (0, xmax), et Yj ∼ Poiss(βxj) des variables
independantes. Comment choisir les xj pour maximiser I(β)? •
Probabilite et Statistique I/II — Chapıtre 8 13
http://statwww.epfl.ch
Loi limite de l’EMV
Theoreme : Soient Y1, . . . , Yn un echantillon aleatoire issu d’une
densite parametrique f(y; θ), et soit θ l’EMV de θ. Si f satisfait des
‘conditions de regularite’ (voir ci-apres), alors
J(θ)1/2(θ − θ)D−→ N(0, 1) quand n→ ∞.
Donc pour n grand,
θ.∼ N(θ, J(θ)−1).
Ainsi un IC pour θ de niveau (a peu pres) (1 − α) est
(θ − J(θ)−1/2z1−α/2, θ − J(θ)−1/2zα/2).
En fait, pour n grand aucun estimateur peut avoir une variance plus
petite que celle de l’EMV. L’EMV est alors optimal dans ce sens.
Probabilite et Statistique I/II — Chapıtre 8 14
http://statwww.epfl.ch
Exemple 8.5 (Essais de Bernoulli): Trouver ces ICs a 95% pour
les donnees avec n = 10, 20, 100 (nombre de piles 9, 16, 69). •
Exemple 8.6 (Exponentielle): Calculer un IC a (1 − α) dans
l’Exemple 8.3. •
Exercice : Calculer un IC a (1 − α) dans l’Exemple 8.2. •
Exercice : Calculer L(θ), `(θ), θ, var(θ), J(θ), et I(θ) pour un
echantillon aleatoire y1, . . . , yn issu de la densite
f(y; θ) = θ(1 − θ)y−1, y = 1, 2, . . . , 0 < θ < 1.
Calculer un IC pour θ a (1 − α). •
Probabilite et Statistique I/II — Chapıtre 8 15
http://statwww.epfl.ch
Statistique du Rapport de Vraisemblance
Parfois un IC base sur la loi limite normale de θ n’est pas bon (voir
Ex 5.4). Il vaut alors mieux utiliser `(θ) elle-meme.
Definition : Soit `(θ) la log vraisemblance pour un parametre θ de
dimension p, dont l’EMV est θ. Alors la statistique de rapport de
vraisemblance est
W (θ) = 2{`(θ) − log(θ)
}.
Theoreme : Soit θ0 la valeur de θ qui a genere les donnees, alors
sous les conditions de regularite donnant a θ une loi limite normale,
W (θ0)D−→ χ2
p quand n→ ∞;
ainsi W (θ0).∼ χ2
p pour n grand.
Probabilite et Statistique I/II — Chapıtre 8 16
http://statwww.epfl.ch
Implications du theoreme I
Soit θ0 une valeur fixee de θ, et supposons que l’on veuille tester
l’hypothese θ = θ0. Si l’hypothese est vraie, le theoreme implique que
W (θ0).∼ χ2
p. Plus W (θ0) est grand, plus on doute de l’hypothese.
Alors on peut prendre W (θ0) comme statistique de test, dont la
valeur est wobs, et
P{W (θ0) ≥ wobs
} .= P
{χ2
p ≥ wobs
}
comme niveau de signification.
Exemple 8.7 (Top quark): On suppose que X ∼ Poiss(θ), et sous
l’hypothese que le TQ n’existe pas, on a θ = 6.7. On a observe
x = 17. Est-ce que le TQ existe? •
Probabilite et Statistique I/II — Chapıtre 8 17
http://statwww.epfl.ch
Vraisemblance pour TQ
5 10 15 20 25
−8
−6
−4
−2
0
theta
Log
likel
ihoo
d
Probabilite et Statistique I/II — Chapıtre 8 18
http://statwww.epfl.ch
Implications du theoreme II
Soit cp(1 − α) le (1 − α)-quantile de la loi χ2p. Alors ce theoreme
implique qu’un IC pour θ0 de niveau (1 − α) est l’ensemble
{θ : W (θ) ≤ cp(1 − α)} ={θ : 2
{`(θ) − `(θ)
}≤ cp(1 − α)
}
={θ : `(θ) ≥ `(θ) − 1
2cp(1 − α)
}.
Donc on dessine `(θ) comme fonction de θ, et on prend comme valeur
credible a niveau (1 − α) tout θ tel que `(θ) ≥ `(θ) − 1
2cp(1 − α).
Souvent on a p = 1, 1 − α = 0.95, et donc c1(0.95) = 3.84. Donc l’IC
a 95% est forme de tout θ tel que `(θ) ≥ `(θ) − 1.92.
Voir le graphique suivant.
Probabilite et Statistique I/II — Chapıtre 8 19
http://statwww.epfl.ch
0.0 0.2 0.4 0.6 0.8 1.0
−6
−5
−4
−3
−2
−1
0
n=10 (black), n=20 (blue), n=100 (red)
theta
Log
likel
ihoo
d
Level 0.9
Level 0.95
Level 0.99
Probabilite et Statistique I/II — Chapıtre 8 20
http://statwww.epfl.ch
Notons
I θ1−α =
{θ : θ − z1−α/2J(θ)−1/2 ≤ θ ≤ θ − zα/2J(θ)−1/2
},
IW1−α =
{θ : `(θ) ≥ `(θ) − 1
2c1(1 − α)
}
pour les IC a (1 − α) bases sur la lois limites de θ et de W (θ0).
Alors les IC a 95% pour θ pour les pieces sont
n θ J(θ) I θ0.95 IW
0.95
10 0.9 111.1 (0.72,1.08) (0.63, 0.99)
20 0.8 125.0 (0.62, 0.98) (0.59, 0.94)
100 0.69 467.5 (0.60, 0.78) (0.60, 0.78)
Note : Plus n est grand, plus l’information augmente, plus `(θ)
devient quadratique avec maximum a θ, plus les IC deviennent
petits. Pour n petit, il vaut mieux utiliser IW1−α si possible.
Probabilite et Statistique I/II — Chapıtre 8 21
http://statwww.epfl.ch
Les conditions de regularite
Les conditions de regularite sont compliquees. Les cas ou elles sont
fausses sont le plus souvent les cas ou (a) le support de f depend de
θ, ou (b) le vrai θ se trouve sur une borne des valeurs possibles. Elles
sont satisfaites dans la grande majorite des cas rencontres en
pratique.
Voici un exemple ou elles ne sont pas verifiees :
Exemple 8.8 (Uniforme): Soient Y1, . . . , Yniid∼ U(0, θ), trouver la
vraisemblance L(θ) et l’EMV θ. Montrer que la loi limite de θ quand
n→ ∞ n’est pas normale. •
Exemple 8.9 (Plaque!): Estimer le nombre de plaques de voitures
dans le canton de Vaud, et donner un IC a 95% pour ce nombre. •
Probabilite et Statistique I/II — Chapıtre 8 22
http://statwww.epfl.ch
Parenthese : Loi limite de θ
Soient Y1, . . . , Yniid∼ f(y; θ) des variables aleatoires continues, ou le
support de f ne depend pas de θ. Alors∫f(y; θ) dy = 1 pour tout θ,
donc
E
{d
dθlog f(Yj ; θ)
}=
∫d
dθlog f(y; θ)f(y; θ) dy
=
∫df(y; θ)/dθ
f(y; θ)f(y; θ) dy
=
∫df(y; θ)
dθdy =
d
dθ
∫f(y; θ) dy =
d(1)
dθ= 0.
Une 2me differentiation et un calcul semblable donne
var
{d log f(Yj ; θ)
dθ
}= E
{−d
2 log f(Yj ; θ)
dθ2
}= i(θ).
Probabilite et Statistique I/II — Chapıtre 8 23
http://statwww.epfl.ch
La log vraisemblance est `(θ) =∑n
j=1log f(Yj ; θ). Soit
U(θ) =d`(θ)
dθ=
n∑
j=1
d log f(Yj ; θ)
dθ,
alors U(θ) etant une somme des variables d log f(Yj ; θ)/dθ
independantes, son esperance E{U(θ)} et variance var{U(θ)} sont
E
n∑
j=1
d log f(Yj ; θ)
dθ
=n∑
j=1
E
{d log f(Yj ; θ)
dθ
}= 0,
var
n∑
j=1
d log f(Yj ; θ)
dθ
=
n∑
j=1
var
{d log f(Yj ; θ)
dθ
}= ni(θ).
Le CLT s’applique donc a U(θ), nous donnant
{ni(θ)}−1/2U(θ)D−→ Z ∼ N(0, 1).
Probabilite et Statistique I/II — Chapıtre 8 24
http://statwww.epfl.ch
Supposons que θ satisfait
0 =d`(θ)
dθ
.=d`(θ)
dθ+ (θ − θ)
d2`(θ)
dθ2= U(θ) + (θ − θ){−J(θ)},
par developpement de Taylor. Ainsi
J(θ)1/2(θ − θ).= J(θ)−1/2U(θ).
Mais la loi faible des grandes nombres donne
1
nJ(θ) =
1
n
−d2`(θ)
dθ2=
1
n
n∑
j=1
−d2 log f(Yj ; θ)
dθ2
P−→ i(θ),
donc par le lemme de Slutsky, on trouve la loi limite de θ:
J(θ)1/2(θ − θ).= J(θ)−1/2U(θ) =
{ni(θ)
J(θ)
}1/2
× {ni(θ)}−1/2U(θ)
D−→ 1 × Z ∼ N(0, 1).
Probabilite et Statistique I/II — Chapıtre 8 25
http://statwww.epfl.ch
Parenthese: Loi limite de W (θ)
Pour θ scalaire, le developpement de Taylor de `(θ) donne
`(θ).= `(θ) + (θ − θ)
d`(θ)
dθ+ 1
2(θ − θ)2
d2`(θ)
dθ2= `(θ) − 1
2(θ − θ)2J(θ),
car d`(θ)/dθ = 0. Donc les arguments precedents donnent
W (θ) = 2{`(θ) − `(θ)
}.= (θ − θ)2J(θ)
= (θ − θ)2ni(θ) × J(θ)
ni(θ)
D−→ Z2 × 1
avec Z ∼ N(0, 1). Mais Z2 ∼ χ21, ce que nous cherchons a montrer.
Pour θ de dimension p, l’argument vectorise donne W (θ).∼ χ2
p.
Probabilite et Statistique I/II — Chapıtre 8 26
http://statwww.epfl.ch
8.3 Vecteur parametre θ
Souvent θ est un vecteur de dimension p. Alors les definitions et
resultats ci-dessus sont valables avec des petits changements. En
bref: l’EMV θ satisfait souvent l’equation vectorielle
d`(θ)
dθ= 0;
J(θ) et I(θ) sont des matrices p× p; et dans des cas reguliers,
θ.∼ Np(θ, J(θ)−1).
Exemple 8.10 (Normale): Soit y1, . . . , yn un echantillon aleatoire
N(µ, σ2), calculer µ et σ2 et leurs lois asymptotiques. •
Probabilite et Statistique I/II — Chapıtre 8 27
http://statwww.epfl.ch
Statistique du rapport de vraisemblance
Mettons θ = (ψ, λ), ou ψ a dimension q, et supposons que l’on veuille
tester l’hypothese que ψ = ψ0, une valeur donnee. Soit θ = (ψ0, λ0)
l’EMV de θ quand ψ = ψ0, et soit la statistique du rapport de
vraisemblance
W (ψ0) = 2{`(θ) − `(θ)
}.
Alors s’il est vrai que ψ = ψ0,
W (ψ0).∼ χ2
q.
Ceci donne une base pour les tests et les ICs comme auparavant.
Probabilite et Statistique I/II — Chapıtre 8 28
http://statwww.epfl.ch
Exemple 8.11 (Essais de Bernoulli): Ci-dessous les resultats de
100 lances de deux pieces differentes:
1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 0 1 1
1 1 1 1 1 1 0 1 0 1 0 0 1 1 0 1 1 1 0 1
1 1 1 0 0 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1
1 0 1 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 1
1 0 0 0 0 1 0 1 0 0 1 0 0 1 1 1 1 1 1 0
1 0 1 1 0 0 1 0 1 1 0 0 0 1 1 0 0 0 1 0
1 1 0 1 0 1 0 1 1 0 0 0 0 1 0 1 1 0 0 0
1 1 1 0 0 1 1 0 0 1 1 0 1 0 1 1 0 0 0 1
1 0 1 1 1 1 1 0 1 1 1 1 0 1 0 0 1 1 0 0
0 1 1 1 1 1 1 0 1 0 0 1 0 0 1 1 1 1 0 1
Soient θ1, θ2 les probabilites d’obtenir pile correspondantes. Est-ce
que θ1 = θ2? Les probabilites sont-elles egales?
Probabilite et Statistique I/II — Chapıtre 8 29
http://statwww.epfl.ch
Il y a 69 piles pour la 1re piece, et 55 piles pour la 2me, et on
suppose que les essais sont independants. Alors
L(θ1, θ2) = θ69
1 (1 − θ1)31 × θ55
2 (1 − θ2)45, 0 ≤ θ1, θ2 ≤ 1,
dont les contours sont traces sur la page suivante. Trouver l’EMV
(θ1, θ2) correspondante, et la statistique du rapport de vraisemblance.
Sous le modele θ1 = θ2 = θ, on a
L(θ, θ) = θ69(1 − θ)31 × θ55(1 − θ)45 = θ124(1 − θ)76, 0 ≤ θ ≤ 1,
ce qui correspond a la ligne rouge sur la page suivante. Trouver
l’EMV θ correspondante.
Semble-t-il vrai que θ1 = θ2? •
Probabilite et Statistique I/II — Chapıtre 8 30
http://statwww.epfl.ch
Contours of log likelihood
theta1
thet
a2
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Probabilite et Statistique I/II — Chapıtre 8 31
http://statwww.epfl.ch
Exemple 8.12 (Echantillon normal): Si Y1, . . . , Yniid∼ N(µ, σ2),
trouver la statistique W (µ0) qui correspond a un test de µ = µ0
quand σ2 est inconnu. •
Exemple 8.13 (Test 1): Est-ce que les notes de Test 1 semblent
meilleur pour les etudiants qui ont repondu au questionnaire? (On
avait n = 35, y = 4.57, s2 = 0.65 pour le questionnaire, et une
moyenne generale de 4.09.)
Voir graphique suivant. •
Probabilite et Statistique I/II — Chapıtre 8 32
http://statwww.epfl.ch
Contours of log likelihood
mu
sigm
a2
1 2 3 4 5 6
0.0
0.5
1.0
1.5
2.0
Probabilite et Statistique I/II — Chapıtre 8 33
http://statwww.epfl.ch
8.4 Recette pour inference statistique
1. Examiner les donnees y, souvent par des graphiques appropries,
pour comprendre le probleme et les donnees;
2. formuler un modele probabiliste f(y; θ);
3. si possible examiner un graphique de `(θ);
4. calculer l’EMV θ, l’information observee J(θ), et des IC si
besoin; puis
5. verifier si le modele est bien ajuste. Si ce n’est pas le cas, revenir
a 2, et re-formuler . . .
Probabilite et Statistique I/II — Chapıtre 8 34
http://statwww.epfl.ch
Cas d’etudes: Morts des fumeurs
La table donne le nombre de morts du au cancer du poumon pour
des medecins anglais, class’ee par le nombre d’annees de tabagisme t
(age moins 20) et par le nombre de cigarettes fumees par jour, d.
Pour chaque combinaison (t, d) on a le nombre d’annees a risque T et
le nombre de morts y du au cancer du poumon.
On remarque que le nombre de morts augmente quand on parcourt le
tableau d’en haut a gauche a en bas a droite; le graphique suivant
donne la meme information de maniere plus directe.
Probabilite et Statistique I/II — Chapıtre 8 35
http://statwww.epfl.ch
Annees de Consommation quotidienne de cigarettes d
tabagisme t
Non fumeurs 1–9 10–14 15–19 20–24 25–34 35+
15–19 10366/1 3121 3577 4317 5683 3042 670
20–24 8162 2937 3286/1 4214 6385/1 4050/1 1166
25–29 5969 2288 2546/1 3185 5483/1 4290/4 1482
30–34 4496 2015 2219/2 2560/4 4687/6 4268/9 1580/4
35–39 3512 1648/1 1826 1893 3646/5 3529/9 1336/6
40–44 2201 1310/2 1386/1 1334/2 2411/12 2424/11 924/10
45–49 1421 927 988/2 849/2 1567/9 1409/10 556/7
50–54 1121 710/3 684/4 470/2 857/7 663/5 255/4
55–59 826/2 606 449/3 280/5 416/7 284/3 104/1
Pour chaque combinaison la table montre T/y, avec T le nombre
d’annees a risque, et y le nombre des morts.
Probabilite et Statistique I/II — Chapıtre 8 36
http://statwww.epfl.ch
Taux de mortalite
Years smoking
Dea
th r
ate
05
1015
15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59
cigarettes
20+1-190
Probabilite et Statistique I/II — Chapıtre 8 37
http://statwww.epfl.ch
Modele statistique
Une mort due a ce cancer etant un evenement rare, on suppose que le
nombre de morts Y dans une des cellules de la table suit la loi de
Poisson avec esperance Tλ(t, d); donc
P(Y = y) ={Tλ(d, t)}y
y!exp{−Tλ(d, t)}, y = 0, 1, 2, . . . ;
on prend λ(t, d) comme le taux de mortalite du a ce cancer pour 106
homme-annees. On renormalise de maniere a ce que t = 1 a l’age de
62.5 ans, et on prend
λ(d, t) =(β0 + β1d
β2)tβ3 , β0, β2 > 0,−∞ < β1, β3;
ainsi β0 est le taux pour un non-fumeur a l’age de 62.5, et β2dβ3
represente l’augmentation du ‘baseline’ β0 si l’on fume d cigarettes
par jour.
Probabilite et Statistique I/II — Chapıtre 8 38
http://statwww.epfl.ch
On suppose que les nombres dans les cellules de la table sont
independantes; donc la vraisemblance est
L(β0, . . . , β3) =n∏
j=1
{Tjλ(dj , tj)}yj
yj !exp{−Tjλ(dj , tj)},
ou (dj , tj , Tj, yj) sont les valeurs de (d, t, T, y) pour le jieme cellule de
la table, et n = 63. On maximise L avec des algorithmes standards,
et on trouve les paires de EMV (ecart-type) suivantes :
β0 = 18.9 (11.0), β1 = 6.2 (4.1), β2 = 1.29 (0.20), β3 = 4.46 (0.33).
On calcule les ecart-types√vrr par inversion de la matrice 4 × 4
d’information observee,
V −1 = J(θ) = −∂`(β0, . . . , β3)
∂β∂βT;
vrr est le rieme element de la diagonale de V , pour r = 1, . . . , 4.
Probabilite et Statistique I/II — Chapıtre 8 39
http://statwww.epfl.ch
Interpretation
β2
.= 1, suggerant que l’effet de dose de cigarettes est lineaire. La
statistique du rapport de vraisemblance pour β2 = 1 est 2.26 avec 1
degre de liberte. Puisque
P(χ2
1 > 2.26).= 0.13,
il est plausible que β2 = 1.
Le modele suggere que le taux de mortalite pour un non-fumeur age
de 62.5 ans est de 18.9 par 100,000 personnes.
Pour chaque cigarette fumee journalierement pendant les annees
20–62.5, ceci augmente de 15.2.
Probabilite et Statistique I/II — Chapıtre 8 40
http://statwww.epfl.ch
8.5 Inference Bayesienne
Jusqu’a ici nous avons suppose que toute information a propos de θ
provient des donnees y. Mais si on des connaissances a priori sur θ
sous forme d’une densite a priori (anglais prior density) π(θ), on
peut trouver la densite a posteriori (anglais posterior density)
pour θ, sachant les donnees y, par le theoreme de Bayes. On peut
baser π(θ) sur
• des donnees separees de y;
• une notion ‘objective’ de ce qu’il est ‘raisonnable’ a croire a
propos de θ;
• une notion ‘subjective’ de ce que ‘je’ crois a propos de θ.
On considera π(θ) apres discussion de la mechanisme bayesienne.
Probabilite et Statistique I/II — Chapıtre 8 41
http://statwww.epfl.ch
Rappel: Theoreme de Bayes
Soient B1, . . . , Bk une partition de l’espace des echantillons E, et soit
A un evenement quelconque de l’espace des echantillons. Alors
P(Bi | A) =P(A ∩Bi)
P(A)
=P(A | Bi)P(Bi)
P(A)
=P(A | Bi)P(Bi)∑k
j=1P(A | Bj)P(Bj)
.
Interpretation: la connaissance de la realisation de l’evenement A
met a jour les probabilites des evenements B1, . . . , Bk:
P(B1), . . . ,P(Bk) −→ P(B1 | A), . . . ,P(Bk | A).
Probabilite et Statistique I/II — Chapıtre 8 42
http://statwww.epfl.ch
Application du theoreme de Bayes (TB)
On suppose que le parametre θ a pour densite π(θ), et que la densite
conditionelle de Y sachant θ, est f(y | θ). La densite conjointe est
f(y, θ) = f(y | θ)π(θ),
et par le TB la densite conditionelle de θ sachant que Y = y est
π(θ | y) =f(y | θ)π(θ)
f(y),
ou
f(y) =
∫f(y | θ)π(θ) dθ
est la densite marginale des donnees Y .
Probabilite et Statistique I/II — Chapıtre 8 43
http://statwww.epfl.ch
Mise a jour Bayesienne
D’ou l’utilisation du TB pour mettre a jour la densite a priori de θ en
une densite a posteriori de θ:
π(θ)y−→ π(θ | y),
ou de maniere equivalente
incertitude a prioridonnees−→ incertitude a posteriori.
Nous utilisons π(θ), π(θ | y) (plutot que f(θ), f(θ | y)) pour expliciter
que ces lois dependent des informations exterieures aux donnees.
Note : Si je peux reconnaitre π(θ | y), je n’ai pas a faire l’integration.
Probabilite et Statistique I/II — Chapıtre 8 44
http://statwww.epfl.ch
La densite Beta(a, b)
C’est une densite pour θ ∈ (0, 1). La formule mathematique est :
π(θ) =θa−1(1 − θ)b−1
B(a, b), 0 < θ < 1, a, b > 0,
ou a et b sont les parametres, B(a, b) = Γ(a)Γ(b)/Γ(a+ b) est la
fonction beta, et
Γ(a) =
∫∞
0
ua−1e−u du, a > 0,
est la fonction gamma.
Exemple 8.14 (Densite Beta): Montrer que si θ ∼ Beta(a, b),
alors E(θ) = a/(a+ b), et var(θ) = ab/{(a+ b+ 1)(a+ b)2}. •
Probabilite et Statistique I/II — Chapıtre 8 45
http://statwww.epfl.ch
Une piece
Quelle π(θ) represente au mieux vos croyances a priori sur
θ = P(pile), quand je fait tourner une piece a 5Fr?
Exemple 8.15 (Essais de Bernoulli): Calculer la densite a
posteriori de θ pour une suite d’essais de Bernoulli, si la densite a
priori est Beta(a, b).
Voir graphiques suivants. •
Probabilite et Statistique I/II — Chapıtre 8 46
http://statwww.epfl.ch
Densites a priori
0.0 0.4 0.8
02
46
812
a= 0.5 , b= 0.5
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a= 1 , b= 1
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a= 5 , b= 5
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a= 5 , b= 10
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a= 10 , b= 5
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a= 10 , b= 10
theta
Den
sity
of t
heta
Probabilite et Statistique I/II — Chapıtre 8 47
http://statwww.epfl.ch
Densites a posteriori avec n = 10, s = 9
0.0 0.4 0.8
02
46
812
a+s= 9.5 , b+n−s= 1.5
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 10 , b+n−s= 2
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 14 , b+n−s= 6
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 14 , b+n−s= 11
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 19 , b+n−s= 6
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 19 , b+n−s= 11
theta
Den
sity
of t
heta
Probabilite et Statistique I/II — Chapıtre 8 48
http://statwww.epfl.ch
Densites a posteriori avec n = 30, s = 24
0.0 0.4 0.8
02
46
812
a+s= 24.5 , b+n−s= 6.5
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 25 , b+n−s= 7
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 29 , b+n−s= 11
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 29 , b+n−s= 16
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 34 , b+n−s= 11
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 34 , b+n−s= 16
theta
Den
sity
of t
heta
Probabilite et Statistique I/II — Chapıtre 8 49
http://statwww.epfl.ch
Densites a posteriori avec n = 100, s = 69
0.0 0.4 0.8
02
46
812
a+s= 69.5 , b+n−s= 31.5
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 70 , b+n−s= 32
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 74 , b+n−s= 36
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 74 , b+n−s= 41
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 79 , b+n−s= 36
theta
Den
sity
of t
heta
0.0 0.4 0.8
02
46
812
a+s= 79 , b+n−s= 41
theta
Den
sity
of t
heta
Probabilite et Statistique I/II — Chapıtre 8 50
http://statwww.epfl.ch
Interpretation de π(θ | y)
π(θ | y) contient ma croyance au sujet de θ ayant vu les donnees y,
quand ma croyance initiale de θ est resumee dans la densite π(θ).
La densite contient toute cette information, mais il est parfois utile
d’extraire des sommaires, tel que l’esperance et la variance a
posteriori,
E(θ | y), var(θ | θ),ou l’estimation maximum a posteriori (estimation MAP), θ
tel que
π(θ | y) ≥ π(θ | y), ∀θ.
Exemple 8.16 (Essais de Bernoulli): Calculer l’esperance et la
variance a posteriori de θ, et son estimation MAP. •
Probabilite et Statistique I/II — Chapıtre 8 51
http://statwww.epfl.ch
Densites conjuguees
Des combinaisons particulieres de donnees et de densites a priori
engendrent des densites a posteriori de la meme forme que celles a
priori. Exemple:
θ ∼ Beta(a, b)s,n−→ θ | x ∼ Beta(a+ s, b+ n− s),
ou les donnees s ∼ B(n, θ).
La densite beta est dite conjuguee avec la binomial.
Exemple 8.17 (Poisson/gamma): Soient Y1, . . . , Yniid∼ Poiss(θ)
et θ ∼ Gamma(λ,m) a priori, calculer la loi a posteriori de θ.
Calculer l’esperance et la variance a posteriori de θ, et son estimation
MAP. •
Probabilite et Statistique I/II — Chapıtre 8 52
http://statwww.epfl.ch
Les intervalles de credibilite
L’equivalent de l’IC a (1− α) pour θ, est l’intervalle de credibilite
de niveau (1 − α) de θ obtenu en utilisant les quantiles α/2 et
(1 − α/2) de π(θ | y). En prenant α = 0.05, a = b = 0.5, on obtient
n = 10 n = 30 n = 100 θ ± 1.96J(θ)−1/2
Lower 0.619 0.633 0.595 0.599
Upper 0.989 0.912 0.774 0.781
Ici θ est le MLE de θ, et J(θ) est l’information observee.
a, b n’ont que peu d’influence pour des grands echantillons, car les
donnees contiennent alors beaucoup d’information sur θ.
Probabilite et Statistique I/II — Chapıtre 8 53
http://statwww.epfl.ch
L’approche Bayesienne
Traiter chaque inconnu (parametre θ, predicat Z, . . .) comme une
variable aleatoire, donner lui une distribution (en utilisant souvent
l’independance), et calculer sa distribution a posteriori sachant les
donnees, utilisant le theoreme de Bayes.
Point centrale : Est ce justifie d’incorporer les connaissances a
priori de cette maniere ? D’ou cela proviennent-ils ? Sont-ils fiable?
Est ce mieux d’utiliser juste l’estimation du maximum de
vraisemblance, qui utilise la vraisemblance mais pas la densite a
priori?
Probabilite et Statistique I/II — Chapıtre 8 54
http://statwww.epfl.ch
Prediction d’une future variable aleatoire Z
Est ce que le prochain resultat sera pile (Z = 0) ou face (Z = 1)?
Utiliser le theoreme de Bayes pour calculer la densite a posteriori de
Z sachant Y = y:
P(Z = z | Y = y) =P(Z = z, Y = y)
P(Y = y)=
∫f(z, y | θ)π(θ) dθ∫f(y | θ)π(θ) dθ
.
Exemple 8.18 (Essais de Bernoulli): Calculer la loi a a
posteriori pour un autre essai, independant des precedents. •
Rappel : B(a, b) = Γ(a)Γ(b)/Γ(a+ b), and Γ(a+ 1) = aΓ(a),
a, b > 0.
Probabilite et Statistique I/II — Chapıtre 8 55