Méthodes de Couplage et Applications Mémoire de Master 2 ...

56

Transcript of Méthodes de Couplage et Applications Mémoire de Master 2 ...

Page 1: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthodes de Couplage et Applications

Mémoire de Master 2

Université de Bourgogne

Vincent NOLOT

5 juillet 2010

1

Page 2: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Introduction

Lorsque µ et ν sont deux mesures de probabilité sur des espaces mesurables respectifs (E, E), (F,F),on aimerait les comparer, les lier. Un moyen de le faire est de considérer des couplages entre µ et ν,c'est-à-dire des mesures sur l'espace produit (E×F, E ⊗F) dont les marginales (les mesures imagespar la projection ΠE resp. ΠF ) sont µ resp. ν. L'objet de ce mémoire est d'illustrer cette notionde couplage, et de présenter plusieurs applications dans diérents domaines. Notons qu'un couplageentre deux probabilités existe toujours : ne serait-ce que le couplage dit indépendant.

On introduit en Partie I, la notion de distance en variation totale entre deux mesures déniessur le même espace mesurable. Comme son nom l'indique, il s'agit d'une distance sur l'espace desprobabilités. Rappelons que cet espace des probabilités sur (E, E) peut être muni d'une topologielorsque que E est lui-même topologique, grâce à la convergence faible, caractérisée par le fait qu'unesuite (µn)n converge faiblement vers µ si et seulement si :

∀ϕ continue bornee sur E

∫Eϕdµn −→

∫Eϕdµ.

Mais la convergence selon la distance en variation totale, entraîne la convergence faible. Ainsi cettedistance en variation totale induit une topologie plus ne que celle induite par la convergence faible.Nous détaillons le point de vue intrinsèque de la distance en variation totale, mais également lepoint de vue extrinsèque donné par l'utilisation des couplages. L'utilisation de ces couplages, nouspermettra d'obtenir une approximation eective de la variation totale, celle-ci étant généralementdicilement calculable. Cela constitue donc un bon outil pour les statisticiens. Dans cette mêmepartie, nous dénissons les p−distances de Wasserstein liées à un coût de transport, qui permettentégalement de comparer des mesures de probabilités dénies sur le même espace et admettant desmoments d'ordre p. Nous montrons que cette distance possède de bonnes propriétés dès lors quel'espace E est agréable. C'est pour cette raison que nous nous placerons dans des espaces Polonais.Dans ce cas, l'ensemble des probabilités admettant des moments d'ordre 2, muni de la 2−distance deWasserstein (W2) est un espace métrique complet. Nous donnons une caractérisation fondamentalede la convergence selonW2. A savoir entre autre, que la convergence selonW2 entraîne la convergencefaible des mesures. La démonstration que l'on propose ici est certainement plus agréable à lire quecelle dans [1]. Soulignons que ces deux résultats restent vrais pour tout p entier et pas seulementpour p = 2. Enn ces distances jouent un rôle essentiel en optimisation du coût de transport.

Dans la Partie II, nous nous intéressons à des exemples concrets de couplage dont une margi-nale est la loi de Poisson, qui fournit une bonne mesure de référence. Nous retrouvons grâce auxméthodes de couplage, des approximations de certaines lois, comme la loi Binomiale vers la Poisson.Les couplages nous permettent de contrôler l'erreur d'approximation, ce que ne nous fournit pasles théorèmes habituels de convergence en loi. Nous présentons également de manière détaillée laméthode dite de Stein, appliquée à la loi de Poisson. Elle utilise un autre point de vue de travailet fournit ses propres approximations. En combinant cette méthode et des méthodes de couplage,nous pouvons améliorer ces résultats d'approximation, notamment grâce à la notion de variablesnégativement liées. Nous explicitons cela sur divers exemples en n de Partie, et le plus parlantest certainement le dernier, qui vise à approximer la loi Hypergéométrique par celle de Poisson. Cerésultat est souvent énoncé dans la littérature, mais rarement détaillé comme nous le présentons.

Dans la Partie III, nous introduisons la notion d'entropie d'une probabilité conditionnellementà une autre probabilité de référence. Cela propose une autre façon de lier deux probabilités entreelles, lorsque l'une est absolument continue par rapport à l'autre. L'outil important de cette partieest l'écart d2 entre deux probabilités. Il généralise la distance de Wasserstein W0. Nous faisons alors

2

Page 3: Méthodes de Couplage et Applications Mémoire de Master 2 ...

le lien entre l'entropie et cet écart. Cela nous permet d'obtenir des inégalités de concentration (ditesde grandes déviations) et une inégalité de Poincaré : qui permet de contrôler les variances. Cetteinégalité intervient notamment en statistiques et en systèmes dynamiques.

Enn, le mémoire se termine en Partie IV, par une introduction à la théorie du transport. Onadopte alors un nouveau point de vue sur l'espace des probabilités, dans le but d'y mettre unestructure géométrique puis pseudo-diérentiable. D'abord sur les mesures admettant un momentd'ordre 2, on relie la notion de dérivée d'un chemin géodésique reliant deux mesures à la distanceW2. Nous verrons que le chemin géodésique correspond à se donner un couplage optimal entre cesdeux mesures. Ensuite, cela nous permet d'établir une équation aux dérivées partielles que vérientles probabilités admettant un moment d'ordre 2 sous des conditions d'absolue continuité. Nousproposons enn une méthode d'itération sur ces mesures. Nous n'en exposons pas plus, mais cetteméthode est un outil puissant pour armer l'existence et donne l'approximation de solution decertaines équations, au même titre que l'itération de Picard qui fournit l'existence de solutions dansles équations du type y′ = f(x, y). C'est le cas par exemple de l'équation de Fokker-Plank.

Remerciements

Mes remerciements s'adressent principalement à mes deux encadrants de ce mémoire : Patrick

Gabriel et Shizan Fang. Patrick Gabriel qui depuis le mois d'octobre 2009 s'est largement investi

pour m'orienter dans mon mémoire. Ses conseils et sa rigueur m'ont beaucoup apporté durant

cette année, tant au niveau des méthodes mathématiques que de la rédaction. Shizan Fang qui a

supervisé le travail et m'a initié à la théorie du transport, s'appuyant sur son cours d'été donné

en Chine en 2007. Je les remercie tous deux, de façon très sincère, pour tout ce qu'ils m'ont

apporté. Ils peuvent être ers de m'avoir donner le goût et l'envie de continuer de pratiquer les

mathématiques.

Je remercie également Pierre-André Zitt et Christian Bonatti pour avoir accepté de faire

partie du jury à l'occasion de ma soutenance. Pierre-André Zitt qui durant cette année, m'a

initié aux processus stochastiques et notamment, aux chaînes de Markov et à la modélisation

sur ordinateur. Christian Bonatti qui, à travers son cours de recherche Dynamique des groupes,

m'a donné une nouvelle vision sur d'autres domaines de la recherche actuelle.

Enn je remercie Franck Gabriel, qui nous a permis de reprendre ses notes dans le cadre d'un

travail sur les couplages, à l'Ecole Normale Supérieure.

3

Page 4: Méthodes de Couplage et Applications Mémoire de Master 2 ...

TABLE DES MATIÈRES TABLE DES MATIÈRES

Table des matières

I Concepts de variation totale et de couplage 5

1 Quelques notations 5

2 Variation totale 5

3 Couplages 7

4 Couplage optimal pour un coût donné 8

4.1 Le couplage optimal existe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94.2 Construction d'un couplage optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.3 Espaces et distances de Wasserstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.4 Distance W2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

II Couplages avec une loi de Poisson 18

5 Quelques Couplages classiques 18

5.1 Couplages entre deux lois de Poisson P(λ) et P(λ′) avec λ > λ′ . . . . . . . . . . . . 185.2 Couplages d'une loi de Bernoulli avec une loi de Poisson . . . . . . . . . . . . . . . . 185.3 Couplages avec une somme de lois de Bernoulli . . . . . . . . . . . . . . . . . . . . . 20

5.3.1 Cas où tout est indépendant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205.3.2 Cas où il existe de la dépendance . . . . . . . . . . . . . . . . . . . . . . . . . 21

6 Méthode de Stein 22

6.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226.2 Cas de la loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236.3 Quelques applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6.3.1 Un problème de la date d'anniversaire . . . . . . . . . . . . . . . . . . . . . . 306.3.2 Un problème classique d'occupation . . . . . . . . . . . . . . . . . . . . . . . 306.3.3 Approximation de la loi hypergéométrique . . . . . . . . . . . . . . . . . . . . 32

III Entropie conditionnelle 37

7 Liaison entropie et écart d2 37

7.1 En dimension un . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377.2 En dimension nie quelconque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

8 Application : une inégalité de Poincaré 43

IV Introduction à la théorie du transport 48

9 Mesure dérivée et application à W2 48

10 Méthode itérative sur des mesures 51

Appendices 55

A Théorème de convergence Lp 55

4

Page 5: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Variation totale

Première partie

Concepts de variation totale et de couplage

1 Quelques notations

Si µ est une mesure sur l'espace mesurable (E, E) et ψ : (E, E) −→ (F,F) une applicationmesurable, on note ψ?µ la mesure sur l'espace mesurable (F,F), image de µ par ψ . C'est-à-dire : ψ?µ = µ ψ−1. Elle est caractérisée par le fait que pour toute fonction numérique réelleborélienne positive, ϕ dénie sur (F,F), on a :∫

Fϕ dψ?µ =

∫Eϕ ψ dµ

Si µ et λ sont deux mesures sur l'espace mesurable (E, E) et f une fonction borélienne positivedénie sur (E, E), on dit que µ est à densité f relativement à λ ce que l'on note : µ = f · λ, sipour toute fonction numérique réelle borélienne positive, ϕ sur (E, E), on a :∫

Eϕ dµ =

∫Eϕ d(f · λ) =

∫Eϕf dλ.

Si µ est une mesure sur l'espace mesurable (E, E) et ϕ : E → Rd une fonction borélienne, onnote :

‖ϕ‖p,µ :=

(∫E|ϕ|p dµ

) 1p

,

‖ϕ‖0,µ :=

∫E|ϕ|0 dµ =

∫E

11ϕ6=0 dµ = µ[ϕ 6= 0].

où : |v| =(v2

1 + . . .+ v2d

) 12 désigne la norme euclidienne du vecteur v = (vi)i=1...,d ∈ Rd

Si ϕ est une fonction borélienne bornée sur l'espace mesurable (E, E), on note par ‖ϕ‖u lanorme uniforme de ϕ :

‖ϕ‖u := supx∈E|ϕ(x)|.

On notera ∆E := (x, x); x ∈ E la diagonale de E.

2 Variation totale

Pour comparer deux mesures de probabilité dénies sur un même espace mesurable (E, E), unpremier moyen est de considérer la distance en variation totale :

Dénition 2.1 Pour µ et ν deux mesures sur (E, E). On dénit la variation totale entre µ et ν par :

‖µ− ν‖V T = supA∈E|µ(A)− ν(A)|.

La variation totale est une distance sur l'espace des probabilités sur (E, E). Elle peut se décrire d'unpoint de vue intrinsèque de plusieurs manières équivalentes.

Lemme 2.1 Si µ et ν sont deux mesures de probabilité sur (E, E), toutes deux absolument continues

5

Page 6: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Variation totale

par rapport à une même mesure λ avec densités respectives : f := dµdλ et g := dν

dλ , alors :

‖µ− ν‖V T = sup0≤ϕ≤1

∣∣∣∣∫ ϕdµ−∫ϕdν

∣∣∣∣ (2.1)

=1

2sup‖ϕ‖u≤1

∣∣∣∣∫ ϕdµ−∫ϕdν

∣∣∣∣ (2.2)

=1

2

∫|f − g| dλ (2.3)

=

∫(f − g)+ dλ. (2.4)

Remarque : Il existe toujours une mesure de probabilité sur (E, E) relativement à laquelle µ et νsont toutes deux absolument continues : 1

2µ + 12ν en est un exemple. Notons par ailleurs que les

quantités intervenant dans (2.3) et (2.4) ne dépendent pas du choix de λ. En eet donnons nous λ1

et λ2 deux mesures de référence pour lesquelles : µ = f1 · λ1 = f2 · λ2 et ν = g1 · λ1 = g2 · λ2.Si λ1 << λ2 avec λ1 = h · λ2, alors on a les égalités presque-sûres au sens de λ2 : f1h = f2 etg1h = g2, avec ce faisant :∫

|f1 − g1| dλ1 =

∫|f1 − g1|h dλ2 =

∫|f2 − g2| dλ2∫

(f1 − g1)+ dλ1 =

∫(f1 − g1)+h dλ2 =

∫(f2 − g2)+ dλ2

Dans le cas général, puisqu'il existe toujours une mesure de référence λ par rapport à laquelle λ1 etλ2 sont absolument continues, et puisque deux quantités égales à une même troisième sont égalesentre elles, on déduit du cas précédent, que les quantités considérées ne dépendent pas de la mesurede référence.Démonstration :

Démontrons maintenant la suite d'égalités annoncées.

∗ Vu que (f − g)+ = 12(|f − g|+ f − g) et comme

∫fdλ =

∫gdλ = 1, on a :∫

(f − g)+ dλ =1

2

∫|f − g| dλ =

∫(g − f)+ dλ.

Ce qui montre l'égalité des quantités intervenant dans (2.3) et (2.4).

∗ Pour A ∈ E , en intégrant les inégalités fonctionnelles : (f − g)11A ≤ (f − g)+11A ≤ (f − g)+, on a :

µ(A)− ν(A) =

∫A

(f − g) dλ ≤∫

(f − g)+ dλ

puis par symétrie :

ν(A)− µ(A) ≤∫

(g − f)+ dλ =

∫(f − g)+ dλ

et donc en passant au supA∈E :

‖µ− ν‖V T = supA∈E|µ(A)− ν(A)| ≤

∫(f − g)+ dλ.

Par ailleurs, en considérant : E+ := x ∈ E, f(x) ≥ g(x) ∈ E , on a :∫(f − g)+ dλ =

∫E+

(f − g) dλ = µ(E+)− ν(E+) ≤ ‖µ− ν‖V T .

6

Page 7: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplages

C'est donc que : ‖µ− ν‖V T =

∫(f − g)+ dλ, à savoir l'identication de la variation totale comme

valant (2.4).

∗ Pour ϕ, E-mesurable telle que ||ϕ||u ≤ 1, considérons ϕ := ϕ+12 qui est E-mesurable, qui vérie

0 ≤ ϕ ≤ 1 et pour laquelle on a :∣∣∣∣∫ ϕ dµ−∫ϕ dν

∣∣∣∣ =

∣∣∣∣∫ ϕ(f − g) dλ

∣∣∣∣=

1

2

∣∣∣∣∫ ϕ(f − g) dλ+

∫f dλ−

∫g dλ

∣∣∣∣=

1

2

∣∣∣∣∫ ϕdµ−∫ϕdν

∣∣∣∣ .L'application x 7→ x+1

2 établissant une bijection entre [−1, 1] et [0, 1], l'application ϕ 7→ ϕ échangefonctions mesurables bornées par 1 et fonctions mesurables à valeurs dans [0, 1], de sorte que :

sup0≤ϕ≤1

∣∣∣∣∫ ϕdµ−∫ϕdν

∣∣∣∣ =1

2sup||ϕ||u≤1

∣∣∣∣∫ ϕdµ−∫ϕdν

∣∣∣∣ .Cela montre l'égalité des expressions (2.1) et (2.2).

∗ Soit ϕ une fonction E−mesurable telle que ||ϕ||u ≤ 1, alors :∣∣∣∣∫ ϕdµ−∫ϕdν

∣∣∣∣ ≤ ∫ |ϕ||f − g| dλ ≤ ∫ |f − g| dλet donc :

sup||ϕ||u≤1

∣∣∣∣∫ ϕdµ−∫ϕdν

∣∣∣∣ ≤ ∫ |f − g| dλ.On a de plus :

‖µ− ν‖V T = supϕ=11A,A∈A

∣∣∣∣∫ ϕdµ−∫ϕdν

∣∣∣∣≤ sup

0≤ϕ≤1

∣∣∣∣∫ ϕdµ−∫ϕdν

∣∣∣∣ .Ce qui montre l'identication de la variation totale comme valant (2.1)

3 Couplages

Etant donnés deux espaces probabilisés (E, E , µ) et (F,F , ν), une façon de comparer ces struc-tures pour un certain point de vue, quantié par ce que nous appellerons une fonction de coût,est de les faire apparaître comme sous-structures, d'un même espace probabilisé, en essayant d'enminimiser pour cette représentation, le coût moyen.

Pour des raisons techniques de mesurabilité, on supposera en général que E et F sont des espacesPolonais (i.e. espace topologique métrisable séparable dont la topologie peut être dénie par unedistance qui en fait un espace complet), dont on note E et F les tribus boréliennes. Etant donnnéesdeux mesures de probabilité : µ sur (E, E) et ν sur (F,F), introduisons la notion de couplage entre

µ et ν.

Dénition 3.1 Un couplage entre µ et ν est une mesure γ sur l'espace produit (E × F, E ⊗ F) qui

a pour mesures marginales ΠE?γ = µ et ΠF ?γ = ν.

7

Page 8: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplage optimal pour un coût donné

Remarque : D'un point de vue probabiliste, trouver un couplage γ entre µ et ν consiste à trouverun couple (X,Y ) de variables aléatoires, toutes deux dénies sur un même espace de probabilité(Ω,A,P), à valeurs dans respectivement (E, E) et (F,F), et dont les lois respectives sont : L(X) = µet L(Y ) = ν, puis à considérer pour γ la loi du couple (X,Y ). On dira dans ce cas que le couple(X,Y ) réalise le couplage γ.

(E, E , µ)

(Ω,A,P)

X11

(X,Y ) //

Y --

(E × F, E ⊗ F , γ)

ΠE

66mmmmmmmmmmmm

ΠF

((QQQQQQQQQQQQ

(F,F , ν)

Remarque : Il n'y a pas en général unicité du couplage. En voici deux exemples :

Exemple 3.1 Le couplage indépendant est le produit tensoriel µ⊗ ν, caractérisé par le fait que pour

tout rectangle A×B, avec (A,B) ∈ E × F , on a : (µ⊗ ν)(A×B) = µ(A) · ν(B).Le couplage porté par un graphe : dans le cas où ν = ψ?µ avec ψ : (E, E) −→ (F,F), une

application mesurable, la mesure µψ := (idE , ψ)∗µ, sur (E ×F, E ⊗F) est un couplage entre µ et ν.Il est caractérisé par le fait que pour tout rectangle (A,B) ∈ E×F , on a : µψ(A×B) = µ[A∩ψ−1(B)].Il est porté par (ψ ΠE ,ΠF )−1(∆F ), le graphe de ψ.

Dans le cas où E et F sont discrets, les couplages µ⊗ ν et µψ sont caractérisés par :

∀(i, j) ∈ E × F, (µ⊗ ν)i,j = µiνj, et : µψi,j =

µi si j = ψ(i)0 sinon

Notations : Pour µ et ν deux mesures dénies sur un même espace Polonais (E, E), M(µ, ν)désigne l'ensemble des couplages entre µ et ν.

La relative compacité de M(µ, ν), pour la convergence étroite des mesures de probabilité serabien souvent un argument clé :

Lemme 3.1 Dans le cas où µ et ν sont des mesures de probabilité,M(µ, ν) est un ensemble tendu

de probabilités.

Démonstration :

Comme toute mesure de probabilité sur un espace polonais muni de sa tribu borélienne est tendue,pour tout ε > 0 xé, il existe deux compacts K1, K2 de l'espace polonais E tels que :

µ(K1) > 1− ε

2, ν(K2) > 1− ε

2.

Ainsi K = K1 ∪K2 est un compact de E pour lequel µ(Kc) + ν(Kc) < ε2 + ε

2 . Par ailleurs, K ×Kest un compact de E × E, qui vérie : (K × K)c ⊂ (Kc × E) ∪ (E × Kc) de sorte que pour toutγ ∈M(µ, ν), on a :

γ(

(K ×K)c)≤ γ(Kc × E) + γ(E ×Kc) = µ(Kc) + ν(Kc) < ε.

On en déduit le caractère tendu deM(µ, ν)

4 Couplage optimal pour un coût donné

On se place sur (E, E) un espace Polonais mesurable.

Dénition 4.1 On appellera fonction de coût positive toute application c : E −→ R+ E−mesurable.

8

Page 9: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplage optimal pour un coût donné 4.1 Le couplage optimal existe

Toutes les fonctions de coût que nous envisagerons seront au moins semi-continues inférieurement.La notion de couplage optimal, est relative à une fonction de coût donnée.

Dénition 4.2 Soit c une fonction de coût positive. On dira que γ ∈ M(µ, ν) est un couplageoptimal entre µ et ν relativement à c si :∫

c(x, y) dγ(x, y) = infΠ∈M(µ,ν)

∫c(x, y) dΠ(x, y).

Remarque : Si c : (x, y) 7−→ 11∆c

E(x, y). Comme ∆c

E est ouvert, la fonction de coût c est semi-continue

inférieurement. Pour cette fonction de coût, on parlera de couplage optimal. Dans ce cas si γest un couplage optimal entre µ et ν alors :

γ(x 6= y) = infΠ∈M(µ,ν)

Π(x 6= y).

On aura aaire également aux fonctions de coût de type c : (x, y) 7−→ |x− y|p sur Rd×Rd, oùp est un entier plus grand que 1. Ces fonctions de coût sont alors continues et on parlera decouplage optimal relativement à c.

4.1 Le couplage optimal existe

Une question naturelle se pose : pour deux mesures données et une fonction de coût xée, existe-t-il toujours un couplage optimal ? La réponse est oui lorsque la fonction de coût est susammentrégulière.

Proposition 4.1 Si µ et ν sont deux probabilités sur E et c : E ×E −→ R+ est une fonction de

coût, semi-continue inférieurement et bornée, alors la fonction :

γ ∈M(µ, ν) 7−→∫E×E

c(x, y) dγ(x, y)

atteint son minimum surM(µ, ν).

Démonstration :

Notons m = infγ∈M(µ,ν)

∫E×E c(x, y) dγ(x, y)

. Comme c est bornée, on a m < +∞. D'après la

caractérisation de la borne inférieure, pour chaque n ∈ N∗, il existe un couplage γn ∈ M(µ, ν) telque : ∫

E×Ec(x, y) dγn(x, y) ≤ m+

1

n. (4.5)

Le lemme (3.1) nous indique que la suite de couplages (γn)n≥1 est tendue. Il en existe une sous-suite(γnk)k qui converge étroitement vers une probabilité γ ∈ P (E×E). Montrons que γ est un couplageoptimal relativement à c.∗ Soit alors ϕ ∈ Cb(E × E). La convergence étroite se traduit par :∫

E×Eϕdγnk −→

∫E×E

ϕdγ.

Ainsi pour ψ ∈ Cb(E), si l'on pose ϕ = ψ π1 ∈ Cb(E × E), et comme γnk ∈M(µ, ν) on a :∫Eψ dµ =

∫E×E

ϕdγnk −→∫E×E

ϕdγ =

∫Eψ dγ.

Cela signie que (π1)∗γ = µ. De la même façon, on montre que (π2)∗γ = ν. Autrement dit on a déjàque γ ∈M(µ, ν).

9

Page 10: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplage optimal pour un coût donné 4.2 Construction d'un couplage optimal

∗ Grâce à la représentation de Skorohod, il existe un espace (Ω,F ,P) probabilisé, des variablesaléatoires (Xk)k, X sur cet espace telles que :

∀k ≥ 1 L(Xk) = γnk , L(X) = γ

(Xk)k −→ X p.s.

Par les lemmes du Transfert et de Fatou on a donc :

lim infk

∫E×E

c(x, y) dγnk(x, y) = lim infk

E[c(Xk)] ≥ E[lim infk

c(Xk)],

et la fonction c : E × E −→ R+ étant semi-continue inférieurement, on a :

lim infk

∫E×E

c(x, y) dγnk(x, y) ≥∫E×E

c(x, y) dγ(x, y).

Et grâce à (4.5), en faisant tendre k −→ +∞ on obtient :∫E×E

c(x, y) dγ(x, y) ≤ m.

Finalement grâce à la dénition de m, on obtient que γ est un couplage optimal relativement à c

Remarque : La proposition (4.1) reste vraie si on ne suppose plus que c est bornée, mais qu'il existeun couplage ρ ∈M(µ, ν) telle que

∫E×E c(x, y) dρ(x, y) < +∞.

4.2 Construction d'un couplage optimal

On donne ici un moyen explicite de construction d'un couplage optimal pour le coût : (x, y) 7→11∆c

E(x, y).

Proposition 4.2 Si µ et ν sont deux mesures de probabilité sur (E, E) à densités respectives f et

g par rapport à une même mesure ρ, la mesure de probabilité sur (E × E, E ⊗ E), donné par :

γ = i∆?

(min(f, g) · ρ

)+

(f − g)+ ⊗ (g − f)+

‖µ− ν‖V T· (ρ⊗ ρ)

où i∆ est l'application E → E × E qui x 7→ (x, x), est un couplage optimal entre µ et ν.

Remarque : La mesure γ décrite ci-dessus, est caractérisée par la façon dont elle intègre les fonctionsboréliennes positives sur E × E. Pour ψ : E × E → R+, fonction borélienne positive, on a :∫∫E×E

ψ(x, y) dγ(x, y) :=

∫Eψ(x, x) minf(x), g(x) dρ(x)

+2∫

E|f(x)−g(x)| dρ(x)

∫∫E×E

ψ(x, y)(f(x)−g(x)

)+(g(y)−f(y)

)+dρ(x)dρ(y)

Dans le cas discret, où E est l'ensemble dénombrable discret I, avec les mesures µ et ν donnéespar l'intermédiaire des vecteurs de probabilités (µi)i∈I et (νi)i∈I , correspondant aux densités res-pectives de µ et ν relativement à la mesure de décompte sur I le couplage optimal γ est donné parl'intermédiaire de sa densité relativement à la mesure de décompte sur I × I : (γi,j)(i,j)∈I×I sous laforme :

γi,j = min(µi, νj)δij +(µi − νi)+(νj − µj)+

‖µ− ν‖V T.

10

Page 11: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplage optimal pour un coût donné 4.2 Construction d'un couplage optimal

Démonstration :

Le fait que γ soit un couplage entre µ et ν est de vérication immédiate. Pour toute fonction positive,borélienne sur E, ϕ, on a :

∫ϕd(π1?γ) =

∫ϕ minf, g dρ+ 2

∫ (g−f

)+dρ∫

|f−g| dρ

∫ϕ(f−g

)+dρ

=

∫ϕ(

minf, g+(f−g

)+)dρ =

∫ϕf dρ =

∫ϕdµ

∫ϕd(π2?γ) =

∫ϕ minf, g dρ+ 2

∫ (f−g

)+dρ∫

|f−g| dρ

∫ϕ(g−f

)+dρ

=

∫ϕ(

minf, g+(g−f

)+)dρ =

∫ϕg dρ =

∫ϕdν

de sorte que : γ ∈M(µ, ν). Par ailleurs, vu que(f−g

)+(g−f

)+= 0, on a :

γ(∆cE) = 1−γ(∆E) = 1−

∫minf, g dρ = 1−

∫f dρ+

∫ (f − g

)+dρ =

∫E

(f − g

)+dρ = ‖µ− ν‖V T .

Enn pour tout γ ∈ M(µ, ν), couplage entre les deux mesures µ et ν sur l'espace probabilisé(E, E), et pour toute fonction borélienne ϕ : E −→ [0, 1], on a :∣∣∣∣∫ ϕdµ− ∫ ϕdν∣∣∣∣ =

∣∣∣∣∫∫ ϕ(x) dγ(x, y)−∫∫

ϕ(y) dγ(x, y)

∣∣∣∣=

∣∣∣∣∫∫ (ϕ(x)− ϕ(y))dγ(x, y)

∣∣∣∣=

∣∣∣∣∣∫∫

∆cE

ϕ(x)− ϕ(y) dγ(x, y)

∣∣∣∣∣ ≤∫∫

∆cE

|ϕ(x)− ϕ(y)| dγ(x, y) ≤ γ(∆cE).

Ceci étant vrai pour toute fonction borélienne 0 ≤ ϕ ≤ 1, on en déduit que :

‖µ− ν‖V T = sup0≤ϕ≤1

∣∣∣∣∫ ϕ dµ−∫ϕ dν

∣∣∣∣ ≤ γ(∆cE).

Et donc que :

sup0≤ϕ≤1

∣∣∣∣∫ ϕ dµ−∫ϕ dν

∣∣∣∣ = ‖µ− ν‖V T = γ(∆cE) = inf

γ∈M(µ,ν)γ(∆c

E).

D'où le fait que γ soit un couplage entre µ et ν, optimal pour le coût : (x, y) 7→ 11∆cE

(x, y)

Remarque : Lors de cette proposition, nous avons obtenu une nouvelle caractérisation, cette foisextrinsèque, de la variation totale :

‖µ− ν‖V T = infγ∈M(µ,ν)

(∫11x 6=y dγ(x, y)

)= inf

γ∈M(µ,ν)γ(∆c

E).

Remarque : D'un point de vue probabiliste, notons que si un couple de variables aléatoires (X,Y ) sur

(Ω,A,P), réalise un couplage γ ∈M(µ, ν), on a :

P(X 6= Y ) = γ(∆cE).

11

Page 12: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplage optimal pour un coût donné 4.3 Espaces et distances de Wasserstein

Pour que le couple (X,Y ) réalise un couplage optimal γ, il faut que :

P(X 6= Y ) = γ(∆cE) = ‖µ− ν‖V T =

∫(f − g)+ dρ

et donc que :

P(X = Y ) = γ(∆E) = 1− ‖µ− ν‖V T =

∫f − (f − g)+ dρ =

∫min(f, g) dρ

Cette condition se trouve réalisée si l'on suppose que pour A,B ∈ E :

P(X ∈ A, Y ∈ B, X = Y ) = P(X ∈ A ∩B, X = Y ) = P(Y ∈ A ∩B, X = Y ) =

∫A∩B

min(f, g) dρ

avec en particulier :

P(X ∈ A, X 6= Y ) = P(X ∈ A)− P(X ∈ A, X = Y ) =

∫A

f −min(f, g) dρ =

∫A

(f − g)+ dρ

P(Y ∈ B, X 6= Y ) = P(Y ∈ B)− P(Y ∈ A, X = Y ) =

∫B

g −min(f, g) dρ =

∫A

(g − f)+ dρ

et que par ailleurs, X et Y sont indépendants sachant X 6= Y , à savoir que pour A,B ∈ E :

P(X ∈ A, Y ∈ B | X 6= Y ) = P(X ∈ A | X 6= Y ) · P(Y ∈ B | X 6= Y )

P(X ∈ A, Y ∈ B, X 6= Y ) =1

P(X 6= Y )P(X ∈ A, Y 6= X) · P(Y ∈ B, X 6= Y )

=1

‖µ− ν‖V T

(∫A

(f(x)− g(x)

)+dρ(x)

)(∫B

(g(y)− f(y)

)+dρ(y)

)=

1

‖µ− ν‖V T

(∫∫A×B

(f(x)− g(x)

)+(g(y)− f(y)

)+d(ρ⊗ ρ)(x, y)

).

ce qui en bilan donne la condition :

P(X ∈ A, Y ∈ B) =

∫A∩B

min(f, g) dρ+1

‖µ− ν‖V T

(∫∫A×B

(f − g

)+ ⊗ (g − f)+d(ρ⊗ ρ)

).

On retrouve que la loi du couple (X,Y ) est le couplage γ donné dans la proposition.

4.3 Espaces et distances de Wasserstein

Notations : Dans toute la suite, on désigne par P (Rd) l'ensemble des probabilités sur Rd.

On appelle p−espace de Wasserstein (pour p ∈ N∗) l'espace des probabilités, déni comme suit :

Pp(Rd) :=

µ ∈ P (Rd); mp(µ) :=

∫Rd|x|pdµ(x) < +∞

muni de la p−distance de Wasserstein associée Wp, telle que pour µ, ν ∈ Pp(Rd) :

Wp(µ, ν) := infγ∈M(µ,ν)

∫Rd×Rd

|x− y|pdγ(x, y)

1p

= infγ∈M(µ,ν)

‖π1 − π2‖p,γ ,

où on rappelle queM(µ, ν) = γ ∈ P (Rd × Rd); (π1)∗γ = µ, (π2)∗γ = ν, avec πi : Rd × Rd → Rdest la projection sur la ieme composante.

Remarque : W0 est la distance correspondant au couplage optimal déni plus haut :

W0(µ, ν) = infγ∈M(µ,ν)

γ[π1 6= π2] = infγ∈M(µ,ν)

γ(∆c

Rd).

Nous nous intéresserons ici plus spéciquement à l'espace de Wasserstein (P2(Rd),W2).

12

Page 13: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplage optimal pour un coût donné 4.4 Distance W2

4.4 Distance W2

Remarquons en premier lieu que W2 est toujours nie. En eet, pour x, y ∈ Rd on a :

|x+ y|2 =d∑i=1

(xi + yi)2 ≤ 2

d∑i=1

x2i + 2

d∑i=1

y2i = 2|x|2 + 2|y|2.

Ainsi pour µ, ν ∈ P2(Rd), et γ ∈M(µ, ν), il vient que :

W 22 (µ, ν) ≤

∫Rd×Rd

|x− y|2dγ(x, y) ≤ 2

(∫Rd×Rd

|x|2dγ(x, y) +

∫Rd×Rd

|y|2dγ(x, y)

)= 2

(m2(µ) +m2(ν)

)< +∞.

Un cas particulier de la proposition 4.1, est la proposition suivante :

Proposition 4.3 Pour µ, ν ∈ P2(Rd), il existe un couplage γ0 ∈M(µ, ν) tel que :

W 22 (µ, ν) =

∫Rd×Rd

|x− y|2dγ0(x, y). (4.6)

Un tel couplage est dit optimal entre µ et ν pour le coût quadratique : (x, y) 7→ |x− y|2 .

Notations : On désignera l'ensemble des couplages optimaux pour W2 entre µ et ν par

M20(µ, ν) = γ ∈M(µ, ν); qui verifie (4.6).

Justions maintenant la terminologie de distance pour W2.

Proposition 4.4 W2 est bien une distance sur P2(Rd).

Démonstration :

On vérie les trois axiomes de la dénition de distance.

i) Considérons l'application i∆ : Rd −→ Rd × Rd qui : x 7→ (x, x). Soit γ := i∆∗µ. Vu que :π1 i∆ = idE = π2 i∆, on a : γ ∈M(µ, µ) et :

W 22 (µ, µ) ≤

∫Rd×Rd

|π1 − π2|2 dγ =

∫Rd|π1 i∆ − π2 i∆|2 dµ = 0.

Si maintenant µ et ν sont telles que W2(µ, ν) = 0. On peut, d'après la proposition précédente,considérer un couplage optimal γ ∈M2

0(µ, ν), pour lequel on a :∫Rd×Rd

|π1 − π2|2 dγ = 0.

C'est donc que π1 = π2, γ−p.p, à savoir que γ est portée par la diagonale ∆Rd . Ainsi pour toutefonction ϕ borélienne bornée dénie sur Rd, on a :∫

Rdϕ dµ =

∫Rd×Rd

ϕ π1 dγ =

∫Rd×Rd

ϕ π2 dγ =

∫Rdϕ dν, .

On en déduit que µ = ν.

ii) Considérons l'application S : Rd ×Rd → Rd qui : (x, y) 7→ (y, x). Soit γ ∈M20(µ, ν) et γ := S∗γ.

13

Page 14: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplage optimal pour un coût donné 4.4 Distance W2

Vu que π1 S = π2, on a : π1∗γ = π1∗(S∗γ) = (π1 S)∗γ = π2∗γ = ν. On obtient de même(π2)∗γ = µ, de sorte que γ ∈M(ν, µ). Comme par ailleurs, γ est un couplage optimal, on a :

W 22 (ν, µ) ≤

∫Rd×Rd

|π1 − π2|2 dγ =

∫Rd×Rd

|π2 − π1|2 dγ = W 22 (µ, ν).

D'où en échangeant les rôles de µ et ν, la symétrie de W2.

iii) Soient µ1, µ2, µ3 ∈ P2(Rd), γ1 ∈M20(µ1, µ2) et γ2 ∈M2

0(µ2, µ3). Les marginales (π2)?γ1 = µ2 =(π1)?γ2 sont identiques et si on note πi : Rd × Rd × Rd −→ Rd la iieme projection, il existe uneprobabilité λ ∈ P2(R2 × Rd × Rd) telle que :

(π1, π2)∗λ = γ1 et (π2, π3)∗λ = γ2.

De plus on a les égalités :

(π1) ∗ λ = (π1)∗γ1 = (π1)∗(π1, π3)∗λ = µ1,

(π3) ∗ λ = (π2)∗γ2 = (π2)∗(π1, π3)∗λ = µ3,

qui impliquent que (π1, π3)∗λ ∈M(µ1, µ3). Si on note ‖ ˙‖L2(λ) la norme habituelle sur L2(λ), on a,par successions d'inégalités triangulaires :

W2(µ1, µ3) ≤(∫

Rd×Rd|x1 − x3|2d((π1, π3)∗λ)(x1, x3)

) 12

= ‖|π1 − π3|‖L2(λ)

≤ ‖|π1 − π2|‖L2(λ) + ‖|π2 − π3|‖L2(λ) = W2(µ1, µ2) +W2(µ2, µ3).

Donc W2 vérie bien l'inégalité triangulaire

Donnons à présent une caractérisation de la convergence dans P2(Rd) au sens de W2.

Proposition 4.5 Soient (µn)n, µ ∈ P2(Rd). On a équivalence entre :

1. (µn)n converge vers µ au sens de W2

2. (µn)n converge faiblement vers µ et

limR→+∞

supn

(∫|x|≥R

|x|2dµn(x)

)= 0.

Notations : Dans la suite, on notera∫pour

∫Rd ou

∫Rd×Rd .

Remarque : Chercher α, β > 0 tels que (a+ b)2 ≤ (1 +α2)a2 + (1 + β2)b2, revient à trouver α, β > 0tels que

2ab ≤ α2a2 + β2b2 = (αa− βb)2 + 2αβab.

Ce qui est le cas si αβ = 1. Ainsi pour tout ε > 0, on peut prendre α =√ε, β = 1/

√ε et obtenir :

(a+ b)2 ≤ (1 + ε)a2 + (1 +1

ε)b2.

Il résulte de cette remarque, le lemme suivant :

Lemme 4.1 Soient (µn)n est une suite de mesures et µ dans P2(Rd).1. Si supn≥1W2(µn, µ) < +∞ alors :

supn≥1

m2(µn) < +∞,

et (µn)n est tendue.

14

Page 15: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplage optimal pour un coût donné 4.4 Distance W2

2. Si de plus (µn)n qui converge vers µ au sens de W2, alors pour tout x0 ∈ Rd :

lim supn→+∞

∫|x− x0|2 dµn(x) ≤

∫|x− x0|2 dµ(x).

Démonstration :

On considère pour chaque n ≥ 1, γn ∈ M20(µn, µ) un couplage optimal entre µn et µ. Fixons

x0 ∈ Rd. En appliquant successivement l'inégalité triangulaire de la norme euclidienne, et la remarqueprécédente on a :∫

|x− x0|2dµn(x) ≤∫

(|x− y|+ |y − x0|)2 dγn(x, y)

≤ (1 +1

ε)

∫|x− y|2 dγn(x, y) + (1 + ε)

∫|y − x0|2 dµ(y).

On reconnaît dans le membre de droite, le premier terme W 22 (µn, µ).

1. Si supn≥1W2(µn, µ) < +∞, on a en spécialisant x0 = 0 : K := supn≥1m2(µn) < +∞. Soit alorsε > 0. Pour R >

√K/√ε, on a pour tout n ∈ N∗ et grâce à l'inégalité de Markov :

µn(|x| > R) ≤ 1

R2

∫|x|2 dµn(x) ≤ K

R2< ε.

Il en découle que (µn)n est tendue.2. Si W2(µn, µ) tend vers 0 quand n −→ +∞, alors on obtient le deuxième point du lemme

Nous pouvons passer à la démonstration de la proposition :Démonstration :

2.⇒ 1. Par hypothèse, on a déjà que (µn)n converge faiblement vers µ. Le théorème de représentationde Skorohod nous dit qu'il existe (Ω,F ,P) un espace probabilisé et des variables aléatoires sur cetespace : (Xn)n, X telles que :

∀n ≥ 1 L(Xn) = µn, L(X) = µ

(Xn)n −→ X p.s

En utilisant l'autre hypothèse, on a :

limR→+∞

supn

∫|x|>R

|x|2dµn(x) = limR→+∞

supn

∫|Xn|>R

|Xn|2dP = 0.

Autrement dit la suite (|Xn|2)n est équi-intégrable. Et la convergence presque sûre entraîne la conver-gence en probabilité, donc (Xn)n converge en probabilité vers X. Par le Lemme (A.1) (voir Annexe),cela est équivalent à dire que :

(Xn)n −→ X dans L2(P)

i.e E(|Xn −X|2) −→ 0.

De plus, d'après la dénition de W2 on a l'inégalité :

W 22 (µn, µ) = inf

(Yn,Y )∈M(µn,µ)E(|Yn − Y |2) ≤ E(|Xn −X|2) −→ 0.

On a donc montré que (µn)n converge vers µ au sens de W2.1.⇒ 2. Par hypothèse on a : limn→+∞W2(µn, µ) = 0.∗ Le lemme 4.1 nous donne l'inégalité :

lim supn→+∞

∫|x|2 dµn(x) ≤

∫|x|2 dµ(x).

15

Page 16: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplage optimal pour un coût donné 4.4 Distance W2

Pour ε > 0, il existe donc n0 ∈ N? tel que, pour tout n ≥ n0 :∫|x|2 dµn(x) ≤

∫|x|2 dµ(x) + ε.

Soit R > 0. La fonction sur Rd −→ R+, x 7−→ 1|x|<R|x|2 est semi-continue inférieurement et donc :

lim infn→+∞

∫|x|<R

|x|2 dµn(x) ≥∫|x|<R

|x|2 dµ(x).

Il existe alors n1 ≥ n0 tel que, pour tout n ≥ n1 :∫|x|<R

|x|2 dµn ≥∫|x|<R

|x|2 dµ(x)− ε.

Ainsi pour n ≥ n1, on obtient : ∫|x|≥R

|x|2 dµn ≤∫|x|≥R

|x|2 dµ+ 2ε.

En prenant le sup sur n ≥ 1 et la limite quand R tend vers +∞, il vient que :

limR→+∞

supn≥1

∫|x|≥R

|x|2 dµn = 0. (4.7)

∗ Comme (µn)n converge au sens de W2 vers µ, le lemme 4.1 indique en particulier que la suite esttendue. Il existe donc une sous-suite (µnk)k qui converge faiblement vers une mesure µ∞. De pluscette sous-suite vérie aussi (4.7). On peut donc appliquer le sens 2.⇒ 1. à cette sous-suite : (µnk)kconverge au sens de W2 vers µ∞. Mais par hypothèse (µn)n converge vers µ au sens de W2 donc parunicité de la limite, il en découle que µ∞ = µ. Ainsi, toute sous-suite de (µn)n converge faiblementvers µ, et donc (µn)n converge faiblement vers µ

Enn terminons cette partie, en donnant la propriété fondamentale de la distance de Wasserstein :

Proposition 4.6 L'espace métrique (P2(Rd),W2) est complet.

Démonstration :

Prenons une suite de Cauchy (µn)n ⊂ P2(Rd) pour la distance W2. Soit ε > 0. Il existe un entiern0 > 0 tel que pour tout n,m ≥ n0, on ait W2(µn, µm) < ε.∗ Montrons dans un premier temps que (µn)n est tendue. Soit m ≥ n0. On a par inégalité triangu-laire :

W2(µ1, µn) ≤W2(µ1, µn0) +W2(µn0 , µm) < W2(µ1, µn0) + ε ≤ C0 < +∞.

Ainsi :

supm≥n0

W2(µ1, µm) ≤ C0 < +∞ et sup1≤m≤n0

W2(µ1, µm) = C1 < +∞

donc supm≥1

W2(µ1, µm) ≤ max(C0, C1) < +∞.

Donc (µn)n est bornée pourW2 et par le lemme 4.1, cela implique que la suite (µn)n est bien tendue.∗ On en déduit qu'il existe une sous-suite (µnk)k qui converge faiblement vers une mesure µ. Onconsidère pour chaque mesure de cette sous-suite, un couplage γn,nk ∈ M2

0(µn, µnk). Comme (µn)nest tendue, il s'ensuit que (γn,nk)k. Il existe donc une sous-suite (γn,nkp )p qui converge faiblement versγn,∞. Pour ne pas alourdir les notations, on va supposer que c'est (γn,nk)k qui converge faiblementvers γn,∞. Soit ϕ ∈ Cb(Rd × Rd). La convergence faible se traduit par :∫

ϕdγn,nk −→∫ϕdγn,∞.

16

Page 17: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Couplage optimal pour un coût donné 4.4 Distance W2

Soit alors ψ ∈ Cb(Rd). Posons ϕ = ψ π1 ∈ Cb(Rd × Rd), alors on a :∫ϕdγn,nk =

∫ψ dµnk −→

∫ψ dµ.

Donc par unicité de la limite, on a que∫ψ dµ =

∫ϕdγn,∞. Cela signie que (π2)∗γn,∞ = µ

Remarque : Peut-être que cette démonstration aurait été plus succinte en utilisant la caractérisationde la convergence W2 donnée par la proposition 4.5. Faute de temps, nous n'avons pas pu y rééchirde manière approfondie.

17

Page 18: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Quelques Couplages classiques

Deuxième partie

Couplages avec une loi de Poisson

Cette partie est consacrée à l'étude de cas discrets.La loi de Poisson de paramètre λ > 0 est la loi portée par N, de moyenne λ et variance λ :

P(λ) =∑n∈N

λn

n!e−λ · δn, de fonction génératrice : s 7→ e−λ(1−s).

5 Quelques Couplages classiques

5.1 Couplages entre deux lois de Poisson P(λ) et P(λ′) avec λ > λ′

Si nous calculons la variation totale entre ces deux lois, et puisque e−λ < e−λ′, alors que

n ∈ N / λ′n

n! e−λ′ < λn

n! e−λest une demi-droite d'entiers : [Nλ,λ′ ,+∞[, avec Nλ,λ′ ≥ 1, on obtient :

‖P(λ)− P(λ′)‖V T =∑n∈N

(λn

n!e−λ − λ′n

n!e−λ

′)+

=∑

n≥Nλ,λ′

(λn

n!e−λ − λ′n

n!e−λ

′)

= (e−λ′ − e−λ) +

∑1≤n<Nλ,λ′

(λ′n

n!e−λ

′ − λn

n!e−λ)

= e−λ′(1− e−(λ−λ′)) +

∑1≤n<Nλ,λ′

(λ′n

n!e−λ

′ − λn

n!e−λ)

Notons qu'il n'est en général pas facile d'avoir un estimé eectif de ces quantités.Cependant dans le cas où : 0 < λ′ < λ < 1, on constate que : λ′e−λ

′< λe−λ (il sut d'étudier les

variations de la fonction qui : x 7→ xe−x), et que de ce fait Nλ,λ′ = 1, avec ainsi :

‖P(λ)− P(λ′)‖V T = e−λ′(1− e−(λ−λ′)) ≤ 1− e−(λ−λ′) ≤ λ− λ′

En fait nous pouvons retrouver cette majoration dans le cas général de façon assez simple en utilisantun couplage particulier (susamment bon, bien que non optimal).Nous utiliserons le fait (dont la vérication est immédiate en termes de fonctions génératrices), quela somme de deux variables de Poisson indépendantes est une variable de Poisson (de paramètrela somme des paramètres). Si X ′ et X ′′ sont deux variables aléatoires de Poisson de paramètresrespectifs λ′ et λ′′ = λ−λ′, toutes deux dénies sur le même espace de probabilité et indépendantesentre elles, leur somme X := X ′+X ′′ est une variable de Poisson de paramètre λ. Le couple (X,X ′)réalise un couplage γ entre les lois de Poisson P(λ) et P(λ′). Vu que :

γ(∆cN) = P[X 6= X ′] = P[X ′′ 6= 0] = 1− e−(λ−λ′)

on en déduit que :‖P(λ)− P(λ′)‖V T ≤ 1− e−(λ−λ′) ≤ λ− λ′.

5.2 Couplages d'une loi de Bernoulli avec une loi de Poisson

La loi de Bernouilli de paramètre p ∈]0, 1[ est la loi portée par 0, 1, de moyenne p et variancep(1− p) :

B(p) = (1− p)δ0 + pδ1, de fonction génératrice : s 7→ 1− p(1− s).

18

Page 19: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Quelques Couplages classiques 5.2 Couplages d'une loi de Bernoulli avec une loi de Poisson

La distance en variation totale entre µ, la loi de Poisson de paramètre λ > 0 et ν, la loi de Bernoullide paramètre p est :

‖P(λ)− B(p)‖V T =(e−λ − (1− p)

)++(λe−λ − p

)++∑i≥2

λi

i!e−λ

=(e−λ − (1− p)

)++(λe−λ − p

)++ 1− e−λ(1 + λ)

Remarque : Ce résultat se simplie dans les deux cas particuliers suivants :

Dans le cas où p = λ ∈]0, 1[, vu que : 1− λ ≤ e−λ ≤ 1, on a :

‖P(λ)− B(λ)‖V T =(e−λ − (1− λ)

)+ 0 + 1− e−λ(1 + λ) = λ(1− e−λ) ≤ λ2 = p2

Dans le cas où p = 1− e−λ, vu que : (1 + λ)e−λ ≤ 1, on a :

‖P(λ)− B(1− e−λ)‖V T =

1− e−λ(1 + λ) = p+ (1− p) ln(1− p) ≤ p2 ≤ λ2

λ2e−λ∑

`≥0λ`

(`+2)! ≤λ2

2 e−λ∑

`≥0λ`

`! = 12 λ

2

Dans cette partie, X et Y seront des variables aléatoires dénies sur le même espace probabilisé,ayant pour loi respective µ = P(λ) et ν = B(p) où 0 < λ < 1 et 0 < p < 1, réalisant donc uncouplage γ entre µ et ν.

∗ Dans le cas où p = λ ∈]0, 1[, considérons deux couplages possibles γ et γ entre X et Y .

Un premier couplage : Ce couplage est valide sous la condition λ1+λ ≤ e−λ donc en particulier si

λ1+λ ≤ 1− λ à savoir si 0 < λ ≤

√5−12 . Il est décrit dans le tableau ci dessous :

γk,` = P[X = k, Y = `]

YX@

@@

0 1 2 . . . . . . k . . . . . . B(p)

0 e−λ − λ(1− e−λ) 0 λ2

2 e−λ . . . . . . λk

k! e−λ . . . . . . 1− λ

1 λ(1− e−λ) λe−λ 0 . . . . . . 0 . . . . . . λ

P(λ) e−λ λe−λ λ2

2 e−λ . . . . . . λk

k! e−λ . . . . . .

Il est tel que :

P[X 6= Y ] = 1− P[X = 0, Y = 0]− P[X = 1, Y = 1]

= 1−(e−λ − λ(1− e−λ) + λe−λ

)= 1 + λ− e−λ(1 + 2λ) ≤ 1 + λ− (1− λ)(1 + 2λ) = 2λ2

Vu que :‖P(λ)− B(λ)‖V T = λ(1− e−λ) < 1 + λ− e−λ(1 + 2λ) = P[X 6= Y ]

ce couplage n'est pas optimal. Pour λ assez petit il donne cependant une estimation raisonable (avecun coecient multiplicatif de l'ordre de 2) de la variation totale entre la loi de Poisson et la loi deBernoulli.

Un second couplage : Essayons d'obtenir cette fois un couplage optimal. Pour cela, la Proposition4.2 nous indique de placer sur la diagonale la valeur min(P(X = i),P(Y = i)). Ce qui donne :

γk,` = P[X = k, Y = `]

19

Page 20: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Quelques Couplages classiques 5.3 Couplages avec une somme de lois de Bernoulli

YX@

@@

0 1 2 . . . . . . k . . . . . . B(p)

0 1− λ 0 0 . . . . . . 0 . . . . . . 1− λ

1 e−λ − (1− λ) λe−λ λ2

2 e−λ . . . . . . λk

k! e−λ . . . . . . λ

P(λ) e−λ λe−λ λ2

2 e−λ . . . . . . λk

k! e−λ . . . . . .

On a :

P[X 6= Y ] = 1− P[X = 0, Y = 0]− P[X = 1, Y = 1] = 1− (1− λ)− λe−λ = λ(1− e−λ) ≤ λ2

On constate que :P(X 6= Y ) = λ(1− e−λ) = ‖µ− ν‖V T ,

ce qui conrme bien le fait que ce couplage est optimal (et c'est en fait le seul).

∗ Dans le cas où p = 1− e−λ, on a à nouveau un couplage optimal et un seul γ, qui est donné sousla forme :

γk,` = P[X = k, Y = `]

YX@

@@

0 1 2 . . . . . . k . . . . . . B(p)

0 1− p 0 0 . . . . . . 0 . . . . . . 1− p

1 0 λe−λ λ2

2 e−λ . . . . . . λk

k! e−λ . . . . . . p

P(λ) e−λ λe−λ λ2

2 e−λ . . . . . . λk

k! e−λ . . . . . .

Un tel couplage est réalisé algébriquement en posant : Y = min(X, 1

)P [X 6= Y ] = P [X ≥ 2] = e−λ

∑k≥2

λk

k!= 1− e−λ(1 + λ) = ‖P(λ)− B(p)‖V T

5.3 Couplages avec une somme de lois de Bernoulli

Soit X suit une loi de Poisson de paramètre λ, on peut toujours écrire X =∑n

i=1Xi où lesXi suivent respectivement une loi de Poisson de paramètre pi ∈]0, 1[, indépendantes et telles que∑n

i=1 pi = λ. On considère alors pour i = 1, . . . , n, des variables Yi qui suivent les lois de Bernoullide paramètre respectif pi. On note Y =

∑ni=1 Yi.

5.3.1 Cas où tout est indépendant

Ici on suppose tous les Yi sont indépendants.

Pour chaque i = 1, . . . , n, on sait coupler de façon optimale chaque couple (Xi, Yi), et les couplesétant indépendants entre eux, on obtient en procédant de la sorte :

P(X 6= Y ) ≤n∑i=1

P(Xi 6= Yi) ≤n∑i=1

p2i .

Remarque : Dans le cas particulier où pi = p pour tout i, c'est-à-dire si L(Y ) = B(n, λn), on obtientla majoration :

P(X 6= Y ) ≤ λ2

n−→ 0 quand n→∞.

Ce qui fournit un ordre de vitesse de convergence de la Loi Binomiale vers la Loi de Poisson.

20

Page 21: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Quelques Couplages classiques 5.3 Couplages avec une somme de lois de Bernoulli

5.3.2 Cas où il existe de la dépendance

Ici on ne suppose plus l'indépendance des Yi. On note µ la loi de Y et ν celle de X. Le but decette section est de coupler µ et ν, et de majorer l'erreur.

Soient pour i = 1, . . . , n, λ′i = − log(1−pi). Par hypothèse sur les pi, on a λi > 0, et on considèrealors des variables aléatoires indépendantes Y ′i de loi de Poisson de paramètre λ′i. Ces paramètresont été choisis de manière à ce que Yi et min(Y ′i , 1) suivent la même loi. En eet pour i = 1, . . . , n :

P(Y ′i = 0) = e−λ′i = 1− pi = P(Yi = 0),

P(Y ′i ≥ 1) = 1− P(Y ′i = 0) = pi = P(Yi = 1).

On note Y ′ =∑n

i=1 Y′i . Il découle de l'indépendance des Y

′i , que L(Y ′) = P(λ′) où λ′ =

∑ni=1 λ

′i.

Remarque : Il est clair que pour tout i = 1, . . . , n, Yi et Y ′i ne sont pas indépendantes, et on ne peutdonc pas appliquer la méthode précédente de couplage.

Nous cherchons à approximer Y par Y ′. Ainsi :

P(Y 6= Y ′) ≤n∑i=1

P(Yi 6= Y ′i ) =n∑i=1

P(Y ′i ≥ 2).

Mais pour α > 0 on a :

∞∑i=2

e−ααi

i!= α2

∞∑i=0

e−ααi

(i+ 2)!≤ α2

2.

Cela implique que P(Y ′i ≥ 2) ≤ (λ′i)2

2 . Finalement on obtient :

P(Y 6= Y ′) ≤ 1

2

n∑i=1

(λ′i)2.

De plus, si tous les pi ∈ [0, 12 ], alors un calcul élémentaire donne :

− log(1− pi) ≤√

2pi,

et dans ce cas :‖µ− P(λ′)‖V T ≤ P(Y 6= Y ′) ≤

∑ni=1 p

2i (5.8)

Cette approximation n'est pas celle que l'on recherche, puisque les paramètres λ′ =∑n

i=1 λ′i et

λ =∑n

i=1 pi sont diérents. Il nous faut donc nous ramener à une troisième loi P(λ). Soient Z unevariable qui suit la loi de Poisson de paramètre λ, et Z ′ une variable qui suit la loi de Poisson deparamètre λ′.

On a pour tout i entier ≥ 1,

λ′i = − log(1− pi) ≥ pi =⇒ λ′ ≥ λ.

Ainsi on peut écrire λ′ = λ+(λ′−λ) et considérer Z ′′ une variable aléatoire qui suit la loi de Poissonde paramètre (λ′ − λ). Le couplage naturel entre Z et Z ′ est alors le suivant :

P(Z 6= Z ′) = P(Z ′′ 6= 0) = 1− e−(λ′−λ) ≤ λ′ − λ.

21

Page 22: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein

De plus λ′ − λ =∑n

i=1(λ′i − pi) = −∑n

i=1(log(1− pi) + pi). Et on vérie facilement que si tous lespi sont dans [0, 1

2 ], alors :− log(1− pi)− pi ≤ p2

i .

Cela signie nalement que :

‖ν − P(λ′)‖V T ≤ P(Z 6= Z ′) ≤∑n

i=1 p2i (5.9)

En combinant (5.8) et (5.9), il vient sous conditions que tous les pi ∈ [0, 12 ], l'inégalité suivante :

‖µ− ν‖V T ≤∥∥µ− P(λ′)

∥∥V T

+∥∥ν − P(λ′)

∥∥V T≤ 2

n∑i=1

p2i .

6 Méthode de Stein

6.1 Présentation

Présentons de manière générale la méthode de Stein, c'est-à-dire dans le cadre le plus abs-trait possible. Les données sont les suivantes. On regarde (S,S, µ) un espace de probabilité. SoitX0 = h : S −→ R µ−intégrable. Dans ce qui suit, j'explique pourquoi et comment nous utiliseronsla méthode de Stein.

But : On veut savoir calculer∫hdµ pour tout h ∈ X0.

Problème : Le calcul de ces intégrales peut être très fastidieux, notamment si µ est compliquée.

Idée : On remplace alors µ par µ0 une probabilité sur (S,S) proche de µ et simple de manièreà ce que

∫hdµ0 soit facilement calculable pour tout h ∈ X0.

Méthode de Stein : Méthode pour estimer la distance ‖µ− µ0‖V T , et ainsi l'erreur commiseen remplaçant µ par µ0.

La méthode de Stein consiste à considérer une équation, qui nous donnera des informations sur‖µ− µ0‖V T . Pour cela, on introduit F0 un espace de fonctions quelconque et T0 : F0 −→ X0 nomméopérateur de Stein qui satisfait à l'assertion suivante : pour tout h ∈ X0 l'équation de Stein

T0(fh) = h−∫Shdµ0 (6.10)

a une unique solution fh ∈ F0, que l'on appelle la transformée de Stein associé à h.

Remarque : Si h ∈ X0 et f est la transformée de Stein associée, alors on voit immédiatement que :∫T0(f)dµ0 = 0,

et

∫T0(f)dµ ≤ ‖µ− µ0‖V T .

D'après ce que nous venons de voir, tout repose sur l'opérateur T0. Certains mathématiciens sesont donc penchés sur la construction d'un tel opérateur. En voici une méthode générale, c'est celleque nous utiliserons pour trouver un opérateur de Stein dans le cas de la loi de Poisson.

Un moyen de construction de T0 :

22

Page 23: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.2 Cas de la loi de Poisson

1. Choisir un espace de probabilité (Ω,A,P) et un couple de variables (X,Y ) qui a pour margi-nales µ0 et tel que sa loi soit la même que la loi de (Y,X).

2. Choisir une application α : F0 −→ F = F : S2 −→ R, E(|F (X,Y )|) < ∞ et F (x, y) =−F (y, x).

3. Soit maintenant T : F −→ X0 déni par T (F )(x) = E(F (X,Y )|X = x) pour tout x ∈ S. Onprend alors T0 = T α comme opérateur de Stein.

Sans plus attendre, appliquons tout cela à un cas concret : lorsque µ0 est une loi de Poisson.

6.2 Cas de la loi de Poisson

En gardant les notations précédentes, nous regardons l'espace mesurable (S,S) = (N,P(N))muni d'une quelconque mesure µ, et F0 = h : N −→ R µ−mesurable. L'objet de cette partie estde comparer µ à une loi de Poisson qui vit aussi sur (N,P(N)), via la méthode de Stein. Prenonsalors µ0 = P(λ).

Essayons de construire un opérateur de Stein pour µ0. Pour cela nous adoptons la méthodeénoncée ci-dessus. Soit Zt, t ∈ R+ un processus stationnaire de naissance (avec intensité λ) etde mort (avec intensité i au rang i) sur N. On sait que la loi stationnaire d'un tel processus estP(λ) = µ0. Pour u > 0 on a alors (Z0, Zu) est un couple de variables de marginale µ0 qui a la mêmeloi que (Zu, Z0).

Maintenant considérons l'application α : F0 −→ F qui à g ∈ F0 associe α(g) : (k, l) 7−→g(k) − g(l) pour tout k, l ∈ N. Enn on a T : F −→ F0 qui à F ∈ F associe T (F ) : k 7−→E(F (Z0, Zu)|Z0 = k) pour tout k ∈ N.Ainsi pour g ∈ F0 et k ∈ N on a :

limu→0+

1

u(T α)(g)(k) = lim

u→0+

1

uE(g(Zu)− g(Z0)|Z0 = k)

= limu→0+

1

uE(g(Zu)− g(k)|Z0 = k).

Or grâce aux propriétés d'un processus de naissance et de mort, on sait que :

1

u(P(Zu = k)− P(Z0 = k)) = kP(Z0 = k − 1) + λP(Z0 = k + 1)− (k + λ)P(Z0 = k),

et donc :

limu→0+

1

u(T α)(g)(k) = λg(k + 1) + kg(k − 1)− (λ+ k)g(k)

= T0(f)(k),

avec f(k) = g(k)− g(k − 1) et T0(f)(k) = λf(k + 1)− kf(k). Finalement on a trouvé une forme del'opérateur de Stein, qui est :

T0 : F0 −→ F0

f 7−→ T0(f) : k 7−→ λf(k + 1)− kf(k)

Maintenant que nous avons notre opérateur de Stein, énonçons une première proposition.

23

Page 24: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.2 Cas de la loi de Poisson

Proposition 6.1 L'équation de Stein (6.10) avec le T0 que nous venons de construire, admet pour

tout h ∈ X0 une solution f , unique à f(0) près. De plus f peut être explicitée de la sorte :

f(k) =(k − 1)!

λk

k−1∑i=0

(h(i)−

∫hdµ0

)λi

i!(6.11)

= −(k − 1)!

λk

∞∑i=k

(h(i)−

∫hdµ0

)λi

i!(6.12)

Démonstration :

Le premier point résulte de la dénition de l'équation de Stein. De plus pour h ∈ X0 et f latransformée de Stein associée, on choisit f(0) = 0 et on a en remplaçant dans (6.10) : λf(k + 1)−kf(k) = h(k)−

∫hdµ0. Donc :

f(k + 1) =k

λ

(f(k) +

1

k

(h(k)−

∫h dµ0

))=

k(k − 1)

λ2

(f(k − 1) +

1

k − 1

(h(k − 1)−

∫h dµ0

)+

λ

k(k − 1)

(h(k)−

∫h dµ0

))=

k!

λk+1

(h(0)−

∫h dµ0 + · · ·+ λk−1

(k − 2)!

(h(k − 1)−

∫h dµ0

)+λk

k!

(h(k)−

∫h dµ0

))=

k!

λk+1

k∑i=0

(h(i)−

∫h dµ0

)λi

i!.

Ce qui démontre (6.11). Pour (6.12), il sut de remarquer que :

∞∑i=0

(h(i)−

∫h dµ0

)λi

i!= eλ

∫hdµ0 −

∫hdµ0e

λ = 0.

Les expressions (6.11) et (6.12) vont nous être utiles pour les prochains résultats que nous allonsétablir. Mais avant, énonçons le Lemme de Stein qui caractérise la loi de Poisson sur (N,P(N)).

Lemme 6.1 (de Stein) Soit µ une probabilité sur (N,P(N)). On a :

µ = P(λ) ⇐⇒∫NT0fdµ = 0 ∀f : N −→ R bornee.

Démonstration :

Condition nécessaire : µ = P(λ), alors par dénition de l'opérateur de Stein on a pour f : N −→ Rbornée : ∫

NT0fdµ = e−λ

∞∑i=0

T0f(i)λi

i!

= e−λ∞∑i=0

(λf(i+ 1)− if(i))λi

i!

= e−λ

( ∞∑i=0

λi+1

i!f(i+ 1)−

∞∑i=1

λi

i!f(i)

)= 0.

Condition susante :∫N T0fdµ = 0 pour toute f : N −→ R bornée. Soient A ⊂ N, hA = 1A et fA la

transformée de Stein associée à hA. fA est donc bornée et par hypothèse on a donc :∫NT0fA dµ = 0 =

∫NhA dµ−

∫NhA dµ0

= µ(A)− µ0(A).

24

Page 25: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.2 Cas de la loi de Poisson

Ceci étant vrai pour tout A ⊂ N, on en déduit que µ = µ0 = P(λ)

Introduisons pour le reste du paragraphe les constantes suivantes, appelées parfois facteurs de

Stein :

k1(λ) = 1 ∧√

2

λe,

k2(λ) =1− e−λ

λ.

Voici une première proposition. Notons ‖f‖ = supi∈N |f(i)| la norme uniforme, et ∆f(k) =f(k + 1)− f(k).

Proposition 6.2 Soient h ∈ X0 et f la solution de l'équation de Stein (6.10). On a :

1. ‖f‖ ≤ k1(λ)(supi h(i)− infi h(i))

2. ‖∆f‖ ≤ k2(λ)(supi h(i)− infi h(i))

Démonstration :

∗ Considérons déjà un cas particulier, celui où h = 1k avec k ∈ N. On note alors fk la transforméede Stein associée. Soit i ∈ N. Distinguons les cas selon la position de i par rapport à k.Si i < k alors on développe fk grâce à (6.11), ce qui donne :

fk(i) = −e−λλk

k!

(i− 1)!

λi

i−1∑j=0

λj

j!.

Or −e−λ λkk! est toujours négatif. De plus :

(i− 1)!

λi

i−1∑j=0

λj

j!=

i−1∑j=0

(i− 1) · · · (i− j + 1)

λi−j

≤i∑

j=0

i(i− 1) · · · (i− j + 1)

λi+1−j .

Cela signie que pour i < k, fk est décroissante en i et donc ∆fk(i) ≤ 0.Si i > k alors on développe fk grâce à (6.12), ce qui donne :

fk(i) = e−λλk

k!

(i− 1)!

λi

∞∑j=k

λj

j!.

Or e−λ λk

k! est toujours positif. De plus :

(i− 1)!

λi

∞∑j=i

λj

j!=

∞∑j=i

λj−i

i(i+ 1) · · · j

≥∞∑

j=i+1

λj−i−1

(i+ 1) · · · j.

Ce qui signie encore que pour i > k, fk est décroissante en i et donc ∆fk(i) ≤ 0.

25

Page 26: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.2 Cas de la loi de Poisson

Si i = k alors on a par calcul explicite, en utilisant (6.12) pour fk(k + 1) et (6.11) pour fk(k) :

∆fk(k) = e−λ

k!

λk+1

λk

k!

∞∑j=k+1

λj

j!+

(k − 1)!

λkλk

k!

k−1∑j=0

λj

j!

=

e−λ

λ

∞∑j=k+1

λj

j!+λ

k

k−1∑j=0

λj

j!

=

e−λ

λ

∞∑j=k+1

λj

j!+

1

k

k∑j=1

λj

(j − 1)!

≤ e−λ

λ

∞∑j=1

λj

j!

=1− e−λ

λ.

Il s'agit de l'inégalité voulue pour fk.

∗ Considérons maintenant h ∈ X0 quelconque. On ne change pas l'équation de Stein (6.10) enremplaçant h par h+ = h− infi h(i) ≥ 0. On peut donc considérer h positive. Pour f la transforméede Stein associée, remarquons que l'on a pour i ∈ N :

∞∑k=0

h(k)fk(i) =∞∑k=0

h(k)(i− 1)!

λi

i−1∑j=0

(δkj −

λke−λ

k!

)λj

j!

=(i− 1)!

λi

i−1∑j=0

λj

j!

( ∞∑k=0

h(k)δkj −∞∑k=0

h(k)λke−λ

k!

)

=(i− 1)!

λi

i−1∑j=0

λj

j!

(h(j)−

∫hdµ0

)= f(i).

L'échange des deux signes somme est justié par le fait que si on note M = ‖h‖ alors :

(i− 1)!

λi

i−1∑j=0

∞∑k=0

(h(k)(δkj −

λke−λ

k!)λj

j!

)≤ (i− 1)!

λi2M

i−1∑j=0

λj

j!

≤ (i− 1)!

λieλ2M < +∞.

Finalement on majore chaque ∆fk(i) par 0 sauf si i = k, on majore par k2(λ). On obtient ainsi :

∆f(i) =

∞∑k=0

h(k)(fk(i+ 1)− fk(i))

≤ k2(λ)(supih(i)),

et comme on avait pris h positive, pour h quelconque on obtient :

supi

∆f(i) ≤ k2(λ)(supih(i)− inf

ih(i)).

En remplaçant h par −h, la solution de l'équation de Stein devient −f grâce à la linéarité de T0 eton obtient de la même façon :

supi

∆f(i) ≥ −k2(λ)(supih(i)− inf

ih(i)).

26

Page 27: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.2 Cas de la loi de Poisson

En conclusion on a bien l'inégalité voulue à savoir :

‖∆f‖ ≤ k2(λ)(supih(i)− inf

ih(i)).

Passons maintenant au vif du sujet. On considère un ensemble discret ni, disons Γ = 1, . . . , n.Soit Xii∈Γ un ensemble ni de variables aléatoires qui suivent chacune une loi de Bernoulli deparamètre pi. Notons leur sommeW =

∑i∈ΓXi et µ la loi deW . On note aussi λ =

∑i∈Γ pi = E(W ).

Rappelons que ‖µ− µ0‖V T = supA⊂N |µ(A)−µ0(A)|. Ainsi si A ⊂ N et h = 1A, fA la transforméede Stein associée, alors on a par le théorème du transfert :

µ(A)− µ0(A) =

∫NT0fAdµ =

∫NλfA(i+ 1)− if(i)dµ(i) = E(λfA(W + 1)−WfA(W )).

Et donc :

‖µ− µ0‖V T = supA⊂N |E(λfA(W + 1)−WfA(W ))|

On va alors pouvoir par la suite, se concentrer sur |E(λfA(W+1)−WfA(W ))|. Enonçons maintenantle théorème suivant, établi par Chen (1975).

Théorème 6.1 Pour chaque i ∈ Γ, on se donne une partition de Γ\i = Γsi t Γwi . On pose alors

Zi =∑

j∈ΓsiXj et Wi =

∑j∈Γwi

Xj. Alors :

‖µ− µ0‖V T ≤ k2(λ)∑i∈Γ

(pjE(Xi + Zi) + E(XiZi)) + k1(λ)∑i∈Γ

E|pi − E(Xi|Wi)|.

Remarque : Dans l'énoncé de ce Théorème 6.1, la partition de Γ\i est quelconque, mais dans lapratique on s'arrangera en général à partitionner de la façon suivante : Γsi = j ∈ Γ\i, Xj dépendfortement de Xi et Γwi = (Γ\i)\Γsi . En particulier quand les Xj sont toutes indépendantes, on aΓsi = ∅, E(Xj |Wj) = E(Xj) et le résultat du théorème se réduit à :

‖µ− µ0‖V T ≤ k2(λ)∑i∈Γ

p2i .

Un exemple d'application de ce théorème est donné par le Problème de la date d'anniversaire.

Démonstration :

Soit A ⊂ N. On a en gardant toujours les mêmes notations :

E(λfA(W + 1)−WfA(W )) =∑i∈Γ

E(pifA(W + 1)−XifA(W ))

=∑i∈Γ

E(pifA(W + 1)− pifA(Wi + 1) + pifA(Wi + 1)

−XifA(Wi + 1) +Xifa(Wi + 1)−XifA(W )).

Et pour i ∈ Γ, comme fA prend des valeurs entières, on a :

|fA(W + 1)− fA(Wi + 1)| ≤ ‖∆fA‖ (W −Wi) = ‖∆fA‖ (Xi + Zi),

|XifA(Wi + 1)−XifA(W )| ≤ ‖∆fA‖Xi|Wi + 1−W | = ‖∆fA‖XiZi,

27

Page 28: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.2 Cas de la loi de Poisson

puis pour pifA(Wi + 1) − XifA(Wi + 1), on regarde l'espérance de l'espérance conditionnelle parrapport à Wi :

|E(pifA(Wi + 1)−XifA(Wi + 1))| = |E (E(pifA(Wi + 1)−XifA(Wi + 1)|Wi))

= |E (fA(Wi + 1)(pi − E(Xi|Wi)))

≤ ‖fA‖E|pi − E(Xi|Wi)|.

On obtient ainsi :

|E(λfA(W + 1)−WfA(W ))| ≤ ‖∆fA‖∑i∈Γ

(piE(Xi + Zi) + E(XiZi)) + ‖fA‖∑i∈Γ

|pi − E(Xi|Wi)|.

Le résultat découle de cette inégalité combinée à la Proposition 6.2, en remarquant qu'ici h est uneindicatrice, on a supi h(i)− infi h(i) = 1

Après cette approche locale, regardons celle qui motive notre étude de la méthode de Stein :l'approche par couplage, qui permet comme le précédent Théorème de majorer la variation totaleentre une mesure µ et une loi de Poisson. On garde les mêmes notations que ci-dessus.

Théorème 6.2 On se donne W =∑

i∈ΓXi et pour i ∈ Γ, les ensembles Γsi , Γwi et les variables

aléatoires Zi =∑

j∈ΓsiXj, Wi =

∑j∈Γwi

Xj comme considérés plus haut. Soient alors W 1i et W 1

i de

lois respectives L(Wi|Xi = 1) et L(Wi) dénies sur le même espace de probabilité. Alors on a :

‖L(W )− P(λ)‖ ≤ k2(λ)∑i∈Γ

(piE(Xi + Zi)E(XiZi)) + k2(λ)∑i∈Γ

piE|W 1i − W 1

i |.

Remarque : Nous verrons une application directe de ce résultat dans le deuxième exemple de lasous-partie suivante.

Démonstration :

On procède de façon similaire à la démonstration du Théorème précédent. Soient A ⊂ N, h = 1A etfA la transformée de Stein associée. On écrit alors :

E(λfA(W + 1)−WfA(W )) ≤ ‖∆fA‖∑i∈Γ

(piE(Xi + Zi) + E(XiZi)) +∑i∈Γ

E(pifA(Wi + 1)−XifA(Xi + 1)).

Mais cette fois le second terme du membre de droite, nous allons le majorer de la façon suivante :

|E(pifA(Wi + 1)−XifA(Wi + 1))| = |piE(fA(Wi + 1))− E(Xi)E(fA(Wi + 1)|Xi = 1)|= |pi (E(fA(Wi + 1))− E(fA(Wi + 1)|Xi = 1)) |= |piE(fA(W 1

i +)− fA(W 1i + 1))|

≤ pi ‖∆fA‖E|W 1i − W 1

i |

Le résultat en découle en appliquant la Proposition 6.2

Remarque : Dans l'exemple Un problème classique d'occupation qui applique directement ce résultat,

nous avons à faire à des variables de Bernoulli qui vérient Xi,j ≤ Xj pour tout j (voir les notationsci-après), ce qui nous verrons, simpliera considérablement nos calculs. Il semble donc importantd'introduire cette notion plus formellement.

Soient toujours pareil X1, . . . , Xn variables de Bernoulli et W =∑

i∈ΓXi. Pour i ∈ Γ, on

considère Xi,j , j 6= i et Xi,j , j 6= i des variables aléatoires sur le même espace de probabilitételles que

L(Xi,j , j 6= i) = L(Xj , j 6= i|Xi = 1), (6.13)

L(Xi,j , j 6= i) = L(Xj , j 6= i). (6.14)

28

Page 29: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.2 Cas de la loi de Poisson

On décompose Γ\i en sous ensembles Γ+i = j ∈ Γ; Xi,j ≥ Xi,j, Γ−i = j ∈ Γ; Xi,j ≤ Xi,j et

Γ0i .

Dénition 6.1 Les variables X1, . . . , Xn sont dites :

positivement liées si Γ−i = Γ0i = ∅

négativement liées si Γ+i = Γ0

i = ∅

Voici un Lemme qui caractérise les variables positivement liées et celles négativement liées.

Lemme 6.2 Les variables de Bernoulli X1, . . . , Xn sont positivement (resp. négativement) liées si

et seulement si, pour tout i ∈ Γ et toute fonction croissante ϕ : 0, 1n−1 → 0, 1 on a :

E(ϕ(X1, . . . , Xi−1, Xi+1, . . . , Xn)|Xi = 1) ≥ (resp. ≤)E(ϕ(X1, . . . , Xi−1, Xi+1, . . . , Xn)).

Enonçons à présent le dernier Théorème de cette section.

Théorème 6.3 Dans ces mêmes conditions, on a la majoration suivante avec λ = E(W ) :

‖L(W )− P(λ)‖V T ≤ k2(λ)

∑i∈Γ

p2i +

∑i∈Γ

∑j∈Γ+

i

Cov(Xi, Xj)

+k2(λ)

∑i∈Γ

∑j∈Γ−i

|Cov(Xi, Xj)|+∑i∈Γ

∑j∈Γ0

i

(E(XiXj) + pipj)

.

En particulier, si X1, . . . , Xn sont positivement liées alors :

‖L(W )− P(λ)‖V T ≤ k2(λ)(V ar(W )− λ+ 2

∑i∈Γ

p2i

).

Et si X1, . . . , Xn sont négativement liées alors :

‖L(W )− P(λ)‖V T ≤ k2(λ)(λ− V ar(W )

).

Remarque : Une application directe de ce Théorème se place dans le troisième exemple ci-dessous.

Démonstration :

On se ramène aux hypothèses du Théorème 6.2. Ainsi pour i ∈ Γ, on choisit Γsi = ∅, Γwi = Γ\i etWi =

∑j 6=i Xi,j . Dans ce cas, le Théorème 6.2 nous donne la majoration :

‖L(W )− P(λ)‖V T ≤ k2(λ)∑i∈Γ

(pi

(E(Xi) + E|Wi − Wi|

)). (6.15)

De plus on écrit :

piE|W 1i − W 1

i | = piE|∑j∈Γwi

(Xj − X1i,j)|

≤ piE( ∑j∈Γ+

i

(Xi,j −Xj))

+ piE( ∑j∈Γ−i

(Xj − Xi,j))

+ piE( ∑j∈Γ0

i

(Xi,j +Xj)).

Mais on a : piE(Xi,j) = piE(Xj |Xi = 1) = E(1Xi=1Xj) = E(1Xi=1XiXj) = E(XiXj) et donc :piE(Xi,j −Xj) = E(XiXj)− E(Xi)(Xj) = Cov(Xi, Xj). On en déduit que :

piE|W 1i − W 1

i | ≤∑j∈Γ+

i

Cov(Xi, Xj) +∑j∈Γ−i

|Cov(Xi, Xj)|+∑j∈Γ0

i

(E(XiXj) + pipj).

Et le résultat en découle en appliquant cette majoration dans (6.15)

Nous pouvons maintenant nous concentrer sur trois exemples qui reêtent ce que l'on vientd'établir.

29

Page 30: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.3 Quelques applications

6.3 Quelques applications

6.3.1 Un problème de la date d'anniversaire

Considérons n personnes prises au hasard de sorte que leur date d'anniversaire soit aléatoire.Soit W le nombre de paires de personnes qui ont la même date d'anniversaire. Si µ est la loi de W ,et λ = E(W ) = 1

365

(n2

)alors on a :

‖µ− P(λ)‖V T ≤8λ(1− e−λ)

n− 1.

Démonstration :

Prenons Γ = (i1, i2) ⊂ 1, . . . , n l'ensemble des sous-ensembles de 1, . . . , n à 2 éléments. Onregarde les variables Xi où i = i1, i2 qui associent 1 si les personnes i1 et i2 ont la même dated'anniversaire, et 0 sinon. Il découle que E(Xi) = 1

365 pour tout i ∈ Γ. Ainsi avec le W introduiten haut, on voit que W =

∑i∈ΓXi. Pour i ∈ Γ xé, on choisit Γsi = j ∈ Γ, i ∩ j 6= ∅. De plus

Γwi = j ∈ Γ, i ∩ j = ∅ et on remarque que si j ∈ Γwi alors Xj est indépendante à Xi, c'est-à-direque le deuxième terme du membre de droite de l'inégalité du Théorème 6.1 est nul. En appliquantce Théorème et en respectant les notations, cela nous donne la majoration :

‖µ− P(λ)‖V T ≤ k2(λ)∑i∈Γ

(piE(Xi + Zi) + E(XiZi))

= k2(λ)(n

2

)(2(n− 1) + 1

3652+

2(n− 1)

3652

)= k2(λ)

(n2

)4n− 3

3652≤ 8λ(1− e−λ)

n− 1.

Remarque : Notons que le problème peut être rendu général, en considérant n boules tirés indépen-demment de d boîtes ayant la même probabilité d'apparition. On a dans ce cas E(W ) = 1

d

(n2

)et le

même résultat.

6.3.2 Un problème classique d'occupation

On distribue r boules de manière indépendante dans n boîtes équiprobables. Si W est le nombrede boîtes vides après cette distribution, alors on a pour λ = E(W ) :

‖L(W )− P(λ)‖V T ≤(

1− exp

−n(n− 1

n

)r)(n(n− 1

n

)r− (n− 1)

(n− 2

n− 1

)r).

De plus si r = nan avec limn→∞ an =∞ alors :

‖L(W )− P(λ)‖V T = On→∞(ane−an).

Et si an = log(n)− log(c) alors limn→∞ λ = c.

Démonstration :

Modélisons le problème énoncé. Numérotons les boules de 1 àm et notons pour i = 1, . . . , r la variableTi qui représente le numéro de la boîte dans laquelle on envoie la boule i. Ainsi les T1, . . . , Tr sonti.i.d et de loi U(1, . . . , n) par hypothèse. Pour i ∈ Γ, on considère Si =

∑nj=1 1Tj=i le nombre

de boules dans la boîte i. On considère Xi la variable aléatoire qui vaut 1 si la boîte i est vide et 0sinon. Ainsi :

Xi = 1Si=0 =

n∏j=1

1Tj 6=i.

30

Page 31: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.3 Quelques applications

Par indépendance des Tj , la probabilité d'envoyer les r boules ailleurs que dans la boîte i est pi :=(n−1n

)r. Ainsi Xi suit la loi B(pi) et pi ne dépend en fait pas de i. On a par dénition W =

∑i∈ΓXi

et λ = E(W ) =∑

i∈Γ pi = n(n−1n

)r. Choisissons maintenant dans le Théorème 6.2, Γsi = ∅ et alors

Γwi = Γi\i. Fixons i ∈ Γ, et considèrons l'action suivante :(∗) Prendre les boules qui sont dans la boîte i, et de les disperser uniformément dans les autres boîtes.Sur Si = l avec 0 ≤ l ≤ r (c'est-à-dire qu'après la première distribution, la boîte i contient l boules)on considère Tj la variable qui représente le numéro de la boîte où on envoie la boule j. Ainsi pourj ∈ Γwi on a :

L(Tj |Si = l) = U(1, . . . , n\i).

De plus les Tj sachant Si = l sont indépendantes entre elles, mais aussi indépendantes des T1, . . . , Tr.On considère maintenant pour tout j ∈ Γwi , la variable aléatoire Xi,j qui vaut 1 si la boîte j est vide,après avoir réalisé (∗), et 0 sinon. Ainsi si Sij =

∑lk=0 1Tk=j est le nombre de boules dans j après

(∗), alors :Xi,j = 1

Sij=0.

On peut donc écrire pour tout Γ′ ⊂ Γwi :

P (X1i,j = 1, ∀j ∈ Γ′) =

(n− |Γ′| − 1

n− 1

)r= P (Xj = 1|Xi = 1, ∀j ∈ Γ′).

Cela signie :L(X1

i,j , j ∈ Γwi ) = L(Xj , j ∈ Γwi |Xi = 1). (6.16)

Notons enn W 1i =

∑i∈Γwi

Xi,j et W 1i = Wi =

∑j∈Γwi

Xj . Et (6.16) nous implique :

L(W 1i ) = L(Wi|Xi = 1).

Comme X1i,j = 1⇒ Xj = 1 pour tout j ∈ Γwi , il est clair que X

1i,j ≤ Xj pour tout j ∈ Γwi . Ainsi par

le Théorème 6.2 :

‖L(W )− P(λ)‖V T ≤ k2(λ)

(∑i∈Γ

piE(Xi) +∑i∈Γ

piE|W 1i − W 1

i |

)= k2(λ)

∑i∈Γ

pi

(pi + E|W 1

i − W 1i |)

= k2(λ)∑i∈Γ

piE(Xi +∑j∈Γwi

(Xj − X1i,j))

= k2(λ)∑i∈Γ

piE(W −∑j∈Γwi

X1i,j)

= k2(λ)(E(W )2 −

∑i∈Γ

∑j∈Γwi

E(Xi)E(XiXj)/P (1Xi))

= k2(λ)(E(W )2 −

∑i∈Γ

∑j∈Γwi

E(XiXj)).

De plus on sait que :

E(XiXj) =

∫0,1

(∫0,1

xydP (y|Xi = x)

)dP (x)

=

∫0,1

xP (Xj = 1|Xi = x)dP (x)

= P (Xj = 1|Xi = 1)P (Xi = 1) =(n− 2

n− 1

)r(n− 1

n

)r.

31

Page 32: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.3 Quelques applications

Et nalement :

‖L(W )− P(λ)‖V T ≤ k2(λ)

(E(W )2 − n(n− 1)

(n− 2

n− 1

)r(n− 1

n

)r)=

(1− exp

−n(n− 1

n

)r)(n(n− 1

n

)r− (n− 1)

(n− 2

n− 1

)r).

Dans le cas où r = nan avec an = log(n)− log(c), on a :

λ = n(n− 1

n

)r= n

(n− 1

n

)n(log(nc

))

= n exp

log(

n

c) log

(1− 1

n

)n

∼n→∞ n exp

log(

c

n)

= c.

Remarque : Dans cet exemple, les variables X1, . . . , Xn sont négativement liées.

6.3.3 Approximation de la loi hypergéométrique

On dispose de N boîtes dont n rouges (n ≤ N), les autres noires, et de m boules (m ≤ N). Onsuppose que chaque boîte peut contenir au plus une boule. On distribue les m boules uniformémentà l'intérieur des N boîtes. On désigne par W le nombre de boîtes rouges remplies (de 1 boule) aprèsla distribution. Alors W suit une loi hypergéométrique et avec λ = E(W ), on a :

‖L(W )− P(λ)‖V T ≤ (1− exp(−λ))n+m

N − 1.

Démonstration :

Comme dans l'exemple précédent, modélisons le problème donné, de telle sorte qu'on se retrouvedans les hypothèses du Théorème 6.3. Soit Γ = 1, . . . , N. Numérotons les m boules de 1 à m etles N boîtes de 1 à N de telle sorte que les boîtes 1, . . . , n sont exactement les boîtes rouges. Onparlera de conguration (ε1, . . . , εN ) ∈ 0, 1N où εi vaut 1 si la boîte i est remplie et 0 sinon. L'en-semble des congurations possibles est (ε1, . . . , εN ) ∈ 0, 1N ,

∑Ni=1 εi = m. On peut l'identier

avec l'ensemble des boîtes qui sont pleines i.e. Pm(1, . . . , N). Dans toute la suite, on notera doncindiéremment (et avec abus) la conguration C = (ε1, . . . , εN ) = i ∈ Γ, ∃k ∈ 1, . . . ,m, Tk = i.On notera aussi pour alléger les notations Ik = (i1, . . . , ik) ∈ Γk, 2 à 2 distincts où k = 1, . . . ,m,et pour A ∈ Pk(1, . . . , N), Ik(A) = (i1, . . . , ik) ∈ Γk, 2 à 2 distincts, i1, . . . , ik = A. Onremarque immédiatement que Card(Ik(A)) = k!.

Plaçons les boules l'une après l'autre et désignons par Tk où k ∈ 1, . . . ,m, la variable aléatoirequi prend pour valeur le numéro de la boîte où la boule k est envoyée. Ainsi on a pour tout k =1, . . . ,m− 1 :

L(T1) = U(1, . . . , N)∀i1 ∈ I1 L(T2|T1 = i1) = U(1, . . . , N\i1)

· · ·∀(i1, . . . , ik) ∈ Ik L(Tk+1|T1 = i1, . . . , Tk = ik) = U(1, . . . , N\i1, . . . , ik)

32

Page 33: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.3 Quelques applications

Le vecteur aléatoire (T1, . . . , Tm) suit une loi uniforme sur Im. En eet pour (i1, . . . , im) ∈ Im :

P(T1 = i1, . . . , Tm = im) = P(T1 = i1)P(T2 = i2|T1 = i1) · · ·P(Tm = im|T1 = i1, . . . , Tm−1 = im−1)

=1

N

1

N − 1· · · 1

N − (m− 1)=

(N −m)!

N !.

On voit en eectuant cette distribution que chaque conguration est prise de manière uniforme surPm1, . . . , N. En eet pour A ∈ Pm(1, . . . , N) :

P(T1, . . . , Tm = A) = P((T1, . . . , Tm) = (i1, . . . , im); i := (i1, . . . , im) ∈ Im(A))

=∑

i∈Im(A)

P(T1 = i1, . . . , Tm = im)

=∑

i∈Im(A)

(N −m)!

N !=

1(Nm

) .En particulier cela implique que chaque Tk suit une loi uniforme sur 1, . . . , N. On considère pouri ∈ Γ la variable aléatoire Xj qui vaut 1 s'il y a une boule dans la boîte j (i.e si j ∈ C) et 0 sinon.Alors Xj =

∑mk=1 1Tk=j suit une loi de Bernoulli de paramètre p = E(Xj) =

∑mk=1 P(Tk = j) = m

N .Par l'énoncé, W est le nombre de boîtes rouges remplies après la distribution. Ainsi W =

∑ni=1Xi.

Et on a immédiatement λ = E(W ) = np. Montrons que W suit une loi hypergéométrique. Pourk = 1, . . . , n on a par uniformité des congurations :

P(W = k) = P(Card(C ∩ 1, . . . , n) = k)

= P(C = A tB, A ∈ Pk(1, . . . , n), B ∈ Pm−k(1, . . . , N − n))

=

(nk

)(N−nm−k

)(Nm

) .

Cela signie que W suit la loi hypergéométrique H(m, nN , N) = H(n, p,N), dont on sait que lavariance est V ar(W ) = np(1− p)N−nN−1 . Montrons maintenant que les X1, . . . , Xn sont négativementliées, an de pouvoir appliquer une version du Théorème 6.3. Pour cela, considérons une deuxièmemanière de distribuer les boules, et xons i ∈ Γ dans toute la suite.

∗ Construction des variables X1i,j .

On note dans la même idée que plus haut, pour k = 1, . . . ,m, Iik = (i1, . . . , ik) ∈ (Γ\i)k, 2 à 2distincts. Considèrons les actions suivantes :(∗) On choisit de manière uniforme une boule l ∈ 1, . . . ,m.(∗∗) On place la boule l dans la boîte i, et on distribue les m − 1 restantes dans les N − 1 autres

boîtes de manière uniforme.

Soit alors B la variable aléatoire qui a pour valeur le numéro de la boule tirée en (∗). Ainsi L(B) =U(1, . . . ,m). Pour k = 1, . . . ,m, on désigne par T ′k la variable aléatoire qui a pour valeur le numérode la boîte où on envoie la boule k. Remarquons tout de suite que

B = l ⇐⇒ T ′l = i.

Ou autrement dit, L(T ′l |B = l) = δi. Ainsi la variable aléatoire T ′B est constante égale à i. On aalors pour tout l ∈ 1, . . . ,m, si 1 < k < l :

L(T ′1|B = l) = U(1, . . . , N\i)· · ·

∀(i1, . . . , ik−1) ∈ Iik−1 L(T ′k|B = l, T ′1 = i1, . . . , Tk−1 = ik−1) = U(1, . . . , N\i, i1, . . . , ik−1)

33

Page 34: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.3 Quelques applications

et en notant ∧l le fait d'omettre dans un vecteur la composante l, on a pour tout k = l + 1, . . . ,m,

∀(i1, . . . ,∧l,· · ·k−1) ∈ Iik−1 :

L(T ′k|B = l, T ′1 = i1, . . . ,∧l, . . . , Tk−1 = ik−1) = U(1, . . . , N\i, i1, . . . ,∧l, . . . , ik−1).

Par le même raisonnement qu'on a fait pour la distribution uniforme, on a pour (i1, . . . ,∧l, . . . , im) ∈Iim−1 :

P(T ′1 = i1, . . . ,∧l, . . . , T ′m = im|B = l) =(N −m)!

(N − 1)!.

Pour j ∈ 1, . . . , n, on note X ′j la variable aléatoire qui vaut 1 s'il y a une boule dans la boîte japrès avoir réalisé (∗) et (∗∗), et 0 sinon. Ainsi X ′j =

∑mk=1 1T ′k=j . Ces nouvelles variables, comme

nous allons le voir, feront oce des X1i,j . On obtient alors une nouvelle conguration C ′.

∗ Construction des variables X1i,j .

On considère l'action suivante :(∗ ∗ ∗) On eectue un tirage à pile ou face indépendamment de ce qui précède, avec une probabilité

p que l'on tire pile.On note cette variable aléatoire S. Ainsi L(S) = B(p) et S est indépendante des variables C,B, T ′1, . . . , T

′m.

On obtient alors une nouvelle conguration C ′′ dénie comme suit :→ si S =pile, alors on ne touche à rien. En particulier, on a C ′′ = C.→ si S =face, alors on choisit une boîte de manière uniforme parmis les boîtes vides restantes, demanière indépendante de tout ce qui précède, et on y place la boule de la boîte i. Ainsi C ′′ 6= C ′.On désigne maintenant par T ′′k où k = 1, . . . ,m, la variable alétoire qui prend le numéro de la boîteoù la boule j est envoyée après (∗), (∗∗), et (∗ ∗ ∗). Ainsi sur B = l ∩ S = face on a :

∀k 6= l T ′′k = T ′k,

T ′′l ∈ Γ\C ′,T ′′l est independante de T ′1, . . . , ∧l , . . . , T ′m,

C ′′ = C ′\i ∪ T ′′l .

On note de plus pour j ∈ 1, . . . , n, la variable aléatoire X ′′j qui vaut 1 si la boîte j est pleine après(∗), (∗∗), et (∗ ∗ ∗) (i.e si j ∈ C ′′), et 0 sinon. Comme C ′\i ⊂ C ′′, on a pour j ∈ 1, . . . , n\i :

X ′j ≤ X ′′j .

Il est clair aussi que l'ensemble des congurations possibles, après cette distribution, est égal à celuides congurations possibles après distribution uniforme. Il faut montrer que les congurations aprèstelle ou telle distribution ont la même probabilité d'apparaître. D'après ce qui précède, sur B = lon a (T ′1, . . . ,∧l, . . . , T ′m) = (T ′′1 , . . . ,∧l, . . . , T ′′m) et en particulier :

L(T ′′1 , . . . ,∧l, . . . , T ′′m|B = l) = L(T ′1, . . . ,∧l, . . . , T ′m|B = l).

De plusL(T ′′l |S = pile, B = l, T ′′1 = i1, . . . ,∧l, . . . , T ′′m = im) = δiL(T ′′l |S = face,B = l, T ′′1 = i1, . . . ,∧l, . . . , T ′′m = im) = U(1, . . . , N\i, i1, . . . , im)

Montrons que pour tout k, T ′′k suit une loi uniforme sur Γ. Pour tout k = 1, . . . ,m on a :

T ′′l = i = T ′l = i ∩ S = pile = B = l ∩ S = pile

et par indépendance de S par rapport à B, il en découle que :

P(T ′′l = i) = P(B = l)P(S = pile) =1

N.

34

Page 35: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.3 Quelques applications

Et pour j 6= i,

P(T ′′l = j) =m∑k=1

∑(i1,...,im)∈Iim−1

P(T ′′l = i|S = face,B = k, T ′′1 = i1, . . . ,∧l, . . . , T ′′m = im)

×P(S = face)P(B = k)P(T ′′1 = i1, . . . ,∧l, . . . , T ′′m = im|B = k)

=m∑k=1

1

N −mN −mN

1

m

∑(i1,...,im)∈Iim−1

P(T ′1 = i1, . . . ,∧l, . . . , T ′m = im|B = k)

=m∑k=1

1

Nm

∑(i1,...,im)∈Iim−1

1

N − 2· · · 1

N − 2− (m− 2)

=1

N(m− 1)!

(N−2

m−1

)(N −m− 1)!

(N − 2)!=

1

N.

Prenons maintenant (i1, . . . , im) ∈ Im. S'il existe l ∈ 1, . . . ,m tel que il = i, alors grâce àl'indépendance de S par rapport à T ′1, . . . , T

′m et B on a :

P(T ′′1 = i1, . . . , T′′m = im) = P(T ′′l = i)P(T ′′1 = i1, . . . ,∧l, . . . , T ′′m = im|T ′′l = i)

=1

NP(T ′′1 = i1, . . . ,∧l, . . . , T ′′m = im|B = l, S = pile)

=1

NP(T ′1 = i1, . . . ,∧l, . . . , T ′m = im|B = l, S = pile)

=1

NP(T ′1 = i1, . . . ,∧l, . . . , T ′m = im|B = l)

=1

N

(N −m)!

(N − 1)!=

(N −m)!

N !

= P(T1 = i1, . . . , Tm = im).

Maintenant si ∀l ∈ 1, . . . ,m, on a Tl 6= i, cela signie qu'on a obtenu S = face et alors :

P(T ′′1 = i1, . . . , T′′m = im) =

m∑l=1

P(T ′′1 = i1, . . . , T′′m = im, S = face,B = l)

=m∑l=1

P(T ′1 = i1, . . . ,∧l, . . . , T ′m = im, T′′l = il, S = face,B = l)

=m∑l=1

P(T ′′l = il, S = face,B = l)P(T ′1 = i1, . . . ,∧l, . . . , T ′m = im|B = l)

=

m∑l=1

P(T ′′l = il)P(B = l)P(T ′1 = i1, . . . ,∧l, . . . , T ′m = im|B = l)

=m∑l=1

1

N

1

m

(N −m)!

(N − 1)!=

(N −m)!

N !

= P(T1 = i1, . . . , Tm = im).

Cela signie nalement que :L(X ′′j , j) = L(Xj , j).

On a donc (6.14). Poursuivons : on a pour (k1, . . . , kn) ∈ 0, 1n

P(X ′1 = k1, . . . , X′n = kn) =

0 si ki = 0P(X ′1 = k1, . . . , X

′i = 1, . . . , X ′n = kn) si ki = 1

35

Page 36: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode de Stein 6.3 Quelques applications

De plus par indépendance de la variable S par rapport aux X ′1, . . . , X′n on a :

P(X ′1 = k1, . . . , X′i = 1, . . . , X ′n = kn) = P(X ′′1 = k1, . . . , X

′′i = 1, . . . , X ′′n = kn|S = pile)

=1

P(S = pile)P(X ′′1 = k1, . . . , X

′′i = 1, . . . , X ′′n = kn)

=1

pP(X1 = k1, . . . , Xi = 1, . . . , Xn = kn).

Or on a :

P(X1 = k1, . . . , Xn = kn|Xi = 1) =

0 si ki = 0

1P(Xi=1)P(X1 = k1, . . . , Xi = 1, . . . , Xn = kn) si ki = 1

Comme P(Xi = 1) = p par dénition, on en déduit l'égalité :

P(X ′1 = k1, . . . , X′n = kn) = P(X1 = k1, . . . , Xn = kn|Xi = 1),

pour tout (k1, . . . , kn) ∈ 0, 1n. Nos variables vérient donc (6.13).Tout cela signie que les Xj sont négativement liées. On peut donc appliquer le Théorème 6.3

qui donne :

‖L(W )− P(λ)‖V T ≤ k2(λ)(λ− V ar(W )

)= (1− exp(−λ))

(1− (1− p)N − n

N − 1

)≤ (1− exp(−λ))

(( nN

+ p) N

N − 1

)= (1− exp(−λ))

n+m

N − 1.

Remarque : La majoration est ecace lorsque n et m sont petits par rapport à N .

36

Page 37: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Liaison entropie et écart d2

Troisième partie

Entropie conditionnelle

Dans cette partie, nous établissons des résultats sur la notion d'entropie. L'entropie condition-nelle mesure d'une certaine manière, l'écart entre deux probabilités, tout comme la distance envariation totale (introduite en première partie). L'entropie intervient en particulier dans la théoriede l'information. Nous introduisons dans un premier temps un autre écart d2 entre deux probabilités,avec lequel on fera le lien avec l'entropie. Nous appliquerons ces résultats, dans un deuxième temps,pour aboutir à une inégalité de Poincaré. L'inégalité de Poincaré obtenue fait partie des outils pourobtenir des résultats isopérimétriques.

7 Liaison entropie et écart d2

On reprendra les notations de [2] tout au long de cette partie.Soient µ et ν deux probabilités sur Rn. Rappelons queM(ν, µ) est l'ensemble des couplages entre

ν et µ. Considérons : Une pseudo-distance sur l'espace des probabilités sur un même espace (ici Rn) :

d2(ν, µ) = infγ∈M(ν,µ)

supα

∫∫ n∑i=1

αi(y)1xi 6=yi dγ(x, y), (7.17)

où le sup est pris sur les α = (α1, . . . , αn) tels que αi ≥ 0 et∫ ∑n

i=1 α2i (y) dµ(y) ≤ 1.

Pour f : Rn −→ R+ on dénit l'entropie de f selon µ est donnée par :

Entµ(f) =

∫Rnf log(f) dµ−

∫Rnf dµ. log

(∫Rnf dµ

). (7.18)

Remarque : Enonçons tout de suite deux cas particuliers : Si f est constante positive, disons a ≥ 0, alors :

Entµ(a) = a log(a)− a(log(a) + log(1)) = 0,

et ceci même si a = 0 grâce au prolongement par continuité en 0 de la fonction x 7→ x log(x). Si f est une densité de probabilité par rapport à µ, alors l'entropie relative à µ se réduit à :

Entµ(f) =

∫Rdf log(f) dµ.

Les méthodes de couplage vont nous permettre de lier les quantités (7.17) et (7.18). J'ai repris lemême énoncé du théorème que P-M. Samson dans [2]. Cependant celui-ci ne propose une démons-tration que dans le cas où µ est à densité strictement positive. Nous allons donner dans un premiertemps, une démonstration plus générale en dimension 1. Nous donnerons dans un second temps lethéorème en dimension n quelconque, et une esquisse de la démonstration.

7.1 En dimension un

Théorème 7.1 Si µ est à densité par rapport à une mesure de référence ρ sur R et si ν est

absolument continue par rapport à µ, de dérivée de Radon-Nikodym dνdµ alors on a les inégalités

suivantes :

d2(ν, µ) ≤

√2Entµ

(dν

), (7.19)

d2(µ, ν) ≤

√2Entµ

(dν

). (7.20)

37

Page 38: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Liaison entropie et écart d2 7.1 En dimension un

Remarque : Nous supposerons toujours ν 6= µ. Dans le cas contraire on a d2(ν, ν) = 0 et le Théorème7.1 n'a pas grand intérêt.

Pour démontrer ce Théorème 7.1, nous avons besoin du lemme calculatoire suivant, qui estcependant vrai en dimension n quelconque :

Lemme 7.1 Soient µ et ν deux probabilités de densité respective f strictement positive et g par

rapport à une mesure ρ sur Rn. Alors nous avons les deux inégalités suivantes :

dρ(f |g) :=

(∫ [1− f

g

]2

+

g dρ

) 12

√2Entµ

(g

f

)(7.21)

dρ(g|f) :=

(∫ [1− g

f

]2

+

f dρ

) 12

√2Entµ

(g

f

)(7.22)

Démonstration :

Posons u = gf . On a :

EntP (u) =

∫(u log(u)− u+ 1)g dν.

Soient alors pour u > 0 : ψ(u) = u log(u)− u+ 1

Φ(u) = ψ(u)u

Sur ]0, 1] l'application u 7−→ ψ(u)− 12(1− u)2 est dérivable de dérivée :

log(u) + 1− u ≤ 0

Donc elle est décroissante sur ]0, 1] et vaut 0 en 1, donc est positive sur tout ]0, 1] i.e :

ψ(u) ≥ 1

2(1− u)2. (7.23)

Remarquons que (7.23) est aussi vraie pour u = 0.Supposons maintenant que g ne s'annule pas.

On peut alors considérer fg = 1

u . Sur [1,+∞[ l'application u 7−→ Φ(u)− 12(1− 1

u)2 est dérivable dedérivée :

1

u− 1

u3≥ 0.

Donc elle est croissante sur [1,+∞[ et vaut 0 en 1, donc est positive sur tout [1,+∞[ i.e :

Φ(u) ≥ 1

2(1− 1

u)2.

Finalement on a pour tout u ≥ 0 :

ψ(u) = ψ(u)1u≤1 + uΦ(u)1u>1 ≥1

2[1− u]2+ +

1

2[u− 1]2+.

Et cette inégalité est aussi vraie quand g (i.e u) s'annule. Ainsi :

Entµ(u) ≥ 1

2

(∫[1− u]2+ f dρ+

∫ [1− 1

u

]2

+

g dρ

),

d'où :2Entµ(u) ≥ d2

ρ(f |g) + d2ρ(g|f).

38

Page 39: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Liaison entropie et écart d2 7.1 En dimension un

→ Nous pouvons maintenant passer au Théorème 7.1. Dans [2], l'auteur écrit une chose fausse :il arme que γ (voir suite) est une mesure à densité alors que ça n'en n'est pas une. Voici donc unepreuve rédigée correctement de ce théorème.

Démonstration :

On considère f la densité de µ par rapport à ρ. Si f n'est pas strictement positive alors on choisiρ = µ comme mesure de référence pour palier à cette éventualité. Et comme ν est absolumentcontinue par rapport à µ, ν est à densité, disons g, par rapport à ρ sur R. Ainsi :

g =dν

dµf.

Notons i∆ := i∆R : x 7−→ (x, x).

Considérons la mesure γ : A ⊂ R× R; ρ−mesurable −→ R+ dénie par :

(x, y) 7−→(i∆?

(min(f, g) · ρ

))(x, y) +

[g(y)− f(y)]+.[f(x)− g(x)]+

‖ν − µ‖V T· dρ⊗ ρ(x, y)

D'après (4.2), on a bien que γ ∈M(µ, ν).

Soit maintenant α : R −→ R+ une application µ−mesurable telle que∫R α(y)2 dν(y) ≤ 1. On a alors

en utilisant le théorème de Fubini :∫∫R2

α(y)1y 6=x dγ(x, y) =

∫∫R2

α(y)11y 6=x[g(y)− f(y)]+.[f(x)− g(x)]+

‖ν − µ‖V Tdρ⊗ ρ(x, y)

=

∫Rα(y)[g(y)− f(y)]+11B dρ(y)

où B = y ∈ R|g(y) > 0. Et en appliquant l'inégalité de Cauchy-Schwarz à α√g et

[1− f

g

]+

√g1B,

on obtient :∫∫R2

α(y)1y 6=x dγ(x, y) ≤(∫

Rα(y)2g(y) dρ(y)

) 12

.

(∫B

[1− f(y)

g(y)

]+

g(y) dρ(y)

) 12

≤(∫

R

[1− f(y)

g(y)

]+

g(y) dρ(y)

) 12

= dρ(f |g).

En prenant β : R −→ R+ ρ−mesurable telle que∫R β(x)2 dµ(x) ≤ 1, on obtient de la même

façon : ∫∫β(x)1y 6=x dγ(x, y) ≤ dρ(g|f).

Appliquons maintenant le Lemme 7.1. En eet, les inégalités (7.21) et (7.22) nous fournissentimmédiatement : ∫∫

α(y)1y 6=x dγ(x, y) ≤

√2Entµ

(g

f

),

∫∫β(x)1y 6=x dγ(x, y) ≤

√2Entµ

(g

f

).

39

Page 40: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Liaison entropie et écart d2 7.2 En dimension nie quelconque

Ceci étant vrai pour tout α et β, on peut prendre le sup sur ces fonctions ρ−mesurables qui vérient‖α‖L2(ν) ≤ 1 et ‖β‖L2(µ) ≤ 1 et ainsi :

supα

∫∫α(y)1y 6=x dγ(x, y) ≤

√2Entµ

(g

f

),

supβ

∫∫β(x)1y 6=x dγ(x, y) ≤

√2Entµ

(g

f

).

Et comme on a trouvé une mesure γ ∈ M(ν, µ) pour laquelle ces inégalités sont vraies, on analement le résultat :

infγ∈M(ν,µ)

supα

∫∫α(y)1y 6=x dγ(x, y) ≤

√2Entµ

(g

f

),

infγ∈M(ν,µ)

supβ

∫∫β(x)1y 6=x dγ(x, y) ≤

√2Entµ

(g

f

).

7.2 En dimension nie quelconque

→ Nous allons énoncer l'équivalent du théorème 7.1 en dimension nie quelconque (n ≥ 1). Pourcela, nous avons besoin d'autres notations, reprises là encore dans [2].

Considérons un échantillon X de taille n de variables aléatoires sur Rn et de loi µ. Soit Γ =(γji

)1≤i,j≤n

la matrice de dépendance des X1, . . . , Xn dénie de la manière suivante. Pour i ≥ j :

γji =

0 si i > j1 si i = j

Et pour i < j :

γji =

(sup

(xi,yi)∈R2

supyi−11 ∈Ri−1

aj(yi−11 , xi, yi)

) 12

,

où aj(yi−11 , xi, yi) =

∥∥∥L(Xnj |X

i−11 = yi−1

1 , Xi = xi)− L(Xnj |X

i−11 = yi−1

1 , Xi = yi)∥∥∥V T

et Xji := (Xi, . . . , Xj). On note ‖Γ‖ =

(∑ni,j=1 (γji )

2) 1

2la norme de la topologie euclidienne. Re-

marquons que si n = 1, l'échantillon est de taille 1 et la matrice Γ est réduite à (1) donc ‖Γ‖ = 1.La qualité des majorations obtenues dépend donc fortement de la dimension de l'espace considéré.

Nous sommes en mesure d'énoncer le théorème dans le cadre général.

Théorème 7.2 Si µ est à densité strictement positive par rapport à ρ1 ⊗ · · · ⊗ ρn sur Rn et νune probabilité sur Rn admettant une dérivée de Radon-Nikodym dν

dµ par rapport à µ, alors on a les

inégalités :

d2(ν, µ) ≤ ‖Γ‖

√2Entµ

(dν

), (7.24)

d2(µ, ν) ≤ ‖Γ‖

√2Entµ

(dν

). (7.25)

40

Page 41: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Liaison entropie et écart d2 7.2 En dimension nie quelconque

Démonstration :

Pour n = 1 : est traité par le théorème 7.1.Pour n > 1 : on raisonne par récurrence et on suppose le résultat vrai pour n − 1. Soient f est ladensité de µ et g celle de ν par rapport ρ1 ⊗ · · · ⊗ ρn. La relation

g =dν

dµf,

impose également g à être strictement positive. Considérons α = (α1, . . . , αn) et β = (β1, . . . , βn)des vecteurs de fonctions positives telles que :∫ n∑

i=1

αi(y)2 dν(y) ≤ 1

∫ n∑i=1

βi(x)2 dµ(x) ≤ 1

Comme f > 0 on peut écrire :

f(x1, . . . , xn) = fn(xn|x1, . . . , xn−1) · · · f2(x2|x1)f1(x1),

avec :

fj(xj |x1, . . . , xj−1) =

∫f(x1, . . . , xj , zj+1, . . . , zn) dρj+1(zj+1) . . . dρn(zn)∫f(x1, . . . , xj−1, zj , . . . , zn) dρj(zj) . . . dρn(zn)

.

On a∫fj(xj |x1, . . . , xj−1) dρj(xj) = 1. Soient alors Fj(.|x1, . . . , xj−1) les probabilités qui ont pour

densité respective fj(.|x1, . . . , xj−1) par rapport à ρj pour j = 1, . . . , n. Introduisons maintenantpour 1 ≤ i < j ≤ k ≤ n :

fkj (xj , . . . , xk|x1, . . . , xi) =

∫f(x1, . . . , xi, zi+1, . . . , zi−1, xj , . . . , xk, zk+1, . . . , zn)

dρi+1(zi+1) . . . dρj−1(zj−1)dρk+1(zk+1) . . . dρn(zn).

Soit alors F kj (., . . . , .|x1, . . . , xi) la probabilité ayant fkj (., . . . , .|x1, . . . , xi) pour densité par rap-port à dρj ⊗ · · · ⊗ dρk. On dénit de façon similaire pour g les gn, . . . , g1 et Gj pour j = 1, . . . , n.Et pour 1 ≤ i < j ≤ k ≤ n les gkj (., . . . , yk|y1, . . . , yi) et Gkj (., . . . , .|y1, . . . , yi). Soit enn pouri = 1, . . . , n :

Ei =

∫EntFi(.|y1,...,yi−1)

(gi(.|y1, . . . , yi−1)

fi(.|y1, . . . , yi−1)

)dGi−1

1 (y1, . . . , yi−1).

Lemme 7.2 On a :n∑i=1

Ei = Entµ

(dν

).

Démonstration :

Rappelons que :

Entµ

(dν

)= Entµ

(g

f

)=

∫g

flog

(g

f

)dµ.

On réécrit f et g, pour (y1, . . . , yn) ∈ Rn :

g(y1, . . . , yn)

f(y1, . . . , yn)=

n∏i=1

gi(yi|y1, . . . , yi−1)

fi(yi|y1, . . . , yi−1).

41

Page 42: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Liaison entropie et écart d2 7.2 En dimension nie quelconque

Donc :

Entµ

(g

f

)=

n∑i=1

∫· · ·∫

log

(gi(yi|y1, . . . , yi−1)

fi(yi|y1, . . . , yi−1)

) ∏ni=1 gi(yi|y1, . . . , yi−1)

f(y1, . . . , yn)

×f(y1, . . . , yn) dρ1 ⊗ · · · ⊗ ρn

=n∑i=1

∫log

(gi(yi|y1, . . . , yi−1)

fi(yi|y1, . . . , yi−1)

)dGn1 (y1, . . . , yn).

Mais d'après les notations ci-dessus :

dGn1 (y1, . . . , yn) = Gn(dyn|y1, . . . , yn−1)× · · · ×G1(dy1)

= gn(yn|y1, . . . , yn−1)× · · · × g1(y1) · d(ρn ⊗ · · · ⊗ ρ1)(yn, . . . , y1).

Donc : ∫log

(gi(yi|y1, . . . , yi−1)

fi(yi|y1, . . . , yi−1)

)dGn1 (y1, . . . , yn)

=

∫log

(gi(yi|y1, . . . , yi−1)

fi(yi|y1, . . . , yi−1)

)gi(yi|y1, . . . , yi−1) . . . g1(y1) d(ρi ⊗ · · · ⊗ ρ1)(yi, . . . , y1)

×∫gn(yn|y1, . . . , yn−1) . . . gi+1(yi+1|y − 1, . . . , yi) d(ρn ⊗ · · · ⊗ ρi+1)(yn, . . . , yi+1)

=

∫log

(gi(yi|y1, . . . , yi−1)

fi(yi|y1, . . . , yi−1)

)Gi(dy1|y1, . . . , yi−1)Gi−1

1 (dy1, . . . , dyi−1).

Et on écrit :

EntFi(.|y1,...,yi−1)

(gi(yi|y1, . . . , yi−1)

fi(yi|y1, . . . , yi−1)

)=

∫log

(gi(yi|y1, . . . , yi−1)

fi(yi|y1, . . . , yi−1)

)Gi(dy1|y1, . . . , yi−1).

Finalement on obtient le résultat :

Entµ

(g

f

)=

n∑i=1

∫EntFi(.|y1,...,yi−1)

(gi(yi|y1, . . . , yi−1)

fi(yi|y1, . . . , yi−1)

)Gi−1

1 (dy1, . . . , dyi−1)

=

n∑i=1

Ei.

Nous allons voir que ce Lemme est une clef importante de la démonstration. Pour alléger lesnotations, notons maintenant pour 1 ≤ j ≤ n :

∆j =∫αj(y)2 dν(y)

∆j =∫βj(x)2 dµ(x)

On a par hypothèse sur α et β :∑n

j=1 ∆j ≤ 1 et∑n

j=1 ∆j ≤ 1.

→ Dans [2], pour obtenir le résultat du Théorème 7.2, l'auteur construit une probabilité γ ∈M(ν, µ) qui vérie les inégalités suivantes :∫∫

αj(y)11yj 6=xj dγ(x, y) ≤j∑i=1

γji (2Ei)12 (∆j)

12 , (7.26)

∫∫βj(x)11yj 6=xj dγ(x, y) ≤

j∑i=1

γji (2Ei)12 (∆j)

12 . (7.27)

42

Page 43: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Application : une inégalité de Poincaré

Avec ces inégalités (7.26) et (7.27), le résultat du Théorème 7.2 s'en suit facilement. En eet,partant de (7.26), montrons (7.24) ((7.27) impliquera (7.25) de la même façon). En sommant sur j,en appliquant plusieurs fois l'inégalité de Cauchy-Schwarz et en se rappelant que γji = 0 pour i > j,on a : ∫∫ n∑

j=1

αj(y)11xj 6=yj dγ(x, y) ≤n∑j=1

((∆j)

12

j∑i=1

(2Ei)12γji

)

n∑j=1

∆j

12 n∑j=1

(j∑i=1

(2Ei)12γji

)2

12

=

n∑j=1

∆j

12 n∑j=1

(n∑i=1

(2Ei)12γji

)2 1

2

n∑j=1

∆j

12 n∑j=1

(n∑i=1

(2Ei)

)(n∑i=1

(γji )2

) 12

=

n∑j=1

∆j

12( n∑

i=1

(2Ei)

) n∑i,j=1

(γji )2

12

= ‖Γ‖

(2

n∑i=1

Ei

) 12

n∑j=1

∆j

12

.

Grâce au Lemme et par hypothèse sur les ∆j , on obtient :∫∫ n∑j=1

αj(y)11xj 6=yj dγ(x, y) ≤ ‖Γ‖

√2Entµ

(g

f

).

Ceci étant vrai pour tout α vériant les conditions de départ, et le membre de droite de l'inégaliténe dépendant pas de α on peut prendre le sup sur celui de gauche, puis enn l'inf sur les couplagesγ ∈M(Q,P ) pour obtenir ce que l'on veut, à savoir :

d2(µ, ν) ≤ ‖Γ‖

√2Entµ

(g

f

).

8 Application : une inégalité de Poincaré

Gardons les mêmes notations que la partie précédente. On se donne pour toute la suite : unemesure de probabilité µ sur [0, 1]n et f : [0, 1]n −→ R une fonction µ-mesurable, continue sur [0, 1]et C1 sur ]0, 1[n. On notera pour j ∈ 1, . . . , n, l'opérateur ∂j = ∂

∂j.

Lemme 8.1 Si f est convexe alors pour tout x, y ∈ [0, 1]n :

f(y1, . . . , yn)− f(x1, . . . , xn) ≤n∑j=1

|∂j(y)|11yj 6=xj . (8.28)

Si f est concave alors pour tout x, y ∈ [0, 1]n :

f(y1, . . . , yn)− f(x1, . . . , xn) ≤n∑j=1

|∂j(x)|11yj 6=xj . (8.29)

43

Page 44: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Application : une inégalité de Poincaré

Démonstration :

Supposons f convexe.∗ Prouvons déjà le lemme pour n = 1. Soient x, y ∈ [0, 1]n. f ′ est continue sur ]0, 1[ et alors on écritf(y)− f(x) =

∫ yx f′(t)dt. De plus la convexité de f entraînée la croissante de f ′

→ Si y = x, l'inégalité est trivialle.→ Si y > x alors :

f(y)− f(x) ≤ f ′(y)

∫ y

xdt = f ′(y)(x− y).

→ Si y < x alors :f(y)− f(x) ≥ f ′(y)(y − x).

Finalement on a donc f(y)− f(x) ≤ |f ′(y)|11y 6=x.∗ Supposons maintenant n > 1. Pour x, y ∈ [0, 1]n, il est facile de voir que l'application

g : t ∈ [0, 1] 7−→ f((1− t)x+ ty)

est convexe. Elle est de plus continue sur [0, 1] et C1 sur ]0, 1[. On peut donc lui appliquer l'inégalitéprécédente pour en particulier 0 et 1 :

g(1)− g(0) = f(y)− f(x) ≤ |g′(1)|.

On en déduit que :

f(y)− f(x) ≤n∑j=1

|∂j(y)|11yj 6=xj .

Cela étant vrai pour tout x, y ∈ [0, 1]n, on a l'inégalité (8.28).Dans le cas où f est concave, on applique l'inégalité précédente à −f qui alors convexe, et on

retrouve bien (8.29)

Passons maintenant à la proposition qui nous permet d'obtenir facilement l'inégalité de Poincarérecherchée. On dénote par ∇f le gradient de f et |∇f | sa norme euclidienne dans Rn.

Proposition 8.1 Si f est convexe alors :

Entµ(ef ) ≤ 2 ‖Γ‖2∫|∇f |2ef dµ. (8.30)

Si f est concave alors :

Entµ(ef ) ≤ 2 ‖Γ‖2∫|∇f |2 dµ

∫ef dµ. (8.31)

Démonstration :

Souvenons nous de la dénition de l'entropie conditionnelle en (7.18) :

Entµ(ef ) =

∫[0,1]n

f(y)ef(y) dµ(y)−

(∫[0,1]n

ef(x) dµ(x)

)(log

∫[0,1]n

ef(x) dµ(x)

).

Comme − log est convexe, on peut appliquer l'inégalité de Jensen au deuxième facteur du terme degauche, et avec Eµ(ef ) =

∫ef dµ il vient que :

Entµ(ef )

Eµ(ef )≤∫f(y)

ef(y)

Eµ(ef )dµ(y)−

∫f(x) dµ(x).

44

Page 45: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Application : une inégalité de Poincaré

Soit maintenant µf la mesure de probabilité sur [0, 1]n qui admet la densité ef/Eµ(ef ) par rapport

à µ. On a alors la relation suivante dµf

dµ = ef

Eµ(ef ). Soit γ ∈ M(µ, µf ). Alors l'inégalité précédente

nous dit exactement :Entµ(ef )

Eµ(ef )≤∫∫

f(y)− f(x) dγ(x, y). (8.32)

Si f est convexe, alors en réinjectant (8.28) du Lemme précédent dans (8.32) on obtient :

Entµ(ef )

Eµ(ef )≤∫∫ n∑

j=1

|∂jf(y)|11yj 6=xj dγ(x, y).

Si on note Iµf (f) =∫|∇f(y)|2 dµf (y) alors on a deux cas :

→ Si Iµf (f) = 0 alors cela signie que toutes les dérivées partielles de f sont nulles, i.e f est constante.Et si f est constante, l'entropie de ef selon µ est nulle, donc l'inégalité (8.30) est immédiate.→ Sinon Iµf (f) > 0 et on peut écrire :

Entµ(ef )

Eµ(ef )≤∫∫ n∑

j=1

|∂jf(y)|Iµf (f)1/2

11yj 6=xj dγ(x, y)

(Iµf (f))1/2

.

De plus on a que : ∫ n∑j=1

|∂jf(y)|2

Iµf (f)dµf (x) =

Iµf (f)

Iµf (f)= 1.

Cela signie que le sup est atteint dans la dénition de d2(µ, µf ) donnée en (7.17). De plus commeici γ ∈M(µ, µf ) est un couplage particulier, on en déduit que :

Entµ(ef )

Eµ(ef )≤ d2(µ, µf )

∫ n∑j=1

|∂jf(y)|2 dµf (y)

1/2

.

Puis en appliquant le Théorème (7.2) à d2(µ, µf ), on a :

Entµ(ef )

Eµ(ef )≤ ‖Γ‖

(2Entµ(ef )

Eµ(ef )

)1/2(∫|∇f |2 ef

Eµ(ef )dµ

)1/2

.

Finalement, on obtient (8.30) en divisant cette inégalité par Eµ(ef ).

De même si f est concave on obtient successivement les inégalités suivantes grâce à (8.29), (7.17)avec d2(µf , µ), puis au Théorème (7.2) :

Entµ(ef )

Eµ(ef )≤

n∑j=1

∫∫|∂jf(x)|11yj 6=xj dγ(x, y)

≤ d2(µf , µ)

∫ n∑j=1

|∂jf(x)|2 dµ(x)

1/2

≤ ‖Γ‖(

2Entµ(ef )

Eµ(ef )

)1/2(∫|∇f |2 dµ

)1/2

.

On obtient (8.31) en divisant la dernière inégalité par EP (ef )

Enonçons maintenant l'inégalité de Poincaré désirée.

45

Page 46: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Application : une inégalité de Poincaré

Proposition 8.2 Si f est convexe ou concave, alors :∫f2 dµ−

(∫f dµ

)2

≤ 4 ‖Γ‖2∫|∇f |2 dµ.

Démonstration :

Remarquons d'abord que l'on peut supposer que Eµ(f) = 0. Dans ce cas si on démontre l'inégalitéde Poincaré, alors en remplaçant f par f − Eµ(f) :∫

(f − Eµ(f))2 dµ =

∫f2 dµ− (Eµ(f))2 .

∗ Traitons le cas où f est convexe. Fixons a > ε > 0. On peut appliquer l'inégalité (8.30) à εf , cequi donne :

Entµ(eεf ) ≤ 2ε2 ‖Γ‖2∫|∇f |2eεf dµ,

c'est-à-dire :

ε

∫f(y)eεf(y) dµ(y) ≤ 2ε2 ‖Γ‖2

∫|∇f |2eεf dµ+

(∫eεf(x) dµ(x)

)(log

∫eεf(x) dµ(x)

). (8.33)

D'autre part : pour tout x ∈ [0, 1]n, ε 7−→ eεf(x) est continue en 0, eεf(x) ≤ eaf(x) pour tout ε ∈ [0, a], pour tout x ∈ [0, 1]n, x 7−→ eaf(x) est µ-intégrable sur [0, 1]n.

On peut donc appliquer le théorème de convergence dominée qui nous dit que :

limε→0

∫[0,1]n

eεf(x) dµ(x) =

∫[0,1]n

dµ = 1.

Par continuité de la fonction log, on en déduit que :

limε→0

log

∫eεf(x) dµ(x) = 0.

De la même façon, avec le théorème de convergence dominée, on vérie facilement que :

limε→0

∫|∇f |2eεf dµ =

∫|∇f |2 dµ.

De plus, comme on a Eµ(f) = 0, on peut écrire :∫feεf dµ = ε

∫feεf − 1

εdµ.

On vérie que : pour tout x ∈ [0, 1]n, ε 7−→ eεf(x)−1

ε est continue en 0 de limite f(x),

∣∣∣ eεf(x)−1

ε

∣∣∣ ≤ |f(x)|e|f(x)| pour tout ε ∈ [0, a] et tout x ∈ [0, 1]n,

x 7−→ |f(x)|e|f(x)| est µ-intégrable sur [0, 1]n.Ce qui nous permet une fois encore d'appliquer le théorème de convergence dominée :

limε→0

∫f(x)

eεf(x) − 1

εdµ(x) =

∫f(x)2 dµ(x).

Enn on écrit :

log

∫eεf(x) dµ(x) = log

(1 +

∫(eεf(x) − 1) dµ(x)

)= log

(1 + ε2

∫eεf(x) − 1− εf(x)

ε2dµ(x)

),

et on vérie que :

46

Page 47: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Application : une inégalité de Poincaré

pour tout x ∈ [0, 1]n, ε 7−→ eεf(x)−1−εf(x)ε2

est continue en 0 de limite f(x)2

2 ,

∣∣∣ eεf(x)−1−εf(x)

ε2

∣∣∣ ≤ |f(x)|22 ef(x) pour tout ε ∈ [0, a], et tout x ∈ [0, 1]n,

x 7−→ |f(x)|22 ef(x) est µ-intégrable sur [0, 1]n.

En appliquant une fois de plus le théorème de convergence dominée, on a :

limε→0

log

∫eεf(x) dµ(x) =

ε2

2

∫f2(x) dµ(x).

Finalement en divisant tout par ε2 et en passant à la limite quand ε −→ 0 dans (8.33), il vient que :∫f(x)2 dµ(x) ≤ 2 ‖Γ‖

∫|∇f(x)|2 dµ(x) +

1

2

∫f(x)2 dµ(x).

Cela nous donne bien le résultat.∗ Dans le cas où f est concave, on obtient le résultat en appliquant (8.31) à εf , puis en utilisant dela même façon le théorème de convergence dominée

47

Page 48: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Mesure dérivée et application à W2

Quatrième partie

Introduction à la théorie du transport

L'objet de cette partie est d'établir et d'étudier certaines équations diérentielles sur l'espacedes mesures. Pour cela, nous avons besoin de mettre sur l'espace des probabilités, une structurepseudo-diérentiable. C'est la raison pour laquelle on introduit la notion de mesure dérivée.

9 Mesure dérivée et application à W2

Nous souhaitons généraliser la notion de dérivée de fonction à celle de dérivée de mesure.

Dénition 9.1 Soient (M,d) est un espace métrique et I un intervalle de R. On dit que u : I −→Mest absolument continue s'il existe une fonction m ∈ L1(I) telle que :

d(u(s), u(t)) ≤∫ t

sm(τ) dτ, ∀s ≤ t ∈ I. (9.34)

On admettra le résultat suivant :

Théorème 9.1 Si u : I −→ E est absolument continue, la quantité

|u′|(t) := limε→0

d(u(t+ ε), u(t))

|ε|

existe pour presque tout t ∈ I, et est appelée mesure dérivée de u. De plus la fonction t 7−→ |u′|(t)est intégrable sur I et est minimale dans la dénition de l'absolue continuité de u au sens suivant :

si m ∈ L1(I) vérie (9.34) alors :

|u′|(t) ≤ m(t) pour presque tout t ∈ I.

Regardons des résultats de cette notion sur l'espace (P2(Rd),W2). On se donne deux mesuresµ, ν ∈ P2(Rd) et γ ∈M2

0(µ, ν). et on considère la famille de mesures :

µt =((1− t)π1 + tπ2

)∗γ, ∀t ∈ [0, 1].

Si ϕ ∈ Cb(Rd), cela s'écrit : ∫Rdϕdµt =

∫Rd×Rd

ϕ((1− t)x+ ty) dγ(x, y).

On peut voir (µt)t∈[0,1] comme une géodésique qui relie µ à ν dans P2(Rd). Le lemme suivantindique que cette famille relie µ à ν à vitesse constante :

Lemme 9.1 Pour tout 0 ≤ 1 < t < 1, on a l'égalité :

W2(µs, µt) = (t− s)W2(µ, ν).

Démonstration :

Soit γs,t =((1− s)π1 + sπ2, (1− t)π1 + tπ2

)∗γ. Alors :

(π1)∗γs,t =((1− s)π1 + sπ2

)∗γ = µs

(π2)∗γs,t =((1− t)∗π1 + tπ2

)∗γ = µt.

48

Page 49: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Mesure dérivée et application à W2

Cela signie que γs,t ∈ C(µs, µt). On a alors :∫Rd×Rd

|x− y|2dγs,t(x, y) =

∫Rd×Rd

|((1− s)x+ sy)− ((1− t)x+ ty)|2dγ(x, y)

= |s− t|2∫Rd×Rd

|x− y|2dγ(x, y)

= |s− t|2W2(µ, ν).

Cela implique que W2(µs, µt) ≤ |s− t|W2(µ, ν). S'il existe s0 < t0 < 1 tels que l'inégalité est strictealors :

W2(µ, ν) ≤ W2(µ, µs0) +W2(µs0 , µt0) +W2(µt0 , µ)

< W2(µ, ν)((s0 − 0) + (t0 − s0) + (1− t0)) = W2(µ, ν).

Ce qui est absurde. Ainsi l'inégalité est en fait une égalité et le résultat en découle.

Ce lemme nous permet d'établir que, pour tout ε > 0 :

W2(µt+ε, µt)

|ε|= W2(µ, ν)

et donc que la dérivée de la mesure µt est exactement la distance de Wasserstein W2(µ, ν) :

|µ′t| = W2(µ, ν).

Remarquons que l'absolue continuité implique la continuité. Ainsi si t 7−→ µt ∈ P2(Rd) estabsolument continue sur I alors µt+ε −→ µt (au sens de W2) quand ε tend vers 0.

Proposition 9.1 Pour I intervalle ouvert de R, on considère une application t ∈ I 7−→ µt ∈P2(Rd). Si cette application est absolument continue sur I alors il existe un champs de vecteurs

mesurable V : (t, x) ∈ I × Rd 7−→ Vt(x) ∈ Rd tel que :

1. Vt ∈ L2(Rd, µt), et ‖Vt‖L2(µt)≤ |µ′t| pour presque tout t ∈ I.

2. µt vérie l'équation∂µt∂t

+∇(Vt · µt) = 0

au sens où, pour toute fonction ψ : I × Rd 7−→ R C∞ à support compact :∫I

∫Rd

∂tψ(t, x)+ < ∇xψ(t, x), Vt(x) > dµt(x)dt = 0

3. Pour presque tout t ∈ I, V ∈ ∇ψ;ψ ∈ C∞c (Rd)L2(µ)

.

Démonstration :

On peut raisonner dans I =]0, 1[ pour se xer les idées.∗ Fixons ϕ ∈ C∞c (Rd). Pour s < t ∈ I, on considère un couplage optimal γs,t ∈ M2

0(µs, µt). On agrâce à l'inégalité de Cauchy-Schwarz :

|µt(ϕ)− µs(ϕ)| =

∣∣∣∣∫Rd×Rd

(ϕ(y)− ϕ(x)) dγs,t(x, y)

∣∣∣∣≤ ‖ϕ‖Lip

∫Rd×Rd

|y − x| dγs,t(x, y) = ‖ϕ‖LipW2(µs, µt).

Comme t 7−→ µt est absolument continue sur I, il existe m ∈ L1(I) telle que pour tout s < t ∈ I :

W2(µs, µt) ≤∫ t

sm(τ)dτ.

49

Page 50: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Mesure dérivée et application à W2

Cela entraîne que t 7−→ µt(ϕ) est absolument continue sur I.∗ Considérons maintenant la fonction H dénie sur Rd × Rd par :

H(x, y) =

|∇ϕ(x)| si y = x|ϕ(x)−ϕ(y)||x−y| si y 6= x

Remarquons qu'on a toujours |ϕ(y)− ϕ(x)| = |y − x|H(x, y), pour tout x, y ∈ Rd. On écrit :

|µs+ε(ϕ)− µs(ϕ)||ε|

=1

|ε|

∣∣∣∣∫Rd×Rd

ϕ(y)− ϕ(x) dγs,s+ε(x, y)

∣∣∣∣≤ 1

|ε|

∫Rd×Rd

|ϕ(y)− ϕ(x)| dγs,s+ε(x, y)

=1

|ε|

∫Rd×Rd

|y − x|H(x, y) dγs,s+ε

≤ W2(µs, µs+ε)

|ε|

(∫RdH2(x, y) dγs,s+ε(x, y)

)1/2

,

la dernière inégalité provenant de Cauchy-Schwarz. On sait que µs+ε −→ µs au sens de W2. Celaimplique (par la proposition (4.5)) que µs+ε converge faiblement vers µs. On en déduit que γs,s+εεest tendue. Quitte à considérer une sous-suite, on peut supposer que γs,s+ε converge faiblement versune certaine mesure γs. On a donc pour M > 0, comme γs,s+ε est un couplage optimal :∫

Rd×Rd|x− y|2 ∧M dγs(x, y) = lim

ε→0

∫Rd×Rd

|x− y|2 ∧M dγs,s+ε

≤ lim infε→0

∫Rd×Rd

|x− y|2 dγs,s+ε

= limε→0

W2(µs, µt)2 = 0.

De plus M 7−→ |x− y|2 ∧M est croissante, et par le théorème de Beppo Lévy on en déduit que :∫Rd×Rd

|x− y|2 dγs(x, y) = 0.

Cela signie que la mesure γs est portée par la diagonale x = y. Mais H est bornée et continuesur la diagonale donc pour la mesure γs. Ainsi on a la convergence :

limε→0

∫Rd×Rd

H(x, y) dγs,s+ε(x, y) =

∫Rd×Rd

|H(x, y)| dγs(x, y) =

∫Rd|∇ϕ(x)| dγs(x).

On en déduit nalement que :

lim supε→0

|µs+ε(ϕ)− µs(ϕ)||ε|

≤ lim supε→0

W2(µs, µs+ε)

|ε|

(∫Rd|∇ϕ(x)|2 dµs

)1/2

= |µ′|(s) ‖∇ϕ‖L2(µs).

(9.35)∗ Nous pouvons achever la démonstration. Soit ψ ∈ C∞c (I × Rd). Par le théorème de dérivation àparamètres, on a :∫

I×Rd

∂sψ(s, x) dµs(x)ds = lim

ε→0

∫I×Rd

1

ε

(ψ(s, x)− ψ(s− ε, x)

)dµs(x)ds

= limε→0

∫I

1

ε

(∫Rdψ(s, x)dµs(x)−

∫Rdψ(s− ε, x) dµs(x)

)ds.

Mais ψ est à supporte compact, donc il existe L×K compact de I ×Rd tel que Supp(ψ) ⊂ L×K.Comme I est ouvert, on peut prendre ε > 0 de sorte que L+ ε ⊂ I. Et donc par le changement devariable s− ε 7→ s, on a :∫

L

1

ε

(∫Rdψ(s− ε, x) dµs(x)

)ds =

∫L+ε

1

ε

(∫Rdψ(s, x) dµs+ε(x)

)ds.

50

Page 51: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode itérative sur des mesures

Ainsi grâce à (9.35), on obtient :∣∣∣∣∫I×Rd

∂sψ(s, x) dµs(x)ds

∣∣∣∣ ≤ (∫I|µ′|(s) ‖∇xψ(s, .)‖L2(µs)

ds

)≤

(∫I|µ′|2(s) ds

)1/2(∫I

∫Rd|∇xψ(s, x)|2 dµs(x)ds

)1/2

.

Posons alors V = ∇ψ; ψ ∈ C∞c (I × Rd) et V sont adhérence dans L2(µ), où dµ := dµsds. Ladernière inégalité signie que l'application

L : V −→ R

∇ψ 7−→ −∫I×Rd

∂sψ(s, x) dµs(x)ds

est bien dénie. L est de plus linéaire et donc s'étend de manière unique à V (on note son pro-longement encore L). Par le théorème de Riesz-Fisher, il existe donc un élément V (., .) ∈ V telleque :

L(w) =< V,w >L2(µ) pour w ∈ V.

En particulier, pour ∇ψ ∈ V, on a :

−∫I×Rd

∂sψ(s, x) dµs(x)ds =

∫I×Rd

< V (s, x),∇xψ(s, x) > dµs(x)ds.

A savoir, en combinant la dernière inégalité obtenue et en prenant ∇xψ(s, x) = V (s, x), que :∫I‖Vt‖L2(µt)

dt ≤∫I|µ′|(t) dt.

Ceci étant vrai pour tout intervalle J ouvert dans I, on en déduit nalement que :

‖Vt‖L2(µt)≤ |µ′|(t),

pour presque tout t ∈ I

10 Méthode itérative sur des mesures

Notations : dγd(x) = 1(2π)d/2

e−|x|22 dx représente la mesure Gaussienne sur Rd. Il s'agira de notre

mesure de référence pour toute la suite. On note aussi :

K =

ρ : R2 → R+;

∫Rdρ dγd = 1; m2(ργd) < +∞

.

Et si ρ ∈ K :

S(ρ) =

∫Rdρ log ρ dγd,

Eψ(ρ) =

∫Rdψρ dγd + S(ρ) pour ψ : Rd → R+ mesurable.

Remarquons que S(ρ) est positif, et qu'il en est de même pour Eψ(ρ) (que l'on notera E(ρ)).

Proposition 10.1 Soit ψ : Rd −→ R+ mesurable. S'il existe une mesure ρ ∈ K telle que Eψ(ρ) <+∞, alors pour tout ρ(0) ∈ K, et h > 0, il existe une unique mesure ρ ∈ K qui minimise la fonction :

ρ 7−→ 1

2W 2

2 (ρ(0), ρ) + hEψ(ρ).

51

Page 52: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode itérative sur des mesures

Démonstration :

Notons m = infρ∈K12W

22 (ρ(0), ρ) + hE(ρ). Comme il existe ρ ∈ K tel que E(ρ) < +∞, la quantité

m est nie. Pour chaque n ≥ 1, il existe alors ρn ∈ K tel que :

1

2W 2

2 (ρ(0), ρn) + hE(ρn) ≤ 1

n+m. (10.36)

Cela implique en particulier que supn≥1W22 (ρ(0), ρn) < +∞. Grâce au lemme 4.1, on a :

C := supn≥1

∫Rd|x|2ρn dγd < +∞.

Soit ε > 0 xé. Pour R > 0 on a :∫Rd|x|2 dρn ≥

∫|x|>R

|x|2 dρn ≥ R2ρn(|x| > R).

Comme la quantité de gauche est uniformément bornée en n, on en déduit que pour R assez grand :

supn≥1

ρn(|x| > R) ≤ ε.

Cela signie que la suite ρnγdn≥1 est tendue : quitte à considérer une sous-suite, on peut supposerque (ρnγd)n converge faiblement vers une mesure µ.∗ Pour R > 0, on a par dénition de la convergence faible :∫

|x|2 ∧Rdµ = limn→+∞

∫(|x|2 ∧R)ρn dγd ≤ C < +∞.

Donc par Beppo Lévi, on a nalement que :

m2(µ) < +∞.

∗ (10.36) nous indique aussi que C1 := supn≥1 S(ρn) < +∞. Pour R > 1, on a :∫ρn≥R

ρn dγd ≤1

logR

∫ρn≥R

ρn log ρn dγ.

Mais min0≤x≤1(x log x) = −1e et par convexité de cette fonction, on a : x log x ≥ −1

e pour toutx ∈ R. Donc : ∫

ρn≥Rρn log ρn dγd = S(ρn)−

∫0≤ρn≤1

ρn log ρn dγd ≤ S(ρn) +1

e.

D'où nalement : ∫ρn≥R

ρn dγd ≤1

logR(C1 +

1

ε) −→ 0 quand R −→ +∞

donc limR→+∞

supn≥1

∫ρn≥R

ρn dγd = 0.

∗ On a vu que (ρnγd)n convergeait faiblement vers µ. On veut étendre cette notion de convergencequi est caractérisée sur les fonctions continues bornées, à des fonctions seulement mesurables bornées.Soit ψ : Rd −→ Rmesurable bornée par Cψ. On sait que Cc(Rd) est dense dans l'ensemble B(γd+µ) =ψ : Rd −→ R mesurable bornée. Pour δ > 0, il existe donc ϕ ∈ Cc(Rd) telle que ‖ϕ‖∞ ≤ Cψ et :∫

|ψ − ϕ| dγd < δ,

∫|ψ − ϕ| dµ < δ.

52

Page 53: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode itérative sur des mesures

Alors on a :∣∣∣∣∫ ψρn dγd −∫ψ dµ

∣∣∣∣ ≤ ∫ |ψ − ϕ|ρn dγd +

∫|ψ − ϕ| dµ+

∣∣∣∣∫ ϕρn dγd −∫ϕdµ

∣∣∣∣ . (10.37)

Seul le premier terme du membre de droite peut poser problème. Mais :∫|ψ − ϕ|ρn dγd ≤ R

∫ρn≤R

|ψ − ϕ| dγd +

∫ρn>R

|ψ − ϕ|ρn dγd

≤ Rδ + 2Cψ

∫ρn>R

ρn dγd.

En faisant δ −→ 0, puis en prenant le sup sur n et R −→ +∞, on obtient :

supn≥1

∫|ψ − ϕ|ρn dγd = 0.

Donc dans (10.37), on fait δ −→ 0, puis on prend le sup en n, et R −→ +∞, pour obtenir :∣∣∣∣∫ ψρn dγd −∫ψ dµ

∣∣∣∣ ≤ ε.On a donc ce qu'on voulait démontrer, à savoir, pour tout ψ : Rd −→ R mesurable bornée :

limn→+∞

∫ψρn dγd =

∫ψ dµ.

∗ Prenons en particulier pour E ∈ B(Rd), ψ = 1E . La précédente égalité nous dit :

ρnγd(E)→ µ(E) quand n −→ +∞.

A savoir : γd(E) = 0 ⇒ µ(E). Cela signie que µ est absolument continue par rapport à γd. Et lethéorème de Radon-Nykodym nous fournit une densité ρ : dµ = ρ · dγd. Montrons que ρ vérie bience que l'on recherche.→ On sait que m2(µ) < +∞ et donc

∫|x|2ρ dγd(x) < +∞. On en déduit que ρ ∈ K.

→ Pour n ≥ 1, on considère un couplage γn ∈ M20(ρ(0), ρn). Comme (ρnγd)n converge faiblement

vers ργd, la suite γnn est tendue : quitte à considérer une sous-suite, on peut supposer que (γn)nconverge faiblement vers une mesure η ∈M(ρ(0), ρ). Et pour R > 0, on a :∫

|x− y|2 ∧Rdη = limn→+∞

∫|x− y|2 ∧Rdγn ≤ lim inf

n

∫|x− y|2 dγn

donc W 22 (ρ(0), ρ) ≤ lim inf

n

∫|x− y|2 dγn = lim inf

nW 2

2 (ρ(0), ρn).

Par le même raisonnement, on obtient pour ψ : Rd −→ Rd mesurable bornée, que :∫ψρ dγd ≤ lim inf

n

∫ψρn dγ.

→ Soit ε > 0. Traduisons l'inégalité précédente : il existe n0 ≥ 1 tel que, pour tout n ≥ n0 on ait :∫ψρ dγd ≤ ε

∫ψρn dγd,

et donc :

1

2W 2

2 (ρ(0), ρ) + h

∫ψρ dγd + hS(ρn) ≤ 1

2W 2

2 (ρ(0), ρn) + E(ρn) + ε.

53

Page 54: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Méthode itérative sur des mesures

Par (10.36), on en déduit que :

1

2W 2

2 (ρ(0), ρ) + h

∫ψρ dγd − ε ≤ m+

1

n.

Considérons alors le sous-ensemble de K :

C =

ρ ∈ K, hS(ρ) ≤ (m+

1

n)− 1

2W 2

2 (ρ(0), ρ)− h∫ψρ dγd + ε

.

D'après ce qui précéde, ρk ∈ C pour tout k ≥ n où n ≥ n0. De plus C est clairement convexe, grâceà la convexité de x 7→ x log x. De plus on a vu que (ρn)n converge faiblement vers ρ, mais que cetteconvergence a lieu aussi sur les fonctions mesurables bornées (de L∞). Mais L∞(Rd, γd) est le dualde L1(Rd, γd), et cela signie que (ρn)n converge faiblement vers ρ dans L1. D'où ρ ∈ Cfaible. Par lethéorème de Hahn-Banach, on sait que :

Cfaible

= Cforte

.

Cela signie qu'il existe (ρq)q ⊂ C qui converge vers ρ dans L1. Quitte à considérer une sous-suite,on peut supposer que (ρq)q converge vers ρ γd−presque sûrement. Et par le lemme de Fatou on a :

S(ρ) ≤ lim infq→+∞

S(ρq).

Mais par dénition de C on a :

hS(ρ) ≤ hS(ρq) ≤ m+1

n− 1

2W 2

2 (ρ(0), ρ)− h∫ψρ dγd + ε.

En faisant n −→ +∞ et ε −→ 0, on obtient nalement :

1

2W 2

2 (ρ(0), ρ) + E(ρ) ≤ m.

Finalement ρ réalise le minimum voulu. Si ρ0 et ρ1 sont deux mesures de K qui réalisent ce minimum,alors on va montrer que ces deux mesures sont égales, grâce à des arguments de convexité. Commela fonction x 7−→ x log x est convexe, il est clair que ρ 7−→ E(ρ) est convexe. On considère ρt =(1 − t)ρ0 + tρ1 pour 0 ≤ t ≤ 1. On a ρt ∈ K pour tout t entre 0 et 1. Prenons alors des couplagesoptimaux γ1 ∈ M0(ρ(0), ρ0) et γ2 ∈ M0(ρ(0), ρ1). On voit alors que la mesure (1 − t)γ1 + tγ2

appartient àM(ρ(0), ρt) pour tout 0 ≤ t ≤ 1. On a donc si 0 < t < 1 :

W 22 (ρ(0), ρt) <

∫|x− y|2 d((1− t)γ1 + tγ2)(x, y)

= (1− t)∫|x− y|2 dγ1(x, y) + t

∫|x− y|2 dγ2(x, y) = (1− t)W 2

2 (ρ(0), ρ0) + tW 22 (ρ(0), ρ1).

E étant convexe et ρ 7−→W 22 (ρ(0), ρ) étant strictement convexe, on a alors :

1

2W 2

2 (ρ(0), ρt) + E(ρt) < (1− t)m+ tm = m,

et cela contredit que m est la borne inférieure. On en déduit que le minimum atteint est unique.Cela prouve le théorème

Partant de ρ(0) ∈ K, on a construit une unique mesure ρ(1) ∈ K qui réalise le minimum de lafonction

ρ 7−→ 1

2W 2

2 (ρ(0), ρ) + hE(ρ).

Partant maintenant de ρ(1), on peut de même construire un ρ(2)... Ainsi de suite, et on nit parobtenir une suite de mesures (ρ(n))n dans K. Cette méthode d'itérations est en fait un outil trèspuissant pour résoudre des fonctions aux dérivées partielles, comme celle de Fokker-Plank :

∂tu−∇(∇u+ u∇V ) = 0.

54

Page 55: Méthodes de Couplage et Applications Mémoire de Master 2 ...

Théorème de convergence Lp

Appendices

A Théorème de convergence Lp

Lemme A.1 Soit p ∈ N∗. On considère une suite de variables aléatoires (Xn)n admettant des

moments d'ordre p, toutes dénies sur (Ω,F ,P) et X dénie sur (Ω,F ,P). On a équivalence entre :

1. La suite (Xn)n converge dans Lp vers X.

2. La suite (|Xn|p)n est uniformément intégrable et (Xn)n converge en probabilité vers X.

Remarquons tout d'abord, que grâce à la croissance de la fonction x 7−→ xp sur R et la convexitésur R+, on a pour tout a, b, c ∈ R :

|a− b|p ≤ 2p−1(|a− c|p + |c− b|p). (A.38)

Démonstration :

1.⇒ 2. Par dénition on a limn→+∞ E(|Xn−X|p) = 0. L'inégalité de Minkowski, nous dit que pourn,m ≥ 1, on a :

‖Xn −Xm‖p ≤ ‖Xn −X‖p + ‖X −Xm‖p .

Cela signie que (Xn)n est de Cauchy dans Lp. Soit N ≥ 1 tel que, pour n,m ≥ N : E(|Xn−Xm|p) ≤ε/2p. Par l'inégalité (A.38), on a pour A ∈ F et n ≥ N :∫

A|Xn|p dP ≤ 2p−1

(∫A|XN |p dP +

∫A|Xn −XN |p dP

)≤ 2p−1

∫A|XN |p dP +

ε

2.

Et donc en prenant le sup sur n, on a pour tout A ∈ F :

supn≥1

∫A|Xn|p dP ≤ sup

n≤N

∫A|Xn|p dP + 2p−1

∫A|XN |p dP + εε2.

On en déduit que |Xn|pn≥1 est bornée dans L1 et donc uniformément intégrable dans L1. Parl'inégalité de Markov, on a pour ε > 0, et n,m ≥ 1 :

P (|Xn −Xm| > ε) ≤ 1

εpE(|Xn −Xm|p).

Et donc la suite (Xn)n est de Cauchy en probabilité et converge donc en probabilité vers X.2.⇒ 1. Soit ε > 0. Il découle de l'inégalité (A.38) que :

E|Xn −X|p ≤∫|Xn−X|≤ε1/p

|Xn −X|2 dP + 2p−1

∫|Xn−X|>ε1/p

(|Xn|p + |X|p) dP

≤ ε+ 2p−1

(∫|Xn−X|>ε1/p

|Xn|p dP +

∫|Xn−X|>ε1/p

|X|p dP

).

La famille |Xn|p, n ≥ 1; |X|p étant équi-continue, il existe η > 0 tel que si P (A) ≤ η alors :

supn≥1

∫A|Xn|p dP +

∫A|X|p dP ≤ ε

2p−1.

Et par hypothèse, (Xn)n converge en probabilité vers X donc il existe N ≥ 1, tel que pour toutn ≥ N :

P (|Xn −X| > ε1/p) ≤ η.

On en déduit nalement que :lim supn→+∞

E|Xn −X|p ≤ 2ε.

Ceci étant vrai pour tout ε > 0, il en résulte que (Xn)n converge dans Lp vers X.

55

Page 56: Méthodes de Couplage et Applications Mémoire de Master 2 ...

RÉFÉRENCES RÉFÉRENCES

Références

[1] G. Savare L. Ambrosio, N. Gigli. Gradient Flows in Metric Spaces and in the Space of Probability

Measures. 2008.

[2] P-M. Samson. Concentration of measure inequalities for markov chains and φ-mixing processes.The Annals of Probability, 2000.

[3] A.D. Barbour and Louis H.Y. Chen. An introduction to Stein's Method.

[4] S. Fang. Wasserstein space and fokker planck equation. 2007.

[5] Franck et Patrick Gabriel. Notes sur les couplages discrets, exemples avec la loi de poisson.

[6] T. Lindvall. Lectures on the Coupling Method. Wiley-Interscience, 1992.

56