Introduction a la statistique - unilim.fr
Transcript of Introduction a la statistique - unilim.fr
Introduction a la statistique
F. J. SilvaUniversite de Limoges
Email : [email protected]
Septembre 2016
Table des matieres
— Cours 1 : Statistiques descriptives univariees.
— Cours 2 : Statistiques descriptives bivariees.
— Cours 3 : Rappels de probabilites et variables aleatoires discretes.
— Cours 4 : Variables aleatoires continues.
— Cours 5 : Estimation et intervalles de confiance.
— Cours 6 : Tests d’hypothese.
— Cours 7 : Tests χ2.
1
A savoir
— Les documents du cours seront disponibles sur l’espace pedagogiquedisponible sur l’ENT de l’universite.
— Un modele de machine a calculer est impose aux examens : HP10Sou HP10S+.
— Pour l’examen une feuille A4 (recto-verso) avec un formulaire ou unresume de cours est autorisee.
2
Ch. 1 : Statistiques descriptives univariees
But : La statistique descriptive a pour but d’etudier une population a partir
de donnees. Cette description se fait a travers la presentation des donnees (la
plus synthetique possible), leur representation graphique et le calcul d’indicateurs
numeriques.
Quelques definitions :
— L’ensemble sur lequel porte l’activite statistique s’appelle la population,
generalement notee par Ω. N est le nombre d’elements de la population.
— Quelquefois si N est trop grand on prend un echantillon, c’est a dire un
sous-ensemble de Ω note par S preleve soit de facon aleatoire soit de facon
non aleatoire, et on etudiera les indicateurs numeriques sur S.La taille de
l’echantillon est note par n.
— Les elements qui constituent la population (ou l’echantillon) sont appeles les
individus.
3
— Un caractere (appele aussi variable) est une caracteristique que possede chacun
des individus de la population. Mathematiquement, il s’agıt d’une application
X : Ω→ C ou C est “l’ensemble des valeurs possibles du caractere”.
Exemple 1. Le personnel d’une entreprise peut etre decrit selon divers ca-
racteres : age, sexe, qualification, anciennete dans l’entreprise, commune
de residence, etc.
— Si x ∈ C on dit que x est une modalite.
— Le caractere peut etre quantitatif (ex. le poids d’un individu) ou qualitatif (ex.
le sexe).
— Lorsque le caractere est quantitatif, on parle de variable statistique.
— Si le caractere est quantitatif et C est discret (c.a.d. identifiable a une partie
de N) on dit que le caractere est discret. Autrement, on dit que le caractere
4
est continue. Quelquefois : continu est une approximation d’un tres grand
nombre de valeurs possibles (ex. le revenu annuel exprime en e).
Exemple 2. Pendant un ete un jardinier a ramasse des haricots (la population)
de quatre especes differentes. Il a releve pour chacun des haricots les caracteres
suivants : masse, taille, nombre de graines, la masse seche et l’espece.
Soit X un caractere de modalites x1, . . . , xp. On suppose que
x1 ≤ . . . ≤ xp.
— L’effectif de la modalite xi ∈ C du caractere X est le nombre ni de fois que
la valeur xi est prise.
— La frequence de xi est egale a fi = ni/N . La frequence est parfois multipliee
par 100, de facon a representer un pourcentage.
— L’effectif cumule jusqu’a xi est egal a la somme∑i
j=1 nj.
5
— La frequence du caractereX cumulee jusqu’a la valeur xi est egale a∑i
j=1 fj.
— La serie statistique (xi, ni)i=1,...,p ou (xi, fi)i=1,...,p est appelee distribution
statistique.
6
1
df1.xls
masse taille graines masse_sec espece28,6 19,1 4 9,3 "glycine blanche"20,6 14,8 3 7,7 "glycine blanche"29,2 19,7 5 10,4 "glycine blanche"
32 21,1 7 11,5 "glycine blanche"24,5 19,4 4 8,4 "glycine blanche"
29 19,5 4 10,3 "glycine blanche"28,9 18,9 4 10,1 "glycine blanche"18,2 14,6 2 6,3 "glycine blanche"7,9 10,2 1 2,7 "glycine blanche"
15,5 14,6 2 5,5 "glycine blanche"22,6 16,4 2 8,3 "glycine blanche"35,5 21,1 6 13,1 "glycine blanche"32,5 20,7 5 11,4 "glycine blanche"28,7 18,7 5 10,5 "glycine blanche"
26 17,6 3 9,5 "glycine blanche"13,5 13,2 2 4,7 "glycine blanche"16,4 14 2 6 "glycine blanche"12,5 12 3 4,3 "glycine blanche"26,2 18,3 5 9,1 "glycine blanche"22,6 17,8 2 8,2 "glycine blanche"9,7 10,7 1 3,3 "glycine blanche"
21,8 16,5 3 7,2 "glycine blanche"17,2 14,5 3 5,9 "glycine blanche"25,2 17,5 4 9,1 "glycine blanche"
12 12,2 2 4,2 "glycine blanche"6,3 8,6 1 2,2 "glycine blanche"
7 9,1 1 2,5 "glycine blanche"20,4 17 4 7,1 "glycine blanche"
18 15,3 3 6,3 "glycine blanche"21,1 15,8 4 7,3 "glycine blanche"18,2 15,9 2 5,8 "glycine blanche"15,2 12,2 3 5,2 "glycine blanche"19,8 16,1 4 6,6 "glycine blanche"21,4 16 3 7,5 "glycine blanche"
15 13,8 1 5,1 "glycine blanche"16,4 14,4 2 5,3 "glycine blanche"17,3 14,2 5 5,9 "glycine blanche"16,4 15,7 2 6,1 "glycine blanche"13,5 12,6 2 4,8 "glycine blanche"13,6 12 3 4,5 "glycine blanche"14,6 12,8 4 4,6 "glycine blanche"16,9 15,3 3 5,9 "glycine blanche"11,7 12,4 2 4,1 "glycine blanche"
14 14,5 2 5 "glycine blanche"14,6 12,3 2 5,3 "glycine blanche"10,3 11,8 2 3,8 "glycine blanche"11,3 12,6 2 4 "glycine blanche"10,7 11,3 2 3,9 "glycine blanche"10,9 Ω 3 3,6 "glycine blanche"
20 16,1 4 7,2 "glycine blanche"21,5 16,2 2 7,7 "glycine blanche"
12 11,3 2 4,3 "glycine blanche"6,1 8,6 1 2,2 "glycine blanche"5,4 8,2 1 2,1 "glycine blanche"40 24,5 7 17,4 "glycine violette"
49,2 27 7 16,2 "glycine violette"46 25,8 5 13,9 "glycine violette"
26,4 18,7 3 8,3 "glycine violette"42,2 25,2 5 15,5 "glycine violette"48,4 25,8 4 16,2 "glycine violette"23,9 19,2 4 8 "glycine violette"31,7 21,4 5 10,9 "glycine violette"
2
df1.xls
masse taille graines masse_sec espece16,8 12 4 5,3 "glycine violette"21,6 14 5 7,2 "glycine violette"24,1 18,5 3 8,1 "glycine violette"13,5 12,8 3 4,5 "glycine violette"22,4 13,8 3 7,5 "glycine violette"26,1 17,3 6 8,8 "glycine violette"12,9 12,4 3 4,6 "glycine violette"26,6 20 5 8,9 "glycine violette"29,6 20,5 3 9,7 "glycine violette"22,4 18,2 3 7 "glycine violette"17,3 13,3 3 5,8 "glycine violette"16,6 13,5 4 5,6 "glycine violette"12,8 12 2 4,5 "glycine violette"19,1 14,5 3 6,7 "glycine violette"12,4 11,6 2 4,3 "glycine violette"8,8 9,2 2 3,3 "glycine violette"
13,2 15,1 3 4,1 "glycine violette"15,9 12,2 3 5,3 "glycine violette"13,3 11,2 2 5 "glycine violette"6,3 8,4 1 2,3 "glycine violette"
12,9 11,5 2 4,5 "glycine violette"6,2 7,8 1 2,2 "glycine violette"8,6 9,8 2 3 "glycine violette"
14,4 11,6 2 5,1 "glycine violette"11,5 9,8 2 4 "glycine violette"11,5 11 2 3,9 "glycine violette"12,8 10,6 2 5 "glycine violette"11,7 11,1 2 4,2 "glycine violette"15,7 14 3 6,1 "glycine violette"
12 11,4 2 4,3 "glycine violette"13,4 11,1 2 4,2 "glycine violette"11,3 10,7 2 3,7 "glycine violette"6,6 7,9 1 2,5 "glycine violette"
17,8 13,7 4 6,3 "glycine violette"9,6 10 2 3,2 "glycine violette"
14,3 12,8 3 5,3 "glycine violette"14 12,2 2 5,2 "glycine violette"
11,3 11,4 3 4,2 "glycine violette"10,2 10,2 3 3,8 "glycine violette"12,2 10,8 3 4,7 "glycine violette"15,9 13 4 5,5 "glycine violette"11,7 10,3 2 4,5 "glycine violette"12,4 11 2 4,1 "glycine violette"11,5 11,4 2 4,5 "glycine violette"10,6 10,5 2 4 "glycine violette"9,4 9,2 2 3,3 "glycine violette"9,2 9,9 2 3,5 "glycine violette"6,1 8,4 1 2,5 "glycine violette"
10,9 12,8 NA 3 "bignone"6,6 10,5 NA 1,1 "bignone"
22,5 18 NA 3,4 "bignone"33,7 21,5 NA 6,6 "bignone"20,6 17,8 NA 3,5 "bignone"16,6 16,3 NA 4,3 "bignone"14,2 17,4 NA 2,1 "bignone"13,8 15,7 NA 2,1 "bignone"
14 17,3 NA 2,4 "bignone"8,7 13,4 NA 2,2 "bignone"
14,2 13,9 NA 3,2 "bignone"10,6 14,6 NA 1,7 "bignone"10,9 14,2 NA 1,6 "bignone"3,3 8,9 NA 0,5 "bignone"
3
df1.xls
masse taille graines masse_sec espece9,3 12,2 NA 1,9 "bignone"
17,2 16,5 NA 2,4 "bignone"10,1 14,7 NA 2,3 "bignone"
9 13,4 NA 2,9 "bignone"7,1 11,6 NA 1,5 "bignone"7,1 12,9 NA 1,6 "bignone"1,5 6,5 NA 0,2 "bignone"4,1 9,5 NA 1,4 "bignone"
8 11,8 NA 2,2 "bignone"7,4 13,6 NA 1,9 "bignone"7,2 12,9 NA 1,1 "bignone"6,9 11,6 NA 1,3 "bignone"2,9 9,4 NA 0,8 "bignone"2,4 9,5 NA 1,1 "bignone"
10,7 14 NA 2,3 "bignone"13,8 13,5 NA 3,5 "bignone"10,9 12,1 NA 1,7 "bignone"10,3 11,6 NA 2 "bignone"8,8 13,4 NA 1,7 "bignone"
9 10,9 NA 2,5 "bignone"8,2 12,2 NA 1,7 "bignone"9,6 13,4 NA 1,2 "bignone"
9 12,5 NA 1,7 "bignone"5,3 10,5 NA 0,9 "bignone"1,5 7 NA 0,7 "bignone"6,7 13,2 NA 1,1 "bignone"2,9 9,3 NA 0,6 "bignone"2,9 7,9 NA 1 "bignone"3,5 10,3 NA 1,2 "bignone"3,4 7,5 NA 1,1 "bignone"4,9 8,5 NA 1,5 "bignone"4,7 10,1 NA 1,2 "bignone"4,7 8,3 NA 1,3 "bignone"5,2 10,8 NA 0,9 "bignone"2,1 8,3 NA 0,5 "bignone"2,2 7,1 NA 0,5 "bignone"1,4 6,4 NA 0,6 "bignone"2,7 6,5 NA 0,4 "bignone"
1 4,8 NA 0,4 "bignone"2,5 7,4 NA 0,8 "bignone"5,5 9,3 NA 0,9 "bignone"2,7 8,6 NA 0,9 "bignone"6,7 9,9 NA 2 "bignone"7,3 13,9 NA 1,1 "bignone"2,9 8,7 NA 1,3 "bignone"3,8 9,3 NA 1 "bignone"7,6 13,7 NA 2,6 "bignone"3,6 8,3 NA 1,5 "bignone"
3 8,1 NA 1 "bignone"5,8 11,2 NA 2 "bignone"5,3 12 NA 1,1 "bignone"3,2 11,3 NA 1,5 "bignone"4,4 6,7 NA 1,5 "bignone"3,4 10,6 NA 1,4 "bignone"2,9 8,9 NA 0,9 "bignone"4,9 15,3 NA 1,2 "laurier rose"6,2 15,9 NA 1,1 "laurier rose"
4 15 NA 0,7 "laurier rose"3,3 11 NA NA "laurier rose"4,8 15,1 NA 0,8 "laurier rose"5,6 15,6 NA 1 "laurier rose"
4
df1.xls
masse taille graines masse_sec espece3,9 12,6 NA 1,1 "laurier rose"5,8 16,8 NA 0,9 "laurier rose"4,7 13,6 NA 1 "laurier rose"
6 15,1 NA 1,5 "laurier rose"6,5 16,7 NA 1,7 "laurier rose"
5 15,3 NA 1 "laurier rose"5,5 17,1 NA 1,3 "laurier rose"4,7 14,6 NA 1 "laurier rose"5,7 15 NA 1,5 "laurier rose"3,6 10,4 NA 1,1 "laurier rose"5,4 16,5 NA 1,3 "laurier rose"5,3 16,6 NA 1,1 "laurier rose"
5 15,9 NA 1 "laurier rose"4,5 14,4 NA 1 "laurier rose"4,4 16,2 NA 1,1 "laurier rose"4,8 15,2 NA 0,8 "laurier rose"4,5 15,8 NA 0,8 "laurier rose"3,2 11 NA 0,6 "laurier rose"4,7 14,1 NA 0,8 "laurier rose"
4 13,7 NA 0,8 "laurier rose"5,8 15,4 NA 1,5 "laurier rose"5,5 15,3 NA 1,3 "laurier rose"4,4 13,5 NA 0,7 "laurier rose"3,5 12 NA 1,1 "laurier rose"4,4 14,7 NA 0,9 "laurier rose"4,3 15,5 NA 1,2 "laurier rose"4,1 12,9 NA 1,5 "laurier rose"5,3 15 NA 1,6 "laurier rose"4,7 15,8 NA 0,9 "laurier rose"5,3 13,8 NA NA "laurier rose"4,7 12,8 NA 1,2 "laurier rose"4,9 16 NA 1,6 "laurier rose"4,1 12 NA 0,6 "laurier rose"4,6 14,3 NA 0,7 "laurier rose"4,8 14,5 NA 0,9 "laurier rose"3,4 11,4 NA 1,1 "laurier rose"3,4 13,3 NA 0,6 "laurier rose"5,8 15,5 NA 1,1 "laurier rose"4,8 15,1 NA 1 "laurier rose"3,9 12,8 NA 0,8 "laurier rose"3,4 12,7 NA 0,8 "laurier rose"4,5 15,7 NA 0,9 "laurier rose"3,3 13,2 NA 0,5 "laurier rose"3,3 13,4 NA 0,5 "laurier rose"3,6 13,8 NA 0,6 "laurier rose"3,5 11,2 NA 0,6 "laurier rose"3,8 11,4 NA 1,1 "laurier rose"3,2 11,1 NA 1 "laurier rose"3,8 14,4 NA 0,7 "laurier rose"5,3 13,4 NA 1,6 "laurier rose"5,8 14,7 NA 1,7 "laurier rose"4,6 14,9 NA 0,9 "laurier rose"3,2 10,5 NA 1,1 "laurier rose"4,3 14,6 NA 0,8 "laurier rose"2,7 11,3 NA 0,5 "laurier rose"2,6 9,1 NA 0,4 "laurier rose"2,4 9 NA NA "laurier rose"2,6 9,4 NA 0,9 "laurier rose"3,2 12,1 NA 0,6 "laurier rose"6,4 16,1 NA 1,8 "laurier rose"3,4 13,2 NA 1,2 "laurier rose"
Dans l’exemple les frequences du nombre de grains sont
> freq_table_grains
1 2 3 4 5 6 7 0.1000 0.3727 0.2455 0.1455 0.0909 0.0182 0.0273 >
et les frequences du nombre de grains cumulees sont
> freq_table_grainscum 1 2 3 4 5 6 7 0.100 0.473 0.718 0.864 0.955 0.973 1.000 >
Soit X un caractere continu ou discret qui peut prendre un grand nombre de valeurs.
Pour simplifier le traitement des donnes on separe les donnes en p classes donnees par des
intervalles ]ai, ai+1] (i = 1, . . . p) ou a1 peut etre egal a −∞ et ap+1 peut etre egal a
+∞.
a1 < a2 < . . . < ap−1 < ap+1.
8
— Souvent les classes sont choisies de meme amplitude, sauf eventuellement les deux
extremes.
— On identifiera toutes les modalites x ∈]ai, ai+1] avec la modalite ci := (ai +
ai+1)/2.
— L’effectif de la classe ]ai, ai+1] est le nombre ni de valeurs prises dans ]ai, ai+1].
— L’effective cumule en ai est le nombre des valeurs prises dans l’intervalle ]−∞, ai].— La frequence de ]ai, ai+1] est egal au rapport fi = ni/N .
— La frequence cumulee en ai est egal a∑i
j=1 fj. Remarquez que si i = p alors la
frequence cumulee est egale a 1.
— La serie statistique (]ai, ai+1], ni)i=1,...,p ou (]ai, ai+1], fi)i=1,...,p est appelee
distribution statistique groupee.
Remarque 1. Comment choisit-on le nombre de classes ? Le nombre de classes et la
longueur de l’intervalle sont a determiner de telle sorte que la distribution ait une allure
aussi reguliere que possible, sans pour autant dissimuler les caracteristiques essentielles.
Il existent des regles empiriques pour determiner p. Par exemple, la regle de Sturge dit
que p ∼ log2N + 1.
9
[Quelques representations graphiques d’une serie statistique]
— Pour une distribution statistique discrete, le diagramme en batons des effectifs
(resp. des frequences) est constitue d’une suite de segments verticaux d’abscisses
xi dont la longueur est proportionnelle a l’effectif (resp. la frequence) de xi.
Voici le diagramme en batons des effectifs du nombre de graines
010
2030
40
Nombre de graines
Effectif
1 2 3 4 5 6 7
10
— Le polygone des effectifs (resp. des frequences) est obtenu a partir du diagramme
en batons des effectifs (resp. des frequences) en joignant par un segment les
sommets de batons.
— Le diagramme circulaire ou encore appele couramment diagramme “en camembert”
represente les frequences de modalites proportionnelles aux angles au centre.
1graine
2 graines
3 graines
4 graines
5 graines
6 graines
7graines
— L’histogramme consiste a representer les frequences des classes par des rectangles
contigus dont la surface (et non la hauteur) represente la frequence. La longueur
11
de la base du rectangle Ai, associe a la classe ]ai, ai+1], est egale a ai+1 − ai.La hauteur du rectangle Ai est egale a hi = fi/(ai+1 − ai).
Histogram of Mesures$masse
Mesures$masse
Frequency
0 10 20 30 40 50
020
4060
80
— Le polygone des effectifs ou des frequences d’une distribution statistique groupe
est obtenu en joignant dans l’histogramme de cette distribution les milieux des
cotes horizontaux superieurs.
12
Polygone des effectifs des masses
Masse
Effectif
0 10 20 30 40 50
020
4060
80
Polygone des effectifs cumules des masses
Masse
Effectif
050
100
150
200
250
— Le polygone des frequences cumulees d’une distribution statistique groupee est la
13
representation graphique de la fonction definie par
F (x) =
i−1∑j=1
fj +x− aiai+1 − ai
fi if x ∈]ai, ai+1].
Le polygone des effectifs cumulees est la representation graphique de la fonction
N × F (x).
[Mesures de tendance centrale] Soit X un caractere quantitatif et
(xi, ni)i=1,...,p une serie statistique ou n = n1 + . . . + np est la taille de
l’echantillon preleve (si on considere toute la population alorsN = n1+. . .+np).
— [Mode] On appelle mode, ou dominante, toute valeur correspondant a l’effectif
maximal. La distribution est unimodale si elle a un seul mode. Si elle en a
plusieurs elle est plurimodale (bimodale,trimodale,...).
14
Exemple 3. Voici les poids en Kg de 15 vaches
425, 489, 505, 398, 478, 489, 500, 401, 490, 399, 415, 504, 433, 351, 451.
Ici, le mode est 489 qui apparait deux fois. Si on ajoute la donnee 504
alors il y aura 2 modes et la distribution sera bimodale.
— [Moyenne arithmetique] Pour une distribution statistique discrete qui comprend
toute la population, la moyenne arithmetique µX du caractere X est definie
par
µX :=1
N
p∑i=1
nixi =
p∑i=1
fixi.
Pour une distribution continue groupee on remplace xi par ci = (ai+ai+1)/2
et ni correspond a l’effectif de la classe ]ai, ai+1]
Pour un echantillon S moyenne arithmetique x de la serie statistique est le
nombre
x :=1
n
p∑i=1
nixi =
p∑i=1
fixi.
15
Exemple 4. La moyenne arithmetique dans l’exemple precedent est
425 + 489 + . . .+ 351 + 451
15= 448.53333.
— [Mediane] On ordonne les n valeurs de la serie statistique par ordre croissant.
La mediane, notee Me, est la donnee centrale de la serie.
— Si n est impair, la mediane est la valeur de rang n+12 .
— Si n est pair, la mediane est le milieu de l’intervalle correspondant aux
rangs n2 et n
2 + 1.
Exemple 5. La mediane des donnees
1, 3, 5, 7, 9, 10, 13,
est 7 et la mediane des donnees
1, 3, 5, 7, 9, 10, 13, 15
est (7 + 9)/2 = 8.
16
Remarque 2. (i) Que le nombre des donnees soit pair ou impair, le nombre
d’observation en-dessous de la mediane est egal au nombre d’observations
au dessus de la mediane.
(ii) Contrairement a la moyenne arithmetique, la mediane n’est pas affectee
par la presence de valeurs atypiques. Dans l’exemple precedent la moyenne
arithmetique est
1 + 3 + 5 + 7 + 9 + 10 + 13 + 15
8= 7.875.
Si on remplace la derniere valeur 15 par 315 la mediane reste inchangee
alors que la moyenne arithmetique est maintenant egale a 45.375.
[Mesures de dispersion]
— [Etendue] L’etendue est la difference entre la plus grande donnee et la plus
petite donnee.
Exemple 6. Considerons la serie
18, 13, 11, 22, 1, 4, 6, 17, 8.
17
L’etendue est egale a 22− 1=21.
— [Variance, variance empirique et variance corrigee] Pour une distribution sta-
tistique discrete ou continue, non groupee, qui comprend toute la population,
la variance σ2X
σ2X :=
1
N
p∑i=1
ni(xi − µX)2
=
p∑i=1
fi(xi − µX)2.
Pour un echantillon S, la variance empirique s2X de la serie statistique et
definie par le nombre non-negatif
s2X :=
1
n
p∑i=1
ni(xi − x)2
=
p∑i=1
fi(xi − x)2,
c.a.d. s2X est la moyenne de la serie statistique (xi − x)2. Remarquons que
s2X = 1
n
∑pi=1 ni(xi − x)2 = 1
n
∑pi=1 ni[x
2i − 2xxi + x2]
= 1n
∑pi=1 nix
2i − 2x2 + x2,
18
d’ou
s2X =
1
n
p∑i=1
nix2i − x
2,
c.a.d. s2X est la moyenne de la serie statistique x2
i moins la moyenne des xiau carre.
La variance corrigee, notee s2X se calcule par
s2X =
n
n− 1s
2X.
Lorsque la serie comprend toute la population, on utilise σ(X)2. Si par contre
les modalites sont mesurees sur un echantillon, comme c’est souvent le cas,
alors on utilise plutot s2X .
— [Ecart type, ecart type empirique et ecart type corrige] Pour une distribution
statistique qui comprend toute la population, l’ecart type σX est definie par
σX =√σ2X.
19
On appelle ecart type empirique (resp. corrige) de la serie le nombre
sX =√s2X (resp. sX =
√s2X)
Exemple 7. On considere les series statistiques des notes de deux groupes
d’eleves :
• Groupe A : 10, 5, 7.5, 7.75, 12.5, 13, 11.25, 8.5, 10, 10.75,
11, 9.75, 9, 8.5, 12.75, 14.
• Groupe B : 5.5, 6, 11, 16.5, 7.5, 15.5, 13.75, 14, 6, 5, 9.5,
10.25, 12, 12.75, 7, 9.Pour chaque groupe, calculer la moyenne, la variance et l’ecart type desnotes.
Solution : On note par A (resp. B) les caractere correspondant aux notes du groupe A(resp. B).
µA = 10.078, σ2A = 5.232 σA = 2.287,
µB = 10.078, σ2B = 13.052 σB = 3.613.
— [Les percentiles ou quartiles] Le pieme percentile ou quartile d’un jeu de
donnees presente en ordre croissant est la valeur telle qu’au plus p% des
20
valeurs sont en-dessous d’elle et au plus (100− p)% sont au-dessus.
Les percentiles les plus utilises sont le 25ieme, le 50ieme et le 75ieme appeles
respectivement le premier quartile Q1, la mediane Q2 et le troisieme quartile
Q3.
L’etendue interquartile EIQ est defini comme
EIQ = Q3 −Q1.
[Une autre representation graphique : La boıte a moustaches] La boıte a mous-
taches est un moyen rapide de representer l’allure generale d’une serie statistique
quantitative. Sur elle, on verra apparaıtre la mediane, le premier et troisieme
quartile, l’etendue interquartile ainsi, s’il y en a, des valeurs atypiques par rapport
au reste de la distribution. Sur cette representation graphique on voit apparaıtre
— Une echelle des valeurs presente sur l’axe vertical.
— Q1 qui est le trait inferieur de la boıte. Q1 est en position (n+ 1)/4 si cette
valeur est entiere, sinon on calculera le quartile par interpolation.
— Q3 qui est le trait superieur de la boıte. Q3 est en position 3(n + 1)/4 si
cette valeur est entiere, sinon on calculera le quartile par interpolation.
21
— La mediane Q2, representee par un trait horizontal au sein de la boıte.
— Les moustaches inferieure et superieure. Souvent la limite superieure de la
moustache est calculee comme la valeur de la serie en-dessous de p1 :=
Q3 + 1.5 × (Q3 − Q1) et la limite inferieure est calculee comme la valeur
de la serie en-dessus Q1 − 1.5× (Q3 −Q1).
— Les valeurs atypiques.
22
010
2030
4050
Bo..te .. moustaches de la variable masseBoite a moustaches de la variable masse
23
Ch. 2 : Statistiques a deux dimensions
Soient X et Y deux caracteres sur une population d’effectif N (ou sur un
echantillon de S de taille n). Soit p le nombre de modalites (x1, . . . , xp) prises
par X (ordonnees dans l’ordre croissant) et q le nombre de modalites (y1, . . . , yq)
prises par Y (ordonnees dans l’ordre croissant). Le deux variables etudiees pour-
raient etre qualitatives ou quantitatives. Si on a une variable quantitative continue
on suppose que les donnees sont regroupees en classes.
— On definit l’effectif du couple (xi, yj) comme le nombre nij des donnees tel
que X = xi et Y = yj.
— L’effectif marginal de xi (resp. de yj) est egal au nombre ni· =∑q
j=1 nij(resp. n·j =
∑pi=1 nij)
— Le tableau de contingence
24
Table 1: Tableau de contingence
X/Y y1 . . . yj . . . yq Total
x1 n11 . . . n1j . . . n1q n1·...
......
......
......
xi ni1 . . . nij . . . niq ni·...
......
......
......
xp np1 . . . npj . . . npq np·Total n·1 . . . n·j . . . n·q N
represente la distribution conjointe du caracteres X,Y .
— On definit la frequence du couple (xi, yj) comme fij := ni,j/N .
— La frequence marginale de xi (resp. de yj) est egale au nombre fi· =∑qj=1 fij (resp. f·j =
∑pi=1 fij).
Le definitions precedentes s’appliquent aussi pour un echantillon de taille n. Il
suffit de remplacer N par n.
Remarque 3. Dans ce chapitre, on se limitera au cas ou X et Y sont variables
quantitatives et discretes (ou continues apres regroupement en classes).
25
[Mesures de tendance centrale, de dispersion et de correlation] Un couple de
nombres (xi, yj) peut toujours etre represente comme un point dans un plan.
Exemple 8. On mesure le poids Y et la taille X de 20 individus.
54 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE
Exemple 3.1 On mesure le poids Y et la taille X de 20 individus.
yi xi yi xi
60 155 75 18061 162 76 17564 157 78 17367 170 80 17568 164 85 17969 162 90 17570 169 96 18070 170 96 18572 178 98 18973 173 101 187
155 160 165 170 175 180 185 190
6070
8090
100
taille
poids
Figure 3.1 – Le nuage de points
En langage R
# nuage de points
poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101)
taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189,187)
plot(taille,poids)
155 160 165 170 175 180 185 190
6070
8090
100
taille
poids
26
— Les moyennes marginales sur un echantillon de X et Y de taille n sont
definies par
x :=1
n
p∑i=1
ni·xi =
p∑i=1
fi·xi, y :=1
n
q∑i=1
n·jyj =
q∑j=1
f·jyj.
— Les variances marginales de X et Y sont definies par
s2X := 1
n
∑pi=1 ni·(xi − x)2 = 1
n
∑pi=1 ni·x
2i − x2,
=∑p
i=1 fi·x2i − x2.
s2Y := 1
n
∑qj=1 n·j(yj − y)2 = 1
n
∑qj=1 n·jy
2j − y2,
=∑q
j=1 f·jy2i − y2.
27
— La covariance entre X et Y est definie comme
sXY := 1n
∑pi=1
∑qj=1 nij(xi − x)(yj − y),
:= 1n
∑pi=1
∑qj=1 nijxiyj − xy,
:=∑p
i=1
∑qj=1 fijxiyj − xy
En effet 1,
1n
∑pi=1
∑qj=1 nij(xi − x)(yj − y)
= 1n
∑pi=1
∑qj=1 nij(xiyj − xiy − xyj + xy)
= xy 1n
∑pi=1
∑qj=1 nij + 1
n
∑pi=1
∑qj=1 nijxiyj
−y 1n
∑pi=1
∑qj=1 nijxi − x1
n
∑pi=1
∑qj=1 nijyj
= 1n
∑pi=1
∑qj=1 nijxiyj + xy − 2xy,
= 1n
∑pi=1
∑qj=1 nijxiyj − xy.
1. lecture optionnelle
28
On a utilise
y 1n
∑pi=1
∑qj=1 nijxi = y 1
n
∑pi=1 xi
∑qj=1 nij = y 1
n
∑pi=1 xini· = xy
x1n
∑pi=1
∑qj=1 nijyj = x1
n
∑qj=1
∑pi=1 nijyj = x1
n
∑qj=1 yj
∑pi=1 nij
= x1n
∑qj=1 yjn·j = xy.
— Le coefficient de correlation de X et de Y est defini par :
rXY =sXY
sXsY.
On a les proprietes suivantes :
— −1 ≤ r ≤ 1.
— (xi, yj), avec i = 1, . . . , p et j = 1, . . . , q, est une droite si et
seulement si r = 1 (cas de pente positive) ou r = −1 (cas de pente
negative).
— Si le coefficient de correlation est nul ou proche de zero, il n’y a
pas de dependance lineaire. On peut cependant avoir une dependance
non-lineaire.
29
Exemple 9. Dans une population de 1000 familles, on observe simultanement
le nombre X de pieces principales du logement et le nombre Y d’enfants. On
obtient le tableau suivant :
Y 0 1 2 3 4
X
1 10 5 2 0 0
2 40 60 40 3 0
3 30 70 100 50 8
4 15 55 145 100 22
5 3 25 95 25 20
6 2 10 30 22 13
1. Determiner les distributions marginales de X et Y .Reponse : Les effectifs sont donnes par
n1· = 17, n2· = 143, n3· = 258 n4· = 337, n5· = 168, n6· = 77
n·1 = 100, n·2 = 225, n·3 = 412 n·4 = 200, n·5 = 63.
30
et les frequences par
f1· = 0.017, f2· = 0.143, f3· = 0.258 f4· = 0.337, f5· = 0.168, f6· = 0.077
f·1 = 0.100, f·2 = 0.225, f·3 = 0.412 f·4 = 0.200, f·5 = 0.063.
2. Calculer le coefficient de correlation entre X et Y .
On donne5+2×2+60×2+40×2×2+3×2×3+70×3+100×3×2+50×3×3+8×3×4+55×4+145×4×2+100×4×3+22×4×4+
25×5+95×5×2+25×5×3+20×5×4+10×6+30×6×2+22×6×3+13×6×4=7573.
Reponse : Nous avons
x = 1× 0.017 + 2× 0.143 + 3× 0.258 + 4× 0.337 + 5× 0.168 + 6× 0.077 = 3.727
s2X = 12 × 0.017 + 22 × 0.143 + . . .+ 62 × 0.077− (3.727)2 = 1.384471
sX = 1.1766355,
y = 0× 0.1 + 1× 0.225 + 2× 0.412 + 3× 0.200 + 4× 0.063 = 1.901,
s2Y = 02 × 0.1 + 12 × 0.225 + 22 × 0.412 + 32 × 0.200 + 42 × 0.063− (1.901)2 = 1.067199,
sY = 1.0330532.
31
et doncsXY = 7573
1000 − 3.727× 1.901 = 0.487973,
rXY = 0.487973/(1.1766355× 1.0330532) = 0.4014497.
[Distributions conditionnelles et independance] On appelle frequence conditionnelle
de la valeur yj de la serie Y sous la condition X = xi le nombre note fj|i egal a
fj|i =nijni·
.
En divisant par n le numerateur et le denominateur on obtient
fj|i = fij/fi·, d’ou fij = fj|i × fi·. (1)
On dit que les deux caracteres X et Y mesures sur toute la population sont
independants si pour tout i, j, k
fj|i = fj|k.
Cette definition se traduit par les egalites
fij × fk· = fkj × fi· pour tout i, j, k.
32
En faisant la somme sur k = 1, . . . , p, on trouve
fij =
p∑k=1
fij × fk· =p∑k=1
fkj × fi· = fi· × f·j.
Inversement, si fij = fi· × f·j pour tout i, j alors
fj|i = fij/fi· = f·j = f·j × fk·/fk· = fkj/fk· = fj|k pour tout i, j, k.
On deduit qu’une X et Y sont independants si et seulement si
fij = fi· × f·j pour tout i, j.
ou encore, si et seulement si
fj|i = f·j pour tout i, j.
Exemple 10. Les series X et Y de l’exemple 9 sont-elles independantes ?
33
Reponse : Le tableau de frequences et donne par
Y 0 1 2 3 4X
1 0.01 0.005 0.002 0 02 0.04 0.060 0.04 0.003 03 0.03 0.07 0.10 0.05 0.0084 0.015 0.055 0.145 0.100 0.0225 0.003 0.025 0.095 0.025 0.0206 0.002 0.010 0.030 0.022 0.013
Les series ne sont pas independantes car, par exemple,
f11 = 0.01 6= 0.017× 0.1 = f1· × f·1.
Theoreme 1. Si X et Y sont independantes alors la covariance sXY est egale
a zero. En particulier, rXY = 0.
34
Demonstration. En effet,
sXY =
p∑i=1
q∑j=1
fijxiyj − xy =
p∑i=1
fi·xi
q∑j=1
f·jyj − xy = xy − xy = 0.
[La methode des moindres carres] On considere un nuage de points
(x1, y1) . . . , (xn, yn). L’allure du nuage de points peut suggerer une rela-
tion du type lineaire. On considere que la variable X est explicative et que la
variable Y est dependante. La droite de regression est la droite y = ax + b qui
ajuste au mieux la nuage de points au sens des moindres carres. Si les coefficients
a et b etaient connus, on pourrait calculer les residus (ou les erreurs qu’on
commet) definis par
ei = yi − a− bxi.
35
3.2. DEUX VARIABLES QUANTITATIVES 57
3.2.5 Droite de regression
La droite de regression est la droite qui ajuste au mieux un nuage de pointsau sens des moindres carres.
On considere que la variable X est explicative et que la variable Y estdependante. L’equation d’une droite est
y = a + bx.
Le probleme consiste a identifier une droite qui ajuste bien le nuage de points.Si les coefficients a et b etaient connus, on pourrait calculer les residus de laregression definis par :
ei = yi − a − bxi.
Le residu ei est l’erreur que l’on commet (voir Figure 3.3) en utilisant la droitede regression pour predire yi a partir de xi. Les residus peuvent etre positifs ounegatifs.
155 160 165 170 175 180 185 19060
7080
90100
taille
poids
e iy *i
y i
Figure 3.3 – Le nuage de points, le residu
Pour trouver a et b on utilise la methode des moindres carres c.a.d. on considere
le probleme d’optimisation
Mina,b∈R
f(a, b) = 12
n∑i=1
|axi + b− yi|2 = 12
n∑i=1
|ei|2.
Au minimum (a, b) on a ∂af(a, b) = 0 et ∂bf(a, b) = 0, c.a.d.
∑ni=1
(axi + b− yi
)xi = 0,∑n
i=1
(axi + b− yi
)= 0,
36
En divisant par n, la seconde equation donne
y = ax+ b, (2)
et la premiere equation implique que
αa+ βb− γ = 0. (3)
ou
α =
n∑i=1
x2i , β =
n∑i=1
xi, γ =
n∑i=1
yixi. (4)
Les equations (2)-(3) donnent
a =γ − βyα− βx =
∑ni=1 xiyi − y
∑ni=1 yi∑n
i=1 x2i − x
∑ni=1 xi
.
En divisant par n le numerateur et le denominateur, on obtient
a =sXY
s2X
.
37
En resume, la droite de regression est donnee par
y = ax+ b
ou
a =sXY
s2X
et b = y − ax.
Exemple 11. Le tableau ci-dessous donne l’evolution du pourcentage de bache-
liers dans une generation de 1990 a 2010.
X :annees 1990 1994 1998 2002 2006 2010
Y :% bacheliers 43,5 59,2 61,7 61,8 62,6 65,1
1. Determinez les moyennes, les variances et les ecarts-types des variables X
et Y . Determiner le coefficient de correlation entre X et Y . Que pouvez-
vous en deduire ?
2. Determinez la droite de regression lineaire de Y en X. Tracez cette droite
sur le graphique.
38
Reponse :
x = 16(1990 + . . .+ 2010) = 2000,
s2X = 1
6(19902 + . . .+ 20102)− x2 ∼ 46.7,
sX =√s2X ∼ 6.8,
y = 16(43.5 + . . .+ 65.1) ∼ 58.9,
s2Y = 1
6(43.52 + . . .+ 65.12)− y2 ∼ 50.9,
sY =√s2Y ∼ 7.1
sXY = 16(1990× 43.5 + . . .+ 2010× 65.1)− x× y = 39.434,
rXY =sXYsXsY
∼ 0.8.
Le coefficient de correlation indique une dependance lineaire importante. On a
a =sXY
s2X
= 0.845, et b = y − ax = −1631.0453,
39
et donc la droite de regression est
y = 0.845x− 1631.0453.
40
[Supplement : La moyenne et la variance conditionnelles] 2
On appelle moyenne conditionnelle de Y sous la condition X = xi, notee par yi,
le nombre
yi =1
ni·
q∑j=1
nijyj =
q∑j=1
fj|iyj
Theoreme 2. La moyenne marginale de Y satisfait
y =
p∑i=1
fi·yi.
En d’autres termes la moyenne de y est la moyenne des moyennes condition-
nelles a X.
Demonstration. En effet,
p∑i=1
fi·yi =
p∑i=1
q∑j=1
fj|ifi·yj =
q∑j=1
yj
p∑i=1
fj|ifi· =q∑j=1
yj
p∑i=1
fij =
q∑j=1
yjf·j = y.
2. Lecture optionnelle
41
La variance conditionnelle de Y sous la condition X = xi, notee par si,Y , est
definie comme
s2Y,i =
1
ni·
q∑j=1
nij(yj − yi)2=
q∑j=1
fj|i(yj − yi)2=
q∑j=1
fj|iy2j − y
2i .
Theoreme 3. [Decomposition de la variance] La variance marginale de Y peut
se decomposer de la maniere suivante
s2Y =
p∑i=1
fi·s2Y,i +
p∑i=1
fi·(yi − y)2.
Remarque 4. On appelle variance intrapopulation le terme en rouge (c.a.d. la
moyenne des variances conditionnelles) et variance interpopulation le terme en
bleu (c.a.d. la variance des moyennes conditionnelles).
42
Demonstration. Par definition,
s2Y =
q∑j=1
f·j(yj − y)2
=
q∑j=1
f·j(yj − yi + yi − y)2,
ce qui donne
s2Y =
q∑j=1
f·j(yj − yi)2+ 2
q∑j=1
f·j(yj − yi)(yi − y) +
q∑j=1
f·j(yi − y)2.
Par definition encore et la seconde egalite dans (1)∑qj=1 f·j(yj − yi)2 =
∑qj=1
∑pi=1 fij(yj − yi)2 =
∑pi=1
∑qj=1 fij(yj − yi)2
=∑p
i=1 fi·∑q
j=1 fj|i(yj − yi)2 =∑p
i=1 fi·s2Y,i.
De meme,
q∑j=1
f·j(yi−y)2
=
q∑j=1
p∑i=1
fij(yi−y)2
=
p∑i=1
(yi−y)2
q∑j=1
fij =
p∑i=1
fi·(yi−y)2.
43
Finalement,
q∑j=1
f·j(yj−yi)(yi−y) =
q∑j=1
p∑i=1
fij(yj−yi)(yi−y) =
p∑i=1
(yi−y)
q∑j=1
fij(yj−yi)
et
q∑j=1
fij(yj − yi) =
q∑j=1
fijyj − fi·yi = fi·
q∑j=1
fj|iyj − yi
= 0,
d’ou la conclusion.
44
Notions de probabilite et variables aleatoires discretes
[Evenements]
Une experience est dite aleatoire si on ne peut pas predire a priori son resultat.
— On note ω un resultat possible de l’experience aleatoire.
— On note Ω l’ensemble de tous les resultats possibles.
— Dans ce chapitre on suppose que Ω est discret (c.a.d. fini ou denombrable).
— On associe a Ω l’ensemble F de tous les sous-ensembles de Ω
— On dit queA est un evenement siA ∈ F , c.a.d.A est un sous-ensemble de Ω.
Exemple 12. L’experience peut consister a jeter un de, alors Ω =
45
1, 2, 3, 4, 5, 6 et l’evenement “obtenir un nombre pair” correspond
a A = 2, 4, 6 et Ac = 1, 3, 5 correspond a l’evenement “obtenir un
nombre impair”.
— On dit que l’evenement A est realise si le resultat ω de l’experience appartient
a A. Ainsi, A ∪ B est realise si A est realise ou B est realise. De meme,
A ∩ B est realise si A et B sont realises conjointement.
— On dit que A et B sont mutuellement exclusifs si A∩B = ∅. Par definition,
A et Ac sont toujours des evenements mutuellement exclusifs.
[Axiomatique des probabilites]
— Une probabilite P est une application de F dans [0, 1], telle que :
• P(Ω) = 1.
• Pour toute famille d’evenements A1, . . . , Ak telle que Ai ∩ Aj = ∅ si
i 6= j, on a
P(A1 ∪ A2 ∪ . . . ∪ Ak) = P(A1) + P(A2) + . . .+ P(Ak).
A partir de ces axiomes on deduit les proprietes suivantes :
46
• P(∅) = 0.
En effet, ∅ = Ωc et 1 = P(Ω ∪ Ωc) = P(Ω) + P(∅), ce qu’implique
P(∅) = 0.
• P(Ac) = 1− P(A).
En effet,
1 = P(Ω) = P(A ∪ Ac) = P(A) + P(A
c).
• Si A ⊆ B alors P(A) ≤ P(B).
En effet,
P(B) = P(A ∪ [B ∩ Ac]) = P(A) + P(B ∩ Ac
) ≥ P(A).
• P(B \ A) = P(B ∩ Ac) = P(B)− P(A ∩ B).
En effet, B = (B ∩ A) ∪ (B ∩ Ac) et donc P(B) = P(B ∩ Ac) +
47
P(A ∩ B).
• P(A ∪ B) = P(A) + P(B)− P(A ∩ B).
En effet,
A ∪ B = A ∪ (B \ A) = A ∪ (B ∩ Ac),
d’ou
P(A ∪ B) = P(A) + P(B ∩ Ac) = P(A) + P(B)− P(A ∩ B).
• Si A1, . . . , Ak satisfont
A1 ∪ A2 ∪ . . . ∪ Ak = Ω et Ai ∩ Aj = ∅ si i 6= j,
alors
P(B) =k∑i=1
P(B ∩ Ai).
48
En effet,
B = (A1 ∩ B) ∪ (A2 ∩ B) ∪ . . . ∪ (Ak ∩ B),
d’ou le resultat.
[Probabilites conditionnelles et independance] Soient deux evenements A et B.
Si P(B) 6= 0, on definit la probabilite conditionnelle de A sachant B comme le
nombre
P(A|B) =P(A ∩ B)
P(B).
Exemple 13. On jette un de et on considere les evenements A =“avoir un
nombre pair” et B =“avoir un nombre superieur ou egal a 4”. Calculer
P(A|B).
Reponse : P(A ∩ B) = P(4, 6) = 2/6 = 1/3 et P(B) = 3/6 = 1/2,
donc P(A|B) = 2/3.
Theoreme 4. [des probabilites totales] Si A1, . . . , Ak satisfont
A1 ∪ A2 ∪ . . . ∪ Ak = Ω et Ai ∩ Aj = ∅ si i 6= j,
49
alors
P(B) =
k∑i=1
P(B|Ai)P(Ai).
Demonstration.
P(B) =
k∑i=1
P(B ∩ Ai) =
k∑i=1
P(B|Ai)P(Ai).
Theoreme 5. [de Bayes] On a la relation
P(A|B) =P(B|A)P(A)
P(B).
Demonstration.
P(A|B) =P(A ∩ B)
P(B)=
P(B|A)P(A)
P(B).
50
Exemple 14. Supposons qu’une population d’adultes est composee de 30% de
fumeurs et de 70% de non-fumeurs. Supposons en outre que la probabilite de
mourir d’un cancer du poumon est egale a 20% si l’on est fumeur et 1% si l’on
est non-fumeurs. Quelle est la probabilite d’avoir ete fumeur sachant qu’on est
mort d’un cancer du poumon ?
Reponse : Soit A1 =“etre fumeur”, A2 =“etre non-fumeur” et B=“mourir
d’un cancer du poumon”. Alors
P(A1|B) =P(B|A1)P(A1)
P(B)=
0.2× 0.3
P(B),
mais
P(B) = P(B|A1)P(A1) + P(B|A2)P(A2) = 0.2× 0.3 + 0.01× 0.7,
51
ce qui donne
P(A1|B) =0.2× 0.3
P(B)=
0.06
0.06 + 0.007= 0.896.
On dit que deux evenements A et B sont independants si
P(A|B) = P(A)
ce qui equivaut a
P(A ∩ B) = P(A)× P(B).
Exemple 15. On lance un de deux fois. Quelle est la probabilite d’avoir un
nombre inferieur a 3 suivi d’un nombre superieur a 5 ?
Reponse : Soit A =“le premier lancer donne un nombre inferieur a 3” et
B =“le deuxieme lancer donne un nombre superieur a 5”. On cherche P(A ∩B). Les evenements A et B son independantes, donc
P(A ∩ B) = P(A) ∩ P(B) =2
6× 1
6=
1
18.
52
Exemple 16. D’une population qui contient 100 pieces fabriquees dont 12 sont
defectueuses on tire successivement deux pieces. Soit A =“la premiere piece
est defectueuse” et B =“la deuxieme piece n’est pas defectueuse”. Calculer
P(A ∩B) en supposant que les tirages se font a) avec remise, b) sans remise.
Reponse : Puisque le premier tirage se fait avec remise, A et B sont
independants, et donc
P(A ∩ B) = P(A)P(B) =12
100× 88
100= 0.1056.
Le deuxieme tirage se fait avec remise, donc
P(A ∩ B) = P(B|A)P(A) =88
99× 12
100= 0.1067.
[Variables aleatoires discretes] Une variable aleatoire est une fonction qui fait
correspondre a chaque element ω ∈ Ω un nombre reel X(ω).
53
Exemple 17. Le nombre de faces lorsqu’on lance une piece de monnaie trois
fois, est une variable aleatoire.
— On note Im(X) l’ensemble X(Ω) = X(ω) ; ω ∈ Ω.
— La distribution de probabilite pX de X est la fonction pX : Im(X)→ [0, 1]
definie par
pX(xi) = P(ω ∈ Ω ; X(ω) = xi).Naturellement, ∑
xi∈Im(X)
pX(xi) = 1.
Exemple 18. Dans l’exemple precedent
Ω = (P, P, P ), (P, P, F ), (P, F, P ), (P, F, F ), (F, P, P ), (F, P, F ), (F, F, P ), (F, F, F )
et X(Ω) = 0, 1, 2, 3. Si tous les elements de Ω ont la meme probabilite,
c.a.d. 1/8 on a
pX(0) = 1/8, pX(1) = 3/8, pX(2) = 3/8, pX(3) = 1/8.
54
— La fonction de repartition FX : R→ [0, 1] est definie par
FX(x) = P(X ≤ x) =∑xi≤x
pX(xi).
Dans l’exemple
FX(x) =
0 si x ∈]−∞, 0[,
1/8 si x ∈ [0, 1[
4/8 si x ∈ [1, 2[
7/8 si x ∈ [2, 3[
1 si x ∈ [3,∞[
— L’esperance mathematique E(X) est definie par
E(X) =∑
xi∈Im(X)
xipX(xi).
55
Dans l’exemple
E(X) = 0× 1/8 + 1× 3/8 + 2× 3/8 + 3× 1/8 = 3/2.
— La variance V (X) de X est definie par
V (X) =∑
xi∈Im(X)
(xi − E(X))2pX(xi).
Remarquons que
V (X) =∑
xi∈Im(X)
x2ipX(xi)− 2E(X)
∑xi∈Im(X)
pX(xi)xi + E(X)2,
ce qui donne
V (X) = E(X2)− E(X)
2.
Dans l’exemple
E(X2) = 0
2 × 1/8 + 12 × 3/8 + 2
2 × 3/8 + 32 × 1/8 = 24/8 = 3,
56
et donc
V (X) = 3− (3/2)2
= 3/4.
[Variable de Bernoulli] La variable de Bernoulli X represente une experience ou
les seuls resultats possibles sont 0, 1, c.a.d. Im(X) = 0, 1. On dit que X
est une variable de Bernoulli de parametre p ∈]0, 1[ si
pX(x) =
p si x = 1,
1− p si x = 0.
L’esperance vaut
E(X) = 1× p+ 0× (1− p) = p,
et la variance vaut
V (X) = 12 × p+ 0
2 × (1− p)− p2= p(1− p).
57
Exemple 19. On tire au hasard une boule dans une urne contenant 18 boules
rouges et 12 boules blanches. Si X vaut 1 si la boule est rouge et 0 sinon, alors
X suit une loi de Bernoulli de parametre p = 18/(18 + 12) = 0.6.
[La variable binomiale] Considerons une experience qui satisfait les conditions
suivantes :
1) Elle est composee d’une suite de n epreuves independantes, dont chacune
d’entre elles peut donner lieu a deux resultats ; 1 (succes) et 0 (echec).
2) La probabilite de succes a chaque epreuve est p.
Si X est la variable aleatoire egale au nombre de succes, on dit que X suit une
loi binomiale de parametres n et p. On notera X ∼ B(n, p).
On peut verifier que si X ∼ B(n, p) alors
pX(X = k) =(nk
)pk(1− p)n−k,
58
ou l’on rappelle que (nk
)=
n!
k!(n− k)!
est le nombre de combinaisons de k objets parmi n.
Exemple 20. On tire au hasard avec remise et de maniere independante 5 boules
dans une urne contenant 18 boules rouges et 12 boules blanches. Si X est le
nombre de boules rouges obtenues, alors X suit une loi binomiale de parametres
n = 5 et p = 18/(18 + 12) = 0.6. Donc, pour tout k = 0,1,. . . 5, on a
pX(k) =(5
k
)0.6
k0.4
5−k.
Theoreme 6. Soit X ∼ B(n, p), alors
E(X) = np,
V (X) = np(1− p).(5)
59
Demonstration. On a
E(X) =∑n
k=0 k(nk
)pk(1− p)n−k,
=∑n
k=1n!
(k−1)!(n−k)!pk(1− p)n−k,
= np∑n
k=1(n−1)!
(k−1)!(n−1−(k−1))!pk−1(1− p)n−1−(k−1),
= np∑n−1
k=0(n−1)!
k!(n−1−k)!pk(1− p)n−1−k,
= np(p+ (1− p))n−1 = np,
ce qui entraıne la premiere egalite. Pour la deuxieme egalite, definissons la fonction
f(x) =n∑k=0
xk(nk
)pk(1− p)n−k.
60
D’une part
f ′(x) =∑n
k=1 kxk−1(nk
)pk(1− p)n−k
f ′′(x) =∑n
k=1 k(k − 1)xk−2(nk
)pk(1− p)n−k,
et donc
f′′(1) = E(X
2)− E(X). (6)
D’une autre part
f(x) =
n∑k=0
xk(nk
)pk(1− p)n−k = (px+ 1− p)n,
ce qui donne
f′(x) = np(px+ 1− p)n−1
, f′′(x) = n(n− 1)p
2(px+ 1− p)n−2
et donc, par (6),
f′′(1) = n(n− 1)p
2= E(X
2)− E(X),
61
ce qui entraıne
V (X) = E(X2)−E(X)
2= n(n−1)p
2+np−n2
p2
= np−np2= np(1−p).
Exemple 21. Il est clair que la variable aleatoire X definie dans les exemples
17-18 suit une B(3, 12). On retrouve bien
E(X) = 3× 12 = 3/2, et V (X) = 3× 1
2 × 12 = 3/4.
[La variable de Poisson] On considere dans ce paragraphe la loi d’une variable
aleatoire souvent utile pour decrire le nombre d’occurrences d’un evenement au
cours d’un intervalle de temps ou d’espace bien defini.
Le proprietes les plus importantes d’une experience de Poisson sont :
— La moyenne des occurrences dans un intervalle de temps et proportionnelle
a la longueur de l’intervalle. En particulier, si l’intervalle de temps est petit,
62
alors il est peu probable d’avoir une occurrence.
— L’occurrence ou la non-occurrence d’un evenement dans un intervalle est
independante de l’occurrence ou la non-occurrence de cet evenement dans un
autre intervalle disjoint.
Exemple 22. — Le nombre d’arrivees de voitures a une station de lavage en
une heure,
— Le nombre de reparations necessaires sur 10 Kms d’autoroute,
— Le nombre d’arrivees a une file d’attente,
— Le nombre d’appels telephoniques,
peut etre modelises par une variable de Poisson.
Definition 1. On dit que la variable X suit une loi de Poisson de parametre
λ > 0 si Im(X) = N ∪ 0 et
pX(k) =λk
k!e−λ, k = 0, 1, 2, . . .
63
On notera X ∼ P (λ).
Theoreme 7. Si X ∼ P (λ) alors
E(X) = λ et V (X) = λ.
Demonstration.
E(X) =
∞∑k=0
kλk
k!e−λ
= e−λ
∞∑k=1
λk
(k − 1)!= λe
−λ∞∑k=1
λk−1
(k − 1)!= λe
−λeλ
= λ,
etE(X2) =
∑∞k=0 k
2λk
k! e−λ = e−λ
∑∞k=1 k
2λk
k!
= e−λ[∑∞
k=1 k(k − 1)λk
k! +∑∞
k=1 kλk
k!
]= e−λ
∑∞k=2 k(k − 1)λ
k
k! + λ
= λ2e−λ∑∞
k=2λk−2
(k−2)! + λ = λ2 + λ.
64
d’ou
V (X) = E(X2)− E(X)
2= λ
2+ λ− λ2
= λ.
Theoreme 8. [Resultat d’approximation d’une loi binomiale par une loi de
Poisson] Soit pn ∈ [0, 1] une suite telle que npn → λ quand n→∞. Fixons
k ∈ N et pour n ≥ k soit Xn ∼ B(n, pn). Alors
pXn(k)→ λk
k!e−λ.
Remarque 5. En pratique on approchera la loi binomiale B(n, p) par la loi de
Poisson P (np) lorsque n ≥ 50, p ≤ 0.01 et np ≤ 10.
[Distributions bivariees] Soient deux variables aleatoires X et Y . On definit la
distribution de probabilite jointe
pXY (xi, yj) = P(X = xi, Y = yj) pour tout xi ∈ Im(X) et yj ∈ Im(Y ).
65
— Soit f : R× R→ R une fonction. Alors, l’esperance de f(X,Y ) est definie
par
E(f(X,Y )) =∑
xi∈Im(X), yj∈Im(Y )
f(xi, yj)pXY (xi, yj),
et la variance est definie par
V (f(X,Y )) = E(
[f(X,Y )− E(f(X,Y ))]2).
— On defini la fonction de repartition jointe
FXY (x, y) := P(X ≤ x, Y ≤ y) =∑
xi≤x, yj≤ypXY (xi, yj).
— Les distributions marginales de X et Y sont definies par
pX(xi) =∑
yj∈Im(Y )
pXY (xi, yj) et pY (yj) =∑
xi∈Im(X)
pXY (xi, yj).
66
— Etant donnees les distributions marginales de X et Y on definit leur esperance
et leur variance de la meme maniere que pour le cas univarie. Par exemple,
E(X) =∑
xi∈Im(X)
xipX(xi), V (X) =∑
xi∈Im(X)
(xi − E(X))2pX(xi).
— On definit les distributions conditionnelles
pX|Y (xi|yj) =pXY (xi,yj)
pY (yj)si pY (yj) 6= 0,
pY |X(yj|xi) =pXY (xi,yj)
pX(xi)si pX(xi) 6= 0.
— La covariance entre X et Y est definie par
Cov(X,Y ) :=∑
xi∈Im(X), y∈Im(Y ) (xi − E(X)) (yj − E(Y )) pXY (xi, yj),
= E ((X − E(X))(Y − E(Y ))) .
De la meme maniere qu’on a trouve une formule equivalente pour la covariance
67
de deux caracteres X et Y , on demontre (exercice) que
Cov(X,Y ) =∑
xi∈Im(X), y∈Im(Y ) xiyjpXY (xi, yj)− E(X)E(Y ),
= E(XY )− E(X)E(Y ).(7)
Dans les deux propositions suivantes on verra des proprietes fondamentales de
l’esperance et de la variance.
Proposition 1. Les proprietes suivantes sont verifiees
(i) Si a ∈ R alors E(a) = a.
(ii) Si a, b ∈ R alors
E(aX + bY ) = aE(X) + bE(Y ).
Demonstration. Soit X la variable aleatoire constante egale a a. Alors,
68
Im(X) = a et pX(a) = 1 et donc
E(a) =∑xi∈a
xipX(xi) = apX(a) = a.
De meme (pour simplifier la notation on ecrit∑
xi,yj=∑
xi∈Im(X), yj∈∈Im(Y ))
E(aX + bY ) =∑
xi,yj[axi + byj]pXY (xi, yj),
= a∑
xi,yjxipXY (xi, yj)
+b∑
xi,yjyjpXY (xi, yj)
= a∑
xixi∑
yjpXY (xi, yj)
+b∑
yjyj∑
xipXY (xi, yj)
= a∑
xixipX(xi)
+b∑
yjyjpY (yj)
= aE(X) + bE(Y ).
69
Proposition 2. On a la propriete suivante
V (aX + bY ) = a2V (X) + 2abCov(X,Y ) + b
2V (Y ).
Demonstration. Exercice.
[Independance de deux variables aleatoires] On dit que X et Y sont independantes
si pour tout xi ∈ Im(X) et yj ∈ Im(Y ) les evenements
Ai = ω ∈ Ω ; X(ω) = xi et Bj = ω ∈ Ω ; Y (ω) = yj,
sont independants. Remarquons que
Ai ∩ Bj = ω ∈ Ω ; X(ω) = xi et Y (ω) = yj. (8)
Par definition d’independance entre Ai et Bj on a
P(Ai ∩ Bj) = P(Ai)P(Bj).
70
et donc, grace a (8), X et Y sont independants si et seulement si pour tout
xi ∈ Im(X) et yj ∈ Im(Y )
pXY (xi, yj) = pX(xi)pY (yj).
Proposition 3 (Consequences de l’independance). Si X et Y sont independantes
alors :
(i) E(XY ) = E(X)E(Y ).
(ii) Cov(X,Y ) = 0.
(iii) Pour tout a, b ∈ R
V (aX + bY ) = a2V (X) + b
2V (Y ).
71
Demonstration.
E(XY ) =∑
xi,yjxiyjpXY (xi, yj)
=∑
xi,yjxiyjpX(xi)pY (yj)
=∑
xixipX(xi)
∑yjyjpY (yj)
= E(X)E(Y ).
Ce calcule montre (i). L’assertion (ii) et une consequence de (i) et (7). L’assertion
(iii) est une consequence de (ii) et le resultat de la proposition 2.
Remarque 6. Attention : La reciproque est fausse. Une covariance nulle n’im-
plique pas que les deux variables sont independantes.
Voyons une autre consequence de independance.
Lemme 1. Soient X et Y independantes et Z = X + Y . Alors, pour tout
72
z ∈ Im(Z)
pZ(z) =∑
xi∈Im(X)
pY (z − xi)pX(xi).
Demonstration.
pZ(z) = P(X + Y = z) =∑
xi∈Im(X) P(X + Y = z, X = xi)
=∑
xi∈Im(X) P(Y = z − xi, X = xi)
=∑
xi∈Im(X) pXY (xi, z − xi)=∑
xi∈Im(X) pY (z − xi)pX(xi)
[Distributions multivariees] On peut generaliser l’etude precedente au cas de
plusieurs variables X1, X2, . . . , Xp. On definit la distribution jointe multivariee
pX1,...,XP(x1, . . . , xp) = P(X1 = x1, . . . , Xp = xp).
73
Comme dans le cas bivariee, on trouve la distribution marginale d’une variable
Xi en additionnant les probabilites jointes sur toutes les valeurs possibles des
variables restantes.
On dira que X1, . . . Xp sont independantes si
pX1,...,XP(x1, . . . , xp) = pX1
(x1) . . . pXp(xp).
[La distribution multinomiale] Considerons n epreuves independantes ou chaque
epreuve peut avoir comme resultat A1, . . . , Ar. Leurs probabilites P(A1) =
p1, . . . , P(Ar) = pr verifient p1 + . . . + pr = 1. Soit Xi (i = 1, ..., r) le
nombre de fois qu’on a obtenu Ai. Alors, k1 + . . .+ kr = n et
pX1,...,Xr(k1, . . . , kr) =
(nk1
)(n− k1
k2
). . .(n− k1 − . . .− kr−1
kr
)pk11 . . . p
krr
74
En simplifiant l’expression en dessus, on trouve
pX1,...,Xr(k1, . . . , kr) =
n!
k1! . . . kr!pk11 . . . p
krr .
On notera X = (X1, . . . , Xr) ∼MN(n; p1, . . . , pr).
Remarque 7. Lorsque r = 2 on retrouve bien la distribution binomiale.
Exemple 23. Dans une certaine province trois partis sont en lice. Si dans la
population 50% de gens favorisent le parti A, 40% le parti B et 10% le parti
C, calculons la probabilite que sur 6 personnes choisies au hasard, 3 favorisent
le parti A, 1 favorise B et 2 favorisent C.
On a ici r = 3, et X = (X1, X2, X3) ∼MN(6; 0.5, 0.4, 0.1). Alors,
pX1,X2,X3(3, 1, 2) =
6!
3! 1! 2!0.5
30.4
10.1
2= 0.03.
75
[Supplement : Preuve du theoreme 8] 3 On a
pXn(k) =(nk
)pkn(1− pn)n−k = n!
k!(n−k)!pkn(1− npn
n )n−k
= n!
nk(n−k)!
1k!(pnn)k (1−pn)n
(1−pn)k.
Or,n!
nk(n−k)!= n(n−1)×...×(n−k+1)
nk= n(n−1)×...×(n−k+1)
n×...n
= 1× (1− 1n)× . . .× (1− k
n + 1n)→ 1
quand n→∞. Nous trouvons alors
limn→∞
pXn(k) = limn→∞
n!
nk(n− k)!
1
k!(pnn)
k(1− npnn )n
(1− pn)k=λk
k!e−λ.
3. Lecture optionnelle
76
Variables aleatoires continues
Dans ce chapitre on considere Ω = R (qui est un ensemble non-denombrable) et une
loi de probabilite P sur les intervalles (ouverts, semi-ouverts ou fermes) de R.
Definition 2. On dit que X : Ω→ R est une variable aleatoire continue s’il existe une
fonction fX : R→ R telle que
— fX(x) ≥ 0 pour tout x ∈ R.
— fX est continue par morceaux.
— On a ∫ ∞−∞
fX(x)dx = 1.
— Pour a, b ∈ R, a < b, la probabilite de X appartient a [a, b] est donnee par
P (ω ∈ Ω ; X(ω) ∈ [a, b]) =
∫ b
a
fX(x)dx.
77
La probabilite de X appartient a [a,∞[ est donnee par
P (ω ∈ Ω ; X(ω) ∈ [a,∞[) =
∫ ∞a
fX(x)dx
et la probabilite de X appartient a ]−∞, a] vaut
P (ω ∈ Ω ; X(ω) ∈]−∞, a]) =
∫ a
∞fX(x)dx.
On dit que fX est la densite de X.
Remarque 8. (i) La definition precedente n’est pas rigoureuse. La notion correcte de
variable aleatoire continue releve de la theorie de la mesure. Neanmoins, cette definition
suffira pour nos buts.
(ii) On ecrira P(X ∈ [a, b]) pour P(ω ∈ Ω ; X(ω) ∈ [a, b]).
(iii) Pour tout a ∈ R on a
P(X = a) = limh→0
P(X ∈ [a, a+ h]) = limh→0
∫ a+h
a
f(x)dx = 0,
78
ci qui entraıne
P(X ∈ [a, b]) = P(X ∈]a, b]) = P(X ∈ [a, b[) = P(X ∈]a, b[).
[Fonction de repartition] La fonction de repartition FX est definie comme
FX(x) = P(X ≤ x) = P(X ∈]−∞, x]) =
∫ x
−∞fX(t)dt.
Elle satisfait les proprietes suivantes
— FX : R→ [0, 1]
— FX est continue.
— FX est croissante.
— Si fX est continue en x alors FX est differentiable en x et F ′X(x) = fX(x).
Remarque 9. Cette fonction est tres utile, parce que usuellement pour certaines
variables continues X les valeurs de FX(x) sont tabulees pour certaines valeurs
79
de x. Ainsi, on peut calculer par exemple
P(a ≤ X ≤ b) = FX(b)− FX(a).
[Moyenne et variance] L’esperance de X est definie comme
E(X) =
∫ ∞−∞
xfX(x)dx,
si cette integrale generalisee converge. La variance de X est definie comme
V (X) = E((X − E(X))2) =
∫ ∞−∞
(x− E(X))2fX(x)dx,
si cette integrale generalisee converge. On verifie facilement que
V (X) =
∫ ∞−∞
x2fX(x)dx− E(X)
2= E(X
2)− E(X)
2.
80
[La variable aleatoire normale] Une variable aleatoire X continue est dite normale
de parametres (µ, σ) (σ > 0), notee N (µ, σ), si sa densite et donnee par
fX(x) =1
σ√
2πexp
(−1
2
(x− µσ
)2).
108CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES
5.5.3 Variable normale
Une variable aleatoire X est dite normale si sa densite vaut
fµ,σ2(x) =1
σ√
2πexp −1
2
(x − µ
σ
)2
, (5.1)
ou µ ∈ R et σ ∈ R+ sont les parametres de la distribution. Le parametre µ estappele la moyenne et le parametre σ l’ecart-type de la distribution.
µ−∞ +∞µ + σµ − σ
Figure 5.7 – Fonction de densite d’une variable normale
De maniere synthetique, pour noter que X suit une loi normale (ou gaus-sienne, d’apres Carl Friedrich Gauss) de moyenne µ et de variance σ2 on ecrit :
X ∼ N(µ, σ2).
La loi normale est une des principales distributions de probabilite. Elle a denombreuses applications en statistique. Sa fonction de densite dessine une courbedite courbe de Gauss. On peut montrer (sans demonstration) que
E(X) = µ,
etvar(X) = σ2.
La fonction de repartition vaut
Fµ,σ2(x) =
∫ x
−∞
1
σ√
2πexp −1
2
(u − µ
σ
)2
du.
5.5.4 Variable normale centree reduite
La variable aleatoire normale centree reduite est une variable normale, d’esperancenulle, µ = 0, et de variance σ2 = 1. Sa fonction de densite vaut
f0,1(x) =1√2π
exp −x2
2.
Remarque 10. Souvent la notation N (µ, σ2) est aussi utilisee.
81
On peut montrer que
E(X) = µ et V (X) = σ2.
Lorsque µ = 0, σ = 1 et X ∼ N (0, 1), on dit que X est une variable normale
centree reduite. Sa densite vaut
fX(x) =1√2πe−x
2
2 .
5.5. VARIABLE ALEATOIRE CONTINUE 109
0.5
1
µ−∞ +∞µ + σµ − σ
Figure 5.8 – Fonction de repartition d’une variable normale
et sa repartition vaut
Φ(x) = F0,1(x) =
∫ x
−∞
1√2π
exp −(
u2
2
)du.
Du fait de la symetrie de la densite, on a la relation
Φ(−x) = 1 − Φ(x),
qui se comprend facilement en examinant la Figure 5.9.
0−∞ +∞x−x
Figure 5.9 – Densite d’une normale centree reduite, symetrie
De plus, le calcul de la repartition d’une variable normale de moyenne µ etde variance σ2 peut toujours etre ramene a une normale centree reduite.
Resultat 5.3
Fµ,σ2(x) = Φ
(x − µ
σ
).
DemonstrationOn a
Fµ,σ2(x) =
∫ x
−∞
1
σ√
2πexp −
1
2
(u − µ
σ
)2
du.
En posant
z =u − µ
σ,
82
On notera Φ(x) la fonction de repartition d’une normale centree reduite. A partir
de la symetrie de la densite on a la formule
Φ(−x) = 1− Φ(x),
qui est une relation tres utile pour le calcul de probabilites a l’aide de la table de
valeurs numeriques pour Φ.
On verifie aisement que si X ∼ N (µ, σ), alors
X − µσ
∼ N (0, 1).
[Distributions bivariees] Soient X et Y deux variables aleatoires continues. Leur
densite conjointe fXY : R2 → R est une fonction continue, positive et telle que∫ ∞−∞
∫ ∞−∞
fXY (x, y)dxdy = 1.
83
La fonction de repartition jointe FXY : R2 → [0, 1] est definie par
FXY (x, y) := P(X ≤ x, Y ≤ y) =
∫ x
−∞
∫ y
−∞fXY (s, t)dtds.
Les densites marginales fX : R → [0,∞[ et fY : R → [0,∞[ sont definies
comme
fX(x) :=
∫ ∞−∞
fXY (x, y)dy, fY (y) :=
∫ ∞−∞
fXY (x, y)dx.
Comme precedemment on peut utiliser les distributions marginales pour calculer
les esperances et variances de X et Y . Par exemple,
E(X) =
∫ ∞−∞
xfX(x)dx.
84
La covariance entre X et Y est definie par
cov(X,Y ) :=∫∞−∞∫∞−∞(x− E(X))(y − E(Y ))fXY (x, y)dxdy,
=∫∞−∞∫∞−∞ xyfXY (x, y)dxdy − E(X)E(Y ).
On dit que X et Y sont independantes si
fXY (x, y) = fX(x)fY (y) pour tout x, y ∈ R.
Un calcul immediat montre que si X et Y son independantes, alors
cov(X,Y ) = 0. La reciproque est fausse.
Lemme 2. Soient X et Y independantes et Z = X + Y . Alors,
fZ(z) =
∫ ∞−∞
fY (z − x)fX(x)dx.
85
Demonstration.
FZ(z) = P(X + Y ≤ z) =
∫∫R
fXY (x, y)dxdy,
ou R = (x, y) ∈ R2 ; x+ y ≤ z. On trouve
FZ(z) = P(X + Y ≤ z) =∫∞−∞∫ z−x−∞ fXY (x, y)dydx,
=∫∞−∞∫ z−x−∞ fX(x)fY (y)dydx,
=∫∞−∞∫ z−∞ fY (y − x)dy fX(x)dx,
=∫ z−∞∫∞−∞ fY (y − x) fX(x)dxdy,
ce qui donne,
fZ(z) = (FZ)′(z) =
∫ ∞−∞
fY (z − x) fX(x)dx.
86
De la meme maniere que pour le cas discret, on a toujours (exercice)
E (aX + bY ) = aE(X) + bE(Y ),
et si X et Y sont independantes (exercice),
V(aX + bY ) = a2V (X) + b
2V (Y ).
Les notions de distribution conjointe et de distribution marginale s’etendent sans
difficultes au cadre multivarie.
Proposition 4. Si X ∼ N(µ1, σ1) et Y ∼ N(µ2, σ2) est independante de X,
alors
X + Y ∼ N(µ1 + µ2,
√σ2
1 + σ22
).
Demonstration. Exercice.
87
[La variable aleatoire χ2] Soit X1, . . . , Xp une suite de variables aleatoires,
normales centrees reduites et independantes. On definit la variable aleatoire
khi-carre a p degres de liberte par
χ2p :=
p∑i=1
X2i .
Comme pour la distribution normale, des valeurs de la fonction de repartition Fχ2p
sont tabulees.
[La variable aleatoire de student] Soit X une variable aleatoire normale centree
reduite et soit χ2p une variable aleatoire khi-carre a p degres de liberte,
independante de X. On definit la variable aleatoire tp de student a p degres de
liberte par
tp :=X√χ2p/p
On note tp ∼ T (p). Les valeurs de la fonction de repartition Ftp sont aussi
88
tabulees. En particulier, soient X1, . . . , Xn normales N (µ, σ) independantes et
X :=
∑ni=1Xi
net S
2:=
∑ni=1(Xi − X)2
n.
On peut montrer que nS2/σ2 ∼ χ2n−1 independante de X, ce qui implique
X − µ√S2
n−1
∼ T (n− 1)
En effet, par definition
X − µ√S2
n−1
=
X−µσ√n√nS2
σ2(n−1)
∼ T (n− 1).
[Le theoreme limite central]
89
Theoreme 9. Soient X1, . . . , Xn une suite de variables aleatoires
independantes de meme loi, de moyenne µ et de variance σ2. Alors pour n
assez grand, on peut approcher la loi de
∑ni=1Xi − nµ√
nσ
par la loi normale N (0, 1).
Remarque 11. L’enonce du theoreme n’est pas rigoureux, mais il suffira pour
les objectifs de ce cours. On ne peut pas etre tres precis quant a ce qu’on
entend par “n assez grand”. En pratique, on se donne comme limite le nombre
n = 30 : si n ≥ 30 on utilisera l’approximation qui ne sera pas toujours tres
bonne.
Une application immediate de ce theoreme est l’approximation de la loi
binomial X ∼ B(n, p) “centree et reduite” par une loi N (0, 1). En effet, si
90
X ∼ B(n, p) alors sa loi est la meme que celle de la somme (exercice)
n∑i=1
Xi
ou les Xi’s sont independantes et suivent une loi de Bernoulli de parametre p. Le
theoreme limite central nous dit qu’on peut faire l’approximation
∑ni=1Xi − np√np(1− p)
∼ N (0, 1) (9)
pour n assez grand. L’approximation (9) peut etre ecrite sous la forme equivalente
n∑i=1
Xi ∼ N (np,√np(1− p)). (10)
91
!
! "#$
Figure !"# %&'!(')&*'+,-!./0!,&'!)&1*+,-!+.-2!n!3!"4!!
76543210-1-2
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
X
Dens
ityBinomial 10 0.2Distribution n p
Normal 2 1.26491Distribution Mean StDev
Distribution Plot
! Figure !"$ %&'!(')&*'+,-!./0!,&'!)&1*+,-!+.-2!n!3!#4!!
181614121086420
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
X
Dens
ity
Binomial 40 0.2Distribution n p
Normal 8 2.52982Distribution Mean StDev
Distribution Plot
!!!
92
!
! "#$
Figure !"# %&'!(')&*'+,-!./0!,&'!)&1*+,-!+.-2!n!3!"4!!
76543210-1-2
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
X
Dens
ity
Binomial 10 0.2Distribution n p
Normal 2 1.26491Distribution Mean StDev
Distribution Plot
! Figure !"$ %&'!(')&*'+,-!./0!,&'!)&1*+,-!+.-2!n!3!#4!!
181614121086420
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
X
Dens
ity
Binomial 40 0.2Distribution n p
Normal 8 2.52982Distribution Mean StDev
Distribution Plot
!!!
93
!
! "#$
Figure !"# %&'!(')&*'+,-!./0!,&'!)&1*+,-!+.-2!n!3!"44!!
353025201510
0.10
0.08
0.06
0.04
0.02
0.00
X
Dens
ityBinomial 100 0.2Distribution n p
Normal 20 4Distribution Mean StDev
Distribution Plot
!
De meme, on peut montrer que si X = (X1, . . . , Xr) ∼MN(n; p1, . . . , pr),
94
alors
Q :=
r∑k=1
(Xk − npk)2
npk∼ χ2
r−1.
Exercice : Faire la preuve pour r = 2.
95
Estimation par intervalles de confiance
Dans ce chapitre on etudie l’estimation de parametres pour une variable aleatoire en
fonction de valeurs observees sur un echantillon.
[Echantillons] Soit X : Ω→ R une variable aleatoire (discrete ou continue).
Definition 3. (i)Une suite de n variables aleatoires X1, . . . , Xn est appelee
echantillon aleatoire de X si X1, . . . , Xn sont independantes et suivent la
meme loi de X.
(ii) Toute fonction de l’echantillon T (X1, . . . , Xn) est appelee une statistique.
En pratique on observe des valeurs x1, . . . , xn pour X1, . . . , Xn et on veut
estimer des parametres de la distribution de X par une statistique evaluee au
point x1, . . . , xn. Par exemple, si on veut estimer la moyenne µ de X on utilisera
96
la statistique
X := T (X1, . . . , Xn) :=1
n
n∑i=1
Xi,
et si (x1, . . . , xn) est une realisation de (X1, . . . , Xn) alors il paraıt raisonable
d’estimer µ par la moyenne observee x := T (x1, . . . , xn).
[Intuition des intervalles de confiance] Si un echantillon de boıtes de conserves
vous donne un poids moyen x = 200g, vous presenterez cette valeur comme
estimation de la moyenne de la population µ. Mais il y a peu de chance que cette
valeur coıncide avec µ. Il est plus raisonnable d’affirmer que la moyenne des poids
se trouve entre 195 et 205, c’est-a-dire on estimera la moyenne des poids par un
intervalle dont l’amplitude sera liee au niveau de risque desire.
[Intervalles de confiance pour des grands echantillons (n ≥ 30) et distributions
arbitraires]
L’idee de base est d’utiliser l’approximation du Theoreme Limite Central (TLC),
valable car n est “grand”, pour estimer les intervalles.
• [Intervalle de confiance pour une moyenne µ] Considerons un echantillon
97
aleatoire X1, . . . , Xn tire d’une population de moyenne µ et ecart type σ et
de maniere independante. Supposons d’abord qu’on connait σ. Puisque n est
grand, le TLC implique qu’on peut supposer que
Z :=X − µ
σ√n
∼ N (0, 1)
et donc, pour un certain risque α ∈]0, 1[ il existe uα > 0, qui peut etre
trouve en utilisant les tables, tel que
P(|Z| > uα) = α, ou d’une maniere equivalente P(|Z| ≤ uα) = 1−α.
On trouve donc (exercice)
P(X − uασ√n≤ µ ≤ X + uα
σ√n
) = 1− α.
C’est-a-dire, avec probabilite 1 − α l’intervalle [X − uα σ√n, X + uα
σ√n]
contient µ. En pratique, si on observe la valeur x pour X on estimera µ par
98
l’intervalle
[x− uασ√n, x+ uα
σ√n
].
Si σ2 est inconnu, on l’estimera en utilisant la variance observee corrigee
s2
=1
n− 1
n∑i=1
(xi − x)2
=n
n− 1
(1
n
n∑i=1
x2i − x
2
), (11)
ou xi correspond a la valeur observee pour Xi. On estimera µ, au risque α,
par l’intervalle
[x− uαs√n, x+ uα
s√n
].
Remarque 12. Puisque n est grand, en pratique on peut approcher par 1
le terme en bleu dans (11), et estimer σ2 par la variance observee
s2
=1
n
n∑i=1
x2i − x
2. (12)
99
Dans ce cas, on donnera comme intervalle de confiance
[x− uαs√n, x+ uα
s√n
].
Exemple 24. On a analyse la quantite d’acide urique sur un echantillon de
10000 personnes tire au hasard dans la population francaise. Les resultats
de l’analyse sont les suivants : moyenne sur l’echantillon : x = 54 mg/l,
ecart mesure sur l’echantillon : s = 10 mg/l. Donner un intervalle de
confiance au risque d’erreur 1% pour la valeur moyenne du taux d’acide
urique dans le sang de la population francaise.
Reponse : Pour α = 0.01 on obtient uα = 2.576. L’intervalle demande est
donc
I =
[54− 2.576× 10√
10000, 54 + 2.576× 10√
10000
]= [53.7424, 54.2576].
• [Intervalle de confiance pour une proportion p] Considerons une population
dont une proportion p des membres appartient a une certaine classe
100
C. Supposons que dans un echantillon X1, . . . , Xn on trouve S unites
appartenant a la classe C.
On peut supposer que S ∼ B(n, p) et donc par le theoreme limite central
la distribution de S est proche a une
N(np,
√np(1− p)
)D’ou, pour un risque α donne, on a
P
(∣∣∣∣∣ S − np√np(1− p)
∣∣∣∣∣ ≤ uα)
= 1− α,
et donc, en notant p = S/n la proportion observee, l’intervallep− uα√p(1− p)
n, p+ uα
√p(1− p)
n
contient p avec une probabilite 1− α. Par contre, si on observe x1, . . . , xn
101
on connaıt p mais l’intervalle reste inconnue car on ne connaıt pas p. Une
solution approximative, presque toujours bonne, et d’estimer
√p(1− p)
npar
√p(1− p)
n.
Par consequent, au risque α on donnera comme estimation l’intervalle
p− uα√p(1− p)
n, p+ uα
√p(1− p)
n
.Exemple 25. On veut avoir une idee de la proportion p de personnes at-
teintes d’une certaine infection. On effectue une enquete parmi 1000 per-
sonnes, et on observe une proportion p = 0.28 d’individus atteints. Don-
ner, avec un seuil d’erreur de 5%, un intervalle de confiance pour p.
Reponse : Pour α = 0.05 on trouve uα = 1.96 et donc l’intervalle demande
102
est donne par
I =
[0.28− 1.96×
√0.28(1−0.28)
1000 , 0.28 + 1.96×√
0.28(1−0.28)1000
]= [0.252, 0.308].
• [Intervalle de confiance pour la difference des moyennes] Soient
X11, . . . , X1n1et X21, . . . , X2n2
deux echantillons correspondants a
deux populations. Notre but est de donner un intervalle de confiance pour la
difference µ1 − µ2 ou µ1 est la moyenne de la premiere population et µ2 est
la moyenne de la deuxieme population. On suppose que les echantillons sont
independants.
Comme precedemment, on peut construire un intervalle de confiance pour
estimer µ1 − µ2. En effet, par le theoreme limite central, on peut approcher
X1 :=1
n1
n1∑i=1
X1i ∼ N (µ1,σ1√n1
) et X2 :=1
n2
n2∑i=1
X2i ∼ N (µ2,σ2√n2
),
103
d’ou, par l’independance des echantillons,
X1 − X2 ∼ N
µ1 − µ2,
√σ2
1
n1
+σ2
2
n2
.
En centrant et reduisant on trouve uα tel que au risque α,
P
∣∣∣∣∣∣∣∣∣X1 − X2 − (µ1 − µ2)√
σ21n1
+σ2
2n2
∣∣∣∣∣∣∣∣∣ ≤ uα = 1− α
et donc avec probabilite 1− α l’intervalleX1 − X2 − uα
√σ2
1
n1
+σ2
2
n2
, X1 − X2 + uα
√σ2
1
n1
+σ2
2
n2
contient µ1 − µ2. Puisque en general σ1 et σ2 sont inconnus, sachant
104
qu’on observe (x11, . . . , x1n1) pour l’echantillon (X11, . . . , X1n1
) et
(x21, . . . , x2n2) pour l’echantillon (X21, . . . , X2n2
), on les estimera avec
la formule
s21 = 1
n1−1
∑n1i=1(x1i − x1)
2 =n1n1−1
(1n1
∑n1i=1 x
21i − x2
1
),
s22 = 1
n2−1
∑n2i=1(x2i − x2)
2 =n2n2−1
(1n2
∑n2i=1 x
22i − x2
2
),
(13)
ou x1 = 1n1
∑n1i=1 x1i et x2 = 1
n2
∑n2i=1 x2i. Au risque α on donnera donc
l’intervallex1 − x2 − uα
√s2
1
n1
+s2
2
n2
, x1 − x2 + uα
√s2
1
n1
+s2
2
n2
,pour estimer µ1 − µ2.
Exemple 26. On a analyse le taux d’acide urique dans deux populations A
et B ayant un regime alimentaire different. Sur le groupe A, constitue de
105
150 personnes, on a observe une moyenne xA = 56 mg/l avec un ecart-
type sA = 8.5 mg/l. Le groupe B etait constitue de 120 personnes, on a
observe une moyenne xB = 60 mg/l avec un ecart-type sB = 11.5 mg/l.
Au risque α = 5% donner un intervalle de confiance pour la difference de
moyennes.
Reponse : On a uα = 1.96 et l’intervalle demande est
I =
[56− 60− 1.96×
√8.52
150 + 11.52
120 , 56− 60 + 1.96×√
8.52
150 + 11.52
120
],
= [−6.47,−1.53] .
• [Intervalle de confiance pour la difference des proportions] Considerons deuxpopulations dont les proportions des individus appartenant a une classe C sontdonnees par p1 et p2, respectivement. On tire deux echantillons independantsde taille n1 ≥ 30 et n2 ≥ 30. Soient p1 et p2 les proportions observees dansles echantillons tires de la population 1 et de la population 2, respectivement.En raisonnant comme precedemment on estimera p1 − p2 , au risque α, par
106
l’intervallep1 − p2 − uα
√p1(1− p1)
n1+p2(1− p2)
n2, p1 − p2 + uα
√p1(1− p1)
n1+p2(1− p2)
n2
, [Intervalles de confiance pour des petits echantillons et distributions normales]
L’hypothese fondamentale est que la distribution sous-jacente et normale
N (µ, σ). On verra seulement comment construire un intervalle de confiance pour
µ, mais on pourrait aussi considerer la difference de deux moyennes µ1 et µ2 de
deux populations differentes. Supposons d’abord que σ est connu. Puisque
Z :=X − µ
σ√n
∼ N (0, 1)
l’intervalle de confiance est donne par
[x− uασ√n, x+ uα
σ√n
].
107
Exemple 27. On a pese dix pots de confiture et on a observe les valeurs (en
grammes)
259, 239, 246, 242, 252, 258, 241, 263, 254, 240.
On sait que l’ecart-type du remplissage est de 6 grammes. Au seuil de confiance
de 95% donnons un intervalle de confiance du poids moyen. On trouve x =
249.4 et donc l’intervalle de confiance est[249.4− 1.96× 6√
10, 249.4 + 1.96× 6√
10
]= [245.68, 253.12].
Si σ est inconnu on rappelle que lorsqu’on a introduit la loi de student, on a vu
que pour un echantillon X1, . . . , Xn on a
X − µ√S2
n−1
∼ T (n− 1) ou S2
:=
∑ni=1(Xi − X)2
n.
En utilisant la table pour la distribution de la loi de student on peut trouver
108
tn−1,α tel que
P
∣∣∣∣∣∣∣X − µ√
S2
n−1
∣∣∣∣∣∣∣ ≤ tn−1,α
= 1− α,
et donc l’intervalleX − tn−1,α
√S2
n− 1, X + tn−1,α
√S2
n− 1
a une probabilite 1−α de contenir µ. Si on observe x1, . . . , xn pour l’echantillon,
on donnera comme intervalle[x− tn−1,α
s√n, x+ tn−1,α
s√n
]
Exemple 28. Reprenons l’exemple precedent mais sans l’information sur la
109
variance. On a
s2
=1
9
10∑i=1
(xi − x) = 79.15 et donc s = 8.89.
D’une autre part, la table de student avec 10 − 1 = 9 degres de liberte nous
donne t9,0.05 = 2.262 et donc l’intervalle est[249.4− 2.262× 8.89√
10, 249.4 + 2.262× 8.89√
10
]= [243.04, 255.76].
110
Tests d’hypotheses
[Test d’hypothese pour une moyenne µ : grands echantillons] Supposons que
d’une population X on preleve un echantillon X1, . . . , Xn, ou n est grand
(≥ 30), afin de determiner si oui ou non, la moyenne µ est egale a une constante
donnee µ0. On considere les deux hypotheses
H0 : µ = µ0, H1 : µ 6= µ0.
Supposons d’abord que l’ecart σ de la population X est connu. Si H0 est vraie,
alors le theoreme limite centrale nous dit que approximativement
√n(X − µ0
)σ
∼ N (0, 1).
111
Etant donne un risque α il existe uα tel que
P
(∣∣∣∣∣√n(X − µ0
)σ
∣∣∣∣∣ ≥ uα)
= α,
d’ou
P(X ∈
[µ0 − uα
σ√n, µ0 + uα
σ√n
]c)= α.
Ceci conduit au critere suivant : Si la moyenne observee x n’appartient pas a
l’intervalle [µ0 − uα
σ√n, µ0 + uα
σ√n
]alors, au risque α, on rejettera H0.
En pratique, σ n’est pas connue. Dans ce cas, dans les formules ci-dessus on
remplacera σ par s.
Exemple 29. Le taux moyen d’acide urique dans le sang est 50 mg/l, avec
112
un ecart type de 10 mg/l. Une analyse effectuee sur un groupe de 80 patients
a revele un taux moyen de 65 mg/l. Au risque de 5%, peut-on considerer ce
resultat comme normal ?
Reponse : On considere les hypotheses
H0 : µ = 50, H1 : µ 6= 50.
Au risque α = 0.05 on obtient uα = 1.96 et on trouve l’intervalle
I =
[50− 1.96× 10√
80, 50 + 1.96× 10√
80
]= [47.809, 52.191].
Puisque 65 /∈ I, au risque de 5%, on considere que le resultat n’est pas normal.
[Test d’hypothese sur la difference de deux moyennes : grands echantillons] Soient
X11, . . . , X1n1et X21, . . . , X2n2
deux echantillons correspondants a deux
populations. On supposera que n1 ≥ 30, n2 ≥ 30 et que les deux echantillons
sont independants. Soient µ1 et σ1 la moyenne et l’ecart dans la population 1 et
113
µ2 et σ2 la moyenne et l’ecart dans la population 2. Approximativement, par le
TCL, on a
X1 − X2 ∼ N
µ1 − µ2,
√σ2
1
n1
+σ2
2
n2
. (14)
Considerons l’hypothese
H0 : µ1 = µ2,
et l’hypothese alternative
H1 : µ1 6= µ2.
Supposons d’abord que σ1 et σ2 sont connus. Grace a (14), si H0 est vrai, on
peut trouver uα > 0 tel que
P
X1 − X2 ∈
−uα√σ2
1
n1
+σ2
2
n2
, uα
√σ2
1
n1
+σ2
2
n2
c = α.
Au risque α on acceptera H1 si la difference de moyennes observees x1 − x2
114
n’appartient pas a l’intervalle
−uα√σ2
1
n1
+σ2
2
n2
, uα
√σ2
1
n1
+σ2
2
n2
.En pratique, σ n’est pas connue. Dans ce cas, dans les formules ci-dessus on
remplacera σ par s.
Exemple 30. Lors d’un examen, les copies de deux amphitheatres on ete cor-
rigees par le meme examinateur. Dans le premier amphitheatre, il y a 125
candidats, on observe une moyenne de 10.3 et un ecart-type de 4.6. Dans le
deuxieme amphitheatre, il y a 163 candidats, on observe une moyenne de 11.2 et
un ecart-type de 3.9. Au risque d’erreur de 10% peut-on considerer les resultats
de ceux deux amphis comme homogenes ?
Reponse : On considere l’hypothese d’homogeneite de moyennes
H0 : µ1 = µ2
115
Au risque α = 0.1 on a uα = 1.645. On considere l’intervalle
I =
−1.645×√
4.62
125+
3.92
163, 1.645×
√4.62
125+
3.92
163
= [−0.843, 0.843].
Puisque 11.2 − 10.3 = 0.9 /∈ I on rejettera l’hypothese d’homogeneite au
risque d’erreur 10%.
[Test d’hypothese sur une proportion : grands echantillons] Considerons une
population dont la proportion d’individus appartenant a une classe C est p. On
considere un echantillon de taille n ≥ 30 et on note S le nombre de resultats
appartenant a la classe C. Puisque S ∼ B(n, p), par le TCL approximativement
S ∼ N(np,
√np(1− p)
).
On considere l’hypothese
H0 : p = p0
116
et l’hypothese alternative
H1 : p 6= p0.
En raisonnant comme precedemment on acceptera H1, au risque α, si la
proportion observee p satisfait
p /∈
p0 − uα
√p0(1− p0)
n, p0 + uα
√p0(1− p0)
n
.Si
p ∈
p0 − uα
√p0(1− p0)
n, p0 + uα
√p0(1− p0)
n
,on acceptera H0.
Exemple 31. La proportion de bacheliers au niveau national chez les jeunes de
20 ans est de 73%. Pour verifier si la population d’une ville correspond a cette
proportion, on choisit au hasard 150 jeunes de 20 ans habitant cette ville. On
observe 107 bacheliers. Au risque de 5% la proportion de bacheliers est-elle
117
conforme a la proportion nationale ?
Reponse : On considere l’hypothese de conformite
H0 : p = 0.73
Au niveau de risque α = 0.05 on trouve uα = 1.96 et l’intervalle
I =
0.73− 1.96×√
0.73(1− 0.73)
150, 0.73 + 1.96×
√0.73(1− 0.73)
150
= [0.656, 0.801].
Puisque p = 107/150 = 0.713 ∈ I, au risque de 5% la proportion de
bacheliers est conforme a la proportion nationale.
[Test d’hypothese sur la difference de deux proportions : grands echantillons]
Considerons deux populations dont les proportions des individus appartenant a
une classe C sont donnees par p1 et p2, respectivement. On tire deux echantillons
independants de taille n1 ≥ 30 et n2 ≥ 30. Soient p1 et p2 les proportions
observees dans les echantillons tires de la population 1 et de la population 2,
118
respectivement. On veut tester au risque α l’hypothese
H0 : p1 = p2,
contre l’hypothese
H1 : p1 6= p2.
On acceptera H0 si
p1 − p2 ∈
−uα√p(1− p)
(1
n1
+1
n2
), uα
√p(1− p)
(1
n1
+1
n2
) ,ou
p =n1p1 + n2p2
n1 + n2
.
Exemple 32. On veut comparer les taux d’allergie dans deux villes A et B.
Dans la ville A, sur un echantillon de 600 personnes, on observe 120 individus
119
allergiques. Dans la ville B, sur un echantillon de 400 personnes, on observe
104 individus allergiques. Les resultats de ces deux villes sont-ils homogenes ?
On prendra un coefficient de risque de 10%.
Reponse : On considere l’hypothese
H0 : p1 = p2.
Au risque α = 0.1 on trouve uα = 1.645. Puisque p1 = 120/600 = 0.2 et
p2 = 104/400 = 0.26
p =120 + 104
1000= 0.224.
on trouve l’intervalle
I =
[−1.645×
√0.224(1− 0.224)
(1
600 + 1400
), 1.645×
√0.224(1− 0.224)
(1
600 + 1400
)]= [−0.0443, 0.0443].
On a p1− p2 = −0.06 /∈ I et donc, au risque de 10%, les resultats ne sont pas
homogenes.
120
[Test d’hypothese pour une moyenne : petits echantillons et populations normales]
Supposons que nous disposons d’un echantillon X1, . . . , Xn d’une population
N (µ, σ) d’ecart type inconnu. On a vu que si
X :=
∑ni=1Xi
net S
2:=
∑ni=1(Xi − X)2
n,
on a
nS2/σ
2 ∼ χ2n−1 et
X − µ√S2
n−1
∼ T (n− 1).
Etant donne un risque α, alors il existe tn−1,α (qu’on trouve a l’aide de la table
de la loi de Student), tel que sous l’hypothese
H0 : µ = µ0,
P(X /∈
[µ0 − tn−1,α
S√n− 1
, µ0 + tn−1,α
S√n− 1
])= α.
121
En pratique, si on observe x pour la variable aleatoire X et s pour S on rejettera
H0 si
x /∈[µ0 − tn−1,α
s√n− 1
, µ0 + tn−1,α
s√n− 1
]Ou, de facon equivalente, si
x /∈[µ0 − tn−1,α
s√n, µ0 + tn−1,α
s√n
].
Exemple 33. On pese 15 pots de confiture, et on obtient les valeurs (en
grammes)
253, 247.4, 247, 246, 251, 255, 244, 245, 243.5, 254.5, 243.6,
247.3, 249, 248.6, 247.2.
Le poids d’un pot est suppose suivre une loi normale N (µ, σ). Tester, au seuil
122
de confiance de 95%, l’hypothese
H0 : µ = 250.
Reponse : Pour α = 0.05 et n = 15 on trouve tn−1,α = 2.145. Sous
l’hypothese H0
P(X ∈
[250− 2.145
S√14, 250 + 2.145
S√14
])= 0.95.
Puisque s = 3.623 on trouve l’intervalle
I =
[250− 2.145
3.623√14, 250 + 2.145
3.623√14
]= [247.923, 252.077]
La moyenne observee x est egale a 248.14 ∈ I et nous devons accepter H0.
[Test d’hypothese pour la difference de deux moyennes : petits echantillons et
populations normales] SoientX11, . . . , X1n1etX21, . . . , X2n2
deux echantillons
123
correspondants a deux populations N (µ1, σ1) et N (µ2, σ2) (inconnu). On
supposera que les deux echantillons sont independants et que σ1 = σ2. Soient
X1 = 1n1
∑n1i=1X1i, X2 = 1
n2
∑n2i=1X2i,
S21 = 1
n1
∑n1i=1X
21i − X2
1 , S22 = 1
n2
∑n1i=1X
22i − X2
2 .
Puisque
n1S21/σ
2 ∼ χ2n1−1, n2S
22/σ
2 ∼ χ2n2−1
et on peut demontrer que la somme de deux variables χ2k1
et χ2k2
independantes
est une variable χ2k1+k2
, on a
n1S21/σ
2+ n2S
22/σ
2 ∼ χ2n1+n2−2.
Si on definit
S2
=n1S
21 + n2S
22
n1 + n2 − 2,
124
par definition de la loi de student on trouve que (exercice)
X1 − X2 − (µ1 − µ2)
S√
1n1
+ 1n2
∼ T (n1 + n2 − 2).
Alors, sous l’hypothese
H0 : µ1 = µ2,
et pour un risque α donne, on trouve t = tn1+n2−2,α tel que
P
(X1 − X2 /∈
[−tS
√1
n1
+1
n2
, tS
√1
n1
+1
n2
])= α.
En pratique, si on observe x1, x2 pour X1 et X2 et s1, s2 pour S1 et S2, on
rejettera H0 si
x1 − x2 /∈[−ts
√1
n1
+1
n2
, ts
√1
n1
+1
n2
],
125
ou
s2
=n1s
21 + n2s
22
n1 + n2 − 2.
Exemple 34. Deux machines fabriquent des barres metalliques. On mesure au
hasard les longueurs de 16 barres issues de la premiere machine, et on obtient
les 16 valeurs
181, 179, 178, 183, 180.5, 177, 176.8, 173.7, 179, 180.1,
180, 181.3, 176.5, 177.1, 178.3, 175.5.
Un echantillon de 9 barres de la seconde machine donne les 9 valeurs
172, 178, 175.5, 176, 174.4, 178.4, 176.7, 177, 175.7.
Les longueurs des barres du premier echantillon suivent une loi normale
N (µ1, σ) et celles du second echantillon suivent une loi normale N (µ2, σ),
ou σ est inconnu.
126
Tester au risque d’erreur de 5% l’hypothese d’homogeneite
H0 : µ1 = µ2.
Reponse : Ici n1 = 16, n2 = 9. Pour α = 0.05 on trouve tn1+n2−2,α = 2.069.
Ceci implique que
P
(X1 − X2 /∈
[−2.069S
√1
16+
1
9, 2.069S
√1
n1
+1
n2
])= 0.05.
Les statistiques observees sont donnees par
x1 = 178.55, x2 = 175.96667, s21 = 5.44, s
22 = 3.3488889,
d’ou
s =
√16× 5.44 + 9× 3.3488889
23∼ 2.257,
127
ce qui donne l’intervalle
I =[−2.069× 2.257
√116 + 1
9, 2.069× 2.257√
116 + 1
9
],
∼ [−1.95, 1.95] .
Puisque x1 − x2 = 2.58333 /∈ I on rejettera l’hypothese d’homogeneite H0.
[Test de conformite khi-deux] Considerons une population dont la proportion
d’individus appartenant a la classe Ci (i = 1, . . . , r) est donnee par pi. On
suppose que∑r
i=1 pi = 1. On preleve un echantillon de taille n et on veut tester
l’hypothese
H0 : pi = pi pour tout i = 1, . . . , r.
Soit Xi = nombre de resultats appartenant a la classe Ci. Si l’hypothese H0 est
vraie, alors on sait que
X = (X1, . . . , Xr) ∼MN(n; p1, . . . , pr)
128
et grace au theoreme central limite
D :=
r∑i=1
(Xi − npi)2
npi∼ χ2
r−1.
La propriete ci-dessus implique que pour un risque donne α il existe χ2r−1,α (qui
peut etre trouve a l’aide de la table pour la distribution χ2) tel que
P(D > χ
2r−1,α
)= α.
En pratique, la propriete ci-dessus induit le test suivant : Si l’on observe la valeur
xi pour Xi alors on rejettera l’hypothese H0 si
d =r∑i=1
(xi − npi)2
npi> χ
2r−1,α.
Remarque 13. Il faut s’assurer que les effectifs theoriques npi i = 1, . . . , r
sont superieurs a 5 et donc faire de regroupements de classes si c’est necessaire.
129
Exemple 35. Les notes a un examen national se sont reparties de la maniere
suivante :
notes [0; 4] [5; 7] [8; 9] [10; 12] [13; 15] [16; 20]
frequence 10% 8% 18% 42% 10% 12%
les notes relevees dans un etablissement scolaire A sont les suivantes :
notes [0; 4] [5; 7] [8; 9] [10; 12] [13; 15] [16; 20]
effectif 18 10 15 60 20 24
Au risque d’erreur de 5%, la distribution des notes de cet etablissement est-elle
conforme aux resultats nationaux ?Reponse : Pour la distribution de notes dans l’etablissement scolaire A on fait
l’hypothese
H0 : p1 = 0.1, p2 = 0.08, p3 = 0.18, p4 = 0.42 p5 = 0.1 p6 = 0.12.
Pour un risque α donne, on a χ25,0.05 = 11.07. Or, l’effectif total est egal a 147
130
et les effectifs attendus sont donnes par
np1 = 14.7, np2 = 11.76, np3 = 26.46, np4 = 61.74, np5 = 14.7, np6 = 17.64.
Puisque,
d = (18−14.7)2
14.7 + (10−11.76)2
11.76 + (15−26.46)2
26.46 + (60−61.74)2
61.74
+(20−14.7)2
14.7 + (24−17.64)2
17.64 = 10.220603 < 11.07,
la distribution est conforme aux resultats nationaux.
On peut aussi considerer des tests de conformite a une loi donnee ou les
parametres sont inconnus. Dans ce cas, il faut enlever a la variable khi-deux un
nombre de degres de liberte egale au nombre de parametres estimes.
Exemple 36. On observe le nombre X d’accidents journaliers sur une periode
131
de 50 jours dans une certaine ville. On obtient :
Nombre d’accidents Nombre de jours
0 21
1 18
2 7
3 3
4 1
On constate une moyenne observee x = 0.9 et une variance observe s2X = 0.97. Au risque
d’erreur du 5%, peut-on affirmer que X suit une loi de Poisson ?
Reponse : On fait l’hypothese
H0 : X suit une loi de Poisson.
Si H0 est vrai alors on peut estimer le parametre λ de la loi de Poisson par
λ = E(X) ∼ x = 0.9 et les probabilites theoriques de X = 0, X = 1 et
132
X ≥ 2 par
P(X = 0) = e−0.9, P(X = 1) = 0.91
1! e−0.9,
P(X ≥ 2) = 1− P(X ≤ 1)
et on peut dresser le tableau suivant en multipliant par 50 les probabilites
ci-dessus pour trouver les effectifs theoriques :
Nombre d’accidents Nombre de jours Nombre de jours theorique
0 21 20.33
1 18 18.295
≥ 2 11 11.376
On calcule
d =(21− 20.33)2
20.33+
(18− 18.295)2
18.295+
(11− 11.376)2
11.376= 0.039
Or, on a estime un parametre (λ), donc on doit considerer une variable chi-deux
133
a 50 − 1 − 1 = 48 degres de liberte. Au niveau de risque de 5% on trouve
χ23−1−1,0.05 = χ2
1,0.05 = 3.841. Donc, q ≤ χ21,0.05 et on accepte H0.
[Test d’independance khi-deux] On considere deux variables aleatoires X et Y .
On suppose que
Im(X) = x1, . . . , xp, Im(Y ) = y1, . . . , yq.
Supposons que nous prenons un echantillon de N individus. Pour i = 1, . . . , p
et j = 1, . . . , q soient
Ni,j := nombre de fois que les valeurs X = xi et Y = yj sont prises,
Ni· := nombre de fois que la valeur X = xi est prise =∑q
j=1Ni,j,
N·j := nombre de fois que la valeur Y = yj est prise =∑p
i=1Ni,j,
Nous voudrions tester l’hypothese d’independance
H0 : X est independante de Y.
134
Si H0 est vraie, alors si l’on definit
Ntheoi,j :=
Ni·N·jN
,
on peut montrer que
D :=
p∑i=1
q∑j=1
(Ni,j −N theo
i,j
)2
N theoi,j
.
suit approximativement une loi de
χ2(p−1)(q−1).
A partir des valeurs observees ni,j pour Ni,j, ni· =∑q
j=1 ni,j pour Ni·,
n·j =∑p
i=1 ni,j pour N·j et ntheoi,j = ni·n·j/n on va a tester H0. Au niveau
135
de risque α, on rejettera H0 si la valeur observee
d :=
p∑i=1
q∑j=1
(ni,j − ntheoi,j
)2
ntheoi,j
de D est superieur a χ2(p−1)(q−1),α.
Exemple 37. Une statistique effectuee sur 800 personnes donne la repartition
suivante :
X \ Y gros fum. moyen fum. petits fum. non fumeurs ni·hypertension 74 116 68 82 340
pas d’hypert. 126 174 82 78 460
n·j 200 290 150 160 800
Tester au risque 10% l’independance entre l’hypertension et la consommation
de tabac.
136
Reponse : On fait l’hypothese
H0 : L’hypertension est independante de la consommation de tabac.
On remplit le tableau d’effectifs theoriques
X \ Y gros fum. moyen fum. petits fum. non fumeurs ni·hypertension 85 123.25 63.75 68 340
pas d’hypert. 115 166.75 86.25 92 460
n·j 200 290 150 160 800
Par exemple
123.25 = n1·n·2/n = 340× 290/800.
Nous calculons
d =(74− 85)2
85+ . . .+
(78− 92)2
92= 8.721
et χ2(1×3),0.1 = χ2
3,0.1 = 6.251. Puisque d > χ23,0.1 on rejette l’hypothese
137
d’independance.
[Test d’homogeneite khi-deux] Formellement, le but ici est de tester si q
populations sont homogenes en ce qui concerne la distribution d’une variable
aleatoire X. On suppose que
Im(X) = x1, . . . , xp
On preleve un echantillon pour chaque population. La taille de l’echantillon
associe a la population j-eme (j = 1, . . . , q) est donne par nj. On note
n = n1 + . . . + nq la taille de l’echantillon global. Soit Ni,j le nombre de fois
que la valeur xi est prise dans la population j et Ni· :=∑q
j=1Nij le nombre de
fois que la valeur xi est prise dans la population globale. Sous l’hypothese
H0 := les populations sont homogenes
138
on peut montrer que
D :=
p∑i=1
q∑j=1
(Ni,j −N theo
i,j
)2
N theoi,j
, ou Ntheoi,j := nj
Ni·n,
suit approximativement une loi chi deux a (p− 1)(q − 1) degres de liberte.
Donc, pour tester l’hypothese, au niveau de risque α, nous calculons la valeur d
de D observee
d :=
p∑i=1
q∑j=1
(ni,j − ntheoi,j
)2
ntheoi,j
,
ou ni,j est la valeur observee de Ni,j et
ntheoi,j = nj
ni·n
avec ni· :=q∑j=1
ni,j.
Si d > χ2(p−1)(q−1),α, au risque d’erreur α on rejettera l’hypothese d’homogeneite.
139
Exemple 38. Dans deux echantillons de populations d’une meme espece, d’effec-
tifs respectifs 100 et 400, on denombre 4 phenotypes A1, . . . , A4. Les resultats
sont les suivants
Phenotype \ Population Population 1 Population 2 ni·A1 10 60 70
A2 30 120 150
A3 50 180 230
A4 10 40 50
Taille d’echantillons 100 400 500
Au risque de 5%, les deux populations presentent-elles les memes proportions
de phenotypes ?
Reponse : On fait l’hypothese
H0 : Les proportions de phenotypes sont les memes.
On remplit le tableau d’effectifs theoriques :
140
Phenotype \ Population Population 1 Population 2 ni·A1 14 56 70
A2 30 120 150
A3 46 184 230
A4 10 40 50
Taille d’echantillons 100 400 500
Par exemple 184 = 400× 230/500. Puis, on calcule
d =(10− 14)2
14+ . . .+
(40− 40)2
40= 1.87.
et χ23×1,0.05 = χ2
3,0.05 = 7.815. Puisque d ≤ χ23,0.05 on accepte l’homogeneite.
141