Introduction a la statistique - unilim.fr

142
Introduction ` a la statistique F. J. Silva Universit´ e de Limoges Email : [email protected] Septembre 2016

Transcript of Introduction a la statistique - unilim.fr

Page 1: Introduction a la statistique - unilim.fr

Introduction a la statistique

F. J. SilvaUniversite de Limoges

Email : [email protected]

Septembre 2016

Page 2: Introduction a la statistique - unilim.fr

Table des matieres

— Cours 1 : Statistiques descriptives univariees.

— Cours 2 : Statistiques descriptives bivariees.

— Cours 3 : Rappels de probabilites et variables aleatoires discretes.

— Cours 4 : Variables aleatoires continues.

— Cours 5 : Estimation et intervalles de confiance.

— Cours 6 : Tests d’hypothese.

— Cours 7 : Tests χ2.

1

Page 3: Introduction a la statistique - unilim.fr

A savoir

— Les documents du cours seront disponibles sur l’espace pedagogiquedisponible sur l’ENT de l’universite.

— Un modele de machine a calculer est impose aux examens : HP10Sou HP10S+.

— Pour l’examen une feuille A4 (recto-verso) avec un formulaire ou unresume de cours est autorisee.

2

Page 4: Introduction a la statistique - unilim.fr

Ch. 1 : Statistiques descriptives univariees

But : La statistique descriptive a pour but d’etudier une population a partir

de donnees. Cette description se fait a travers la presentation des donnees (la

plus synthetique possible), leur representation graphique et le calcul d’indicateurs

numeriques.

Quelques definitions :

— L’ensemble sur lequel porte l’activite statistique s’appelle la population,

generalement notee par Ω. N est le nombre d’elements de la population.

— Quelquefois si N est trop grand on prend un echantillon, c’est a dire un

sous-ensemble de Ω note par S preleve soit de facon aleatoire soit de facon

non aleatoire, et on etudiera les indicateurs numeriques sur S.La taille de

l’echantillon est note par n.

— Les elements qui constituent la population (ou l’echantillon) sont appeles les

individus.

3

Page 5: Introduction a la statistique - unilim.fr

— Un caractere (appele aussi variable) est une caracteristique que possede chacun

des individus de la population. Mathematiquement, il s’agıt d’une application

X : Ω→ C ou C est “l’ensemble des valeurs possibles du caractere”.

Exemple 1. Le personnel d’une entreprise peut etre decrit selon divers ca-

racteres : age, sexe, qualification, anciennete dans l’entreprise, commune

de residence, etc.

— Si x ∈ C on dit que x est une modalite.

— Le caractere peut etre quantitatif (ex. le poids d’un individu) ou qualitatif (ex.

le sexe).

— Lorsque le caractere est quantitatif, on parle de variable statistique.

— Si le caractere est quantitatif et C est discret (c.a.d. identifiable a une partie

de N) on dit que le caractere est discret. Autrement, on dit que le caractere

4

Page 6: Introduction a la statistique - unilim.fr

est continue. Quelquefois : continu est une approximation d’un tres grand

nombre de valeurs possibles (ex. le revenu annuel exprime en e).

Exemple 2. Pendant un ete un jardinier a ramasse des haricots (la population)

de quatre especes differentes. Il a releve pour chacun des haricots les caracteres

suivants : masse, taille, nombre de graines, la masse seche et l’espece.

Soit X un caractere de modalites x1, . . . , xp. On suppose que

x1 ≤ . . . ≤ xp.

— L’effectif de la modalite xi ∈ C du caractere X est le nombre ni de fois que

la valeur xi est prise.

— La frequence de xi est egale a fi = ni/N . La frequence est parfois multipliee

par 100, de facon a representer un pourcentage.

— L’effectif cumule jusqu’a xi est egal a la somme∑i

j=1 nj.

5

Page 7: Introduction a la statistique - unilim.fr

— La frequence du caractereX cumulee jusqu’a la valeur xi est egale a∑i

j=1 fj.

— La serie statistique (xi, ni)i=1,...,p ou (xi, fi)i=1,...,p est appelee distribution

statistique.

6

Page 8: Introduction a la statistique - unilim.fr

1

df1.xls

masse taille graines masse_sec espece28,6 19,1 4 9,3 "glycine blanche"20,6 14,8 3 7,7 "glycine blanche"29,2 19,7 5 10,4 "glycine blanche"

32 21,1 7 11,5 "glycine blanche"24,5 19,4 4 8,4 "glycine blanche"

29 19,5 4 10,3 "glycine blanche"28,9 18,9 4 10,1 "glycine blanche"18,2 14,6 2 6,3 "glycine blanche"7,9 10,2 1 2,7 "glycine blanche"

15,5 14,6 2 5,5 "glycine blanche"22,6 16,4 2 8,3 "glycine blanche"35,5 21,1 6 13,1 "glycine blanche"32,5 20,7 5 11,4 "glycine blanche"28,7 18,7 5 10,5 "glycine blanche"

26 17,6 3 9,5 "glycine blanche"13,5 13,2 2 4,7 "glycine blanche"16,4 14 2 6 "glycine blanche"12,5 12 3 4,3 "glycine blanche"26,2 18,3 5 9,1 "glycine blanche"22,6 17,8 2 8,2 "glycine blanche"9,7 10,7 1 3,3 "glycine blanche"

21,8 16,5 3 7,2 "glycine blanche"17,2 14,5 3 5,9 "glycine blanche"25,2 17,5 4 9,1 "glycine blanche"

12 12,2 2 4,2 "glycine blanche"6,3 8,6 1 2,2 "glycine blanche"

7 9,1 1 2,5 "glycine blanche"20,4 17 4 7,1 "glycine blanche"

18 15,3 3 6,3 "glycine blanche"21,1 15,8 4 7,3 "glycine blanche"18,2 15,9 2 5,8 "glycine blanche"15,2 12,2 3 5,2 "glycine blanche"19,8 16,1 4 6,6 "glycine blanche"21,4 16 3 7,5 "glycine blanche"

15 13,8 1 5,1 "glycine blanche"16,4 14,4 2 5,3 "glycine blanche"17,3 14,2 5 5,9 "glycine blanche"16,4 15,7 2 6,1 "glycine blanche"13,5 12,6 2 4,8 "glycine blanche"13,6 12 3 4,5 "glycine blanche"14,6 12,8 4 4,6 "glycine blanche"16,9 15,3 3 5,9 "glycine blanche"11,7 12,4 2 4,1 "glycine blanche"

14 14,5 2 5 "glycine blanche"14,6 12,3 2 5,3 "glycine blanche"10,3 11,8 2 3,8 "glycine blanche"11,3 12,6 2 4 "glycine blanche"10,7 11,3 2 3,9 "glycine blanche"10,9 Ω 3 3,6 "glycine blanche"

20 16,1 4 7,2 "glycine blanche"21,5 16,2 2 7,7 "glycine blanche"

12 11,3 2 4,3 "glycine blanche"6,1 8,6 1 2,2 "glycine blanche"5,4 8,2 1 2,1 "glycine blanche"40 24,5 7 17,4 "glycine violette"

49,2 27 7 16,2 "glycine violette"46 25,8 5 13,9 "glycine violette"

26,4 18,7 3 8,3 "glycine violette"42,2 25,2 5 15,5 "glycine violette"48,4 25,8 4 16,2 "glycine violette"23,9 19,2 4 8 "glycine violette"31,7 21,4 5 10,9 "glycine violette"

2

df1.xls

masse taille graines masse_sec espece16,8 12 4 5,3 "glycine violette"21,6 14 5 7,2 "glycine violette"24,1 18,5 3 8,1 "glycine violette"13,5 12,8 3 4,5 "glycine violette"22,4 13,8 3 7,5 "glycine violette"26,1 17,3 6 8,8 "glycine violette"12,9 12,4 3 4,6 "glycine violette"26,6 20 5 8,9 "glycine violette"29,6 20,5 3 9,7 "glycine violette"22,4 18,2 3 7 "glycine violette"17,3 13,3 3 5,8 "glycine violette"16,6 13,5 4 5,6 "glycine violette"12,8 12 2 4,5 "glycine violette"19,1 14,5 3 6,7 "glycine violette"12,4 11,6 2 4,3 "glycine violette"8,8 9,2 2 3,3 "glycine violette"

13,2 15,1 3 4,1 "glycine violette"15,9 12,2 3 5,3 "glycine violette"13,3 11,2 2 5 "glycine violette"6,3 8,4 1 2,3 "glycine violette"

12,9 11,5 2 4,5 "glycine violette"6,2 7,8 1 2,2 "glycine violette"8,6 9,8 2 3 "glycine violette"

14,4 11,6 2 5,1 "glycine violette"11,5 9,8 2 4 "glycine violette"11,5 11 2 3,9 "glycine violette"12,8 10,6 2 5 "glycine violette"11,7 11,1 2 4,2 "glycine violette"15,7 14 3 6,1 "glycine violette"

12 11,4 2 4,3 "glycine violette"13,4 11,1 2 4,2 "glycine violette"11,3 10,7 2 3,7 "glycine violette"6,6 7,9 1 2,5 "glycine violette"

17,8 13,7 4 6,3 "glycine violette"9,6 10 2 3,2 "glycine violette"

14,3 12,8 3 5,3 "glycine violette"14 12,2 2 5,2 "glycine violette"

11,3 11,4 3 4,2 "glycine violette"10,2 10,2 3 3,8 "glycine violette"12,2 10,8 3 4,7 "glycine violette"15,9 13 4 5,5 "glycine violette"11,7 10,3 2 4,5 "glycine violette"12,4 11 2 4,1 "glycine violette"11,5 11,4 2 4,5 "glycine violette"10,6 10,5 2 4 "glycine violette"9,4 9,2 2 3,3 "glycine violette"9,2 9,9 2 3,5 "glycine violette"6,1 8,4 1 2,5 "glycine violette"

10,9 12,8 NA 3 "bignone"6,6 10,5 NA 1,1 "bignone"

22,5 18 NA 3,4 "bignone"33,7 21,5 NA 6,6 "bignone"20,6 17,8 NA 3,5 "bignone"16,6 16,3 NA 4,3 "bignone"14,2 17,4 NA 2,1 "bignone"13,8 15,7 NA 2,1 "bignone"

14 17,3 NA 2,4 "bignone"8,7 13,4 NA 2,2 "bignone"

14,2 13,9 NA 3,2 "bignone"10,6 14,6 NA 1,7 "bignone"10,9 14,2 NA 1,6 "bignone"3,3 8,9 NA 0,5 "bignone"

3

df1.xls

masse taille graines masse_sec espece9,3 12,2 NA 1,9 "bignone"

17,2 16,5 NA 2,4 "bignone"10,1 14,7 NA 2,3 "bignone"

9 13,4 NA 2,9 "bignone"7,1 11,6 NA 1,5 "bignone"7,1 12,9 NA 1,6 "bignone"1,5 6,5 NA 0,2 "bignone"4,1 9,5 NA 1,4 "bignone"

8 11,8 NA 2,2 "bignone"7,4 13,6 NA 1,9 "bignone"7,2 12,9 NA 1,1 "bignone"6,9 11,6 NA 1,3 "bignone"2,9 9,4 NA 0,8 "bignone"2,4 9,5 NA 1,1 "bignone"

10,7 14 NA 2,3 "bignone"13,8 13,5 NA 3,5 "bignone"10,9 12,1 NA 1,7 "bignone"10,3 11,6 NA 2 "bignone"8,8 13,4 NA 1,7 "bignone"

9 10,9 NA 2,5 "bignone"8,2 12,2 NA 1,7 "bignone"9,6 13,4 NA 1,2 "bignone"

9 12,5 NA 1,7 "bignone"5,3 10,5 NA 0,9 "bignone"1,5 7 NA 0,7 "bignone"6,7 13,2 NA 1,1 "bignone"2,9 9,3 NA 0,6 "bignone"2,9 7,9 NA 1 "bignone"3,5 10,3 NA 1,2 "bignone"3,4 7,5 NA 1,1 "bignone"4,9 8,5 NA 1,5 "bignone"4,7 10,1 NA 1,2 "bignone"4,7 8,3 NA 1,3 "bignone"5,2 10,8 NA 0,9 "bignone"2,1 8,3 NA 0,5 "bignone"2,2 7,1 NA 0,5 "bignone"1,4 6,4 NA 0,6 "bignone"2,7 6,5 NA 0,4 "bignone"

1 4,8 NA 0,4 "bignone"2,5 7,4 NA 0,8 "bignone"5,5 9,3 NA 0,9 "bignone"2,7 8,6 NA 0,9 "bignone"6,7 9,9 NA 2 "bignone"7,3 13,9 NA 1,1 "bignone"2,9 8,7 NA 1,3 "bignone"3,8 9,3 NA 1 "bignone"7,6 13,7 NA 2,6 "bignone"3,6 8,3 NA 1,5 "bignone"

3 8,1 NA 1 "bignone"5,8 11,2 NA 2 "bignone"5,3 12 NA 1,1 "bignone"3,2 11,3 NA 1,5 "bignone"4,4 6,7 NA 1,5 "bignone"3,4 10,6 NA 1,4 "bignone"2,9 8,9 NA 0,9 "bignone"4,9 15,3 NA 1,2 "laurier rose"6,2 15,9 NA 1,1 "laurier rose"

4 15 NA 0,7 "laurier rose"3,3 11 NA NA "laurier rose"4,8 15,1 NA 0,8 "laurier rose"5,6 15,6 NA 1 "laurier rose"

4

df1.xls

masse taille graines masse_sec espece3,9 12,6 NA 1,1 "laurier rose"5,8 16,8 NA 0,9 "laurier rose"4,7 13,6 NA 1 "laurier rose"

6 15,1 NA 1,5 "laurier rose"6,5 16,7 NA 1,7 "laurier rose"

5 15,3 NA 1 "laurier rose"5,5 17,1 NA 1,3 "laurier rose"4,7 14,6 NA 1 "laurier rose"5,7 15 NA 1,5 "laurier rose"3,6 10,4 NA 1,1 "laurier rose"5,4 16,5 NA 1,3 "laurier rose"5,3 16,6 NA 1,1 "laurier rose"

5 15,9 NA 1 "laurier rose"4,5 14,4 NA 1 "laurier rose"4,4 16,2 NA 1,1 "laurier rose"4,8 15,2 NA 0,8 "laurier rose"4,5 15,8 NA 0,8 "laurier rose"3,2 11 NA 0,6 "laurier rose"4,7 14,1 NA 0,8 "laurier rose"

4 13,7 NA 0,8 "laurier rose"5,8 15,4 NA 1,5 "laurier rose"5,5 15,3 NA 1,3 "laurier rose"4,4 13,5 NA 0,7 "laurier rose"3,5 12 NA 1,1 "laurier rose"4,4 14,7 NA 0,9 "laurier rose"4,3 15,5 NA 1,2 "laurier rose"4,1 12,9 NA 1,5 "laurier rose"5,3 15 NA 1,6 "laurier rose"4,7 15,8 NA 0,9 "laurier rose"5,3 13,8 NA NA "laurier rose"4,7 12,8 NA 1,2 "laurier rose"4,9 16 NA 1,6 "laurier rose"4,1 12 NA 0,6 "laurier rose"4,6 14,3 NA 0,7 "laurier rose"4,8 14,5 NA 0,9 "laurier rose"3,4 11,4 NA 1,1 "laurier rose"3,4 13,3 NA 0,6 "laurier rose"5,8 15,5 NA 1,1 "laurier rose"4,8 15,1 NA 1 "laurier rose"3,9 12,8 NA 0,8 "laurier rose"3,4 12,7 NA 0,8 "laurier rose"4,5 15,7 NA 0,9 "laurier rose"3,3 13,2 NA 0,5 "laurier rose"3,3 13,4 NA 0,5 "laurier rose"3,6 13,8 NA 0,6 "laurier rose"3,5 11,2 NA 0,6 "laurier rose"3,8 11,4 NA 1,1 "laurier rose"3,2 11,1 NA 1 "laurier rose"3,8 14,4 NA 0,7 "laurier rose"5,3 13,4 NA 1,6 "laurier rose"5,8 14,7 NA 1,7 "laurier rose"4,6 14,9 NA 0,9 "laurier rose"3,2 10,5 NA 1,1 "laurier rose"4,3 14,6 NA 0,8 "laurier rose"2,7 11,3 NA 0,5 "laurier rose"2,6 9,1 NA 0,4 "laurier rose"2,4 9 NA NA "laurier rose"2,6 9,4 NA 0,9 "laurier rose"3,2 12,1 NA 0,6 "laurier rose"6,4 16,1 NA 1,8 "laurier rose"3,4 13,2 NA 1,2 "laurier rose"

Page 9: Introduction a la statistique - unilim.fr

Dans l’exemple les frequences du nombre de grains sont

> freq_table_grains

1 2 3 4 5 6 7 0.1000 0.3727 0.2455 0.1455 0.0909 0.0182 0.0273 >

et les frequences du nombre de grains cumulees sont

> freq_table_grainscum 1 2 3 4 5 6 7 0.100 0.473 0.718 0.864 0.955 0.973 1.000 >

Soit X un caractere continu ou discret qui peut prendre un grand nombre de valeurs.

Pour simplifier le traitement des donnes on separe les donnes en p classes donnees par des

intervalles ]ai, ai+1] (i = 1, . . . p) ou a1 peut etre egal a −∞ et ap+1 peut etre egal a

+∞.

a1 < a2 < . . . < ap−1 < ap+1.

8

Page 10: Introduction a la statistique - unilim.fr

— Souvent les classes sont choisies de meme amplitude, sauf eventuellement les deux

extremes.

— On identifiera toutes les modalites x ∈]ai, ai+1] avec la modalite ci := (ai +

ai+1)/2.

— L’effectif de la classe ]ai, ai+1] est le nombre ni de valeurs prises dans ]ai, ai+1].

— L’effective cumule en ai est le nombre des valeurs prises dans l’intervalle ]−∞, ai].— La frequence de ]ai, ai+1] est egal au rapport fi = ni/N .

— La frequence cumulee en ai est egal a∑i

j=1 fj. Remarquez que si i = p alors la

frequence cumulee est egale a 1.

— La serie statistique (]ai, ai+1], ni)i=1,...,p ou (]ai, ai+1], fi)i=1,...,p est appelee

distribution statistique groupee.

Remarque 1. Comment choisit-on le nombre de classes ? Le nombre de classes et la

longueur de l’intervalle sont a determiner de telle sorte que la distribution ait une allure

aussi reguliere que possible, sans pour autant dissimuler les caracteristiques essentielles.

Il existent des regles empiriques pour determiner p. Par exemple, la regle de Sturge dit

que p ∼ log2N + 1.

9

Page 11: Introduction a la statistique - unilim.fr

[Quelques representations graphiques d’une serie statistique]

— Pour une distribution statistique discrete, le diagramme en batons des effectifs

(resp. des frequences) est constitue d’une suite de segments verticaux d’abscisses

xi dont la longueur est proportionnelle a l’effectif (resp. la frequence) de xi.

Voici le diagramme en batons des effectifs du nombre de graines

010

2030

40

Nombre de graines

Effectif

1 2 3 4 5 6 7

10

Page 12: Introduction a la statistique - unilim.fr

— Le polygone des effectifs (resp. des frequences) est obtenu a partir du diagramme

en batons des effectifs (resp. des frequences) en joignant par un segment les

sommets de batons.

— Le diagramme circulaire ou encore appele couramment diagramme “en camembert”

represente les frequences de modalites proportionnelles aux angles au centre.

1graine

2 graines

3 graines

4 graines

5 graines

6 graines

7graines

— L’histogramme consiste a representer les frequences des classes par des rectangles

contigus dont la surface (et non la hauteur) represente la frequence. La longueur

11

Page 13: Introduction a la statistique - unilim.fr

de la base du rectangle Ai, associe a la classe ]ai, ai+1], est egale a ai+1 − ai.La hauteur du rectangle Ai est egale a hi = fi/(ai+1 − ai).

Histogram of Mesures$masse

Mesures$masse

Frequency

0 10 20 30 40 50

020

4060

80

— Le polygone des effectifs ou des frequences d’une distribution statistique groupe

est obtenu en joignant dans l’histogramme de cette distribution les milieux des

cotes horizontaux superieurs.

12

Page 14: Introduction a la statistique - unilim.fr

Polygone des effectifs des masses

Masse

Effectif

0 10 20 30 40 50

020

4060

80

Polygone des effectifs cumules des masses

Masse

Effectif

050

100

150

200

250

— Le polygone des frequences cumulees d’une distribution statistique groupee est la

13

Page 15: Introduction a la statistique - unilim.fr

representation graphique de la fonction definie par

F (x) =

i−1∑j=1

fj +x− aiai+1 − ai

fi if x ∈]ai, ai+1].

Le polygone des effectifs cumulees est la representation graphique de la fonction

N × F (x).

[Mesures de tendance centrale] Soit X un caractere quantitatif et

(xi, ni)i=1,...,p une serie statistique ou n = n1 + . . . + np est la taille de

l’echantillon preleve (si on considere toute la population alorsN = n1+. . .+np).

— [Mode] On appelle mode, ou dominante, toute valeur correspondant a l’effectif

maximal. La distribution est unimodale si elle a un seul mode. Si elle en a

plusieurs elle est plurimodale (bimodale,trimodale,...).

14

Page 16: Introduction a la statistique - unilim.fr

Exemple 3. Voici les poids en Kg de 15 vaches

425, 489, 505, 398, 478, 489, 500, 401, 490, 399, 415, 504, 433, 351, 451.

Ici, le mode est 489 qui apparait deux fois. Si on ajoute la donnee 504

alors il y aura 2 modes et la distribution sera bimodale.

— [Moyenne arithmetique] Pour une distribution statistique discrete qui comprend

toute la population, la moyenne arithmetique µX du caractere X est definie

par

µX :=1

N

p∑i=1

nixi =

p∑i=1

fixi.

Pour une distribution continue groupee on remplace xi par ci = (ai+ai+1)/2

et ni correspond a l’effectif de la classe ]ai, ai+1]

Pour un echantillon S moyenne arithmetique x de la serie statistique est le

nombre

x :=1

n

p∑i=1

nixi =

p∑i=1

fixi.

15

Page 17: Introduction a la statistique - unilim.fr

Exemple 4. La moyenne arithmetique dans l’exemple precedent est

425 + 489 + . . .+ 351 + 451

15= 448.53333.

— [Mediane] On ordonne les n valeurs de la serie statistique par ordre croissant.

La mediane, notee Me, est la donnee centrale de la serie.

— Si n est impair, la mediane est la valeur de rang n+12 .

— Si n est pair, la mediane est le milieu de l’intervalle correspondant aux

rangs n2 et n

2 + 1.

Exemple 5. La mediane des donnees

1, 3, 5, 7, 9, 10, 13,

est 7 et la mediane des donnees

1, 3, 5, 7, 9, 10, 13, 15

est (7 + 9)/2 = 8.

16

Page 18: Introduction a la statistique - unilim.fr

Remarque 2. (i) Que le nombre des donnees soit pair ou impair, le nombre

d’observation en-dessous de la mediane est egal au nombre d’observations

au dessus de la mediane.

(ii) Contrairement a la moyenne arithmetique, la mediane n’est pas affectee

par la presence de valeurs atypiques. Dans l’exemple precedent la moyenne

arithmetique est

1 + 3 + 5 + 7 + 9 + 10 + 13 + 15

8= 7.875.

Si on remplace la derniere valeur 15 par 315 la mediane reste inchangee

alors que la moyenne arithmetique est maintenant egale a 45.375.

[Mesures de dispersion]

— [Etendue] L’etendue est la difference entre la plus grande donnee et la plus

petite donnee.

Exemple 6. Considerons la serie

18, 13, 11, 22, 1, 4, 6, 17, 8.

17

Page 19: Introduction a la statistique - unilim.fr

L’etendue est egale a 22− 1=21.

— [Variance, variance empirique et variance corrigee] Pour une distribution sta-

tistique discrete ou continue, non groupee, qui comprend toute la population,

la variance σ2X

σ2X :=

1

N

p∑i=1

ni(xi − µX)2

=

p∑i=1

fi(xi − µX)2.

Pour un echantillon S, la variance empirique s2X de la serie statistique et

definie par le nombre non-negatif

s2X :=

1

n

p∑i=1

ni(xi − x)2

=

p∑i=1

fi(xi − x)2,

c.a.d. s2X est la moyenne de la serie statistique (xi − x)2. Remarquons que

s2X = 1

n

∑pi=1 ni(xi − x)2 = 1

n

∑pi=1 ni[x

2i − 2xxi + x2]

= 1n

∑pi=1 nix

2i − 2x2 + x2,

18

Page 20: Introduction a la statistique - unilim.fr

d’ou

s2X =

1

n

p∑i=1

nix2i − x

2,

c.a.d. s2X est la moyenne de la serie statistique x2

i moins la moyenne des xiau carre.

La variance corrigee, notee s2X se calcule par

s2X =

n

n− 1s

2X.

Lorsque la serie comprend toute la population, on utilise σ(X)2. Si par contre

les modalites sont mesurees sur un echantillon, comme c’est souvent le cas,

alors on utilise plutot s2X .

— [Ecart type, ecart type empirique et ecart type corrige] Pour une distribution

statistique qui comprend toute la population, l’ecart type σX est definie par

σX =√σ2X.

19

Page 21: Introduction a la statistique - unilim.fr

On appelle ecart type empirique (resp. corrige) de la serie le nombre

sX =√s2X (resp. sX =

√s2X)

Exemple 7. On considere les series statistiques des notes de deux groupes

d’eleves :

• Groupe A : 10, 5, 7.5, 7.75, 12.5, 13, 11.25, 8.5, 10, 10.75,

11, 9.75, 9, 8.5, 12.75, 14.

• Groupe B : 5.5, 6, 11, 16.5, 7.5, 15.5, 13.75, 14, 6, 5, 9.5,

10.25, 12, 12.75, 7, 9.Pour chaque groupe, calculer la moyenne, la variance et l’ecart type desnotes.

Solution : On note par A (resp. B) les caractere correspondant aux notes du groupe A(resp. B).

µA = 10.078, σ2A = 5.232 σA = 2.287,

µB = 10.078, σ2B = 13.052 σB = 3.613.

— [Les percentiles ou quartiles] Le pieme percentile ou quartile d’un jeu de

donnees presente en ordre croissant est la valeur telle qu’au plus p% des

20

Page 22: Introduction a la statistique - unilim.fr

valeurs sont en-dessous d’elle et au plus (100− p)% sont au-dessus.

Les percentiles les plus utilises sont le 25ieme, le 50ieme et le 75ieme appeles

respectivement le premier quartile Q1, la mediane Q2 et le troisieme quartile

Q3.

L’etendue interquartile EIQ est defini comme

EIQ = Q3 −Q1.

[Une autre representation graphique : La boıte a moustaches] La boıte a mous-

taches est un moyen rapide de representer l’allure generale d’une serie statistique

quantitative. Sur elle, on verra apparaıtre la mediane, le premier et troisieme

quartile, l’etendue interquartile ainsi, s’il y en a, des valeurs atypiques par rapport

au reste de la distribution. Sur cette representation graphique on voit apparaıtre

— Une echelle des valeurs presente sur l’axe vertical.

— Q1 qui est le trait inferieur de la boıte. Q1 est en position (n+ 1)/4 si cette

valeur est entiere, sinon on calculera le quartile par interpolation.

— Q3 qui est le trait superieur de la boıte. Q3 est en position 3(n + 1)/4 si

cette valeur est entiere, sinon on calculera le quartile par interpolation.

21

Page 23: Introduction a la statistique - unilim.fr

— La mediane Q2, representee par un trait horizontal au sein de la boıte.

— Les moustaches inferieure et superieure. Souvent la limite superieure de la

moustache est calculee comme la valeur de la serie en-dessous de p1 :=

Q3 + 1.5 × (Q3 − Q1) et la limite inferieure est calculee comme la valeur

de la serie en-dessus Q1 − 1.5× (Q3 −Q1).

— Les valeurs atypiques.

22

Page 24: Introduction a la statistique - unilim.fr

010

2030

4050

Bo..te .. moustaches de la variable masseBoite a moustaches de la variable masse

23

Page 25: Introduction a la statistique - unilim.fr

Ch. 2 : Statistiques a deux dimensions

Soient X et Y deux caracteres sur une population d’effectif N (ou sur un

echantillon de S de taille n). Soit p le nombre de modalites (x1, . . . , xp) prises

par X (ordonnees dans l’ordre croissant) et q le nombre de modalites (y1, . . . , yq)

prises par Y (ordonnees dans l’ordre croissant). Le deux variables etudiees pour-

raient etre qualitatives ou quantitatives. Si on a une variable quantitative continue

on suppose que les donnees sont regroupees en classes.

— On definit l’effectif du couple (xi, yj) comme le nombre nij des donnees tel

que X = xi et Y = yj.

— L’effectif marginal de xi (resp. de yj) est egal au nombre ni· =∑q

j=1 nij(resp. n·j =

∑pi=1 nij)

— Le tableau de contingence

24

Page 26: Introduction a la statistique - unilim.fr

Table 1: Tableau de contingence

X/Y y1 . . . yj . . . yq Total

x1 n11 . . . n1j . . . n1q n1·...

......

......

......

xi ni1 . . . nij . . . niq ni·...

......

......

......

xp np1 . . . npj . . . npq np·Total n·1 . . . n·j . . . n·q N

represente la distribution conjointe du caracteres X,Y .

— On definit la frequence du couple (xi, yj) comme fij := ni,j/N .

— La frequence marginale de xi (resp. de yj) est egale au nombre fi· =∑qj=1 fij (resp. f·j =

∑pi=1 fij).

Le definitions precedentes s’appliquent aussi pour un echantillon de taille n. Il

suffit de remplacer N par n.

Remarque 3. Dans ce chapitre, on se limitera au cas ou X et Y sont variables

quantitatives et discretes (ou continues apres regroupement en classes).

25

Page 27: Introduction a la statistique - unilim.fr

[Mesures de tendance centrale, de dispersion et de correlation] Un couple de

nombres (xi, yj) peut toujours etre represente comme un point dans un plan.

Exemple 8. On mesure le poids Y et la taille X de 20 individus.

54 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Exemple 3.1 On mesure le poids Y et la taille X de 20 individus.

yi xi yi xi

60 155 75 18061 162 76 17564 157 78 17367 170 80 17568 164 85 17969 162 90 17570 169 96 18070 170 96 18572 178 98 18973 173 101 187

155 160 165 170 175 180 185 190

6070

8090

100

taille

poids

Figure 3.1 – Le nuage de points

En langage R

# nuage de points

poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101)

taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189,187)

plot(taille,poids)

155 160 165 170 175 180 185 190

6070

8090

100

taille

poids

26

Page 28: Introduction a la statistique - unilim.fr

— Les moyennes marginales sur un echantillon de X et Y de taille n sont

definies par

x :=1

n

p∑i=1

ni·xi =

p∑i=1

fi·xi, y :=1

n

q∑i=1

n·jyj =

q∑j=1

f·jyj.

— Les variances marginales de X et Y sont definies par

s2X := 1

n

∑pi=1 ni·(xi − x)2 = 1

n

∑pi=1 ni·x

2i − x2,

=∑p

i=1 fi·x2i − x2.

s2Y := 1

n

∑qj=1 n·j(yj − y)2 = 1

n

∑qj=1 n·jy

2j − y2,

=∑q

j=1 f·jy2i − y2.

27

Page 29: Introduction a la statistique - unilim.fr

— La covariance entre X et Y est definie comme

sXY := 1n

∑pi=1

∑qj=1 nij(xi − x)(yj − y),

:= 1n

∑pi=1

∑qj=1 nijxiyj − xy,

:=∑p

i=1

∑qj=1 fijxiyj − xy

En effet 1,

1n

∑pi=1

∑qj=1 nij(xi − x)(yj − y)

= 1n

∑pi=1

∑qj=1 nij(xiyj − xiy − xyj + xy)

= xy 1n

∑pi=1

∑qj=1 nij + 1

n

∑pi=1

∑qj=1 nijxiyj

−y 1n

∑pi=1

∑qj=1 nijxi − x1

n

∑pi=1

∑qj=1 nijyj

= 1n

∑pi=1

∑qj=1 nijxiyj + xy − 2xy,

= 1n

∑pi=1

∑qj=1 nijxiyj − xy.

1. lecture optionnelle

28

Page 30: Introduction a la statistique - unilim.fr

On a utilise

y 1n

∑pi=1

∑qj=1 nijxi = y 1

n

∑pi=1 xi

∑qj=1 nij = y 1

n

∑pi=1 xini· = xy

x1n

∑pi=1

∑qj=1 nijyj = x1

n

∑qj=1

∑pi=1 nijyj = x1

n

∑qj=1 yj

∑pi=1 nij

= x1n

∑qj=1 yjn·j = xy.

— Le coefficient de correlation de X et de Y est defini par :

rXY =sXY

sXsY.

On a les proprietes suivantes :

— −1 ≤ r ≤ 1.

— (xi, yj), avec i = 1, . . . , p et j = 1, . . . , q, est une droite si et

seulement si r = 1 (cas de pente positive) ou r = −1 (cas de pente

negative).

— Si le coefficient de correlation est nul ou proche de zero, il n’y a

pas de dependance lineaire. On peut cependant avoir une dependance

non-lineaire.

29

Page 31: Introduction a la statistique - unilim.fr

Exemple 9. Dans une population de 1000 familles, on observe simultanement

le nombre X de pieces principales du logement et le nombre Y d’enfants. On

obtient le tableau suivant :

Y 0 1 2 3 4

X

1 10 5 2 0 0

2 40 60 40 3 0

3 30 70 100 50 8

4 15 55 145 100 22

5 3 25 95 25 20

6 2 10 30 22 13

1. Determiner les distributions marginales de X et Y .Reponse : Les effectifs sont donnes par

n1· = 17, n2· = 143, n3· = 258 n4· = 337, n5· = 168, n6· = 77

n·1 = 100, n·2 = 225, n·3 = 412 n·4 = 200, n·5 = 63.

30

Page 32: Introduction a la statistique - unilim.fr

et les frequences par

f1· = 0.017, f2· = 0.143, f3· = 0.258 f4· = 0.337, f5· = 0.168, f6· = 0.077

f·1 = 0.100, f·2 = 0.225, f·3 = 0.412 f·4 = 0.200, f·5 = 0.063.

2. Calculer le coefficient de correlation entre X et Y .

On donne5+2×2+60×2+40×2×2+3×2×3+70×3+100×3×2+50×3×3+8×3×4+55×4+145×4×2+100×4×3+22×4×4+

25×5+95×5×2+25×5×3+20×5×4+10×6+30×6×2+22×6×3+13×6×4=7573.

Reponse : Nous avons

x = 1× 0.017 + 2× 0.143 + 3× 0.258 + 4× 0.337 + 5× 0.168 + 6× 0.077 = 3.727

s2X = 12 × 0.017 + 22 × 0.143 + . . .+ 62 × 0.077− (3.727)2 = 1.384471

sX = 1.1766355,

y = 0× 0.1 + 1× 0.225 + 2× 0.412 + 3× 0.200 + 4× 0.063 = 1.901,

s2Y = 02 × 0.1 + 12 × 0.225 + 22 × 0.412 + 32 × 0.200 + 42 × 0.063− (1.901)2 = 1.067199,

sY = 1.0330532.

31

Page 33: Introduction a la statistique - unilim.fr

et doncsXY = 7573

1000 − 3.727× 1.901 = 0.487973,

rXY = 0.487973/(1.1766355× 1.0330532) = 0.4014497.

[Distributions conditionnelles et independance] On appelle frequence conditionnelle

de la valeur yj de la serie Y sous la condition X = xi le nombre note fj|i egal a

fj|i =nijni·

.

En divisant par n le numerateur et le denominateur on obtient

fj|i = fij/fi·, d’ou fij = fj|i × fi·. (1)

On dit que les deux caracteres X et Y mesures sur toute la population sont

independants si pour tout i, j, k

fj|i = fj|k.

Cette definition se traduit par les egalites

fij × fk· = fkj × fi· pour tout i, j, k.

32

Page 34: Introduction a la statistique - unilim.fr

En faisant la somme sur k = 1, . . . , p, on trouve

fij =

p∑k=1

fij × fk· =p∑k=1

fkj × fi· = fi· × f·j.

Inversement, si fij = fi· × f·j pour tout i, j alors

fj|i = fij/fi· = f·j = f·j × fk·/fk· = fkj/fk· = fj|k pour tout i, j, k.

On deduit qu’une X et Y sont independants si et seulement si

fij = fi· × f·j pour tout i, j.

ou encore, si et seulement si

fj|i = f·j pour tout i, j.

Exemple 10. Les series X et Y de l’exemple 9 sont-elles independantes ?

33

Page 35: Introduction a la statistique - unilim.fr

Reponse : Le tableau de frequences et donne par

Y 0 1 2 3 4X

1 0.01 0.005 0.002 0 02 0.04 0.060 0.04 0.003 03 0.03 0.07 0.10 0.05 0.0084 0.015 0.055 0.145 0.100 0.0225 0.003 0.025 0.095 0.025 0.0206 0.002 0.010 0.030 0.022 0.013

Les series ne sont pas independantes car, par exemple,

f11 = 0.01 6= 0.017× 0.1 = f1· × f·1.

Theoreme 1. Si X et Y sont independantes alors la covariance sXY est egale

a zero. En particulier, rXY = 0.

34

Page 36: Introduction a la statistique - unilim.fr

Demonstration. En effet,

sXY =

p∑i=1

q∑j=1

fijxiyj − xy =

p∑i=1

fi·xi

q∑j=1

f·jyj − xy = xy − xy = 0.

[La methode des moindres carres] On considere un nuage de points

(x1, y1) . . . , (xn, yn). L’allure du nuage de points peut suggerer une rela-

tion du type lineaire. On considere que la variable X est explicative et que la

variable Y est dependante. La droite de regression est la droite y = ax + b qui

ajuste au mieux la nuage de points au sens des moindres carres. Si les coefficients

a et b etaient connus, on pourrait calculer les residus (ou les erreurs qu’on

commet) definis par

ei = yi − a− bxi.

35

Page 37: Introduction a la statistique - unilim.fr

3.2. DEUX VARIABLES QUANTITATIVES 57

3.2.5 Droite de regression

La droite de regression est la droite qui ajuste au mieux un nuage de pointsau sens des moindres carres.

On considere que la variable X est explicative et que la variable Y estdependante. L’equation d’une droite est

y = a + bx.

Le probleme consiste a identifier une droite qui ajuste bien le nuage de points.Si les coefficients a et b etaient connus, on pourrait calculer les residus de laregression definis par :

ei = yi − a − bxi.

Le residu ei est l’erreur que l’on commet (voir Figure 3.3) en utilisant la droitede regression pour predire yi a partir de xi. Les residus peuvent etre positifs ounegatifs.

155 160 165 170 175 180 185 19060

7080

90100

taille

poids

e iy *i

y i

Figure 3.3 – Le nuage de points, le residu

Pour trouver a et b on utilise la methode des moindres carres c.a.d. on considere

le probleme d’optimisation

Mina,b∈R

f(a, b) = 12

n∑i=1

|axi + b− yi|2 = 12

n∑i=1

|ei|2.

Au minimum (a, b) on a ∂af(a, b) = 0 et ∂bf(a, b) = 0, c.a.d.

∑ni=1

(axi + b− yi

)xi = 0,∑n

i=1

(axi + b− yi

)= 0,

36

Page 38: Introduction a la statistique - unilim.fr

En divisant par n, la seconde equation donne

y = ax+ b, (2)

et la premiere equation implique que

αa+ βb− γ = 0. (3)

ou

α =

n∑i=1

x2i , β =

n∑i=1

xi, γ =

n∑i=1

yixi. (4)

Les equations (2)-(3) donnent

a =γ − βyα− βx =

∑ni=1 xiyi − y

∑ni=1 yi∑n

i=1 x2i − x

∑ni=1 xi

.

En divisant par n le numerateur et le denominateur, on obtient

a =sXY

s2X

.

37

Page 39: Introduction a la statistique - unilim.fr

En resume, la droite de regression est donnee par

y = ax+ b

ou

a =sXY

s2X

et b = y − ax.

Exemple 11. Le tableau ci-dessous donne l’evolution du pourcentage de bache-

liers dans une generation de 1990 a 2010.

X :annees 1990 1994 1998 2002 2006 2010

Y :% bacheliers 43,5 59,2 61,7 61,8 62,6 65,1

1. Determinez les moyennes, les variances et les ecarts-types des variables X

et Y . Determiner le coefficient de correlation entre X et Y . Que pouvez-

vous en deduire ?

2. Determinez la droite de regression lineaire de Y en X. Tracez cette droite

sur le graphique.

38

Page 40: Introduction a la statistique - unilim.fr

Reponse :

x = 16(1990 + . . .+ 2010) = 2000,

s2X = 1

6(19902 + . . .+ 20102)− x2 ∼ 46.7,

sX =√s2X ∼ 6.8,

y = 16(43.5 + . . .+ 65.1) ∼ 58.9,

s2Y = 1

6(43.52 + . . .+ 65.12)− y2 ∼ 50.9,

sY =√s2Y ∼ 7.1

sXY = 16(1990× 43.5 + . . .+ 2010× 65.1)− x× y = 39.434,

rXY =sXYsXsY

∼ 0.8.

Le coefficient de correlation indique une dependance lineaire importante. On a

a =sXY

s2X

= 0.845, et b = y − ax = −1631.0453,

39

Page 41: Introduction a la statistique - unilim.fr

et donc la droite de regression est

y = 0.845x− 1631.0453.

40

Page 42: Introduction a la statistique - unilim.fr

[Supplement : La moyenne et la variance conditionnelles] 2

On appelle moyenne conditionnelle de Y sous la condition X = xi, notee par yi,

le nombre

yi =1

ni·

q∑j=1

nijyj =

q∑j=1

fj|iyj

Theoreme 2. La moyenne marginale de Y satisfait

y =

p∑i=1

fi·yi.

En d’autres termes la moyenne de y est la moyenne des moyennes condition-

nelles a X.

Demonstration. En effet,

p∑i=1

fi·yi =

p∑i=1

q∑j=1

fj|ifi·yj =

q∑j=1

yj

p∑i=1

fj|ifi· =q∑j=1

yj

p∑i=1

fij =

q∑j=1

yjf·j = y.

2. Lecture optionnelle

41

Page 43: Introduction a la statistique - unilim.fr

La variance conditionnelle de Y sous la condition X = xi, notee par si,Y , est

definie comme

s2Y,i =

1

ni·

q∑j=1

nij(yj − yi)2=

q∑j=1

fj|i(yj − yi)2=

q∑j=1

fj|iy2j − y

2i .

Theoreme 3. [Decomposition de la variance] La variance marginale de Y peut

se decomposer de la maniere suivante

s2Y =

p∑i=1

fi·s2Y,i +

p∑i=1

fi·(yi − y)2.

Remarque 4. On appelle variance intrapopulation le terme en rouge (c.a.d. la

moyenne des variances conditionnelles) et variance interpopulation le terme en

bleu (c.a.d. la variance des moyennes conditionnelles).

42

Page 44: Introduction a la statistique - unilim.fr

Demonstration. Par definition,

s2Y =

q∑j=1

f·j(yj − y)2

=

q∑j=1

f·j(yj − yi + yi − y)2,

ce qui donne

s2Y =

q∑j=1

f·j(yj − yi)2+ 2

q∑j=1

f·j(yj − yi)(yi − y) +

q∑j=1

f·j(yi − y)2.

Par definition encore et la seconde egalite dans (1)∑qj=1 f·j(yj − yi)2 =

∑qj=1

∑pi=1 fij(yj − yi)2 =

∑pi=1

∑qj=1 fij(yj − yi)2

=∑p

i=1 fi·∑q

j=1 fj|i(yj − yi)2 =∑p

i=1 fi·s2Y,i.

De meme,

q∑j=1

f·j(yi−y)2

=

q∑j=1

p∑i=1

fij(yi−y)2

=

p∑i=1

(yi−y)2

q∑j=1

fij =

p∑i=1

fi·(yi−y)2.

43

Page 45: Introduction a la statistique - unilim.fr

Finalement,

q∑j=1

f·j(yj−yi)(yi−y) =

q∑j=1

p∑i=1

fij(yj−yi)(yi−y) =

p∑i=1

(yi−y)

q∑j=1

fij(yj−yi)

et

q∑j=1

fij(yj − yi) =

q∑j=1

fijyj − fi·yi = fi·

q∑j=1

fj|iyj − yi

= 0,

d’ou la conclusion.

44

Page 46: Introduction a la statistique - unilim.fr

Notions de probabilite et variables aleatoires discretes

[Evenements]

Une experience est dite aleatoire si on ne peut pas predire a priori son resultat.

— On note ω un resultat possible de l’experience aleatoire.

— On note Ω l’ensemble de tous les resultats possibles.

— Dans ce chapitre on suppose que Ω est discret (c.a.d. fini ou denombrable).

— On associe a Ω l’ensemble F de tous les sous-ensembles de Ω

— On dit queA est un evenement siA ∈ F , c.a.d.A est un sous-ensemble de Ω.

Exemple 12. L’experience peut consister a jeter un de, alors Ω =

45

Page 47: Introduction a la statistique - unilim.fr

1, 2, 3, 4, 5, 6 et l’evenement “obtenir un nombre pair” correspond

a A = 2, 4, 6 et Ac = 1, 3, 5 correspond a l’evenement “obtenir un

nombre impair”.

— On dit que l’evenement A est realise si le resultat ω de l’experience appartient

a A. Ainsi, A ∪ B est realise si A est realise ou B est realise. De meme,

A ∩ B est realise si A et B sont realises conjointement.

— On dit que A et B sont mutuellement exclusifs si A∩B = ∅. Par definition,

A et Ac sont toujours des evenements mutuellement exclusifs.

[Axiomatique des probabilites]

— Une probabilite P est une application de F dans [0, 1], telle que :

• P(Ω) = 1.

• Pour toute famille d’evenements A1, . . . , Ak telle que Ai ∩ Aj = ∅ si

i 6= j, on a

P(A1 ∪ A2 ∪ . . . ∪ Ak) = P(A1) + P(A2) + . . .+ P(Ak).

A partir de ces axiomes on deduit les proprietes suivantes :

46

Page 48: Introduction a la statistique - unilim.fr

• P(∅) = 0.

En effet, ∅ = Ωc et 1 = P(Ω ∪ Ωc) = P(Ω) + P(∅), ce qu’implique

P(∅) = 0.

• P(Ac) = 1− P(A).

En effet,

1 = P(Ω) = P(A ∪ Ac) = P(A) + P(A

c).

• Si A ⊆ B alors P(A) ≤ P(B).

En effet,

P(B) = P(A ∪ [B ∩ Ac]) = P(A) + P(B ∩ Ac

) ≥ P(A).

• P(B \ A) = P(B ∩ Ac) = P(B)− P(A ∩ B).

En effet, B = (B ∩ A) ∪ (B ∩ Ac) et donc P(B) = P(B ∩ Ac) +

47

Page 49: Introduction a la statistique - unilim.fr

P(A ∩ B).

• P(A ∪ B) = P(A) + P(B)− P(A ∩ B).

En effet,

A ∪ B = A ∪ (B \ A) = A ∪ (B ∩ Ac),

d’ou

P(A ∪ B) = P(A) + P(B ∩ Ac) = P(A) + P(B)− P(A ∩ B).

• Si A1, . . . , Ak satisfont

A1 ∪ A2 ∪ . . . ∪ Ak = Ω et Ai ∩ Aj = ∅ si i 6= j,

alors

P(B) =k∑i=1

P(B ∩ Ai).

48

Page 50: Introduction a la statistique - unilim.fr

En effet,

B = (A1 ∩ B) ∪ (A2 ∩ B) ∪ . . . ∪ (Ak ∩ B),

d’ou le resultat.

[Probabilites conditionnelles et independance] Soient deux evenements A et B.

Si P(B) 6= 0, on definit la probabilite conditionnelle de A sachant B comme le

nombre

P(A|B) =P(A ∩ B)

P(B).

Exemple 13. On jette un de et on considere les evenements A =“avoir un

nombre pair” et B =“avoir un nombre superieur ou egal a 4”. Calculer

P(A|B).

Reponse : P(A ∩ B) = P(4, 6) = 2/6 = 1/3 et P(B) = 3/6 = 1/2,

donc P(A|B) = 2/3.

Theoreme 4. [des probabilites totales] Si A1, . . . , Ak satisfont

A1 ∪ A2 ∪ . . . ∪ Ak = Ω et Ai ∩ Aj = ∅ si i 6= j,

49

Page 51: Introduction a la statistique - unilim.fr

alors

P(B) =

k∑i=1

P(B|Ai)P(Ai).

Demonstration.

P(B) =

k∑i=1

P(B ∩ Ai) =

k∑i=1

P(B|Ai)P(Ai).

Theoreme 5. [de Bayes] On a la relation

P(A|B) =P(B|A)P(A)

P(B).

Demonstration.

P(A|B) =P(A ∩ B)

P(B)=

P(B|A)P(A)

P(B).

50

Page 52: Introduction a la statistique - unilim.fr

Exemple 14. Supposons qu’une population d’adultes est composee de 30% de

fumeurs et de 70% de non-fumeurs. Supposons en outre que la probabilite de

mourir d’un cancer du poumon est egale a 20% si l’on est fumeur et 1% si l’on

est non-fumeurs. Quelle est la probabilite d’avoir ete fumeur sachant qu’on est

mort d’un cancer du poumon ?

Reponse : Soit A1 =“etre fumeur”, A2 =“etre non-fumeur” et B=“mourir

d’un cancer du poumon”. Alors

P(A1|B) =P(B|A1)P(A1)

P(B)=

0.2× 0.3

P(B),

mais

P(B) = P(B|A1)P(A1) + P(B|A2)P(A2) = 0.2× 0.3 + 0.01× 0.7,

51

Page 53: Introduction a la statistique - unilim.fr

ce qui donne

P(A1|B) =0.2× 0.3

P(B)=

0.06

0.06 + 0.007= 0.896.

On dit que deux evenements A et B sont independants si

P(A|B) = P(A)

ce qui equivaut a

P(A ∩ B) = P(A)× P(B).

Exemple 15. On lance un de deux fois. Quelle est la probabilite d’avoir un

nombre inferieur a 3 suivi d’un nombre superieur a 5 ?

Reponse : Soit A =“le premier lancer donne un nombre inferieur a 3” et

B =“le deuxieme lancer donne un nombre superieur a 5”. On cherche P(A ∩B). Les evenements A et B son independantes, donc

P(A ∩ B) = P(A) ∩ P(B) =2

6× 1

6=

1

18.

52

Page 54: Introduction a la statistique - unilim.fr

Exemple 16. D’une population qui contient 100 pieces fabriquees dont 12 sont

defectueuses on tire successivement deux pieces. Soit A =“la premiere piece

est defectueuse” et B =“la deuxieme piece n’est pas defectueuse”. Calculer

P(A ∩B) en supposant que les tirages se font a) avec remise, b) sans remise.

Reponse : Puisque le premier tirage se fait avec remise, A et B sont

independants, et donc

P(A ∩ B) = P(A)P(B) =12

100× 88

100= 0.1056.

Le deuxieme tirage se fait avec remise, donc

P(A ∩ B) = P(B|A)P(A) =88

99× 12

100= 0.1067.

[Variables aleatoires discretes] Une variable aleatoire est une fonction qui fait

correspondre a chaque element ω ∈ Ω un nombre reel X(ω).

53

Page 55: Introduction a la statistique - unilim.fr

Exemple 17. Le nombre de faces lorsqu’on lance une piece de monnaie trois

fois, est une variable aleatoire.

— On note Im(X) l’ensemble X(Ω) = X(ω) ; ω ∈ Ω.

— La distribution de probabilite pX de X est la fonction pX : Im(X)→ [0, 1]

definie par

pX(xi) = P(ω ∈ Ω ; X(ω) = xi).Naturellement, ∑

xi∈Im(X)

pX(xi) = 1.

Exemple 18. Dans l’exemple precedent

Ω = (P, P, P ), (P, P, F ), (P, F, P ), (P, F, F ), (F, P, P ), (F, P, F ), (F, F, P ), (F, F, F )

et X(Ω) = 0, 1, 2, 3. Si tous les elements de Ω ont la meme probabilite,

c.a.d. 1/8 on a

pX(0) = 1/8, pX(1) = 3/8, pX(2) = 3/8, pX(3) = 1/8.

54

Page 56: Introduction a la statistique - unilim.fr

— La fonction de repartition FX : R→ [0, 1] est definie par

FX(x) = P(X ≤ x) =∑xi≤x

pX(xi).

Dans l’exemple

FX(x) =

0 si x ∈]−∞, 0[,

1/8 si x ∈ [0, 1[

4/8 si x ∈ [1, 2[

7/8 si x ∈ [2, 3[

1 si x ∈ [3,∞[

— L’esperance mathematique E(X) est definie par

E(X) =∑

xi∈Im(X)

xipX(xi).

55

Page 57: Introduction a la statistique - unilim.fr

Dans l’exemple

E(X) = 0× 1/8 + 1× 3/8 + 2× 3/8 + 3× 1/8 = 3/2.

— La variance V (X) de X est definie par

V (X) =∑

xi∈Im(X)

(xi − E(X))2pX(xi).

Remarquons que

V (X) =∑

xi∈Im(X)

x2ipX(xi)− 2E(X)

∑xi∈Im(X)

pX(xi)xi + E(X)2,

ce qui donne

V (X) = E(X2)− E(X)

2.

Dans l’exemple

E(X2) = 0

2 × 1/8 + 12 × 3/8 + 2

2 × 3/8 + 32 × 1/8 = 24/8 = 3,

56

Page 58: Introduction a la statistique - unilim.fr

et donc

V (X) = 3− (3/2)2

= 3/4.

[Variable de Bernoulli] La variable de Bernoulli X represente une experience ou

les seuls resultats possibles sont 0, 1, c.a.d. Im(X) = 0, 1. On dit que X

est une variable de Bernoulli de parametre p ∈]0, 1[ si

pX(x) =

p si x = 1,

1− p si x = 0.

L’esperance vaut

E(X) = 1× p+ 0× (1− p) = p,

et la variance vaut

V (X) = 12 × p+ 0

2 × (1− p)− p2= p(1− p).

57

Page 59: Introduction a la statistique - unilim.fr

Exemple 19. On tire au hasard une boule dans une urne contenant 18 boules

rouges et 12 boules blanches. Si X vaut 1 si la boule est rouge et 0 sinon, alors

X suit une loi de Bernoulli de parametre p = 18/(18 + 12) = 0.6.

[La variable binomiale] Considerons une experience qui satisfait les conditions

suivantes :

1) Elle est composee d’une suite de n epreuves independantes, dont chacune

d’entre elles peut donner lieu a deux resultats ; 1 (succes) et 0 (echec).

2) La probabilite de succes a chaque epreuve est p.

Si X est la variable aleatoire egale au nombre de succes, on dit que X suit une

loi binomiale de parametres n et p. On notera X ∼ B(n, p).

On peut verifier que si X ∼ B(n, p) alors

pX(X = k) =(nk

)pk(1− p)n−k,

58

Page 60: Introduction a la statistique - unilim.fr

ou l’on rappelle que (nk

)=

n!

k!(n− k)!

est le nombre de combinaisons de k objets parmi n.

Exemple 20. On tire au hasard avec remise et de maniere independante 5 boules

dans une urne contenant 18 boules rouges et 12 boules blanches. Si X est le

nombre de boules rouges obtenues, alors X suit une loi binomiale de parametres

n = 5 et p = 18/(18 + 12) = 0.6. Donc, pour tout k = 0,1,. . . 5, on a

pX(k) =(5

k

)0.6

k0.4

5−k.

Theoreme 6. Soit X ∼ B(n, p), alors

E(X) = np,

V (X) = np(1− p).(5)

59

Page 61: Introduction a la statistique - unilim.fr

Demonstration. On a

E(X) =∑n

k=0 k(nk

)pk(1− p)n−k,

=∑n

k=1n!

(k−1)!(n−k)!pk(1− p)n−k,

= np∑n

k=1(n−1)!

(k−1)!(n−1−(k−1))!pk−1(1− p)n−1−(k−1),

= np∑n−1

k=0(n−1)!

k!(n−1−k)!pk(1− p)n−1−k,

= np(p+ (1− p))n−1 = np,

ce qui entraıne la premiere egalite. Pour la deuxieme egalite, definissons la fonction

f(x) =n∑k=0

xk(nk

)pk(1− p)n−k.

60

Page 62: Introduction a la statistique - unilim.fr

D’une part

f ′(x) =∑n

k=1 kxk−1(nk

)pk(1− p)n−k

f ′′(x) =∑n

k=1 k(k − 1)xk−2(nk

)pk(1− p)n−k,

et donc

f′′(1) = E(X

2)− E(X). (6)

D’une autre part

f(x) =

n∑k=0

xk(nk

)pk(1− p)n−k = (px+ 1− p)n,

ce qui donne

f′(x) = np(px+ 1− p)n−1

, f′′(x) = n(n− 1)p

2(px+ 1− p)n−2

et donc, par (6),

f′′(1) = n(n− 1)p

2= E(X

2)− E(X),

61

Page 63: Introduction a la statistique - unilim.fr

ce qui entraıne

V (X) = E(X2)−E(X)

2= n(n−1)p

2+np−n2

p2

= np−np2= np(1−p).

Exemple 21. Il est clair que la variable aleatoire X definie dans les exemples

17-18 suit une B(3, 12). On retrouve bien

E(X) = 3× 12 = 3/2, et V (X) = 3× 1

2 × 12 = 3/4.

[La variable de Poisson] On considere dans ce paragraphe la loi d’une variable

aleatoire souvent utile pour decrire le nombre d’occurrences d’un evenement au

cours d’un intervalle de temps ou d’espace bien defini.

Le proprietes les plus importantes d’une experience de Poisson sont :

— La moyenne des occurrences dans un intervalle de temps et proportionnelle

a la longueur de l’intervalle. En particulier, si l’intervalle de temps est petit,

62

Page 64: Introduction a la statistique - unilim.fr

alors il est peu probable d’avoir une occurrence.

— L’occurrence ou la non-occurrence d’un evenement dans un intervalle est

independante de l’occurrence ou la non-occurrence de cet evenement dans un

autre intervalle disjoint.

Exemple 22. — Le nombre d’arrivees de voitures a une station de lavage en

une heure,

— Le nombre de reparations necessaires sur 10 Kms d’autoroute,

— Le nombre d’arrivees a une file d’attente,

— Le nombre d’appels telephoniques,

peut etre modelises par une variable de Poisson.

Definition 1. On dit que la variable X suit une loi de Poisson de parametre

λ > 0 si Im(X) = N ∪ 0 et

pX(k) =λk

k!e−λ, k = 0, 1, 2, . . .

63

Page 65: Introduction a la statistique - unilim.fr

On notera X ∼ P (λ).

Theoreme 7. Si X ∼ P (λ) alors

E(X) = λ et V (X) = λ.

Demonstration.

E(X) =

∞∑k=0

kλk

k!e−λ

= e−λ

∞∑k=1

λk

(k − 1)!= λe

−λ∞∑k=1

λk−1

(k − 1)!= λe

−λeλ

= λ,

etE(X2) =

∑∞k=0 k

2λk

k! e−λ = e−λ

∑∞k=1 k

2λk

k!

= e−λ[∑∞

k=1 k(k − 1)λk

k! +∑∞

k=1 kλk

k!

]= e−λ

∑∞k=2 k(k − 1)λ

k

k! + λ

= λ2e−λ∑∞

k=2λk−2

(k−2)! + λ = λ2 + λ.

64

Page 66: Introduction a la statistique - unilim.fr

d’ou

V (X) = E(X2)− E(X)

2= λ

2+ λ− λ2

= λ.

Theoreme 8. [Resultat d’approximation d’une loi binomiale par une loi de

Poisson] Soit pn ∈ [0, 1] une suite telle que npn → λ quand n→∞. Fixons

k ∈ N et pour n ≥ k soit Xn ∼ B(n, pn). Alors

pXn(k)→ λk

k!e−λ.

Remarque 5. En pratique on approchera la loi binomiale B(n, p) par la loi de

Poisson P (np) lorsque n ≥ 50, p ≤ 0.01 et np ≤ 10.

[Distributions bivariees] Soient deux variables aleatoires X et Y . On definit la

distribution de probabilite jointe

pXY (xi, yj) = P(X = xi, Y = yj) pour tout xi ∈ Im(X) et yj ∈ Im(Y ).

65

Page 67: Introduction a la statistique - unilim.fr

— Soit f : R× R→ R une fonction. Alors, l’esperance de f(X,Y ) est definie

par

E(f(X,Y )) =∑

xi∈Im(X), yj∈Im(Y )

f(xi, yj)pXY (xi, yj),

et la variance est definie par

V (f(X,Y )) = E(

[f(X,Y )− E(f(X,Y ))]2).

— On defini la fonction de repartition jointe

FXY (x, y) := P(X ≤ x, Y ≤ y) =∑

xi≤x, yj≤ypXY (xi, yj).

— Les distributions marginales de X et Y sont definies par

pX(xi) =∑

yj∈Im(Y )

pXY (xi, yj) et pY (yj) =∑

xi∈Im(X)

pXY (xi, yj).

66

Page 68: Introduction a la statistique - unilim.fr

— Etant donnees les distributions marginales de X et Y on definit leur esperance

et leur variance de la meme maniere que pour le cas univarie. Par exemple,

E(X) =∑

xi∈Im(X)

xipX(xi), V (X) =∑

xi∈Im(X)

(xi − E(X))2pX(xi).

— On definit les distributions conditionnelles

pX|Y (xi|yj) =pXY (xi,yj)

pY (yj)si pY (yj) 6= 0,

pY |X(yj|xi) =pXY (xi,yj)

pX(xi)si pX(xi) 6= 0.

— La covariance entre X et Y est definie par

Cov(X,Y ) :=∑

xi∈Im(X), y∈Im(Y ) (xi − E(X)) (yj − E(Y )) pXY (xi, yj),

= E ((X − E(X))(Y − E(Y ))) .

De la meme maniere qu’on a trouve une formule equivalente pour la covariance

67

Page 69: Introduction a la statistique - unilim.fr

de deux caracteres X et Y , on demontre (exercice) que

Cov(X,Y ) =∑

xi∈Im(X), y∈Im(Y ) xiyjpXY (xi, yj)− E(X)E(Y ),

= E(XY )− E(X)E(Y ).(7)

Dans les deux propositions suivantes on verra des proprietes fondamentales de

l’esperance et de la variance.

Proposition 1. Les proprietes suivantes sont verifiees

(i) Si a ∈ R alors E(a) = a.

(ii) Si a, b ∈ R alors

E(aX + bY ) = aE(X) + bE(Y ).

Demonstration. Soit X la variable aleatoire constante egale a a. Alors,

68

Page 70: Introduction a la statistique - unilim.fr

Im(X) = a et pX(a) = 1 et donc

E(a) =∑xi∈a

xipX(xi) = apX(a) = a.

De meme (pour simplifier la notation on ecrit∑

xi,yj=∑

xi∈Im(X), yj∈∈Im(Y ))

E(aX + bY ) =∑

xi,yj[axi + byj]pXY (xi, yj),

= a∑

xi,yjxipXY (xi, yj)

+b∑

xi,yjyjpXY (xi, yj)

= a∑

xixi∑

yjpXY (xi, yj)

+b∑

yjyj∑

xipXY (xi, yj)

= a∑

xixipX(xi)

+b∑

yjyjpY (yj)

= aE(X) + bE(Y ).

69

Page 71: Introduction a la statistique - unilim.fr

Proposition 2. On a la propriete suivante

V (aX + bY ) = a2V (X) + 2abCov(X,Y ) + b

2V (Y ).

Demonstration. Exercice.

[Independance de deux variables aleatoires] On dit que X et Y sont independantes

si pour tout xi ∈ Im(X) et yj ∈ Im(Y ) les evenements

Ai = ω ∈ Ω ; X(ω) = xi et Bj = ω ∈ Ω ; Y (ω) = yj,

sont independants. Remarquons que

Ai ∩ Bj = ω ∈ Ω ; X(ω) = xi et Y (ω) = yj. (8)

Par definition d’independance entre Ai et Bj on a

P(Ai ∩ Bj) = P(Ai)P(Bj).

70

Page 72: Introduction a la statistique - unilim.fr

et donc, grace a (8), X et Y sont independants si et seulement si pour tout

xi ∈ Im(X) et yj ∈ Im(Y )

pXY (xi, yj) = pX(xi)pY (yj).

Proposition 3 (Consequences de l’independance). Si X et Y sont independantes

alors :

(i) E(XY ) = E(X)E(Y ).

(ii) Cov(X,Y ) = 0.

(iii) Pour tout a, b ∈ R

V (aX + bY ) = a2V (X) + b

2V (Y ).

71

Page 73: Introduction a la statistique - unilim.fr

Demonstration.

E(XY ) =∑

xi,yjxiyjpXY (xi, yj)

=∑

xi,yjxiyjpX(xi)pY (yj)

=∑

xixipX(xi)

∑yjyjpY (yj)

= E(X)E(Y ).

Ce calcule montre (i). L’assertion (ii) et une consequence de (i) et (7). L’assertion

(iii) est une consequence de (ii) et le resultat de la proposition 2.

Remarque 6. Attention : La reciproque est fausse. Une covariance nulle n’im-

plique pas que les deux variables sont independantes.

Voyons une autre consequence de independance.

Lemme 1. Soient X et Y independantes et Z = X + Y . Alors, pour tout

72

Page 74: Introduction a la statistique - unilim.fr

z ∈ Im(Z)

pZ(z) =∑

xi∈Im(X)

pY (z − xi)pX(xi).

Demonstration.

pZ(z) = P(X + Y = z) =∑

xi∈Im(X) P(X + Y = z, X = xi)

=∑

xi∈Im(X) P(Y = z − xi, X = xi)

=∑

xi∈Im(X) pXY (xi, z − xi)=∑

xi∈Im(X) pY (z − xi)pX(xi)

[Distributions multivariees] On peut generaliser l’etude precedente au cas de

plusieurs variables X1, X2, . . . , Xp. On definit la distribution jointe multivariee

pX1,...,XP(x1, . . . , xp) = P(X1 = x1, . . . , Xp = xp).

73

Page 75: Introduction a la statistique - unilim.fr

Comme dans le cas bivariee, on trouve la distribution marginale d’une variable

Xi en additionnant les probabilites jointes sur toutes les valeurs possibles des

variables restantes.

On dira que X1, . . . Xp sont independantes si

pX1,...,XP(x1, . . . , xp) = pX1

(x1) . . . pXp(xp).

[La distribution multinomiale] Considerons n epreuves independantes ou chaque

epreuve peut avoir comme resultat A1, . . . , Ar. Leurs probabilites P(A1) =

p1, . . . , P(Ar) = pr verifient p1 + . . . + pr = 1. Soit Xi (i = 1, ..., r) le

nombre de fois qu’on a obtenu Ai. Alors, k1 + . . .+ kr = n et

pX1,...,Xr(k1, . . . , kr) =

(nk1

)(n− k1

k2

). . .(n− k1 − . . .− kr−1

kr

)pk11 . . . p

krr

74

Page 76: Introduction a la statistique - unilim.fr

En simplifiant l’expression en dessus, on trouve

pX1,...,Xr(k1, . . . , kr) =

n!

k1! . . . kr!pk11 . . . p

krr .

On notera X = (X1, . . . , Xr) ∼MN(n; p1, . . . , pr).

Remarque 7. Lorsque r = 2 on retrouve bien la distribution binomiale.

Exemple 23. Dans une certaine province trois partis sont en lice. Si dans la

population 50% de gens favorisent le parti A, 40% le parti B et 10% le parti

C, calculons la probabilite que sur 6 personnes choisies au hasard, 3 favorisent

le parti A, 1 favorise B et 2 favorisent C.

On a ici r = 3, et X = (X1, X2, X3) ∼MN(6; 0.5, 0.4, 0.1). Alors,

pX1,X2,X3(3, 1, 2) =

6!

3! 1! 2!0.5

30.4

10.1

2= 0.03.

75

Page 77: Introduction a la statistique - unilim.fr

[Supplement : Preuve du theoreme 8] 3 On a

pXn(k) =(nk

)pkn(1− pn)n−k = n!

k!(n−k)!pkn(1− npn

n )n−k

= n!

nk(n−k)!

1k!(pnn)k (1−pn)n

(1−pn)k.

Or,n!

nk(n−k)!= n(n−1)×...×(n−k+1)

nk= n(n−1)×...×(n−k+1)

n×...n

= 1× (1− 1n)× . . .× (1− k

n + 1n)→ 1

quand n→∞. Nous trouvons alors

limn→∞

pXn(k) = limn→∞

n!

nk(n− k)!

1

k!(pnn)

k(1− npnn )n

(1− pn)k=λk

k!e−λ.

3. Lecture optionnelle

76

Page 78: Introduction a la statistique - unilim.fr

Variables aleatoires continues

Dans ce chapitre on considere Ω = R (qui est un ensemble non-denombrable) et une

loi de probabilite P sur les intervalles (ouverts, semi-ouverts ou fermes) de R.

Definition 2. On dit que X : Ω→ R est une variable aleatoire continue s’il existe une

fonction fX : R→ R telle que

— fX(x) ≥ 0 pour tout x ∈ R.

— fX est continue par morceaux.

— On a ∫ ∞−∞

fX(x)dx = 1.

— Pour a, b ∈ R, a < b, la probabilite de X appartient a [a, b] est donnee par

P (ω ∈ Ω ; X(ω) ∈ [a, b]) =

∫ b

a

fX(x)dx.

77

Page 79: Introduction a la statistique - unilim.fr

La probabilite de X appartient a [a,∞[ est donnee par

P (ω ∈ Ω ; X(ω) ∈ [a,∞[) =

∫ ∞a

fX(x)dx

et la probabilite de X appartient a ]−∞, a] vaut

P (ω ∈ Ω ; X(ω) ∈]−∞, a]) =

∫ a

∞fX(x)dx.

On dit que fX est la densite de X.

Remarque 8. (i) La definition precedente n’est pas rigoureuse. La notion correcte de

variable aleatoire continue releve de la theorie de la mesure. Neanmoins, cette definition

suffira pour nos buts.

(ii) On ecrira P(X ∈ [a, b]) pour P(ω ∈ Ω ; X(ω) ∈ [a, b]).

(iii) Pour tout a ∈ R on a

P(X = a) = limh→0

P(X ∈ [a, a+ h]) = limh→0

∫ a+h

a

f(x)dx = 0,

78

Page 80: Introduction a la statistique - unilim.fr

ci qui entraıne

P(X ∈ [a, b]) = P(X ∈]a, b]) = P(X ∈ [a, b[) = P(X ∈]a, b[).

[Fonction de repartition] La fonction de repartition FX est definie comme

FX(x) = P(X ≤ x) = P(X ∈]−∞, x]) =

∫ x

−∞fX(t)dt.

Elle satisfait les proprietes suivantes

— FX : R→ [0, 1]

— FX est continue.

— FX est croissante.

— Si fX est continue en x alors FX est differentiable en x et F ′X(x) = fX(x).

Remarque 9. Cette fonction est tres utile, parce que usuellement pour certaines

variables continues X les valeurs de FX(x) sont tabulees pour certaines valeurs

79

Page 81: Introduction a la statistique - unilim.fr

de x. Ainsi, on peut calculer par exemple

P(a ≤ X ≤ b) = FX(b)− FX(a).

[Moyenne et variance] L’esperance de X est definie comme

E(X) =

∫ ∞−∞

xfX(x)dx,

si cette integrale generalisee converge. La variance de X est definie comme

V (X) = E((X − E(X))2) =

∫ ∞−∞

(x− E(X))2fX(x)dx,

si cette integrale generalisee converge. On verifie facilement que

V (X) =

∫ ∞−∞

x2fX(x)dx− E(X)

2= E(X

2)− E(X)

2.

80

Page 82: Introduction a la statistique - unilim.fr

[La variable aleatoire normale] Une variable aleatoire X continue est dite normale

de parametres (µ, σ) (σ > 0), notee N (µ, σ), si sa densite et donnee par

fX(x) =1

σ√

2πexp

(−1

2

(x− µσ

)2).

108CHAPITRE 5. CALCUL DES PROBABILITES ET VARIABLES ALEATOIRES

5.5.3 Variable normale

Une variable aleatoire X est dite normale si sa densite vaut

fµ,σ2(x) =1

σ√

2πexp −1

2

(x − µ

σ

)2

, (5.1)

ou µ ∈ R et σ ∈ R+ sont les parametres de la distribution. Le parametre µ estappele la moyenne et le parametre σ l’ecart-type de la distribution.

µ−∞ +∞µ + σµ − σ

Figure 5.7 – Fonction de densite d’une variable normale

De maniere synthetique, pour noter que X suit une loi normale (ou gaus-sienne, d’apres Carl Friedrich Gauss) de moyenne µ et de variance σ2 on ecrit :

X ∼ N(µ, σ2).

La loi normale est une des principales distributions de probabilite. Elle a denombreuses applications en statistique. Sa fonction de densite dessine une courbedite courbe de Gauss. On peut montrer (sans demonstration) que

E(X) = µ,

etvar(X) = σ2.

La fonction de repartition vaut

Fµ,σ2(x) =

∫ x

−∞

1

σ√

2πexp −1

2

(u − µ

σ

)2

du.

5.5.4 Variable normale centree reduite

La variable aleatoire normale centree reduite est une variable normale, d’esperancenulle, µ = 0, et de variance σ2 = 1. Sa fonction de densite vaut

f0,1(x) =1√2π

exp −x2

2.

Remarque 10. Souvent la notation N (µ, σ2) est aussi utilisee.

81

Page 83: Introduction a la statistique - unilim.fr

On peut montrer que

E(X) = µ et V (X) = σ2.

Lorsque µ = 0, σ = 1 et X ∼ N (0, 1), on dit que X est une variable normale

centree reduite. Sa densite vaut

fX(x) =1√2πe−x

2

2 .

5.5. VARIABLE ALEATOIRE CONTINUE 109

0.5

1

µ−∞ +∞µ + σµ − σ

Figure 5.8 – Fonction de repartition d’une variable normale

et sa repartition vaut

Φ(x) = F0,1(x) =

∫ x

−∞

1√2π

exp −(

u2

2

)du.

Du fait de la symetrie de la densite, on a la relation

Φ(−x) = 1 − Φ(x),

qui se comprend facilement en examinant la Figure 5.9.

0−∞ +∞x−x

Figure 5.9 – Densite d’une normale centree reduite, symetrie

De plus, le calcul de la repartition d’une variable normale de moyenne µ etde variance σ2 peut toujours etre ramene a une normale centree reduite.

Resultat 5.3

Fµ,σ2(x) = Φ

(x − µ

σ

).

DemonstrationOn a

Fµ,σ2(x) =

∫ x

−∞

1

σ√

2πexp −

1

2

(u − µ

σ

)2

du.

En posant

z =u − µ

σ,

82

Page 84: Introduction a la statistique - unilim.fr

On notera Φ(x) la fonction de repartition d’une normale centree reduite. A partir

de la symetrie de la densite on a la formule

Φ(−x) = 1− Φ(x),

qui est une relation tres utile pour le calcul de probabilites a l’aide de la table de

valeurs numeriques pour Φ.

On verifie aisement que si X ∼ N (µ, σ), alors

X − µσ

∼ N (0, 1).

[Distributions bivariees] Soient X et Y deux variables aleatoires continues. Leur

densite conjointe fXY : R2 → R est une fonction continue, positive et telle que∫ ∞−∞

∫ ∞−∞

fXY (x, y)dxdy = 1.

83

Page 85: Introduction a la statistique - unilim.fr

La fonction de repartition jointe FXY : R2 → [0, 1] est definie par

FXY (x, y) := P(X ≤ x, Y ≤ y) =

∫ x

−∞

∫ y

−∞fXY (s, t)dtds.

Les densites marginales fX : R → [0,∞[ et fY : R → [0,∞[ sont definies

comme

fX(x) :=

∫ ∞−∞

fXY (x, y)dy, fY (y) :=

∫ ∞−∞

fXY (x, y)dx.

Comme precedemment on peut utiliser les distributions marginales pour calculer

les esperances et variances de X et Y . Par exemple,

E(X) =

∫ ∞−∞

xfX(x)dx.

84

Page 86: Introduction a la statistique - unilim.fr

La covariance entre X et Y est definie par

cov(X,Y ) :=∫∞−∞∫∞−∞(x− E(X))(y − E(Y ))fXY (x, y)dxdy,

=∫∞−∞∫∞−∞ xyfXY (x, y)dxdy − E(X)E(Y ).

On dit que X et Y sont independantes si

fXY (x, y) = fX(x)fY (y) pour tout x, y ∈ R.

Un calcul immediat montre que si X et Y son independantes, alors

cov(X,Y ) = 0. La reciproque est fausse.

Lemme 2. Soient X et Y independantes et Z = X + Y . Alors,

fZ(z) =

∫ ∞−∞

fY (z − x)fX(x)dx.

85

Page 87: Introduction a la statistique - unilim.fr

Demonstration.

FZ(z) = P(X + Y ≤ z) =

∫∫R

fXY (x, y)dxdy,

ou R = (x, y) ∈ R2 ; x+ y ≤ z. On trouve

FZ(z) = P(X + Y ≤ z) =∫∞−∞∫ z−x−∞ fXY (x, y)dydx,

=∫∞−∞∫ z−x−∞ fX(x)fY (y)dydx,

=∫∞−∞∫ z−∞ fY (y − x)dy fX(x)dx,

=∫ z−∞∫∞−∞ fY (y − x) fX(x)dxdy,

ce qui donne,

fZ(z) = (FZ)′(z) =

∫ ∞−∞

fY (z − x) fX(x)dx.

86

Page 88: Introduction a la statistique - unilim.fr

De la meme maniere que pour le cas discret, on a toujours (exercice)

E (aX + bY ) = aE(X) + bE(Y ),

et si X et Y sont independantes (exercice),

V(aX + bY ) = a2V (X) + b

2V (Y ).

Les notions de distribution conjointe et de distribution marginale s’etendent sans

difficultes au cadre multivarie.

Proposition 4. Si X ∼ N(µ1, σ1) et Y ∼ N(µ2, σ2) est independante de X,

alors

X + Y ∼ N(µ1 + µ2,

√σ2

1 + σ22

).

Demonstration. Exercice.

87

Page 89: Introduction a la statistique - unilim.fr

[La variable aleatoire χ2] Soit X1, . . . , Xp une suite de variables aleatoires,

normales centrees reduites et independantes. On definit la variable aleatoire

khi-carre a p degres de liberte par

χ2p :=

p∑i=1

X2i .

Comme pour la distribution normale, des valeurs de la fonction de repartition Fχ2p

sont tabulees.

[La variable aleatoire de student] Soit X une variable aleatoire normale centree

reduite et soit χ2p une variable aleatoire khi-carre a p degres de liberte,

independante de X. On definit la variable aleatoire tp de student a p degres de

liberte par

tp :=X√χ2p/p

On note tp ∼ T (p). Les valeurs de la fonction de repartition Ftp sont aussi

88

Page 90: Introduction a la statistique - unilim.fr

tabulees. En particulier, soient X1, . . . , Xn normales N (µ, σ) independantes et

X :=

∑ni=1Xi

net S

2:=

∑ni=1(Xi − X)2

n.

On peut montrer que nS2/σ2 ∼ χ2n−1 independante de X, ce qui implique

X − µ√S2

n−1

∼ T (n− 1)

En effet, par definition

X − µ√S2

n−1

=

X−µσ√n√nS2

σ2(n−1)

∼ T (n− 1).

[Le theoreme limite central]

89

Page 91: Introduction a la statistique - unilim.fr

Theoreme 9. Soient X1, . . . , Xn une suite de variables aleatoires

independantes de meme loi, de moyenne µ et de variance σ2. Alors pour n

assez grand, on peut approcher la loi de

∑ni=1Xi − nµ√

par la loi normale N (0, 1).

Remarque 11. L’enonce du theoreme n’est pas rigoureux, mais il suffira pour

les objectifs de ce cours. On ne peut pas etre tres precis quant a ce qu’on

entend par “n assez grand”. En pratique, on se donne comme limite le nombre

n = 30 : si n ≥ 30 on utilisera l’approximation qui ne sera pas toujours tres

bonne.

Une application immediate de ce theoreme est l’approximation de la loi

binomial X ∼ B(n, p) “centree et reduite” par une loi N (0, 1). En effet, si

90

Page 92: Introduction a la statistique - unilim.fr

X ∼ B(n, p) alors sa loi est la meme que celle de la somme (exercice)

n∑i=1

Xi

ou les Xi’s sont independantes et suivent une loi de Bernoulli de parametre p. Le

theoreme limite central nous dit qu’on peut faire l’approximation

∑ni=1Xi − np√np(1− p)

∼ N (0, 1) (9)

pour n assez grand. L’approximation (9) peut etre ecrite sous la forme equivalente

n∑i=1

Xi ∼ N (np,√np(1− p)). (10)

91

Page 93: Introduction a la statistique - unilim.fr

!

! "#$

Figure !"# %&'!(')&*'+,-!./0!,&'!)&1*+,-!+.-2!n!3!"4!!

76543210-1-2

0.35

0.30

0.25

0.20

0.15

0.10

0.05

0.00

X

Dens

ityBinomial 10 0.2Distribution n p

Normal 2 1.26491Distribution Mean StDev

Distribution Plot

! Figure !"$ %&'!(')&*'+,-!./0!,&'!)&1*+,-!+.-2!n!3!#4!!

181614121086420

0.16

0.14

0.12

0.10

0.08

0.06

0.04

0.02

0.00

X

Dens

ity

Binomial 40 0.2Distribution n p

Normal 8 2.52982Distribution Mean StDev

Distribution Plot

!!!

92

Page 94: Introduction a la statistique - unilim.fr

!

! "#$

Figure !"# %&'!(')&*'+,-!./0!,&'!)&1*+,-!+.-2!n!3!"4!!

76543210-1-2

0.35

0.30

0.25

0.20

0.15

0.10

0.05

0.00

X

Dens

ity

Binomial 10 0.2Distribution n p

Normal 2 1.26491Distribution Mean StDev

Distribution Plot

! Figure !"$ %&'!(')&*'+,-!./0!,&'!)&1*+,-!+.-2!n!3!#4!!

181614121086420

0.16

0.14

0.12

0.10

0.08

0.06

0.04

0.02

0.00

X

Dens

ity

Binomial 40 0.2Distribution n p

Normal 8 2.52982Distribution Mean StDev

Distribution Plot

!!!

93

Page 95: Introduction a la statistique - unilim.fr

!

! "#$

Figure !"# %&'!(')&*'+,-!./0!,&'!)&1*+,-!+.-2!n!3!"44!!

353025201510

0.10

0.08

0.06

0.04

0.02

0.00

X

Dens

ityBinomial 100 0.2Distribution n p

Normal 20 4Distribution Mean StDev

Distribution Plot

!

De meme, on peut montrer que si X = (X1, . . . , Xr) ∼MN(n; p1, . . . , pr),

94

Page 96: Introduction a la statistique - unilim.fr

alors

Q :=

r∑k=1

(Xk − npk)2

npk∼ χ2

r−1.

Exercice : Faire la preuve pour r = 2.

95

Page 97: Introduction a la statistique - unilim.fr

Estimation par intervalles de confiance

Dans ce chapitre on etudie l’estimation de parametres pour une variable aleatoire en

fonction de valeurs observees sur un echantillon.

[Echantillons] Soit X : Ω→ R une variable aleatoire (discrete ou continue).

Definition 3. (i)Une suite de n variables aleatoires X1, . . . , Xn est appelee

echantillon aleatoire de X si X1, . . . , Xn sont independantes et suivent la

meme loi de X.

(ii) Toute fonction de l’echantillon T (X1, . . . , Xn) est appelee une statistique.

En pratique on observe des valeurs x1, . . . , xn pour X1, . . . , Xn et on veut

estimer des parametres de la distribution de X par une statistique evaluee au

point x1, . . . , xn. Par exemple, si on veut estimer la moyenne µ de X on utilisera

96

Page 98: Introduction a la statistique - unilim.fr

la statistique

X := T (X1, . . . , Xn) :=1

n

n∑i=1

Xi,

et si (x1, . . . , xn) est une realisation de (X1, . . . , Xn) alors il paraıt raisonable

d’estimer µ par la moyenne observee x := T (x1, . . . , xn).

[Intuition des intervalles de confiance] Si un echantillon de boıtes de conserves

vous donne un poids moyen x = 200g, vous presenterez cette valeur comme

estimation de la moyenne de la population µ. Mais il y a peu de chance que cette

valeur coıncide avec µ. Il est plus raisonnable d’affirmer que la moyenne des poids

se trouve entre 195 et 205, c’est-a-dire on estimera la moyenne des poids par un

intervalle dont l’amplitude sera liee au niveau de risque desire.

[Intervalles de confiance pour des grands echantillons (n ≥ 30) et distributions

arbitraires]

L’idee de base est d’utiliser l’approximation du Theoreme Limite Central (TLC),

valable car n est “grand”, pour estimer les intervalles.

• [Intervalle de confiance pour une moyenne µ] Considerons un echantillon

97

Page 99: Introduction a la statistique - unilim.fr

aleatoire X1, . . . , Xn tire d’une population de moyenne µ et ecart type σ et

de maniere independante. Supposons d’abord qu’on connait σ. Puisque n est

grand, le TLC implique qu’on peut supposer que

Z :=X − µ

σ√n

∼ N (0, 1)

et donc, pour un certain risque α ∈]0, 1[ il existe uα > 0, qui peut etre

trouve en utilisant les tables, tel que

P(|Z| > uα) = α, ou d’une maniere equivalente P(|Z| ≤ uα) = 1−α.

On trouve donc (exercice)

P(X − uασ√n≤ µ ≤ X + uα

σ√n

) = 1− α.

C’est-a-dire, avec probabilite 1 − α l’intervalle [X − uα σ√n, X + uα

σ√n]

contient µ. En pratique, si on observe la valeur x pour X on estimera µ par

98

Page 100: Introduction a la statistique - unilim.fr

l’intervalle

[x− uασ√n, x+ uα

σ√n

].

Si σ2 est inconnu, on l’estimera en utilisant la variance observee corrigee

s2

=1

n− 1

n∑i=1

(xi − x)2

=n

n− 1

(1

n

n∑i=1

x2i − x

2

), (11)

ou xi correspond a la valeur observee pour Xi. On estimera µ, au risque α,

par l’intervalle

[x− uαs√n, x+ uα

s√n

].

Remarque 12. Puisque n est grand, en pratique on peut approcher par 1

le terme en bleu dans (11), et estimer σ2 par la variance observee

s2

=1

n

n∑i=1

x2i − x

2. (12)

99

Page 101: Introduction a la statistique - unilim.fr

Dans ce cas, on donnera comme intervalle de confiance

[x− uαs√n, x+ uα

s√n

].

Exemple 24. On a analyse la quantite d’acide urique sur un echantillon de

10000 personnes tire au hasard dans la population francaise. Les resultats

de l’analyse sont les suivants : moyenne sur l’echantillon : x = 54 mg/l,

ecart mesure sur l’echantillon : s = 10 mg/l. Donner un intervalle de

confiance au risque d’erreur 1% pour la valeur moyenne du taux d’acide

urique dans le sang de la population francaise.

Reponse : Pour α = 0.01 on obtient uα = 2.576. L’intervalle demande est

donc

I =

[54− 2.576× 10√

10000, 54 + 2.576× 10√

10000

]= [53.7424, 54.2576].

• [Intervalle de confiance pour une proportion p] Considerons une population

dont une proportion p des membres appartient a une certaine classe

100

Page 102: Introduction a la statistique - unilim.fr

C. Supposons que dans un echantillon X1, . . . , Xn on trouve S unites

appartenant a la classe C.

On peut supposer que S ∼ B(n, p) et donc par le theoreme limite central

la distribution de S est proche a une

N(np,

√np(1− p)

)D’ou, pour un risque α donne, on a

P

(∣∣∣∣∣ S − np√np(1− p)

∣∣∣∣∣ ≤ uα)

= 1− α,

et donc, en notant p = S/n la proportion observee, l’intervallep− uα√p(1− p)

n, p+ uα

√p(1− p)

n

contient p avec une probabilite 1− α. Par contre, si on observe x1, . . . , xn

101

Page 103: Introduction a la statistique - unilim.fr

on connaıt p mais l’intervalle reste inconnue car on ne connaıt pas p. Une

solution approximative, presque toujours bonne, et d’estimer

√p(1− p)

npar

√p(1− p)

n.

Par consequent, au risque α on donnera comme estimation l’intervalle

p− uα√p(1− p)

n, p+ uα

√p(1− p)

n

.Exemple 25. On veut avoir une idee de la proportion p de personnes at-

teintes d’une certaine infection. On effectue une enquete parmi 1000 per-

sonnes, et on observe une proportion p = 0.28 d’individus atteints. Don-

ner, avec un seuil d’erreur de 5%, un intervalle de confiance pour p.

Reponse : Pour α = 0.05 on trouve uα = 1.96 et donc l’intervalle demande

102

Page 104: Introduction a la statistique - unilim.fr

est donne par

I =

[0.28− 1.96×

√0.28(1−0.28)

1000 , 0.28 + 1.96×√

0.28(1−0.28)1000

]= [0.252, 0.308].

• [Intervalle de confiance pour la difference des moyennes] Soient

X11, . . . , X1n1et X21, . . . , X2n2

deux echantillons correspondants a

deux populations. Notre but est de donner un intervalle de confiance pour la

difference µ1 − µ2 ou µ1 est la moyenne de la premiere population et µ2 est

la moyenne de la deuxieme population. On suppose que les echantillons sont

independants.

Comme precedemment, on peut construire un intervalle de confiance pour

estimer µ1 − µ2. En effet, par le theoreme limite central, on peut approcher

X1 :=1

n1

n1∑i=1

X1i ∼ N (µ1,σ1√n1

) et X2 :=1

n2

n2∑i=1

X2i ∼ N (µ2,σ2√n2

),

103

Page 105: Introduction a la statistique - unilim.fr

d’ou, par l’independance des echantillons,

X1 − X2 ∼ N

µ1 − µ2,

√σ2

1

n1

+σ2

2

n2

.

En centrant et reduisant on trouve uα tel que au risque α,

P

∣∣∣∣∣∣∣∣∣X1 − X2 − (µ1 − µ2)√

σ21n1

+σ2

2n2

∣∣∣∣∣∣∣∣∣ ≤ uα = 1− α

et donc avec probabilite 1− α l’intervalleX1 − X2 − uα

√σ2

1

n1

+σ2

2

n2

, X1 − X2 + uα

√σ2

1

n1

+σ2

2

n2

contient µ1 − µ2. Puisque en general σ1 et σ2 sont inconnus, sachant

104

Page 106: Introduction a la statistique - unilim.fr

qu’on observe (x11, . . . , x1n1) pour l’echantillon (X11, . . . , X1n1

) et

(x21, . . . , x2n2) pour l’echantillon (X21, . . . , X2n2

), on les estimera avec

la formule

s21 = 1

n1−1

∑n1i=1(x1i − x1)

2 =n1n1−1

(1n1

∑n1i=1 x

21i − x2

1

),

s22 = 1

n2−1

∑n2i=1(x2i − x2)

2 =n2n2−1

(1n2

∑n2i=1 x

22i − x2

2

),

(13)

ou x1 = 1n1

∑n1i=1 x1i et x2 = 1

n2

∑n2i=1 x2i. Au risque α on donnera donc

l’intervallex1 − x2 − uα

√s2

1

n1

+s2

2

n2

, x1 − x2 + uα

√s2

1

n1

+s2

2

n2

,pour estimer µ1 − µ2.

Exemple 26. On a analyse le taux d’acide urique dans deux populations A

et B ayant un regime alimentaire different. Sur le groupe A, constitue de

105

Page 107: Introduction a la statistique - unilim.fr

150 personnes, on a observe une moyenne xA = 56 mg/l avec un ecart-

type sA = 8.5 mg/l. Le groupe B etait constitue de 120 personnes, on a

observe une moyenne xB = 60 mg/l avec un ecart-type sB = 11.5 mg/l.

Au risque α = 5% donner un intervalle de confiance pour la difference de

moyennes.

Reponse : On a uα = 1.96 et l’intervalle demande est

I =

[56− 60− 1.96×

√8.52

150 + 11.52

120 , 56− 60 + 1.96×√

8.52

150 + 11.52

120

],

= [−6.47,−1.53] .

• [Intervalle de confiance pour la difference des proportions] Considerons deuxpopulations dont les proportions des individus appartenant a une classe C sontdonnees par p1 et p2, respectivement. On tire deux echantillons independantsde taille n1 ≥ 30 et n2 ≥ 30. Soient p1 et p2 les proportions observees dansles echantillons tires de la population 1 et de la population 2, respectivement.En raisonnant comme precedemment on estimera p1 − p2 , au risque α, par

106

Page 108: Introduction a la statistique - unilim.fr

l’intervallep1 − p2 − uα

√p1(1− p1)

n1+p2(1− p2)

n2, p1 − p2 + uα

√p1(1− p1)

n1+p2(1− p2)

n2

, [Intervalles de confiance pour des petits echantillons et distributions normales]

L’hypothese fondamentale est que la distribution sous-jacente et normale

N (µ, σ). On verra seulement comment construire un intervalle de confiance pour

µ, mais on pourrait aussi considerer la difference de deux moyennes µ1 et µ2 de

deux populations differentes. Supposons d’abord que σ est connu. Puisque

Z :=X − µ

σ√n

∼ N (0, 1)

l’intervalle de confiance est donne par

[x− uασ√n, x+ uα

σ√n

].

107

Page 109: Introduction a la statistique - unilim.fr

Exemple 27. On a pese dix pots de confiture et on a observe les valeurs (en

grammes)

259, 239, 246, 242, 252, 258, 241, 263, 254, 240.

On sait que l’ecart-type du remplissage est de 6 grammes. Au seuil de confiance

de 95% donnons un intervalle de confiance du poids moyen. On trouve x =

249.4 et donc l’intervalle de confiance est[249.4− 1.96× 6√

10, 249.4 + 1.96× 6√

10

]= [245.68, 253.12].

Si σ est inconnu on rappelle que lorsqu’on a introduit la loi de student, on a vu

que pour un echantillon X1, . . . , Xn on a

X − µ√S2

n−1

∼ T (n− 1) ou S2

:=

∑ni=1(Xi − X)2

n.

En utilisant la table pour la distribution de la loi de student on peut trouver

108

Page 110: Introduction a la statistique - unilim.fr

tn−1,α tel que

P

∣∣∣∣∣∣∣X − µ√

S2

n−1

∣∣∣∣∣∣∣ ≤ tn−1,α

= 1− α,

et donc l’intervalleX − tn−1,α

√S2

n− 1, X + tn−1,α

√S2

n− 1

a une probabilite 1−α de contenir µ. Si on observe x1, . . . , xn pour l’echantillon,

on donnera comme intervalle[x− tn−1,α

s√n, x+ tn−1,α

s√n

]

Exemple 28. Reprenons l’exemple precedent mais sans l’information sur la

109

Page 111: Introduction a la statistique - unilim.fr

variance. On a

s2

=1

9

10∑i=1

(xi − x) = 79.15 et donc s = 8.89.

D’une autre part, la table de student avec 10 − 1 = 9 degres de liberte nous

donne t9,0.05 = 2.262 et donc l’intervalle est[249.4− 2.262× 8.89√

10, 249.4 + 2.262× 8.89√

10

]= [243.04, 255.76].

110

Page 112: Introduction a la statistique - unilim.fr

Tests d’hypotheses

[Test d’hypothese pour une moyenne µ : grands echantillons] Supposons que

d’une population X on preleve un echantillon X1, . . . , Xn, ou n est grand

(≥ 30), afin de determiner si oui ou non, la moyenne µ est egale a une constante

donnee µ0. On considere les deux hypotheses

H0 : µ = µ0, H1 : µ 6= µ0.

Supposons d’abord que l’ecart σ de la population X est connu. Si H0 est vraie,

alors le theoreme limite centrale nous dit que approximativement

√n(X − µ0

∼ N (0, 1).

111

Page 113: Introduction a la statistique - unilim.fr

Etant donne un risque α il existe uα tel que

P

(∣∣∣∣∣√n(X − µ0

∣∣∣∣∣ ≥ uα)

= α,

d’ou

P(X ∈

[µ0 − uα

σ√n, µ0 + uα

σ√n

]c)= α.

Ceci conduit au critere suivant : Si la moyenne observee x n’appartient pas a

l’intervalle [µ0 − uα

σ√n, µ0 + uα

σ√n

]alors, au risque α, on rejettera H0.

En pratique, σ n’est pas connue. Dans ce cas, dans les formules ci-dessus on

remplacera σ par s.

Exemple 29. Le taux moyen d’acide urique dans le sang est 50 mg/l, avec

112

Page 114: Introduction a la statistique - unilim.fr

un ecart type de 10 mg/l. Une analyse effectuee sur un groupe de 80 patients

a revele un taux moyen de 65 mg/l. Au risque de 5%, peut-on considerer ce

resultat comme normal ?

Reponse : On considere les hypotheses

H0 : µ = 50, H1 : µ 6= 50.

Au risque α = 0.05 on obtient uα = 1.96 et on trouve l’intervalle

I =

[50− 1.96× 10√

80, 50 + 1.96× 10√

80

]= [47.809, 52.191].

Puisque 65 /∈ I, au risque de 5%, on considere que le resultat n’est pas normal.

[Test d’hypothese sur la difference de deux moyennes : grands echantillons] Soient

X11, . . . , X1n1et X21, . . . , X2n2

deux echantillons correspondants a deux

populations. On supposera que n1 ≥ 30, n2 ≥ 30 et que les deux echantillons

sont independants. Soient µ1 et σ1 la moyenne et l’ecart dans la population 1 et

113

Page 115: Introduction a la statistique - unilim.fr

µ2 et σ2 la moyenne et l’ecart dans la population 2. Approximativement, par le

TCL, on a

X1 − X2 ∼ N

µ1 − µ2,

√σ2

1

n1

+σ2

2

n2

. (14)

Considerons l’hypothese

H0 : µ1 = µ2,

et l’hypothese alternative

H1 : µ1 6= µ2.

Supposons d’abord que σ1 et σ2 sont connus. Grace a (14), si H0 est vrai, on

peut trouver uα > 0 tel que

P

X1 − X2 ∈

−uα√σ2

1

n1

+σ2

2

n2

, uα

√σ2

1

n1

+σ2

2

n2

c = α.

Au risque α on acceptera H1 si la difference de moyennes observees x1 − x2

114

Page 116: Introduction a la statistique - unilim.fr

n’appartient pas a l’intervalle

−uα√σ2

1

n1

+σ2

2

n2

, uα

√σ2

1

n1

+σ2

2

n2

.En pratique, σ n’est pas connue. Dans ce cas, dans les formules ci-dessus on

remplacera σ par s.

Exemple 30. Lors d’un examen, les copies de deux amphitheatres on ete cor-

rigees par le meme examinateur. Dans le premier amphitheatre, il y a 125

candidats, on observe une moyenne de 10.3 et un ecart-type de 4.6. Dans le

deuxieme amphitheatre, il y a 163 candidats, on observe une moyenne de 11.2 et

un ecart-type de 3.9. Au risque d’erreur de 10% peut-on considerer les resultats

de ceux deux amphis comme homogenes ?

Reponse : On considere l’hypothese d’homogeneite de moyennes

H0 : µ1 = µ2

115

Page 117: Introduction a la statistique - unilim.fr

Au risque α = 0.1 on a uα = 1.645. On considere l’intervalle

I =

−1.645×√

4.62

125+

3.92

163, 1.645×

√4.62

125+

3.92

163

= [−0.843, 0.843].

Puisque 11.2 − 10.3 = 0.9 /∈ I on rejettera l’hypothese d’homogeneite au

risque d’erreur 10%.

[Test d’hypothese sur une proportion : grands echantillons] Considerons une

population dont la proportion d’individus appartenant a une classe C est p. On

considere un echantillon de taille n ≥ 30 et on note S le nombre de resultats

appartenant a la classe C. Puisque S ∼ B(n, p), par le TCL approximativement

S ∼ N(np,

√np(1− p)

).

On considere l’hypothese

H0 : p = p0

116

Page 118: Introduction a la statistique - unilim.fr

et l’hypothese alternative

H1 : p 6= p0.

En raisonnant comme precedemment on acceptera H1, au risque α, si la

proportion observee p satisfait

p /∈

p0 − uα

√p0(1− p0)

n, p0 + uα

√p0(1− p0)

n

.Si

p ∈

p0 − uα

√p0(1− p0)

n, p0 + uα

√p0(1− p0)

n

,on acceptera H0.

Exemple 31. La proportion de bacheliers au niveau national chez les jeunes de

20 ans est de 73%. Pour verifier si la population d’une ville correspond a cette

proportion, on choisit au hasard 150 jeunes de 20 ans habitant cette ville. On

observe 107 bacheliers. Au risque de 5% la proportion de bacheliers est-elle

117

Page 119: Introduction a la statistique - unilim.fr

conforme a la proportion nationale ?

Reponse : On considere l’hypothese de conformite

H0 : p = 0.73

Au niveau de risque α = 0.05 on trouve uα = 1.96 et l’intervalle

I =

0.73− 1.96×√

0.73(1− 0.73)

150, 0.73 + 1.96×

√0.73(1− 0.73)

150

= [0.656, 0.801].

Puisque p = 107/150 = 0.713 ∈ I, au risque de 5% la proportion de

bacheliers est conforme a la proportion nationale.

[Test d’hypothese sur la difference de deux proportions : grands echantillons]

Considerons deux populations dont les proportions des individus appartenant a

une classe C sont donnees par p1 et p2, respectivement. On tire deux echantillons

independants de taille n1 ≥ 30 et n2 ≥ 30. Soient p1 et p2 les proportions

observees dans les echantillons tires de la population 1 et de la population 2,

118

Page 120: Introduction a la statistique - unilim.fr

respectivement. On veut tester au risque α l’hypothese

H0 : p1 = p2,

contre l’hypothese

H1 : p1 6= p2.

On acceptera H0 si

p1 − p2 ∈

−uα√p(1− p)

(1

n1

+1

n2

), uα

√p(1− p)

(1

n1

+1

n2

) ,ou

p =n1p1 + n2p2

n1 + n2

.

Exemple 32. On veut comparer les taux d’allergie dans deux villes A et B.

Dans la ville A, sur un echantillon de 600 personnes, on observe 120 individus

119

Page 121: Introduction a la statistique - unilim.fr

allergiques. Dans la ville B, sur un echantillon de 400 personnes, on observe

104 individus allergiques. Les resultats de ces deux villes sont-ils homogenes ?

On prendra un coefficient de risque de 10%.

Reponse : On considere l’hypothese

H0 : p1 = p2.

Au risque α = 0.1 on trouve uα = 1.645. Puisque p1 = 120/600 = 0.2 et

p2 = 104/400 = 0.26

p =120 + 104

1000= 0.224.

on trouve l’intervalle

I =

[−1.645×

√0.224(1− 0.224)

(1

600 + 1400

), 1.645×

√0.224(1− 0.224)

(1

600 + 1400

)]= [−0.0443, 0.0443].

On a p1− p2 = −0.06 /∈ I et donc, au risque de 10%, les resultats ne sont pas

homogenes.

120

Page 122: Introduction a la statistique - unilim.fr

[Test d’hypothese pour une moyenne : petits echantillons et populations normales]

Supposons que nous disposons d’un echantillon X1, . . . , Xn d’une population

N (µ, σ) d’ecart type inconnu. On a vu que si

X :=

∑ni=1Xi

net S

2:=

∑ni=1(Xi − X)2

n,

on a

nS2/σ

2 ∼ χ2n−1 et

X − µ√S2

n−1

∼ T (n− 1).

Etant donne un risque α, alors il existe tn−1,α (qu’on trouve a l’aide de la table

de la loi de Student), tel que sous l’hypothese

H0 : µ = µ0,

P(X /∈

[µ0 − tn−1,α

S√n− 1

, µ0 + tn−1,α

S√n− 1

])= α.

121

Page 123: Introduction a la statistique - unilim.fr

En pratique, si on observe x pour la variable aleatoire X et s pour S on rejettera

H0 si

x /∈[µ0 − tn−1,α

s√n− 1

, µ0 + tn−1,α

s√n− 1

]Ou, de facon equivalente, si

x /∈[µ0 − tn−1,α

s√n, µ0 + tn−1,α

s√n

].

Exemple 33. On pese 15 pots de confiture, et on obtient les valeurs (en

grammes)

253, 247.4, 247, 246, 251, 255, 244, 245, 243.5, 254.5, 243.6,

247.3, 249, 248.6, 247.2.

Le poids d’un pot est suppose suivre une loi normale N (µ, σ). Tester, au seuil

122

Page 124: Introduction a la statistique - unilim.fr

de confiance de 95%, l’hypothese

H0 : µ = 250.

Reponse : Pour α = 0.05 et n = 15 on trouve tn−1,α = 2.145. Sous

l’hypothese H0

P(X ∈

[250− 2.145

S√14, 250 + 2.145

S√14

])= 0.95.

Puisque s = 3.623 on trouve l’intervalle

I =

[250− 2.145

3.623√14, 250 + 2.145

3.623√14

]= [247.923, 252.077]

La moyenne observee x est egale a 248.14 ∈ I et nous devons accepter H0.

[Test d’hypothese pour la difference de deux moyennes : petits echantillons et

populations normales] SoientX11, . . . , X1n1etX21, . . . , X2n2

deux echantillons

123

Page 125: Introduction a la statistique - unilim.fr

correspondants a deux populations N (µ1, σ1) et N (µ2, σ2) (inconnu). On

supposera que les deux echantillons sont independants et que σ1 = σ2. Soient

X1 = 1n1

∑n1i=1X1i, X2 = 1

n2

∑n2i=1X2i,

S21 = 1

n1

∑n1i=1X

21i − X2

1 , S22 = 1

n2

∑n1i=1X

22i − X2

2 .

Puisque

n1S21/σ

2 ∼ χ2n1−1, n2S

22/σ

2 ∼ χ2n2−1

et on peut demontrer que la somme de deux variables χ2k1

et χ2k2

independantes

est une variable χ2k1+k2

, on a

n1S21/σ

2+ n2S

22/σ

2 ∼ χ2n1+n2−2.

Si on definit

S2

=n1S

21 + n2S

22

n1 + n2 − 2,

124

Page 126: Introduction a la statistique - unilim.fr

par definition de la loi de student on trouve que (exercice)

X1 − X2 − (µ1 − µ2)

S√

1n1

+ 1n2

∼ T (n1 + n2 − 2).

Alors, sous l’hypothese

H0 : µ1 = µ2,

et pour un risque α donne, on trouve t = tn1+n2−2,α tel que

P

(X1 − X2 /∈

[−tS

√1

n1

+1

n2

, tS

√1

n1

+1

n2

])= α.

En pratique, si on observe x1, x2 pour X1 et X2 et s1, s2 pour S1 et S2, on

rejettera H0 si

x1 − x2 /∈[−ts

√1

n1

+1

n2

, ts

√1

n1

+1

n2

],

125

Page 127: Introduction a la statistique - unilim.fr

ou

s2

=n1s

21 + n2s

22

n1 + n2 − 2.

Exemple 34. Deux machines fabriquent des barres metalliques. On mesure au

hasard les longueurs de 16 barres issues de la premiere machine, et on obtient

les 16 valeurs

181, 179, 178, 183, 180.5, 177, 176.8, 173.7, 179, 180.1,

180, 181.3, 176.5, 177.1, 178.3, 175.5.

Un echantillon de 9 barres de la seconde machine donne les 9 valeurs

172, 178, 175.5, 176, 174.4, 178.4, 176.7, 177, 175.7.

Les longueurs des barres du premier echantillon suivent une loi normale

N (µ1, σ) et celles du second echantillon suivent une loi normale N (µ2, σ),

ou σ est inconnu.

126

Page 128: Introduction a la statistique - unilim.fr

Tester au risque d’erreur de 5% l’hypothese d’homogeneite

H0 : µ1 = µ2.

Reponse : Ici n1 = 16, n2 = 9. Pour α = 0.05 on trouve tn1+n2−2,α = 2.069.

Ceci implique que

P

(X1 − X2 /∈

[−2.069S

√1

16+

1

9, 2.069S

√1

n1

+1

n2

])= 0.05.

Les statistiques observees sont donnees par

x1 = 178.55, x2 = 175.96667, s21 = 5.44, s

22 = 3.3488889,

d’ou

s =

√16× 5.44 + 9× 3.3488889

23∼ 2.257,

127

Page 129: Introduction a la statistique - unilim.fr

ce qui donne l’intervalle

I =[−2.069× 2.257

√116 + 1

9, 2.069× 2.257√

116 + 1

9

],

∼ [−1.95, 1.95] .

Puisque x1 − x2 = 2.58333 /∈ I on rejettera l’hypothese d’homogeneite H0.

[Test de conformite khi-deux] Considerons une population dont la proportion

d’individus appartenant a la classe Ci (i = 1, . . . , r) est donnee par pi. On

suppose que∑r

i=1 pi = 1. On preleve un echantillon de taille n et on veut tester

l’hypothese

H0 : pi = pi pour tout i = 1, . . . , r.

Soit Xi = nombre de resultats appartenant a la classe Ci. Si l’hypothese H0 est

vraie, alors on sait que

X = (X1, . . . , Xr) ∼MN(n; p1, . . . , pr)

128

Page 130: Introduction a la statistique - unilim.fr

et grace au theoreme central limite

D :=

r∑i=1

(Xi − npi)2

npi∼ χ2

r−1.

La propriete ci-dessus implique que pour un risque donne α il existe χ2r−1,α (qui

peut etre trouve a l’aide de la table pour la distribution χ2) tel que

P(D > χ

2r−1,α

)= α.

En pratique, la propriete ci-dessus induit le test suivant : Si l’on observe la valeur

xi pour Xi alors on rejettera l’hypothese H0 si

d =r∑i=1

(xi − npi)2

npi> χ

2r−1,α.

Remarque 13. Il faut s’assurer que les effectifs theoriques npi i = 1, . . . , r

sont superieurs a 5 et donc faire de regroupements de classes si c’est necessaire.

129

Page 131: Introduction a la statistique - unilim.fr

Exemple 35. Les notes a un examen national se sont reparties de la maniere

suivante :

notes [0; 4] [5; 7] [8; 9] [10; 12] [13; 15] [16; 20]

frequence 10% 8% 18% 42% 10% 12%

les notes relevees dans un etablissement scolaire A sont les suivantes :

notes [0; 4] [5; 7] [8; 9] [10; 12] [13; 15] [16; 20]

effectif 18 10 15 60 20 24

Au risque d’erreur de 5%, la distribution des notes de cet etablissement est-elle

conforme aux resultats nationaux ?Reponse : Pour la distribution de notes dans l’etablissement scolaire A on fait

l’hypothese

H0 : p1 = 0.1, p2 = 0.08, p3 = 0.18, p4 = 0.42 p5 = 0.1 p6 = 0.12.

Pour un risque α donne, on a χ25,0.05 = 11.07. Or, l’effectif total est egal a 147

130

Page 132: Introduction a la statistique - unilim.fr

et les effectifs attendus sont donnes par

np1 = 14.7, np2 = 11.76, np3 = 26.46, np4 = 61.74, np5 = 14.7, np6 = 17.64.

Puisque,

d = (18−14.7)2

14.7 + (10−11.76)2

11.76 + (15−26.46)2

26.46 + (60−61.74)2

61.74

+(20−14.7)2

14.7 + (24−17.64)2

17.64 = 10.220603 < 11.07,

la distribution est conforme aux resultats nationaux.

On peut aussi considerer des tests de conformite a une loi donnee ou les

parametres sont inconnus. Dans ce cas, il faut enlever a la variable khi-deux un

nombre de degres de liberte egale au nombre de parametres estimes.

Exemple 36. On observe le nombre X d’accidents journaliers sur une periode

131

Page 133: Introduction a la statistique - unilim.fr

de 50 jours dans une certaine ville. On obtient :

Nombre d’accidents Nombre de jours

0 21

1 18

2 7

3 3

4 1

On constate une moyenne observee x = 0.9 et une variance observe s2X = 0.97. Au risque

d’erreur du 5%, peut-on affirmer que X suit une loi de Poisson ?

Reponse : On fait l’hypothese

H0 : X suit une loi de Poisson.

Si H0 est vrai alors on peut estimer le parametre λ de la loi de Poisson par

λ = E(X) ∼ x = 0.9 et les probabilites theoriques de X = 0, X = 1 et

132

Page 134: Introduction a la statistique - unilim.fr

X ≥ 2 par

P(X = 0) = e−0.9, P(X = 1) = 0.91

1! e−0.9,

P(X ≥ 2) = 1− P(X ≤ 1)

et on peut dresser le tableau suivant en multipliant par 50 les probabilites

ci-dessus pour trouver les effectifs theoriques :

Nombre d’accidents Nombre de jours Nombre de jours theorique

0 21 20.33

1 18 18.295

≥ 2 11 11.376

On calcule

d =(21− 20.33)2

20.33+

(18− 18.295)2

18.295+

(11− 11.376)2

11.376= 0.039

Or, on a estime un parametre (λ), donc on doit considerer une variable chi-deux

133

Page 135: Introduction a la statistique - unilim.fr

a 50 − 1 − 1 = 48 degres de liberte. Au niveau de risque de 5% on trouve

χ23−1−1,0.05 = χ2

1,0.05 = 3.841. Donc, q ≤ χ21,0.05 et on accepte H0.

[Test d’independance khi-deux] On considere deux variables aleatoires X et Y .

On suppose que

Im(X) = x1, . . . , xp, Im(Y ) = y1, . . . , yq.

Supposons que nous prenons un echantillon de N individus. Pour i = 1, . . . , p

et j = 1, . . . , q soient

Ni,j := nombre de fois que les valeurs X = xi et Y = yj sont prises,

Ni· := nombre de fois que la valeur X = xi est prise =∑q

j=1Ni,j,

N·j := nombre de fois que la valeur Y = yj est prise =∑p

i=1Ni,j,

Nous voudrions tester l’hypothese d’independance

H0 : X est independante de Y.

134

Page 136: Introduction a la statistique - unilim.fr

Si H0 est vraie, alors si l’on definit

Ntheoi,j :=

Ni·N·jN

,

on peut montrer que

D :=

p∑i=1

q∑j=1

(Ni,j −N theo

i,j

)2

N theoi,j

.

suit approximativement une loi de

χ2(p−1)(q−1).

A partir des valeurs observees ni,j pour Ni,j, ni· =∑q

j=1 ni,j pour Ni·,

n·j =∑p

i=1 ni,j pour N·j et ntheoi,j = ni·n·j/n on va a tester H0. Au niveau

135

Page 137: Introduction a la statistique - unilim.fr

de risque α, on rejettera H0 si la valeur observee

d :=

p∑i=1

q∑j=1

(ni,j − ntheoi,j

)2

ntheoi,j

de D est superieur a χ2(p−1)(q−1),α.

Exemple 37. Une statistique effectuee sur 800 personnes donne la repartition

suivante :

X \ Y gros fum. moyen fum. petits fum. non fumeurs ni·hypertension 74 116 68 82 340

pas d’hypert. 126 174 82 78 460

n·j 200 290 150 160 800

Tester au risque 10% l’independance entre l’hypertension et la consommation

de tabac.

136

Page 138: Introduction a la statistique - unilim.fr

Reponse : On fait l’hypothese

H0 : L’hypertension est independante de la consommation de tabac.

On remplit le tableau d’effectifs theoriques

X \ Y gros fum. moyen fum. petits fum. non fumeurs ni·hypertension 85 123.25 63.75 68 340

pas d’hypert. 115 166.75 86.25 92 460

n·j 200 290 150 160 800

Par exemple

123.25 = n1·n·2/n = 340× 290/800.

Nous calculons

d =(74− 85)2

85+ . . .+

(78− 92)2

92= 8.721

et χ2(1×3),0.1 = χ2

3,0.1 = 6.251. Puisque d > χ23,0.1 on rejette l’hypothese

137

Page 139: Introduction a la statistique - unilim.fr

d’independance.

[Test d’homogeneite khi-deux] Formellement, le but ici est de tester si q

populations sont homogenes en ce qui concerne la distribution d’une variable

aleatoire X. On suppose que

Im(X) = x1, . . . , xp

On preleve un echantillon pour chaque population. La taille de l’echantillon

associe a la population j-eme (j = 1, . . . , q) est donne par nj. On note

n = n1 + . . . + nq la taille de l’echantillon global. Soit Ni,j le nombre de fois

que la valeur xi est prise dans la population j et Ni· :=∑q

j=1Nij le nombre de

fois que la valeur xi est prise dans la population globale. Sous l’hypothese

H0 := les populations sont homogenes

138

Page 140: Introduction a la statistique - unilim.fr

on peut montrer que

D :=

p∑i=1

q∑j=1

(Ni,j −N theo

i,j

)2

N theoi,j

, ou Ntheoi,j := nj

Ni·n,

suit approximativement une loi chi deux a (p− 1)(q − 1) degres de liberte.

Donc, pour tester l’hypothese, au niveau de risque α, nous calculons la valeur d

de D observee

d :=

p∑i=1

q∑j=1

(ni,j − ntheoi,j

)2

ntheoi,j

,

ou ni,j est la valeur observee de Ni,j et

ntheoi,j = nj

ni·n

avec ni· :=q∑j=1

ni,j.

Si d > χ2(p−1)(q−1),α, au risque d’erreur α on rejettera l’hypothese d’homogeneite.

139

Page 141: Introduction a la statistique - unilim.fr

Exemple 38. Dans deux echantillons de populations d’une meme espece, d’effec-

tifs respectifs 100 et 400, on denombre 4 phenotypes A1, . . . , A4. Les resultats

sont les suivants

Phenotype \ Population Population 1 Population 2 ni·A1 10 60 70

A2 30 120 150

A3 50 180 230

A4 10 40 50

Taille d’echantillons 100 400 500

Au risque de 5%, les deux populations presentent-elles les memes proportions

de phenotypes ?

Reponse : On fait l’hypothese

H0 : Les proportions de phenotypes sont les memes.

On remplit le tableau d’effectifs theoriques :

140

Page 142: Introduction a la statistique - unilim.fr

Phenotype \ Population Population 1 Population 2 ni·A1 14 56 70

A2 30 120 150

A3 46 184 230

A4 10 40 50

Taille d’echantillons 100 400 500

Par exemple 184 = 400× 230/500. Puis, on calcule

d =(10− 14)2

14+ . . .+

(40− 40)2

40= 1.87.

et χ23×1,0.05 = χ2

3,0.05 = 7.815. Puisque d ≤ χ23,0.05 on accepte l’homogeneite.

141