Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2...

17
Universit´ e de Lille 2 - Droit et Sant´ e Tests du χ 2 Micha¨ el Genin - [email protected] Centre d’Etudes et de Recherche en Informatique M´ edicale - (EA 2694)

Transcript of Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2...

Page 1: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

Universite de Lille 2 - Droit et Sante

Tests du χ2

Michael Genin - [email protected]

Centre d’Etudes et de Recherche en Informatique Medicale - (EA 2694)

Page 2: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

Table des matieres

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1 Principe du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Interpretation du test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Test du Khi-deux d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.1 Principe du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Conditions d’applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.3 Hypotheses et statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.4 Decision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Test du Khi-deux d’homogeneite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.1 Principe du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.2 Conditions d’applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3 Hypotheses et statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.4 Decision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

4 Test du Khi-deux d’independance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.1 Principe du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.2 Conditions d’applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.3 Hypotheses et statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.4 Decision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

A Table de la loi du χ2 15

1

Page 3: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

1. INTRODUCTION Tests du χ2

1 Introduction

Les tests du χ2 (chi-deux, chi-carre, ...) sont bases sur la statistique du χ2 proposee par Karl Pearson,mathematicien britannique du debut du XXeme siecle. L’objectif de ces tests est principalement de comparerdes distributions entre elles. Ces tests peuvent etre appliques a des variables de de nature qualitative (binaire,nominale, ordinale, quantitative regroupee en classes).

Trois types de test du χ2 peuvent etre distingues :

1. Le test du χ2 d’ajustement dont l’objectif est de comparer une distribution observee sur un echantillona une distribution theorique (binomiale, Poisson, normale, ...) ou a une distribution connue dans lapopulation sous-jacente.Exemple : Soit un echantillon de 100 francais. La distribution observee (sur l’echantillon) de l’age regroupeen classes est-elle identique a celle de la population francaise ?

2. Le test du χ2 d’homogeneite dont l’objectif est deux comparer deux ou plusieurs distributions ob-servees sur des echantillons.Exemple : Soient trois echantillons de 100 francais, 100 belges et 100 anglais. La distribution observee del’age regroupe en classes est-elle differente entre les echantillons.

3. Le test du χ2 d’independance qui est utilise pour etudier sur un meme echantillon la liaison entredeux variables qualitatives.Exemple : Soit un echantillon de 100 francais. Existe-t-il un lien entre le sexe (Homme / Femme) et lacouleur des yeux (Marrons, Bleus, Vert, ...) ?

1.1 Principe du χ2

Quelque soit le type de test, le principe consiste a comparer les effectifs des classes des distributions et lecalcul de la statistique de test reste identique. Cette section va s’attacher a decrire les differentes hypothesesenoncees en fonction du type de test, le calcul de la statistique de test et l’interpretation du test du χ2 dans lecadre general. Les sections suivantes decrivent de maniere plus specifique les differents types de test.

1.1.1 Hypotheses

Le choix des hypothese nulle H0 et hypothese alternative H1 est fonction du type de test du χ2 :

1. Test du χ2 d’ajustement. Sous H0, l’echantillon observe provient de la population dont la distributiontheorique est connue. Aussi, la distribution observee sur l’echantillon devrait etre sensiblement identique.A contrario, si la distribution observee est differente de la distribution theorique, on rejette H0 et onaccepte H1, l’echantillon ne provient pas de la meme population.

— H0 : La distribution observee est identique a la distribution theorique— H1 : La distribution observee est differente de la distribution theorique.

2. Test du χ2 d’homogeneite. Sous H0, les echantillons observes sont issus de la meme populationsous-jacente. Aussi, les differentes distributions devraient etre identiques entre elles. Si les distributionsobservees sont differentes entre elles alors on rejette H0 au profit de H1, les echantillons ne sont donc pasissus de la meme population.

— H0 : Les distributions observees sont identiques entre elles— H1 : Les distributions observees sont differentes entre elles

3. Test du χ2 d’independance. Soient X1 et X2 deux variables qualitatives. Sous H0, la distribution deX1 devrait etre independante de celle de X2. A contrario, si la distribution de X1 est liee a celle de X2,on rejette H0 au profit de H1, les deux variables X1 et X2 sont liees.

— H0 : Les variables X1 et X2 sont independantes— H1 : Il existe une liaison entre X1 et X2

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 2 / 16

Page 4: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

1. INTRODUCTION Tests du χ2

1.1.2 Tableau de contingence

Le test du χ2 se base sur la notion d’effectifs synthetises au sein d’un tableau de contingence. La forme dece dernier depend du type de test qui est utilise.

Dans le cadre du test du χ2 d’ajustement, le tableau ne comporte qu’une seule colonne, car la distributiond’une variable est observee sur un seul echantillon (Tableau 1). A chaque modalite i de la variable est associeson effectif observe oi.

Table 1 – Tableau de contingence / Test du χ2 d’ajustement

Variable Effectifs observesModalite 1 o1Modalite 2 o2

. .

. .

. .Modalite p op

Total N

Dans le cas du test du χ2 d’homogeneite, le tableau contient autant de colonnes qu’il y a d’echantillonsobserves (Table 2). L’effectif associe a la modalite i de l’echantillon j est note oij . La somme des effectifs detous les echantillons pour une modalite i est notee ti. La taille d’un echantillon observe j est notee nj .

Table 2 – Tableau de contingence / Test du χ2 homogeneite

Effectifs observes

Variable Echantillon 1 Echantillon 2 ... Echantillon k Total

Modalite 1 o11 o12 . o1k t1Modalite 2 o21 o22 . o2k t2

. . . . .Modalite p op1 op2 . opk tk

Total n1 n2 . nk N

Dans le cadre du test du χ2 d’independance, le tableau de contingence comporte autant de lignes quede modalites de la variable X1 et autant de colonnes que de modalites de la variable X2 (Table 3). A chaquecroisement de la modalite i de X1 avec la modalite j de X2 est associe l’effectif observe note oij . L’effectifobserve de la modalite i de X1 est note ti et l’effectif observe de la modalite j de X2 est note nj .

Table 3 – Tableau de contingence / Test du χ2 d’independance

Variable X2

Variable X1 Modalite 1 Modalite 2 ... Modalite k Total

Modalite 1 o11 o12 . o1k t1Modalite 2 o21 o22 . o2k t2

. . . . .Modalite p op1 op2 . opk tk

Total n1 n2 . nk N

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 3 / 16

Page 5: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

1. INTRODUCTION Tests du χ2

1.1.3 Calcul de la statistique de test : cas general

Considerons dans le cas general, le tableau de contingence des effectifs observes suivant :

Table 4 – Tableau de contingence / Cas general

Effectifs observes

Variable Echantillon 1 Echantillon 2 ... Echantillon k Total

Modalite 1 o11 o12 . o1k t1Modalite 2 o21 o22 . o2k t2

. . . . .Modalite p op1 op2 . opk tk

Total n1 n2 . nk N

Le principe du test du χ2 consiste a calculer, pour chaque case du tableau, l’effectif theorique qui devraitetre observe sous l’hypothese nulle d’egalite (ou d’independance) des distributions. Sous cette hypothese, leseffectifs sont repartis en proportion egale.

On definit l’effectif theorique eij associe a la case {i, j} du tableau par la quantite suivante :

eij =njtiN

Ainsi, nous obtenons un second tableau de contingence, nomme tableau de contingence theorique, dontles marges (ti et nj) sont identiques au tableau de contingence observe.

Table 5 – Tableau de contingence theorique

Effectifs theoriques

Variable Echantillon 1 Echantillon 2 ... Echantillon k Total

Modalite 1 e11 e12 . e1k t1Modalite 2 e21 e22 . e2k t2

. . . . .Modalite p ep1 ep2 . epk tk

Total n1 n2 . nk N

Sous l’hypothese nulle, les effectifs observes et les effectifs theoriques doivent etre sensiblement proches doncla somme de leurs differences devrait etre proche de zero. Aussi, le principe du test du χ2 se base sur l’evaluationde la somme de ces differences par rapport a une valeur seuil. Intuitivement, si cette somme de differencesexcede une certaine valeur, cela signifie que les effectifs observes et les effectifs theoriques sont differents et parconsequent l’hypothese d’egalite (ou d’independance) des distributions peut etre remise en cause.

Sous H0, le test du χ2 a pour statistique de test :

χ2 =

p∑i=1

k∑j=1

(oij − eij)2

eij∼ χ2

(p−1)(k−1) ddl

Cette statistique de test permet de quantifier l’ecart (distance) entre les effectifs theoriques et les effectifsobserves. Pour un risque de premiere espece α, la region critique conduisant au rejet de l’hypothese nulle estdefinie par :

W = [χ2(1−α);(p−1)(k−1) ddl; +∞[

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 4 / 16

Page 6: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

2. TEST DU KHI-DEUX D’AJUSTEMENT Tests du χ2

Ou χ2(1−α);(p−1)(k−1) ddl correspond au quantile d’ordre (1−α) de la loi du χ2 a (p−1)(k−1) degres de liberte.

Cette loi est tabulee et disponible en Annexe A

En d’autres termes, ce quantile correspond a la valeur seuil que nous cherchons a comparer avec la sommedes differences entres les effectifs theoriques et les effectifs observes. Si la realisation de la statistique de testdepasse cette valeur seuil (i.e. appartient a la region critique W ) alors l’hypothese nulle est rejetee.

Condition d’application du test Le test du χ2 est sensible aux petits effectifs. Aussi, le test est considerecomme applicable lorsque les effectifs theoriques eij sont superieurs ou egaux a 5. En pratique, si cette conditionn’est pas realisee, la technique consiste a regrouper certaines modalites (ex : regrouper les yeux noirs er les yeuxmarrons) afin de, par construction, augmenter la valeurs des effectifs theoriques.

1.2 Interpretation du test du χ2

Dans le cadre du test du χ2 d’ajustement et du test du χ2 d’homogeneite, l’interpretation est lasuivante :

— Si la valeur de la statistique de test χ2 est inferieure a la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on

conserve l’hypothese nulle. On ne peut pas affirmer que les echantillons sont issus de population differentes(i.e. les distributions semblent identiques).

— Si la valeur de la statistique de test χ2 est superieure a la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on

rejette l’hypothese nulle. Les echantillons sont issus de populations differentes (i.e. les distributions sontsignificativement differentes entre les echantillons).

Dans le cadre du test du χ2 d’independance, l’interpretation est la suivante :

— Si la valeur de la statistique de test χ2 est inferieure a la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors

on conserve l’hypothese nulle. Les variables X1 et X2 sont independantes. (i.e. leur distribution sontindependantes).

— Si la valeur de la statistique de test χ2 est superieure a la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on

rejette l’hypothese nulle. Il existe une liaison significative entre X1 et X2 (i.e. leurs distributions sontdependantes).

2 Test du Khi-deux d’ajustement

2.1 Principe du test

Le test du χ2 d’ajustement est utilise lorsque l’on desire comparer une distribution observee d’une variablequalitative a p modalites sur un echantillon de taille N a :

— une distribution theorique (binomiale, Poisson, normale...).— une distribution connue dans la population. Les puristes parlent alors de test du χ2 de conformite.

Comme explicite en Section 1.1.2, les observations sont synthetisees dans un tableau de contingence ne com-portant qu’une seule colonne (Tableau 6).

Par ailleurs, est egalement observee la distribution connue dans la population ou distribution theorique.Aussi, nous pouvons construire une deuxieme tableau qui va permettre de calculer les effectifs theoriques (Ta-bleau 7). Dans ce dernier, peuvent etre distingues les effectifs observes oi, les frequences de chaque modalite dela variable en population ou issue de la distribution theorique, notees fi.

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 5 / 16

Page 7: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

2. TEST DU KHI-DEUX D’AJUSTEMENT Tests du χ2

Table 6 – Tableau de contingence observe / Test du χ2 d’ajustement

Variable Effectifs observesModalite 1 o1Modalite 2 o2

. .

. .

. .Modalite p op

Total N

Table 7 – Tableau de contingence complet / Test du χ2 d’ajustement

Variable Distribution theorique (%) Effectifs observes Effectifs theoriquesModalite 1 f1 o1 e1Modalite 2 f2 o2 e2

. . . .

. . . .

. . . .Modalite p fp op ep

Total 100% N N

Les effectifs theoriques ei sont simplement obtenus par :

ei = fiN

2.2 Conditions d’applications

Tout comme dans le cadre general, l’unique condition d’application stipule que les effectifs theoriques eidoivent etre superieurs ou egaux a 5. Si ce n’est pas le cas, on procede a un regroupement de modalites.

2.3 Hypotheses et statistique de test

Les hypotheses du test du χ2 d’ajustement (ou de conformite) sont les suivantes :

— H0 : La distribution observee est identique a la distribution theorique— H1 : La distribution observee est differente de la distribution theorique.

Sous H0, la statistique de test associee au test du χ2 d’ajustement est :

χ2 =

p∑i=1

(oi − ei)2

ei∼ χ2

(p−1) ddl

Pour un risque de premiere espece α, la region critique conduisant au rejet de l’hypothese nulle est definiepar :

W = [χ2(1−α);(p−1) ddl; +∞[

Ou χ2(1−α);(p−1) ddl correspond au quantile d’ordre (1− α) de la loi du χ2 a (p− 1) degres de liberte.

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 6 / 16

Page 8: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

2. TEST DU KHI-DEUX D’AJUSTEMENT Tests du χ2

Par exemple, pour un risque α = 0.05 (i.e. (1 − α) = 0.95), la valeur du quantile de la loi du χ2 pour(p− 1) = 3 degres de liberte est egale a 7.815 (c.f. table en Annexe A).

La Figure 1 montre un exemple de region critique W (Rejet de H0) ainsi qu’une densite de la loi du χ2 a 3degres de libertes.

0

0.1

0.2

0.3

0.4

0.5

0 1 2 3 4 5 6 7 8 9

!23 ddl

Region de conservation de H0 Rejet de H0

!295%;3ddl

95% 5%

Figure 1 – Densite d’une loi du χ2 a 4 ddl et region critique pour un risque α = 0.05

2.4 Decision

— Si la valeur de la statistique de test χ2 est inferieure a la valeur seuil χ2(1−α);(p−1) ddl alors on conserve

l’hypothese nulle. On ne peut pas affirmer que distribution observee et la distribution theorique sontdifferentes (i.e. l’echantillon observe semble provenir de la meme population).

— Si la valeur de la statistique de test χ2 est superieure a la valeur seuil χ2(1−α);(p−1) ddl alors on rejette

l’hypothese nulle. Les echantillons sont issus de populations differentes (i.e. les distributions observee ettheorique sont significativement differentes).

2.5 Exemple

Cet exemple est tire du livre Statistique et Epidemiologie, T.Ancelle, ed. Maloine.

Sur un echantillon de 284 sujets, on a observe la structure d’age ci-dessous (oi). On veut verifier si cetechantillon presente une structure d’age identique a celle de la population francaise (distribution theorique)(Tableau 8).

Table 8 – Structure d’age sur un echantillon de 284 sujets

Age Distribution theorique (%) Effectifs observes (oi) Effectifs theoriques (ei)0-19 24.6 73 284× 24.6% = 69.920-39 28.1 82 284× 28.1% = 79.840-59 26 75 284× 26% = 73.860 - 74 13.6 36 284× 13.6% = 38.6> 74 7.7 18 284× 7.7% = 21.9

Total 100% 284 284.0

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 7 / 16

Page 9: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

3. TEST DU KHI-DEUX D’HOMOGENEITE Tests du χ2

Les hypotheses du test sont les suivantes :

— H0 : La distribution de l’age dans l’echantillon est la meme que dans la population francaise— H1 : La distribution de l’age dans l’echantillon est differente de celle dans la population francaise

Sous H0, la statistique de test est :

χ2 =

p∑i=1

(oi − ei)2

ei∼ χ2

(5−1) ddl

Pour un risque de premiere espece α = 0.05 et pour une loi du χ2 a (5− 1) ddl la region critique W est :

W = [9.488;+∞[

Application numerique :

χ2 =(73− 69.9)2

69.9+

(82− 79.8)2

79.8+

(75− 73.8)2

73.8+

(35− 38.6)2

38.6+

(16− 21.9)2

21.9= 1.09

La valeur observee de la statistique de test (1.09) n’appartient pas a W donc on conserve l’hypothese nulleH0. Il n’existe aucun argument permettant d’affirmer que l’echantillon presente une structure d’age differente decelle connue dans la population francaise. L’echantillon peut etre considere comme representatif de la populationfrancaise, du point de vue de la structure d’age.

3 Test du Khi-deux d’homogeneite

3.1 Principe du test

Le test du χ2 d’homogeneite est utilise pour comparer la distribution d’une variable qualitative a p modalitesentre k echantillons de tailles n1, n2, ..., nk.

Les observations sont regroupees dans un tableau de contingence presentant autant de colonnes que d’echantillonsobserves (k colonnes) (Tableau 9).

Table 9 – Tableau de contingence observes / Test du χ2 d’homogeneite

Effectifs observes

Variable Echantillon 1 Echantillon 2 ... Echantillon k Total

Modalite 1 o11 o12 . o1k t1Modalite 2 o21 o22 . o2k t2

. . . . .Modalite p op1 op2 . opk tk

Total n1 n2 . nk N

Tout comme dans le cadre general, le test du χ2 d’homogeneite necessite le calcul des effectifs theoriquesselon la formule :

eij =njtiN

Ce qui nous permet d’obtenir le tableau de contingence theorique suivant :

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 8 / 16

Page 10: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

3. TEST DU KHI-DEUX D’HOMOGENEITE Tests du χ2

Table 10 – Tableau de contingence theorique / Test du χ2 d’homogeneite

Effectifs theoriques

Variable Echantillon 1 Echantillon 2 ... Echantillon k Total

Modalite 1 e11 e12 . e1k t1Modalite 2 e21 e22 . e2k t2

. . . . .Modalite p ep1 ep2 . epk tk

Total n1 n2 . nk N

3.2 Conditions d’applications

Tout comme dans le cadre general, l’unique condition d’application stipule que les effectifs theoriques eijdoivent etre superieurs ou egaux a 5. Si ce n’est pas le cas, on procede a un regroupement de modalites et/oud’echantillons.

3.3 Hypotheses et statistique de test

Les hypotheses du test du χ2 d’homogeneite sont les suivantes :

— H0 : Les distributions observees sont identiques entre les echantillons observes— H1 : Les distributions observees sont differentes entre les echantillons observes

Sous H0, la statistique de test associee au test du χ2 d’homogeneite est definie par :

χ2 =

p∑i=1

k∑j=1

(oij − eij)2

eij∼ χ2

(p−1)(k−1) ddl

Pour un risque de premiere espece α, la region critique conduisant au rejet de l’hypothese nulle est definiepar :

W = [χ2(1−α);(p−1)(k−1) ddl; +∞[

Ou χ2(1−α);(p−1)(k−1) ddl correspond au quantile d’ordre (1−α) de la loi du χ2 a (p−1)(k−1) degres de liberte.

3.4 Decision

— Si la valeur de la statistique de test χ2 est inferieure a la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on

conserve l’hypothese nulle. On ne peut pas affirmer que les echantillons observes sont issus de popula-tions differentes (i.e. les distributions semblent identiques).

— Si la valeur de la statistique de test χ2 est superieure a la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on

rejette l’hypothese nulle. Les echantillons observes sont issus de populations differentes (i.e. les distribu-tions sont significativement differentes entre les echantillons).

3.5 Exemple

On souhaite evaluer les eventuelles disparites d’opinion entre pays concernant un referendum europeen. Pource faire, 4 echantillons de francais, belges, anglais et italiens ont ete realises et sur chaque la variable binaireX1 = ”Favorable a la question” (Oui/Non) a ete mesuree (Tableau 11).

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 9 / 16

Page 11: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

3. TEST DU KHI-DEUX D’HOMOGENEITE Tests du χ2

Table 11 – Sondage d’opinion concernant le referendum europeen

Effectifs observes

X1 Francais Belges Anglais Italiens Total

Oui 477 1746 248 135 2606Non 135 582 218 67 1002

Total 612 2328 466 2020 3608

Le calcul des effectifs theoriques est realise au moyen de la formule suivante :

eij =njtiN

Ce qui donne par exemple : e11 = 612 × 2606/3608 = 442, e12 = 2328 × 2606/3608 = 1681.5, e21 =612× 1002/3608 = 170, e23 = 466× 1002/3608 = 129.4... Ces effectifs theoriques sont regroupes dans le tableaude contingence theorique suivant :

Table 12 – Tableau de contingence theorique

Effectifs theoriques

X1 Francais Belges Anglais Italiens Total

Oui 442 1681.5 336.6 145.9 2606Non 170 646.5 129.4 56.1 1002

Total 612 2328 466 2020 3608

Les hypotheses du test du χ2 d’homogeneite sont les suivantes :

— H0 : L’opinion quant au referendum europeen est la meme en fonction des pays— H1 : L’opinion quant au referendum europeen est differente selon les pays

Sous H0, la statistique de test associee au test du χ2 d’homogeneite est definie par :

χ2 =

p∑i=1

k∑j=1

(oij − eij)2

eij∼ χ2

(2−1)(4−1) ddl

Pour un risque de premiere espece α = 0.05 et pour une loi du χ2 a (2− 1)(4− 1) = 3 ddl la region critiqueW est :

W = [7.815;+∞[

Application numerique :

χ2 =(477− 442)2

442+(1746− 1681.5)2

1681.5+(248− 336.6)2

336.6+(135− 145.9)2

145.9+(135− 170)2

170+(582− 646, 5)2

646.5+(218− 129.4)2

129.4

+(67− 56.1)2

56.1= 105.8

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 10 / 16

Page 12: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

4. TEST DU KHI-DEUX D’INDEPENDANCE Tests du χ2

La valeur de la statistique de test observee (χ2 = 105.8) appartient a la region critique W dont on rejettel’hypothese nulle. A la vue des donnees, les opinions quant au referendum sont significativement differentes d’unpays a l’autre.Pour aller plus loin dans l’interpretation, il est interessant de decrire la nature de cette difference (e.g. quel paysest le plus reticent ?). Cependant, on ne peut pas se baser sur les effectifs observes (les tailles d’echantillonsetant tres disparates) mais plutot sur les frequences colonnes, c’est-a-dire le nombre de ”oui” par pays rapportea la taille de l’echantillon (ex : en France, nous avons 477/612 = 77.9% d’opinion positive).

Table 13 – Sondage d’opinion concernant le referendum europeen

Frequences ”colonnes” (%)

X1 Francais Belges Anglais Italiens

Oui 77.9 75 53.2 66.8Non 22.1 25 46.8 33.2

Total 100 100 100 100

Le Tableau 13 nous permet de montrer que les Anglais semblent les plus refractaires au referendum europeenque les autres nationalites.

4 Test du Khi-deux d’independance

4.1 Principe du test

Le test du χ2 d’independance ou test du χ2 de Pearson est considere comme un test de liaison a la differencedes test du χ2 d’ajustement et d’homogeneite qui sont bases sur le principe de comparaison.

Le test du χ2 d’independance a pour objectif d’evaluer si deux variables qualitatives X1 et X2 a respective-ment p et k modalites sont liees, les deux variables etant observees sur un echantillon de taille N .

Les observations oij sont resumees au sein d’un tableau de contingence a p lignes et k colonnes (Tableau 14).

Table 14 – Tableau de contingence / Test du χ2 d’independance

Variable X2

Variable X1 Modalite 1 Modalite 2 ... Modalite k Total

Modalite 1 o11 o12 . o1k t1Modalite 2 o21 o22 . o2k t2

. . . . .Modalite p op1 op2 . opk tk

Total n1 n2 . nk N

Tout comme dans le cadre general, le test du χ2 d’independance necessite le calcul des effectifs theoriquesselon la formule :

eij =njtiN

Ce qui nous permet d’obtenir le tableau de contingence theorique suivant :

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 11 / 16

Page 13: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

4. TEST DU KHI-DEUX D’INDEPENDANCE Tests du χ2

Table 15 – Tableau de contingence theorique

Variable X2

Variable X1 Modalite 1 Modalite 2 ... Modalite k Total

Modalite 1 e11 e12 . e1k t1Modalite 2 e21 e22 . e2k t2

. . . . .Modalite p ep1 ep2 . epk tk

Total n1 n2 . nk N

4.2 Conditions d’applications

Tout comme dans le cadre general, l’unique condition d’application stipule que les effectifs theoriques eijdoivent etre superieurs ou egaux a 5. Si ce n’est pas le cas, on procede a un regroupement de modalites soit dela variable X1, soit de la variable X2, soit des deux.

4.3 Hypotheses et statistique de test

Les hypotheses du test du χ2 d’independance sont les suivantes :

— H0 : Les variables X1 et X2 sont independantes— H1 : Il existe une liaison entre X1 et X2

Sous H0, la statistique de test associee au test du χ2 d’independance est definie par :

χ2 =

p∑i=1

k∑j=1

(oij − eij)2

eij∼ χ2

(p−1)(k−1) ddl

Pour un risque de premiere espece α, la region critique conduisant au rejet de H0 est definie par :

W = [χ2(1−α);(p−1)(k−1) ddl; +∞[

Ou χ2(1−α);(p−1)(k−1) ddl correspond au quantile d’ordre (1−α) de la loi du χ2 a (p−1)(k−1) degres de liberte.

4.4 Decision

— Si la valeur de la statistique de test χ2 est inferieure a la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors

on conserve l’hypothese nulle. Les variables X1 et X2 sont independantes. (i.e. leur distribution sontindependantes).

— Si la valeur de la statistique de test χ2 est superieure a la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on

rejette l’hypothese nulle. Il existe une liaison significative entre X1 et X2 (i.e. leurs distributions sontdependantes).

4.5 Exemple

L’exemple suivant est inspire de celui present dans le livre Probabilites et statistique, A. Valleron, Ed. Mas-son, p. 123.On suspecte qu’un produit chimique present dans l’environnement domestique est susceptible d’entraıner deseffets adverses sur le systeme immunitaire. Afin d’etudier cette possible liaison, une enquete est effectuee ausein de 600 personnes classees en ”exposes” (t1 = 255) et ”non exposes” (t2 = 345). De surcroıt, ces individus

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 12 / 16

Page 14: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

4. TEST DU KHI-DEUX D’INDEPENDANCE Tests du χ2

sont classes I+ (n1 = 285) ou I+ (n2=315) selon que leur systeme immunitaire est atteint ou normal. L’objectifde l’etude est de demontrer qu’il existe un lien entre l’exposition au produit chimique et l’etat du systemeimmunitaire.

Les observations sont resumees dans le tableau de contingence suivant (Tableau 16) :

Table 16 – Croisement entre l’exposition au produit chimique et l’etat du systeme immunitaire

Etat du systeme immunitaire

Exposition I− I+ Total

Expose 135 120 255Non expose 150 195 345

Total 285 315 600

Le calcul des effectifs theoriques est realise au moyen de la formule suivante :

eij =njtiN

Ce qui donne par exemple : e11 = 285×255/600 = 121.1, e12 = 315×255/600 = 133.9, e21 = 285×345/600 =163.9, e22 = 315 × 345/600 = 181.1. Ces effectifs theoriques sont regroupes dans le tableau de contingencetheorique suivant :

Table 17 – Tableau de contingence theorique

Etat du systeme immunitaire

Exposition I− I+ Total

Expose 121.1 133.9 255Non expose 163.9 181.1 345

Total 285 315 600

Les hypotheses du test du χ2 d’independance sont les suivantes :

— H0 : Il y a independance entre l’exposition et l’etat du systeme immunitaire— H1 : Il existe un lien entre l’exposition et l’etat du systeme immunitaire

Sous H0, la statistique de test associee au test du χ2 d’independance est definie par :

χ2 =

p∑i=1

k∑j=1

(oij − eij)2

eij∼ χ2

(2−1)(2−1) ddl

Pour un risque de premiere espece α = 0.05, la region critique conduisant au rejet de H0 pour une loi du χ2

a (2− 1)(2− 1) = 1 degre de liberte est definie par :

W = [3.841;+∞[

Application numerique :

χ2 =(135− 121.1)2

121.1+

(120− 133.9)2

133.9+

(150− 63.9)2

163.9+

(195− 181.1)2

181.1= 5.36

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 13 / 16

Page 15: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

4. TEST DU KHI-DEUX D’INDEPENDANCE Tests du χ2

Comme la statistique de test observee (5.36) appartient a la region critique, on rejette l’hypothese nulleH0. Il existe une liaison statistiquement significative entre l’exposition au produit chimique et l’etat du systemeimmunitaire. Comme dans le cas du test du χ2 d’homogeneite, il est interessant de decrire ce lien. Pour cefaire, on utilise le principe de frequence lignes, c’est-a-dire que nous voulons comparer la frequence de systemeimmunitaire abaisse entre les exposes et les non-exposes.

Table 18 – Frequence ”lignes”

Etat du systeme immunitaire

Exposition I− I+ Total

Expose 135/255=53% 47% 100% (255)Non expose 150/345=43% 57% 100% (345)

Le Tableau 18 montre clairement que les sujets ayant ete exposes sont plus nombreux a presenter un systemeimmunitaire abaisse que les sujets non-exposes (53% v.s. 43%).

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 14 / 16

Page 16: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

Annexe A

Table de la loi du χ2

Niveau de confiance (1− α)

ν (ddl) 0.1% 0.5% 1.0% 2.5% 5.0% 10.0% 12.5% 20.0% 25.0% 33.3% 50.0%

1 0.000 0.000 0.000 0.001 0.004 0.016 0.025 0.064 0.102 0.186 0.4552 0.002 0.010 0.020 0.051 0.103 0.211 0.267 0.446 0.575 0.811 1.3863 0.024 0.072 0.115 0.216 0.352 0.584 0.692 1.005 1.213 1.568 2.3664 0.091 0.207 0.297 0.484 0.711 1.064 1.219 1.649 1.923 2.378 3.3575 0.210 0.412 0.554 0.831 1.145 1.610 1.808 2.343 2.675 3.216 4.3516 0.381 0.676 0.872 1.237 1.635 2.204 2.441 3.070 3.455 4.074 5.3487 0.598 0.989 1.239 1.690 2.167 2.833 3.106 3.822 4.255 4.945 6.3468 0.857 1.344 1.646 2.180 2.733 3.490 3.797 4.594 5.071 5.826 7.3449 1.152 1.735 2.088 2.700 3.325 4.168 4.507 5.380 5.899 6.716 8.34310 1.479 2.156 2.558 3.247 3.940 4.865 5.234 6.179 6.737 7.612 9.34211 1.834 2.603 3.053 3.816 4.575 5.578 5.975 6.989 7.584 8.514 10.34112 2.214 3.074 3.571 4.404 5.226 6.304 6.729 7.807 8.438 9.420 11.34013 2.617 3.565 4.107 5.009 5.892 7.042 7.493 8.634 9.299 10.331 12.34014 3.041 4.075 4.660 5.629 6.571 7.790 8.266 9.467 10.165 11.245 13.33915 3.483 4.601 5.229 6.262 7.261 8.547 9.048 10.307 11.037 12.163 14.33916 3.942 5.142 5.812 6.908 7.962 9.312 9.837 11.152 11.912 13.083 15.33817 4.416 5.697 6.408 7.564 8.672 10.085 10.633 12.002 12.792 14.006 16.33818 4.905 6.265 7.015 8.231 9.390 10.865 11.435 12.857 13.675 14.931 17.33819 5.407 6.844 7.633 8.907 10.117 11.651 12.242 13.716 14.562 15.859 18.33820 5.921 7.434 8.260 9.591 10.851 12.443 13.055 14.578 15.452 16.788 19.33721 6.447 8.034 8.897 10.283 11.591 13.240 13.873 15.445 16.344 17.720 20.33722 6.983 8.643 9.542 10.982 12.338 14.041 14.695 16.314 17.240 18.653 21.33723 7.529 9.260 10.196 11.689 13.091 14.848 15.521 17.187 18.137 19.587 22.33724 8.085 9.886 10.856 12.401 13.848 15.659 16.351 18.062 19.037 20.523 23.33725 8.649 10.520 11.524 13.120 14.611 16.473 17.184 18.940 19.939 21.461 24.33726 9.222 11.160 12.198 13.844 15.379 17.292 18.021 19.820 20.843 22.399 25.33627 9.803 11.808 12.879 14.573 16.151 18.114 18.861 20.703 21.749 23.339 26.33628 10.391 12.461 13.565 15.308 16.928 18.939 19.704 21.588 22.657 24.280 27.33629 10.986 13.121 14.256 16.047 17.708 19.768 20.550 22.475 23.567 25.222 28.33630 11.588 13.787 14.953 16.791 18.493 20.599 21.399 23.364 24.478 26.165 29.33635 14.688 17.192 18.509 20.569 22.465 24.797 25.678 27.836 29.054 30.894 34.33640 17.916 20.707 22.164 24.433 26.509 29.051 30.008 32.345 33.660 35.643 39.33545 21.251 24.311 25.901 28.366 30.612 33.350 34.379 36.884 38.291 40.407 44.33550 24.674 27.991 29.707 32.357 34.764 37.689 38.785 41.449 42.942 45.184 49.33555 28.173 31.735 33.570 36.398 38.958 42.060 43.220 46.036 47.610 49.972 54.33560 31.738 35.534 37.485 40.482 43.188 46.459 47.680 50.641 52.294 54.770 59.335

15

Page 17: Tests du 2cerim.univ-lille2.fr/.../Tests_statistiques/Polycopie_Khi-deux.pdf · Le test du ˜2 d’ind ependance qui est utilis e pour etudier sur un m^eme echantillon la liaison

Tests du χ2

Niveau de confiance (1− α)

ν (ddl) 60.0% 66.7% 75.0% 80.0% 87.5% 90.0% 95.0% 97.5% 99.0% 99.5% 99.9%

1 0.708 0.936 1.323 1.642 2.354 2.706 3.841 5.024 6.635 7.879 10.8282 1.833 2.197 2.773 3.219 4.159 4.605 5.991 7.378 9.210 10.597 13.8163 2.946 3.405 4.108 4.642 5.739 6.251 7.815 9.348 11.345 12.838 16.2664 4.045 4.579 5.385 5.989 7.214 7.779 9.488 11.143 13.277 14.860 18.4675 5.132 5.730 6.626 7.289 8.625 9.236 11.070 12.833 15.086 16.750 20.5156 6.211 6.867 7.841 8.558 9.992 10.645 12.592 14.449 16.812 18.548 22.4587 7.283 7.992 9.037 9.803 11.326 12.017 14.067 16.013 18.475 20.278 24.3228 8.351 9.107 10.219 11.030 12.636 13.362 15.507 17.535 20.090 21.955 26.1259 9.414 10.215 11.389 12.242 13.926 14.684 16.919 19.023 21.666 23.589 27.87710 10.473 11.317 12.549 13.442 15.198 15.987 18.307 20.483 23.209 25.188 29.58811 11.530 12.414 13.701 14.631 16.457 17.275 19.675 21.920 24.725 26.757 31.26412 12.584 13.506 14.845 15.812 17.703 18.549 21.026 23.337 26.217 28.300 32.91013 13.636 14.595 15.984 16.985 18.939 19.812 22.362 24.736 27.688 29.819 34.52814 14.685 15.680 17.117 18.151 20.166 21.064 23.685 26.119 29.141 31.319 36.12315 15.733 16.761 18.245 19.311 21.384 22.307 24.996 27.488 30.578 32.801 37.69716 16.780 17.840 19.369 20.465 22.595 23.542 26.296 28.845 32.000 34.267 39.25217 17.824 18.917 20.489 21.615 23.799 24.769 27.587 30.191 33.409 35.718 40.79018 18.868 19.991 21.605 22.760 24.997 25.989 28.869 31.526 34.805 37.156 42.31219 19.910 21.063 22.718 23.900 26.189 27.204 30.144 32.852 36.191 38.582 43.82020 20.951 22.133 23.828 25.038 27.376 28.412 31.410 34.170 37.566 39.997 45.31521 21.991 23.201 24.935 26.171 28.559 29.615 32.671 35.479 38.932 41.401 46.79722 23.031 24.268 26.039 27.301 29.737 30.813 33.924 36.781 40.289 42.796 48.26823 24.069 25.333 27.141 28.429 30.911 32.007 35.172 38.076 41.638 44.181 49.72824 25.106 26.397 28.241 29.553 32.081 33.196 36.415 39.364 42.980 45.559 51.17925 26.143 27.459 29.339 30.675 33.247 34.382 37.652 40.646 44.314 46.928 52.62026 27.179 28.520 30.435 31.795 34.410 35.563 38.885 41.923 45.642 48.290 54.05227 28.214 29.580 31.528 32.912 35.570 36.741 40.113 43.195 46.963 49.645 55.47628 29.249 30.639 32.620 34.027 36.727 37.916 41.337 44.461 48.278 50.993 56.89229 30.283 31.697 33.711 35.139 37.881 39.087 42.557 45.722 49.588 52.336 58.30130 31.316 32.754 34.800 36.250 39.033 40.256 43.773 46.979 50.892 53.672 59.70335 36.475 38.024 40.223 41.778 44.753 46.059 49.802 53.203 57.342 60.275 66.61940 41.622 43.275 45.616 47.269 50.424 51.805 55.758 59.342 63.691 66.766 73.40245 46.761 48.510 50.985 52.729 56.052 57.505 61.656 65.410 69.957 73.166 80.07750 51.892 53.733 56.334 58.164 61.647 63.167 67.505 71.420 76.154 79.490 86.66155 57.016 58.945 61.665 63.577 67.211 68.796 73.311 77.380 82.292 85.749 93.16860 62.135 64.147 66.981 68.972 72.751 74.397 79.082 83.298 88.379 91.952 99.607

-= Michael Genin - Universite de Lille 2 - Version du 19 fevrier 2015 =- 16 / 16