R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les...

13
R-Commander : Notions du chapitre 4 Estimation et tests d’hypothèses : problèmes à deux échantillons 1) Présentation du jeu de données…….……………………………..….…2 2) Comparaison de deux variances σ 1 2 et σ 2 2 ……..………………….……3 a) Test F bilatéral et intervalle de confiance pour σ 1 2 /σ 2 2 ……..3 b) Tests unilatéraux……………………………………………4 c) Quantiles et probabilités de la loi de Fisher...………………5 d) Vérification de la normalité………………………………....6 Séparation des deux échantillons Histogrammes, graphiques quantile-quantile et tests de Shapiro et Wilk 3) Comparaison de deux moyennes μ 1 et μ 2 ……………………….…….8 a) Échantillons indépendants, variances égales………………...8 b) Échantillons indépendants, variances inégales………………9 c) Échantillons appariés……………………………………….10 d) Vérification de la normalité ..………………………………11 4) Comparaison de deux proportions p 1 et p 2 ……...………………..…11 a) Test bilatéral et intervalle de confiance……………….…….12 b) Tests unilatéraux………………………………………….....13 1

Transcript of R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les...

Page 1: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

R-Commander : Notions du chapitre 4

Estimation et tests d’hypothèses : problèmes à deux échantillons

1) Présentation du jeu de données…….……………………………..….…2 2) Comparaison de deux variances σ1

2 et σ22……..………………….……3

a) Test F bilatéral et intervalle de confiance pour σ12/σ2

2……..3 b) Tests unilatéraux……………………………………………4 c) Quantiles et probabilités de la loi de Fisher...………………5 d) Vérification de la normalité………………………………....6

• Séparation des deux échantillons • Histogrammes, graphiques quantile-quantile et

tests de Shapiro et Wilk

3) Comparaison de deux moyennes μ1 et μ2 ……………………….…….8

a) Échantillons indépendants, variances égales………………...8 b) Échantillons indépendants, variances inégales………………9 c) Échantillons appariés……………………………………….10 d) Vérification de la normalité ..………………………………11

4) Comparaison de deux proportions p1 et p2 ……...………………..…11

a) Test bilatéral et intervalle de confiance……………….…….12 b) Tests unilatéraux………………………………………….....13

1

Page 2: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

1) Présentation du jeu de données Considérons le jeu de données Oiseaux.xls utilisé dans les exercices du chapitre 3. Il est constitué de diverses mesures sur un échantillon de 49 oiseaux :

- la survie ou non à un traitement - la longueur de l'oiseau - l'étendue des ailes - la longueur de la tête - la longueur de l'humérus - la longueur du sternum.

On peut calculer les statistiques descriptives sur les variables continues en séparant l’échantillon selon que les oiseaux ont survécu à un traitement ou non. (Utiliser la commande Résumer par groupe dans les statistiques descriptives.) Concentrons-nous sur la variable ÉTENDUE.

Supposons que l’on veuille savoir si l’étendue moyenne des oiseaux qui survivent est la même que celle des oiseaux pour qui le traitement est fatal. Pour savoir quel test utiliser, il faut d’abord se poser les questions suivantes :

Les deux échantillons sont-ils indépendants ? (Oui.) Les variances sont-elles égales ? (À vérifier par le test F.) L’étendue suit-elle une loi normale dans chaque échantillon ? (À

vérifier par des tests et/ou des graphiques.)

2

Page 3: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

2) Comparaison de deux variances σ12 et σ2

2

La comparaison des diagrammes en boîte nous donne une bonne idée de la dispersion des valeurs dans chaque échantillon.

a) Test F bilatéral et intervalle de confiance pour σ1

2/σ22

Pour tester si deux variances sont égales ou non, on peut utiliser le test F de deux variances, pour lequel on suppose que les données sont issues (dans chaque échantillon) d’une loi normale.

Pour obtenir un test bilatéral pour l`hypothèse nulle , il faut spécifier les options suivantes :

22

210 : σσ =H

• sélectionner la variable qui distingue les échantillons (ici, SURVIE) • sélectionner la variable pour laquelle on souhaite comparer les moyennes

(ici, ÉTENDUE) ; • cocher l’hypothèse alternative Bilatéral (qui correspond à ) ; 2

2211 : σσ ≠H

• spécifier la valeur de 1-α désirée dans la case Niveau de confiance (ainsi la valeur du seuil α sera automatiquement déduite) ;

• cliquer sur OK.

3

Page 4: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

Les résultats apparaissent dans la fenêtre de sortie :

• On donne d’abord la valeur observée des variances échantillonnales : et . 21s 2

2s

• La valeur observée de la statistique du test, 86.150.1755.32

22

21 ===

ssFobs , doit être

positionnée par rapport à la loi de Fisher à 27 et 20 degrés de liberté. • Puisque le test est bilatéral et que Fobs est supérieur à la médiane de la

distribution sous H0 (F27,20, 0.5=1.0088) , le p-value a été obtenu comme suit : 1562.00781.02)86.1(2)(2 20,271,1 21

=×=>×=>× −− FPFFP obsnn .

• L’hypothèse n’est pas rejetée au seuil de α = 0.10, car le p-value est supérieur à 0.10. On conclut que les variances ne diffèrent pas de façon significative au seuil de 10%.

22

210 : σσ =H

b) Tests unilatéraux

On procède de la même façon pour les tests unilatéraux, mais en cochant, dans la section Hypothèse alternative :

• la case Différence<0 (pour un test unilatéral à gauche, ce qui correspond à ) ; ou 2

2211 : σσ <H

• la case Différence>0 (pour un test unilatéral à droite, ce qui correspond à ). 2

2211 : σσ >H

4

Page 5: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

c) Quantiles et probabilités de la loi de Fisher

On peut trouver les valeurs critiques pour le rejet de H0, i.e. les quantiles de la loi de Fisher. Voici par exemple la valeur inférieure de la zone de rejet du test bilatéral au seuil de 10%, soit F27, 20, 0.95=0.507.

Cette quantité peut s’obtenir en spécifiant une probabilité à droite égale à 0.95, ou encore une probabilité à gauche égale à 0.05.

On peut aussi calculer la probabilité associée au p-value d’un test, une fois que la statistique Fobs est calculée. Voici comment obtenir (le p-value est le double de cette probabilité pour le test bilatéral).

)86.1( 20,27 >FP

5

Page 6: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

d) Vérification de la normalité Si les deux échantillons ne sont pas de grande taille, il faut vérifier que la loi normale est un bon modèle pour les données. On veut faire un test de Shapiro-Wilk ou des graphiques dans chaque échantillon. Il faut donc séparer les données:

o les valeurs d’étendue pour les oiseaux morts (échantillon 1) ; o les valeurs d’étendue pour les oiseaux ayant survécu (échantillon 2).

• Séparation des deux échantillons

Pour ce faire, il faut créer deux sous-ensembles du jeu oiseau à partir du menu Données -Jeu de données actif – Sous-ensemble.

On peut garder toutes les variables en cliquant Inclure tout ou choisir seulement quelques variables. Il faut spécifier l’expression de sélection (double signe = et guillemets) et donner un nom au jeu de données partiel. Voici un exemple pour extraire les données des oiseaux n’ayant pas survécu.

On fait la même chose pour les oiseaux survivants, mais en utilisant l’expression de sélection SURVIE = = ’’oui’’. Il faut faire attention de bien prendre un sous-ensemble du jeu de données initial complet (oiseau).

6

Page 7: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

• Histogrammes, graphiques quantile-quantile et tests de Shapiro et Wilk

Il faut effectuer les commandes sur les jeux de données partiels que nous venons de créer, que nous avons choisi d’appeler oiseau_oui et oiseau_non. Pour changer le jeu de données actif, cliquer sur le nom en bleu à côté de Données :

On montre les résultats pour l’étendue des oiseaux survivants.

-2 -1 0 1 2

236

240

244

248

norm quantiles

oise

au_o

ui$É

TEN

DU

E

oiseau_oui$ÉTENDUE

Freq

uenc

y

234 238 242 246

01

23

4

7

Page 8: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

3) Comparaison de deux moyennes μ1 et μ2

a) Échantillons indépendants, variances égales

Dans le cas où les variances des deux populations sont considérées égales (hypothèse vérifiée par le test F), on peut utiliser le test de Student pour comparer les moyennes, i.e. pour tester l’hypothèse 210 : μμ =H . Si on veut comparer les étendues moyennes des deux populations d’oiseaux (survivants et morts), on procède comme suit.

L’intervalle de confiance à 95% pour la différence survmort μμ − , et le test bilatéral au seuil de 5% s’obtiennent ainsi:

• sélectionner la variable qui distingue les groupes ; • sélectionner la variable pour laquelle on souhaite comparer les moyennes ; • spécifier l’hypothèse alternative Bilatéral (i.e. survmortH μμ ≠:0 ) ; • spécifier la valeur de 1-α désirée dans la case Niveau de confiance

(ainsi la valeur du seuil α sera automatiquement déduite) ; • indiquer que les variances sont égales

(si le test F n’a pas rejeté ) 22

210 : σσ =H

• cliquer sur OK.

8

Page 9: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

Les résultats apparaissent dans la fenêtre de sortie :

• L’intervalle de confiance à 95% pour survmort μμ − (en jaune) est [-2.398, 3.541]. • Pour réaliser le test bilatéral (en vert), la valeur observée de la statistique, Tobs ,

doit être positionnée par rapport à la loi de Student à 47 degrés de liberté.

3871.0

211

281113.5

00.24157.24111

=+

−=

+

−=

survmortc

survmortobs

nns

xxT

• Puisque le test est bilatéral et que Tobs est positif, le p-value est : 7004.03502.02)3871.0(2)(2 47221

=×=>×=>× −+ tPTtP obsnn . • L’hypothèse 210 : μμ =H n’est pas rejetée au seuil α = 0.05, car le p-value est

supérieur à 0.05.

b) Échantillons indépendants, variances inégales

Dans le cas où les variances des deux populations sont considérées inégales (hypothèse vérifiée par le test F), on peut utiliser le test de Welch pour comparer les moyennes, i.e. tester l’hypothèse 210 : μμ =H . Il suffit alors de cocher non à la question « Variances égales ? ». On obtiendrait ainsi les résultats suivants :

• L’intervalle de confiance à 95% pour survmort μμ − (en jaune) est [-2.271, 3.414]. • Pour réaliser le test bilatéral (en vert), la valeur observée de la statistique, Tobs ,

doit être positionnée par rapport à la loi de Student à 47 degrés de liberté.

4045.0

2150.17

2855.32

00.24157.24122

=+

−=

+

−=

surv

surv

mort

mort

survmortobs

ns

ns

xxT

• p-value = 6877.03439.02)4045.0(2 47 =×=>× tP . • 210 : μμ =H n’est pas rejetée au seuil α = 0.05.

9

Page 10: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

c) Échantillons appariés

Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons ne sont pas indépendants et il faut en tenir compte en faisant un test de Student pour données appariées. Prenons comme exemple les données de l’exemple 7 du chapitre 4 des notes de cours. Chacun des 15 animaux reçoit le traitement A sur une patte et le traitement B sur l’autre patte. Voici un aperçu des observations et des commandes pour réaliser le test unilatéral BAH μμ =:0 contre BAH μμ >:1 au seuil 5%.

Les résultats apparaissent dans la fenêtre de sortie :

• Pour réaliser le test unilatéral à droite (en vert), la valeur observée de la statistique, Tobs , doit être positionnée par rapport à la loi de Student à 14 degrés de liberté.

065.315/270.0

213.0/

===ns

dTD

obs .

• p-value = 0042.0)065.3()( 141 =>=>− tPTtP obsn . • L’hypothèse H0 : μD = 0 (c’est-à-dire 0:0 =− BAH μμ ) est rejetée au seuil

de α = 0.05, car le p-value est inférieur à 0.05.

10

Page 11: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

d) Vérification de la normalité

Dans tous les tests de comparaison de moyennes que nous avons étudiés, on suppose que les données sont issues d’une loi normale. Il est donc prudent de faire des tests et des graphiques pour s’assurer de la plausibilité de cette hypothèse, surtout si les tailles d’échantillon ne sont pas très élevées. 4) Comparaison de deux proportions p1 et p2

Les tests d’hypothèses et l’intervalle de confiance s’obtiennent à partir de la même fenêtre de commande. Pour comparer deux proportions, le test dont nous avons discuté est le test approximatif utilisant le théorème limite central, donc valide pour les grandes tailles d’échantillon. Considérons l’exemple 8 des notes de cours, et comparons les proportions de perchaudes saines dans les lacs St-Augustin et St-Pierre.

11

Page 12: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

a) Test bilatéral et intervalle de confiance Pour obtenir l’intervalle de confiance à 99% pour la différence de proportions de perchaudes saines dans les lacs St-Augustin et St-Pierre, pSt-Aug - pSt-Pierre, ou pour conduire le test bilatéral pour PierreStAugSt ppH −− =:0 au seuil 1%, il faut :

• sélectionner la variable binaire qui sépare les groupes (Lac) ; • sélectionner la variable binaire qui sépare les succès des échecs (Malade) ; • spécifier l’hypothèse alternative Bilatéral ; • spécifier la valeur de 1-α désirée dans la case Niveau de confiance

(ainsi la valeur du seuil α sera automatiquement déduite) ; • préciser que l’on souhaite le test avec approximation normale ; • cliquer sur OK.

Résultats :

• Les proportions échantillonnales de non sont 54.0ˆ =−AugStp et .

80.0ˆ =−PierreStp

• La proportion commune de non dans les deux échantillons :

318.0110

)80.0(60)54.0(50ˆ 0 =+

=p .

12

Page 13: R-Commander : Notions du chapitre 4 Estimation et tests d ... · c) Échantillons appariés Si les données sont collectées par paires sur chaque unité expérimentale, les échantillons

• L’intervalle de confiance à 99% (en jaune) est [-0.485 ; -0.035] :

)0874.0(96.126.0

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ( 2/

±−=

⎟⎟⎠

⎞⎜⎜⎝

⎛ −+

−±−

−−

−−−−

PierreSt

PierreStPierreSt

AugSt

AugStAugStPierreStAugSt n

ppn

ppzpp α

• Pour le test bilatéral (en vert), la valeur observée de la statistique Zobs est

présentée au carré, identifiée X-squared en référence à la loi du khi-deux.

915.2

601

501)318.01(318.0

80.054.0

11)ˆ1(ˆ

ˆˆ

00

−=

⎟⎠⎞

⎜⎝⎛ +−

−=

⎟⎟⎠

⎞⎜⎜⎝

⎛+−

−=

−−

−−

PierreStAugSt

PierreStAugStobs

nnpp

ppZ

( )24983.8915.2 obsχ−=−=−

• p-value = 0036.00018.02)915.2(2)(2 =×=−<×=<× ZPZZP obs .

• L’hypothèse PierreStAugSt ppH −− =:0 est rejetée au seuil α = 0.01, car le p-value

est inférieur à 0.01.

b) Tests unilatéraux

On utilise la même procédure, mais en spécifiant l’hypothèse alternative appropriée, soit Différence<0 ou Différence>0. Attention, le calcul du seuil observé est modifié, et l’intervalle de confiance qui apparaît dans la fenêtre de sortie n’est pas celui dont nous avons discuté.

13