Tests de comparaison de moyennes

Tests de comparaison de moyennes

Dr Marc CUGGIAPACES 2013-2014

Comparaison d’une moyenne observée à une moyenne théorique (ou donnée)

• Soit un échantillon E de taille n, tirée d’une population inconnue P’ de moyenne μp’ sur lequel on a mesuré une variable quantitative de moyenne m et de variance s2

e• Soit une population P de référence, dans laquelle

la moyenne pour cette variable quantitative est connue (μP)

• Problème posé : L’échantillon E provient il de la population P ?

• Y a t il une différence significative entre la moyenne m mesurée sur l’échantillon (tirée de P’) et μP ?

• 2 hypothèses :• Ho : (hypothèse nulle)

– l’échantillon provient de la population P – les deux populations étudiées P et celle inconnue

sont les mêmes– μP’=μP

• H1 : (hypothèse alternative)– L’échantillon provient d’une population P’

différente de P– les deux populations P’ et P sont différentes– μP’≠μP

Comparaison d’une moyenne observée à un moyenne théorique (ou donnée)

• Le choix entre les 2 hypothèses se résout par un test statistique. Le test s’effectue en plusieurs étapes :

1. On définie Ho et H12. On calcule un certain indicateur U, exprimant l’écart des

moyennes, et dont on connaît la distribution sous Ho

3. On choisit un seuil de probabilité (ou un risque) pour le test statistique : en général α=5% ou α=1%– α est le risque de rejeter Ho à tord (cad que Ho est en fait vrai)

Comparaison d’une moyenne observée à un moyenne théorique (ou donnée)

4. On cherche dans la table de la distribution du paramètre choisi la valeur pour le risque α.

ex : Uα=1,96 si α=5%veut dire que du seul fait du hasard, IUI a moins de 5 chances sur 100 d’être > à 1,96

5. On compare l’indicateur calculé à l’indicateur donné (par ex la moyenne) par la table adéquate : 2 situations

Si I indicateurcalculéI ≥ indicateurtabulé

on rejette Ho, et on accepte H1car on sait que du seul fait du hasard, l’indicateur calculé a une probabilité < α d’atteindre l’indicateur tabuléOn rejette Ho au risque α choisi (Ho est fausse au risque α)

Si I indicateurcalculéI < indicateurtabulé on accepte Ho

On ne dit jamais que Ho est vraieOn dit « on ne peut pas rejetter Ho », ou on ne met pas en évidence de différence significative entre μP et μP’

comparaison de moyennesCas des grands échantillons (n≥30)

• On utilise en premier lieu le test de Z• on sait sous Ho,

• on fixe α α=5% Zα=1,96 α=1% Zα=2,57

• Si IZoI≥1,96 • On rejette Ho au risque α choisi• On conclut qu’il existe une différence significative entre μP et μP’

• IZoI<1,96• on ne met pas en évidence de différence significative entre μP et μP’

Z~N(0;1)

Petits échantillons (n<30) et P est normale

• Dans ce cas, compte tenu du faible effectif de l’échantillon, les conditions d’applications ne sont pas respectées.

• Il est alors nécessaire de supposer que la distribution de la variable étudiée suit une loi normale

• et que la variance inconnue (σP’) soit égale à σP

(on dit qu’il existe une égalité des variances ou une homoscedasticité entres les 2 populations)

Petits échantillons (n<30) et P est normale

• Si ces 2 conditions sont réunies, sous Ho, l’indicateur calculé est t suit une loi de Student à (n-1) ddl

• on calcule to

• On cherche dans la table de student le t tabuléà (n-1) ddl pour le risque α chosi

• On compare to à ttabulé

• si ItoI≥ttabulé on rejette Ho il n’existe pas de difference significative au seuil α entre

• si ItoI < ttabulé on ne peut pas rejeter Ho. • On ne met pas en évidence de différence significative entre μP et μP’

au seuil α choisi

Petits échantillons (n<30) et P est normale : exercice

• Le temps de réaction moyen d’un animal à un certain stimulus est μ=23,7s• On mesure les temps de réaction chez 100 souris par un traitement

médicamenteux X• On trouve : m=22,9s, et s2=13,98s2

• La drogue X modifie-t-elle le temps de réaction ?• Même question si l’effectif est de 16 souris

1) on calcule zo sous Holes hypothèses sont :Ho = L’échantillon des 100 souris provient d’une population P’ identique à la

population P (la drogue ne semble donc pas modifier les temps de réactions)

H1= L’échantillon est tirée d’une population P’ différente de la population P. Le fait de donner le traitement X semble modifier les temps de réactions

• Le test Z est choisi car comparaison de moyenne à une moyenne théorique et grand échantillon (n=100)

• Ztabulé=Zα=5%=1,96• Zo>Ztabulé on rejette Ho au risque 5%« au seuil 5%, le traitement X modifie es temps de réaction au stimulus »

exemple• Cas où n=16• Petit échantillon test t de student• Ho et H1 idem

• tα=5%;ddl=15=2,13• ItoI<ttabulé au risque 5% on ne met pas en évidence de modification

du temps de réaction par X• remarque quand n diminue, la puissance (1-β) diminue, et donc il

est plus difficile de montrer une différence significative

Zone de rejet d’Ho Zone de non rejet d’Ho

Comparaison de moyennes observées sur deux échantillons indépendants

• On dispose de deux échantillons E1 et E2 tirés de deux populations (P1 et P2) de moyennes et de variances inconnues (μ1;σ1) et (μ2;σ2)

• Le pb posé est de savoir si les deux échantillons proviennent de deux population similaires ou différentes?

• Y-a-t il une différence significative entre les moyennes des deux populations ?

P1μ1?σ1?

P2μ2?σ2?

m1

s1

n1

E1

m2

s2

n2

E2

Comparaison des moyennes observées sur deux échantillons indépendants :

Grands échantillons (n1 et n2 >=30)

• Ho : – Les deux échantillons proviennent de la

même population– P1 et P2 sont identiques– Il n’y pas de différence significative entre les

moyennes des deux populations P1 et P2• H1 : Les deux échantillons proviennent de

deux populations différentes


Grands échantillons (n1 et n2 >=30)

• Choix du test Z de comparaison de moyennes sur deux échantillons indépendants

• Ztabulé=Zα=5%=1,96• Comparer IzoI à Ztabulé

• Si IZoI≥1,96 • On rejette Ho au risque α choisi• On conclut qu’il existe une différence significative entre μP1 et μP2

• IZoI<1,96• on ne met pas en évidence de différence significative entre μP1 et μP2


Grands échantillons (n1 et n2 >=30) - Exercice

• Poids des nouveau nés mesurés dans une maternité

• Comparaison entre les moyennes des poids des NN filles et garçons

• Question : à partir de deux échantillons, peut on déduire une différence significative en général des poids des NN selon le sexe ?

Garcons: n1=41 m1=3,4kg s1=0,385 kgFilles: n2=65 m2=3,36kg s2=0,363 kgPeut on déduire une différence de poids significative entre ces 2 populations ?Ho: pas de différenceH1: il existe une différence

zo=0,54Ztabulé=Zα=5%=1,96Zo<Zα=5% on ne rejette pas HoDonc au seuil 5%, on ne montre pas de différence significative entre les poids des NN selon le sexe


petits échantillons (n1 ou n2 < 30)

• Les tests utilisés sont fonction de deux conditions d’applications– La normalité de la distribution de la variable étudiée dans la

population d’origine– l’égalité des variances des populations (homocedasticité)

Test de mann whitney

test T de Student

test de Cochran

Normalité ?test Kolmogorov

Smirnoffégalité des variances

Test F de Snedecor

non

non

oui

oui

Comparaison des variances• Les variances σ2

1 et σ22 des deux populations étudiées sont inconnues

• On les estime à partir des échantillons en calculant s21 et s2

2

• On les compare avec un test de F de snedecor• L’indicateur calculé est

• Ho : égalité des variances• H1 : inégalité des variances• Sous Ho, F suit une loi de distribution qui est tabulée en fonction de α,ν1 et

ν2 • ν1 degrés de liberté de la variance du numérateur= taille de

l’échantillon le plus grand -1• ν2 degrés de liberté de la variance au dénominateur= taille de

l’échantillon le plus petit -1

Comparaison des variances• Par construction, on lit la valeur seuil en bilateral

sur une table de F au risque de 2,5%• Si Fc<Fα=2,5%; ν1ν2

– On accepte Ho : il y a égalité des variances• Si Fc≥Fα=2,5%; ν1ν2

– On rejette Ho, on accepte H1– Les variances sont différentes au seuil α– Dans ce cas on effectue un test de cochran

(hors programme)

Test t de student• Pour effectuer le test t, on estime la variance commune

s2 de la population par :

• Sous Ho, les 2 échantillons de moyennes m1 et m2 proviennent d’une même population de moyenne μ

• ou il n’existe pas de différence significative entre les moyennes des 2 populations

• Sous H1, les 2 échantillons proviennent de 2 populations différentes

to suit une loi de student à n1+n2-2 ddl

• pour un risque α donné on va chercher la valeur de tα à n1+n2-2 ddl

• on compare to avec tα

• si ItoI>tα, on rejette Ho et l’on conclut qu’il existe une différence significative au seuil α entre les 2 moyennes

• si ItoI<tα , on ne rejette pas Ho il n’y a pas de différence significative au seuil α entre les 2 moyennes

Test de mann whitney

test T de Student

test de Cochran

Normalité ?test Kolmogorov

Smirnoffégalité des variances

Test F de Snedecor

non

non

oui

oui

test de Mann et Whitney

• Utilisé lors que la distribution n’est pas normale ou inconnue

• Test non paramétrique• La comparaison ne s’effectue pas sur la

variable elle-même• Mais sur les rangs des valeurs• Après avoir classé les valeurs prises par

la variable par ordre croissant ou décroissant

• test « tout terrain » utilisable quelque soit la nature de la distribution

• test non paramétrique car ne fait appel à aucun des paramètres de la distribution (ex m ou σ2)

exemple• On souhaite comparer les notes obtenues à un test

psychomoteurs par des patients atteints de la maladie A et B

• On classe l’ensemble des notes par valeurs croissants

maladie A (nA=7) 48 60 42 58 50 31 42

maladie B(nB=5) 31 41 23 28 42

maladie A (nA=7) 31 42 42 48 50 58 60

maladie B(nB=5) 23 28 31 41 42

RANGS 1 2 3,5 5 7 7 9 10 11 12

• Ici il y des rangs ex-equo• On effectue les calculs intermédiaires suivants• TA=ΣRang A=3,5+7+7+9+10+11+12=59,5• TB=Σrang B=1+2+3,5+5+7=18,5

• Puis les statistiques UA et UB

exemple• On souhaite comparer les notes obtenues à un test

psychomoteurs par des patients atteints de la maladie A et B

• On classe l’ensemble des notes par valeurs croissants

maladie A (nA=7) 48 60 42 58 50 31 42

maladie B(nB=5) 31 41 23 28 42

maladie A (nA=7) 31 42 42 48 50 58 60

maladie B(nB=5) 23 28 31 41 42

RANGS 1 2 3,5 5 7 7 9 10 11 12

• on détermine la statistique U de mann & Whitney

• Situation 1 : si nA ou nB < 10• Uo=min (UA,UB) que l’on compare aux

valeurs de la table• Sous Ho, les 2 échantillons proviennent

d’une même population• la table donne les valeurs de U tel que• Proba(Uo≤Utable)=α (attention !!!)

• pour lire Utable il faut déterminer m et n tels que

• m=max(na,nb)• n=min(na,nb)• on lit Utable à l’intersection de m-n et n• si min(UA,UB)<Utable rejet de Ho au risque α

• si min(UA,UB)>Utable on accepte Ho

attention ici m n’est pas une moyenne !!!

Ici UA=3,5m=7n=5m-n=2α=5% Utable=5UA<Utable on rejette Ho au seuil αil existe une différence significative entre les maladies A et les maladie B

• Situation 2 : nA et nB ≥10• UA et UB suivent une distribution normale de

• On compare Uo à la valeur de la table de la loi normale au risque α• Uo<Utabulé on accepte Ho• Uo>Utabulé on rejette Ho et on accepte H1

Mann & WhitneyCas sans ex-aequo

• En cas de non ex-aequo on peut calculer directement UA et UB (plus rapide)

• On détermine– UAB le nombre nombre de fois où une valeur

de rang du groupe B précède une valeur du groupe A

– UBA le nombre nombre de fois où une valeur de rang du groupe A précède une valeur du groupe B

A 11 21 25 52 71 79

B 22 43 72 91 116

Rang 1 2 3 4 5 6 7 8 9 10 11

UAB = 0 + 0 + 1 + 2 + 2 + 3 = 8UBA = 2 + 3 + 5 + 6 + 6 = 22

Equivalent à

Seulement si pas d’ex aequo

Comparaison de moyennes de séries appariées

• Situation ou l’on veut comparer des données de 2 échantillons qui sont « liés »

• Essai thérapeutique ou le patient est son propre témoin :– on mesure une variable (ex glycémie) avant

et après traitement– Les données recueillies avant et après sont

dites appariées

Comparaison de moyennes de séries appariées : tests paramétriques

• ex: on mesure la TAs avant et après 1 mois de traitement par le médicament X, sur N patients

• Y-a-t il une différence significative entre les TAs avant et après traitement

n° patient 1 2 3 … NTA avant 18 16 15

TA après 16 17 14

d (différence) +2 -1 +1

• Pour faire le test, on calcule les différences d1,d2,d3

On calcule

• Sous Ho, il n’existe pas de différence significative entre la TA avant et après traitement

• Dans ce cas la moyenne des d dans la population est nulle

• H1 : il existe une différence des valeurs avant et après. Le traitement semble avoir un effet sur la TA

• on calcule :

• On choisit α et on lit dans la table tα à (n-1) dll.• On compare to et tα

• Si to>tα on rejette Ho au risque α, on accepte H1• si to<tα, on accepte Ho : il n’y a pas de difference

significative entre la TAs avant et après traitement

Qui suit une loi de Student à (n-1) ddl

Cela est vrai pour toute distribution des dsi n>=30

Cela est vrai si la distribution des d suit une loi normale si n<30

Comparaison de moyennes appariées : test non paramétrique de Wilcoxon

• Ne suppose aucune condition sur la distribution des di• Utilisé pour les petits échantillons, lorsqu’on ne peut pas

vérifier ou qu’on ne connaît pas la distribution des di• Classement des di par ordre croissant• Détermination des rang des di• Si il existe des di de même valeur absolue, on leur affecte

un rang moyen.• On enlève les d nulles, s’il en existe (il reste N’ di)• On calcule :

R+ : somme des rangs des di positifsR- : Somme des rangs des di négatifs

• si N’d≠0>25• on montre que R+ et R- suivent une loi

normale• on calcule Uo :

• Puis on se reporte à la table de la loi normale

• Si N’d≠0 ≤ 25• On prend R=min(R+ et R-)• et on compare R à la table de Wilcoxon pour un α

choisi.

• Si R<Rtable on rejette Ho au risque α– Il existe une différence significative entre les valeurs

• Si R>Rtable on accepte Ho, donc on ne met pas en évidence de différence significative entre les valeurs

Tests de comparaison de moyennes

Documents

Transcript of Tests de comparaison de moyennes