BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv...

20
1 Cours 5 Analyse de variance et discussion de l'article 2 BIO 3500 – Hiver 2017 6 février Préambule Que signifie α? Préambule Que signifie p? La probabilité que H 0 soit vrai si on rejette H 0 Autrement dit: la probabilité de se tromper en rejetant H 0

Transcript of BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv...

Page 1: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

1

Cours 5Analyse de variance

et discussion de l'article 2

BIO 3500 – Hiver 20176 février

Préambule

Que signifie α?

Préambule

Que signifie p? La probabilité que H0 soit vrai si on rejette H0

Autrement dit: la probabilité de se tromper en rejetant H0

Page 2: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

2

Préambule

Deux types d’erreurs lors d’une décision statistique

Réalité (inconnu)

Décision Ho vrai Ho fausse

Rejet de Ho Erreur de première espèce (type I)

P=α

Décision correctePuissance statistique

Non-rejet de Ho Décision correcteP=1- α

Erreur de seconde espèce

(type II)

Préambule

Si la valeur de p est supérieure à α, on rejette ou on ne rejette pas H0?

Préambule

Si la valeur de p est supérieure à α, on rejette ou on ne rejette pas H0?On rejette!

Page 3: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

3

Préambule

Lorsqu’on pose une hypothèse, la partie mathématique doit être écrite:H0: μ1=μ2

H1: μ1≠μ2

pas ->H0: x1=x2 et H1: x1≠x2

Pourquoi à votre avis?

Préambule

Lorsqu’on pose une hypothèse, la partie mathématique doit être écrite:H0: μ1=μ2

H1: μ1≠μ2

pas ->H0: x1=x2 et H1: x1≠x2

Pourquoi à votre avis? On veut inférer l’état de la population! On sait déjà si nos échantillons diffèrent.

Préambule

Des questions sur le test de t et les autres éléments du cours?

Page 4: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

4

Plan

Discussion de l'article #2

ANOVA

Article # 2

Cézilly, F. and Boyd, V. 1989. Ajustement postural et capture des proies chez l'aigrette garzette, Egretta garzetta. Revue d'Écologie : Terre et Vie, 44(1), 95-102.

Article # 2: Intro

Difficulté de mesurer le fitness : Dans bien des cas, on veut déterminer ce qui est le mieux… mais mesurer la survie de la descendance, c’est un grand défi!

Utilisation de proxy , ex: croissance

Page 5: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

5

Article # 2: Intro

Optimal foraging theory: Les animaux devraient théoriquement maximiser le gain en énergie/temps

Discussion de l’article

En groupe de 3-4, 20-30 minutes:

Questions sur le contenu de l’article Quelle est la question de recherche?

En quoi est-elle différente de ce qui a été fait avant?

Formulez les hypothèses pour les tests de t. Quel type de test de t? C’était le bon choix? Unilatéral ou bilatéral? Les résultats? On rejette H0?

Quelles sont les réponses obtenues?

Avez-vous trouvé l’article bien écrit?

Qu’est-ce que vous n’avez pas compris?

Des points qui pourraient remettre les résultats en cause?

Pour le 20 février

Nous discuterons l'article #3 Vous devez lire l'article #3 attentivement. Pour chacune des sections suivantes,

donnez quelques critiques positives ou négatives par rapport à ce que l'on a vu à propos de la FONCTION de chaque partie d'un article de recherche en faisant directement référence au contenu de l'article #3.

a. Titreb. Résuméc. Introductiond. Méthodese. Résultatsf. Discussion

Page 6: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

6

Plan

Discussion de l'article #2

ANOVA

Analyse de variance

ANOVA

Comparaison de moyennes

Test de t pour comparer deux moyennes

Analyse de variance ou ANOVA (de l’anglais analysis of variance) pour comparer plusieurs

moyennes

Page 7: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

7

Comparaison de moyennes

Pourquoi ne pas faire pleins de tests de t pensez-

vous? ex. 4 groupes -> 6 tests t

Comparaison de moyennes

Pourquoi ne pas faire pleins de tests de t pensez-

vous? ex. 4 groupes -> 6 tests t

Ces comparaisons ne sont pas indépendantes. Si X1=X2 et X3>X1, alors probablement que X3>X1.

L’erreur alpha augmente avec le nombre de comparaisons: 1-(1-alpha)c, où c=nbr de comparaisons

Comparaison de moyennes

Une comparaison entre 2 groupes à un seuil alpha 0.05 donne

une erreur alpha de 0.05

Une seconde comparaison dans le même échantillon occasionne

une seconde erreur de 0.05, etc...

Donc l’erreur augmente. ex: Pour 3 tests,

alpha=1-(1-alpha)c=1-(1-0.05)3=0.143

Page 8: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

8

Comparaison de moyennes

Taux d’erreur pour un ensemble de comparaisons:

α=

α=

α=

Nombre de comparaisons

Erreur réelle

L’ANOVA et le test t

Lorsqu’il n’y a que deux moyennes à comparer, les deux tests s’appliquent également

On trouvera qu’ils produisent la même probabilité et que la statistique F = la statistique t2

L’ANOVA utilise la loi de Fisher (distribution F) comme distribution des probabilités au lieu de la distribution de t.

H0: les moyennes sont égales

H1: au moins une moyenne diffère des autres moyennes

À noter: l’analyse de variance ne permet pas de distinguer qu’elle(s) moyenne(s) diffèrent des autres. Il faut faire un test à postériori pour les identifier (test post hoc).

L’analyse de variance

Page 9: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

9

Fonctionnement: Rapport de la variance intergroupe et de la variance intragroupe

Variance inter: effet de traitement

Variance intra: terme d’erreur, variance non expliquée

L’analyse vérifie si la variance entre les moyennes est supérieure à la variance à l’intérieur de chaque variable.

L’analyse de variance

L’analyse de variance

L’analyse de variance

Page 10: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

10

L’analyse de variance

L’analyse de variance

Variabilité inter

Variabilité intra

ANOVA (exemple)

Question: Est-ce que dormir 4h, 6h ou 8h avant un

examen influence le résultat obtenu?

H0: ?

H1: ?

Page 11: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

11

ANOVA (exemple)

Question: Est-ce que dormir 4h, 6h ou 8h avant un

examen influence le résultat obtenu?

H0: La durée du sommeil n’influence pas les

résultats aux examens: μ4h=μ6h=μ8h

H1: La durée du sommeil influence les résultats aux

examens: μi≠μj (au moins une moyenne diffère

des autres)

ANOVA (exemple)

4h321

6h543

8h765

k groupes

N observations (9)

ANOVA (exemple)

4h321

6/32

6h543

12/34

8h765

18/36

k groupes

N observations (9)

X = moyenne globale = (3+2+1+5+4+3+7+6+5) / 9 = 4

X =

Page 12: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

12

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

X X = 4 =

totale

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

X X = 4 =

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

X X = 4 =

SST = 30 8ddl

Page 13: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

13

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

X X = 4 =

SST = 30 8ddl

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

X X = 4 =

SST = 30 8ddl

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

X X = 4 =

SST = 30 8SSW= 6 6

ddl

Page 14: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

14

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

X X = 4 =

SST = 30 8SSW= 6 6

ddl

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

X X = 4 =

SST = 30 8SSW= 6 6

ddl

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

X X = 4 =

SST = 30 8SSW= 6 6SSB= 24 2

ddl

Page 15: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

15

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

SST = SSW + SSB

Variance totale = variance intra + variance interddl total = ddl intra + ddl inter

X X = 4 =

SST = 30 8SSW= 6 6SSB= 24 2

ddl

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

statistique F = variance inter = SSB/(k-1) = 24/2 =12variance intra SSW/(N-k) 6/6

F(2,6)=12 -> p=0.008 On rejette?

X X = 4 =

SST = 30 8SSW= 6 6SSB= 24 2

ddl

ANOVA (exemple)

4h3212

6h5434

8h7656

k groupes

N observations (9)

statistique F = variance inter = SSB/(k-1) = 24/2 =12variance intra SSW/(N-k) 6/6

F(2,6)=12 -> p=0.008 On rejette? Oui!

X X = 4 =

SST = 30 8SSW= 6 6SSB= 24 2

ddl

Page 16: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

16

Calculs pour l’analyse de variance

Autrement dit: Il s’agit de diviser la variance des moyennes par la variance à l’intérieur des moyennes

F k1,Nk

n j x j x 2j1

k

k 1

xij x j 2i1

n j

j1

k

N k

ANOVA (exemple)

S’il y a k moyennes à comparer basées sur un total de N observations, alors les degrés de libertés sont: k-1 pour le numérateurN-k pour le dénominateur.

F k1,N k

n j x j x 2j1

k

k 1

xij x j 2i1

n j

j1

k

N k

La loi de Fisher (distribution F)

Page 17: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

17

L’analyse de variance

alpha=0.05, F(k-1, n-k) critique

L’analyse de variance

Énoncer les hypothèses nulles et alternatives

Calculer la moyenne pour chaque groupe et la

moyenne globale

Calculer la variance entre les moyennes (intergroupe)

Calculer la variance à l’intérieur des groupes

Diviser la variance inter par la variance intra pour

obtenir une valeur de F

Comparer la valeur de F avec la valeur critique

Conclure

Un autre exemple

Vous avez semé trois variétés de carottes dans votre jardin ce printemps. Laquelle a produit les plus lourdes carottes ?

Votre échantillon vous donne (en gramme par carotte):

Variété A: 43, 47, 50, 53, 57

Variété B: 42, 50, 56, 60

Variété C: 32, 40, 45

Page 18: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

18

Résultat de l’analyse

ANOVA

Source des variations

Somme des carrés

Dégrés de liberté

Moyenne des carrés F Probabilité

Entre Groupes 326,917 2 163,4583 3,8112 0,0632

A l'intérieur des groupes 386 9 42,89

Total 712,917 11

Résultat de l’analyse

ANOVA

Source des variations

Somme des carrés

Dégrés de liberté

Moyenne des carrés F Probabilité

Entre Groupes 326,917 2 163,4583 3,8112 0,0632

A l'intérieur des groupes 386 9 42,89

Total 712,917 11

Degrés de liberté?

Variété A: 43, 47, 50, 53, 57

Variété B: 42, 50, 56, 60

Variété C: 32, 40, 45

?

?

?

Résultat de l’analyse

ANOVA

Source des variations

Somme des carrés

Dégrés de liberté

Moyenne des carrés F Probabilité

Entre Groupes 326,917 2 163,4583 3,8112 0,0632

A l'intérieur des groupes 386 9 42,89

Total 712,917 11

Conclusion ???

Page 19: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

19

Réalité (inconnu)

Décision Ho vrai Ho fausse

Rejet de Ho Erreur de première espèce (type I)

P=α

Décision correctePuissance statistique

Non-rejet de Ho Décision correcteP=1- α

Erreur de seconde espèce

(type II)

Conclusion

Il n’y a pas une forte évidence que les carottes d’une variété diffèrent de celles des autres.

Il est possible que le test manque de puissance car l’effectif est petit.

La distribution de F est influencée par la variance des échantillons !

F k1,N k

n j x j x 2j1

k

k 1

xij x j 2i1

n j

j1

k

N k

Plus la variance dans les groupes est élevée, plusle dénominateur sera grand -> plus f sera petit-> plus p sera élevé

Test post-hoc

Si l’ANOVA est significative, on peut dire:

H0: les moyennes sont égales

H1: au moins une moyenne diffère des autres

moyennes

Page 20: BIO3500 Cours 5 - Art 2 ANOVA [Mode de compatibilité]...3updpexoh 'hx[ w\shv g¶huuhxuv oruv g¶xqh gpflvlrq vwdwlvwltxh 5pdolwp lqfrqqx 'pflvlrq+ r yudl + r idxvvh 5hmhw gh + r

20

Test post-hoc

Pour determiner quelle(s) moyenne(s) diffère(nt)

Test de Tuckey (en anglais Tuckey’s HSD pour: honest significance test) Compare chaque paire, mais en corrigeant l’erreur

alpha afin d’obtenir un alpha global desiré.

Autrement dit, chaque test se fait à un alpha plus faible que le alpha global afin de compenser pour la propagation des erreurs

Test post-hoc

Pour determiner quelle(s) moyenne(s) diffère(nt)

Test de Tuckey : Résultats

Les groupes A et B ne diffèrent pas. Les groupes B et C non plus. A et C diffèrent. A, B et C diffèrent de D et E.

Groupe A Groupe B Groupe C Groupe D Groupe E

A A

B B

C C

En équipe

Développez pour l’ANOVA.1 questionLes hypothèsesLes données à récoltéesLes variables, leur types