Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2...

22
Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o più campioni: ANalysis Of Variance (ANOVA): test F sull'indice η Campioni provenienti da una popolazione Normale con medie che possono essere diverse ma varianze uguali

Transcript of Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2...

Page 1: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Confronto tra gruppi (campioni indipendenti)

2 campioni:

Test z or t sulla differenza tra medie

3, 4, o più campioni:

ANalysis Of Variance (ANOVA): test F sull'indice η

Campioni provenienti da una popolazione Normale con medie che possono essere diverse ma varianze uguali

Page 2: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Studio dei fattori che influenzano il tempo impiegato da un topo ad uscire da un nuovo labirinto

4 gruppi ognuno di 3 topi, tali che:

Analysis of variance (inferential approach)

Ipotesi: l’esperienza ha un “effetto” sul tempo

Esperienza precedente: Group 1: 1 labirintoGroup 2: 2 labirintiGroup 3: 3 labirintiGroup 4: 4 labirinti

Se l’ipotesi è vera ci si aspetta che una maggiore esperienzafaccia decrescere il tempo impiegato ad uscire dal labirinto

Page 3: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Dati

Group 4Group 3Group 2Group 1

3

4

5

6

7

8

9

10

11

12

Time

Gruppo 1 2 3 4

Tempi

11 7 6 5

9 9 5 3

10 8 7 4

Medie 10 8 6 4

Page 4: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Le apparenti differenze tra le medie potrebbero essere dovute allavariabilità del campione piuttosto che all’effetto dell’esperienza

Le differenze sono significative?

Ipotesi: nessun effetto dell’esperienza µ1 = µ2 = µ3 = µ4

L'Analisi della varianza (ANOVA) è il metodo per “testare”questa ipotesi

Come interpretare le differenze

I 4 gruppi provengono dalla stessa popolazione

Page 5: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Notazione dell'ANOVA

yij = j-ma osservazione del gruppo i (independemente dal ruolo dirighe e colonne nella tabella dei dati)

G = numero di gruppi

n = numero di osservazioni (uguale) in ciascun gruppo

Ogni gruppo contiene lo stesso numero n di osservazioni

H0: µ1 = µ2 = … = µG

Ha: Almeno una media è diversa dalle altre

Si suppone che i gruppi abbiano la stessa varianza σ2

Page 6: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

t test separati sarebbero necessari per testare l'ipotesi nulla.

Oltre ad essere un processo lungo, 6 t test separati sugli stessi dati avrebbero un livello di significatività globale αmolto più basso rispetto a quello usato in un unico test.

=

46

2

Test dell'uguaglianza tra ciascuna coppia

Page 7: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

σ

σ

2EXT

2INT

Se le medie sono uguali, la varianza tra i gruppi è nulla: σ =

σ = σ

2EXT

2 2INT

0

Più le medie sono diverse, più σ → σ

σ →

2 2EXT

2INT 0

La decisione è basata sul rapporto:

Più basso è il rapporto, più realistica è l'ipotesi nulla

Più alto è il rapporto, meno realistica è l'ipotesi nulla

1.

2. Livello di significatività della decisione:

− −

σ

σ

2EXT

G 1;n G2INT

~ F

Il test F

Page 8: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Sum ofsquares

DoF Mean of squaresF

(observed)Significance

Among groups(external)

BSSEXT k-1 MSEXT= SSEXT /(k-1)

Within groups(internal)

WSSINT n-k MSINT= SSINT /(n-k)

F = MSEXT/MSINT

P-value

Total SSTOT n-1MSTOT = SSTOT/(n-1)

= σ2

Variability

σ −= =

−σ

2EXT EXT EXT2

INT INTINT

MS SS (k 1)

MS SS (n k)

Risultati dell'ANOVA

Page 9: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

SSTR = devianza dovuta ai trattamenti: tra i gruppi

SSE = devianza residua: nei gruppi

(non dovuta ai trattamenti ma alla variabilità comunque presente nei dati)

Nell'equazione:

SST = SSTR + SSE

SST = devianza totale

n osservazioni: SST ha n -1 g.d.l.

k trattamenti: SSTR ha k -1 g.d.l.

SSE ha g.d.l

Fonti di variabilità

=

− = −∑k

jj 1

(n 1) n k

Page 10: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Risultati dell'esperimento dei topi

SS DoF MS F p-value

Among

Within

Total

60

8

68

3

8

11

20

1

20 0,000449

ANOVA

Il valore di F ed il p-value portano a rifiutare H0

I campioni provengono da 4 popolazioni tra le quali almeno una differisce dalle altre

L'esperienza ha un effetto sul tempo impiegato ad uscire dal labirinto

Decisione

Page 11: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Il test è meno sensibile a piccole deviazioni dall'omoschedasticità. Ciò non èvero quando I campioni hanno dimensioni diverse

La potenza del test è massima quando i gruppi hanno la stessa numerosità

Quando G = 2 il test ANOVA è uguale al test t, poichè:

F1,m = t2m

Negli studi sperimentali è possibile selezionare campioni bilanciati (= dellastessa dimensione) attraverso il “Disegno degli esperimenti”; questo non èsempre possibile nelle scienze economiche o sociali (studi osservazionali)

Osservazioni

Vantaggi dei campioni blanciati

Page 12: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

ANOVA univariata

FATT

130575,427 3 43525,142 ,326 ,807

6141114,893 46 133502,5

6271690,320 49

Fra gruppi

Entro gruppi

Totale

Somma dei

quadrati df

Media dei

quadrati F Sig.

Fatturato e settore merceologicoSM FATT

Ice Packaging 1021

Food 109

Food 233

Food 199

Health Care 354

Ice Packaging 145

Drinks 467

Food 177

Food 161

Health Care 158

Ice Packaging 115

Ice Packaging 108

Food 1444

Health Care 493

Ice Packaging 185

Ice Packaging 285

......

Il p-value è molto alto:

Si accetta l’ipotesi di vendite medie uguali tra i settori, confermata dal campione osservato.0,326

0,807

σ

σ

2EXT

2INT

F

Ipotesi nulla: le vendite medie sono uguali in tutti i settori

Decisione:

Basso valore di F = bassa σ2EXT = medie vicine

Page 13: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Fattore sperimentale (o di classificazione): variabile responsabiledella differenza tra le medie.

Trattamento: modalità (dati qualitativi) o livello (dati ordinali) di un fattore.

Disegno degli esperimenti: insieme di regole per assegnare le osservazioni ai trattamenti.

Mini-glossario ANOVA

Page 14: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Test di Hartley, per gruppi di uguale dimensione

Test di Bartlett, per gruppi di dimensioni diverse

Per entrambi l’ipotesi nulla è:

H1: almeno una varianza è diversa

Se si rifiuta H0 non si dovrebbe procedere con l’ANOVA

In alcuni casi i dati possono essere trasformati per stabilizzare la varianze.

Se le cause dell’eteroschedasticità non sono identifcate l’esperimento dovrebbe essere ripetuto

σ = σ = = σ = σ2 2 2 20 1 2 kH : ...

Test di omoschedatsicità

Page 15: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Se l’ipotesi nulla si rifiuta

Almeno una media differisce dalle altre (il trattamento ha un effetto)

Conclusione:

Quali coppie di trattamenti differiscono?

Test delle ipotesi:

H0: µi = µj, ∀ i e j

Ulteriore analisi

Confronti multipli

1. Least Significant Difference (LSD) di Fisher

2. Multiple-range test di Duncan

3. Procedura di Student–Newman–Keuls’

4. Honestly Significant Difference (HSD) di Tukey

5. Metodo di Scheffè

Gruppi di uguale dimensione

Alcuni esempi

Page 16: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

1 2 ... j ... k

y11 y12 ... y1j ... y1k y1.

y21 y22 ... y2j ... y2k y2.

... ... ... ... ... ... ...

yi1 yi2 ... yij ... yik yi.

... ... ... ... ... ... ...

yr1 yr2 ... yrj ... yrk yr.

y.1 y.2 ... y.i ... y.k y..

... ...

ANOVA a due vie (two-way)

Test dell’effetto di due fattori

Tabella dei dati:

y1.

y2.

yi .

yr .

y.1 y.2y j. y k.

Fattore A

Fattore B

Ciascuna yij è una v.c. Normale

Yij ~ N(µij; σ2)

Page 17: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

( ) ( ) ( ) ( )− = − + − + − − +ij .. .j .. i. .. ij .j i. ..Y Y Y Y Y Y Y Y Y Y

( )

( ) ( )

( )

= =

= =

= =

− =

= − + − +

+ − − +

∑∑

∑ ∑

∑∑

k r 2

ij ..j 1 i 1

k r2 2

.j .. .i ..j 1 i 1

k r 2

ij .j i. ..j 1 i 1

Y Y

r Y Y k Y Y

Y Y Y Y

= + +T K R ESS SS SS SS

Decomposizione della devianza

colonne righe

r = numero di righe

k = numero di colonne

Page 18: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Source ofvariation

Sum ofsquares

DoF Means of squares

Amongcolumns

Among rows

Error(= within)

Total

SS K* k − 1 M S SS kK K* * /= − 1

SS R* r − 1 M S SS rR R* * /= − 1

SS E* ( )( )k r− −1 1 ( )( )M S SS k rE E

* * /= − −1 1

SS T* rk − 1

I rsultati della two-way ANOVA

r = numero di righe

k = numero di colonne

Page 19: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Il test

1) Test sull’effetto del fattore A (colonne) µ = µ ∀ = …0 i jH : i, j 1, ,k

H1: almeno una media diversa

2) Test sull’effetto del fattore B(righe)

H1: almeno una media diversa

− − −

− −

χ

− −= =

χ

− − − −

2(k 1)K

K(k 1);(k 1)(r 1)2

E E (k 1)(r 1)

SS

MS(k 1) (k 1)F ~ ~ F

SS MS

(k 1)(r 1) (k 1)(r 1)

µ = = µ = = µ0 1 i rH : ... ...

Ipotesi nulle

− − −

− −

χ

− −= =

χ

− − − −

2(r 1)R

R(r 1);(k 1)(r 1)2

E E (k 1)(r 1)

SS

MS(r 1) (r 1)F ~ ~ F

SS MS

(k 1)(r 1) (k 1)(r 1)

µ = = µ = = µ0 1 j kH : ... ...

µ = µ ∀ = …0 i jH : i, j 1, ,r

r = numero di righe

k = numero di colonne

Page 20: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Carburatori

1 2 3 4 5

1 10 13 9 14 11 57 11,4

Diesel 2 5 10 5 10 6 36 7,2

3 6 12 5 10 6 39 7,8

4 4 8 4 11 5 32 6,4

25 43 23 45 28 164

6,25 10,75 5,75 11,25 7

Esempio

Si vuole sapere quale combinazione di diesel e carburatore da la migliore performance.

Esperimento: 5 carburatori e 4 tipi di diesel.

Stessa quantità di diesel in ogni carburatore.

Le performance sono in tabella:

yi .

yi .y j.

y j.r = 4

k = 5

Page 21: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Risultati Cy

rk= = =

..

( )(5),

2 2164

41344 8

SS y CT ijji

= − = + + + − ===

∑∑ 2

1

5

1

4

2 2 210 5 5 1344 8 191 2( ... ) , ,

SSy

rCK

j

j

k

= − =+ + +

− ==

∑ . ( ... ), ,

2

1

2 2 225 43 28

41344 8 108 2

SSy

kCR

i

i

r

= − =+ + +

− ==

∑ . (57 ... ), ,

2

1

2 2 236 32

51344 8 73 2

SS SS SS SSE T K R= − + = − + =( ) , ( , , ) ,191 2 108 2 73 2 9 8

Source ofvariation

Sum ofsquares

DoF Means of squares F

Tra carburatori 108,2 4 27,05 33,11

Tra diesel 73,2 3 24,40 29,86

Residua 9,8 12 0,82

Totale 191,2 19

P-value

0,000002

0,000007

0,0000075561

52,17

Page 22: Confronto tra gruppi (campioni indipendenti) · Confronto tra gruppi (campioni indipendenti) 2 campioni: Test z or t sulla differenza tra medie 3, 4, o piùcampioni: ... I campioni

Decisioni

P-value basso, rifutiamo H0

I 4 diesel hanno performance diverse in ogni carburatore

I 5 carburatori hanno diverse performance con ogni diesel

Possiamo scegliere la combinazione migliore sulla tabella dei dati

1) Test sull’effetto del fattore A (colonne) µ = µ ∀ = …0 i jH : i, j 1, ,k

H1: almeno una media diversa

2) Test sull’effetto del fattore B(righe)

H1: almeno una media diversa

µ = µ ∀ = …0 i jH : i, j 1, ,r

P-value basso, rifutiamo H0