Confronto tra gruppi (campioni indipendenti)
2 campioni:
Test z or t sulla differenza tra medie
3, 4, o più campioni:
ANalysis Of Variance (ANOVA): test F sull'indice η
Campioni provenienti da una popolazione Normale con medie che possono essere diverse ma varianze uguali
Studio dei fattori che influenzano il tempo impiegato da un topo ad uscire da un nuovo labirinto
4 gruppi ognuno di 3 topi, tali che:
Analysis of variance (inferential approach)
Ipotesi: l’esperienza ha un “effetto” sul tempo
Esperienza precedente: Group 1: 1 labirintoGroup 2: 2 labirintiGroup 3: 3 labirintiGroup 4: 4 labirinti
Se l’ipotesi è vera ci si aspetta che una maggiore esperienzafaccia decrescere il tempo impiegato ad uscire dal labirinto
Dati
Group 4Group 3Group 2Group 1
3
4
5
6
7
8
9
10
11
12
Time
Gruppo 1 2 3 4
Tempi
11 7 6 5
9 9 5 3
10 8 7 4
Medie 10 8 6 4
Le apparenti differenze tra le medie potrebbero essere dovute allavariabilità del campione piuttosto che all’effetto dell’esperienza
Le differenze sono significative?
Ipotesi: nessun effetto dell’esperienza µ1 = µ2 = µ3 = µ4
L'Analisi della varianza (ANOVA) è il metodo per “testare”questa ipotesi
Come interpretare le differenze
I 4 gruppi provengono dalla stessa popolazione
Notazione dell'ANOVA
yij = j-ma osservazione del gruppo i (independemente dal ruolo dirighe e colonne nella tabella dei dati)
G = numero di gruppi
n = numero di osservazioni (uguale) in ciascun gruppo
Ogni gruppo contiene lo stesso numero n di osservazioni
H0: µ1 = µ2 = … = µG
Ha: Almeno una media è diversa dalle altre
Si suppone che i gruppi abbiano la stessa varianza σ2
t test separati sarebbero necessari per testare l'ipotesi nulla.
Oltre ad essere un processo lungo, 6 t test separati sugli stessi dati avrebbero un livello di significatività globale αmolto più basso rispetto a quello usato in un unico test.
=
46
2
Test dell'uguaglianza tra ciascuna coppia
σ
σ
2EXT
2INT
Se le medie sono uguali, la varianza tra i gruppi è nulla: σ =
σ = σ
2EXT
2 2INT
0
Più le medie sono diverse, più σ → σ
σ →
2 2EXT
2INT 0
La decisione è basata sul rapporto:
Più basso è il rapporto, più realistica è l'ipotesi nulla
Più alto è il rapporto, meno realistica è l'ipotesi nulla
1.
2. Livello di significatività della decisione:
− −
σ
σ
2EXT
G 1;n G2INT
~ F
Il test F
Sum ofsquares
DoF Mean of squaresF
(observed)Significance
Among groups(external)
BSSEXT k-1 MSEXT= SSEXT /(k-1)
Within groups(internal)
WSSINT n-k MSINT= SSINT /(n-k)
F = MSEXT/MSINT
P-value
Total SSTOT n-1MSTOT = SSTOT/(n-1)
= σ2
Variability
σ −= =
−σ
2EXT EXT EXT2
INT INTINT
MS SS (k 1)
MS SS (n k)
Risultati dell'ANOVA
SSTR = devianza dovuta ai trattamenti: tra i gruppi
SSE = devianza residua: nei gruppi
(non dovuta ai trattamenti ma alla variabilità comunque presente nei dati)
Nell'equazione:
SST = SSTR + SSE
SST = devianza totale
n osservazioni: SST ha n -1 g.d.l.
k trattamenti: SSTR ha k -1 g.d.l.
SSE ha g.d.l
Fonti di variabilità
=
− = −∑k
jj 1
(n 1) n k
Risultati dell'esperimento dei topi
SS DoF MS F p-value
Among
Within
Total
60
8
68
3
8
11
20
1
20 0,000449
ANOVA
Il valore di F ed il p-value portano a rifiutare H0
I campioni provengono da 4 popolazioni tra le quali almeno una differisce dalle altre
L'esperienza ha un effetto sul tempo impiegato ad uscire dal labirinto
Decisione
Il test è meno sensibile a piccole deviazioni dall'omoschedasticità. Ciò non èvero quando I campioni hanno dimensioni diverse
La potenza del test è massima quando i gruppi hanno la stessa numerosità
Quando G = 2 il test ANOVA è uguale al test t, poichè:
F1,m = t2m
Negli studi sperimentali è possibile selezionare campioni bilanciati (= dellastessa dimensione) attraverso il “Disegno degli esperimenti”; questo non èsempre possibile nelle scienze economiche o sociali (studi osservazionali)
Osservazioni
Vantaggi dei campioni blanciati
ANOVA univariata
FATT
130575,427 3 43525,142 ,326 ,807
6141114,893 46 133502,5
6271690,320 49
Fra gruppi
Entro gruppi
Totale
Somma dei
quadrati df
Media dei
quadrati F Sig.
Fatturato e settore merceologicoSM FATT
Ice Packaging 1021
Food 109
Food 233
Food 199
Health Care 354
Ice Packaging 145
Drinks 467
Food 177
Food 161
Health Care 158
Ice Packaging 115
Ice Packaging 108
Food 1444
Health Care 493
Ice Packaging 185
Ice Packaging 285
......
Il p-value è molto alto:
Si accetta l’ipotesi di vendite medie uguali tra i settori, confermata dal campione osservato.0,326
0,807
σ
σ
2EXT
2INT
F
Ipotesi nulla: le vendite medie sono uguali in tutti i settori
Decisione:
Basso valore di F = bassa σ2EXT = medie vicine
Fattore sperimentale (o di classificazione): variabile responsabiledella differenza tra le medie.
Trattamento: modalità (dati qualitativi) o livello (dati ordinali) di un fattore.
Disegno degli esperimenti: insieme di regole per assegnare le osservazioni ai trattamenti.
Mini-glossario ANOVA
Test di Hartley, per gruppi di uguale dimensione
Test di Bartlett, per gruppi di dimensioni diverse
Per entrambi l’ipotesi nulla è:
H1: almeno una varianza è diversa
Se si rifiuta H0 non si dovrebbe procedere con l’ANOVA
In alcuni casi i dati possono essere trasformati per stabilizzare la varianze.
Se le cause dell’eteroschedasticità non sono identifcate l’esperimento dovrebbe essere ripetuto
σ = σ = = σ = σ2 2 2 20 1 2 kH : ...
Test di omoschedatsicità
Se l’ipotesi nulla si rifiuta
Almeno una media differisce dalle altre (il trattamento ha un effetto)
Conclusione:
Quali coppie di trattamenti differiscono?
Test delle ipotesi:
H0: µi = µj, ∀ i e j
Ulteriore analisi
Confronti multipli
1. Least Significant Difference (LSD) di Fisher
2. Multiple-range test di Duncan
3. Procedura di Student–Newman–Keuls’
4. Honestly Significant Difference (HSD) di Tukey
5. Metodo di Scheffè
Gruppi di uguale dimensione
Alcuni esempi
1 2 ... j ... k
y11 y12 ... y1j ... y1k y1.
y21 y22 ... y2j ... y2k y2.
... ... ... ... ... ... ...
yi1 yi2 ... yij ... yik yi.
... ... ... ... ... ... ...
yr1 yr2 ... yrj ... yrk yr.
y.1 y.2 ... y.i ... y.k y..
... ...
ANOVA a due vie (two-way)
Test dell’effetto di due fattori
Tabella dei dati:
y1.
y2.
yi .
yr .
y.1 y.2y j. y k.
Fattore A
Fattore B
Ciascuna yij è una v.c. Normale
Yij ~ N(µij; σ2)
( ) ( ) ( ) ( )− = − + − + − − +ij .. .j .. i. .. ij .j i. ..Y Y Y Y Y Y Y Y Y Y
( )
( ) ( )
( )
= =
= =
= =
− =
= − + − +
+ − − +
∑∑
∑ ∑
∑∑
k r 2
ij ..j 1 i 1
k r2 2
.j .. .i ..j 1 i 1
k r 2
ij .j i. ..j 1 i 1
Y Y
r Y Y k Y Y
Y Y Y Y
= + +T K R ESS SS SS SS
Decomposizione della devianza
colonne righe
r = numero di righe
k = numero di colonne
Source ofvariation
Sum ofsquares
DoF Means of squares
Amongcolumns
Among rows
Error(= within)
Total
SS K* k − 1 M S SS kK K* * /= − 1
SS R* r − 1 M S SS rR R* * /= − 1
SS E* ( )( )k r− −1 1 ( )( )M S SS k rE E
* * /= − −1 1
SS T* rk − 1
I rsultati della two-way ANOVA
r = numero di righe
k = numero di colonne
Il test
1) Test sull’effetto del fattore A (colonne) µ = µ ∀ = …0 i jH : i, j 1, ,k
H1: almeno una media diversa
2) Test sull’effetto del fattore B(righe)
H1: almeno una media diversa
−
− − −
− −
χ
− −= =
χ
− − − −
2(k 1)K
K(k 1);(k 1)(r 1)2
E E (k 1)(r 1)
SS
MS(k 1) (k 1)F ~ ~ F
SS MS
(k 1)(r 1) (k 1)(r 1)
µ = = µ = = µ0 1 i rH : ... ...
Ipotesi nulle
−
− − −
− −
χ
− −= =
χ
− − − −
2(r 1)R
R(r 1);(k 1)(r 1)2
E E (k 1)(r 1)
SS
MS(r 1) (r 1)F ~ ~ F
SS MS
(k 1)(r 1) (k 1)(r 1)
µ = = µ = = µ0 1 j kH : ... ...
µ = µ ∀ = …0 i jH : i, j 1, ,r
r = numero di righe
k = numero di colonne
Carburatori
1 2 3 4 5
1 10 13 9 14 11 57 11,4
Diesel 2 5 10 5 10 6 36 7,2
3 6 12 5 10 6 39 7,8
4 4 8 4 11 5 32 6,4
25 43 23 45 28 164
6,25 10,75 5,75 11,25 7
Esempio
Si vuole sapere quale combinazione di diesel e carburatore da la migliore performance.
Esperimento: 5 carburatori e 4 tipi di diesel.
Stessa quantità di diesel in ogni carburatore.
Le performance sono in tabella:
yi .
yi .y j.
y j.r = 4
k = 5
Risultati Cy
rk= = =
..
( )(5),
2 2164
41344 8
SS y CT ijji
= − = + + + − ===
∑∑ 2
1
5
1
4
2 2 210 5 5 1344 8 191 2( ... ) , ,
SSy
rCK
j
j
k
= − =+ + +
− ==
∑ . ( ... ), ,
2
1
2 2 225 43 28
41344 8 108 2
SSy
kCR
i
i
r
= − =+ + +
− ==
∑ . (57 ... ), ,
2
1
2 2 236 32
51344 8 73 2
SS SS SS SSE T K R= − + = − + =( ) , ( , , ) ,191 2 108 2 73 2 9 8
Source ofvariation
Sum ofsquares
DoF Means of squares F
Tra carburatori 108,2 4 27,05 33,11
Tra diesel 73,2 3 24,40 29,86
Residua 9,8 12 0,82
Totale 191,2 19
P-value
0,000002
0,000007
0,0000075561
52,17
Decisioni
P-value basso, rifutiamo H0
I 4 diesel hanno performance diverse in ogni carburatore
I 5 carburatori hanno diverse performance con ogni diesel
Possiamo scegliere la combinazione migliore sulla tabella dei dati
1) Test sull’effetto del fattore A (colonne) µ = µ ∀ = …0 i jH : i, j 1, ,k
H1: almeno una media diversa
2) Test sull’effetto del fattore B(righe)
H1: almeno una media diversa
µ = µ ∀ = …0 i jH : i, j 1, ,r
P-value basso, rifutiamo H0
Top Related