Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della...

23
Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Transcript of Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della...

Page 1: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Confronto fra gruppi: il metodo ANOVA

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Page 2: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

1 Nella popolazione, per ciascun gruppo la distribuzione della variabile rispostay e normale

2 Nella popolazione, la deviazione standard della variabile risposta e identica inciascun gruppo. Indichiamo questo valore comune con σ

3 I campioni sono campioni casuali e indipendenti

Rappresentazione grafica delle assunzioni 1 e 2:

RelativeFrequency

Group 1Group 3

Group 2

y

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 2 / 23

Page 3: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Esempio — Ideologia politica e partito politico

Ideologia PoliticaGruppo 1 2 3 4 5 6 7 n Media SDDemocratico 9 20 17 36 4 5 0 91 3.23 1.28Independente 7 11 17 48 12 11 5 111 3.90 1.43Repubblicano 0 2 7 23 23 17 2 74 4.70 1.10

1 = estremamente liberale, 2 = liberale, 3 = leggermente liberale,4 = moderato, 5 = leggermente conservatore, 6 = conservatore,7 = estremamente conservatore

La tabella mostra i dati in una tabella di contingenza e quindi potremoutilizzare una statistica come il chi-quadro

Ma in tal caso non verrebbe considerata la natura ordinale della variabileideologia politica

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 3 / 23

Page 4: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Quando H0 e vera, la statistica test F ha una distribuzione campionaria F diFisher

La distribuzione F , come il chi-quadro assume solo valori non negativi ed easimmetrica positiva

(a) Sample 1

Sample 2

Sample 3

(b)0

0

La forma della distribuzione dipende da due parametri che sono i gradi diliberta

df1 = k − 1, il numero dei gruppi del modello − 1df2 = n − k = n − numero dei gruppi

La media della distribuzione F e pari a df2/(df2 − 2)

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 4 / 23

Page 5: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Esempio — Ideologia politica e partito politico

I risultati dell’applicazione del test vengono riassunti dai software in unatabella chiamata Tabella ANOVA

Sum of MeanSource Squares df Square F SigBetween-Groups (Party ID) 88.43 2 44.21 26.3 .000Within-Groups (Error) 459.52 273 1.68Total 547.95 275

Le due “mean squares” sono le stime fra-i-gruppi e nei-gruppi della varianzadella popolazione σ2

La statistica test F e il rapporto delle due “mean squares”

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 5 / 23

Page 6: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Esempio — Ideologia politica e partito politico

Sum of MeanSource Squares df Square F SigBetween-Groups (Party ID) 88.43 2 44.21 26.3 .000Within-Groups (Error) 459.52 273 1.68Total 547.95 275

Per il test F abbiamo

df1 = g − 1 = n. gruppi − 1 e df2 = N − g

= Dimensione campionaria totale − n. gruppi.

df1 = g − 1 = 3− 1 = 2 and df2 = N − g = 276− 3 = 273

Nella riga “fra-i-gruppi”, la SS divisa per df1 ci da la “Mean Square” 88.43/2 = 44.21

Nella riga “nei-gruppi” la SS divisa per df2 ci da l’altra media quadratica459.52/273 = 1.68

La statistica test F per H0: µ1 = µ2 = µ3 e il rapporto tra le stime delle varianze stimate,cioe il rapporto tra le due medie quadratiche F = 44.21/1.68 = 26.3

La somma delle due SS e chiamata somma dei quadrati totale TSS

TSS =∑

(y − y)2 = SS fra-i-gruppi + SS nei-gruppi

TSS = 547.95 = 88.43 + 459.52

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 6 / 23

Page 7: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Esempio — Ideologia politica e partito politico

L’intervallo per µ3 − µ1 (differenza fra Repubblicani e Democratici)

(y2 − y1)± ts

1

n1+

1

n2= (4.70− 3.23)± 2.41(1.30)

1

91+

1

74

= 1.47± 0.49 o (0.98, 1.96).

Difference Estimatedof Means Difference Bonferroni

Groups µi − µj yi − yj 95% CI(Independent, Democrat) µ2 − µ1 0.67 (0.23, 1.11)∗

(Republican, Democrat) µ3 − µ1 1.47 (0.98, 1.96)∗

(Republican, Independent) µ3 − µ2 0.80 (0.33, 1.27)∗

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 7 / 23

Page 8: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Esempio — Ideologia politica e partito politico

Per la variabile partito politico consideriamo 3 categorie. Il modello diregressione per la procedura ANOVA e

E (y) = α+ β1z1 + β2z2

Dependent Variable: IDEOLOGYParameter Estimate Std Error t Sig(Constant) 4.534 0.0759 59.73 0.0001PARTY 1 -0.717 0.1033 -6.94 0.0001

2 -0.541 0.1054 -5.13 0.00013 0.000 0. 0. 0.

L’equazione di previsione e y = 4.53− 0.72z1 − 0.54z2I coefficienti dell’equazione di previsione sono in relazione con le mediecampionarie allo stesso modo in cui i parametri della regressione sono inrelazione con le medie di popolazione

α = µ3 e stimato con 4.53 = y3, la media campionaria per i Repubblicani

Allo stesso modo il coefficiente di z1 e −0.72 = y1 − y3 e il coefficiente di z2e −0.54 = y2 − y3

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 8 / 23

Page 9: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Esempio — Ideologia politica e partito politico

Sum of MeanSource Squares df Square F -value SigRegression 88.43 2 44.21 26.3 .000Residual 459.52 273 1.68Total 547.95 275

La tabella mostra i risultati dell’adattamento di un modello di regressione convariabili dummy ai dati sull’ideologia politica. La tabella e simile a quellacostruita per adattare l’ANOVA

La “between-groups sum of squares” e la “regression sum of squares”

La “within-groups sum of squares” e la “residual sum of squares” (SSE)

Il rapporto fra la “regression mean square” e il “mean square error” e lastatistica F (F = 26.3), con df1 = 2 e df2 = 273, per H0: β1 = β2 = 0

Questa ipotesi e equivalente a H0: µ1 = µ2 = µ3 per le tre categorie dellavariabile “Party ID”

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 9 / 23

Page 10: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Esempio — Ideologia politica, partito politico e sesso

Ideologia politica Dev.Partito Sex 1 2 3 4 5 6 7 n Media Std.Democratico F 5 30 35 98 20 24 3 215 3.85 1.26

M 6 20 25 41 15 15 3 125 3.77 1.43

Independente F 4 17 27 83 16 17 5 169 3.95 1.24M 4 16 20 59 21 23 1 144 4.04 1.30

Repubblicano F 2 10 17 63 32 33 5 162 4.43 1.26M 0 9 13 36 33 28 9 128 4.66 1.31

Dependent Variable: IDEOLOGYSum of Mean

Source Squares df Square F SigModel 86.693 3 28.898 17.29 0.0001Error 1569.525 939 1.671Total 1656.218 942

Source Type III SS df Mean Square F SigPARTY 84.2516 2 42.1258 25.20 0.0001GENDER 1.3110 1 1.3110 0.78 0.3760

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 10 / 23

Page 11: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

La differenza fra femmine e maschi nell’ideologia politica media e −1 perciascun partito

Allo stesso modo la differenza fra ciascuna coppia di partiti politici e la stessaper ciascun sesso: ad es. la differenza fra Repubblicani e Democratici e pari a2.0 sia per le femmine che per i maschi

Females

Males

Democrat

MeanPoliticalIdeology

5

6

4

3

2Independent Republican

Party Identification

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 11 / 23

Page 12: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Questa tabella e la figura rappresentano delle medie di popolazione chemostrano interazione fra le variabili

Sesso Democratici Indipendenti RepubblicaniFemmine 3.0 4.0 5.0Maschi 5.0 4.0 3.0

Females

Males

Democrat

MeanPoliticalIdeology

5

6

4

3

2Independent Republican

Party Identification

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 12 / 23

Page 13: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Per le sei combinazioni fra le categorie delle variabili sesso e partito politicoosserviamo le medie di popolazione in termini di parametri della regressione

Variabili Dummy Media di Popolazione di yIdentificazione

Sesso Partitica p1 p2 s α+ β1p1 + β2p2 + β3s

Femmina Democratico 1 0 1 α+ β1 + β3

Indipendente 0 1 1 α+ β2 + β3

Repubblicano 0 0 1 α+ β3

Maschio Democratico 1 0 0 α+ β1

Indipendente 0 1 0 α+ β2

Repubblicano 0 0 0 α

Per ciascun partito al differenza fra le medie dei maschi e delle femmine epari a β3

L’ipotesi nulla di nessuna differenza fra le medie di maschi e femmine,tenendo sotto controllo il partito di appartenenza e: H0 : β3 = 0

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 13 / 23

Page 14: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Dependent Variable: IDEOLOGYParameter B Std. Error t SigIntercept 4.5768 0.0897 51.02 0.0001PARTY 1 -0.7112 0.1035 -6.87 0.0001

2 -0.5423 0.1054 -5.15 0.00013 0 . . .

GENDER 1 -0.0758 0.0856 -0.89 0.37602 0 . . .

Sostituendo i valori delle variabili dummy nell’equazione di previsione sihanno le medie stimate per il modello di assenza di interazione

Ad esempio, per le femmine repubblicane, p1 = p2 = 0 e s = 1, cosı che

y = 4.58− 0.71(0) + 0.54(0)− 0.08(1) = 4.50

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 14 / 23

Page 15: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Dependent Variable: IDEOLOGYSum of Mean

Source Squares df Square F SigModel 90.332 5 18.066 10.81 0.0001Error 1565.886 937 1.671Total 1656.218 942

Source Type III SS df Mean Square F SigPARTY 87.795 2 43.898 26.27 0.0001

GENDER 1.488 1 1.488 0.89 0.3456PARTY*GENDER 3.640 2 1.820 1.09 0.3370

La somma dei quadrati per l’effetto interazione e riportata nella riga intestatacon PARTY*GENDER e corrisponde alla quota di variabilita spiegata dai duetermini di interazione

Essa e pari alla differenza fra la SSE calcolata con e senza questo termine

La “mean square” dell’interazione e una stima di σ2 basata su

SS Interazione

df=

3.64

2= 1.82

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 15 / 23

Page 16: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Ad esempio, per il modello che assume l’assenza di interazioni, β1 = −0.71 ela stima della differenza fra l’ideologia politica media dei democratici e deirepubblicani

Dependent Variable: IDEOLOGYParameter B Std. Error t SigIntercept 4.5768 0.0897 51.02 0.0001PARTY 1 -0.7112 0.1035 -6.87 0.0001

2 -0.5423 0.1054 -5.15 0.00013 0 . . .

GENDER 1 -0.0758 0.0856 -0.89 0.37602 0 . . .

Lo se di questa stima e 0.104; l’IC al 95% e −0.71± 1.96(0.104), o(−0.9,−0.5)

Per ciascun valore della variabile sesso, i democratici, sono, in media, menoconservatori

L’approccio alla Bonferroni dell’ANOVA a una-via puo essere esteso aall’ANOVA a piu-vie

Un confronto per tutte e tre le coppie di partiti politici con un livello di erroredi 0.05 impiega una probabilita di errore pari a 0.05/3 = 0.0167 neldeterminare il t-score per ciascun intervallo

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 16 / 23

Page 17: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Esempio — Condizionamenti sui bambini

In una recente GSS e stato chiesto a piu di 1000 intervistati di rispondere allaseguente domanda “I bambini sono sottoposti a molti condizionamenti nella loro vita

quotidiana. Che tipo di influenza, positiva o negativa, ritieni abbiano Film – TV – Rock?”

CondizionamentoSoggetto Film TV Rock

1 −1 0 −12 1 0 03 0 1 −24 2 0 15 0 −1 −16 −2 −2 −27 −1 −1 08 0 1 −19 −1 −1 −110 1 0 111 1 1 −112 −1 −1 −2

Media −0.08 −0.25 −0.75

Possibili risposte: molto negativa, negativa, neutra, positiva, molto positiva

Codifiche: −2,−1, 0, 1, 2(Primi 12 soggetti)

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 17 / 23

Page 18: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Esempio — Condizionamenti sui bambini

Il test confronta le medie di popolazione per i tre tipi di condizionamento e,quindi, il test per l’effetto principale per la variabile di colonna dell’ANOVA adue-vie:

H0: Medie di popolazione uguali per i tre tipi di condizionamento

Sum of MeanSource Squares df Square F SigModel 27.861 13 2.143 3.79 0.003Error 12.444 22 0.566Total 40.306 35

MeanSource Type III SS df Square F Sig

INFLUENCE 2.889 2 1.444 2.55 0.101SUBJECT 24.972 11 2.270 4.01 0.003

La statistica F e la media quadratica per i condizionamenti divisa per lamedia quadratica dell’errore F = 1.44/0.57 = 2.55, df1 = 2 e df2 = 22. Leprove contro H0 non sono forti

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 18 / 23

Page 19: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

Test of Within-Subjects EffectsType III Sum Mean

Source of Squares df Square F Sig.Sphericity assumed

Influence 2.889 2 1.444 2.55 .101Error 12.444 22 .566

La tabella mostra i risultati ottenuti con un software che permettel’adattamento di modelli per osservazioni ripetute

L’ANOVA per misure ripetute assume la sfericita. Il significato di questaassunzione e . . .

. . . Per ogni coppia di gruppi consideriamo la differenza fra due osservazioni,una per ciascun gruppo Questa differenza e una variabile e la condizione disfericita consiste nell’assumere che la deviazione standard della distribuzionedi queste differenze e identica per ciascuna coppia di gruppi

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 19 / 23

Page 20: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

ANOVA a due-vie con misure ripetute

Esempio — Confronti di tre trattamenti contro l’anoressia

Spesso i dataset con misure ripetute hanno piu di un effetto fisso. Le misureripetute si osservano rispetto alle categorie di un fattore ma sonoindipendenti rispetto alle categorie dell’altro

La tabella mostra i pesi (in libbre) osservati per 72 ragazze malate dianoressia

Cognitive Behavioral Family Therapy Control

Weight Weight Weight Weight Weight WeightBefore After Before After Before After80.5 82.2 83.8 95.2 80.7 80.2...

......

......

......

......

......

...94.9 98.4 76.9 76.8 87.3 75.176.3 93.4 94.2 101.6 75.1 86.779.7 83.6 89.0 78.884.5 84.680.8 96.287.4 86.7

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 20 / 23

Page 21: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

ANOVA a due-vie con misure ripetute

Esempio — Confronti di tre trattamenti contro l’anoressia

Time

Treatment Before AfterCognitive Behavioral (CB) 82.7 85.7Family Therapy (FT) 83.2 90.5Control (C) 81.6 81.1

Time: Before After

Family TherapyTreatment: Cognitive Behavioral Control

AfterBefore AfterBefore

0

0

0

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 21 / 23

Page 22: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

ANOVA a due-vie con misure ripetute

Come nella normale ANOVA a due-vie, possiamo saggiare ciascun effettoprincipale cosı come l’interazione fra gli stessi

Tuttavia i test per il fattore within-subjects (sia il suo effetto principale sia lesue interazioni con gli altri effetti fissi) impiegano un diverso termine di errorerispetto a quello impiegato per l’effetto principale between-subjects

L’ordinario termine di errore della somma dei quadrati viene partizionato indue parti

Una utilizza la variabilita fra i punteggi medi dei soggetti (between-subjectsfactor)L’altra e basata su come i punteggi medi variano nei soggetti (within-subjectfactor)

Total

ErrorTreatment

Betweensubjects

Withinsubjects

Treatment 3 TimeTimeError

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 22 / 23

Page 23: Confronto fra gruppi: il metodo ANOVA...campionarie allo stesso modo in cui i parametri della regressione sono in relazione con le medie di popolazione α = µ3 `e stimato con 4.53

ANOVA a due-vie con misure ripetute

Esempio — Confronti di tre trattamenti contro l’anoressia

Tests of Within-Subject EffectsType III Sum

Source of Squares df Mean Square F SigTIME 366.04 1 366.04 12.92 0.001

TIME*TREATMENT 307.32 2 153.66 5.42 0.006Error(TIME) 1955.37 69 28.34

Tests of Between-Subjects Effects.Type III Sum

Source of Squares df Mean Square F SigTREATMENT 644.23 2 322.12 6.20 0.003

Error 3584.03 69 51.94

Ciascuna SS riassume la variabilita riferita al corrispondente termine: si tratta dellariduzione della SSE quando quel particolare termine viene aggiunto al modello

Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 23 / 23