Test F per la significativit`a del modello - UniBG · Statistica Industriale Lez. 8 Test F per la...
Transcript of Test F per la significativit`a del modello - UniBG · Statistica Industriale Lez. 8 Test F per la...
Statistica Industriale Lez. 8
Test F per la significativita del modello
Per verificare la significativita dell’intero modello si utilizza il test F . Sivuole verificare l’ipotesi H0 : β1 = 0, . . . , βk = 0 contro l’alternativa chealmeno uno dei parametri sia diverso da zero. La devianza totale ammettesempre la scomposizione SST = SSE + SSR e sotto l’ipotesi che gli errorisiano N(0, σ2) vale che
SST =∑
(Yi − Y )2 ∼ σ2χ2n−1
SSE =∑
(Yi − Yi)2 ∼ σ2χ2
n−p
SSR =∑
(Yi − Yi)2 ∼ σ2χ2
p−1
La statistica
F =
∑(Yi − Y )2/(p − 1)∑(Yi − Yi)2/(n − p)
=SSR/(p − 1)
SSE/(n − p)
se e vera H0, si distribuisce come una F di Snedecor con p−1 e n− p g.d.l,e puo essere utilizzata per verificare la significativita del modello. Infattisi decide di rifiutare l’ipotesi nulla se F > c e per determinare c, fissato α
si pone P (F > c) = α. Quindi dalle tavole della distribuzione F si trova ilvalore cα tale per cui P (F > cα) = α.
1
Statistica Industriale Lez. 8
Test F per il modello ridotto
Supponiamo di avere il modello completo
Y = β0 + β1x1 + β2x2 + . . . + βkxk + ε
Vogliamo verificare l’ipotesi
H0 : β1 = β2 = . . . = βq = 0, q < k
Se fosse vare l’ipotesi H0 il modello sarebbe
Y = β0 + βq+11xq+1 + βq+21xq+2 + . . . + βkxk + ε
Denotiamo con SSRr e SSEr le somme dei quadrati spiegati e residui del
modello ridotto. La statistica
(SSR − SSRr)/q
SSE/(n − p)=
(SSEr − SSE)/q
SSE/(n − p)
sotto l’ipotesi nulla si distribuisce come una F con q e n−p gradi di liberta.
2
Statistica Industriale Lez. 8
Test F per l’aggiunta delle variabili nel modello
Si parte dal modello con nessuna variabile e si aggiungono le varibili ad unaad una. Il modello j-esimo e
Y = β0 + β1x1 + β2x2 + . . . + βjxj + ε, j = 1, . . . , p
Si vuole sapere come l’aggiunta delle variabili nel modello riesca a spiegarela variabilita totale della variabile da spiegare. Si calcola allora la SSR(1)per il modello con una sola variabile, la SSR(2) del modello con due va-riabili e cosı via. La differenza SSR(2)− SSR(1) ha il significato di quantavariabilita il secondo modello riesce a spiegare in piu rispetto al primo.
Si confrontano i due modelli successivi. Il test consiste nel verificare per ilmodello j-esimo l’ipotesi nulla.
H0 : βj = 0,
La statistica test
SSR(j)− SSR(j − 1)
SSE/(n − p)∼ F1,n−p, j = 2, . . . , p − 1
porta a rifiutare l’ipotesi nulla (e quindi l’aggiunta della variabile e signifi-cativa) per alti valori.
3
Statistica Industriale Lez. 8
Variabili indipendenti qualitative
Di solito le variabili nella regressione sono variabili continue.
In molte applicazioni si rende necessario l’introduzione di un fattore a due
o piu livelli.
Ad esempio: i dati provengono dalla produzione di tre macchine differenti,
oppure un’azienda si serve o meno di alcuni strumenti, oppure vi sono 5
operatori diversi.
Possiamo assegnare a queste variabili dei livelli in modo da poter appurare
se hanno un qualche effetto sulla variabile da spiegare.
Queste variabili si chiamano dummy. Sono variabili che assumono in gene-
re solo i valori (0,1) a seconda che il fattore di interesse abbia assunto una
delle sue modalita. Se il fattore ha solo due modalita basta una variabile
dummy, altrimenti per k modalita servono k − 1 dummy.
4
Statistica Industriale Lez. 8
Esempio: Il peso e l’eta di 13 tacchini consumati durante il Giorno
del Ringraziamento sono riportati nella seguente tabella, con la regione di
provenienza.
age weight county1 28.00 13.30 G2 20.00 8.90 G3 32.00 15.10 G4 22.00 10.40 G5 29.00 13.10 V6 27.00 12.40 V7 28.00 13.20 V8 26.00 11.80 V9 21.00 11.50 W
10 27.00 14.20 W11 29.00 15.40 W12 23.00 13.10 W13 25.00 13.80 W
5
Statistica Industriale Lez. 8
Il grafico seguente mostra il grafico a dispersione dei punti osservati:
20 22 24 26 28 30 32
910
1112
1314
15
Age
Wei
ght
●
●
●
●
● gruppo Ggruppo Vgruppo W
6
Statistica Industriale Lez. 8
Stimiamo i parametri della retta di regressione y = β0 + β1x + ε dove con
y indichiamo il peso e con x l’eta. La bonta di adattamento e R2 = 0.66,
la stima di s = 1.096.
Estimate Std. Error t value Pr(>|t|)(Intercept) 1.9833 2.3327 0.85 0.4133
age 0.4167 0.0892 4.67 0.0007
Come mostrano i grafici seguenti, i residui sembrano distribuirsi in ma-
niera casuale, ma se li rappresentiamo per i diversi valori della regione di
provenienza, si nota un particolare andamento patologico.
Si osserva quindi che la regione di provenienza sembra avere una qualche
influenza sul peso dei tacchini.
7
Statistica Industriale Lez. 8
●
●
●
●
●
●
●
●
●
●
●
●
●
20 22 24 26 28 30 32
910
1112
1314
15
I punti osservati e la retta stimata
Age
Wei
ght
●
●
●
●
●
●
●
●
●
●
●
●
●
11 12 13 14 15
−1.
5−
1.0
−0.
50.
00.
51.
01.
5
Grafico dei Residui vs. Valori stimati
Valori Stimati
Res
idui
●● ●●
● ● ●●
● ● ● ●●
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
1.0
1.5
2.0
2.5
3.0
Grafico dei residui vs la regione di provenienza
Residui
Reg
ione
Cerchiamo di inserire la variabile che indica il paese di provenienza nel
modello.
8
Statistica Industriale Lez. 8
Variabili indipendenti qualitative
Poiche il fattore assume tre valori introduciamo due variabili z1 e z2 ciascuna
delle quali assume solo i valori (0,1) in modo che il modello sia
Y = β0 + β1x1 + α1z1 + α2z2 + ε (1)
In pratica quando entrambe le dummy valgono zero si ha il modello di
riferimento, quando una delle due vale 1 si hanno gli altri due modelli da
confrontare con quello di riferimento:
Y = β0 + β1x1 + ε
Y = (β0 + α1) + β1x1 + ε
Y = (β0 + α2) + β1x1 + ε
Se si usassero tre variabili dummy la matrice X dei coefficienti del modello
(1) non avrebbe rango massimo perche una colonna sarebbe combinazione
delle altre. La matrice X per il modello (1) e riportata nella pagina seguente
insieme alla matrice di varianza e covarianza dei coefficienti stimati: Σ =
(X ′X)−1s2,
9
Statistica Industriale Lez. 8
x z1 z21 28 0 01 20 0 01 32 0 01 22 0 01 29 1 01 27 1 01 28 1 01 26 1 01 21 0 11 27 0 11 29 0 11 23 0 11 25 0 1
X ′X =
13 337 4 5337 8887 110 1254 110 4 05 125 0 5
Σ = (X ′X)−1s2 =
0.45 -0.02 0.01 -0.03-0.02 0.00 -0.00 0.000.01 -0.00 0.05 0.02-0.03 0.00 0.02 0.04
10
Statistica Industriale Lez. 8
I risultati della stima sono riassunti nella seguente tabella:
Estimate Std. Error t value Pr(>|t|)(Intercept) −0.4875 0.6734 −0.72 0.4875
age 0.4868 0.0257 18.91 0.0000countyV −0.2735 0.2184 −1.25 0.2421countyW 1.9184 0.2018 9.51 0.0000
I valori delle stime in corrispondenza delle righe denominate countyV e
countyW sono rispettivamente i valori di α1 e α2. Il modello stimato risulta
quindi:
y = −0.4875 + 0.4868x − 0.2735z1 + 1.9184z2
Ovvero:
y = −0.4875 + 0.4868x per G
y = −0.761 + 0.4868x per V
y = 1.4309 + 0.4868x per W
11
Statistica Industriale Lez. 8
Il valore di R2 = 0.9794 e notevolmente cresciuto, quindi la provenienza
ha un peso non indifferente nello spiegare y. Il significato dei parametri e
il seguente:
α1 stima la differenza della risposta tra il gruppo G di riferimento e il gruppo
V . Il test H0 : α1 = 0 ci porta a concludere che questa ipotesi e plausibile,
cioe tra i due gruppi la differenza non e significativa.
α2 stima la differenza della risposta tra il gruppo G di riferimento e il gruppo
W . Il test H0 : α2 = 0 ci porta a concludere che questa ipotesi va rigettata,
cioe tra i due gruppi la differenza e significativa.
La differenza tra i gruppi V e W e data da α1−α2 = −2.1919. La varianza
la otteniamo da
Var(α1−α2)=Var(α1)+Var(α2)−2Cov(α1, α2)= .048+.041−2·.022= .045
La statistica T vale t = −2.1919/(√
.0447) = −10.35 che porta a rifiutare
l’ipotesi nulla che i due paramentri siano uguali, e quindi a concludere che
la differenza nei due gruppi e significativa.
12
Statistica Industriale Lez. 8
Il grafico mostra le tre rette stimate
●
●
●
●
●
●
●
●
●
●
●
●
●
20 22 24 26 28 30 32
910
1112
1314
15
I punti osservati e le rette stimate
Age
Wei
ght
grupp Ggruppo Vgruppo W
13
Statistica Industriale Lez. 8
Se vogliamo verificare l’ipotesi nulla
H0 : α1 = α2 = 0
Utilizziamo ancora la statistica la statistica F . La tavola della varianza
Df Sum Sq Mean Sq F value Pr(>F)age 1 26.20 26.20 290.71 0.0000county 2 12.40 6.20 68.81 0.0000Residuals 9 0.81 0.09
In corrispondenza della colonna della somma dei quadrati, nella prima riga
abbiamo la devianza spiegata dal modello con solo la variabile age. Cioe
S2 = SSRr = 26.20 dove il modello ridotto e Y = β0 + β1x1 + ε. Nella
seconda riga abbiamo la differenza tra la devianza spiegata del modello
completo, Y = β0 + β1x1 + α1z1 + α2z2 + ε e quella del modello ridotto,
SSRc − SSRr = 12.40. Tanto piu questa differenza e grande, tanto piu il
modello completo e plausibile. Si verifica che la differenza S1 − S2 ∼ σ2χ22,
dove S2 = SSRc, ed e indipendente da s2. Quindi possiamo costruire il test
F
14
Statistica Industriale Lez. 8
La statistica F sotto l’ipotesi nulla si distribuisce come una F di Snedecor
con 2 e 9 gradi di liberta e il suo valore e
(SSRc − SSRr)/2
SSE/(13− 4)=
12.40/2
0.81/9= 68.81
In questo caso rifiutiamo l’ipotesi nulla. Possiamo concludere che la regione
di provenienza influenza il peso dei tacchini.
15
Statistica Industriale Lez. 8
Analisi della varianza per il confronto di piu medie
Pensiamo ad una variabile quantitativa il cui valore dipenda da variabili qua-litative. Ad esempio vogliamo analizzare una risposta quantitativa su unapopolazione che ha subito piu di due trattamenti: l’efficienza del motore diun’automobile quando sono stati utilizzati 5 differenti marchi di benzina.
Siano k il numero di trattamenti e µ1, µ2, . . . , µk la media nelle rispettivepopolazioni che hanno subito il trattamento 1,2, . . . , k.
Denotiamo con yij l’osservazione j-esima nell’i-esimo gruppo, i = 1, . . . , k,j = 1, . . . , ni,
∑ni = n. Possiamo decomporre l’osservazione come
yij = yi. + (yij − yi.)
Il termine (yij − yi.) e lo scostamento dell’osservazione dalla media del suogruppo.
Possiamo supporre il modello teorico
Yij = µi + εij, εij ∼ N(0, σ2) (2)
Uno stimatore per µi e yi. =1ni
∑nij=1 yij, (yij − yi.) risulta una stima di εij e
il valore previsto per yij da questo modello e yi..16
Statistica Industriale Lez. 8
Possiamo decomporre l’osservazione come
yij = y.. + (yi. − y..) + (yij − yi.)
Il termine (yi. − y..) e lo scostamento della media del gruppo dalla media
totale, mentre (yij − yi.) e lo scostamento dell’osservazione dalla media del
suo gruppo.
Il modello teorico risulta quindi
Yij = µ + αi + εij, εij ∼ N(0, σ2),k∑
i=1
αi = 0 (3)
In questo caso y.. = 1n
∑ki=1
∑nij=1 yij e la stima di µ mentre (yi. − y..) e la
stima di αi. Ora poiche
k∑i=1
ni(yi. − y..) = 0
si deduce che i parametri αi non sono univocamente determinabili, per cui
occorre porre il vincolo∑k
i=1 αi = 0.
17
Statistica Industriale Lez. 8
Il modello si puo vedere come un modello di regressione. Supponiamo di
avere k trattamenti. Allora possiamo riscrivere il modello (2) come
Y = Xα + ε
dove Y = (y11, . . . y1n1, y21, . . . y2n2
, . . . , yk1, . . . yknk)′, ε e l’analogo vettore
degli errori, α = (α1, α2, . . . , αk)′ e la matrice del disegno sperimentale e
X =
1 0 0 . . . 0... ... ... ... ...1 0 0 . . . 01 1 0 . . . 0... ... ... ... ...1 1 0 . . . 0... ... ... ... ...1 0 0 . . . 1... ... ... ... ...1 0 0 . . . 1
La matrice X ha dimensioni n = n1 + · · ·+ nk righe e k colonne.
18
Statistica Industriale Lez. 8
In questo caso il modello e
Y = β0 + α1z1 + α2z2 + . . . + αk−1zk−1 + ε
Le variabili z1, . . . , zk−1 sone le variabili dummy per identificare i k tratta-
menti. Il trattamento va visto come una variabile qualitativa con k fattori.
In questo caso le osservazioni dal k-esimo fattore costituiscono il gruppo
di riferimento, identificato con zi = 0 per ogni i. Quindi la stima di β0 sara
data dalla media di y calcolata sul k-esimo gruppo. Ciascun parametro αi
invece e la differenza tra la media nel gruppo i e la media nel gruppo k.
19
Statistica Industriale Lez. 8
Verificare l’ipotesi che le medie siano tutte uguali equivale a verificare
l’ipotesi
H0 : α1 = α2 = . . . = αk−1 = 0
Se indichiamo con SSRc la varianza spiegata dal modello completo, abbia-
mo che
SSRc ∼ σ2χ2k−1
e risulta essere indipendente da S2. Quindi la statistica
SSRc/(k − 1)
SSE/(n − k)
Si distribuisce come una F di snedecor con gradi di liberta k − 1 e n − k,
dove con SSE si e indicata la varianza residua del modello completo.
Tanto piu SSRc e grande rispetto a SSE tanto piu siamo portati a rifiutare
l’ipotesi nulla
20
Statistica Industriale Lez. 8
Esempio. Per studiare l’effetto che un tipo di cuscinetto ha sulla vibrazione
del motore, 5 diversi tipi di cuscinetti sono stati montati ciascuno su 6
motori. La quantita di vibrazione (misurata in micron) e stata registrata
per i 30 motori. I risultati sono riportati nella seguente tabella
Gruppo Media1 13.10 15.00 14.00 14.40 14.00 11.60 13.682 16.30 15.70 17.20 14.90 14.40 17.20 15.953 13.70 13.90 12.40 13.80 14.90 13.30 13.674 15.70 13.70 14.40 16.00 13.90 14.70 14.735 13.50 13.40 13.20 12.70 13.40 12.30 13.08
Si vuole capire se il tipo di cuscinetto ha qualche effetto sulla riduzione
della vibrazioni del motore.
Il grafico nella pagina seguente ci rappresenta le osservazioni nei 5 gruppi
21
Statistica Industriale Lez. 8
●
●
1 2 3 4 5
1213
1415
1617
Brand
vibr
atio
n
22
Statistica Industriale Lez. 8
Esaminiamo i coefficienti per il modello proposto per i dati dell’esempio.
Estimate Std. Error t value Pr(>|t|)(Intercept) 13.6833 0.3902 35.07 0.0000
Brand2 2.2667 0.5518 4.11 0.0004Brand3 −0.0167 0.5518 −0.03 0.9761Brand4 1.0500 0.5518 1.90 0.0686Brand5 −0.6000 0.5518 −1.09 0.2873
I coefficienti non vanno interpretati come nel modello lineare. In questi mo-
delli l’intercetta e la media del primo gruppo, mentre gli altri coefficienti
sono gli scostamenti della media degli altri gruppi dal primo. Per α = 0.05
dalla tavola deduciamo che solo la media del secondo gruppo e significati-
vamente diversa dalla media del primo gruppo. Per α = 0.1 risulta diversa
dalla media del primo gruppo anche la media del quarto gruppo.
23
Statistica Industriale Lez. 8
La tavola dell’analisi della varianza e
Df Sum Sq Mean Sq F value Pr(>F)Brand 4 30.86 7.71 8.44 0.0002Residuals 25 22.84 0.91
Nella prima colonna dopo la colonna dei gradi di liberta sono riportati ivalori SSRc e SSR.
Nella colonna successiva vi sono le somme dei quadrati divise per i rispettivigradi di liberta.
Il valore della statistica F e ottenuto come rapporto tra i due Mean Sq. Ilp-value pari a 0.0002 ci porta a rifiutare l’ipotesi nulla che le medie sianouguali nei 5 gruppi ad un livello di significativita α = 0.01.
Una volta che il test F ha mostrato che c’e una qualche differenza tra lemedie occorre andare a cercare dove si trova questa differenza. E necessarioconfrontare i gruppi tra loro.
Parte di questa informazione l’abbiamo gia vista e si trova nei coefficientidel modello e nella loro significativita rispetto al test t.
24
Statistica Industriale Lez. 8
La tavola dei coefficienti ci permette di confrontare la significativita solotra il gruppo di riferimento e gli altri. Per un confronto globale possiamoeffettuare il confronto per ogni coppia di gruppi. Ricordiamo che per veri-ficare se le medie di due popolazioni sono uguali si puo utilizzare il test t.Se x1, x2, s21 e s22 sono le medie e le varianze campionarie di due campionidi ampiezza n1 ed n2, si puo costruire un test t per verificare l’ipotesi nullaH0 : µ1 = µ2 contro le usuali alternative, basato sulla statistica
t =x1 − x2
s√
1n1
+ 1n2
dove s =
√√√√(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2
Poiche la statistica t si distribuisce come una t di Student con g = n1+n2−2d.f, il test di livello α corrisponde alle seguenti regole di decisione
quando H1 : µ1 6= µ2, Rifiutare H0 se |t| > tg1−α
2
quando H1 : µ1 > µ2, Rifiutare H0 se t > tg1−α
quando H1 : µ1 < µ2, Rifiutare H0 se t < tgα
25
Statistica Industriale Lez. 8
I valori del p-value per i test per il confronto delle medie dei gruppi a due
a due per i dati dell’esempio sono riportati nella tabella seguente.
1 2 3 42 0.00 – – –3 0.98 0.00 – –4 0.32 0.22 0.32 –5 0.86 0.00 0.86 0.04
Per α = 0.05 la media del gruppo 2 e significativamente diversa dalla media
dei gruppi 1,3,5. Per lo stesso livello risultano diverse anche le medie dei
gruppi 4 e 5.
In pratica sono stati calcolati k(k−1)/2 intervalli di confidenza per µi−µl e
sono state ritenute diverse le medie i cui intervalli non contengono lo zero.
Un metodo alternativo consiste nel controllo simultaneo di questi intervalli
ed e noto come Procedura di Tukey
26
Statistica Industriale Lez. 8
La Procedura di Tukey si basa sull’ utilizzo di una statistica detta Range
Studentizzato e la cui distribuzione e detta distribuzione di Tukey.
Supponiamo che ogni gruppo abbia la stessa numerosita n0, quindi n = kn0.
Sia s2 = MSE/n0. Allora il range Studentizzato e definito da
qk,n−k = max1≤i<l≤k
|yi. − yl.|s√n0
La distribuzione del Range Studentizzato si chiama ditribuzione di Tukey
ed e denotata con Qk,n−k e i valori dei quantili si trovano in apposite tavole
al variare dei parametri. L’intervallo di confidenza per la differenza µi − µl
e dato da
yi. − yl. − qα;k,n−ks
√n0
≤ µi − µl ≤ yi. − yl. − qα;k,n−ks
√n0
dove qα;k,n−k e tale che P (Qk.n−k ≤ qα;k,n−k) = 1− α.
27
Statistica Industriale Lez. 8
Il test di Tukey eseguito sulle 10 differenze da i seguenti risultati. Le
differenze sono prese dalla piu piccola alla piu grande e in modo che siano
sempre positive.
diff lwr upr3-5 0.58 -1.04 2.201-5 0.60 -1.02 2.224-5 1.65 0.03 3.272-5 2.87 1.25 4.491-3 0.02 -1.60 1.644-3 1.07 -0.55 2.692-3 2.28 0.66 3.904-1 1.05 -0.57 2.672-1 2.27 0.65 3.892-4 1.22 -0.40 2.84
Da questa tabella si deduce che i gruppi con medie significativamente
differenti sono quelli in cui l’intervallo di confidenza non contiene lo zero. In
questo caso abbiamo 4-5, 2-5, 2-3, 2-1. I risultati di questo test coincidono
a livello 0.05 con quelli ottenuti con i test t.
28