Variansanalyse
description
Transcript of Variansanalyse
Variansanalysepå
normalfordelte observationeraf
Jens Friis
Ensidig variansanalyse
Model enkelt normalfordelt observationsrækkeLad X1, X2, ……Xn er indbyrdes uafhængige N(μ, σ2) - fordelt stokastiske variable.Det tilhørende observationssæt kaldes x1, x2, ……xn
Estimater
Kvadratsumsopspaltning
n
xx
n
ii
1. 2 1
).( 2
2
n
xxs
i
SSD f
SSD1 n-1
SSD2 1
SSD n
n
i 1
2i )x.x(
2).( xn
n
i 1
2i )x(
Hypotesen H0 : μ = μ0
med H1 : μ ≠ μ0
ønskes testet.
Teststørrelsen bliver
ns
xt2
0.
Det ses, at er en stokastisk variabel, og derfor er t ikke
normalfordelt. Man kan vise, at er σ2χ2 - fordelt med f=n-1 frihedsgrader.Testoren t følger en såkaldt t-fordeling med f=n-1 frihedsgrader. t-fordelingenkonvergere mod N(0, 1) – fordelingen for n gående mod uendelig. t-fordelingenstæthedsfunktion er også symmetrisk om 0. Hypotesen accepteres hvis Tf
-1(α/2) ≤ t ≤ Tf-1(1-α/2) , hvor Tf er fordelingdfunk-
tionen svarende til t-fordelingen med f frihedsgrader.
1
.)XX(1
2
n
n
ii
n
i 1
2i .)XX(
Eksempel: Ved produktion af piller har man målt nicotamid-indholdet i 20 piller.Indholdet skal være 25mg. Ved stikprøven på 20 piller fik man følgende resultater:
22,67 23,29 23,40 23,56 23,76 23,83 23,95 24,21 24,50 24,64
24,87 25,05 25,35 25,73 25,79 25,80 26,11 26,97 25,36 27,11
Model : Xi N( μ, σ2) for i=1 til 20 er uafhængige stokastiske variable.
H0 : μ = 25 , H1 : μ ≠ 25Parametrene estimeres
= 24,797 ; s2 = 1,5187
Teststørrelsen bliver
.x
737,0
205187,1
25797,24
t
Da 2,5%’s fraktilen er -2,093 for 19 frihedsgrader, accepters hypotesen.
Anvendelse af SPSS til analysen:
Først undersøges om observationssættet kananses for normalfordelt. Man får et såkaldt Q-Q plots
Det accepteres at observationssættet er normalfordelt.
Herefter testes hypotesen : klik Analyze → Compare Means → One-Sample T test
Vælg Test Value til 25
Hypotesen accepteres
Simpel lineær regressionAntag at Yi for i = 1 til k er uafhængige N(μi, σ2) -fordelte således at
).( xxii
Man kan vise at estimaterne for parametrene er
)(
))((ˆ ; ˆ
1.
1..
.
k
ii
k
iii
xx
xxyyy
2
1..
22 ))(ˆ(2
1ˆ
k
iii xxyy
ks
Man kan også vise, at estimatoren for β er - fordelt.))(
,(N
1
2.
2
k
ii xx
Man kan derfor teste hypotesen H0 : β = β0 med teststørrelsen
k
ii xx
st
1
2.
20
)(
ˆ som er t-fordelt med k-2 frihedsgrader under H0 .
Hvis β0 = 0 tester man uafhængighed af x og y værdierne.
Bemærk at skæring med y-aksen er xy
Kvadratsumsopspaltning :
SSD f
Omkring linje
SSD1 n-2
linje SSD2 1
total SSD n-1
n
ii yy
1
2).(
n
iii xxyy
1
2))(ˆ(
n
ii xx
1
22 )(
Som test for H0 : β = 0 an også anvendes som er F(1,n-2) fordelt. )2/(SSD1/SSD
1
2
n
Eksempel : Man for 28 patienter målt kreatininindholdet i blodet før og efterdødens indtræden. Er der en sammenhæng? Dataene kan ses i en excelfil.Der er en pæn lineær sammenhæng og parametrene estimeres.
28
1
2.x
22 4285,1)(SSD ; 01200,0ˆ ; 012,1ˆ ; 024,1ˆi
i xxsy
Man vil gerne teste hypotesen H0 : β = 1
131,0
4285,101200,0
000,1012,1
t
som er t-fordelt med 26 frihedsgrader. Da 97,5%’s fraktilen er 2,056accepteres hypotesen.
Dataene er analyseret vha. SPSS : kreatinin.sav
Analyse vha. SPSS
Først undersøges det om der er en lineær sammenhæng:
Dette accepteres.
Parametrene estimeres: Klik Analyze →Regrssion→Linear
s2
Skæring med y-aksen og Spredningen på
Testet for H0 : β = 1 bliver , som det blev vist tidligere. 131.0092.0
1012.1
t
Yderligere modelkontrol :Man bør undersøge residuerne, dvs. afvigelserne fra modellenKlik Analyze→Regression→Linear→Save og flueben som vist
Optegn de forventede mod de observerede y-værdier mod hinandenog nogle passende plots af residuerne.
Model flere normalfordelte observationsrækkerLad Xij , i=1,2…k, j=1,2…ni være indbyrdes uafhængige N(μi, σ2) - fordelt stokastiske variable.Det tilhørende observationssæt kaldes xij , i=1,2…k, j=1,2…ni, og lad
Estimater
ii
n
jij
i n
xx
i
1.
k
iinn
1
2
1 1
20 ).(1ˆ
k
i
n
jiij
i
xxkn
s
Modelkontrol Det forudsættes at for hver i er observationsrækken normalfordelt, ogat der er tale om varianshomogenitet for de k observationsrækker dvs.for
, i=1,2….k
Man kan benytte et Barletts test eller et Levene test ( er tilgængeligt i SPSS).
1
.)(ˆ 1
2
22
i
n
jiij
ii n
xxs
i
Kvadratsumsopspaltning :
Følgende hypotese ønskes testet:
H0 : μi = μ , i = 1,2…k (samme middelværdi i de k observationsrækker)
SSD f
Inden for grupper
SSD0 n-k
Mellemgrupper
SSD1 k-1
Total SSD n-1
2
1 1
).(
k
i
n
jiij
i
xx
2
1
..).( xxnk
iii
2
1 1
)..(
k
i
n
jij
i
xx
Teststørrelsen for H0 er , som er F(k-1,n-k) fordelt .Store værdier er kritiske.Hvis H0 accepteres er estimaterne følgende:
)/(SSD)1/(SSD
0
1
knk
k
i
n
jij
i
xn
x1 1
1..2
1 1
22 )..(1
1ˆ
k
i
n
jij
i
xxn
s
Eksempel To titreringsmetoder anvendes. Det ønskes undersøgt om de giver samme resultat: T1 T2
76,35 76,2376,33 76,3076,45 76,3376,40 76,3376,68 76,2876,33 76,4576,40 76,3876,28 76,4376,58 76,4576,65 76,6076,40 76,4077,03 76,8076,90 76,9574,83 74,8875,28 75,25
Det skal først undersøges om de to observationsrækker kananses for normalfordelte, og i bekræftende fald om der ervarianshomogenitet. Dataene organiseres som liste i SPSS: nr. Tnr
1 76,351 76,331 76,451 76,40 osv.
Antag at dataene er normalfordelte.Klik Analyze → Compare Means → One-way Anova :
Man får
Da teststørrelsen er 0,014 ogden er F(1, 28) fordelt acceptershypotesen om varianshomogenitet.
SSD1
SSD0
SSD
s02
s12
Test-størrelsen. H0 accepters( ingen forskel på de to titrerings-metoder).
Tosidig variansanalyse
Model : ~ i= 1,2….r ; j=1,2….s ; k=1,2….t ; n=rst ijkX ),N( 2ij
I første omgang skal man undersøge om der er varianshomogenitet i de rsobservationsrækker. Denne hypotese kaldes H0 (arbejdshypotese).
Derefter er der flere hypoteser, som man kan opstille.
H1 : . Dvs. en rækkeeffekt plus en søjleeffekt.
H2 : Dvs. ingen rækkeeffekt.
H2* : Dvs. ingen søjleeffekt.
H3 : Dvs. samme fordeling i de rs observations- rækker (fuldstændig homogenitet).
Der er valgt en normering således at og .
jiij
0i
0j
ij
r
ii
1
0 01
s
jj
Man kan vise, at estimaterne for middelværdiparametrene under H1 er :
r
i
s
j
t
kijkxrst
x1 1 1
1...
...1.....ˆ1 1
xxst
xxs
j
t
kijkii
r
i
t
kijkjj xx
rtxx
1 1
...1.....
Under H0 er estimatet for σ2 : SSD0/f0 ( se næste side)
Under H1 er estimatet for σ2 : (SSD0+SSD1)/(f0+f1 )
Kvadratsumsopspaltning:
SSD f
Inden for grupper
SSD0 f0=rs(t-1)
Vekselvirkning SSD1 f1=(r-1)(t-1)
Rækkevirkning SSD2 f2=r-1
Søjlevirkning SSD2* f2*=t-1
Total SSD f=rst-1
r
i
s
j
t
kijk xx
1 1 1
2...)(
s
jj xxrt
1
2...)..(
r
ii xxst
1
2...)..(
r
i
s
jjiij xxxxt
1 1
2...).....(
r
i
s
j
t
kijijk xx
1 1 1
2.)(
Test:H1 : aditivitet
som er fordelt.
H2 : ingen rækkevirkning
som er fordelt.
H3 : fuldstændig homogenitet (heller ingen søjlevirkning )
som er fordelt.
Man kan også vælge at teste for ingen søjlevirkning først. Der skal så byttes rundtpå SSD2 og SSD2* og deres frihedsgrader i de to test. Hver gang man har accep-teret en hypotese, er ændres estimatet for variansen. Hvis fx H2 accepteres er Estimatet for variansen (SSD0+SSD1+SSD2)/(f0+f1+f2)
00
11
/SSD/SSDffF ),( 21 ffF
)/()SSD(SSD/SSD
1010
22
fffF
),( 102 fffF
)/()SSDSSD(SSD*/*SSD
210210
22
ffffF
)*,( 2102 ffffF
Eks. Man har testet et byggemateriale for vandgennemtrængning, målt i sekunder.Man har derpå taget logaritmen til tiden.Byggematerialet blev produceret på 3 forskellige maskiner 9 forskellige dage med 3 målinger pr. dag: Først skal man lave en modelkontrol. Da der kun er tre observationer pr. dag , er det ikke muligt at lave en fornuftig kontrol af, om der er tale om normalfordelte observationer pr. maskine x dag. Derimod kan man estimer variansen pr. maskine x dag, og teste om der er varianshomogenitet. Dette gøres med enten et Bartletts test eller Levene. I SPSS er det muligt, at foretage et Levene test. For at benytte SPSS skal dataene organiseres som en lang liste : dag maskine måling
dag maskine1 maskine2 maskine31 1,404 1,306 1,932
1,346 1,628 1,674 1,618 1,410 1,399
2 1,447 1,241 1,426 1,569 1,185 1,768 1,820 1,516 1,859
3 1,914 1,506 1,382 1,477 1,575 1,690 1,894 1,649 1,361
4 1,887 1,673 1,721 1,485 1,372 1,528 1,392 1,114 1,371
5 1,772 1,227 1,320 1,728 1,397 1,489 1,545 1,531 1,336
6 1,665 1,404 1,633 1,539 1,452 1,612 1,680 1,627 1,359
7 1,918 1,229 1,328 1,931 1,508 1,802 2,129 1,436 1,385
8 1,845 1,583 1,689 1,790 1,627 2,248 2,042 1,282 1,795
9 1,540 1,636 1,703 1,428 1,067 1,370 1,704 1,384 1,839
1 1 1,4041 1 1,3461 1 1,6181 2 1,3061 2 1,6281 2 1,4101 3 1,9321 3 1,6741 3 1,3992 1 1,447 osv.
Dette kan gøres samtidigt med den tosidige variansanalyse i SPSS:Klik Analyze → Generel Linear Model → Univariate og udfyld som vist.
Teststørrelsen er F(26,54) fordelt. Testet er dobbeltsidigt og ikke signifikant her.
Grafisk modelkontrol for additivitet : Der afsættes punkternesom skal ligge omkring en ret linje med hældningskoefficienten 1.
sjxxrixx ijjiji ..1,.).,.( og ..1,.)..,(
Herefter selve variansanalysen:Her er r=9 , s=3(antal maskiner) og t=3
SSD0
SSD1
SSD
Test for H1 accept.
SSD2
Er test for H2,
men s22/so
2
Tosidig variansanalyse med forskelligt antal observationer pr. celle
Model : ~ i= 1,2….r ; j=1,2….s ; k=1,2….nij ; n= ijkX ),N( 2ij
Alt er stort set som før. Man får følgende kvadratsumopspaltning.
r
i
s
jijn
1 1
SSD f
Inden for grupper
SSD0 f0=n-rs
Vekselvirkning SSD1 f1=(r-1)(t-1)
Rækkevirkning SSD2 f2=r-1
Søjlevirkning SSD2* f2*=t-1
Total SSD f=n-1
r
i
s
j
t
kijk xx
1 1 1
2...)(
s
jjj xxn
1
2...)..(.
r
iii xxn
1
2...)...(
r
i
s
jjiijij xxxxn
1 1
2...).....(
r
i
s
jijijk
n
k
xxij
1 1
2
1
.)(
Lineær regression med flere observationer pr. xAntag at Yij for i = 1 til k , j=1 til ni er uafhængige N(μij, σ2) -fordelte således at
iiji njkixx ..2,1,..2,1,)( .
Man kan vise at estimaterne for parametrene er
2
1
1 1.
).(
.)(ˆ ; ˆ
k
iii
k
iiij
n
j
xxn
xxyy
i
Man kan også vise, at estimatoren for β er - fordelt.))(
,(N
1
2.
2
n
iii xxn
Man kan derfor teste hypotesen H2 : β = β0 med teststørrelsen
k
iii xxn
st
1
2.
201
0
)(
ˆ
som er t-fordelt med f0+1 frihedsgrader under H0 .
Hvis β0 = 0 tester man uafhængighed af x og y værdierne. Vedr. s012 se følgende.
Bemærk igen at skæring med y-aksen er xy
Bemærk at
k
iiixnn
x1
1.
k
iinn
1
Kvadratsumsopspaltning :
SSD f
Inden for grupper
SSD0 f0=n-k
Omkring linjen
SSD1 f1=k-2
Regressions-linjen
SSD2 f2=1
Total SSD f=n-1
2
1 1
).(
k
i
n
jiij
i
yy
2
1
.))(ˆ...( xxyyn i
k
iii
2
1
2 ).(ˆ
k
iii xxn
2
1 1
)..(
k
i
n
jij
i
yy
Testet for H1 : lineær regression er som er F(k-2,n-k) fordelt.
Bemærk, at hvis H1 accepteres er estimatet for variansen s012=(SSD0+SSD1)/(f0+f1)
Testet for H2: β = 0 fuldstændig homogenitet ersom er F(1, n-2) fordelt.
)/(SSD)2/(SSD
0
1
knk
Modelkontrol:Det skal undersøges, at for hvert k kan observarionsrækken yij, j=1,2..ni
anses for normalfordelt
)2/()SSD(SSD1/SSD
10
2
n
Eksempel: Nedenstående tabel viser logaritmen til trækstyrken (kg/cm2) og den reciprokke hærdningstid ( dage) for nogle cementstykker: dage måling nr. Træk.styrke log reciprok dag
1 1 13,00 1,114 1,0001 2 13,30 1,124 1,0001 3 11,80 1,072 1,0002 1 21,90 1,340 0,5002 2 24,50 1,389 0,5002 3 24,70 1,393 0,5003 1 29,80 1,474 0,3333 2 28,00 1,447 0,3333 3 24,10 1,382 0,3333 4 24,20 1,384 0,3333 5 26,20 1,418 0,3337 1 32,40 1,511 0,1437 2 30,40 1,483 0,1437 3 34,50 1,538 0,1437 4 33,10 1,520 0,1437 5 35,70 1,553 0,14328 1 41,80 1,621 0,03628 2 42,60 1,629 0,03628 3 40,30 1,605 0,03628 4 35,70 1,553 0,03628 5 37,30 1,572 0,036
Først en grafisk undersøgelse:
Som det ses er der tale om en pæn lineærSammenhæng.Lad yij betegne log(trækstyrke) og xi denreciprokke hærdningstid. n = 21, k = 5 0
Klik Analyze → Compare Means → One-Way Anova →
SSD0
Herefter skal der foretages en lineær regression.
Tast Analyze → Regression → Linear og man får
Accept af varianshomogenitet.
SSD0+SSD1
Test for linearitet 16,116/016808,0
3/)016808,0020466,0(/fSSD/fSSD
00
11
F som accepteres.
Skæring med y-aksen
Videregående regressionsanalyse :Model:
Antag at Yi for i = 1 til k er uafhængige N(μi, σ2) -fordelte således at
p
jjiji x
1
,hvor xij’erne er kendte værdier og βj’erne ukendte parametre.
Dette kan formuleres med matricer:
Xβ
pkpkk
p
p
k xxx
xxxxxx
.
.
............
..
..
.
.2
1
21
22221
11211
2
1
Og lad være et underrum. Estimaterne bliver pk RRL βXβ :1
yX'XX'β 1)(ˆ 1
22
dim
ˆˆ
Lns
βXy
og lad
ky
yy
.
.2
1
y betegne observationerne.
Ofte sættes første søjle i X til 1-taller således, at β1 er det generelle niveau.
Eksempel : Indianere i PeruÆndringer i menneskers livsbetingelser kan give sig udslag i fysiologiske ændringer,eksempelvis i ændret blodtryk.En gruppe antropologer undersøgte hvordan blodtrykket ændrer sig hos peruvianskeindianere der flyttes fra deres oprindelige primitive samfund i de høje Andesbjerge til densåkaldte civilisation, dvs. storbyen, der i øvrigt ligger i langt mindre højde over havetsoverflade end deres oprindelig bopæl (Davin (1975), her citeret e er Ryan et al. (1976)).Antropologerne udvalgte en stikprøve på 39 mænd over 21 år der havde undergået ensådan flytning. På hver af disse måltes blodtrykket (det systoliske og det diastoliske) samten række baggrundsvariable, heriblandt alder, antal år siden flytningen, højde, vægt ogpuls. Desuden har man udregnet endnu en baggrundsvariabel, nemlig »brøkdel af livetlevet i de nye omgivelser«, dvs. antal år siden flytning divideret med nuværende alder.Man forestillede sig at denne baggrundsvariabel kunne have stor »forklaringsevne«.
Her vil vi ikke se på hele talmaterialet, men kun på blodtrykket (det systoliske) derskal optræde som y-variabel, og på de to x-variable brøkdel af livet i de nye omgivelser ogvægt. Disse er angivet i tabel 11.8 (fra Ryan et al. (1976)).1. Antropologerne mente at x2, brøkdel levet i de nye omgivelser, var et godt mål forhvor længe personerne havde levet i de civiliserede omgivelser, og at det derformåtte være interessant at se om x2 kunne forklare variationen i blodtrykket y. Førsteskridt kunne derfor være at estimere en simpel lineær regressionsmodel med x2som forklarende variabel. Gør det!2. Hvis man i et koordinatsystem afsætter y mod x2, viser det sig imidlertid at det faktiskikke virker særlig rimeligt at hævde at (middelværdien af) y afhænger lineærtaf x2. Derfor må man give sig til at overveje om andre af de målte baggrundsvariablemed fordel kan inddrages.Nu ved man at en persons vægt har betydning for den pågældendes blodtryk,så næste modelforslag kunne være en multipel regressionsmodel med både x2 ogx3 som forklarende variable.I SPSS indtastes dataene således: (hvis man ikke havde 1-tallene vil SPSS give det samme)
y x1 x2 x3170 1 0,048 71,0120 1 0,273 56,5125 1 0,208 56,0148 1 0,042 61,0140 1 0,040 65,0 Osv.
Tast Analyze → Regression → Linear
Eksempel : Indianerne i Peru ( se opgaveark)
s2
erene' test for lig 0
Alle test for βi = 0 er signifikante.
Modelkontrol : Der laves først simple grafer over sammenhæng mellem y’erneog x2’erne og derpå x3’erne. Der er ikke overbevisende lineær sammenhæng.Parametrene i den multiple regression estimeres og de forventede værdier ogresiduerene beregnes :klik yderligere på Save og sæt flueben somvist.
Sammenhænget mellemforventet og observeret er ikke overbevisende men acceptabelt.
Residuerene undersøges:
Det accepteres, atresiduerne kan ansesfor normalfordelte,men det er ikke flot.