Kvantitativa metoder, - vasa.abo.fi · Tolka korrelationskoefficienterna mellan populationsstorlek,...
-
Upload
trinhxuyen -
Category
Documents
-
view
220 -
download
5
Transcript of Kvantitativa metoder, - vasa.abo.fi · Tolka korrelationskoefficienterna mellan populationsstorlek,...
1
Kvantitativa metoder, Forskarutbildningen, PF, ÅA
Del 2, 20-21/9/2011
Lars Malmberg,Department of Education,
University of [email protected]
2
Program* Sambandsanalys: χ2 och korrelation* Regressionsanalys: bivariat och multipel regression (beroende variabeln är kontinuerlig)* Effektstorlek (log-odds) och logistisk regression (beroende variabeln är nominalskala)
Litteratur, t.ex.:Tabachnick, B. G., & Fidell, L. S. (2001). Using multivariate
statistics (4th Edit.). Boston: Allyn and Bacon.Miles, J., & Shevlin, M. (2001). Applying regression and correlation. A
guide to students and researchers. London: Sage.
3
Korrelation* Standardiserat mått på samband, association, eller gemensam varians (inte kausalitet!)
Positiv Negativ Neutral( +1) ( -1) (≈ 0)
* ** * ** *
* ** * ** *
* ** * *
* *
* ** * *
* *
* * * * ** * * * * * * * * *
* * * * ** * * * * * * * * *
X X X
Y Y Y
4
Välj koefficientINT/KVOT x
NOM x NOM ORD x ORD INT/KVOT
x y x y x y
χ2-koefficient Spearmans Pearsons φ (phi)-koefficient rang korrelations- produktmoment
koefficient korrelations-koefficient
5
Korrelationskoefficienter har
* Riktning (positiv, neutral, negativ)* Styrka (ingen, svag, moderat, stark)* Signifikans (testa ifall olik noll?)
r = -1 -.8 -.5 -.3 -.1 0 .1 .3 .5 .8 1
perfekt stark moderat svag ingen svag moderat stark perfekt
Kvant Met del 2 6
Samband mellan moders ålder vid avslutad skolgång och barnets födelsevikt (BCS70)
Mother's age when completed education
302010
Wei
ght a
t birt
h in
gra
ms
6000
5000
4000
3000
2000
1000
0
Kvant Met del 2 7
Samband mellan läskunnighet (% av befolkningen) och barndödlighet (döda per 1000 födda)(FNs
demografiska årsbok 1995; n = 107 länder)
People who read (%)
120100806040200
Infa
nt m
orta
lity
(dea
ths
per 1
000
live
birth
s)
200
100
0
-100
Kvant Met del 2 8
Analyze correlate bivariate...
Kvant Met del 2 9
Correlations
1 .621**. .000
488 468.621** 1.000 .468 473
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
Father's age whencompleted education
Mother's age whencompleted education
Father's agewhen
completededucation
Mother'sage whencompletededucation
Correlation is significant at the 0.01 level (2-tailed).**.
Correlations
1.000 .484**. .000
488 468.484** 1.000.000 .468 473
Correlation CoeffSig. (2-tailed)NCorrelation CoeffSig. (2-tailed)N
Father's age whecompleted educa
Mother's age whcompleted educa
Spearman's r
Father's agewhen
completededucation
Mother'sage whencompletededucation
Correlation is significant at the .01 level (2-tailed).**. Kvant Met del 2 10
Uppgift 1. Tolka korrelationskoefficienterna mellan populationsstorlek, grad av urbanisering, läskunnighet (% av befolkningen) och barndödlighet (döda per 1000 födda). Beskriv sambanden på enkel svenska.
Correlations
1 -.138 -.050 .109. .155 .610 .260
109 108 107 109-.138 1 .650** -.718**.155 . .000 .000108 108 107 108
-.050 .650** 1 -.900**.610 .000 . .000
107 107 107 107
.109 -.718** -.900** 1
.260 .000 .000 .109 108 107 109
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
Pearson CorrelationSig. (2-tailed)N
LOG_POP Log (base10) of Population
URBAN People livingin cities (%)
LITERACY Peoplewho read (%)
BABYMORT Infantmortality (deaths per1000 live births)
LOG_POP Log (base 10)of Population
URBAN People livingin cities (%)
LITERACY People who
read (%)
BABYMORT Infant
mortality(deaths per1000 live
births)
Correlation is significant at the 0.01 level (2-tailed).**.
11
Uppgift 2. Nurmi och Pulliainen (1990) undersökte ifall det fanns samband mellan optimism och ungdomars perception av föräldrastil (diskussion, kontroll), intelligens och självskattning, hos 11 och 15 åringar. Hur tolkar du konstellationerna av korrelationskoefficienter hos 11 och 15 åringarna?
Optimism____ 11 år 15 år
Familje diskussion .05 .41 ***Föraldrakontroll -.45 *** .09IQ .05 .30 *Självskattning .04 .21
* = p<.05, ** p<.01, *** = p<.001
12
Korrelation Partiell korrelation”mellan x och y” ”kontrollerande för z”
x y x y
zz
13
Kan sambandet vara relaterat till en ”extern” variabel? Vad händer om vi ”kontrollerar” för denna ”externa”variabel?
Kontrollerande förBNP/kapita
1. 2. 3. 1. 2. 3.1. Populationsstorlek2. Urbanisering -.14 .003. Läskunnighet -.05 .65 .16 .184. Barndödlighet .11 -.72 -.90 -.12 -.25 -.77
14
Korrelation and medeltal
* ** * ** *
* ** * ** *
* ** * ** *
* ** * ** *
rxy = .75 rxy = .75x = 1.25 x = 1.25y = 1.25 y = 2.25
Sambandsanalys med nominalskalevariabler
* χ2-test (2 x 2) och kontingenstabellanalys (större matris än 2 x 2)* The χ2-test of non-independence (K. Pearson)
Undersök sambandet mellan två dikotoma variablerx = kön (0 = pojke, 1 = flicka)y = rökning (0 = nej, röker inte, 1 = ja, röker)
H0 ”det finns inte fler rökare än förväntat bland antingen pojkar eller flickor” H1 ”det finns fler rökare än förväntat bland antingen pojkar eller flickor”
H0
H1
gender * smoking Crosstabulation
Count
30 20 5020 30 5050 50 100
0 boy1 girl
gender
Total
0 no 1 yessmoking
Total
χ2 – ekvation
( )
1)1)(k(rdfsumma total
summa)kolumn (summa) rad(E
frekvens förväntad Efrekvens observed O
kolumn k rad r
där,
i
i
i
1
22
−−=
=
====
−= ∑
=
rk
i i
ii
EEO
χ
Observede och (matematiskt) förväntade värden
Antagande: det finns inte färre än 5 förväntade observationer per cell
observed valuescol 1 col 2 row total
row 1 a b a+brow 2 c d c+dcolumn total a+c b+d a+b+c+d
expected valuescol 1 col 2
row 1( (a+b) x (a+c) )
/ (a+b+c+d)( (a+b) x (b+d) ) /
(a+b+c+d)
row 2( (c+d) x (a+c) ) /
(a+b+c+d)( (c+d) x (b+d) ) /
(a+b+c+d)
”chi-square for 2 x 2 table” i ”calculator.xls”
This spread sheet calculates the chi-square value for a 2 x 2 contingency table and transforms it into a phi coefficient
Variable A (observed minus expected frequencies)2no yes no yes
Variable B no 30 20 50 no 25 25yes 20 30 50 yes 25 25
50 50 100
expected frequencies (observed minus expected frequencies)2 / expected frequenciesno yes no yes
no 25 25 no 1 1yes 25 25 yes 1 1
observed minus expected frequencies CHISQ 4 <-- the chi-square valueno yes CHIDIST 0.0455 <-- level of significance
no 5 -5yes -5 5 φ-coefficient (for 2 x 2 contigency table)
divide χ2 by sample size and draw the square root χ2 / n 0.04SQRT(χ2/n) 0.2000in manual calculation only posivite coefficients are givenspss gives the same sign as the Pearson coefficient
20
Analyze Descriptive statistics Crosstabs
Chi-Square Tests
4.000b 1 .0463.240 1 .0724.027 1 .045
.071 .036
3.960 1 .047
100
Pearson Chi-SquareContinuity Correctiona
Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases
Value dfAsymp. Sig.
(2-sided)Exact Sig.(2-sided)
Exact Sig.(1-sided)
Computed only for a 2x2 tablea.
0 cells (.0%) have expected count less than 5. The minimum expected count is 25.00.
b.
Förkasta H0
Kön är relaterat till rökning
H0
H1
χ2 = 4.00
gränsvärden χ2
p = .05 3.841 p = .01 6.635 p = .001 10.828
se även: ChiSquare_table.jpg
Gå tillbaks till deskriptiva värden och observera residualer (i vilken cell finns det fler och i vilken cell finns det färre observationer än förväntat?)
gender * smoking Crosstabulation
30 20 5025.0 25.0 50.05.0 -5.020 30 50
25.0 25.0 50.0-5.0 5.0
50 50 10050.0 50.0 100.0
CountExpected CountResidualCountExpected CountResidualCountExpected Count
0 boy
1 girl
gender
Total
0 no 1 yessmoking
Total
Residual = observerad minus
förväntadfrekvens
Färre flickor än förväntat bland
icke-rökarna
Fler flickor än förväntat bland
rökarna
Regressionsanalys
* Prediktion* Sir Francis Galton (1822-1911) ”reversion” och ”regression till medeltalet” / ”regression to the mean”* Karl Pearson (1857-1936) ”produktmomentkorrelations-koefficienten”* Charles Spearman (1864-1945), Louis L. Thurstone (1887-1955) och andra: ”faktor analys”* R. A. Fisher (1890-1962) ”statistisk signifikans”
Kvant Met del 2 24
Kvant Met del 2 25 26
Antaganden / förutsättningar* y är approximativt normalt fördelad
* y är normalt fördelade vid varje x-skalsteg
* x är antingen approximativt normalt fördelad eller dikotom (0,1)
* ifall x är en nominalskalevariabel med tre eller fler skalsteg, skall denna variabel dummy-kodas (antalet skalsteg minus en dummy-variabler)
* x variablerna är inte kolineära
* observationerna är oberoende av varandra
* residualer är approximativt normalt fördelade
* Tekniker Ordinary Least Square / Maximum LikelihoodGeneral Linear Models (GLM)
Logistisk regression
27
Bivariat regression Multipel regression
x y x1 x2 x3 .... xk y
y` = a + bx (+ e) y` = a + b1x1 + b2x2 ... + bkxk + e
y` = α + βx (+ ε) y` = α + β1x1 + β2x2 ... + βkxk + ε
Y = A + BX Y` = A + B1X1 + B2X2 + BkXk
Regressionskoefficient ”b” ”β” (”betan”)Multipel korrelationskoefficient ”R” och andel förklarad varians R2
28
* ** * ** *
* ** * ** *
Korrelation and regression* Minsta kvadrat metoden (det kvadratiska avstandet mellan observationer
och regressionslinjen minimeras)
x (oberoende)
y (b
eroe
nde)
29
Korrelation and regression* Minsta kvadrat metoden (det kvadratiska avstandet mellan observationer
och regressionslinjen minimeras)
a
a = intercept b = lutningskoefficienty` = a + bx
b* ** * ** *
* ** * ** *
x
y
30
Exempel Hur predicerar förtestprestation slutprestation? (regression.sav; regression.xls i calculators.xls)
01
2345
678
910
0 2 4 6 8 10
pretest
exam
y` = 1.54 + .80(förtest)
student pretest (x) exam (y) 1 1 32 2 23 3 44 4 55 5 66 6 57 7 98 8 7
Σ 36 41M 4.5 5.125
rxy 0.875
31
Predicerade (rosa) och observerade värden (blå)
0123456789
10
0 2 4 6 8 10
pretest
exam
32
Exampel Hur predicerar förtestprestation slutprestation?
33
Statistics Save
34
Utskrifter..... Descriptive Statistics
5.13 2.232 84.50 2.449 8
exampretest
Mean Std. Deviation N
Correlations
1.000 .875.875 1.000
. .002.002 .
8 88 8
exampretestexampretestexampretest
Pearson Correlation
Sig. (1-tailed)
N
exam pretest
Model Summaryb
.875a .766 .727 1.166Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), pretesta.
Dependent Variable: examb.
35
Utskrifter..... (2)
ANOVAb
26.720 1 26.720 19.660 .004a
8.155 6 1.35934.875 7
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), pretesta.
Dependent Variable: examb.
H0: r2 = 0, H1 : r2 > 0
Coefficientsa
1.536 .908 1.691 .142.798 .180 .875 4.434 .004
(Constant)pretest
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: exama.
y` = 1.54 + .80(förtest)36
regression.xlsSST SSR SSM
student pretest (x) exam (y) x2 xy (y - Y) (y - Y)2 y` (y - y`) (y - y´)2 (y` - Y) (y` - Y)2
1 1 3 1 3 -2.125 4.516 2.333 0.667 0.444 -2.792 7.7932 2 2 4 4 -3.125 9.766 3.131 -1.131 1.279 -1.994 3.9763 3 4 9 12 -1.125 1.266 3.929 0.071 0.005 -1.196 1.4314 4 5 16 20 -0.125 0.016 4.726 0.274 0.075 -0.399 0.1595 5 6 25 30 0.875 0.766 5.524 0.476 0.227 0.399 0.1596 6 5 36 30 -0.125 0.016 6.321 -1.321 1.746 1.196 1.4317 7 9 49 63 3.875 15.016 7.119 1.881 3.538 1.994 3.9768 8 7 64 56 1.875 3.516 7.917 -0.917 0.840 2.792 7.793
Σ 36 41 204 218 0.000 34.875 41.000 0.000 8.155 0.000 26.720M 4.5 5.125
rxy 0.875
n (Σxy) 1744(Σx)(Σy) 1476(n (Σxy)) - 268
n(Σx2) 1632(Σx)2 1296(n(Σx2)) - ( 336
b= 0.798
a=(y-bx) 1.536
37
Totalkvadratsummor (SST) Residualkvadratsummor (SSR)
01
2345
678
910
0 2 4 6 8 10
pretest
exam
01
2345
678
910
0 2 4 6 8 10
pretest
exam
SST = Skillnader mellan observerade
och predicerade värden av y
SSR = Skillnader mellan observerade
värden och regressionslinjen
38
Modellkvadratsummor (SSM)
ANOVA table SS df Mean SS F SigRegression (SSM) 26.720 1 26.720 19.660 0.004404Residual (SSR) 8.155 6 1.359Total (SST) 34.875 7
R2 = SSM / SST = 0.766
01
2345
678
910
0 2 4 6 8 10
pretest
exam
SSM = Skillnader mellan medelvärdet avy och regressionslinjen
39
Nya variabler i datamatrisen (predicerade värden och residualer) ..
Student 1: 3 – 2.33 = .67
Student 6: 5 – 6.32 = -1.32
Student 1
Student 6
40
Forskningfråga Kan vi predicera matematikprestation med faders SES? Analyze regression linear
41Working class Managerial class 42
Correlations
1.000 .317
.317 1.000
. .000
.000 .
647 647
647 647
b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0
Pearson Correlation
Sig. (1-tailed)
N
b10_math British AbilityScale (BAS)
72 items
b0_fses Father'sSES at 0
Descriptive Statistics
44.65 11.939 647
3.27 1.128 647
b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0
Mean Std. Deviation N
.... deskriptiv information
43
utskrifter..... Model Summaryb
.317a .101 .099 11.332Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), b0_fses Father's SES at 0a.
Dependent Variable: b10_math British Ability Scale(BAS) 72 items
b.
Coefficientsa
33.692 1.365 24.677 .000
3.355 .395 .317 8.491 .000
(Constant)b0_fses Father'sSES at 0
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsa.
44
Forskningfråga Kan vi predicera matematikprestation med faders SES, födelseordning och födelsevikt?
Analyze regression linear
45
Korrelation, varians and kovarians
-1 ≤ rxy ≤ 1
ρ =
Varians-kovarians matrisens storlek: p (p+1) / 2, där p = antal variabler
Exempel: fyra variabler (en y och tre x): 4 (4+1) / 2 = 10av vilka fyra är varianser och sex kovarianser
cov(x,y)
σx σy
22 )()())((yyxx
yyxxSS
SSr
ii
ii
yx
xyxy
−Σ−Σ
−−Σ==
46
Sums of Squares and Cross Productsb10_math b0_fses b0_chord b0_weigh
b10_math 91878.8b0_fses 2762.9 822.2b0_chord -3215.8 -155.6 1759.4b0_weigh 356033.1 36544.8 52287.6 181645096.2
Variances and Covariancesb10_math b0_fses b0_chord b0_weigh
b10_math 142.4b0_fses 4.3 1.3b0_chord -5.0 -0.2 2.7b0_weigh 552.0 56.7 81.1 281620.3
Correlations b10_math b0_fses b0_chord b0_weigh M SD
b10_math 1.00 44.6 11.9b0_fses 0.32 1.00 3.3 1.1b0_chord -0.25 -0.13 1.00 2.5 1.7b0_weigh 0.09 0.09 0.09 1.00 3333.7 530.7
Listwise n = 646
91878.8 / (N-1) = 142.4
4.3 / (11.9)(1.1) = .32
142.4 / (SDx)(SDy) = 1
47
Handberäkning av multipel regression genom matris algebra(t.ex. Miles & Shevlin, 2001, ss 222-227; Tabachnick, & Fidell, 2001, Appendix).
inverse of Correlation matrix of Ivs standardised (bo_fses, b0_chord, b0_weigh) rxy DV & Ivs betas
1.049 0.182 -0.166 0.344 0.2810.182 1.055 -0.182 -0.229 -0.224
-0.166 -0.182 1.049 0.054 0.081× =
48
Korrelationsmatris, signifikansnivåer och sampelstorlek (saknade data radvis uteslutna)
Correlations
1.000 .318 -.253 .087
.318 1.000 -.129 .095
-.253 -.129 1.000 .092
.087 .095 .092 1.000
. .000 .000 .013
.000 . .000 .008
.000 .000 . .009
.013 .008 .009 .
646 646 646 646
646 646 646 646
646 646 646 646
646 646 646 646
b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b0_chord birthorder ofchildb0_weigh weight atbirth in gramsb10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b0_chord birthorder ofchildb0_weigh weight atbirth in gramsb10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b0_chord birthorder ofchildb0_weigh weight atbirth in grams
Pearson Correlation
Sig. (1-tailed)
N
b10_math British AbilityScale (BAS)
72 items
b0_fses Father'sSES at 0
b0_chord birthorderof child
b0_weigh weight at birth
in grams
49
ögna mera utskrifter
Vad upptäcker vi?* Stryka och riktning hos korrelationskoefficienter * Undersökningsgruppen har decimerats (radvis uteslutning av saknade datapunkter)* Alla variabler är mätta med olika skaltyper (standardiserat matematiktest, SES, födelseordning, gram)
Descriptive Statistics
44.63 11.935 646
3.27 1.129 646
2.51 1.652 646
3333.73 530.679 646
b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b0_chord birthorder ofchildb0_weigh weight atbirth in grams
Mean Std. Deviation N
50
H0: r2 = 0, H1 : r2 > 0
ANOVAb
14070.929 3 4690.310 38.700 .000a
77807.907 642 121.19691878.836 645
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), b0_weigh weight at birth in grams, b0_chord birthorder ofchild, b0_fses Father's SES at 0
a.
Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsb.
Model Summaryb
.391a .153 .149 11.009Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), b0_weigh weight at birth ingrams, b0_chord birthorder of child, b0_fses Father'sSES at 0
a.
Dependent Variable: b10_math British Ability Scale(BAS) 72 items
b.
I multipelregression är R korrelationen
mellan y och y`.
R2 är andelen förklarad varians
51
Mat` = 32.89 + 2.97 (FSES) –1.62 (birth order) + .002 (birth weight)
Coefficientsa
32.888 2.985 11.017 .000
2.973 .389 .281 7.633 .000
-1.619 .266 -.224 -6.083 .000
.002 .001 .081 2.215 .027
(Constant)b0_fses Father'sSES at 0b0_chord birthorder of childb0_weigh weightat birth in grams
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsa.
Värdet för matematik vid
10 när alla prediktorer är
noll
När faders SESökar ett steg ökar matematik 2.97
steg
När födelseordning
ökar ett steg minskar
matematik 1.62steg
När födelsevikt ökar ett steg ökar matematik .002
steg52
Standardiserade betan
i
jkijkij s
sb ⋅⋅ =β 281.
935.11129.1973.2 =
224.935.11652.1619.1 −=−
081.935.11
7.530002. =
ostandardiserad b SD av OV
SD av BV
53
Jämför standardiserade betanMat ` = 0 + .281 (FSES) – .224 (birth order) + .081 (birth weight)
Coefficientsa
32.888 2.985 11.017 .000
2.973 .389 .281 7.633 .000
-1.619 .266 -.224 -6.083 .000
.002 .001 .081 2.215 .027
(Constant)b0_fses Father'sSES at 0b0_chord birthorder of childb0_weigh weightat birth in grams
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsa.
När faders SES ökaren
standardavvikelse ökar matematik .281
st av
När födelseordning ökar en st av
minskar matematik.224 st av
När födelsevikt ökar en
standardavvikelse ökar matematik
.081 st av
54
Testa signifikansnivårn för standardiserade betan:
t = B / SEb = 2.973 / .389 = 7.633
Coefficientsa
32.888 2.985 11.017 .000
2.973 .389 .281 7.633 .000
-1.619 .266 -.224 -6.083 .000
.002 .001 .081 2.215 .027
(Constant)b0_fses Father'sSES at 0b0_chord birthorder of childb0_weigh weightat birth in grams
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsa.
Sign nivåer
p0.05 = 1.96
p0.01 = 2.58
p0.001 = 3.29
0 :H;0 :H 10 ≠= ββ
55
En BV och 3 OVer Standard regression
a bc de
OV1
BVOV2
OV3
OV1
BVOV2
OV3
56
Sekventiell Stegvis
OV1
BV
OV3
OV1
BV
OV3
OV2 OV2
57
* Medierande variabel
Effekten av OV1 är reducerad när OV2 inkluderas
X Y
Effekten av OV1 går ”via” OV2
X Z Y
β = .40
β = .35 β = .45
β = .05
OV1 BV
BVOV1
OV2 58
* Moderator / interaktionseffektÄr lutningskoefficienterna mellan OV1 och BV olika i olika subgrupper av
OV2?
Grupp A Grupp B Grupp C
OV1 OV1 OV1
BV
BV
BV
58
IV1DV IV1DV IV1DV
59
* Supressor variabelen variabel som ökar sambandet mellan OV och BV när kontrollerad för
(rätt ovanlig och ibland svårtolkad)
BV1
OV
BV1
OV Supr
esso
r
60
Model Summaryc
.425a .181 .178 10.780 .181 68.796 2 623 .000
.465b .216 .210 10.570 .035 9.339 3 620 .000
Model12
R R SquareAdjustedR Square
Std. Error ofthe Estimate
R SquareChange F Change df1 df2 Sig. F Change
Change Statistics
Predictors: (Constant), b0_msla mothers school leaving age, b0_fses Father's SES at 0a.
Predictors: (Constant), b0_msla mothers school leaving age, b0_fses Father's SES at 0, gender, b0_weigh weight at birthin grams, b0_chord birthorder of child
b.
Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsc.
Två block predicterande matematik vid 10
Block 1: faders SES, mors ålder vid avslutad skolgångBlock 2: barnets födelseordning, födelsevikt, kön
Modell 2 förklarar mer varians än modell 1
61
Coefficientsa
35.134 1.362 25.800 .000
2.160 .432 .204 4.997 .000
7.263 1.023 .290 7.097 .000
36.925 3.336 11.069 .000
1.982 .426 .187 4.655 .000
6.616 1.014 .264 6.526 .000
-1.332 .265 -.183 -5.034 .000
.001 .001 .052 1.435 .152
-1.043 .851 -.044 -1.225 .221
(Constant)b0_fses Father'sSES at 0b0_msla mothersschool leaving age(Constant)b0_fses Father'sSES at 0b0_msla mothersschool leaving ageb0_chord birthorder of childb0_weigh weightat birth in gramsgender
Model1
2
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsa.
Två block............ 2
Ändras βn i block 1 när
block 2variabler
inkluderas?Predicerar block 2 variabler utfallet kontrollerande för
variabler i block 1? 62
Diagnoser ....
Grafer
Standardiserade residualer emot standardiserade
predicerade värden(homoskedasticitet –heteroskedasticitet)
Är residualer normalt fördelade?
63
Är residualerna normalt fördelade?
64
Är residualerna homoskedastiska (”rektangulärt mönster”) eller heteroskedastiska (”icke-rektangulärt mönster”)?
65
Är residualerna homoskedastiska (”rektangulärt mönster”) eller heteroskedastiska (”icke-rektangulärt mönster”)? (BV = nuvarande lön, OV = tidigare lön, employee.sav)
Normalisera variablerna!
66
Coefficientsa
27.750 3.815 7.273 .000
2.384 .563 .224 4.232 .000 .806 1.241
1.670 .446 .197 3.748 .000 .819 1.221
-.908 .388 -.116 -2.341 .020 .920 1.087
.002 .001 .093 1.914 .056 .953 1.049
(Constant)b0_fses Father'sSES at 0b0_mses Mother's SES at 0b0_chord birthorder of childb0_weigh weightat birth in grams
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig. Tolerance VIFCollinearity Statistics
Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsa.
Kolinearitet (Field, 2005, p. 196)
Varians inflation inte ”substantiellt mera” än 1
(enligt LM ca 2 till 2.5)
Tolerans inte under .2
67
Regression och variansanalys (teach.sav)
* Uttryck variansanalys som en regressionsmodell* Skapa dummy variabler för faktor* Antalet dummy variabler = antalet nivåer minus ett * Välj basgrupp t ex grupp A (ingen dummy för A)
dummy_B [0 = metod A eller C, 1 = metod B]dummy_C [0 = metod A eller B, 1 = metod C]
Testscore = a + b1(dummy_B) + b2(dummy_C)
68
Som variansanalys som regressionANOVA
SCORE
36.933 2 18.467 10.863 .00220.400 12 1.70057.333 14
Between GrouWithin GroupTotal
Sum of Squares df Mean Square F Sig.
ANOVAb
36.933 2 18.467 10.863 .002a
20.400 12 1.70057.333 14
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), DUMMY_C, DUMMY_Ba.
Dependent Variable: RESULTATb.
Descriptives
SCORE
5 14.00 1.581 12 165 16.40 1.140 15 185 12.60 1.140 11 14
15 14.33 2.024 11 18
123Total
N Mean Std. Deviation Minimum Maximum
Coefficientsa
14.000 .583 24.010 .0002.400 .825 .579 2.910 .013
-1.400 .825 -.338 -1.698 .115
(Constant)DUMMY_BDUMMY_C
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: RESULTATa.
Resultat = a + b1(dummy_B) + b2(dummy_C)
Resultat = 14 + 2.4 (dummy_B) –1.4 (dummy_C)
69
Regression med dummy variabler
70
Log-odds och logistisk regression
1904 undersökte Karl Pearson ifall vaccinering kunde minska dödlighet hos englelska soldater (Simpson, R. J. S., & Pearson, K. (1904). Report on certain enteric fever inoculation statistics. The British Medical Journal, 2, 1243-1246.)
Hypoteser med tydlig riktning (pearson chi-square.sps):H0: vaccinering orelaterad med undgående av sjukdomH1: vaccinering relaterad med undgående av sjukdom
inocul incoulated * escape escaped disease Crosstabulation
Count
75 204 27932 265 297
107 469 576
0 non-inoculated1 inoculated
inocul incoulated
Total
0 caughtdisease 1 escaped
escape escapeddisease
Total
inocul incoulated * escape escaped disease Crosstabulation
75 204 27951.8 227.2 279.0
32 265 29755.2 241.8 297.0107 469 576
107.0 469.0 576.0
CountExpected CountCountExpected CountCountExpected Count
0 non-inoculated
1 inoculated
inocul incoulated
Total
0 caughtdisease 1 escaped
escape escapeddisease
Total
Jämför observerade
med förväntade
värden
Symmetric Measures
.207 .000
.207 .000
.203 .000
.207 .039 5.023 .000
.161 .032 5.023 .000
.506 .086 5.023 .000
.207 .039 5.069 .000c
.207 .039 5.069 .000c
.164 .033 4.967 .000576
PhiCramer's VContingency Coefficient
Nominal by Nominal
Kendall's tau-bKendall's tau-cGammaSpearman Correlation
Ordinal by Ordinal
Pearson's RInterval by IntervalKappaMeasure of Agreement
N of Valid Cases
ValueAsymp.
Std. Errora Approx. Tb Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null hypothesis.b.
Based on normal approximation.c.
Chi-Square Tests
24.676b 1 .00023.622 1 .00025.172 1 .000
.000 .000
24.633 1 .000
.000c
576
Pearson Chi-SquareContinuity Correctiona
Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationMcNemar TestN of Valid Cases
Value dfAsymp. Sig.
(2-sided)Exact Sig.(2-sided)
Exact Sig.(1-sided)
Computed only for a 2x2 tablea.
0 cells (.0%) have expected count less than 5. The minimum expected count is 51.83.
b.
Binomial distribution used.c.
Godta H1
Korrelationskoefficient
Beräkna odds-kvot (effektstorlek)
Vad är effekten av vaccinering? Hur mycket mer sannolikt är det undfly sjukdom ifall man är vaccinerad?
”chi-square and odds-ratio” i ”calculator.xls”
observed values observed proportions0 1 0 1
0 75 204 0 0.1302 0.35421 32 265 1 0.0556 0.4601
OR = 3.04 OR = 3.04
Risk Estimate
3.045 1.937 4.786
2.495 1.706 3.649
.819 .755 .889
576
Odds Ratio forinocul incoulated(0 non-inoculated /1 inoculated)For cohort escape escaped disease =0 caught diseaseFor cohort escape escaped disease =1 escapedN of Valid Cases
Value Lower Upper
95% ConfidenceInterval
207.0576
68.24
68.24
04.335.06.46.13.
04.32043226575
2
2
====
=
=××
=
=××
=
=
nr
ES
ES
bcadES
OR
OR
OR
χφ
χ
not escape escapenon-inoc 75 204inoc 32 265
oddskvot = 3.04. Det skulle vara 3.04 mer sannolikt att en
vaccinerad patient skulle undfly sjukdom än en icke-
vaccinerad patient
77
Ibland är den beroende variabeln dikotom [0,1] t.ex. antagen till ett universitet, godkänd / icke godkänd vi skulle tala om ”vilken chans har en viss person att bli
antagen till universitet” eller ”hur stor chans har man att klara sig?”.
Sannolikhet mellan 0 och 1
Oddskvot = =sannolikheten att P inträffar P
1 – (sannolikheten att P inträffar) 1 – P
78
Sannolikheten att kasta en fyra på en sex-sidig tärning: ”1 chans på 6”, ”1/6 = 0.167”
Oddskvot = = 0.2 eller oddsen är ett emot fem att du kastar en fyra
Sannolikheten att inte kasta en fyra på en sex-sidig tärning: ”5 chanser på 6”, ”5/6 = 0.83”
Oddskvot = = 5 eller oddsen är fem emot ett att du inte kastar en fyra
0.1670.833
0.8330.167
79
Logistisk regression * Beroende variabel är dikotom [0,1]* Oberoende variabler kan vara nominal eller kontinuerliga (3+stegs nominalskalevariabler dummy-kodas)* Inga antaganden on normalitet
Exampel* Hur predicerar kön (0 = kvinna, 1 = man), och partitillhörighet (0 = tillhör inte, 1 = tillhör) ifall man röstar (0 = röstar inte, 1 = röstar)? (vote.sav)
80
81
Logit (ex) funktionen är vackere = 2.7182logit(p)=log(p/(1-p)) naturlig logaritm av (p/(1-p))
Maximum Likelihood estimering
Yi = e a + b1x1 + b2x2
1 + e a + b1x1 + b2x2
inträffarhändelsen att ten sannolikhedär 1
oddskvot
=−
=
pp
p
p p/(1-p) Logit(p/(1-p) EXP(x)0.01 0.01 -4.595 0.01010.05 0.05 -2.944 0.05260.10 0.11 -2.197 0.11110.20 0.25 -1.386 0.25000.30 0.43 -0.847 0.42860.40 0.67 -0.405 0.66670.50 1.00 0.000 1.00000.60 1.50 0.405 1.50000.70 2.33 0.847 2.33330.80 4.00 1.386 4.00000.90 9.00 2.197 9.00000.95 19.00 2.944 19.00000.99 99.00 4.595 99.0000
83
Analysis regression binary logistic
84
Analysis regression binary logistic save
85
...... binary logistic options
86
Block 1: Method = Enter Jämför ”tom”modell med model som innehåller
prediktorer
-2LL, och“pseudo-R2”
Omnibus Tests of Model Coefficients
7.761 2 .0217.761 2 .0217.761 2 .021
StepBlockModel
Step 1Chi-square df Sig.
Model Summary
19.965a .322 .429Step1
-2 Loglikelihood
Cox & SnellR Square
NagelkerkeR Square
Estimation terminated at iteration number 4 becauseparameter estimates changed by less than .001.
a.
87
Classification Tablea
8 2 80.02 8 80.0
80.0
Observed0 did not vote1 voted
vote
Overall Percentage
Step 10 did not vote 1 voted
vote PercentageCorrect
Predicted
The cut value is .500a.
Observeradoch
predicerad grupp
% försöks-peronser som
är klassificerade
korrekt
88
Variables in the Equation
-.254 1.126 .051 1 .822 .776 .085 7.0452.757 1.120 6.060 1 .014 15.747 1.754 141.386
-1.239 1.014 1.491 1 .222 .290
genderpartyConstant
Step1
a
B S.E. Wald df Sig. Exp(B) Lower Upper95.0% C.I.for EXP(B)
Variable(s) entered on step 1: gender, party.a.
Lutningskoefficient: betakoefficientförändring i log-odds
Wald test signifikanstest för lutningskoefficient,
Bj
SEBj
W =
INTERCEPT
Odds-ratio (uttryckt som exponenten av log-odds)
89
Variables in the Equation
-.254 1.126 .051 1 .822 .776 .085 7.0452.757 1.120 6.060 1 .014 15.747 1.754 141.386
-1.239 1.014 1.491 1 .222 .290
genderpartyConstant
Step1
a
B S.E. Wald df Sig. Exp(B) Lower Upper95.0% C.I.for EXP(B)
Variable(s) entered on step 1: gender, party.a.
När variabeln ”kön” antar det högre värdet är Fp .776 gånger mer benägen att rösta (n.s.)
När variabeln ”partitillhörighet ”antar det högre värdet är Fp 15.75gånger mer benägen att rösta (p<.05)
Konfidensintervallen stora vilket indikerar att stickprovet är litet
90
Variables in the Equation
-.254 1.126 .051 1 .822 .776 .085 7.0452.757 1.120 6.060 1 .014 15.747 1.754 141.386
-1.239 1.014 1.491 1 .222 .290
genderpartyConstant
Step1
a
B S.E. Wald df Sig. Exp(B) Lower Upper95.0% C.I.for EXP(B)
Variable(s) entered on step 1: gender, party.a.
Beräkna e i x:te potens
91
Predicerad sannolikhet att tillhöra BV kategorin 1
Prediceradgrupp
92
Step number: 1
Observed Groups and Predicted Probabilities
8 ô ôó óó ó
F ó óR 6 ô d ôE ó d óQ ó d v v óU ó d v v óE 4 ô d v v v ôN ó d v v v óC ó d v v v óY ó d v v v ó
2 ô d d v d ôó d d v d óó d d v d óó d d v d ó
Predicted òòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòòProb: 0 .25 .5 .75 1Group: ddddddddddddddddddddddddddddddvvvvvvvvvvvvvvvvvvvvvvvvvvvvvv
Predicted Probability is of Membership for votedThe Cut Value is .50Symbols: d - did not vote
v - votedEach Symbol Represents .5 Cases.
93
Forskningsfråga Predicerar fars SES vid födelse, matematikförmåga vid 10, och mors engagemang i barnets utbildning ifall 30-åringar är har manuell eller icke-manuell SES? (bcs70.sav)Analyze regression binary logistic
BV 0 = manuell, 1 = icke-manuell
Block 1: FarsSES vid 0, Block 2: Matematik vid 10, Block 3: mors engagemang vid10
94
Classification Tablea
12 121 9.04 246 98.4
67.4
Observed0 manual1 non-manual
CMs SES at 30dichotomised
Overall Percentage
Step 10 manual
1 non-manual
CMs SES at 30dichotomised
PercentageCorrect
Predicted
The cut value is .500a.
Variables in the Equation
.427 .108 15.528 1 .000 1.533-.746 .358 4.339 1 .037 .474
b0_fsesConstant
Step1
a
B S.E. Wald df Sig. Exp(B)
Variable(s) entered on step 1: b0_fses.a.
Modell 1: Enbart konstant Modell 2: Fars SES vid födelse
Model Summary
477.593a .044 .060Step1
-2 Loglikelihood
Cox & SnellR Square
NagelkerkeR Square
Estimation terminated at iteration number 4 becauseparameter estimates changed by less than .001.
a.
Omnibus Tests of Model Coefficients
17.039 1 .00017.039 1 .00017.039 1 .000
StepBlockModel
Step 1Chi-square df Sig.
Jämför tom model med prediktormodell, H0:
modellen passar ej data bättre, H1: modellen bättre
Fars SES förklarar 4.4 eller 6.0% av
variansen
För varje steg fars SES är sannolkiheten
att ha en icke-manuell SES som vuxen 1.5 gånger
större
95
......Modell 3: Fars SES vid födelse och matematik poäng vid 10
Omnibus Tests of Model Coefficients
29.743 1 .00029.743 1 .00046.782 2 .000
StepBlockModel
Step 1Chi-square df Sig.
Model Summary
447.849a .115 .159Step1
-2 Loglikelihood
Cox & SnellR Square
NagelkerkeR Square
Estimation terminated at iteration number 4 becauseparameter estimates changed by less than .001.
a.
Classification Tablea
42 91 31.631 219 87.6
68.1
Observed0 manual1 non-manual
CMs SES at 30dichotomised
Overall Percentage
Step 10 manual
1 non-manual
CMs SES at 30dichotomised
PercentageCorrect
Predicted
The cut value is .500a.
Variables in the Equation
.249 .117 4.553 1 .033 1.283
.057 .011 26.945 1 .000 1.059-2.768 .545 25.785 1 .000 .063
b0_fsesb10_mathConstant
Step1
a
B S.E. Wald df Sig. Exp(B)
Variable(s) entered on step 1: b10_math.a.
Jämför Modell 2 med Modell 3, H0: modellenpassar ej data bättre, H1:
modellen passar data bättre
Fars SES och matematikpoäng
förklarar 11.5 eller15.9% av variansen
96
......Modell 4: Fars SES vid födelse, matematik poäng vid 10, och mors engagemang vid 10
Variables in the Equation
.225 .118 3.623 1 .057 1.252
.051 .011 20.091 1 .000 1.053
.254 .129 3.858 1 .050 1.289-3.512 .674 27.116 1 .000 .030
b0_fsesb10_mathb10_minvConstant
Step1
a
B S.E. Wald df Sig. Exp(B)
Variable(s) entered on step 1: b10_minv.a.
Model Summary
443.968a .124 .171Step1
-2 Loglikelihood
Cox & SnellR Square
NagelkerkeR Square
Estimation terminated at iteration number 4 becauseparameter estimates changed by less than .001.
a.
97
Raportera resultat?* Tabeller kan läsas separat från publikationen de ingår i * Klar titel* INTE SPSS utskrifter (t.ex. Excel)* Inkludera alla viktiga parametrar (t.ex. OR, B, S.E., p, pseudo R2)
Table 1. Prediction of social class at 30 (0 = manual, 1 = non-manual worker)(Logistic regression)Model 1 Model 2 Model 3
B S.E. OR p B S.E. OR p B S.E. OR pConstant -0.75 0.36 0.47 * -2.77 0.55 0.06 *** -3.51 0.67 0.03 ***Father's SES at birth 0.43 0.11 1.53 *** 0.25 0.12 1.28 * 0.22 0.12 1.25Math ability at 10 0.06 0.01 1.06 *** 0.05 0.01 1.05 ***Mother involvement at 10 0.25 0.13 1.29 *Cox and Snell R2 0.04 0.11 0.11Nagelkerke R2 0.06 0.16 0.16-2LL 477.59 447.85 443.97∆-2LL (χ2) 29.74 *** 3.88 *
98
99
Sylva, K., Stein, A., Leach, P., Barnes, J., Malmberg, L-E & FCCC (2007). Family and child factors related to the use of infant care: an English study. Early Childhood Research Quarterly, 22, 118-136. 100
Sedan då? Vad är nästa steg?
* Multivariat statistik inkörsport till avancerade modeller* Nu blir det riktigt intressant!
* Flernivå regressionsmodellerför hierarkiskt organiserat data (t.ex. studerande i klassrum)
* Strukturektavtionsmodellerför att undersöka kvaliteten av en mätning (dvs. strukturell validitet)specificera modeller för latenta variabler
* Itemrespons modeller (Item Response Theory)för att undersöka kvaliteten av en mätning i standardiserade test
* Meta-analys, hantering av saknade data mm
101
Hierarkiska (’ multilevel ’) regessionsmodellerDe flesta fenomen är hierarkiskt organiserade i nivåer t.ex.barn inom familjer, familjer i stadsdelar, elever i klassrum, klassrum i skolor, skolor i distrikt i länder....
Även longitudinellt:t.ex. tidpunkter inom individer
Varför hierarkiska regessionsmodellerIfall man ignorerar nivåerna kan man underskatta andelen varians förklarad
av olika kontextuella nivåerExplicit fokus på varians (jmfr. antaganden om homogenitet i variansanalys)
102
Kontextuella modeller (t.ex. Bronfenbrenner)
Skoldistrikt
Klass / skola
Elev
Klass
Individ
Tid
* Rimligt antal observationer på varje nivåt.ex. 3+ tidpunkter, 30+ klassrum, 30+ distrikt
103
Sambandet mellan hemarbete och matematik prestation
ett intercept och en lutnings- ett intercept för varje skola koefficient för totalsamplet i samplet, samma lutnings-
koefficient”random intercept model”
HEMARB
MA
T
MA
T Skola 1
Skola 2
Skola 3
Skola 4
HEMARB
104
Sambandet mellan hemarbete och matematik prestation
en lutnings koefficient för ett intercept och en lutnings- varje skola, men samma för varje skola ”random intercepts andintercept slopes””random slopes”
MA
T
MA
THEMARB HEMARB
105
PISA-2003 matematik resultat for 45 finländska skolklasser (45 klasser av 197)
00001
00003
00005
00007
00009
00011
00013
00015
00017
00019
00021
00023
00025
00027
00029
00031
00033
00035
00037
00039
00041
00043
00045
S c h o o l ID
2 0 0 .0 0 0 0
4 0 0 .0 0 0 0
6 0 0 .0 0 0 0
8 0 0 .0 0 0 0
1 0 0 0 .0 0 00
Plausible value in math
52 7
106
Tolking från skoleffektivitetslitteraturen (Bryk / Raudenbush, 1992, s. 11). Skola A mer effektiv (`effective`) och jämställd
(`equitable`) än skola B.
Några referenser om statistikens historia (för den vetgirige)
Fisher, J. B. (1978). R.A. Fisher: The Life of a Scientist. New York: Wiley.Cowles, M. (2001). Statistics in Psychology. An historical perspective (2nd edit.). Mahwah, NJ.: Lawrence Erlbaum. Gilham, N. W. (2001). A life of Sir Francis Galton. From African explorer to the birth of eugenics. Oxford: Oxford University Press. Hald, A. (1998). A history of mathematical statistics from 1750 to 1930. Hoboken, NJ.: Wiley.Hald, A. (2003). History of probability and statistics and their applications before 1750.Hoboken, NJ.: Wiley. Hald, A. (2007). A history of parametirc statistical inference from Bernoulli to Fisher, 1713-1935. New York, NY: Springer.Jaynes, E. T. (2003). Probability theory. The logic of science. Cambridge: Cambridge University Press. Pearl, J. (2000). Causality, reasoning, and inference. Cambridge: Cambridge University Press. Porter, T. M. (2004). Karl Pearson. The scientific life in a statistical age. Princeton: Princeton University Press.