Kvantitativa metoder, - vasa.abo.fi · Tolka korrelationskoefficienterna mellan populationsstorlek,...

1

Kvantitativa metoder, Forskarutbildningen, PF, ÅA

Del 2, 20-21/9/2011

Lars Malmberg,Department of Education,

University of [email protected]

2

Program* Sambandsanalys: χ2 och korrelation* Regressionsanalys: bivariat och multipel regression (beroende variabeln är kontinuerlig)* Effektstorlek (log-odds) och logistisk regression (beroende variabeln är nominalskala)

Litteratur, t.ex.:Tabachnick, B. G., & Fidell, L. S. (2001). Using multivariate

statistics (4th Edit.). Boston: Allyn and Bacon.Miles, J., & Shevlin, M. (2001). Applying regression and correlation. A

guide to students and researchers. London: Sage.

3

Korrelation* Standardiserat mått på samband, association, eller gemensam varians (inte kausalitet!)

Positiv Negativ Neutral( +1) ( -1) (≈ 0)

* ** * ** *

* ** * ** *

* ** * *

* *

* ** * *

* *

* * * * ** * * * * * * * * *

* * * * ** * * * * * * * * *

X X X

Y Y Y

4

Välj koefficientINT/KVOT x

NOM x NOM ORD x ORD INT/KVOT

x y x y x y

χ2-koefficient Spearmans Pearsons φ (phi)-koefficient rang korrelations- produktmoment

koefficient korrelations-koefficient

5

Korrelationskoefficienter har

* Riktning (positiv, neutral, negativ)* Styrka (ingen, svag, moderat, stark)* Signifikans (testa ifall olik noll?)

r = -1 -.8 -.5 -.3 -.1 0 .1 .3 .5 .8 1

perfekt stark moderat svag ingen svag moderat stark perfekt

Kvant Met del 2 6

Samband mellan moders ålder vid avslutad skolgång och barnets födelsevikt (BCS70)

Mother's age when completed education

302010

Wei

ght a

t birt

h in

gra

ms

6000

5000

4000

3000

2000

1000

0

Kvant Met del 2 7

Samband mellan läskunnighet (% av befolkningen) och barndödlighet (döda per 1000 födda)(FNs

demografiska årsbok 1995; n = 107 länder)

People who read (%)

120100806040200

Infa

nt m

orta

lity

(dea

ths

per 1

000

live

birth

s)

200

100

0

-100

Kvant Met del 2 8

Analyze correlate bivariate...

Kvant Met del 2 9

Correlations

1 .621**. .000

488 468.621** 1.000 .468 473

Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N

Father's age whencompleted education

Mother's age whencompleted education

Father's agewhen

completededucation

Mother'sage whencompletededucation

Correlation is significant at the 0.01 level (2-tailed).**.

Correlations

1.000 .484**. .000

488 468.484** 1.000.000 .468 473

Correlation CoeffSig. (2-tailed)NCorrelation CoeffSig. (2-tailed)N

Father's age whecompleted educa

Mother's age whcompleted educa

Spearman's r

Father's agewhen

completededucation

Mother'sage whencompletededucation

Correlation is significant at the .01 level (2-tailed).**. Kvant Met del 2 10

Uppgift 1. Tolka korrelationskoefficienterna mellan populationsstorlek, grad av urbanisering, läskunnighet (% av befolkningen) och barndödlighet (döda per 1000 födda). Beskriv sambanden på enkel svenska.

Correlations

1 -.138 -.050 .109. .155 .610 .260

109 108 107 109-.138 1 .650** -.718**.155 . .000 .000108 108 107 108

-.050 .650** 1 -.900**.610 .000 . .000

107 107 107 107

.109 -.718** -.900** 1

.260 .000 .000 .109 108 107 109

Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N

Pearson CorrelationSig. (2-tailed)N

LOG_POP Log (base10) of Population

URBAN People livingin cities (%)

LITERACY Peoplewho read (%)

BABYMORT Infantmortality (deaths per1000 live births)

LOG_POP Log (base 10)of Population

URBAN People livingin cities (%)

LITERACY People who

read (%)

BABYMORT Infant

mortality(deaths per1000 live

births)

Correlation is significant at the 0.01 level (2-tailed).**.

11

Uppgift 2. Nurmi och Pulliainen (1990) undersökte ifall det fanns samband mellan optimism och ungdomars perception av föräldrastil (diskussion, kontroll), intelligens och självskattning, hos 11 och 15 åringar. Hur tolkar du konstellationerna av korrelationskoefficienter hos 11 och 15 åringarna?

Optimism____ 11 år 15 år

Familje diskussion .05 .41 ***Föraldrakontroll -.45 *** .09IQ .05 .30 *Självskattning .04 .21

* = p<.05, ** p<.01, *** = p<.001

12

Korrelation Partiell korrelation”mellan x och y” ”kontrollerande för z”

x y x y

zz

13

Kan sambandet vara relaterat till en ”extern” variabel? Vad händer om vi ”kontrollerar” för denna ”externa”variabel?

Kontrollerande förBNP/kapita

1. 2. 3. 1. 2. 3.1. Populationsstorlek2. Urbanisering -.14 .003. Läskunnighet -.05 .65 .16 .184. Barndödlighet .11 -.72 -.90 -.12 -.25 -.77

14

Korrelation and medeltal

* ** * ** *

* ** * ** *

* ** * ** *

* ** * ** *

rxy = .75 rxy = .75x = 1.25 x = 1.25y = 1.25 y = 2.25

Sambandsanalys med nominalskalevariabler

* χ2-test (2 x 2) och kontingenstabellanalys (större matris än 2 x 2)* The χ2-test of non-independence (K. Pearson)

Undersök sambandet mellan två dikotoma variablerx = kön (0 = pojke, 1 = flicka)y = rökning (0 = nej, röker inte, 1 = ja, röker)

H0 ”det finns inte fler rökare än förväntat bland antingen pojkar eller flickor” H1 ”det finns fler rökare än förväntat bland antingen pojkar eller flickor”

H0

H1

gender * smoking Crosstabulation

Count

30 20 5020 30 5050 50 100

0 boy1 girl

gender

Total

0 no 1 yessmoking

Total

χ2 – ekvation

( )

1)1)(k(rdfsumma total

summa)kolumn (summa) rad(E

frekvens förväntad Efrekvens observed O

kolumn k rad r

där,

i

i

i

1

22

−−=

=

====

−= ∑

=

rk

i i

ii

EEO

χ

Observede och (matematiskt) förväntade värden

Antagande: det finns inte färre än 5 förväntade observationer per cell

observed valuescol 1 col 2 row total

row 1 a b a+brow 2 c d c+dcolumn total a+c b+d a+b+c+d

expected valuescol 1 col 2

row 1( (a+b) x (a+c) )

/ (a+b+c+d)( (a+b) x (b+d) ) /

(a+b+c+d)

row 2( (c+d) x (a+c) ) /

(a+b+c+d)( (c+d) x (b+d) ) /

(a+b+c+d)

”chi-square for 2 x 2 table” i ”calculator.xls”

This spread sheet calculates the chi-square value for a 2 x 2 contingency table and transforms it into a phi coefficient

Variable A (observed minus expected frequencies)2no yes no yes

Variable B no 30 20 50 no 25 25yes 20 30 50 yes 25 25

50 50 100

expected frequencies (observed minus expected frequencies)2 / expected frequenciesno yes no yes

no 25 25 no 1 1yes 25 25 yes 1 1

observed minus expected frequencies CHISQ 4 <-- the chi-square valueno yes CHIDIST 0.0455 <-- level of significance

no 5 -5yes -5 5 φ-coefficient (for 2 x 2 contigency table)

divide χ2 by sample size and draw the square root χ2 / n 0.04SQRT(χ2/n) 0.2000in manual calculation only posivite coefficients are givenspss gives the same sign as the Pearson coefficient

20

Analyze Descriptive statistics Crosstabs

Chi-Square Tests

4.000b 1 .0463.240 1 .0724.027 1 .045

.071 .036

3.960 1 .047

100

Pearson Chi-SquareContinuity Correctiona

Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea.

0 cells (.0%) have expected count less than 5. The minimum expected count is 25.00.

b.

Förkasta H0

Kön är relaterat till rökning

H0

H1

χ2 = 4.00

gränsvärden χ2

p = .05 3.841 p = .01 6.635 p = .001 10.828

se även: ChiSquare_table.jpg

Gå tillbaks till deskriptiva värden och observera residualer (i vilken cell finns det fler och i vilken cell finns det färre observationer än förväntat?)

gender * smoking Crosstabulation

30 20 5025.0 25.0 50.05.0 -5.020 30 50

25.0 25.0 50.0-5.0 5.0

50 50 10050.0 50.0 100.0

CountExpected CountResidualCountExpected CountResidualCountExpected Count

0 boy

1 girl

gender

Total

0 no 1 yessmoking

Total

Residual = observerad minus

förväntadfrekvens

Färre flickor än förväntat bland

icke-rökarna

Fler flickor än förväntat bland

rökarna

Regressionsanalys

* Prediktion* Sir Francis Galton (1822-1911) ”reversion” och ”regression till medeltalet” / ”regression to the mean”* Karl Pearson (1857-1936) ”produktmomentkorrelations-koefficienten”* Charles Spearman (1864-1945), Louis L. Thurstone (1887-1955) och andra: ”faktor analys”* R. A. Fisher (1890-1962) ”statistisk signifikans”

Kvant Met del 2 24

Kvant Met del 2 25 26

Antaganden / förutsättningar* y är approximativt normalt fördelad

* y är normalt fördelade vid varje x-skalsteg

* x är antingen approximativt normalt fördelad eller dikotom (0,1)

* ifall x är en nominalskalevariabel med tre eller fler skalsteg, skall denna variabel dummy-kodas (antalet skalsteg minus en dummy-variabler)

* x variablerna är inte kolineära

* observationerna är oberoende av varandra

* residualer är approximativt normalt fördelade

* Tekniker Ordinary Least Square / Maximum LikelihoodGeneral Linear Models (GLM)

Logistisk regression

27

Bivariat regression Multipel regression

x y x1 x2 x3 .... xk y

y` = a + bx (+ e) y` = a + b1x1 + b2x2 ... + bkxk + e

y` = α + βx (+ ε) y` = α + β1x1 + β2x2 ... + βkxk + ε

Y = A + BX Y` = A + B1X1 + B2X2 + BkXk

Regressionskoefficient ”b” ”β” (”betan”)Multipel korrelationskoefficient ”R” och andel förklarad varians R2

28

* ** * ** *

* ** * ** *

Korrelation and regression* Minsta kvadrat metoden (det kvadratiska avstandet mellan observationer

och regressionslinjen minimeras)

x (oberoende)

y (b

eroe

nde)

29

Korrelation and regression* Minsta kvadrat metoden (det kvadratiska avstandet mellan observationer

och regressionslinjen minimeras)

a

a = intercept b = lutningskoefficienty` = a + bx

b* ** * ** *

* ** * ** *

x

y

30

Exempel Hur predicerar förtestprestation slutprestation? (regression.sav; regression.xls i calculators.xls)

01

2345

678

910

0 2 4 6 8 10

pretest

exam

y` = 1.54 + .80(förtest)

student pretest (x) exam (y) 1 1 32 2 23 3 44 4 55 5 66 6 57 7 98 8 7

Σ 36 41M 4.5 5.125

rxy 0.875

31

Predicerade (rosa) och observerade värden (blå)

0123456789

10

0 2 4 6 8 10

pretest

exam

32

Exampel Hur predicerar förtestprestation slutprestation?

33

Statistics Save

34

Utskrifter..... Descriptive Statistics

5.13 2.232 84.50 2.449 8

exampretest

Mean Std. Deviation N

Correlations

1.000 .875.875 1.000

. .002.002 .

8 88 8

exampretestexampretestexampretest

Pearson Correlation

Sig. (1-tailed)

N

exam pretest

Model Summaryb

.875a .766 .727 1.166Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), pretesta.

Dependent Variable: examb.

35

Utskrifter..... (2)

ANOVAb

26.720 1 26.720 19.660 .004a

8.155 6 1.35934.875 7

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), pretesta.

Dependent Variable: examb.

H0: r2 = 0, H1 : r2 > 0

Coefficientsa

1.536 .908 1.691 .142.798 .180 .875 4.434 .004

(Constant)pretest

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: exama.

y` = 1.54 + .80(förtest)36

regression.xlsSST SSR SSM

student pretest (x) exam (y) x2 xy (y - Y) (y - Y)2 y` (y - y`) (y - y´)2 (y` - Y) (y` - Y)2

1 1 3 1 3 -2.125 4.516 2.333 0.667 0.444 -2.792 7.7932 2 2 4 4 -3.125 9.766 3.131 -1.131 1.279 -1.994 3.9763 3 4 9 12 -1.125 1.266 3.929 0.071 0.005 -1.196 1.4314 4 5 16 20 -0.125 0.016 4.726 0.274 0.075 -0.399 0.1595 5 6 25 30 0.875 0.766 5.524 0.476 0.227 0.399 0.1596 6 5 36 30 -0.125 0.016 6.321 -1.321 1.746 1.196 1.4317 7 9 49 63 3.875 15.016 7.119 1.881 3.538 1.994 3.9768 8 7 64 56 1.875 3.516 7.917 -0.917 0.840 2.792 7.793

Σ 36 41 204 218 0.000 34.875 41.000 0.000 8.155 0.000 26.720M 4.5 5.125

rxy 0.875

n (Σxy) 1744(Σx)(Σy) 1476(n (Σxy)) - 268

n(Σx2) 1632(Σx)2 1296(n(Σx2)) - ( 336

b= 0.798

a=(y-bx) 1.536

37

Totalkvadratsummor (SST) Residualkvadratsummor (SSR)

01

2345

678

910

0 2 4 6 8 10

pretest

exam

01

2345

678

910

0 2 4 6 8 10

pretest

exam

SST = Skillnader mellan observerade

och predicerade värden av y

SSR = Skillnader mellan observerade

värden och regressionslinjen

38

Modellkvadratsummor (SSM)

ANOVA table SS df Mean SS F SigRegression (SSM) 26.720 1 26.720 19.660 0.004404Residual (SSR) 8.155 6 1.359Total (SST) 34.875 7

R2 = SSM / SST = 0.766

01

2345

678

910

0 2 4 6 8 10

pretest

exam

SSM = Skillnader mellan medelvärdet avy och regressionslinjen

39

Nya variabler i datamatrisen (predicerade värden och residualer) ..

Student 1: 3 – 2.33 = .67

Student 6: 5 – 6.32 = -1.32

Student 1

Student 6

40

Forskningfråga Kan vi predicera matematikprestation med faders SES? Analyze regression linear

41Working class Managerial class 42

Correlations

1.000 .317

.317 1.000

. .000

.000 .

647 647

647 647

b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0

Pearson Correlation

Sig. (1-tailed)

N

b10_math British AbilityScale (BAS)

72 items

b0_fses Father'sSES at 0

Descriptive Statistics

44.65 11.939 647

3.27 1.128 647

b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0


.... deskriptiv information

43

utskrifter..... Model Summaryb

.317a .101 .099 11.332Model1



Predictors: (Constant), b0_fses Father's SES at 0a.

Dependent Variable: b10_math British Ability Scale(BAS) 72 items

b.

Coefficientsa

33.692 1.365 24.677 .000

3.355 .395 .317 8.491 .000

(Constant)b0_fses Father'sSES at 0

Model1

B Std. Error


Beta


t Sig.

Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsa.

44

Forskningfråga Kan vi predicera matematikprestation med faders SES, födelseordning och födelsevikt?

Analyze regression linear

45

Korrelation, varians and kovarians

-1 ≤ rxy ≤ 1

ρ =

Varians-kovarians matrisens storlek: p (p+1) / 2, där p = antal variabler

Exempel: fyra variabler (en y och tre x): 4 (4+1) / 2 = 10av vilka fyra är varianser och sex kovarianser

cov(x,y)

σx σy

22 )()())((yyxx

yyxxSS

SSr

ii

ii

yx

xyxy

−Σ−Σ

−−Σ==

46

Sums of Squares and Cross Productsb10_math b0_fses b0_chord b0_weigh

b10_math 91878.8b0_fses 2762.9 822.2b0_chord -3215.8 -155.6 1759.4b0_weigh 356033.1 36544.8 52287.6 181645096.2

Variances and Covariancesb10_math b0_fses b0_chord b0_weigh

b10_math 142.4b0_fses 4.3 1.3b0_chord -5.0 -0.2 2.7b0_weigh 552.0 56.7 81.1 281620.3

Correlations b10_math b0_fses b0_chord b0_weigh M SD

b10_math 1.00 44.6 11.9b0_fses 0.32 1.00 3.3 1.1b0_chord -0.25 -0.13 1.00 2.5 1.7b0_weigh 0.09 0.09 0.09 1.00 3333.7 530.7

Listwise n = 646

91878.8 / (N-1) = 142.4

4.3 / (11.9)(1.1) = .32

142.4 / (SDx)(SDy) = 1

47

Handberäkning av multipel regression genom matris algebra(t.ex. Miles & Shevlin, 2001, ss 222-227; Tabachnick, & Fidell, 2001, Appendix).

inverse of Correlation matrix of Ivs standardised (bo_fses, b0_chord, b0_weigh) rxy DV & Ivs betas

1.049 0.182 -0.166 0.344 0.2810.182 1.055 -0.182 -0.229 -0.224

-0.166 -0.182 1.049 0.054 0.081× =

48

Korrelationsmatris, signifikansnivåer och sampelstorlek (saknade data radvis uteslutna)

Correlations

1.000 .318 -.253 .087

.318 1.000 -.129 .095

-.253 -.129 1.000 .092

.087 .095 .092 1.000

. .000 .000 .013

.000 . .000 .008

.000 .000 . .009

.013 .008 .009 .

646 646 646 646

646 646 646 646

646 646 646 646

646 646 646 646

b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b0_chord birthorder ofchildb0_weigh weight atbirth in gramsb10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b0_chord birthorder ofchildb0_weigh weight atbirth in gramsb10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b0_chord birthorder ofchildb0_weigh weight atbirth in grams

Pearson Correlation

Sig. (1-tailed)

N

b10_math British AbilityScale (BAS)

72 items

b0_fses Father'sSES at 0

b0_chord birthorderof child

b0_weigh weight at birth

in grams

49

ögna mera utskrifter

Vad upptäcker vi?* Stryka och riktning hos korrelationskoefficienter * Undersökningsgruppen har decimerats (radvis uteslutning av saknade datapunkter)* Alla variabler är mätta med olika skaltyper (standardiserat matematiktest, SES, födelseordning, gram)

Descriptive Statistics

44.63 11.935 646

3.27 1.129 646

2.51 1.652 646

3333.73 530.679 646

b10_math British AbilityScale (BAS) 72 itemsb0_fses Father's SESat 0b0_chord birthorder ofchildb0_weigh weight atbirth in grams


50

H0: r2 = 0, H1 : r2 > 0

ANOVAb

14070.929 3 4690.310 38.700 .000a

77807.907 642 121.19691878.836 645


Model1


Predictors: (Constant), b0_weigh weight at birth in grams, b0_chord birthorder ofchild, b0_fses Father's SES at 0

a.

Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsb.

Model Summaryb

.391a .153 .149 11.009Model1



Predictors: (Constant), b0_weigh weight at birth ingrams, b0_chord birthorder of child, b0_fses Father'sSES at 0

a.

Dependent Variable: b10_math British Ability Scale(BAS) 72 items

b.

I multipelregression är R korrelationen

mellan y och y`.

R2 är andelen förklarad varians

51

Mat` = 32.89 + 2.97 (FSES) –1.62 (birth order) + .002 (birth weight)

Coefficientsa

32.888 2.985 11.017 .000

2.973 .389 .281 7.633 .000

-1.619 .266 -.224 -6.083 .000

.002 .001 .081 2.215 .027

(Constant)b0_fses Father'sSES at 0b0_chord birthorder of childb0_weigh weightat birth in grams

Model1

B Std. Error


Beta


t Sig.


Värdet för matematik vid

10 när alla prediktorer är

noll

När faders SESökar ett steg ökar matematik 2.97

steg

När födelseordning

ökar ett steg minskar

matematik 1.62steg

När födelsevikt ökar ett steg ökar matematik .002

steg52

Standardiserade betan

i

jkijkij s

sb ⋅⋅ =β 281.

935.11129.1973.2 =

224.935.11652.1619.1 −=−

081.935.11

7.530002. =

ostandardiserad b SD av OV

SD av BV

53

Jämför standardiserade betanMat ` = 0 + .281 (FSES) – .224 (birth order) + .081 (birth weight)

Coefficientsa

32.888 2.985 11.017 .000

2.973 .389 .281 7.633 .000

-1.619 .266 -.224 -6.083 .000

.002 .001 .081 2.215 .027


Model1

B Std. Error


Beta


t Sig.


När faders SES ökaren

standardavvikelse ökar matematik .281

st av

När födelseordning ökar en st av

minskar matematik.224 st av

När födelsevikt ökar en

standardavvikelse ökar matematik

.081 st av

54

Testa signifikansnivårn för standardiserade betan:

t = B / SEb = 2.973 / .389 = 7.633

Coefficientsa

32.888 2.985 11.017 .000

2.973 .389 .281 7.633 .000

-1.619 .266 -.224 -6.083 .000

.002 .001 .081 2.215 .027


Model1

B Std. Error


Beta


t Sig.


Sign nivåer

p0.05 = 1.96

p0.01 = 2.58

p0.001 = 3.29

0 :H;0 :H 10 ≠= ββ

55

En BV och 3 OVer Standard regression

a bc de

OV1

BVOV2

OV3

OV1

BVOV2

OV3

56

Sekventiell Stegvis

OV1

BV

OV3

OV1

BV

OV3

OV2 OV2

57

* Medierande variabel

Effekten av OV1 är reducerad när OV2 inkluderas

X Y

Effekten av OV1 går ”via” OV2

X Z Y

β = .40

β = .35 β = .45

β = .05

OV1 BV

BVOV1

OV2 58

* Moderator / interaktionseffektÄr lutningskoefficienterna mellan OV1 och BV olika i olika subgrupper av

OV2?

Grupp A Grupp B Grupp C

OV1 OV1 OV1

BV

BV

BV

58

IV1DV IV1DV IV1DV

59

* Supressor variabelen variabel som ökar sambandet mellan OV och BV när kontrollerad för

(rätt ovanlig och ibland svårtolkad)

BV1

OV

BV1

OV Supr

esso

r

60

Model Summaryc

.425a .181 .178 10.780 .181 68.796 2 623 .000

.465b .216 .210 10.570 .035 9.339 3 620 .000

Model12



R SquareChange F Change df1 df2 Sig. F Change

Change Statistics

Predictors: (Constant), b0_msla mothers school leaving age, b0_fses Father's SES at 0a.

Predictors: (Constant), b0_msla mothers school leaving age, b0_fses Father's SES at 0, gender, b0_weigh weight at birthin grams, b0_chord birthorder of child

b.

Dependent Variable: b10_math British Ability Scale (BAS) 72 itemsc.

Två block predicterande matematik vid 10

Block 1: faders SES, mors ålder vid avslutad skolgångBlock 2: barnets födelseordning, födelsevikt, kön

Modell 2 förklarar mer varians än modell 1

61

Coefficientsa

35.134 1.362 25.800 .000

2.160 .432 .204 4.997 .000

7.263 1.023 .290 7.097 .000

36.925 3.336 11.069 .000

1.982 .426 .187 4.655 .000

6.616 1.014 .264 6.526 .000

-1.332 .265 -.183 -5.034 .000

.001 .001 .052 1.435 .152

-1.043 .851 -.044 -1.225 .221

(Constant)b0_fses Father'sSES at 0b0_msla mothersschool leaving age(Constant)b0_fses Father'sSES at 0b0_msla mothersschool leaving ageb0_chord birthorder of childb0_weigh weightat birth in gramsgender

Model1

2

B Std. Error


Beta


t Sig.


Två block............ 2

Ändras βn i block 1 när

block 2variabler

inkluderas?Predicerar block 2 variabler utfallet kontrollerande för

variabler i block 1? 62

Diagnoser ....

Grafer

Standardiserade residualer emot standardiserade

predicerade värden(homoskedasticitet –heteroskedasticitet)

Är residualer normalt fördelade?

63

Är residualerna normalt fördelade?

64

Är residualerna homoskedastiska (”rektangulärt mönster”) eller heteroskedastiska (”icke-rektangulärt mönster”)?

65

Är residualerna homoskedastiska (”rektangulärt mönster”) eller heteroskedastiska (”icke-rektangulärt mönster”)? (BV = nuvarande lön, OV = tidigare lön, employee.sav)

Normalisera variablerna!

66

Coefficientsa

27.750 3.815 7.273 .000

2.384 .563 .224 4.232 .000 .806 1.241

1.670 .446 .197 3.748 .000 .819 1.221

-.908 .388 -.116 -2.341 .020 .920 1.087

.002 .001 .093 1.914 .056 .953 1.049

(Constant)b0_fses Father'sSES at 0b0_mses Mother's SES at 0b0_chord birthorder of childb0_weigh weightat birth in grams

Model1

B Std. Error


Beta


t Sig. Tolerance VIFCollinearity Statistics


Kolinearitet (Field, 2005, p. 196)

Varians inflation inte ”substantiellt mera” än 1

(enligt LM ca 2 till 2.5)

Tolerans inte under .2

67

Regression och variansanalys (teach.sav)

* Uttryck variansanalys som en regressionsmodell* Skapa dummy variabler för faktor* Antalet dummy variabler = antalet nivåer minus ett * Välj basgrupp t ex grupp A (ingen dummy för A)

dummy_B [0 = metod A eller C, 1 = metod B]dummy_C [0 = metod A eller B, 1 = metod C]

Testscore = a + b1(dummy_B) + b2(dummy_C)

68

Som variansanalys som regressionANOVA

SCORE

36.933 2 18.467 10.863 .00220.400 12 1.70057.333 14

Between GrouWithin GroupTotal

Sum of Squares df Mean Square F Sig.

ANOVAb

36.933 2 18.467 10.863 .002a

20.400 12 1.70057.333 14


Model1


Predictors: (Constant), DUMMY_C, DUMMY_Ba.

Dependent Variable: RESULTATb.

Descriptives

SCORE

5 14.00 1.581 12 165 16.40 1.140 15 185 12.60 1.140 11 14

15 14.33 2.024 11 18

123Total

N Mean Std. Deviation Minimum Maximum

Coefficientsa

14.000 .583 24.010 .0002.400 .825 .579 2.910 .013

-1.400 .825 -.338 -1.698 .115

(Constant)DUMMY_BDUMMY_C

Model1

B Std. Error


Beta


t Sig.

Dependent Variable: RESULTATa.

Resultat = a + b1(dummy_B) + b2(dummy_C)

Resultat = 14 + 2.4 (dummy_B) –1.4 (dummy_C)

69

Regression med dummy variabler

70

Log-odds och logistisk regression

1904 undersökte Karl Pearson ifall vaccinering kunde minska dödlighet hos englelska soldater (Simpson, R. J. S., & Pearson, K. (1904). Report on certain enteric fever inoculation statistics. The British Medical Journal, 2, 1243-1246.)

Hypoteser med tydlig riktning (pearson chi-square.sps):H0: vaccinering orelaterad med undgående av sjukdomH1: vaccinering relaterad med undgående av sjukdom

inocul incoulated * escape escaped disease Crosstabulation

Count

75 204 27932 265 297

107 469 576

0 non-inoculated1 inoculated

inocul incoulated

Total

0 caughtdisease 1 escaped

escape escapeddisease

Total

inocul incoulated * escape escaped disease Crosstabulation

75 204 27951.8 227.2 279.0

32 265 29755.2 241.8 297.0107 469 576

107.0 469.0 576.0

CountExpected CountCountExpected CountCountExpected Count

0 non-inoculated

1 inoculated

inocul incoulated

Total

0 caughtdisease 1 escaped

escape escapeddisease

Total

Jämför observerade

med förväntade

värden

Symmetric Measures

.207 .000

.207 .000

.203 .000

.207 .039 5.023 .000

.161 .032 5.023 .000

.506 .086 5.023 .000

.207 .039 5.069 .000c

.207 .039 5.069 .000c

.164 .033 4.967 .000576

PhiCramer's VContingency Coefficient

Nominal by Nominal

Kendall's tau-bKendall's tau-cGammaSpearman Correlation

Ordinal by Ordinal

Pearson's RInterval by IntervalKappaMeasure of Agreement

N of Valid Cases

ValueAsymp.

Std. Errora Approx. Tb Approx. Sig.

Not assuming the null hypothesis.a.

Using the asymptotic standard error assuming the null hypothesis.b.

Based on normal approximation.c.

Chi-Square Tests

24.676b 1 .00023.622 1 .00025.172 1 .000

.000 .000

24.633 1 .000

.000c

576

Pearson Chi-SquareContinuity Correctiona

Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationMcNemar TestN of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea.

0 cells (.0%) have expected count less than 5. The minimum expected count is 51.83.

b.

Binomial distribution used.c.

Godta H1

Korrelationskoefficient

Beräkna odds-kvot (effektstorlek)

Vad är effekten av vaccinering? Hur mycket mer sannolikt är det undfly sjukdom ifall man är vaccinerad?

”chi-square and odds-ratio” i ”calculator.xls”

observed values observed proportions0 1 0 1

0 75 204 0 0.1302 0.35421 32 265 1 0.0556 0.4601

OR = 3.04 OR = 3.04

Risk Estimate

3.045 1.937 4.786

2.495 1.706 3.649

.819 .755 .889

576

Odds Ratio forinocul incoulated(0 non-inoculated /1 inoculated)For cohort escape escaped disease =0 caught diseaseFor cohort escape escaped disease =1 escapedN of Valid Cases

Value Lower Upper

95% ConfidenceInterval

207.0576

68.24

68.24

04.335.06.46.13.

04.32043226575

2

2

====

=

=××

=

=××

=

=

nr

ES

ES

bcadES

OR

OR

OR

χφ

χ

not escape escapenon-inoc 75 204inoc 32 265

oddskvot = 3.04. Det skulle vara 3.04 mer sannolikt att en

vaccinerad patient skulle undfly sjukdom än en icke-

vaccinerad patient

77

Ibland är den beroende variabeln dikotom [0,1] t.ex. antagen till ett universitet, godkänd / icke godkänd vi skulle tala om ”vilken chans har en viss person att bli

antagen till universitet” eller ”hur stor chans har man att klara sig?”.

Sannolikhet mellan 0 och 1

Oddskvot = =sannolikheten att P inträffar P

1 – (sannolikheten att P inträffar) 1 – P

78

Sannolikheten att kasta en fyra på en sex-sidig tärning: ”1 chans på 6”, ”1/6 = 0.167”

Oddskvot = = 0.2 eller oddsen är ett emot fem att du kastar en fyra

Sannolikheten att inte kasta en fyra på en sex-sidig tärning: ”5 chanser på 6”, ”5/6 = 0.83”

Oddskvot = = 5 eller oddsen är fem emot ett att du inte kastar en fyra

0.1670.833

0.8330.167

79

Logistisk regression * Beroende variabel är dikotom [0,1]* Oberoende variabler kan vara nominal eller kontinuerliga (3+stegs nominalskalevariabler dummy-kodas)* Inga antaganden on normalitet

Exampel* Hur predicerar kön (0 = kvinna, 1 = man), och partitillhörighet (0 = tillhör inte, 1 = tillhör) ifall man röstar (0 = röstar inte, 1 = röstar)? (vote.sav)

80

81

Logit (ex) funktionen är vackere = 2.7182logit(p)=log(p/(1-p)) naturlig logaritm av (p/(1-p))

Maximum Likelihood estimering

Yi = e a + b1x1 + b2x2

1 + e a + b1x1 + b2x2

inträffarhändelsen att ten sannolikhedär 1

oddskvot

=−

=

pp

p

p p/(1-p) Logit(p/(1-p) EXP(x)0.01 0.01 -4.595 0.01010.05 0.05 -2.944 0.05260.10 0.11 -2.197 0.11110.20 0.25 -1.386 0.25000.30 0.43 -0.847 0.42860.40 0.67 -0.405 0.66670.50 1.00 0.000 1.00000.60 1.50 0.405 1.50000.70 2.33 0.847 2.33330.80 4.00 1.386 4.00000.90 9.00 2.197 9.00000.95 19.00 2.944 19.00000.99 99.00 4.595 99.0000

83

Analysis regression binary logistic

84

Analysis regression binary logistic save

85

...... binary logistic options

86

Block 1: Method = Enter Jämför ”tom”modell med model som innehåller

prediktorer

-2LL, och“pseudo-R2”

Omnibus Tests of Model Coefficients

7.761 2 .0217.761 2 .0217.761 2 .021

StepBlockModel

Step 1Chi-square df Sig.

Model Summary

19.965a .322 .429Step1

-2 Loglikelihood

Cox & SnellR Square

NagelkerkeR Square

Estimation terminated at iteration number 4 becauseparameter estimates changed by less than .001.

a.

87

Classification Tablea

8 2 80.02 8 80.0

80.0

Observed0 did not vote1 voted

vote

Overall Percentage

Step 10 did not vote 1 voted

vote PercentageCorrect

Predicted

The cut value is .500a.

Observeradoch

predicerad grupp

% försöks-peronser som

är klassificerade

korrekt

88

Variables in the Equation

-.254 1.126 .051 1 .822 .776 .085 7.0452.757 1.120 6.060 1 .014 15.747 1.754 141.386

-1.239 1.014 1.491 1 .222 .290

genderpartyConstant

Step1

a

B S.E. Wald df Sig. Exp(B) Lower Upper95.0% C.I.for EXP(B)

Variable(s) entered on step 1: gender, party.a.

Lutningskoefficient: betakoefficientförändring i log-odds

Wald test signifikanstest för lutningskoefficient,

Bj

SEBj

W =

INTERCEPT

Odds-ratio (uttryckt som exponenten av log-odds)

89


-.254 1.126 .051 1 .822 .776 .085 7.0452.757 1.120 6.060 1 .014 15.747 1.754 141.386

-1.239 1.014 1.491 1 .222 .290

genderpartyConstant

Step1

a



När variabeln ”kön” antar det högre värdet är Fp .776 gånger mer benägen att rösta (n.s.)

När variabeln ”partitillhörighet ”antar det högre värdet är Fp 15.75gånger mer benägen att rösta (p<.05)

Konfidensintervallen stora vilket indikerar att stickprovet är litet

90


-.254 1.126 .051 1 .822 .776 .085 7.0452.757 1.120 6.060 1 .014 15.747 1.754 141.386

-1.239 1.014 1.491 1 .222 .290

genderpartyConstant

Step1

a



Beräkna e i x:te potens

91

Predicerad sannolikhet att tillhöra BV kategorin 1

Prediceradgrupp

92

Step number: 1

Observed Groups and Predicted Probabilities

8 ô ôó óó ó

F ó óR 6 ô d ôE ó d óQ ó d v v óU ó d v v óE 4 ô d v v v ôN ó d v v v óC ó d v v v óY ó d v v v ó

2 ô d d v d ôó d d v d óó d d v d óó d d v d ó

Predicted òòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòòProb: 0 .25 .5 .75 1Group: ddddddddddddddddddddddddddddddvvvvvvvvvvvvvvvvvvvvvvvvvvvvvv

Predicted Probability is of Membership for votedThe Cut Value is .50Symbols: d - did not vote

v - votedEach Symbol Represents .5 Cases.

93

Forskningsfråga Predicerar fars SES vid födelse, matematikförmåga vid 10, och mors engagemang i barnets utbildning ifall 30-åringar är har manuell eller icke-manuell SES? (bcs70.sav)Analyze regression binary logistic

BV 0 = manuell, 1 = icke-manuell

Block 1: FarsSES vid 0, Block 2: Matematik vid 10, Block 3: mors engagemang vid10

94


12 121 9.04 246 98.4

67.4

Observed0 manual1 non-manual

CMs SES at 30dichotomised

Overall Percentage

Step 10 manual

1 non-manual


PercentageCorrect

Predicted



.427 .108 15.528 1 .000 1.533-.746 .358 4.339 1 .037 .474

b0_fsesConstant

Step1

a

B S.E. Wald df Sig. Exp(B)

Variable(s) entered on step 1: b0_fses.a.

Modell 1: Enbart konstant Modell 2: Fars SES vid födelse

Model Summary

477.593a .044 .060Step1

-2 Loglikelihood

Cox & SnellR Square

NagelkerkeR Square


a.


17.039 1 .00017.039 1 .00017.039 1 .000

StepBlockModel


Jämför tom model med prediktormodell, H0:

modellen passar ej data bättre, H1: modellen bättre

Fars SES förklarar 4.4 eller 6.0% av

variansen

För varje steg fars SES är sannolkiheten

att ha en icke-manuell SES som vuxen 1.5 gånger

större

95

......Modell 3: Fars SES vid födelse och matematik poäng vid 10


29.743 1 .00029.743 1 .00046.782 2 .000

StepBlockModel


Model Summary

447.849a .115 .159Step1

-2 Loglikelihood

Cox & SnellR Square

NagelkerkeR Square


a.


42 91 31.631 219 87.6

68.1

Observed0 manual1 non-manual


Overall Percentage

Step 10 manual

1 non-manual


PercentageCorrect

Predicted



.249 .117 4.553 1 .033 1.283

.057 .011 26.945 1 .000 1.059-2.768 .545 25.785 1 .000 .063

b0_fsesb10_mathConstant

Step1

a


Variable(s) entered on step 1: b10_math.a.

Jämför Modell 2 med Modell 3, H0: modellenpassar ej data bättre, H1:

modellen passar data bättre

Fars SES och matematikpoäng

förklarar 11.5 eller15.9% av variansen

96

......Modell 4: Fars SES vid födelse, matematik poäng vid 10, och mors engagemang vid 10


.225 .118 3.623 1 .057 1.252

.051 .011 20.091 1 .000 1.053

.254 .129 3.858 1 .050 1.289-3.512 .674 27.116 1 .000 .030

b0_fsesb10_mathb10_minvConstant

Step1

a


Variable(s) entered on step 1: b10_minv.a.

Model Summary

443.968a .124 .171Step1

-2 Loglikelihood

Cox & SnellR Square

NagelkerkeR Square


a.

97

Raportera resultat?* Tabeller kan läsas separat från publikationen de ingår i * Klar titel* INTE SPSS utskrifter (t.ex. Excel)* Inkludera alla viktiga parametrar (t.ex. OR, B, S.E., p, pseudo R2)

Table 1. Prediction of social class at 30 (0 = manual, 1 = non-manual worker)(Logistic regression)Model 1 Model 2 Model 3

B S.E. OR p B S.E. OR p B S.E. OR pConstant -0.75 0.36 0.47 * -2.77 0.55 0.06 *** -3.51 0.67 0.03 ***Father's SES at birth 0.43 0.11 1.53 *** 0.25 0.12 1.28 * 0.22 0.12 1.25Math ability at 10 0.06 0.01 1.06 *** 0.05 0.01 1.05 ***Mother involvement at 10 0.25 0.13 1.29 *Cox and Snell R2 0.04 0.11 0.11Nagelkerke R2 0.06 0.16 0.16-2LL 477.59 447.85 443.97∆-2LL (χ2) 29.74 *** 3.88 *

98

99

Sylva, K., Stein, A., Leach, P., Barnes, J., Malmberg, L-E & FCCC (2007). Family and child factors related to the use of infant care: an English study. Early Childhood Research Quarterly, 22, 118-136. 100

Sedan då? Vad är nästa steg?

* Multivariat statistik inkörsport till avancerade modeller* Nu blir det riktigt intressant!

* Flernivå regressionsmodellerför hierarkiskt organiserat data (t.ex. studerande i klassrum)

* Strukturektavtionsmodellerför att undersöka kvaliteten av en mätning (dvs. strukturell validitet)specificera modeller för latenta variabler

* Itemrespons modeller (Item Response Theory)för att undersöka kvaliteten av en mätning i standardiserade test

* Meta-analys, hantering av saknade data mm

101

Hierarkiska (’ multilevel ’) regessionsmodellerDe flesta fenomen är hierarkiskt organiserade i nivåer t.ex.barn inom familjer, familjer i stadsdelar, elever i klassrum, klassrum i skolor, skolor i distrikt i länder....

Även longitudinellt:t.ex. tidpunkter inom individer

Varför hierarkiska regessionsmodellerIfall man ignorerar nivåerna kan man underskatta andelen varians förklarad

av olika kontextuella nivåerExplicit fokus på varians (jmfr. antaganden om homogenitet i variansanalys)

102

Kontextuella modeller (t.ex. Bronfenbrenner)

Skoldistrikt

Klass / skola

Elev

Klass

Individ

Tid

* Rimligt antal observationer på varje nivåt.ex. 3+ tidpunkter, 30+ klassrum, 30+ distrikt

103

Sambandet mellan hemarbete och matematik prestation

ett intercept och en lutnings- ett intercept för varje skola koefficient för totalsamplet i samplet, samma lutnings-

koefficient”random intercept model”

HEMARB

MA

T

MA

T Skola 1

Skola 2

Skola 3

Skola 4

HEMARB

104

Sambandet mellan hemarbete och matematik prestation

en lutnings koefficient för ett intercept och en lutnings- varje skola, men samma för varje skola ”random intercepts andintercept slopes””random slopes”

MA

T

MA

THEMARB HEMARB

105

PISA-2003 matematik resultat for 45 finländska skolklasser (45 klasser av 197)

00001

00003

00005

00007

00009

00011

00013

00015

00017

00019

00021

00023

00025

00027

00029

00031

00033

00035

00037

00039

00041

00043

00045

S c h o o l ID

2 0 0 .0 0 0 0

4 0 0 .0 0 0 0

6 0 0 .0 0 0 0

8 0 0 .0 0 0 0

1 0 0 0 .0 0 00

Plausible value in math

52 7

106

Tolking från skoleffektivitetslitteraturen (Bryk / Raudenbush, 1992, s. 11). Skola A mer effektiv (`effective`) och jämställd

(`equitable`) än skola B.

Några referenser om statistikens historia (för den vetgirige)

Fisher, J. B. (1978). R.A. Fisher: The Life of a Scientist. New York: Wiley.Cowles, M. (2001). Statistics in Psychology. An historical perspective (2nd edit.). Mahwah, NJ.: Lawrence Erlbaum. Gilham, N. W. (2001). A life of Sir Francis Galton. From African explorer to the birth of eugenics. Oxford: Oxford University Press. Hald, A. (1998). A history of mathematical statistics from 1750 to 1930. Hoboken, NJ.: Wiley.Hald, A. (2003). History of probability and statistics and their applications before 1750.Hoboken, NJ.: Wiley. Hald, A. (2007). A history of parametirc statistical inference from Bernoulli to Fisher, 1713-1935. New York, NY: Springer.Jaynes, E. T. (2003). Probability theory. The logic of science. Cambridge: Cambridge University Press. Pearl, J. (2000). Causality, reasoning, and inference. Cambridge: Cambridge University Press. Porter, T. M. (2004). Karl Pearson. The scientific life in a statistical age. Princeton: Princeton University Press.

Kvantitativa metoder, - vasa.abo.fi · Tolka korrelationskoefficienterna mellan populationsstorlek,...

Documents

Transcript of Kvantitativa metoder, - vasa.abo.fi · Tolka korrelationskoefficienterna mellan populationsstorlek,...