ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov...

22
ΑΣΚΗΣΗ 7 (ΛΥΣΗ) Στο αρχείο του SPSS θα υπάρχουν οι μεταβλητές, Time: η ώρα γέννησης (4 ψηφία, τα δύο πρώτα είναι ώρες και τα άλλα δυο λεπτά), Sex: το φύλο (1:κορίτσι, 2:αγόρι), Weight: το βάρος του νεογέννητου σε γραμμάρια 0. Αρχικά πρέπει να κατασκευάσουμε μια νέα μεταβλητή που θα περιέχει τους χρόνους γέννησης σε λεπτά, από την αρχή της ημέρας. Αυτό γίνεται διότι το SPSS δεν μπορεί να «καταλάβει» ότι οι τιμές της στήλης TIME είναι ώρες και όχι αριθμοί. Η νέα μεταβλητή (minutes) που θα περιέχει τα λεπτά, κατασκευάζεται ως εξής Transform / compute: Target variable: minutes Numeric expression : Trunc(time/100)60 +(time-Trunc(time/100)100) Στη συνέχεια , για να γίνει το Scatterplot Scatterplot /simple με Y axis: weight X axis: minutes Set Markers:sex

Transcript of ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov...

Page 1: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

ΑΣΚΗΣΗ 7 (ΛΥΣΗ) Στο αρχείο του SPSS θα υπάρχουν οι µεταβλητές,

Time: η ώρα γέννησης (4 ψηφία, τα δύο πρώτα είναι ώρες και τα άλλα δυο λεπτά), Sex: το φύλο (1:κορίτσι, 2:αγόρι), Weight: το βάρος του νεογέννητου σε γραµµάρια

0. Αρχικά πρέπει να κατασκευάσουµε µια νέα µεταβλητή που θα περιέχει τους

χρόνους γέννησης σε λεπτά, από την αρχή της ηµέρας. Αυτό γίνεται διότι το SPSS δεν

µπορεί να «καταλάβει» ότι οι τιµές της στήλης TIME είναι ώρες και όχι αριθµοί. Η νέα

µεταβλητή (minutes) που θα περιέχει τα λεπτά, κατασκευάζεται ως εξής

Transform / compute:

Target variable: minutes

Numeric expression : Trunc(time/100)∗60 +(time-Trunc(time/100)∗100)

Στη συνέχεια , για να γίνει το Scatterplot

Scatterplot /simple µε

Y axis: weight

X axis: minutes

Set Markers:sex

Page 2: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 2

Περνάµε ως Set markers by, το sex , για να έχουµε διαφορετικό χρώµα στα σηµεία,

όταν αντιστοιχούν σε διαφορετικό φύλο.

MINUTE

16001400

12001000

800600

400200

0

WE

IGH

T

5000

4000

3000

2000

1000

SEX

male

female

(δε φαίνεται να υπάρχει σχέση µεταξύ ώρας γέννησης και βάρους – δε θα ήταν και

λογικό).

Page 3: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 3

1. Εδώ χρειάζεται να κάνουµε ένα t-test for independent samples, αφού ελέγξουµε

και τις προϋποθέσεις του (κανονικότητα-που θα δούµε σε επόµενα ερωτήµατα, πως

ελέγχεται- και ισότητα διασπορών). Για να κάνουµε t-test for independent samples

πηγαίνουµε,

Analyze/ compare means/ Independent-samples T test

Test variables: weight

Grouping variable: sex (define groups/ Group 1:1,Group 2:2)

Continue/OK.

(είτε βάλουµε ως Group 1: 1 και Group 2: 2, είτε το αντίστροφο, δεν υπάρχει

πρόβληµα)

Group Statistics

18 3132,4444 631,58253 148,8654326 3375,3077 428,04605 83,94674

SEXfemalemale

WEIGHTN Mean Std. Deviation

Std. ErrorMean

Page 4: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 4

Independent Samples Test

4,355 ,043 -1,523 42 ,135 -242,8632 159,47875 -564,704 78,97791

-1,421 27,631 ,166 -242,8632 170,90340 -593,154 107,42729

Equal variancesassumedEqual variancesnot assumed

WEIGHTF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Για α=0.05, η ισότητα των διασπορών απορρίπτεται (pvalue=0.043<0.05), µε

αποτέλεσµα, το pvalue για τον έλεγχο ισότητας µέσων τιµών, να είναι 0.166 (εάν δεν

απορρίπταµε την ισότητα των διασπορών, ως pvalue για τον έλεγχο ισότητας των

µέσων τιµών, θα χρησιµοποιούσαµε το 0.135). Εποµένως, η ισότητα των µέσων τιµών

δεν µπορεί να απορριφθεί.

2. Στο ερώτηµα αυτό, που ουσιαστικά ελέγχουµε την υπόθεση,

MF

MF

ppHppH

≠=

::

1

0

µπορούµε να απαντήσουµε µε δυο τρόπους, Analyze/non parametric tests/chi-square/test variable:sex, all categories equal

ή Analyze/non parametric tests/Binomial/test variable: sex, test proportion: 0,50

(αφού έχουµε εξετάσει ότι οι προϋποθέσεις στα δυο παραπάνω τεστ, ικανοποιούνται)

Page 5: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 5

Test Statistics

1,4551

,228

Chi-Squarea

dfAsymp. Sig.

SEX

0 cells (,0%) have expected frequencies less than5. The minimum expected cell frequency is 22,0.

a.

Binomial Test

female 18 ,41 ,50 ,291a

male 26 ,5944 1,00

Group 1Group 2Total

SEXCategory N

ObservedProp. Test Prop.

Asymp. Sig.(2-tailed)

Based on Z Approximation.a.

Το pvalue από το chi-square test, είναι 0.228 (>0.05) και από το Binomial test,

0.291(>0.05). Η ισότητα των πιθανοτήτων δεν µπορεί να απορριφθεί, χρησιµοποιώντας

οποιαδήποτε από τα δυο τεστ.

(για δίτιµες τ.µ. το chi-square test και το ασυµπτωτικό Binomial τεστ είναι ισοδύναµα -

αν εξαιρέσει κανείς τη διόρθωση συνέχειας)

3. Επειδή δεν υπάρχει κάποιος λόγος να πιστεύουµε ότι σε κάποιο διάστηµα της

ηµέρας, υπάρχει µεγαλύτερη πιθανότητα να γεννηθεί ένα παιδί, θα εξετάσουµε εάν οι

χρόνοι γέννησης (σε λεπτά από την αρχή της ηµέρας), προέρχονται από µια

οµοιόµορφη (συνεχή) κατανοµή.

Ο έλεγχος της προσαρµογής κάποιων δεδοµένων σε µια κατανοµή,

πραγµατοποιείται γραφικά, από τα Histogram, Q-Q plot ή P-P plot. Οπότε έχουµε ,

Histogram: Graphs/ Histogram: variable:minutes/ OK

QQ Plot: Graphs/ QQ Plot: Variables: minutes,

Test Distribution : Uniform

Proportion estimation formula: Van der Waerdens

PP Plot: Graphs/ PP Plot: Variables: minutes,

Test Distribution : Uniform

Proportion estimation formula:Van der Waerdens

Page 6: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 6

Page 7: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 7

MINUTE

1400,0

1200,0

1000,0

800,0600,0

400,0200,0

0,0

6

5

4

3

2

1

0

Std. Dev = 416,07 Mean = 788,7N = 44,00

Uniform P-P Plot of MINUTE

Observed Cum Prob

1,0,8,5,30,0

Expe

cted

Cum

Pro

b

1,0

,8

,5

,3

0,0

Uniform Q-Q Plot of MINUT

Observed Value

16001400

12001000

800600

400200

0-200

Expe

cted

Uni

form

Val

ue

1600

1400

1200

1000

800

600

400

2000

Το chi-square test δεν µπορεί να γίνει απευθείας στο SPSS (κάνει chi-square µόνο για

κατηγορικά δεδοµένα). Οπότε θα πρέπει αρχικώς να κατηγοριοποιήσουµε τη minutes.

Έτσι για να ελέγξουµε την υπόθεση,

)1440,0(~:0 UniformutesminH

(διότι η minutes εκφράζει λεπτά ,από την αρχή της ηµέρας, µε αποτέλεσµα να παίρνει

τιµές από 0 έως 24*60=1440), χωρίζουµε τη minutes σε k κατηγορίες (χρησιµοποιώντας

k διαστήµατα ίδιου πλάτους). Τότε η ανάγεται στον έλεγχο, 0H

kpppH k /1...: 21'0 ====

Page 8: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 8

(γιατί εάν ισχύει η , η πιθανότητα µια παρατήρηση να ανήκει σε κάποιο από τα k

διαστήµατα, είναι ίδια και ίση µε 1/k, για κάθε διάστηµα). Απορρίπτοντας την ,

απορρίπτουµε και την .

0H

'0H

0H

Εποµένως, τα επόµενο βήµα είναι να ορίσουµε πόσες κατηγορίες της minutes πρέπει να

κατασκευάσουµε (να ορίσουµε δηλαδή, το k). Ξέρουµε µια προϋπόθεση για το chi-

square είναι ότι οι Expected τιµές κάτω από τη µηδενική υπόθεση, πρέπει να είναι

µεγαλύτερες ή ίσες του 5 (για παραπάνω από το 80% των κατηγοριών). Εάν ισχύει η

, τότε τα Expected είναι, '0H

kinpE ii ,...,1, ==

όπου n= 44, τα οποία είναι µεγαλύτερα ή ίσα του 5, όταν . Έτσι εάν

κατηγοριοποιήσουµε τη minutes, χρησιµοποιώντας 8 διαστήµατα (3 ωρών το κάθε ένα),

η βασική προϋπόθεση του chi-square test θα ικανοποιείται.

8≤k

Η εντολή που θα δώσουµε για να δηµιουργήσουµε τη nminutes (η µεταβλητή που θα

παίρνει τιµές από 0 έως 7, ανάλογα στο ποιο διάστηµα ανήκει κάθε παρατήρηση της

minutes), είναι (υπάρχουν και άλλοι τρόποι)

Transform/compute: Target Variable: nminutes

Numeric Expression: Trunc(minutes/180)

και για να εκτελέσουµε chi-square test µε

test variable: nminutes, all categories equal

Page 9: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 9

Test Statistics

5,4557

,605

Chi-Squarea

dfAsymp. Sig.

NMINUTES

0 cells (,0%) have expected frequencies le5. The minimum expected cell frequency is

a.

NMINUTES

5 5,5 -,54 5,5 -1,54 5,5 -1,55 5,5 -,57 5,5 1,54 5,5 -1,5

10 5,5 4,55 5,5 -,5

44

,001,002,003,004,005,006,007,00Total

Observed N Expected N Residual

Η δεν µπορεί να απορριφθεί (0.605>0.05), οπότε δεν µπορούµε να απορρίψουµε

ότι τα δεδοµένα προέρχονται από µια οµοιόµορφη κατανοµή.

'0H

Το Kolmogorov-Smirnov test (K-S test), για έλεγχο προσαρµογής στην οµοιόµορφη

κατανοµή, γίνεται από (το K-S, χρησιµοποιείται ως τεστ για έλεγχο καλής

προσαρµογής, για συνεχείς κατανοµές-οπότε µπορεί να εφαρµοστεί απευθείας στη

minutes),

Analyze/Non parametric/1 sample K-S,

test variable list: minutes,

test distribution: Uniform

Page 10: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 10

One-Sample Kolmogorov-Smirnov Test

445,00

1435,00,122,038

-,122,812,525

NMinimumMaximum

Uniform Parametersa,b

AbsolutePositiveNegative

Most ExtremeDifferences

Kolmogorov-Smirnov ZAsymp. Sig. (2-tailed)

MINUTE

Test distribution is Uniform.a.

Calculated from data.b.

Η υπόθεση,

)1440,0(~:0 UniformutesminH

πάλι δεν µπορεί να απορριφθεί (0.525>0.05).

4. Εδώ θα πρέπει να φτιάξουµε µια νέα µεταβλητή (την unboy) η οποία θα µετρά

το πλήθος των γεννήσεων µέχρι και τη γέννηση αγοριού (θα παίρνει τιµές

3,1,1,3,1,1,1,1,3,3,1,1,1,5,1,1,2,2,1,1,1,1,2,1,1,1). Προσοχή οι τρεις τελευταίες

παρατηρήσεις θα πρέπει να αγνοηθούν (το τελευταίο παιδί, δεν είναι αγόρι). Αυτές οι

παρατηρήσεις είναι λογικό να προέρχονται από τη γεωµετρική κατανοµή, µε p=0.5 (και

αυτό θα εξετάσουµε) . Κάνουµε το Barchart και chi-square test,

Page 11: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 11

Barchart: Graphs/Bar/simple (summaries for group of cases),

Bar represents: N of cases,

Category axes: unboy

UNBOY

5,003,002,001,00

Cou

nt

20

10

0 1

43

18

Page 12: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 12

Στο chi-square test, µπορούµε να χρησιµοποιήσουµε τις εξής 3 κλάσεις : {1}, {2},

{3,4,…}. Ο λόγος που παίρνουµε αυτές τις 3 κλάσεις, είναι για να έχουµε Expected ,

µεγαλύτερα ή ίσα του 5, κάτω από την υπόθεση,

)1(1),1(,: 3210 pppppppppH −−−=−==

( , όπου n=26- άρα E3,2,1, == inpE ii 1=13, E2=6.5, E3=6.5). Εφαρµόζουµε το chi-

square περνώντας τις τρεις αυτές πιθανότητες στο expected values (µε Add).

Αναλυτικά,

Analyze/Non parametric /Chi-square,

test variable list : qunboy (η µεταβλητή µε τις τρεις προαναφερθείσες

κατηγορίες )

Expected values: καταχωρώ τις τιµές p, pq και 1-p-pq (0.50, 0.25 και 0.25),

(µια-µια ξεκινώντας από εκείνη που αντιστοιχεί στην κατηγορία για την

οποία έχουµε χρησιµοποιήσει το µικρότερο αριθµό).

Page 13: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 13

QUNBOY

18 13,0 5,03 6,5 -3,55 6,5 -1,5

26

1,002,003,00Total

Observed N Expected N Residual

Test Statistics

4,1542

,125

Chi-Squarea

dfAsymp. Sig.

QUNBOY

0 cells (,0%) have expected frequencies less than5. The minimum expected cell frequency is 6,5.

a.

Οπότε η υπόθεση ότι τα δεδοµένα προέρχονται από µια γεωµετρική κατανοµή µε

παράµετρο p=0.5, δεν µπορεί να απορριφθεί (0.125>0.05).

Εάν θέλαµε να εξετάσουµε εάν τα δεδοµένα προέρχονται γενικώς από µια

γεωµετρική κατανοµή, χωρίς να προσδιορίζεται η παράµετρος p, τότε θα έπρεπε το p να

εκτιµηθεί από τα δεδοµένα µας. Σαν εκτίµηση του p παίρνουµε την,

xp /1ˆ =

όπου x η δειγµατική µέση τιµή της unboy (στην περίπτωση µας, ). Οι νέες

πιθανότητες κάθε κατηγορίας είναι (και η νέα µηδενική υπόθεση),

634.0ˆ =p

)ˆ1(ˆˆ1),ˆ1(ˆ,ˆ: 3210 pppppppppH −−−=−==

και,

Page 14: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 14

Test Statistics

2,1532

,341

Chi-Squarea

dfAsymp. Sig.

QUNBOY

1 cells (33,3%) have expected frequencies less tha5. The minimum expected cell frequency is 3,6.

a.

QUNBOY

18 16,4 1,63 6,0 -3,05 3,6 1,4

26

1,002,003,00Total

Observed N Expected N Residual

Αυτό που πρέπει να προσέξουµε τώρα είναι το pvalue που δίνει το πακέτο,

υπολογίστηκε µε το γεγονός ότι το στατιστικό Τ που χρησιµοποιούµε στο chi-square

test, ακολουθεί τη 2X κατανοµή, µε 2 βαθµούς ελευθερίας. Όµως αυτό δεν είναι

σωστό, διότι για να υπολογίσουµε τις αναµενόµενες τιµές (Expected values)κάτω από

την Η0, εκτιµήσαµε το p, µε αποτέλεσµα να χάσουµε ένα ακόµη βαθµό ελευθερίας, κάτι

που δεν υπολόγισε το πακέτο. Έτσι θα πρέπει να βρούµε εµείς το νέο pvalue, από τη

σχέση,

)~153.2( 21XTTPpvalue >=

και από Transform/compute:

είναι pvalue=0.14(>0.05), και πάλι δεν απορρίπτουµε (τώρα λιγότερο εύκολα, σε σχέση

µε το λανθασµένο 0.34).

Page 15: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 15

5. Θα πρέπει να φτιάξουµε µια νέα µεταβλητή η οποία θα µετρά το πλήθος των

γεννήσεων κάθε ώρα, είτε µόνοι µας είτε χρησιµοποιώντας π.χ.

Transform/compute

και µετά να ζητήσουµε τον πίνακα των frequencies της nh.

NH

131422131214121343212

44

,001,002,004,007,008,009,0010,0011,0012,0013,0014,0015,0016,0017,0018,0019,0020,0021,0022,0023,00Total

ValidFrequency

Page 16: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 16

Με copy της στήλης frequency (αφού κάνουµε διπλό κλικ πάνω στον πίνακα) και paste

στα δεδοµένα (στο Data Editor), θα έχουµε τη µεταβλητή qnh, η οποία δίνει το πλήθος

των γεννήσεων ανά ώρα (προσοχή κάποιες ώρες έχουν 0 γεννήσεις, µε αποτέλεσµα να

πρέπει να προστεθούν ανάλογα µηδενικά στα δεδοµένα-συγκεκριµένα σε 3 ώρες δεν

έχουµε γεννήσεις, 03:00, 05:00 και 06:00, οπότε θα προστεθούν 3 µηδενικά).

Η κατανοµή που θα εξετάσουµε είναι η Poisson. Για να κάνουµε chi-square

test, θα πρέπει πάλι να βρούµε τις αναµενόµενες συχνότητες σε κάθε κατηγορία, µέσα

από τον τύπο της συνάρτησης πιθανότητας της Poisson, δηλαδή,

x!exXP

xλ)( λ-==

Επιπλέον, επιβάλλεται να χρησιµοποιήσουµε τόσες κατηγορίες (κλάσεις) ώστε το

αναµενόµενο πλήθος σε κάθε µια να είναι µεγαλύτερο του 5 (σύµφωνα µε τις

προϋποθέσεις του chi-square). Το λ το εκτιµάµε µέσα από τα δεδοµένα και είναι

83.1λ̂ == x , όπου x η µέση τιµή της qnh. Οπότε, εάν χρησιµοποιήσουµε τις κλάσεις,

{0,1}, {2}, {3,4,…}

η πιθανότητα κάθε κλάσης είναι,

28.01ˆ

,27.02

ˆˆ

,45.01

ˆ

0

ˆˆ

213

2

1

=−−=

==

==

ppp!λep

!λ+e

!λep

λ-

λ-λ-

.

και η υπόθεση που θα ελέγξουµε είναι, ,28.0,27.0,45.0: 3110 === pppH

Κατασκευάζοντας και τη µεταβλητή, µε βάση τις 3 παραπάνω κλάσεις (την qqnh-η

οποία θα παίρνει 3 διαφορετικές τιµές, ανάλογα σε ποια κατηγορία ανήκει κάθε τιµή

της qnh), έχουµε ,

Page 17: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 17

QQNH

11 10,8 ,26 6,5 -,57 6,7 ,3

24

1,002,003,00Total

Observed N Expected N Residual

Test Statistics

,0512

,975

Chi-Squarea

dfAsymp. Sig.

QQNH

0 cells (,0%) have expected frequencies less than5. The minimum expected cell frequency is 6,5.

a.

Όµως και πάλι δεν µπορούµε να χρησιµοποιήσουµε το pvalue του πακέτου, για τον ίδιο

λόγο µε την προηγούµενη άσκηση (θα πρέπει να αφαιρέσουµε ένα βαθµό

ελευθερίας).Το σωστό pvalue είναι,

82.0)~051.0( 21 =>= XTTPpvalue

και δεν απορρίπτεται η µηδενική υπόθεση (ότι τα δεδοµένα προέρχονται από µια

Poisson).

Page 18: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 18

6. Κατασκευάζουµε µια νέα µεταβλητή µε τους ενδιάµεσους χρόνους

transform/create time series

(περνάµε στο new variables τη minutes)

Περιµένουµε αυτοί οι χρόνοι να ακολουθούν την εκθετική κατανοµή. Tο chi-square

test πάλι έχει πρόβληµα. Μπορούµε να κάνουµε τα εξής:

Εκτιµούµε την παράµετρο λ της εκθετικής από τα δεδοµένα ( x/1λ̂ = ) και µετά

µετασχηµατίζουµε τους ενδιάµεσους χρόνους T1,T2,…,T43 λαµβάνοντας τους,

Υ1 = F(T1), Υ2 = F(T2),…, Υn-1 = F(T43)

όπου F είναι η σ.κ. της εκθετικής( λ̂ ). Υπό την

Η0: Τi ~ εκθετική ( λ̂ ),

τα Yi θα ακολουθούν την οµοιόµορφη κατανοµή (γνωστή πρόταση) και εποµένως

προχωράµε στον έλεγχο µέσω chi-square αν τα Yi ~ Uniform (όπως σε προηγούµενο

ερώτηµα). Εδώ έχουµε κάνει µια εκτίµηση, του λ, οπότε θα πρέπει να διορθώσουµε το

pvalue του πακέτου, αφαιρώντας πάλι ένα βαθµό ελευθερίας από την κατανοµή του Τ.

Page 19: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 19

Με το Kolmogorov-smirnov test, για έλεγχο προσαρµογής στην εκθετική κατανοµή,

κάνουµε τα εξής (όπως ξέρουµε, το K-S εφαρµόζεται σε συνεχείς κατανοµές),

Analyze/Non parametric/1 sample K-S,

test variable list: η µεταβλητή µε τους ενδιάµεσους χρόνους

test distribution: Exponential

η µεταβλητή µε τους ενδιάµεσους χρόνους

One-Sample Kolmogorov-Smirnov Test

4333,2558

,138,058

-,138

,902,390

NMeanExponential parameter.a,b

AbsolutePositiveNegative

Most ExtremeDifferences

Kolmogorov-Smirnov ZAsymp. Sig. (2-tailed)

DIFF(MINUTE,1)

Test Distribution is Exponential.a.

Calculated from data.b.

Η υπόθεση ότι τα δεδοµένα προέρχονται από µια εκθετική κατανοµή, δεν απορρίπτεται

(0.390>0.05).

Page 20: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 20

7. Ο έλεγχος εάν τα βάρη ακολουθούν την κανονική κατανοµή, γίνεται πολύ

εύκολα (µε βάση ότι έχουµε αναφέρει σε προηγούµενα ερωτήµατα) είτε γραφικά

(Histogram, QQ Plot, PP Plot) είτε από κάποιο τεστ (π.χ. Kolmogorov-Smirnov). Εάν

επιθυµούµε όλα τα παρακάτω να γίνουν ξεχωριστά για κάθε φύλλο, το µόνο που πρέπει

να γίνει, πριν από όλα, είναι ένα Split file, από

Data/ Split File, ενεργοποιώ Compare Groups ή Organized output by groups

και

Groups Based on: Sex.

Για να εφαρµόσουµε το chi-square test, θα πρέπει να ενεργήσουµε όπως στο ερώτηµα 6

(για την εκθετική), µόνο που στο τέλος από την κατανοµή του Τ, θα αφαιρέσουµε 2

βαθµούς ελευθερίας, γιατί χρειάζεται να εκτιµήσουµε και τη µέση τιµή της κανονικής

κατανοµής και τη διασπορά, για να πάρουµε τα Yi.

8. Για το ερώτηµα αυτό πρέπει να γίνει ένα Runs Test, από

Analyze/Non parametric/ Runs,

Test variable list: sex

Cut point: custom (1.5)

Βάζουµε cut point 1.5 διότι έχουµε χρησιµοποιήσει τις τιµές 1 και 2 για να δηλώνουµε

το φύλο, και έτσι το SPSS θα καταλάβει ότι τιµές κάτω του 1.5 είναι η µια κατηγορία

και τιµές µεγαλύτερες του 1.5 η άλλη.

Page 21: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 21

Runs Test

1,54417

-1,507,132

Test Valuea

Total CasesNumber of RunsZAsymp. Sig. (2-tailed)

SEX

User-specified.a.

Η υπόθεση της ανεξαρτησίας δεν µπορεί να απορριφθεί (προσοχή, τα δεδοµένα πρέπει

να είναι διατεταγµένα µε βάση το χρόνο, για να ελέγξουµε την ανεξαρτησία-όπως

δηλαδή εµφανίστηκαν στην πραγµατικότητα οι γεννήσεις).

9. Για το σκοπό αυτό πάµε,

Analyze/Non parametric/ 2-Independent Samples Test,

Test variable list: weight

ενεργοποιούµε τα,

Mann-Whitney U, Kolmogorov-Smirnov Z, Wald Wolfowitz Runs,

και

Grouping Variable: sex (Define Groups/ Group 1:1, Group 2:2).

Page 22: ΑΣΚΗΣΗ 7 (ΛΥΣΗ) - unipi.gr · Άσκηση 7(Λύση) 10 One-Sample Kolmogorov-Smirnov Test 44 5,00 1435,00,122,038-,122,812,525 N Minimum Maximum Uniform Parametersa,b

Άσκηση 7(Λύση) 22

Test Statisticsb,c

20a -,560 ,28822a ,000 ,500

Minimum PossibleMaximum Possible

WEIGHT

Numberof Runs Z

Asymp. Sig.(1-tailed)

There are 1 inter-group ties involving 2 cases.a.

Wald-Wolfowitz Testb.

Grouping Variable: SEXc.

Test Statisticsa

,239,038

-,239,780,576

AbsolutePositiveNegative

Most ExtremeDifferences

Kolmogorov-Smirnov ZAsymp. Sig. (2-tailed)

WEIGHT

Grouping Variable: SEXa.

Test Statisticsa

194,500365,500

-,943,346

Mann-Whitney UWilcoxon WZAsymp. Sig. (2-tailed)

WEIGHT

Grouping Variable: SEXa.

Με κανένα τεστ δεν µπορούµε να απορρίψουµε την υπόθεση ότι η κατανοµή του

βάρους στα δυο φύλα, είναι ίδια (από το Wald Wolfowitz Runs, κοιτάµε το maximum

possible).