3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf ·...

39
ΑΝΑΛΥΣΗ ∆Ε∆ΟΜΕΝΩΝ 3. Στατιστική Συμπερασματολογία για ποιοτικές μεταβλητές

Transcript of 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf ·...

Page 1: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΑΝΑΛΥΣΗ ∆Ε∆ΟΜΕΝΩΝ

3. Στατιστική Συµπερασµατολογίαγια ποιοτικές µεταβλητές

Page 2: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 2

Η έννοια της ΣτατιστικήςΣυµπερασµατολογίας(Statistical Inference)

Συµπερασµατολογία (Inference): εξαγωγήσυµπεράσµατος µε βάση κάποια στοιχείαΣτατιστική Συµπερασµατολογία (Statistical inference): Ένα σύνολο από διαδικασίες µετις οποίες το µέγεθος του δείγµατος καιστατιστικά µέτρα που υπολογίζονται από τοδείγµα χρησιµοποιούνται για την εκτίµησηπαραµέτρων του πληθυσµού

Page 3: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 3

Στατιστικά µέτρα και ΠαράµετροιΣτατιστικά µέτρα (Statistics): τιµές πουυπολογίζονται από το δείγµαΠαράµετροι (Parameters): Τιµές που µπορούννα υπολογιστούν µόνο σε απογραφήπληθυσµού και αποτελούν ακριβείς µετρήσειςτου πληθυσµούΟι παράµετροι αντιπροσωπεύουν «αυτό πουθέλουµε να µάθουµε» για έναν πληθυσµό. Τα στατιστικά χρησιµοποιούνται στην εκτίµησητων παραµέτρων του πληθυσµού

Page 4: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 4

Εκτίµηση παραµέτρωνΕκτίµηση παραµέτρου: η διαδικασία χρήσηςπληροφοριών από το δείγµα για τονυπολογισµό ενός διαστήµατος πουπεριγράφει το εύρος των τιµών που µπορείνα πάρει µια παράµετρος του πληθυσµού µεκάποια πιθανότητα∆ιάστηµα εµπιστοσύνης – δ.ε. (Confidence interval): Ένα εύρος τιµών µέσα στο οποίοέχουµε εµπιστοσύνη ότι θα «πέσει» ηάγνωστη παράµετρος. Η εµπιστοσύνηεκφράζεται µε µια πιθανότητα (συνήθως90%, 95%, 99%)

Page 5: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 5

Κατηγορικές (Ποιοτικές) µεταβλητές

Εύρεση δ.ε. για τα ποσοστά από τονπίνακα συχνοτήτωνΣχέση ανάµεσα σε δύο ποιοτικέςµεταβλητές – διαδικασία Crosstabs

Page 6: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 6

Παράδειγµα (data: L_research.sav)

Type of Question Variable Label

L_use Use L_store N_use Use N_store Dwell Type of Dwelling sex Respondent's Sex work Work Status

Demographic

Commute Pass by L & N stores on way to work? Bargain Look for bargains cash Always pay cash Quick Like quick, easy shopping Knowme Shop where they know my name

Lifestyle

Hurry Always in a hurry

Value Label L_use 0 Do Not Use Regularly 1 Use Regularly N_use 0 Do Not Use Regularly 1 Use Regularly dwell 1 Own Home 2 Rent sex 1 Male 2 Female work 1 Full-Time 2 Part-Time 3 Retired/Do Not Work commute 0 No 1 Yes bargain 1 Disagree 2 Neither Agree Nor Disagree 3 Agree cash 1 Disagree 2 Neither Agree Nor Disagree 3 Agree quick 1 Disagree 2 Neither Agree Nor Disagree 3 Agree knowme 1 Disagree 2 Neither Agree Nor Disagree 3 Agree hurry 1 Disagree 2 Neither Agree Nor Disagree 3 Agree

Page 7: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 7

Εκτίµηση ποσοστού

Να βρεθεί δ.ε. για το ποσοστό τωνκατοίκων περιοχής που έχει δικό τουσπίτιΑπό διαδικασία Frequencies:

Type of Dwelling

29 17,9 17,9 17,9133 82,1 82,1 100,0162 100,0 100,0

Own HomeRentTotal

ValidFrequency Percent Valid Percent

CumulativePercent

p=0.179

q=1-p=0.821n=162

Page 8: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 8

Υπολογισµός δ.ε. για ποσοστό

Ορίζουµε επίπεδο εµπιστοσύνης (confidence level) – συνήθως 95%Από πίνακες κανονικής κατανοµής:

Για 95%δ.ε. ⇒ z=1.96Τύποι υπολογισµού:

npqzp +

npqzp −

Κάτω όριο Άνω όριο

Page 9: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 9

Υπολογισµός δ.ε.

Υπολογισµός:

95% δ.ε.:(0.120, 0.238) ή (12%, 23.8%)

162821.0179.096.1179.0 ⋅

Κάτω όριο Άνω όριο

162821.0179.096.1179.0 ⋅

+

Page 10: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 10

Σχέση δύο µεταβλητών

Παραδείγµατα:Έχουν τα δύο καταστήµατα (L και N) τους ίδιουςπελάτες;Ποιο είναι το δηµογραφικό προφίλ των πελατώντου κάθε καταστήµατος (δηλ. ποια η σχέση τωνδηµογραφικών µεταβλητών µε την προτίµησηκαταστήµατος);Ποιο είναι το προφίλ του τρόπου ζωής τωνπελατών του κάθε καταστήµατος (όµοια για τιςµεταβλητές τρόπου ζωής);

Page 11: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 11

Παράδειγµα

Οι µεταβλητές L_use και N_use έχουντιµές:

1=use regularly0=do not use regularly

Μας ενδιαφέρει να πάρουµε την κοινήκατανοµή τουςΚατασκευή πίνακα συνάφειας(contingency table)

Page 12: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 12

∆ιαδικασία Crosstabs – επιλογή

Page 13: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 13

∆ιαδικασία Crosstabs:Ορισµός µεταβλητών

Στατιστικάµέτρα γιαέλεγχο τηςσχέσης

Ορισµόςµεταβλητώνστιςγραµµές καιστήλες τουπίνακα

Μορφήκελιώνπίνακα

Page 14: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 14

∆ιαδικασία Crosstabs:ορισµός στατιστικών µέτρων

Εµφάνιση ποσοστώνγραµµών, στηλών, συνολικό

Στατιστικόςέλεγχοςανεξαρτησίαςχ2

Page 15: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 15

∆ιαδικασία Crosstabs:Αποτελέσµατα – πίνακας συνάφειας

• Από αυτούς που χρησιµοποιούν τακτικά το L, το 63,9% χρησιµοποιείτακτικά το Ν.

• Από αυτούς που χρησιµοποιούν τακτικά το N, το 37,4% χρησιµοποιείτακτικά το L.

• Από το σύνολο των ερωτηθέντων, το 28.4% χρησιµοποιεί τακτικά και ταδύο µαγαζιά

Use L_s tore * Use N_store Cros stabulation

13 77 9014,4% 85,6% 100,0%33,3% 62,6% 55,6%8,0% 47,5% 55,6%

26 46 7236,1% 63,9% 100,0%66,7% 37,4% 44,4%16,0% 28,4% 44,4%

39 123 16224,1% 75,9% 100,0%

100,0% 100,0% 100,0%24,1% 75,9% 100,0%

Count% w ithin Use L_store% w ithin Use N_store% of TotalCount% w ithin Use L_store% w ithin Use N_store% of TotalCount% w ithin Use L_store% w ithin Use N_store% of Total

Do Not Use Regularly

Use Regularly

Use L_store

Total

Do Not UseRegularly Use Regularly

Use N_store

Total

Page 16: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 16

∆ιαδικασία Crosstabs:Αποτελέσµατα – Στατιστικός έλεγχος

• Επειδή sig.=0.001<0.05, προκύπτει ότι υπάρχει σηµαντική σχέση ανάµεσαστις µεταβλητές

• Απορρίπτεται η υπόθεση της ανεξαρτησίας

Chi-Square Tests

10,273b 1 ,0019,122 1 ,003

10,311 1 ,001,002 ,001

10,210 1 ,001

162

Pearson Chi-SquareContinuity Correctiona

Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea.

0 cells (,0%) have expected count less than 5. The minimum expected count is17,33.

b.

Έλεγχοςχ2

Page 17: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 17

∆ιαδικασία Crosstabs:Αποτελέσµατα – Ερµηνεία του ελέγχου

Από την πλευρά του L:Από αυτούς που δεν το επισκέπτονται συχνά (90 άτοµα) το 85,6% χρησιµοποιεί συχνά το NΑπό αυτούς που το επισκέπτονται συχνά (72 άτοµα) το ποσοστό που χρησιµοποιεί συχνά το Νείναι 63,9%

Οι τακτικοί πελάτες του L συµπεριφέρονταιως προς το Ν διαφορετικά από τουςπεριστασιακούς (οι κατανοµές διαφέρουν)

Page 18: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 18

∆ιαδικασία Crosstabs:Αποτελέσµατα – Ερµηνεία του ελέγχου

Από την πλευρά του Ν:Από αυτούς που δεν το επισκέπτονται συχνά (39 άτοµα) το 66.7% χρησιµοποιεί συχνά το LΑπό αυτούς που το επισκέπτονται συχνά (123άτοµα) το ποσοστό που χρησιµοποιεί συχνά το Lείναι 37,4%.

Οι τακτικοί πελάτες του N συµπεριφέρονταιως προς το L διαφορετικά από τουςπεριστασιακούς (οι κατανοµές διαφέρουν)

Page 19: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 19

∆ιαδικασία Crosstabs:Αποτελέσµατα – Γραφική παράσταση

Page 20: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 20

Άλλα ερωτήµατα

Υπάρχει σχέση ανάµεσα στις άλλεςδηµογραφικές µεταβλητές και στιςL_use και N_use;Υπάρχει σχέση ανάµεσα στιςµεταβλητές τρόπου ζωής και στιςL_use και N_use;Να γίνουν οι απαραίτητοι έλεγχοι

Page 21: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 21

Γενικά για σχέση ανάµεσα σεµεταβλητέςΕρωτήµατα:1. Υπάρχει; Έχουµε ενδείξεις σχέσηςανάµεσα σε δύο µεταβλητές πουµελετάµε;

2. Ποια η φύση της; Είναι θετική ήαρνητική;

3. Ποια η ισχύς της; Πόσο ισχυρή είναι ησχέση;

Page 22: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 22

Πίνακες συνάφειαςΠίνακας συνάφειας: αποτελείται απόγραµµές και στήλες που ορίζονται απότις κατηγορίες των δύο µεταβλητώνΣε κάθε κελί υπάρχουνΣυχνότηταΠοσοστό γραµµήςΠοσοστό στήληςΠοσοστό στο σύνολο

Page 23: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 23

Χρησιµότητα

Οι πίνακες συνάφειας είναι ιδιαίτεραχρήσιµοι όταν έχουµε ονοµαστικέςµεταβλητές και θέλουµε να ελέγξουµεαν είναι συσχετισµένεςΗ ύπαρξη συστηµατικής σχέσηςανιχνεύεται µε τον έλεγχο χ2 (Chi-Square test)

Page 24: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 24

Ο έλεγχος χ2

Βασίζεται στον υπολογισµό ενός µέτρουαπό τις συχνότητες του πίνακα συνάφειαςΗ αρχική (µηδενική) υπόθεση είναι ότι οιδύο µεταβλητές δεν είναι συσχετισµένεςΑπό τις παρατηρούµενες (Observed)συχνότητες υπολογίζονται οιαναµενόµενες (expected frequencies):

Page 25: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 25

ΠαράδειγµαΥπάρχει σχέση ανάµεσα στη µελέτηκαι στην επίδοση σε διαγώνισµα;Θα χρησιµοποιήσουµε τον έλεγχο χ2

για να ελέγξουµε αν υπάρχεισηµαντική συσχέτισηΘα προσπαθήσουµε να ορίσουµε τηφύση της σχέσης από τα ποσοστάγραµµών και στηλών

Page 26: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 26

ΜεταβλητέςDid you study for the midterm test? __yes __noHow did you perform on the midterm test? __pass __fail

Did You Study for the Test? * How Did You Perform on theTest? Crosstabulation

Count

71 6 777 16 23

78 22 100

YesNo

Did You Studyfor the Test?

Total

Pass Fail

How Did You Performon the Test?

Total

Page 27: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 27

Cross-Tabulations

Ύπαρξη συσχέτισης φανερή: Επιτυχία µε µελέτη

Did You Study for the Test?

NoYes

Cou

nt

100

80

60

40

20

0

How Did You Perform

Fail

Pass

Page 28: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 28

Σηµαντικότητα της σχέσηςΕίναι η σχέση στατιστικά σηµαντική;Είναι δηλ. συστηµατική ή απλά έτυχε;Χρησιµοποιούµε τον έλεγχο χ2

χ2: µέτρο απόστασης ανάµεσα στιςπαρατηρούµενες και τις αναµενόµενεςσυχνότητεςΠαρατηρούµενες (Observed): οι συχνότητες τωνκελιώνΑναµενόµενες (Expected): Υπολογίζονται κάτωαπό την υπόθεση ότι δεν υπάρχει σχέση ανάµεσαστις δύο µεταβλητές

Page 29: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 29

Υπολογισµός του χ2

Τύπος υπολογισµού:

Page 30: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 30

Κατανοµή του χ2

Ακολουθεί την χ2

κατανοµή τηςοποίας το σχήµαεξαρτάται από τουςβαθµούςελευθερίαςΗ τιµή του χ2 πουυπολογίζεταισυγκρίνεται µε τιµήαπό πίνακα για ναφανεί η στατιστικήσηµαντικότητα

Page 31: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 31

Ερµηνεία του χ2 ελέγχουΠώς ερµηνεύεται η σηµαντικότητα(significance) p;Είναι η πιθανότητα να βρούµε στοιχεία πουνα στηρίζουν την αρχική υπόθεση (µηύπαρξη σχέσης) αν η διαδικασίαεπαναληφθεί πολλές φορές µε ανεξάρτηταδείγµαταΑν η τιµή p είναι ≤ 0.05, η πιθανότηταστήριξης της αρχικής υπόθεσης είναι µικρήΕποµένως υπάρχει σηµαντική σχέσηανάµεσα στις δύο µεταβλητές

Page 32: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 32

Ανάγνωση των αποτελεσµάτωντου SPSS

P=0.000… <0.05 ⇒ σηµαντική σχέση

Chi-Square Tests

39.382b 1 .00035.865 1 .00034.970 1 .000

.000 .000100

Pearson Chi-SquareContinuity Correctiona

Likelihood RatioFisher's Exact TestN of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea.

0 cells (.0%) have expected count less than 5. The minimum expected count is5.06.

b.

Page 33: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 33

Φύση της σχέσης από τα ποσοστά

92% από αυτούς που µελέτησαν πέρασαν70% από αυτούς που δε µελέτησαν απέτυχαν

Did You Study for the Test? * How Did You Perform on the Test? Crosstabulation

71 6 77

92.2% 7.8% 100.0%

7 16 23

30.4% 69.6% 100.0%

78 22 100

78.0% 22.0% 100.0%

Count% within Did YouStudy for the Test?Count% within Did YouStudy for the Test?Count% within Did YouStudy for the Test?

Yes

No

Did You Studyfor the Test?

Total

Pass Fail

How Did You Performon the Test?

Total

Page 34: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 34

Εισαγωγή πίνακα συνάφειας στονεπεξεργαστή δεδοµένων

Παράδειγµα:Τα αγόρια έχουν την τάση ναακολουθούν το επάγγελµα του πατέρατους;Έρευνα σε 500 άνδρες µεερωτηµατολόγιαΜεταβλητές: Επάγγελµα πατέρα (father)Επάγγελµα γιου (son)

Page 35: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 35

∆εδοµένα µε µορφή πίνακα

son

Professional or Business

Skilled Unskilled Farmer

Professional or Business 55 38 7 0

Skilled 79 71 25 0

Unskilled 22 75 38 10

Farmer 15 23 10 32

father

Page 36: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 36

Εισαγωγή του πίνακα

Page 37: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 37

Στάθµιση των cases

Page 38: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 38

Αποτελέσµατα crosstabsFather * Son Cross tabulation

55 38 7 0 10055,0% 38,0% 7,0% ,0% 100,0%

79 71 25 0 17545,1% 40,6% 14,3% ,0% 100,0%

22 75 38 10 14515,2% 51,7% 26,2% 6,9% 100,0%

15 23 10 32 8018,8% 28,8% 12,5% 40,0% 100,0%

171 207 80 42 50034,2% 41,4% 16,0% 8,4% 100,0%

Count% w ithin FatherCount% w ithin FatherCount% w ithin FatherCount% w ithin FatherCount% w ithin Father

Prof . or Bus iness

Skilled

Unskilled

Farmer

Father

Total

Prof . orBusiness Skilled Unskilled Farmer

Son

Total

Chi-Square Te sts

180,874a 9 ,000160,832 9 ,000

103,955 1 ,000

500

Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid Cases

Value dfAsymp. Sig.

(2-sided)

0 cells (,0%) have expected count less than 5. Theminimum expected count is 6,72.

a.

Page 39: 3. ΣτατιστικήΣυµπερασµατολογίαadk/lectures/ida/lab3/slides3.pdf · ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 2 ΗέννοιατηςΣτατιστικής

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 39

Ερµηνεία αποτελεσµάτων

Υπάρχει στατιστικά σηµαντική σχέσηανάµεσα στα επαγγέλµατα πατέρα –γιουΕρµηνεία για κάθε επάγγελµα πατέραΠ.χ. Το 40% των παιδιών από πατέρααγρότη είναι επίσης αγρότεςΗ σχέση είναι πολύ ισχυρή