ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ-...

37
ΑΝΑΛΥΣΗ ∆Ε∆ΟΜΕΝΩΝ 6. Συσχέτιση

Transcript of ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ-...

Page 1: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΑΝΑΛΥΣΗ ∆Ε∆ΟΜΕΝΩΝ

6. Συσχέτιση

Page 2: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 2

Γενικά

Υπάρχει σχέση ανάµεσα σε δύο (ήπερισσότερες) µεταβλητές;Αν υπάρχει σχέση ποια η φύση τηςσχέσης αυτής;Συσχέτιση: µέτρο σχέσης ανάµεσα σεµεταβλητέςΘετικά συσχετισµένεςΑρνητικά συσχετισµένεςΑσυσχέτιστες

Page 3: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 3

Μέτρηση µεταβλητότητας µιαςµεταβλητής – διασπορά

∆ιασπορά ή διακύµανση (variance) µιαςµεταβλητής:

Ερµηνεία: το µέσο ποσό µεταβλητότητας τωνπαρατηρήσεων από τη µέση τιµή

1))((

1)( 2

2−

∑ −−=

−∑ −

=n

xxxxn

xxs iii

ix x

Page 4: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 4

Μέτρηση συµµεταβλητότητας -συνδιασπορά

Συνδιασπορά ή συνδιακύµανση(covariance) δύο µεταβλητών

Ερµηνεία: Το µέσο ποσό της«ταυτόχρονης» µεταβλητότητας των x και y από τις µέσες τιµές τους

1))((),cov(

−∑ −−

=n

yyxxyx ii

Page 5: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 5

Η συνδιασπορά ως µέτρο σχέσης

Κεντρική ιδέα: Αν πράγµατι οι δύο µεταβλητέςσχετίζονται, τότε όπως µεταβάλλεται ηµια (x) γύρω από τη µέση τιµή της, µεπαρόµοιο τρόπο (ή µε ακριβώς αντίθετοτρόπο) θα µεταβάλλεται και η άλλη (y)γύρω από τη µέση τιµή της.

Page 6: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 6

Παράδειγµα

Case Summariesa

5 84 94 106 138 155 5

5,40 11,001,673 2,915

12345

NMeanStd. Deviation

Total

Advertswatched

Packetsbought

Limited to first 100 cases.a.

Σε δείγµα 5 ατόµωνπροβλήθηκε έναςαριθµός απόδιαφηµίσεις γιαµια σοκολάτα καιτην επόµενηεβδοµάδαµετρήθηκε πόσεςσοκολάτεςαγόρασαν

Page 7: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 7

∆ιαφορά τιµών των µεταβλητώναπό τις µέσες τιµές τους

4.5=x

0.11=y

Γενικάπαρατηρούµεοµοιότητα στησυµπεριφοράτων µεταβλητώνως προς τηµεταβλητότητάτους γύρω απότις µέσες τιµέςτους

Page 8: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 8

Υπολογισµός της συνδιασποράς

25.44

)4)(6.2()2)(6.()1)(4.1()2)(4.1()3)(4.(1

))((),cov(

=+−+−−+−−+−−

=−

∑ −−=

nyyxxyx ii

Θετική συνδιασπορά: οι µεταβλητές µεταβάλλονταιπρος την ίδια κατεύθυνση από τη µέση τιµή τουςΑρνητική συνδιασπορά: οι µεταβλητέςµεταβάλλονται προς την αντίθετη κατεύθυνση από τηµέση τιµή τουςΠρόβληµα: Πως καταλαβαίνουµε αν η συνδιασπορά(και εποµένως η σχέση) είναι µεγάλη;

Page 9: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 9

Συντελεστής συσχέτισης

Τυποποίηση (standardization) τηςσυνδιασποράςΑπαλλαγή του µέτρου από µονάδεςµέτρησης – διαίρεση µε τυπικές αποκλίσειςτων µεταβλητώνΣυντελεστής συσχέτισης του Pearson(Pearson correlation coefficient):

yx

ii

yx ssnyyxx

ssyxr

)1())((),cov(

−∑ −−

==

Page 10: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 10

Τιµές και ερµηνεία του συντελεστήσυσχέτισης

Οι τιµές του r είναι πάντοτε στο διάστηµα[-1, +1]r=+1: Οι µεταβλητές είναι θετικάσυσχετισµένες (όταν η µια αυξάνει, ηάλλη αυξάνει γραµµικά)r=-1: Οι µεταβλητές είναι αρνητικάσυσχετισµένες (όταν η µια αυξάνει, ηάλλη µειώνεται γραµµικά)r=0: Οι µεταβλητές είναι ασυσχέτιστες

Page 11: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 11

Τιµές και ερµηνεία του συντελεστήσυσχέτισης (συν.)

Εµπειρικός κανόνας:r=±0.1: µικρή συσχέτισηr=±0.3: µέτρια συσχέτισηr=±0.5: ισχυρή συσχέτιση

Στο παράδειγµα ισχυρή συσχέτιση:

87.0)92.2)(67.1(

25.4),cov(===

yxssyxr

Page 12: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 12

Γραφική παράσταση της συσχέτισης: Το διάγραµµα διασποράς

Page 13: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 13

Απλό διάγραµµα διασποράς (simple scatterplot)

Υπάρχειισχυρήσυσχέτιση

Φαίνεταιοµαδοποίησηως προς τηνπεριοχή

Page 14: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 14

Πίνακας διαγραµµάτων διασποράςγια περισσότερες µεταβλητές

Page 15: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 15

Page 16: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 16

Τρισδιάστατο διάγραµµα διασποράς

Page 17: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 17

Page 18: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 18

Επικαλυπτόµενα διαγράµµαταδιασποράς

Page 19: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 19

Page 20: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 20

Συσχέτιση δύο µεταβλητών(Bivariate correlation)

Page 21: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 21

Correlations

1 ,878** -,431**,000 ,000

3429187,898 230222,329 -151651,713

8594,456 679,122 -380,079400 340 400

,878** 1 -,722**,000 ,000

230222,329 32742,776 -17239,071

679,122 96,586 -50,853340 340 340

-,431** -,722** 1,000 ,000

-151651,713 -17239,071 36129,438

-380,079 -50,853 90,550400 340 400

Pearson CorrelationSig. (2-tailed)Sum of Squares andCross-productsCovarianceNPearson CorrelationSig. (2-tailed)Sum of Squares andCross-productsCovarianceNPearson CorrelationSig. (2-tailed)Sum of Squares andCross-productsCovarianceN

How many total dollarsdo you spend permonth in restaurants(for your meals only)?

What would you expectan average eveningmeal entree item aloneto be priced?

Year Born

How many total dollars doyou spend per month in

restaurants (for yourmeals only)?

What would you expect anaverage evening mealentree item alone to be

priced? Year Born

Correlation is significant at the 0.01 level (2-tailed).**.

Θετικήσυσχέτισηπολύσηµαντική

Αρνητικήσυσχέτισηπολύσηµαντική

Ο συντελεστής Pearson κυρίως για συνεχή, κανονικά κατανεµηµένα δεδοµένα

Page 22: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 22

Ο συντελεστής συσχέτισης του Spearman (Spearman’s correlation coefficient)

Μη-παραµετρικό στατιστικό µέτροΤα δεδοµένα δεν είναι ανάγκη να είναικανονικά ούτε συνεχήΒασίζεται σε διάταξη των δεδοµένων(ranking) και υπολογισµό τουσυντελεστή του Pearson στις διατάξεις(ranks)Ιδανικό για µεταβλητές διάταξης(ordinal)

Page 23: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 23

Εφαρµογή σε ερωτήσειςαξιολόγησης µε απαντήσεις 1-5

Page 24: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 24

Correlations

1,000 -,723** -,618** -,657** -,683** -,620** ,597** -,642** -,676** ,597**. ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000

400 400 400 400 400 400 400 400 400 400-,723** 1,000 ,663** ,605** ,724** ,634** -,663** ,711** ,690** -,499**,000 . ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000400 400 400 400 400 400 400 400 400 400

-,618** ,663** 1,000 ,757** ,700** ,745** -,725** ,776** ,666** -,481**,000 ,000 . ,000 ,000 ,000 ,000 ,000 ,000 ,000

400 400 400 400 400 400 400 400 400 400

-,657** ,605** ,757** 1,000 ,682** ,746** -,729** ,726** ,730** -,485**,000 ,000 ,000 . ,000 ,000 ,000 ,000 ,000 ,000400 400 400 400 400 400 400 400 400 400

-,683** ,724** ,700** ,682** 1,000 ,704** -,669** ,657** ,595** -,440**,000 ,000 ,000 ,000 . ,000 ,000 ,000 ,000 ,000400 400 400 400 400 400 400 400 400 400

-,620** ,634** ,745** ,746** ,704** 1,000 -,789** ,712** ,722** -,490**,000 ,000 ,000 ,000 ,000 . ,000 ,000 ,000 ,000400 400 400 400 400 400 400 400 400 400

,597** -,663** -,725** -,729** -,669** -,789** 1,000 -,767** -,723** ,490**,000 ,000 ,000 ,000 ,000 ,000 . ,000 ,000 ,000400 400 400 400 400 400 400 400 400 400

-,642** ,711** ,776** ,726** ,657** ,712** -,767** 1,000 ,721** -,492**,000 ,000 ,000 ,000 ,000 ,000 ,000 . ,000 ,000400 400 400 400 400 400 400 400 400 400

-,676** ,690** ,666** ,730** ,595** ,722** -,723** ,721** 1,000 -,584**,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 . ,000400 400 400 400 400 400 400 400 400 400

,597** -,499** -,481** -,485** -,440** -,490** ,490** -,492** -,584** 1,000,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 .400 400 400 400 400 400 400 400 400 400

Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N

Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N

Prefer Waterfront View

Prefer Drive Less than30 Minutes

Prefer Formal WaitstaffWearing Tuxedos

Prefer Unusual Desserts

Prefer Large Variety ofEntrees

Prefer Unusual Entrees

Prefer Simple Decor

Prefer Elegant Decor

Prefer String Quartet

Prefer Jazz Combo

Spearman's rho

PreferWaterfront

View

Prefer DriveLess than

30 Minutes

Prefer FormalWaitstaffWearingTuxedos

PreferUnusualDesserts

Prefer LargeVariety ofEntrees

PreferUnusualEntrees

Prefer SimpleDecor

Prefer ElegantDecor

Prefer StringQuartet

Prefer JazzCombo

Correlation is significant at the 0.01 level (2-tailed).**.

Υπάρχουν πολύ ισχυρές συσχετίσεις (θετικές και αρνητικές)

Page 25: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 25

Το τ του Kendall (Kendall’s tau)

Μη παραµετρικός συντελεστήςΓια µικρά σύνολα δεδοµένων µεπολλές «ισοπαλίες» στα ranksΘεωρείται καλύτερος εκτιµητής τηςσυσχέτισης που υπάρχει στονπληθυσµόΓενικά µικρότερες συσχετίσεις από τουSpearman

Page 26: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 26

Εφαρµογές σε µεταβλητές διάταξεις

Page 27: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 27

Correlations

1,000 -,615** -,482** -,544** -,555** -,487** ,467** -,507** -,562** ,476**. ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000

400 400 400 400 400 400 400 400 400 400-,615** 1,000 ,541** ,477** ,610** ,499** -,542** ,600** ,574** -,406**,000 . ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000400 400 400 400 400 400 400 400 400 400

-,482** ,541** 1,000 ,660** ,594** ,647** -,616** ,696** ,538** -,412**,000 ,000 . ,000 ,000 ,000 ,000 ,000 ,000 ,000

400 400 400 400 400 400 400 400 400 400

-,544** ,477** ,660** 1,000 ,558** ,641** -,640** ,614** ,624** -,414**,000 ,000 ,000 . ,000 ,000 ,000 ,000 ,000 ,000400 400 400 400 400 400 400 400 400 400

-,555** ,610** ,594** ,558** 1,000 ,596** -,541** ,548** ,455** -,351**,000 ,000 ,000 ,000 . ,000 ,000 ,000 ,000 ,000400 400 400 400 400 400 400 400 400 400

-,487** ,499** ,647** ,641** ,596** 1,000 -,694** ,606** ,602** -,412**,000 ,000 ,000 ,000 ,000 . ,000 ,000 ,000 ,000400 400 400 400 400 400 400 400 400 400,467** -,542** -,616** -,640** -,541** -,694** 1,000 -,663** -,613** ,423**,000 ,000 ,000 ,000 ,000 ,000 . ,000 ,000 ,000400 400 400 400 400 400 400 400 400 400

-,507** ,600** ,696** ,614** ,548** ,606** -,663** 1,000 ,611** -,417**,000 ,000 ,000 ,000 ,000 ,000 ,000 . ,000 ,000400 400 400 400 400 400 400 400 400 400

-,562** ,574** ,538** ,624** ,455** ,602** -,613** ,611** 1,000 -,495**,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 . ,000400 400 400 400 400 400 400 400 400 400,476** -,406** -,412** -,414** -,351** -,412** ,423** -,417** -,495** 1,000,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 .400 400 400 400 400 400 400 400 400 400

Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N

Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N

Prefer Waterfront View

Prefer Drive Less than30 Minutes

Prefer Formal WaitstaffWearing Tuxedos

Prefer Unusual Desserts

Prefer Large Variety ofEntrees

Prefer Unusual Entrees

Prefer Simple Decor

Prefer Elegant Decor

Prefer String Quartet

Prefer Jazz Combo

Kendall's tau_b

PreferWaterfront

View

Prefer DriveLess than30 Minutes

Prefer FormalWaitstaffWearingTuxedos

PreferUnusualDesserts

Prefer LargeVariety ofEntrees

PreferUnusualEntrees

Prefer SimpleDecor

Prefer ElegantDecor

Prefer StringQuartet

Prefer JazzCombo

Correlation is significant at the 0.01 level (2-tailed).**.

Υπάρχουν πολύ ισχυρές συσχετίσεις (θετικές και αρνητικές)

Page 28: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 28

Μοντελοποίηση της συσχέτισης

Εύρεση εξίσωσης που περιγράφει τη σχέσηδύο µεταβλητώνΥπάρχει γενική µεθοδολογία κατασκευής καιελέγχου ενός µοντέλου: Ανάλυσηπαλινδρόµησης (regression analysis)Η µια µεταβλητή (y) θεωρείται εξαρτηµένη(dependent) από την άλλη (x) η οποίαονοµάζεται ανεξάρτητη (independent)Η γενική µεθοδολογία στο επόµενο...

Page 29: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 29

Εύρεση απλού µοντέλου(Παράδειγµα: εξαρτηµένη avprice, ανεξάρτητη yrborn)

Ορισµόςµεταβλητών

Page 30: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 30

Προσαρµογή (fitting) ευθείαςπαλινδρόµησης

y=a+bx

Ορισµόςδιαστηµάτωνεµπιστοσύνης

Μια ευθεία γιαόλα ταδεδοµένα

Page 31: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 31

Linear Regression with95,00% Mean Prediction Interval and95,00% Individual Prediction Interval

1930 1940 1950 1960 1970

Year Born

$0.00

$20.00

$40.00

$60.00

avpr

ice

A

A

A

A

AA

AAA

A

A AA

A

A A

A

AA

A

A

A

A

A

AA

A

A

A

A

A

AA

A

A

A

A

AA

A

A

A

A

A

A

A

AA A

A A

A AA

AA

A

A

A

A

A

A

A

A

A

A AA

A

A

A

A

A

A

AAA

A

AA

A

AA

A

A

A

AA

A

A

AA

A

A

A

A

A

A

A A

A

A

A

AA

A

A

A

A

AAA

A

A

A

A

AA

AAAA

A

A

A

A

A

A

AA

AA

A

A

A

AA

A

AA

A

A

AA

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A

A A

A

A

A

AA

AA

A

A

A

A

A

AA

A AAA

A

A

A

A

A

A AA AA

A

A

A

A

AA

AA

AA

A

A AA

A

A

A

A

A

A

A

A

A

AA

A

A

A

A

AA

A

A

A

A

A

A

A

AA

A

AA

A

A

AA

AAA

A

A

AA

A

A

A

A

A A

AA

A

A

AA A

A

AA

A

A

A

A

AA

A

A

AA

A A

AA

AA

A

A

A

A

A

A

A

A

A A

A

A

A

A

AA

A

A

A

A

A

A

AA

A

AA

A

AA

A

A

A

A A

AA

A

A

A

A

A

AAA

A

A

A

A

A

AAA

A

A

A

A

A

AA

AAA

A

What would you expect an average evening meal entree item alone to be priced? = 1955,87 + -0,99 * yrbornR-Square = 0,52

Το τετράγωνοτου συντελεστήPearson δείχνειτο ποσοστόµεταβλητότηταςτης avprice πουεξηγείται απότην yrborn(52%)

Page 32: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 32

Ορισµός υποοµάδων – διαφορετική ευθείαγια κάθε µια (π.χ. ως προς τον κωδικόπεριοχής)

Page 33: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 33

A B (3, 4, & 5)S C (6, 7, 8, & 9)

Zip Code (coded by letter).

1930 1940 1950 1960 1970

Year Born

$10.00

$20.00

$30.00

$40.00

$50.00

$60.00

avpr

ice

A

S

A

S

S

S

SSS

A

S SS

A

S S

A

S

S

A

S

A

S

A

AS

A

S

S

A

S

SA

S

S

A

S

SS

A

S

A

A

S

A

S

SS A

S S

A SS

SS

S

A

S

S

S

A

S

S

S

S SS

S

S

S

S

S

S

SSS

A

SS

A

SA

A

S

S

SS

S

S

SS

S

A

A

S

A

A

A S

S

A

A

SS

A

S

S

A

SSS

A

S

A

S

SS

SSAA

A

A

S

A

A

S

SA

SS

A

A

S

SS

A

SS

S

A

SS

A

S

A

S

A

S

S

A

S

A

S

A

A

S

A

A

A A

A

A

S

SS

SS

A

S

S

A

A

SS

S S

AS

A

S

S

A

S

S SS SS

A

A

S

A

SA

SS

SS

S

S SS

S

A

S

S

S

A

A

A

S

AA

S

A

S

S

SS

S

A

S

S

A

A

S

AA

S

AS

S

A

SS

SSS

A

S

AA

S

S

A

S

A A

SS

S

A

SS S

S

S

S

S

A

A

S

AA

S

S

S

S

S S

SS

SS

A

A

S

S

A

S

A

S

S S

A

S

A

S

AA

A

S

A

A

S

A

SS

A

SS

A

SS

A

S

A

S S

SA

A

A

S

S

A

SSS

S

A

A

S

S

SA

S

S

A

S

S

S

SA

SSS

S

What would you expect an average evening meal entree item alone to be priced? = 1237,09 + -0,62 * yrbornR-Square = 0,09

What would you expect an average evening meal entree item alone to be priced? = 1548,26 + -0,78 * yrbornR-Square = 0,44

Μόνο στηνπεριοχή C ηευθεία είναισχετικά καλή

Page 34: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 34

Κατασκευή και άλλων µοντέλων

Γραµµικό καιεκθετικόµοντέλο µαζί

Page 35: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 35

Αποτελέσµατα – σύγκριση µοντέλων

Page 36: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 36

Model Summary

,722 ,521 ,520 6,812R R Square

AdjustedR Square

Std. Error ofthe Estimate

The independent variable is Year Born.

ANOVA

17060,081 1 17060,081 367,686 ,00015682,696 338 46,39932742,776 339

RegressionResidualTotal

Sum ofSquares df Mean Square F Sig.

The independent variable is Year Born.

Coefficients

-,990 ,052 -,722 -19,175 ,0001955,868 101,019 19,361 ,000

Year Born(Constant)

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Model Summary

,775 ,600 ,599 ,301R R Square

AdjustedR Square

Std. Error ofthe Estimate

The independent variable is Year Born.

ANOVA

46,010 1 46,010 507,941 ,00030,616 338 ,09176,626 339

RegressionResidualTotal

Sum ofSquares df Mean Square F Sig.

The independent variable is Year Born.

Coefficients

-,051 ,002 -,775 -22,538 ,0008,2E+044 3,6E+045 ,224 ,823

Year Born(Constant)

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

The dependent variable is ln(What would you expect an average evening mealentree item alone to be priced?).

Γραµµικό µοντέλοy=1955.87-0.990*x

Εκθετικό µοντέλοy=(8.2*1044)*exp(-0.051*x)ήlny=103.42-0.051*x

?

Page 37: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab6/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 5 Ησυνδιασποράωςµέτροσχέσης

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 37

Συµπεράσµατα

Οι συντελεστές συσχέτισης και ταδιαγράµµατα διασποράς µας δείχνουντο µέγεθος και τη φύση τηςσυσχέτισηςΗ µοντελοποίηση της συσχέτισης δενείναι απλή. Απαιτούνται έλεγχοι τουµοντέλου, δυνατότητα ερµηνείας του, εισαγωγή νέων µεταβλητών κλπ