Download - ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

Transcript
Page 1: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΑΝΑΛΥΣΗ ∆Ε∆ΟΜΕΝΩΝ

2. Περιγραφική Στατιστική

Page 2: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 2

Βασικά είδη στατιστικήςανάλυσης

1. Περιγραφική στατιστική: περιγραφήτου συνόλου των δεδοµένων(δείγµατος)

2. Συµπερασµατολογία: Παραγωγήσυµπερασµάτων για ταχαρακτηριστικά του πληθυσµού µεβάση τα δεδοµένα του δείγµατος

«There are two kinds of statistics, the kind you look up, and the kind you make up». Rex Stout (1886-1975) American mystery writer

Page 3: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 3

Σύνοψη δεδοµένων (Data summarization)

Η διαδικασία περιγραφής του πίνακατων δεδοµένων µε τον υπολογισµόµικρού αριθµού µέτρων πουχαρακτηρίζουν το δείγµαΠαίρνουµε αρχικές πληροφορίες απόµεγάλο πλήθος δεδοµένων

Page 4: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 4

Περιγραφή των δεδοµένων

Βασικές κατηγορίες µεθόδωνπεριγραφής δεδοµένων:Πίνακες και γραφικές παραστάσειςΑριθµητικές µέθοδοι – στατιστικάµέτραΜέθοδοι διερευνητικής ανάλυσης

Page 5: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 5

Πίνακες & γραφικές µέθοδοι

Στην κατηγορία αυτή ανήκουνµέθοδοι που παριστούν περιληπτικάτα δεδοµένα µε πίνακες ή γραφήµαταΠίνακες κατανοµής συχνοτήτων(frequency tables)Ραβδογράµµατα (bar charts)Κυκλικά διαγράµµατα (pie charts)Ιστογράµµατα (histograms)

Page 6: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 6

Πίνακες κατανοµής συχνοτήτων(frequency tables)

Για µεταβλητές µε διακριτές (λίγες) τιµές (nominal, ordinal)Για κάθε τιµή υπολογίζονται απόλυτεςσυχνότητες, σχετικές συχνότητες(ποσοστά) και αθροιστικές συχνότητεςΓια συνεχείς µεταβλητές πρέπει ναγίνει πρώτα οµαδοποίηση των τιµών

Page 7: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 7

Παράδειγµα πίνακα συχνοτήτωνPredominant religion

41 37,6 38,0 38,027 24,8 25,0 63,016 14,7 14,8 77,88 7,3 7,4 85,27 6,4 6,5 91,74 3,7 3,7 95,42 1,8 1,9 97,21 ,9 ,9 98,11 ,9 ,9 99,11 ,9 ,9 100,0

108 99,1 100,01 ,9

109 100,0

CatholicMuslimProtstntOrthodoxBuddhistAnimistTaoistHinduJewishTribalTotal

Valid

missingMissingTotal

Frequency Percent Valid PercentCumulative

Percent

Page 8: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 8

Ραβδόγραµµα (bar chart)Γραφικήπαράσταση τουπίνακασυχνοτήτων

Page 9: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 9

Κυκλικό διάγραµµα (pie chart)

Γραφικήπαράσταση τουπίνακασυχνοτήτων

Page 10: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 10

Ιστόγραµµα (histogram)Κατανοµήσυνεχούςµεταβλητήςοµαδοποιηµένης

Page 11: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 11

Αριθµητικές µέθοδοι

Χρησιµοποιούνται αριθµητικές ποσότητες(στατιστικά µέτρα) που υπολογίζονται απότα δεδοµέναΚυριότερες κατηγορίες µέτρων: Μέτρα Κεντρικής ΤάσηςΜέτρα ∆ιασποράςΜέτρα Σχετικής ΘέσηςΜέτρα ΑσυµµετρίαςΜέτρα Κύρτωσης

Page 12: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 12

Μέθοδοι διερευνητικής ανάλυσης(exploratory analysis)

Συνδυασµός γραφικών καιαριθµητικών µεθόδων για διερεύνησητάσεων και ιδιαίτερων τιµών σταδεδοµέναΠιο γνωστές τεχνικές:Φυλλόγραµµα (stem and leaf plot)Θηκόγραµµα (box plot)

Page 13: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 13

Μέτρα κεντρικής τάσηςΑριθµητικός µέσος ή µέση τιµή (mean):

∆ιάµεσος (median): η τιµή που χωρίζει ένα σύνολοδεδοµένων στη µέση όταν τοποθετηθούν σε αύξουσα σειρά

η τιµή για την οποία το 50% των µετρήσεων είναιµικρότερες και το 50% µεγαλύτερες από αυτή

Επικρατούσα Τιµή (mode): Η τιµή µε τη µεγαλύτερησυχνότητα εµφάνισης.

χρησιµοποιείται συνήθως σε ποιοτικές µεταβλητές

Page 14: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 14

Σύγκριση µέσης τιµής καιδιαµέσου

Η µέση τιµήΕπηρεάζεται από την ύπαρξη ακραίων τιµώνΕίναι χρήσιµη για συµπερασµατολογίαΕίναι ευκολότερο να εργαστούµε µε αυτήθεωρητικά

Η διάµεσος∆εν επηρεάζεται από την ύπαρξη ακραίων τιµών∆εν είναι τόσο χρήσιµη στη συµπερασµατολογίαΕίναι δύσκολο να εργαστούµε µε αυτήνθεωρητικά

Page 15: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 15

Μέτρα διασποράςΕύρος (range): η διαφορά µεταξύ τηςµεγίστης και της ελαχίστης τιµής

R = Xmax - Xmin∆ιακύµανση (variance): µέτρο απόστασηςτων παρατηρήσεων από τη µέση τιµή

Τυπική Απόκλιση (standard deviation): ηθετική τετραγωνική ρίζα της διακύµανσης

Page 16: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 16

Μέτρα σχετικής θέσηςΤεταρτηµόρια (quartiles): (Q1, Q2, Q3) τιµές πουχωρίζουν ένα σύνολο παρατηρήσεων σε τέταρτα

Q1: 25% µικρότερες και 75% µεγαλύτερες από τηντιµή αυτήQ2 (διάµεσος): 50% µικρότερες και 50% µεγαλύτερες από την τιµή αυτήQ3: 75% µικρότερες και 25% µεγαλύτερες από τηντιµή αυτή

Ενδοτεταρτηµοριακό εύρος (interquartile range): IR = Q3 - Q1

περιλαµβάνει το 50% των παρατηρήσεων πουβρίσκονται γύρω από τη διάµεσο

Page 17: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 17

Mέτρα ασυµµετρίαςΑσυµµετρία ή λοξότητα (skewness): Πόσο και προςποια κατεύθυνση αποκλίνει η κατανοµή από την πλήρησυµµετρία (skewness=0)Είδη ασυµµετρίας:

Θετική: εξόγκωση προς τα αριστερά και µεγάλη ουρά προςτα δεξιά (skewness>0)Αρνητική: εξόγκωση προς τα δεξιά και µεγάλη ουρά προςτα αριστερά (skewness<0)

Page 18: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 18

Μέτρα κύρτωσης

Κύρτωση (Kurtosis): Μέτρο τηςοξύτητας της κορυφής µιαςκατανοµήςΚατηγορίες που αναγνωρίζονται:Λεπτόκυρτη (kurtosis>3)Πλατύκυρτη (kurtosis<3)Μεσόκυρτη (kurtosis=3)

Page 19: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 19

∆ιερευνητική ανάλυση δεδοµένων-Φυλλογράφηµα (Stem-and-Leaf Plot)

Απλός και περιγραφικός τρόποςπαρουσίασης όλων των δεδοµένων µετρόπο που να φαίνεται η κατανοµήτουςΚάθε παρατήρηση χωρίζεται σε δύο µέρη: κλαδί (stem) και φύλλο (leaf)Αριστερά κατακόρυφης γραµµής οι τιµέςτων µίσχων και δεξιά τα φύλλα

Page 20: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 20

Παράδειγµα φυλλογράµµατοςFrequency Stem & Leaf

2,00 0 . 9924,00 1 . 0000000111111122233334449,00 1 . 555677789

15,00 2 . 0000111122334448,00 2 . 566668899,00 3 . 001122234

11,00 3 . 5556778888810,00 4 . 00122233332,00 4 . 784,00 5 . 00224,00 5 . 66882,00 6 . 231,00 6 . 53,00 7 . 2331,00 7 . 81,00 8 . 02,00 Extremes (>=9,3)

Page 21: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 21

∆ιερευνητική ανάλυση δεδοµένων-Θηκόγραµµα (box-plot)

Γραφική παράσταση που παριστάνειτην κατανοµή των δεδοµένων καισυγκεκριµένα:∆ιάµεσοΤεταρτηµόρια και ενδοτεταρτηµοριακόεύροςΜέγιστη και ελάχιστη τιµή που δεν είναιστατιστικά ακραίεςΤις ακραίες τιµές (outliers and extreme points)

Page 22: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 22

Παράδειγµα θηκογράµµατος

median (Q2)

Q1

Q3

Outlier

Extreme point

Interquartile range

Max not outlier

Min not outlier

Page 23: ΑΝΑΛΥΣΗ∆Ε∆ΟΜΕΝΩΝadk/lectures/ida/lab2/...ΕΛΕΥΘΕΡΙΟΣΑΓΓΕΛΗΣ- ΤΜΗΜΑΠΛΗΡΟΦΟΡΙΚΗΣΑΠΘ 6 Πίνακεςκατανοµήςσυχνοτήτων

ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 23

There are no facts, only interpretations. Frederick Nietzsche (1844-1900) Συµπέρασµα

Για ονοµαστικές µεταβλητέςχρησιµοποιούµε µόνο πίνακασυχνοτήτων, γραφικές παραστάσεις(ραβδόγραµµα, κυκλικό διάγραµµα) και επικρατούσα τιµήΓια αριθµητικές µεταβλητές µπορούµενα χρησιµοποιήσουµε όλα ταστατιστικά µέτρα