Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη...

83
1 Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 6: Κατηγοριοποίηση http://delab.csd.auth.gr/books/grBooks/grBooks. html Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

description

Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 6 : Κατηγοριοποίηση http://delab.csd.auth.gr/books/grBooks/grBooks.html. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων. 1. Κ ατηγοριοποίηση. - PowerPoint PPT Presentation

Transcript of Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη...

Page 1: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

1

Α. Νανόπουλος & Γ. Μανωλόπουλος

Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων

Κεφάλαιο 6: Κατηγοριοποίηση

http://delab.csd.auth.gr/books/grBooks/grBooks.html

Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Page 2: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατηγοριοποίηση

H ανάθεση αντικειμένων σε προκαθορισμένες κλάσειςΙδιότητεςΜοντέλο κατηγοριοποίησης

Εκπαίδευση από υπάρχοντα δεδομένα(σύνολο εκμάθησης)

2Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 3: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα

3Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 4: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατηγοριοποιητής

Αλγόριθμος κατασκευής μοντέλου Διαμερισμός σε περιοχές Εξέταση κατανομών πιθανότητας Εξέταση πλησιέστερων αντικειμένων

4Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 5: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα

5Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 6: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Διαμερισμός σε περιοχές

6Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 7: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Εξέταση κατανομών πιθανότητας

7Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 8: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Εξέταση πλησιέστερων αντικειμένων

8Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 9: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κριτήρια Αξιολόγησης Κατηγοριοποιητών

Ακρίβεια πρόβλεψης του μοντέλου

Ευκολία στην κατανόηση του μοντέλου

Κλιμάκωση στο μέγεθος του συνόλου εκμάθησης

Ανοχή στο θόρυβο και στις ελλιπείς τιμές

9Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 10: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Δένδρα απόφασης

10Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 11: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατηγοριοποίηση με δένδρο

{Έγγαμος, 22 ετών}. Πιθανός αγοραστής;

11Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 12: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Εξαγωγή κανόνωνΜονοπάτι = συζεύξειςΚλάση = διάζευξη συζεύξεων

12Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 13: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατασκευή δένδρου απόφασης(brute-force)

Κατασκευή κάθε δυνατού πιθανού δένδρου

Επιλογή του ακριβέστερου

NP-complete

13Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 14: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατασκευή δένδρου απόφασης (greedy)

14Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 15: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα 1/3

15Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 16: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα 2/3

16Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 17: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα 3/3

17Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 18: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Πόσα παιδιά;

2 ή 3;

18Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 19: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Πλεονεκτήματα-Μειονεκτήματα

Πολλά παιδιά (=όλα)+ εύκολη διάσπαση- περίπλοκο δένδρο- αριθμητικές

ιδιότητες? (μόνο με κβάντωση)

2 παιδιά- δύσκολη διάσπαση+ απλό/ευνόητο δένδρο+ χειρισμός

αριθμητικών ιδιοτήτων

+ καλύτερη ακρίβεια!

Επιλογή: Δυαδικά Δένδρα (2 παιδιά)

19Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 20: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Διάσπαση σε δυαδικά δένδρα

20Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 21: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα

abca,ba,cb,ca,b,c-

b, ca, ca, bcba-a,b,c

(2n-2) / 2 = 2n-1-1

21Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 22: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Διάσπαση αριθμητικών ιδιοτήτων

ΤαξινόμησηΕξέταση n-1 διαχωριστικών θέσεων

22Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 23: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Πως επιλέγουμε τη διαχωριστική ιδιότητα

0:32:0

2:10:2

2:2

0:1

23Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 24: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Μέτρο ανομοιογένειας

Εντροπία για c κλάσεις

Για c = 2

24Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 25: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Εντροπία για c = 2

25Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 26: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα

0:32:0 2:1

0:2

2:2

0:1

Υπολογίστε την εντροπία κάθε περίπτωσης (p -> Ναι)

26Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 27: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα0:3 2:0 2:1 0:2

2:2

0:1

27Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 28: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Αξιολόγηση διαχωριστικής ιδιότητας

Πληροφοριακό όφελος για μία ιδιότητα:

28Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 29: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα πληροφοριακού οφέλους

0 0 0.9183 0

1

0

Πριν τη διάσπαση:Ε(Ν) = 0.971

Υπολογίστε το πληροφοριακό όφελος κάθε περίπτωσης

29Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 30: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα πληροφοριακού οφέλους

00 0

10

Πριν τη διάσπαση:Ε(Ν) = 0.971

0.9183

30Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Στο Σχήμα (α) το όφελος είναι 0.971-3/5*0-2/5*0=0.971

Στο Σχήμα (β) το όφελος είναι 0.971-3/5*0.9183-2/5*0=0.42

Στο Σχήμα (γ) το όφελος είναι 0.971-4/5*1-1/5*0=0.171

Page 31: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Επιλογή διαχωριστικής ιδιότητας

Εξετάζουμε για κάθε ιδιότητα όλους τους δυνατούς διαχωρισμούς

επιλέγουμε το διαχωρισμό με το μέγιστο όφελος

Επιλέγουμε την ιδιότητα με το μεγαλύτερο πληροφοριακό όφελος

εφαρμόζουμε το διαχωρισμό μεγίστου οφέλους

31Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 32: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατασκευή δένδρου απόφασης (greedy)

ΑΔΥΝΑΤΟΝ

32Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 33: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Εναλλακτικά κριτήρια τερματισμού

Ένα ποσοστό (π.χ., 80%) ανήκουν στην ίδια κλάσηΑν ο κόμβος περιέχει λιγότερα από, π.χ., 10, αντικείμενα

η κλάση του φύλλου είναι η πλειοψηφούσα

Μπορούμε να έχουμε και τα δύο κριτήρια

33Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 34: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Αποτέλεσμα εναλλακτικών κριτηρίων

34Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 35: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Χαρακτηριστικά Δένδρων Απόφασης

Η κατασκευή του βέλτιστου δένδρου απόφασης απαιτεί αποτρεπτικό χρόνο (NP-complete). Γιαυτό χρησιμοποιούνται άπληστοι ευρετικοί αλγόριθμοι, που δεν χρησιμοποιούν οπισθοδρόμηση. Τα ευρετικά μειώνουν κατά πολύ το χρόνο κατασκευής. Το αποτέλεσμα είναι ότι τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένωνΗ ακρίβεια πρόβλεψης των δένδρων απόφασης είναι αποδεκτή για τις περισσότερες περιπτώσεις, συγκρίσιμη με την ακρίβεια άλλων κατηγοριοποιητώνΤο μοντέλο που προκύπτει είναι εύκολο στην κατανόηση.Τα δένδρα απόφασης έχουν καλή ανοχή στο θόρυβο, ειδικά όταν εφαρμόζεται ψαλιδισμός

35Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 36: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

ΜειονεκτήματαΑγνοούν εξαρτήσεις μεταξύ των ιδιοτήτων. Διάσπαση ως προς μία ιδιότητα => αντιστοίχιση με περιοχές, τα όρια των οποίων είναι παράλληλα με τους άξονες

36Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 37: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Άλλοι κατηγοριοποιητές;

Bayesian κατηγοριοποιητές

Κατηγοριοποιητές πλησιέστερων γειτόνων

37Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 38: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Bayesian κατηγοριοποιητής για 1 ιδιότητα

Ιδιότητα Χ (συμβολική) m διακριτές τιμές

Ιδιότητα κλάσης C n διακριτές τιμές

Θέλουμε να υπολογίσουμε (για κάθε j):

Άγνωστη ποσότητα

38Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 39: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα

Οικογενειακή κατάσταση = Άγαμος

Αγοραστής ή όχι;

P(Ναι | Άγαμος) = ;

P(Όχι | Άγαμος) = ;

39Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 40: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Θεώρημα Bayes

Άγνωστη ποσότητα

Υπολογίζονται

Ανεξάρτητη cj

40Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 41: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Στο παράδειγμα…

P(Ναι) = 7/10

P(Όχι) = 3/10

P(Ναι | Άγαμος) -> P(Άγαμος | Ναι) P(Ναι) = 2/7*7/10 = 0.2

P(Όχι | Άγαμος) -> P(Άγαμος | Όχι) P(Όχι) = 1/3 * 3/10 = 0.1

41Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 42: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Τι γίνεται για περισσότερες ιδιότητες;

Απλούστευση: ανεξαρτησία των d ιδιοτήτων

Αφελείς Bayesian κατηγοριοποιητές

42Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 43: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα

Οικογενειακή κατάσταση = Άγαμος, Ηλικία = 35Αγοραστής ή όχι; P(Ναι | Άγαμος, 35) = ; P(Όχι | Άγαμος, 35) = ;

43Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 44: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

ΠαράδειγμαP(Ναι|Άγαμος, 35)-> P(Άγαμος,35|Ναι) * P(Ναι)=;P(Όχι|Άγαμος, 35)-> P(Άγαμος,35| Όχι) * P(Όχι)=;

Υπόθεση: Ανεξαρτησία οικογενειακής κατάστασης και ηλικίας

P(Ναι|Άγαμος, 35)-> P(Άγαμος|Ναι) P(35 |Ναι) * P(Ναι)=;P(Όχι|Άγαμος, 35)-> P(Άγαμος| Όχι) P(35 | Όχι) * P(Όχι)=;

P(Άγαμος|Ναι) * P(Ναι) = 0.2P(Άγαμος|Όχι) * P(Όχι) = 0.1 (από παράδειγμα 1

ιδιότητας)

44Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 45: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα

P(35|Ναι)=; P(35|Όχι)=;Ηλικία συνεχής μεταβλητή (κβάντωση;):

υπόθεση συνεχούς κατανομής

45Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 46: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

ΠαράδειγμαP(Ναι|Άγαμος, 35) ->P(Άγαμος|Ναι) P(35 |Ναι) * P(Ναι)= 0.2 * 0.11ε = 0.022 ε

P(Όχι|Άγαμος, 35) ->P(Άγαμος| Όχι) P(35 | Όχι) * P(Όχι)= 0.1 * 10-14 = 10-15 ε

Άρα, αγοραστής

46Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 47: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Χαρακτηριστικά Αφελών Bayesian

Η ακρίβεια πρόβλεψης των αφελών Bayesian κατηγοριοποιητών επηρεάζεται αρνητικά από το γεγονός ότι σε πραγματικά δεδομένα σχεδόν πάντοτε υπάρχουν εξαρτήσεις μεταξύ των μεταβλητώνΤο μοντέλο που προκύπτει είναι εύκολο στην κατανόηση.Η κατασκευή των ιστογραμμάτων για τους υπολογισμούς των πιθανοτήτων, απαιτεί μόνο μία ανάγνωση του συνόλου δεδομένων. Επομένως, οι Bayesian κατηγοριοποιητές κλιμακώνονται σε μεγάλους όγκους δεδομένων.Οι Bayesian κατηγοριοποιητές έχουν καλή ανοχή στο θόρυβο, επειδή οι θορυβώδεις τιμές εξομαλύνονται από τις υπόλοιπες κατά τους υπολογισμούς των εν μέρει πιθανοτήτων.Οι Bayesian κατηγοριοποιητές δεν επηρεάζονται από τις ελλιπείς τιμές, επειδή μπορούν να αγνοηθούν.

47Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 48: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατηγοριοποιητής k πλησιέστερων γειτόνων

Κατηγοριοποιεί ένα αντικείμενο στην κλάση στην οποία ανήκει η πλειοψηφία των k πλησιέστερων σε αυτό αντικειμένων

Απαιτείται ορισμός μέτρου ομοιότητας (ή απόστασης)

48Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 49: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα

{Άγαμος,Έγγαμος,Διαζευγμένος}->{0, 0.5, 1}Ηλικία x -> (x-20)/(40-20)Ευκλείδειος χώρος [0,1] x [0,1]Ευκλείδεια απόσταση

49Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 50: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμαk = 3, προς κατηγοριοποίηση Άγαμος, 35

50Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 51: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Επιλογή kΗ τιμή του k μπορεί να επηρεάζει το αποτέλεσμα

Μικρές τιμές του k εξετάζουν μόνο την άμεση γειτονιά, επομένως είναι επιρρεπείς στο θόρυβο.

Μεγάλες τιμές του k αγνοούν την αρχή της τοπικότητας, και είναι επιρρεπείς στην πλειοψηφούσα κλάση σε όλο το σύνολο δεδομένων

Συχνά χρησιμοποιούμενη τιμή είναι k = sqrt(n), όπου n ο αριθμός των αντικειμένων στο σύνολο εκμάθησης

Σε εμπορικά συστήματα η default τιμή είναι k = 10

51Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 52: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Χαρακτηριστικά κατηγοριοποιητών k πλησιέστερων γειτόνων

Η ακρίβεια πρόβλεψης τους είναι ευαίσθητη στην τιμή του k.Αξιοποιούν την τοπικότητα και εξετάζουν μη γραμμικές περιοχές (αντίθετα από τα δένδρα απόφασης), κάτι που συχνά αποτελεί πλεονέκτημα.Το αποτέλεσμα της κατηγοριοποίησης δεν γίνεται εύκολα κατανοητό. Η αρχή της τοπικότητας είναι η μόνη αιτιολόγηση του αποτελέσματος, αλλά είναι πολύ γενική.Ο χρόνος κατηγοριοποίησης είναι γραμμικός ως προς τα σημεία, κάτι που περιορίζει την κλιμάκωση τους (γιατί;). Μπορούν, όμως, να χρησιμοποιηθούν δομές καταλόγου (π.χ., kd-tree) για την επιτάχυνση της εύρεσης πλησιέστερων γειτόνων.Δεν έχουν καλή ανοχή στο θόρυβο, ιδιαίτερα για μικρές τιμές του k.

52Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 53: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Αποτίμηση ακρίβειαςΓνωρίζουμε 3 κατηγοριοποιητέςΠως συγκρίνουμε την επίδοσή τους ως προς την ακρίβεια;Πως μπορούμε να είμαστε σίγουροι για την ακρίβεια που θα έχει το μοντέλο μας;

Μέτρηση με αντικειμενικό τρόπο, που να αποκλείει προκατάληψη: 4 μέθοδοι

Υπολογισμός στατιστικής σημαντικότητας

53Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 54: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Μέθοδοι μέτρησης ακρίβειας: Hold-out

Χωρίζουμε το σύνολο δεδομένων σε δύο τμήματα: το σύνολο εκμάθησης (π.χ., τα 2/3 πρώτα αντικείμενα) και το σύνολο ελέγχου (π.χ. τα επόμενα 1/3)

Δημιουργούμε μοντέλο σύμφωνα με το σύνολο εκμάθησηςΚατατάσσεται κάθε αντικείμενο του συνόλου ελέγχου X είναι ο αριθμός που κατατάσσονται σωστά και Ν ο συνολικός αριθμός των αντικειμένων στο σύνολο ελέγχου

Εξάρτηση από τη διάταξη των αντικειμένων

54Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 55: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Μέθοδοι μέτρησης ακρίβειας: Random subsampling

Αποφυγή εξάρτησης από διάταξηΕφαρμόζουμε τυχαία δειγματοληψία χωρίς επανατοποθέτησηΕπιλέγουμε N αντικείμενα, τα οποία θέτουμε στο σύνολο ελέγχουΤα εναπομείναντα αντικείμενα τα θέτουμε στο σύνολο εκμάθησης. Επανάληψη της διαδικασίας αυτής k φορέςΑν Xi είναι ο αριθμός των σωστά καταταγμένων αντικειμένων στην i-οστή επανάληψη

55Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 56: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Μέθοδοι μέτρησης ακρίβειας:Cross validation

Για να μην λαμβάνουμε τυχαία τα δείγματαM ο αριθμός των αντικειμένων στο σύνολο δεδομένωνΘέλουμε k επαναλήψειςΧωρίζουμε το σύνολο σε k τμήματα με M/k (διαδοχικά) αντικείμενα το κάθε έναΣτην i-οστή επανάληψη, το i-οστό τμήμα λειτουργεί ως σύνολο ελέγχου, ενώ τα υπόλοιπα k-1 τμήματα απαρτίζουν το σύνολο εκμάθησης.Μία συχνά χρησιμοποιούμενη τιμή του k είναι το 10Η μέθοδος 10-fold cross-validation θεωρείται μία από τις πιο αξιόπιστες για την αποτίμηση της ακρίβειας κατηγοριοποιητών.Αν k=Μ, τότε η μέθοδος ονομάζεται leave-one-out χρησιμοποιείται μόνο για μικρά σύνολα δεδομένων.

56Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 57: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Μέθοδοι μέτρησης ακρίβειας: bootstrap

Δειγματοληψία με επανατοποθέτησηΜ αντικείμενα -> 0.632Μ στο δείγμαΔειγματοληπτούμε Μ φορέςΣε κάθε προσπάθεια: P(επιλογή x) = 1/ΜΣε M προσπάθειες

57Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 58: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Τα 0.632Μ αντικείμενα αποτελούν το σύνολο εκμάθησηςΕπανάληψη k φορές της διαδικασίαςΑν αi είναι η ακρίβεια στην i-οστή επανάληψη και α η ακρίβεια όταν σύνολο ελέγχου = σύνολο εκμάθησης = σύνολο

58Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Μέθοδοι μέτρησης ακρίβειας: bootstrap

Page 59: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Διαστήματα εμπιστοσύνης για την ακρίβεια πρόβλεψης

Χ από N αντικείμενα κατατάχθηκαν σωστά

Χ τυχαία μεταβλητή με διωνυμική κατανομή

p η πραγματική ακρίβεια πρόβλεψης

Α = Χ/Ν τυχαία μεταβλητή (διωνυμική)

59Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 60: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Διαστήματα εμπιστοσύνης για την ακρίβεια πρόβλεψης

Για Ν → Α = Χ/Ν ακολουθεί κανονική κατανομή (νόμος μεγάλων αριθμών)Σε επίπεδο εμπιστοσύνης α:

60Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 61: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα

61Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 62: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Βελτίωση της ακρίβειας

Γνωρίζουμε 3 βασικούς κατηγοριοποιητέςΞέρουμε πώς να εκτιμούμε σωστά την ακρίβειαΜπορούμε να βελτιώσουμε την ακρίβεια χρησιμοποιώντας διαφορετικά τους γνωστούς μας κατηγοριοποιητές;

Ψαλιδισμός Σύνολα κατηγοριοποιητών

62Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 63: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Υπερβολική προσαρμογή2000 δισδιάστατα σημεία σε δύο κλάσεις (1000 σημεία ανά κλάση), που ακολουθούν κανονική κατανομή.Προσθέτουμε θόρυβο: ανταλλάζουμε την κλάση 150 σημείωνΔιαχωρίζουμε 1000 σημεία στο σύνολο ελέγχουΠροσθέτουμε επιπλέον θόρυβο στο σύνολο εκμάθησης: ανταλλάζουμε την κλάση άλλων 200 τυχαίων σημείων

63Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 64: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

64Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Υπερβολική προσαρμογή

Page 65: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Μικρός αριθμό κόμβων: ανεπαρκής προσαρμογή (undefiting)

Στο δένδρο απόφασης προστίθενται ολοένα και περισσότεροι κόμβοι με σκοπό να καλυφθούν (δηλαδή, να γίνει εκμάθηση) των θορυβωδών σημείων.

Η υπερβολική προσαρμογή, που δηλώνεται από τη μείωση του λάθους εκμάθησης, μειώνει τη δυνατότητα του δένδρου απόφασης να γενικεύει σε άγνωστα αντικείμενα, κάτι που δηλώνεται από την αύξηση του λάθους ελέγχου.

65Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Υπερβολική προσαρμογή

Page 66: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Ψαλιδισμός (pruning)

Προ-ψαλιδισμός: εναλλακτικά κριτήρια τερματισμού κατά τη δημιουργία

Δύσκολη επιλογή κατωφλίου

Μετά-ψαλιδισμός: Πρώτα δημιουργούμε το δένδρο Μετά, διαγράφουμε υποδένδρα ώστε να

μειώσουμε την υπερβολική προσαρμογή

66Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 67: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Αλγόριθμος REP

67Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 68: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Αλγόριθμος REP

68Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 69: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Παράδειγμα

69Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 70: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Σύνολα κατηγοριοποιητώνn δυαδικοί (2 κλάσεις) ανεξάρτητοι κατηγοριοποιητέςΚάθε ένας έχει πιθανότητα λάθους eΑποφασίζουμε την κλάση που λέει η πλειοψηφία των κατηγοριοποιητώνΓια να γίνει λάθος, περισσότεροι από n/2 να κάνουν λάθοςΕκτιμώμενο λάθος για το σύνολο:

70Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 71: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Σύνολα κατηγοριοποιητών

n=10, e=0.2, E =0.0064

71Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 72: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Bagging (Bootstrap AGGragatING)

k δείγματα με επανατοποθέτηση (διαδικασία bootstrap) σύνολα δεδομένων για k κατηγοριοποιητές (ίδιος αλγόριθμο

κατασκευής) αναμενόμενος αριθμός διακριτών αντικειμένων στο κάθε

δείγμα: 63.2% του αρχικού

Ένα νέο αντικείμενο κατατάσσεται με καθέναν από k κατηγοριοποιητές.

Το αναθέτουμε κλάση που πλειοψηφεί

Η μέθοδος bagging βελτιώνει την ακρίβεια, όταν υπάρχει διακύμανση στην ακρίβεια των k κατηγοριοποιητών

72Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 73: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κλιμακούμενοι αλγόριθμοι

Δένδρα απόφασης: απαίτηση τα δεδομένα στην κύρια μνήμη αλλεπάλληλες ταξινομήσεις αριθμητικών

δεδομένων σε κάθε κόμβο

Δεν κλιμακώνονται εύκολαΚλιμακούμενες παραλλαγές: SLIQ, SPRINT

ΔΕΝ μειώνουν την ακρίβεια

73Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 74: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

SLIQ (Supervised Learning In Quest)

Αρχές του SLIQ: Προ-ταξινόμηση Ανάπτυξη κατά πλάτος

74Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 75: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Προ-ταξινόμηση: Λίστες Ιδιοτήτων/Κλάσεων

Αρχική ρίζα

75Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 76: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Διάσπαση με gini index

76Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

2

Page 77: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατά-πλάτος ανάπτυξη

77Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 78: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατά-πλάτος ανάπτυξη

78Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 79: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατά-πλάτος ανάπτυξη

79Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 80: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

SPRINT

Ο SLIQ απαιτεί η λίστα κλάσης να παραμένει στη μνήμη

Πρόβλημα αν αυτό δεν είναι εφικτό

Ο SPRINT καταργεί τη λίστα κλάσης προσθέτει την κλάση στις λίστες ιδιοτήτων

Κάθε κόμβος έχει τη δική του λίστα ιδιοτήτων

Δυνατότητα για παραλληλισμό

80Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 81: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Λίστες ιδιοτήτων SPRINT

81Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 82: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Ενημέρωση λιστών

Για την ιδιότητα διάσπασης: απλώς διαχωρίζεται η αντίστοιχη

λίστα σε 2 άλλες (δυαδική διάσπαση)

Για τις υπόλοιπες ιδιότητες: ο διαχωρισμός γίνεται βάσει RID

82Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Page 83: Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

SPRINT vs. SLIQ

SPRINT Δεν έχει περιορισμό

μνήμης Απαιτεί χρόνο

ενημέρωσης και επαναποθήκευσης λιστών

Παραλληλίζεται εύκολα

SLIQ Μειώνει τους περιορισμούς

μνήμης αλλά δεν τους εξαλείφει (λίστα κλάσης)

Ενημερώνει μόνο τη λίστα κλάσεων (στη μνήμη)

Δεν παραλληλίζεται εύκολα (λόγω μίας κεντρικής λίστας κλάσης)

83Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων