Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη...

Post on 21-Jan-2016

61 views 3 download

description

Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 6 : Κατηγοριοποίηση http://delab.csd.auth.gr/books/grBooks/grBooks.html. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων. 1. Κ ατηγοριοποίηση. - PowerPoint PPT Presentation

Transcript of Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη...

1

Α. Νανόπουλος & Γ. Μανωλόπουλος

Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων

Κεφάλαιο 6: Κατηγοριοποίηση

http://delab.csd.auth.gr/books/grBooks/grBooks.html

Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

Κατηγοριοποίηση

H ανάθεση αντικειμένων σε προκαθορισμένες κλάσειςΙδιότητεςΜοντέλο κατηγοριοποίησης

Εκπαίδευση από υπάρχοντα δεδομένα(σύνολο εκμάθησης)

2Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα

3Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Κατηγοριοποιητής

Αλγόριθμος κατασκευής μοντέλου Διαμερισμός σε περιοχές Εξέταση κατανομών πιθανότητας Εξέταση πλησιέστερων αντικειμένων

4Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα

5Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Διαμερισμός σε περιοχές

6Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Εξέταση κατανομών πιθανότητας

7Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Εξέταση πλησιέστερων αντικειμένων

8Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Κριτήρια Αξιολόγησης Κατηγοριοποιητών

Ακρίβεια πρόβλεψης του μοντέλου

Ευκολία στην κατανόηση του μοντέλου

Κλιμάκωση στο μέγεθος του συνόλου εκμάθησης

Ανοχή στο θόρυβο και στις ελλιπείς τιμές

9Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Δένδρα απόφασης

10Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Κατηγοριοποίηση με δένδρο

{Έγγαμος, 22 ετών}. Πιθανός αγοραστής;

11Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Εξαγωγή κανόνωνΜονοπάτι = συζεύξειςΚλάση = διάζευξη συζεύξεων

12Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Κατασκευή δένδρου απόφασης(brute-force)

Κατασκευή κάθε δυνατού πιθανού δένδρου

Επιλογή του ακριβέστερου

NP-complete

13Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Κατασκευή δένδρου απόφασης (greedy)

14Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα 1/3

15Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα 2/3

16Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα 3/3

17Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Πόσα παιδιά;

2 ή 3;

18Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Πλεονεκτήματα-Μειονεκτήματα

Πολλά παιδιά (=όλα)+ εύκολη διάσπαση- περίπλοκο δένδρο- αριθμητικές

ιδιότητες? (μόνο με κβάντωση)

2 παιδιά- δύσκολη διάσπαση+ απλό/ευνόητο δένδρο+ χειρισμός

αριθμητικών ιδιοτήτων

+ καλύτερη ακρίβεια!

Επιλογή: Δυαδικά Δένδρα (2 παιδιά)

19Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Διάσπαση σε δυαδικά δένδρα

20Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα

abca,ba,cb,ca,b,c-

b, ca, ca, bcba-a,b,c

(2n-2) / 2 = 2n-1-1

21Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Διάσπαση αριθμητικών ιδιοτήτων

ΤαξινόμησηΕξέταση n-1 διαχωριστικών θέσεων

22Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Πως επιλέγουμε τη διαχωριστική ιδιότητα

0:32:0

2:10:2

2:2

0:1

23Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Μέτρο ανομοιογένειας

Εντροπία για c κλάσεις

Για c = 2

24Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Εντροπία για c = 2

25Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα

0:32:0 2:1

0:2

2:2

0:1

Υπολογίστε την εντροπία κάθε περίπτωσης (p -> Ναι)

26Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα0:3 2:0 2:1 0:2

2:2

0:1

27Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Αξιολόγηση διαχωριστικής ιδιότητας

Πληροφοριακό όφελος για μία ιδιότητα:

28Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα πληροφοριακού οφέλους

0 0 0.9183 0

1

0

Πριν τη διάσπαση:Ε(Ν) = 0.971

Υπολογίστε το πληροφοριακό όφελος κάθε περίπτωσης

29Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα πληροφοριακού οφέλους

00 0

10

Πριν τη διάσπαση:Ε(Ν) = 0.971

0.9183

30Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Στο Σχήμα (α) το όφελος είναι 0.971-3/5*0-2/5*0=0.971

Στο Σχήμα (β) το όφελος είναι 0.971-3/5*0.9183-2/5*0=0.42

Στο Σχήμα (γ) το όφελος είναι 0.971-4/5*1-1/5*0=0.171

Επιλογή διαχωριστικής ιδιότητας

Εξετάζουμε για κάθε ιδιότητα όλους τους δυνατούς διαχωρισμούς

επιλέγουμε το διαχωρισμό με το μέγιστο όφελος

Επιλέγουμε την ιδιότητα με το μεγαλύτερο πληροφοριακό όφελος

εφαρμόζουμε το διαχωρισμό μεγίστου οφέλους

31Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Κατασκευή δένδρου απόφασης (greedy)

ΑΔΥΝΑΤΟΝ

32Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Εναλλακτικά κριτήρια τερματισμού

Ένα ποσοστό (π.χ., 80%) ανήκουν στην ίδια κλάσηΑν ο κόμβος περιέχει λιγότερα από, π.χ., 10, αντικείμενα

η κλάση του φύλλου είναι η πλειοψηφούσα

Μπορούμε να έχουμε και τα δύο κριτήρια

33Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Αποτέλεσμα εναλλακτικών κριτηρίων

34Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Χαρακτηριστικά Δένδρων Απόφασης

Η κατασκευή του βέλτιστου δένδρου απόφασης απαιτεί αποτρεπτικό χρόνο (NP-complete). Γιαυτό χρησιμοποιούνται άπληστοι ευρετικοί αλγόριθμοι, που δεν χρησιμοποιούν οπισθοδρόμηση. Τα ευρετικά μειώνουν κατά πολύ το χρόνο κατασκευής. Το αποτέλεσμα είναι ότι τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένωνΗ ακρίβεια πρόβλεψης των δένδρων απόφασης είναι αποδεκτή για τις περισσότερες περιπτώσεις, συγκρίσιμη με την ακρίβεια άλλων κατηγοριοποιητώνΤο μοντέλο που προκύπτει είναι εύκολο στην κατανόηση.Τα δένδρα απόφασης έχουν καλή ανοχή στο θόρυβο, ειδικά όταν εφαρμόζεται ψαλιδισμός

35Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

ΜειονεκτήματαΑγνοούν εξαρτήσεις μεταξύ των ιδιοτήτων. Διάσπαση ως προς μία ιδιότητα => αντιστοίχιση με περιοχές, τα όρια των οποίων είναι παράλληλα με τους άξονες

36Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Άλλοι κατηγοριοποιητές;

Bayesian κατηγοριοποιητές

Κατηγοριοποιητές πλησιέστερων γειτόνων

37Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Bayesian κατηγοριοποιητής για 1 ιδιότητα

Ιδιότητα Χ (συμβολική) m διακριτές τιμές

Ιδιότητα κλάσης C n διακριτές τιμές

Θέλουμε να υπολογίσουμε (για κάθε j):

Άγνωστη ποσότητα

38Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα

Οικογενειακή κατάσταση = Άγαμος

Αγοραστής ή όχι;

P(Ναι | Άγαμος) = ;

P(Όχι | Άγαμος) = ;

39Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Θεώρημα Bayes

Άγνωστη ποσότητα

Υπολογίζονται

Ανεξάρτητη cj

40Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Στο παράδειγμα…

P(Ναι) = 7/10

P(Όχι) = 3/10

P(Ναι | Άγαμος) -> P(Άγαμος | Ναι) P(Ναι) = 2/7*7/10 = 0.2

P(Όχι | Άγαμος) -> P(Άγαμος | Όχι) P(Όχι) = 1/3 * 3/10 = 0.1

41Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Τι γίνεται για περισσότερες ιδιότητες;

Απλούστευση: ανεξαρτησία των d ιδιοτήτων

Αφελείς Bayesian κατηγοριοποιητές

42Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα

Οικογενειακή κατάσταση = Άγαμος, Ηλικία = 35Αγοραστής ή όχι; P(Ναι | Άγαμος, 35) = ; P(Όχι | Άγαμος, 35) = ;

43Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

ΠαράδειγμαP(Ναι|Άγαμος, 35)-> P(Άγαμος,35|Ναι) * P(Ναι)=;P(Όχι|Άγαμος, 35)-> P(Άγαμος,35| Όχι) * P(Όχι)=;

Υπόθεση: Ανεξαρτησία οικογενειακής κατάστασης και ηλικίας

P(Ναι|Άγαμος, 35)-> P(Άγαμος|Ναι) P(35 |Ναι) * P(Ναι)=;P(Όχι|Άγαμος, 35)-> P(Άγαμος| Όχι) P(35 | Όχι) * P(Όχι)=;

P(Άγαμος|Ναι) * P(Ναι) = 0.2P(Άγαμος|Όχι) * P(Όχι) = 0.1 (από παράδειγμα 1

ιδιότητας)

44Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα

P(35|Ναι)=; P(35|Όχι)=;Ηλικία συνεχής μεταβλητή (κβάντωση;):

υπόθεση συνεχούς κατανομής

45Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

ΠαράδειγμαP(Ναι|Άγαμος, 35) ->P(Άγαμος|Ναι) P(35 |Ναι) * P(Ναι)= 0.2 * 0.11ε = 0.022 ε

P(Όχι|Άγαμος, 35) ->P(Άγαμος| Όχι) P(35 | Όχι) * P(Όχι)= 0.1 * 10-14 = 10-15 ε

Άρα, αγοραστής

46Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Χαρακτηριστικά Αφελών Bayesian

Η ακρίβεια πρόβλεψης των αφελών Bayesian κατηγοριοποιητών επηρεάζεται αρνητικά από το γεγονός ότι σε πραγματικά δεδομένα σχεδόν πάντοτε υπάρχουν εξαρτήσεις μεταξύ των μεταβλητώνΤο μοντέλο που προκύπτει είναι εύκολο στην κατανόηση.Η κατασκευή των ιστογραμμάτων για τους υπολογισμούς των πιθανοτήτων, απαιτεί μόνο μία ανάγνωση του συνόλου δεδομένων. Επομένως, οι Bayesian κατηγοριοποιητές κλιμακώνονται σε μεγάλους όγκους δεδομένων.Οι Bayesian κατηγοριοποιητές έχουν καλή ανοχή στο θόρυβο, επειδή οι θορυβώδεις τιμές εξομαλύνονται από τις υπόλοιπες κατά τους υπολογισμούς των εν μέρει πιθανοτήτων.Οι Bayesian κατηγοριοποιητές δεν επηρεάζονται από τις ελλιπείς τιμές, επειδή μπορούν να αγνοηθούν.

47Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Κατηγοριοποιητής k πλησιέστερων γειτόνων

Κατηγοριοποιεί ένα αντικείμενο στην κλάση στην οποία ανήκει η πλειοψηφία των k πλησιέστερων σε αυτό αντικειμένων

Απαιτείται ορισμός μέτρου ομοιότητας (ή απόστασης)

48Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα

{Άγαμος,Έγγαμος,Διαζευγμένος}->{0, 0.5, 1}Ηλικία x -> (x-20)/(40-20)Ευκλείδειος χώρος [0,1] x [0,1]Ευκλείδεια απόσταση

49Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμαk = 3, προς κατηγοριοποίηση Άγαμος, 35

50Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Επιλογή kΗ τιμή του k μπορεί να επηρεάζει το αποτέλεσμα

Μικρές τιμές του k εξετάζουν μόνο την άμεση γειτονιά, επομένως είναι επιρρεπείς στο θόρυβο.

Μεγάλες τιμές του k αγνοούν την αρχή της τοπικότητας, και είναι επιρρεπείς στην πλειοψηφούσα κλάση σε όλο το σύνολο δεδομένων

Συχνά χρησιμοποιούμενη τιμή είναι k = sqrt(n), όπου n ο αριθμός των αντικειμένων στο σύνολο εκμάθησης

Σε εμπορικά συστήματα η default τιμή είναι k = 10

51Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Χαρακτηριστικά κατηγοριοποιητών k πλησιέστερων γειτόνων

Η ακρίβεια πρόβλεψης τους είναι ευαίσθητη στην τιμή του k.Αξιοποιούν την τοπικότητα και εξετάζουν μη γραμμικές περιοχές (αντίθετα από τα δένδρα απόφασης), κάτι που συχνά αποτελεί πλεονέκτημα.Το αποτέλεσμα της κατηγοριοποίησης δεν γίνεται εύκολα κατανοητό. Η αρχή της τοπικότητας είναι η μόνη αιτιολόγηση του αποτελέσματος, αλλά είναι πολύ γενική.Ο χρόνος κατηγοριοποίησης είναι γραμμικός ως προς τα σημεία, κάτι που περιορίζει την κλιμάκωση τους (γιατί;). Μπορούν, όμως, να χρησιμοποιηθούν δομές καταλόγου (π.χ., kd-tree) για την επιτάχυνση της εύρεσης πλησιέστερων γειτόνων.Δεν έχουν καλή ανοχή στο θόρυβο, ιδιαίτερα για μικρές τιμές του k.

52Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Αποτίμηση ακρίβειαςΓνωρίζουμε 3 κατηγοριοποιητέςΠως συγκρίνουμε την επίδοσή τους ως προς την ακρίβεια;Πως μπορούμε να είμαστε σίγουροι για την ακρίβεια που θα έχει το μοντέλο μας;

Μέτρηση με αντικειμενικό τρόπο, που να αποκλείει προκατάληψη: 4 μέθοδοι

Υπολογισμός στατιστικής σημαντικότητας

53Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Μέθοδοι μέτρησης ακρίβειας: Hold-out

Χωρίζουμε το σύνολο δεδομένων σε δύο τμήματα: το σύνολο εκμάθησης (π.χ., τα 2/3 πρώτα αντικείμενα) και το σύνολο ελέγχου (π.χ. τα επόμενα 1/3)

Δημιουργούμε μοντέλο σύμφωνα με το σύνολο εκμάθησηςΚατατάσσεται κάθε αντικείμενο του συνόλου ελέγχου X είναι ο αριθμός που κατατάσσονται σωστά και Ν ο συνολικός αριθμός των αντικειμένων στο σύνολο ελέγχου

Εξάρτηση από τη διάταξη των αντικειμένων

54Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Μέθοδοι μέτρησης ακρίβειας: Random subsampling

Αποφυγή εξάρτησης από διάταξηΕφαρμόζουμε τυχαία δειγματοληψία χωρίς επανατοποθέτησηΕπιλέγουμε N αντικείμενα, τα οποία θέτουμε στο σύνολο ελέγχουΤα εναπομείναντα αντικείμενα τα θέτουμε στο σύνολο εκμάθησης. Επανάληψη της διαδικασίας αυτής k φορέςΑν Xi είναι ο αριθμός των σωστά καταταγμένων αντικειμένων στην i-οστή επανάληψη

55Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Μέθοδοι μέτρησης ακρίβειας:Cross validation

Για να μην λαμβάνουμε τυχαία τα δείγματαM ο αριθμός των αντικειμένων στο σύνολο δεδομένωνΘέλουμε k επαναλήψειςΧωρίζουμε το σύνολο σε k τμήματα με M/k (διαδοχικά) αντικείμενα το κάθε έναΣτην i-οστή επανάληψη, το i-οστό τμήμα λειτουργεί ως σύνολο ελέγχου, ενώ τα υπόλοιπα k-1 τμήματα απαρτίζουν το σύνολο εκμάθησης.Μία συχνά χρησιμοποιούμενη τιμή του k είναι το 10Η μέθοδος 10-fold cross-validation θεωρείται μία από τις πιο αξιόπιστες για την αποτίμηση της ακρίβειας κατηγοριοποιητών.Αν k=Μ, τότε η μέθοδος ονομάζεται leave-one-out χρησιμοποιείται μόνο για μικρά σύνολα δεδομένων.

56Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Μέθοδοι μέτρησης ακρίβειας: bootstrap

Δειγματοληψία με επανατοποθέτησηΜ αντικείμενα -> 0.632Μ στο δείγμαΔειγματοληπτούμε Μ φορέςΣε κάθε προσπάθεια: P(επιλογή x) = 1/ΜΣε M προσπάθειες

57Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Τα 0.632Μ αντικείμενα αποτελούν το σύνολο εκμάθησηςΕπανάληψη k φορές της διαδικασίαςΑν αi είναι η ακρίβεια στην i-οστή επανάληψη και α η ακρίβεια όταν σύνολο ελέγχου = σύνολο εκμάθησης = σύνολο

58Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Μέθοδοι μέτρησης ακρίβειας: bootstrap

Διαστήματα εμπιστοσύνης για την ακρίβεια πρόβλεψης

Χ από N αντικείμενα κατατάχθηκαν σωστά

Χ τυχαία μεταβλητή με διωνυμική κατανομή

p η πραγματική ακρίβεια πρόβλεψης

Α = Χ/Ν τυχαία μεταβλητή (διωνυμική)

59Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Διαστήματα εμπιστοσύνης για την ακρίβεια πρόβλεψης

Για Ν → Α = Χ/Ν ακολουθεί κανονική κατανομή (νόμος μεγάλων αριθμών)Σε επίπεδο εμπιστοσύνης α:

60Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα

61Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Βελτίωση της ακρίβειας

Γνωρίζουμε 3 βασικούς κατηγοριοποιητέςΞέρουμε πώς να εκτιμούμε σωστά την ακρίβειαΜπορούμε να βελτιώσουμε την ακρίβεια χρησιμοποιώντας διαφορετικά τους γνωστούς μας κατηγοριοποιητές;

Ψαλιδισμός Σύνολα κατηγοριοποιητών

62Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Υπερβολική προσαρμογή2000 δισδιάστατα σημεία σε δύο κλάσεις (1000 σημεία ανά κλάση), που ακολουθούν κανονική κατανομή.Προσθέτουμε θόρυβο: ανταλλάζουμε την κλάση 150 σημείωνΔιαχωρίζουμε 1000 σημεία στο σύνολο ελέγχουΠροσθέτουμε επιπλέον θόρυβο στο σύνολο εκμάθησης: ανταλλάζουμε την κλάση άλλων 200 τυχαίων σημείων

63Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

64Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Υπερβολική προσαρμογή

Μικρός αριθμό κόμβων: ανεπαρκής προσαρμογή (undefiting)

Στο δένδρο απόφασης προστίθενται ολοένα και περισσότεροι κόμβοι με σκοπό να καλυφθούν (δηλαδή, να γίνει εκμάθηση) των θορυβωδών σημείων.

Η υπερβολική προσαρμογή, που δηλώνεται από τη μείωση του λάθους εκμάθησης, μειώνει τη δυνατότητα του δένδρου απόφασης να γενικεύει σε άγνωστα αντικείμενα, κάτι που δηλώνεται από την αύξηση του λάθους ελέγχου.

65Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Υπερβολική προσαρμογή

Ψαλιδισμός (pruning)

Προ-ψαλιδισμός: εναλλακτικά κριτήρια τερματισμού κατά τη δημιουργία

Δύσκολη επιλογή κατωφλίου

Μετά-ψαλιδισμός: Πρώτα δημιουργούμε το δένδρο Μετά, διαγράφουμε υποδένδρα ώστε να

μειώσουμε την υπερβολική προσαρμογή

66Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Αλγόριθμος REP

67Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Αλγόριθμος REP

68Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Παράδειγμα

69Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Σύνολα κατηγοριοποιητώνn δυαδικοί (2 κλάσεις) ανεξάρτητοι κατηγοριοποιητέςΚάθε ένας έχει πιθανότητα λάθους eΑποφασίζουμε την κλάση που λέει η πλειοψηφία των κατηγοριοποιητώνΓια να γίνει λάθος, περισσότεροι από n/2 να κάνουν λάθοςΕκτιμώμενο λάθος για το σύνολο:

70Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Σύνολα κατηγοριοποιητών

n=10, e=0.2, E =0.0064

71Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Bagging (Bootstrap AGGragatING)

k δείγματα με επανατοποθέτηση (διαδικασία bootstrap) σύνολα δεδομένων για k κατηγοριοποιητές (ίδιος αλγόριθμο

κατασκευής) αναμενόμενος αριθμός διακριτών αντικειμένων στο κάθε

δείγμα: 63.2% του αρχικού

Ένα νέο αντικείμενο κατατάσσεται με καθέναν από k κατηγοριοποιητές.

Το αναθέτουμε κλάση που πλειοψηφεί

Η μέθοδος bagging βελτιώνει την ακρίβεια, όταν υπάρχει διακύμανση στην ακρίβεια των k κατηγοριοποιητών

72Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Κλιμακούμενοι αλγόριθμοι

Δένδρα απόφασης: απαίτηση τα δεδομένα στην κύρια μνήμη αλλεπάλληλες ταξινομήσεις αριθμητικών

δεδομένων σε κάθε κόμβο

Δεν κλιμακώνονται εύκολαΚλιμακούμενες παραλλαγές: SLIQ, SPRINT

ΔΕΝ μειώνουν την ακρίβεια

73Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

SLIQ (Supervised Learning In Quest)

Αρχές του SLIQ: Προ-ταξινόμηση Ανάπτυξη κατά πλάτος

74Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Προ-ταξινόμηση: Λίστες Ιδιοτήτων/Κλάσεων

Αρχική ρίζα

75Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Διάσπαση με gini index

76Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

2

Κατά-πλάτος ανάπτυξη

77Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Κατά-πλάτος ανάπτυξη

78Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Κατά-πλάτος ανάπτυξη

79Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

SPRINT

Ο SLIQ απαιτεί η λίστα κλάσης να παραμένει στη μνήμη

Πρόβλημα αν αυτό δεν είναι εφικτό

Ο SPRINT καταργεί τη λίστα κλάσης προσθέτει την κλάση στις λίστες ιδιοτήτων

Κάθε κόμβος έχει τη δική του λίστα ιδιοτήτων

Δυνατότητα για παραλληλισμό

80Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Λίστες ιδιοτήτων SPRINT

81Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

Ενημέρωση λιστών

Για την ιδιότητα διάσπασης: απλώς διαχωρίζεται η αντίστοιχη

λίστα σε 2 άλλες (δυαδική διάσπαση)

Για τις υπόλοιπες ιδιότητες: ο διαχωρισμός γίνεται βάσει RID

82Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων

SPRINT vs. SLIQ

SPRINT Δεν έχει περιορισμό

μνήμης Απαιτεί χρόνο

ενημέρωσης και επαναποθήκευσης λιστών

Παραλληλίζεται εύκολα

SLIQ Μειώνει τους περιορισμούς

μνήμης αλλά δεν τους εξαλείφει (λίστα κλάσης)

Ενημερώνει μόνο τη λίστα κλάσεων (στη μνήμη)

Δεν παραλληλίζεται εύκολα (λόγω μίας κεντρικής λίστας κλάσης)

83Α.Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη & Αποθ. Δεδομένων