Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf ·...
Transcript of Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf ·...
Εξόρυξη
Δεδομένων
Κλασσικά
Βιβλία
Αναφοράς
•
Data Mining-Concepts and Techniques-Han and K, Morgan Kaufmann, 2001
•
Principles of Data Mining-Hand, Manila and Smyth. MIT Press, 2001.
•
The Elements of Statistical Learning-Data Mining, Inference and Prediction, Springer, 2001.
Ο
όρος
εξόρυξη
δεδομένων
αναφέρεται
στην
εξόρυξη
ή
την ανακάλυψη
νέων
πληροφοριών
με
την
μορφή
κανόνων
ή
προτύπων
από
πηγές
δεδομένων. Για να είναι πρακτικά χρήσιμες
αυτές
οι
πληροφορίες
πρέπει
να
έχουν
εξαχθεί
από
μεγάλες
βάσεις
δεδομένων
και
αρχεία.
Η
εξόρυξη
δεδομένων
χρησιμοποιεί
τεχνικές
από
την μηχανική
μάθηση, την
στατιστική, τα
νευρωνικά
δίκτυα
κοκ.
Οι
αποθήκες
δεδομένων
μπορούν
να χρησιμοποιηθούν
για
να
υποστηρίξουν
την
εξόρυξη
δεδομένων.
Η
εξόρυξη
δεδομένων
αποτελεί
τμήμα
της
διαδικασίας ανακάλυψης
γνώσης
από
βάσεις
δεδομένων
(KDD-
Knowledge Discovery in Databases).
Η
διαδικασία
αυτή
αποτελείται
από
6 φάσεις: επιλογή δεδομένων, καθαρισμό, εμπλουτισμό, μετατροπή
ή
κωδικοποίηση, εξόρυξη, και
δημιουργία
αναφορών.
Πραγματικότητα
Ανακάλυψη
γνώσης
από
βάσεις
δεδομένων
Απαιτήσεις
για
«έξυπνα
»
εργαλεία
Ανακαλύπτουν νέα γνώση μέσααπό γνωστά δεδομένα
Απαιτούν καμία ή μικρήκαθοδήγηση από τον χρήστη
Χειρίζονται μεγάλους όγκουςδεδομένων
Επιχειρησιακά
δεδομένα
Αποθήκη
δεδομένων
ΕξαγωγήΕξαγωγήΜετασχημ/σμόςΜετασχημ/σμός
Εργαλεία
εξόρυξης
δεδομένων
Data
mart
Data
martΦόρτωση/
Ανανέωση
Φόρτωση/
Ανανέωση
OLAP server
OLAP server
Εργαλεία
επεξεργασίας
δεδομένων
Εργαλεία
πολυδιάστατηςανάλυσης
Εργαλεία
εξόρυξης
δεδομένων
Εξόρυξη
Δεδομένων
(Data Mining)
Ανακάλυψη νέων (κρυμμένων) προτύπων και μοντέλων (patterns, models), κανόνες συσχέτισης, ιεραρχίες κατηγοριοποίησης, ομαδοποίηση
με (ημι-) αυτόματο και αποδοτικό τρόπο
για την περιγραφή των δεδομένων μίας μεγάλης βάσηςκαι την πρόβλεψη και εξήγηση νέων δεδομένων.
OΡΙΣΜΟΣ
Ανακάλυψη
γνώσης
είναι
η
διαδικασία
εντοπισμού έγκυρων, εν
δυνάμει
χρήσιμων
και
κατανοητών
πρότυπων
(patterns) σε
δεδομένα.
Δεδομένα
είναι
ένα
σύνολο
F
από
γεγονότα. Πρότυπο
(pattern) είναι
μια
έκφραση
Ε
σε
μια
γλώσσα
L
που
περιγράφει
ένα
υποσύνολο
FE
του
F. Διαδικασία:Συνήθως
πολλών
βημάτων, που
περιλαμβάνει
προετοιμασία
των
δεδομένων, αναζήτηση
προτύπων, και εκλέπτυνση
με
επανάληψη.
Εγκυρότητα:Τα
πρότυπα
που
ανακαλύπτονται
πρέπει
να ισχύουν
και
σε
νέα
δεδομένα
με
κάποιο
βαθμό
εμπιστοσύνης. Χρήσιμες:Τα
πρότυπα
θα
πρέπει
να
οδηγούν
σε
κάποιες
χρήσιμες
δράσεις, που
εκτιμούνται
από
κάποια συνάρτηση.
Κατανοητά:Πρέπει
να
είναι
πρότυπα
κατανοητά
από ανθρώπους.
Στόχοι
της
Εξόρυξης
Δεδομένων
και
Ανακάλυψης Γνώσης
Πρόβλεψη-Η εξόρυξη δεδομένων μπορεί να δείξειτην συμπεριφορά κάποιων γνωρισμάτων τωνδεδομένων στο μέλλονΤαυτοποίηση-Οι μορφές των δεδομένων μπορούννα χρησιμοποιηθούν για να προσδιορισθεί ηύπαρξη ενός προϊόντος, ενός γεγονότος, η μιαςδραστηριότηταςΤαξινόμηση-Η εξόρυξη δεδομένων μπορεί ναδιαμερίσει τα δεδομένα ώστε να μπορούν ναπροσδιορισθούν διαφορετικές κλάσεις ήκατηγορίες με βάση συνδυασμούς παραμέτρων
Στόχοι
της
Εξόρυξης
Δεδομένων
και
Ανακάλυψης Γνώσης
(2)
Βελτιστοποίηση –Ένας ενδεχόμενος στόχος τηςεξόρυξης δεδομένων μπορεί να είναι ηβελτιστοποίηση της χρήσης μέσων όπως ο χρόνος, οχώρος, το χρήμα, ή τα υλικά και η μεγιστοποίηση τωνμεταβλητών εξόδου όπως οι πωλήσεις ή τα κέρδηδοθέντων κάποιων περιορισμών. Σαν τέτοιος, αυτός οστόχος της εξόρυξης δεδομένων προσομοιάζει τηναντικειμενική συνάρτηση που χρησιμοποιείται σταπροβλήματα επιχειρησιακής έρευνας πουαντιμετωπίζει βελτιστοποιήσεις υπό περιορισμούς.
Τύποι
Γνώσης
που
Ανακαλύπτονται
κατά
την
Εξόρυξη Δεδομένων
•
Κανόνες
Συσχέτισης
–Οι
κανόνες
αυτοί
σχετίζουν
την
ύπαρξη
ενός συνόλου
προϊόντων
με
διάστημα
τιμών
ενός
άλλου
συνόλου
μεταβλητών.•
Ιεραρχίες
Ταξινόμησης
–Ο
στόχος
είναι
ξεκινώντας
από
ένα
υπάρχον
σύνολο
γεγονότων
ή
δοσοληψιών
να
δημιουργηθεί
μια ιεραρχία
κλάσεων.
•
Ακολουθιακά
πρότυπα
–Αναζητείται
μια
ακολουθία
ενεργειών
ή γεγονότων.
•
Πρότυπα
σε
χρονοσειρές
–Μπορεί
να
εντοπισθούν
ομοιότητες
στις θέσεις
χρονοσειρών.
•
Κατηγοριοποίηση
και
κατάτμηση
–Ένα
σύνολο
γεγονότων
ή αντικειμένων
μπορεί
να
διαμερισθεί
σε
σύνολα
“παρόμοιων”
στοιχείων.
Χαρακτηριστικά
ενός
Συστήματος
Εξόρυξης
Δεδομένων
•
Διαχείριση
Διαφορετικών
Τύπων
Δεδομένων•
Αποδοτικότητα
των
αλγόριθμων
εξόρυξης
•
Χρησιμότητα, βεβαιότητα
και
εκφραστικότητα
των αποτελεσμάτων
της
εξόρυξης.
•
Παρουσίαση
σε
υψηλό
επίπεδο
των
αιτημάτων
και
των αποτελεσμάτων
από
την
διαδικασία
εξόρυξης
•
Διαδραστική
εξόρυξη
γνώσης
σε
διαφορετικά
επίπεδα αφαίρεσης.
•
Εξόρυξη
Πληροφοριών
από
διαφορετικές
πηγές δεδομένων
•
Προστασία
και
ασφάλεια
δεδομένων.
Τρόποι
Ταξινόμησης
των
Τεχνικών
Εξόρυξης
•
Είδη
βάσεων
δεδομένων
με
τις
οποίες
συνεργάζονται (σχεσιακές, αντικειμενοστρεφείς, ετερογενείς, Internet
κλπ).•
Το
είδος
της
γνώσης
που
εξάγουν
(κανόνες
συσχέτισης,
κανόνες
χαρακτηρισμού, κανόνες
ταξινόμησης, )•
Είδος
των
τεχνικών
που
χρησιμοποιούν
(αυτόνομη
εξόρυξη, εξόρυξη
καθοδηγούμενη
από
δεδομένα, εξόρυξη
καθοδηγούμενη
από
επερωτήσεις).
Βάσεις
δεδομένων
ΤΕΧΝΟΛΟΓΙΑ
Στατιστική
ανάλυση Μηχανική
Μάθηση
Ο
ρόλος
του
χώρου
των
Βάσεων
Δεδομένων
Κλιμάκωση και εξέλιξηυπαρχόντων αλγορίθμωνγια χειρισμό μεγάλου όγκου δεδομένων
Δουλειά σε όλες τις διαδικασίες εξόρυξης
Συνολική αντιμετώπιση κοινών προβλημάτωνεπεξεργασίας δεδομένων στους αλγόριθμουςΚατασκευή SQL-aware συστημάτων
εξόρυξης δεδομένων
Εξέλιξη των ΣΔΒΔ για αποδοτικότερηυποστήριξη μεθόδων εξόρυξης δεδομένων
Πχ: ενσωμάτωση data mining primitives
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
Κατηγοριοποίηση(classification)
Κατηγοριοποίηση
Εξόρυξη
Δεδομένων
(Data Mining)
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Κάθε οντότητα του πληθυσμού έχει m ιδιότητες: Α1, Α2,… ΑmΈναν πληθυσμό ο οποίος έχει Ν ομάδες: G1, G2, …GΝΈνα δείγμα του πληθυσμού για τις οντότητες του οποίουγνωρίζουμε σε ποια ομάδα ανήκουν
Βάση
Δεδομένων
Ανάπτυξη
προφίλ
για
κάθε
γνωστή
ομάδα
Εύρεση
όλων
(Ν) των
οντοτήτων που
ανήκουν
σε
μία
δοσμένη
ομάδα
Παράδειγμα: ποιοι
πελάτες
είναι
θετικοί
αποδέκτες
σε
διαφημιστικά
φυλλάδια
Οι πελάτες χωρίζονται σε θετικούς αποδέκτες και στους άλλους
Ιδιότητες κάθε πελάτη: Όνομα, ηλικία, επάγγελμα, κλπ
Δεδομένα για πελάτες που απάντησαν σε παλιότερες καμπάνιες
Κατηγοριοποίηση
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Κατηγοριοποίηση(classification)
Προφίλ
θετικών
αποδεκτών:
(Ηλικία>25 και
<55) και
μισθός>240000 και
Περιοχή=Ν.Προάστεια
Εφαρμογή
του
προφίλ
για
εύρεση
όλων
των
πελατών
για
αποστολή
νέου
υλικού
Άλλα
παραδείγματα
εφαρμογών:
- Oργάνωση
διαφημιστικής
καμπάνιας
- Πολιτική
πίστωσης
- Επέκταση
επιχειρησιακών
δραστηριοτήτων
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Κατηγοριοποίηση(classification)
Κατηγοριοποίηση
(Classification)
Κατηγοριοποίηση
είναι
η
διαδικασία
εκμάθησης
ενός
μοντέλου που
περιγράφει
διαφορετικές
κλάσεις
δεδομένων. Οι
κλάσεις
έχουν
προκαθορισθεί. Αυτή
η
διαδικασία
λέγεται “επιβλεπόμενη
μάθηση”
(supervised learning). Μόλις
δημιουργηθεί, μπορεί
να
χρησιμοποιηθεί
για
ταξινόμηση
νέων δεδομένων. Το
πρώτο
βήμα, επιτυγχάνεται
με
χρήση
ενός
συνόλου
δεδομένων
που
έχουν
ήδη
ταξινομηθεί. Κάθε
εγγραφή στα
δεδομένα
αυτά
περιέχει
ένα
γνώρισμα, που
ονομάζεται
γνώρισμα
κλάσης
που
δείχνει
σε
ποια
κλάση
ανήκει
η
εγγραφή. Το
μοντέλο
που
παράγεται
συνήθως
έχει
την
μορφή
δένδρου
αποφάσεων
ή
συνόλου
κανόνων.Το
μοντέλο
θέλουμε
να
προβλέπει
την
σωστή
κλάση
στην
οποία
ανήκουν
νέα
δεδομένα.
Διαδικασία
δύο
βημάτων
•
Δημιουργία
του
μοντέλου:περιγράφει
προκαθορισμένες
κλάσεις. –
Θεωρούμε
ότι
κάθε
πλειάδα
ανήκει
σε
μια
προκαθορισμένη
κλάση
–
Το
σύνολο
των
πλειάδων
που
χρησιμοποιούνται
για
την
δημιουργία του
μοντέλου
αποτελεί
το
σύνολο
εκγύμνασης
–
Το
μοντέλο
παριστάνεται
σαν
κανόνες, δένδρο
αποφάσεων
ή μαθηματικός
τύπος
•
Χρήση
του
μοντέλου
για
ταξινόμηση
μελλοντικών
ή
άγνωστων δεδομένων
–
Εκτίμηση
της
ακρίβειας
του
μοντέλου•
Συγκρίνεται
η
γνωστή
κλάση
δείγματος
ελέγχου
με
αυτή
που
προκύπτει
από το μοντέλο•
Ακρίβεια
είναι
το
ποσοστό
του
δείγματος
ελέγχου
που
ταξινομείται
σωστά
από
το
μοντέλο•
Το
σύνολο
ελέγχου
είναι
ανεξάρτητο
από
αυτό
της
εκμάθησης.•
Αν
η
ακρίβεια
είναι
αποδεκτή
χρησιμοποιείται
για
ταξινόμηση
άγνωστων
δεδομένων
Όνομα Βαθμίδα ΧρΠρουπ Μόνμος
Κώστας Προϊστάμενος 3 ΟΧΙ
Πέτρος Προϊστάμενος 7 ΝΑΙ
Άννα Διευθυντής 2 ΝΑΙ
Ηλίας Τμηματάρχης 7 ΝΑΙ
Ελένη Προϊστάμενος 6 ΟΧΙ
Πάνος Τμηματάρχης 3 ΟΧΙ
ΔεδομέναΕκμάθησης
Αλγόριθμοι
Κατηγοριοποίησης
Μοντέλο
If Διευθυντής
or ΧρΠρουπ>6 then
Μόνιμος=ΝΑΙ
Μοντέλο
Δεδομένα Ελέγχου
Άγνωστα Δεδομένα
Υπάρχουν
πολλά
μοντέλα
κατηγοριοποίησης
•
Ταξινόμηση
με
δένδρα
αποφάσεων•
Ταξινόμηση
Bayes
•
Νευρωνικά
δίκτυα•
Support Vector Machines (SVM)
•
Ταξινομήσεις
που
βασίζονται
σε
συσχετίσεις•
Άλλες
μέθοδοι
(KNN, Boosting, Bagging κλπ)
Αποτίμηση
των
Μεθόδων
Κατηγοριοποίησης
•
Προβλεπόμενη
Ακρίβεια•
Ταχύτητα
και
κλιμάκωση
–
Χρόνος
Δημιουργίας
του
μοντέλου–
Χρόνος
Χρήσης
•
Σταθερότητα–
Διαχείριση
θορύβου
και
χαμένων
τιμών
•
Δυνατότητα
ερμηνείας–
Κατανόηση
της
δομής
του
μοντέλου
•
Ποιότητα
των
κανόνων–
Μέγεθος
του
δένδρου
αποφάσεων
–
Πληρότητα
των
κανόνων
Καθορισμός
ενός
μετρικού
χώρου
και
υπολογισμός
των
οντοτήτων που
ανήκουν
σε
μία
ομάδα
με
μέτρο
την
εγγύτητα:
πχ: k-nearest neighbor
Προβολή
του
χώρου
σε
περιοχές
αποφάσεων:πχ: δέντρα
αποφάσεων, νευρωνικά
δίκτυα
Προσεγγίσεις
κατηγοριοποίησης:
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Κατηγοριοποίηση(classification)
Προτάσεις
από
τον
χώρο
των
βάσεων
για
κλιμακούμενους
αλγορίθμους:SPRINT
Όνομα Βαθμίδα ΧρΠρουπ Μόνμος
Κώστας Προϊστάμενος 3 ΟΧΙ
Πέτρος Προϊστάμενος 7 ΝΑΙ
Άννα Διευθυντής 2 ΝΑΙ
Ηλίας Τμηματάρχης 7 ΝΑΙ
Ελένη Προϊστάμενος 6 ΟΧΙ
Πάνος Τμηματάρχης 3 ΟΧΙ
ΔεδομέναΕκμάθησης
Αλγόριθμοι
Κατηγοριοποίησης
Μοντέλο
If Διευθυντής
or ΧρΠρουπ>6 then
Μόνιμος=ΝΑΙ
Αλγόριθμος
για
την
επαγωγή
δένδρου
αποφάσεων
•
Βασικός
Αλγόριθμος
(Άπληστος)–
Το
δένδρο
κατασκευάζεται
με
αναδρομικό
top-down διαίρει
και
βασίλευε
τρόπο–
Στην αρχή όλα τα παραδείγματα στη ρίζα
–
Κατηγορικά
Γνωρίσματα
(αν
είναι
συνεχή
γίνονται
διακριτά–
Διαμερίζονται
με
βάση
επιλεγμένα
γνωρίσματα
–
Τα
γνωρίσματα
επιλέγονται
ευριστικά
ή
με
στατιστικά
μέτρα
(πληροφοριακό κέρδος)
•
Συνθήκες
Τερματισμού
των
διαμερίσεων–
Όλα
τα
δείγματα
ενός
κόμβου
ανήκουν
στην
ίδια
κλάση
–
Δεν
υπάρχουν
γνωρίσματα
για
περαιτέρω
διαμέριση
(για
την
ταξινόμηση
του κόμβου
χρησιμοποιείται
πλειοψηφία
ψήφων)
–
Τελειώνει
το
δείγμα
Αλγόριθμος
Decision
Tree
Induction
Είσοδος: Σύνολο
εγγραφών
εκπαίδευσης
R1
,R2
,…Rm
και
ένα
σύνολο γνωρισμάτων
A1
,A2
,…An
.Έξοδος:Δένδρο
Αποφάσεων
Procedure Build_tree(records, Attributes);begincreate a node N;If all Records belong to the same class, C then return N as a leaf node with
class label C;If Attributes is empty then return N as a leaf node with class label C, such that
the majority of Records belong to it;Select attribute Ai
(with the highest information gain) from Attributes;Label node N with Ai
;
Αλγόριθμος
Decision
Tree
Induction (Συν.)
for each known value, Vj
of Ai
dobeginAdd a branch from node N for the condition Ai
=Vj
;Sj
=subset of records where Ai
=Vj
;If Sj
is empty then add a leaf, L, with class label C, such that the majority of Records
belong to it Return Lelse add the node returned by Build_tree(Sj
,Attributes-Ai
);end;
end;
Τι
σημαίνει
πληροφοριακό
κέρδος
(Information Gain);
∑=
=n
1ii2in21 plogp-),...SS,I(S
Σαν
μέτρο
του
πληροφοριακού
κέρδους
χρησιμοποιούμε
την εντροπία.
Οι
αναμενόμενες
πληροφορίες
για
την
ταξινόμηση
δεδομένων εκμάθησης
από
δείγματα, όταν
το
γνώρισμα
κλάσης
έχει
n τιμές
(v1
,v2
,…,vn
) και
Si
είναι
το
πλήθος
των
δειγμάτων
που
ανήκουν στην
κλάση
με
ετικέτα
vi
δίδεται
από
τον
τύπο:
Όπου
pi
είναι
η
πιθανότητα
ένα
τυχαίο
δείγμα
να
ανήκει
στην κλάση
vi
. Μια
εκτίμηση
της
τιμής
pi
είναι
si
/s.
Το
γνώρισμα
Α
με
τιμές
{v1
,…,vm
} διαμερίζει
το
δείγμα
σε υποσύνολα
S1
,S2
,…Sm
όπου
όσα
ανήκουν
στο
Si
έχουν
μια
τιμή του
vi
του
Α. Κάθε
Si
μπορεί
να
περιέχει
δείγματα
που
ανήκουν
σε οποιαδήποτε
κλάση. Το
πλήθος
των
Si
ανήκουν
στην
κλάση
j συμβολίζεται
σαν
sij
. Η
εντροπία
σε
σχέση
με
χρήση
του γνωρίσματος
Α
σαν
γνωρίσματος
ελέγχου
ορίζεται:
Το
κέρδος
ορίζεται
σαν
Gain(A)=I(s1
,…sn
)-E(A)
),...,(*...)( 21
1
1jnjj
n
j
jnj SSSISSSAE ∑
=
+=
Το
I(sj1
,…sjn
) μπορεί
να
ορισθεί
χρησιμοποιώντας
τον
τύπο
για
το I(s1
,…sn
) αντικαθιστώντας
το
pi
με
το
pji
όπου
pji
=sji
/s.
Εγγαμος Μισθος Υπ_Λογ Ηλικία Μπορεί
Δαν
οχι >=50Κ <5Κ >=25 ναι
ναι >=50Κ >=5Κ >=25 ναι
ναι 20Κ…50Κ <5Κ <25 οχι
οχι <20Κ >=5Κ <265 οχι
οχι <20Κ <5Κ >=25 οχι
ναι 20Κ…50Κ >=5Κ >=25 ναι
I(3,3)=-0.5log2
0.5-0.5log2
0.5=1Έγγαμος=ναι
s11
=2, s21
=1 I(s11
,s12
)=0.92
Έγγαμος=οχι
s12
=1, s22
=2
I(s12
,s22
)=0.92
Επομένως
E(Εγγαμος)=3/6 I(s11
,s12
)+3/6 I(s12
,s22
)=0.92
Και
κέρδος
1-0.92=0.08
Όμοια Ε(Μισθος)=0.33 και
Gain(Μισθος)=0.67
E(ΥπΛογ)=0.82 και
Gain(ΥπΛογ)=0.18 Ε(Ηλικια)=0.81 και
Gain(Ηλικια)=0.19
ΕΓΓΑΜΟΣ
ΜΙΣΘΟΣ ΥΠΟΛ_ΛΟΓ
ΗΛΙΚΙΑ
ναι οχι
<20Κ>=20Κ<50Κ
>=50Κ <5Κ >=5Κ
<25 >=25
Χαμηλού
ρίσκου
Χαμηλού
ρίσκου
Μεσαίου
ρίσκου
Μεγάλου
ρίσκουΥψηλού
ρίσκου
Υψηλού
ρίσκου
Ομαδοποίηση(Clustering)
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Κατηγοριοποίηση(classification)
Ομαδοποίηση
Βάση
Δεδομένων
Κάθε οντότητα του πληθυσμού έχει m ιδιότητες: Α1, Α2,… Αm
Έναν πληθυσμό
Διαχωρισμός
του
πληθυσμού
σε
ομάδες
Για
κάθε
ομάδα
, εύρεση
του
προφίλ
των
οντοτήτων που
ανήκουν
σε
αυτή
Παράδειγμα: μία
βάση
με
δημογραφικά
στοιχεία
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
Κάθε οντότητα έχει ιδιότητες: ηλικία, οικονομική κατάσταση, περιοχή, μόρφωση …
Ομαδοποίηση
Διαχωρισμός
του
πληθυσμού
σε
επίπεδα
μόρφωσης
Με
βάση
την
ηλικία
και
την
οικονομικά
κατάσταση
Ομάδα
1
Ομάδα
2
Μεμονωμένα
σημεία
(outliers)
Ομαδοποίηση
τα
παρόμοια
στην
ίδια
ομάδα
Τα
σημεία
που
είναι
σε
ομάδα
πρέπει
•
Στην
ίδια
ομάδα
αυτά
που
μοιάζουν•
Τα
διαφορετικά
σε
διαφορετικές
ομάδες
•
Οι
ομάδες
δεν
είναι
προκαθορισμένες
(μη
επιβλεπόμενη εκμάθηση)
Απαιτήσεις
για
τις
Ομάδες
•
Δυνατότητα
αντιμετώπισης
διαφορετικών
τύπων
γνωρισμάτων•
Ανακάλυψη
συστάδων
οποιουδήποτε
σχήματος
•
Αντιμετώπιση
θορύβου
στα
δεδομένα•
Πολλές
διαστάσεις
•
Ευστάθεια
σε
σχέση
με
το
μέγεθος
των
δεδομένων•
Ενσωμάτωση
περιορισμών
που
εισάγει
ο
χρήστης
•
Δυνατότητα
ανακάλυψης
όλων
των
κρυμμένων
προτύπων.
Εξερεύνηση
δεδομένωνTargeted Marketing Ταξινόμηση
Εγγράφων
Ταξινόμηση
ακολουθιών
γονιδιώματος
Άλλα
παραδείγματα
εφαρμογών:
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
1.
Distance-based: k-means, HAC (Hierarchical Agglomerative Clustering)
Προσεγγίσεις
ομαδοποίησης:
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
2.
Model-based: Expectation-Maximization(EM)
3.
Partition-based:
Προτάσεις
από
τον
χώρο
των
βάσεων
για
κλιμακούμενους
αλγορίθμους:DBSCAN, CLARANS
4.
Ιεραρχικές
Μέθοδοι
Για
δεδομένα
που
χωράνε
στη
μνήμη
⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
npnjn
pj
pj
xxx
xxx
xxx
......
...
......
......
1
2221
1111
Λέγεται
και
object-by variable δομή
Πίνακας
δεδομένων
n αντικείμενα
με
p μεταβλητές
Πίνακας
διαφορετικότητας
(dissimilarity matrix)
•
Προσέγγιση
αντικειμένων•
dij
μη
ομοιότητα
αντικειμένων•
Μη
αρνητική
•
Είναι
κοντά
όσο
πλησιάζει
το
0
⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
0 d ...d d......
0... d d0... d
0...
1-nn,n2n1
3231
21
Θέλουμε
μεγάλη
ομοιότητα
(ανάλογα
με
κάποιο
μέτρο ομοιότητας) εντός
των
κλάσεων
και
μικρή
μεταξύ
των
κλάσεων. (Συνήθως
οι
ομάδες
είναι
ξένες
μεταξύ
τους).
Ένα
χαρακτηριστικό
στοιχείο
είναι
η
συνάρτηση
ομοιότητας που
χρησιμοποιείται. Όταν
τα
δεδομένα
είναι
αριθμητικά
μπορεί
να
χρησιμοποιηθεί
μια
συνάρτηση
που
βασίζεται
στην απόσταση.
Συνάρτηση
Ομοιότητας
Ευκλείδεια
Απόσταση
2222
211 ||...||||);( knjnkjkjkj rrrrrrrrό −++−+−=στασηαπ
Όσο
μικρότερη
είναι
η
απόσταση
τόσο
μεγαλώνει
η
ομοιότητα.
Ένας
κλασσικός
αλγόριθμος
είναι
αυτός
των
k μέσων
(k means)
Γενικευμένη
απόσταση
είναι
η
απόσταση
Minkowski
q qjnin
qj2i2
qj1i1 |x-x|...|x-x||x-x|j)d(i, +++=
Η οποία για q=2 είναι
η
Ευκλείδεια
ενώ
για
q=1 είναι
η
Manhattan απόσταση
q qjnin
qj2i22
qj1i11 |x-x|...|x-x||x-x|wj)d(i, nww +++=
Απόσταση
με
βάρη:
Ιδιότητες
της
απόστασης
Minkowski
•
Μη
αρνητική
d(i,j)≥0•
d(i,i)=0
•
Συμμετρική: d(i,j)=d(j,i)•
Τριγωνική
ανισότητα: d(i,j)≤d(i,k)+d(k,j)
Κατηγορίες
αλγορίθμων
για
δημιουργία
συστάδων
•
Αλγόριθμοι
διαμέρισης: Διαμερίζονται
τα
αντικείμενα
σε
k συστάδες. Με
επανάληψη
επανατοποθετούνται
τα
αντικείμενα
ώστε
να
δημιουργηθούν
καλλίτερες
συστάδες.•
Ιεραρχικοί
αλγόριθμοι: Δύο
προσεγγίσεις
1)κάθε
αντικείμενο
είναι
μια
κλάση
και
γίνεται
συνένωση
των
κλάσεων
για
δημιουργία μεγαλυτέρων
ή
2)όλα
τα
αντικείμενα
θεωρούνται
μια
κλάση
και
διασπώνται
σε
μικρότερες.•
Μέθοδοι
που
βασίζονται
στην
πυκνότητα:συναρτήσεις
πυκνότητας
•
Μέθοδοι
που
βασίζονται
σε
πλέγματα:ποσοτικοποιείται
ο
χώρος των
αντικειμένων
σε
μια
δομή
πλέγματος
•
Με
βάση
μοντέλο:χρησιμοποίηση
ενός
μοντέλου
για
να
βρεθεί
η καλλίτερη
προσέγγιση
των
δεδομένων
Αλγόριθμοι
διαμέρισης
•
Διαμερίζονται
τα
k αντικείμενα
σε
k συστάδες
με
βελτιστοποίηση του
κριτηρίου
που
επιλέγεται
για
την
διαμέριση.
•
Για να βρεθεί το καθολικό βέλτιστο πρέπει να εξετασθούν όλες οι διαμερίσεις, οι
πιθανές
διαμερίσεις
είναι
kn-(k-1)n-…-1 που
είναι
πάρα
πολλές.•
Ευριστικές
μέθοδοι: K-means δηλαδή
μια
συστάδα
παριστάνεται
με
το
κέντρο
της
ή
k metoids
δηλαδή
κάθε
συστάδα
παριστάνεται από ένα αντικείμενο της
Σκιαγράφηση
του
k means
•
Αυθαίρετη
επιλογή
k αντικειμένων
σαν
τα
αρχικά
κέντρα
των συστάδων.
•
Μεταφορά
ενός
αντικειμένου
στη
συστάδα
που
το
προσεγγίζει περισσότερο
με
βάση
την
μέση
τιμή
των
αντικειμένων
στη
συστάδα. Ενημέρωση
των
μέσων
τιμών
των
συστάδων.
K means αλγόριθμος
Είσοδος: μια
βάση
δεδομένων
D με
m εγγραφές
r1
,r2
,…rm
και
ένα επιθυμητό
πλήθος
συστάδων
k
Έξοδος:ένα
σύνολο
από
k ομάδες
που
ελαχιστοποιούν
το
κριτήριο
του τετραγωνικού
λάθους
begin
Τυχαία
επιλογή
των
k εγγραφών
σαν
κέντρων
των
k συστάδωνRepeatΚάθε
εγγραφή
ri
τοποθετείται
σε
μια
συστάδα
έτσι
που
η
απόσταση μεταξύ
της
ri
και
του
κέντρου
της
συστάδας
να
είναι
η
μικρότερη
από τις
k συστάδες
Υπολογίζεται
ξανά
το
κέντρο
για
κάθε
συστάδα
με
βάση
τις
εγγραφές που
περιέχει
Μέχρι
να
μην
υπάρχει
αλλαγήend;
Η
συνθήκη
τερματισμού
συνήθως
είναι
το
κριτήριο
του τετραγωνικού
λάθους. Για
τις
συστάδες
C1
,C2
,…,Ck
με
μέσους m1
,m2
,…,mk
το
λάθος
ορίζεται:
∑ ∑= ∈∀
=k
1i
2
Crij
ij
)m,απόσταση(rΛάθος
Ο
μέσος
για
μια
ομάδα, Ci
, με
n εγγραφές
m διαστάσεων
είναι
το διάνυσμα:
⎟⎟⎠
⎞⎜⎜⎝
⎛= ∑∑
∈∀∈∀ ijij Crjm
Crjii r
nr
nC 1...,1
ID Ηλικια Προυπηρεσία
1 30 5
2 50 25
3 50 15
4 25 55 30 10
6 55 25
Έστω
ότι
θέλουμε
2 συστάδες και
ας
υποθέσουμε
ότι
ξεκινάμε
με
το
3 (C1
)
και
το
6 (C2
) για
κέντρα.Το
1 απέχει
22.4 από
το
C1
και 32.0 από
το
C2
. Επομένως
πάει στο
C1
. Το
2 απέχει
10.0 και
5.0 αντίστοιχα
και
επομένως
πάει
στο
C2
Όμοια
το
4 απέχει
25.5 από
το
C1
και
36.6 από
το
C2
και
επομένως
πάει στο
C1
. Τέλος
το
5 απέχει
20.6 από
το
C1
και
29.2 από
το
C2
και επομένως
πάει
στο
C1
.
Πλεονεκτήματα
και
Μειονεκτήματα
του
k means
•
Έχει
σχετικά
καλή
απόδοση
Ο(tkn) (n αντικείμενα, k ομάδες
και
t επαναλήψεις
k,t <<n.
•
Συνήθως βρίσκει ένα τοπικό βέλτιστο.•
Μπορεί
να
εφαρμοσθεί
μόνο
όταν
ορίζεται
ο
μέσος
(τι
γίνεται
όταν
έχουμε
κατηγορικά
δεδομένα).•
Πρέπει
να
ορισθεί
το
πλήθος
των
ομάδων
•
Δεν
αντιμετωπίζει
δεδομένα
με
θόρυβο•
Δεν
βρίσκει
μη
κυρτές
ομάδες.
Υπολογισμός
των
κέντρων
(όταν
οι
οντότητες
i∈I εμφανίζονται
σαν
γραμμές
yi
∈
Rn)
•
Το
κέντρο
βάρους
y(S)=Σi ∈S
yi
/|S|•
Οι
συντελεστές
της
εξίσωσης
γραμμικής
παλινδρόμησης
μιας
μεταβλητής
σε
σχέση
με
τις
άλλες
(στο
S)
Υπολογισμός
των
κέντρων
(όταν
τα
δεδομένα
παριστάνονται με
τον
πίνακα
ανομοιότητας
)
•
Μια
οντότητα
i∈I
που
ελαχιστοποιεί
την
συνολική ανομοιότητα
d(i, S)=Σj∈S
dij
/|S| ή
d(i,S)=max j∈S
dij
ή d(i,S)=min j∈S
dij
Παραλλαγές
του
k means
•
Παραλλαγές
σε–
Επιλογή
των
αρχικών
K
–
Υπολογισμοί
σε
διαφορά–
Στρατηγικές
στον
υπολογισμό
του
μέσου
των
συστάδων
•
Κατηγορικά
δεδομένα–
Χρήση
mode αντί
για
mean (το
πιο
συχνό)
–
Ανάμειξη
κατηγορικών
και
αριθμητικών
δεδομένων
Παραλλαγές
του
k means
•
Παραλλαγές
στην
επιλογή
των
αρχικών
k μέσων•
Στη
στρατηγική
υπολογισμού
του
μέσου
της
συστάδας.
•
Για
αντιμετώπιση
κατηγορικών
δεδομένων.
Ιεραρχικές
Μέθοδοι
•
AGNES Αρχικά
κάθε
αντικείμενο
είναι
μια
ομάδα. Βήμα- βήμα
συγχωνεύονται
οι
ομάδες
•
DIANA (Divisive Analysis) Αρχικά
όλα
τα
αντικείμενα είναι
μια
ομάδα. Βήμα-βήμα
διασπώνται
οι
ομάδες
Ιεραρχικές
Μέθοδοι
•
Δύσκολο
να
βρεθούν
τα
σημεία
διάσπασης/συγχώνευσης•
Δεν
έχουν
καλή
απόδοση
Ο(n2)
•
Ενοποίηση
ιεραρχικών
με
άλλες
τεχνικές
Βάση
Δεδομένων
Κανόνες συσχέτισης(association rules)
Κάθε δοσοληψία αφορά μία λίστα αντικειμένων (τιμών)
Μία βάση δοσοληψιών: Τ1, Τ2, …
Εύρεση
συσχετίσεων
Εύρεση
συσχετίσεων
μεταξύ
αντικειμένων
μίας
δοσοληψίας
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
X Y
Εμπιστοσύνη (confidence) c: Στις c% των περιπτώσεων που υπάρχει το Χ τότε υπάρχει και το Υ
Στήριξη (support) s : Ο κανόνας υποστηρίζεται από το s% των συνολικών δοσοληψιών
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Κανόνες συσχέτισης(association rules)
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
Εύρεση
συσχετίσεων
με
βάση:
Μία βάση δοσοληψιών: Τ1, Τ2, …
Κάθε δοσοληψία αφορά ένα καλάθι αγαθών
Εύρεση
συσχετίσεων
Παράδειγμα: ποια
προϊόντα
αγοράζουν
μαζί
οι
πελάτες ενός
καταστήματος
(>60%)
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Κανόνες συσχέτισης(association rules)
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
Ψωμί Βούτυρο (70%)
Σχεδιασμός
των
προμηθειών
ενός
σούπερ
μάρκετ
Σχεδιασμός
καταλόγου
Οργάνωση
καταστήματος
Άλλα
παραδείγματα
εφαρμογών:
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Κανόνες συσχέτισης(association rules)
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
Apriori
Αλγόριθμοι:
Βασική
ιδέα: Διάσπαση
του
προβλήματος
σε
δύο
υποπροβλήματα
Εύρεση όλων των συνδυασμών των αντικειμένων πουυπάρχουν σε ποσοστό δοσοληψιών μεγαλύτερο του ποσοστούστήριξης.
Χρήση των συνδυασμών για παραγωγή κανόνων. Αν για παράδειγμα ΑΒΓΔ και ΑΒ είναι τέτοιοι συνδυασμοί, υπολογίζουμε το r=support(ABΓΔ)/support(AB). Αν το r>confidence τότε ισχύει ο κανόνας ΑΒ ΓΔ
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Κανόνες συσχέτισης(association rules)
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
Εξόρυξη
Κανόνων
Συσχέτισης
Ένας
κανόνας
συσχέτισης
είναι
της
μορφής
X ⇒ Y
όπου
τα
X={x1
, x2
,…, xn
} και
Y={y1
, y2
,…, ym
} είναι
σύνολα αντικειμένων, με
τα
xi
και
yj
να
είναι
διακριτά
αντικείμενα για
κάθε
i και
j. Η
συσχέτιση
αυτή
λέει
ότι
αν
ένας
πελάτης
αγοράζει
το
X είναι
πιθανό
να
αγοράσει
και
το
Y επίσης. Γενικά
κάθε
κανόνας
συσχέτισης
έχει
την
μορφή
LHS
(αριστερό
μέλος) ⇒ RHS (δεξιό
μέλος), όπου
τα
LHS και RHS είναι
σύνολα
αντικειμένων.
Το
LHS∪RHS λέγεται
σύνολο
αντικειμένων.
Εξόρυξη
Κανόνων
Συσχέτισης
Η
στήριξη
του
κανόνα
LHS ⇒ RHS είναι
το
ποσοστό των
δοσοληψιών
που
περιλαμβάνουν
όλα
τα
αντικείμενα
της
ένωσης
LHS∪RHS.
Δηλαδή
η στήριξη
είναι
το
ποσοστό
των
δοσοληψιών
που
περιέχουν
όλα
τα
αντικείμενα
του
συνόλου. Αν
η στήριξη
είναι
χαμηλή
αυτό
συνεπάγεται
ότι
δεν
υπάρχει
σαφής
ένδειξη
ότι
τα
αντικείμενα LHS∪RHS εμφανίζονται
μαζί.
Κωδικός Δοσοληψ.Ώρα Προϊόντα
102 06:35 γάλα, ψωμί, βουτήματα, χυμός
792 07:38 γάλα, χυμός
1130 08:05 γάλα, αυγά
1735 08:40 ψωμί, βουτήματα, καφές
Στήριξη
{γάλα.,χυμός}
50%
Στήριξη
{ψωμί.,χυμός}
25%
Η
εμπιστοσύνη
του
κανόνα
συσχέτισηςLHS ⇒ RHS είναι
το
ποσοστό
των
δοσοληψιών
που
περιλαμβάνουν
επίσης
το
RHS. Ένας
άλλος
όρος
για την
εμπιστοσύνη
είναι
η
ισχύς
του
κανόνα
Εμπιστοσύνη
Εμπιστοσύνη
γάλα
⇒ χυμός
66.7%Εμπιστοσύνη
ψωμί
⇒ χυμός
50%
Ο
στόχος
της
εξόρυξης
κανόνων
συσχέτισης, είναι
η
δημιουργία
όλων των
πιθανών
κανόνων
που
ξεπερνούν
κάποια
όρια
στήριξης
και
εμπιστοσύνης. Το
πρόβλημα
χωρίζεται
σε
δύο
υποπροβλήματα:
α)Δημιουργία
όλων
των
συνόλων
αντικειμένων
που ξεπερνούν
το
όριο. Τα
σύνολα
αυτά
ονομάζονται
μεγάλα
(ή συχνά). Μεγάλα
εννοούμε
με
μεγάλη στήριξη
β)Για
κάθε
μεγάλο
σύνολο, δημιουργούνται δημιουργούνται
όλοι
οι
κανόνες
με
ελάχιστη
εμπιστοσύνη: για
ένα
μεγάλο
σύνολο
αντικειμένων
X και
Y⊂X, έστω
Z=X-Y τότε
αν
στήριξη(X)/στήριξη(Z)>
ελάχιστη
εμπιστοσύνη, ο κανόνας
Z=>Y (δηλαδή
X-Y ⇒ Y) είναι
ένας
έγκυρος
κανόνας
Η
εύρεση
όλων
των
μεγάλων
συνόλων
αντικειμένων
με τις
τιμές
στήριξης
είναι
ένα
δύσκολο
πρόβλημα. Για
βελτίωση
των
αλγορίθμων
για
εύρεση
των
κανόνων συσχέτισης
χρησιμοποιούνται
οι
ιδιότητες:
Ένα
υποσύνολο
ενός
μεγάλου
συνόλου
αντικειμένων πρέπει
να
είναι
επίσης
μεγάλο
(downward closure)
Αντίστροφα, ένα
υπερσύνολο
ενός
μικρού
συνόλου αντικειμένων
είναι
επίσης
μικρό. (antimonotonicity)
Apriori
Αλγόριθμος
για
εύρεση
συχνών
συνόλων Είσοδος: βάση
δεδομένων
από
m δοσοληψίες
D, και
ελάχιστη
στήρξη
mins
(ποσοστό
του
m). Έξοδος: συχνά
σύνολα
L1
, L2
,…Lk
Υπολογισμός
support(ij
)=count(ij
)/m
για
κάθε
αντικείμενο. Το υποσύνολο
των
στοιχείων
ij
με
support(ij
) >mins
αποτελεί
το
L1. k=1
Δημιουργία
των
υποψηφίων
k+1 Ck+1
γίνεται
με
συνδυασμό
των μελών
των
Lk
που
έχουν
k-1 κοινά
στοιχεία. Θεωρούμε
σαν
στοιχεία
του
Ck+1
αυτά
τα
k+1 έτσι
που
κάθε υποσύνολο
μεγέθους
k εμφανίζεται
στο
Lk
. Υπολογίζεται
η στήριξη
αυτών
και
επιλέγονται
μόνο
εκείνα
με
στήριξη
>mins
Αν
το
είναι
Lk+1
είναι
κενό
τοτε
τερματίζεται
διαφορετικά επανάληψη
με
k=k+1.
Ο
apriori
αλγόριθμος
•
Ck
: υποψήφιο
υποσύνολο
αντικειμένων
μεγέθους
k•
Lk
: συχνό
υποσύνολο
αντικειμένων
μεγέθους
k
•
L1
={συχνά
αντικείμενα}•
for (k=1; Lk
!=∅; k++1} do•
Ck+1 υποψήφια
που
δημιουργήθηκαν
από
το
Lk
•
για
κάθε
δοσοληψία
t στη
βάση
δεδομένων
αύξησε
τον
μετρητή όλων
των
υποψήφιων
στο
Ck+1
που
περιέχονται
στο
t•
Lk+1
: τα
υποψήφια
του
Ck+1
•
∪k
Lk
;
Προβλήματα
•
Πολλαπλά
περάσματα
της
βάσης
δεδομένων δοσοληψιών
•
Τεράστιος
Αριθμός
υποψηφίων•
Τεράστιος
όγκος
εργασίας
για
καταμέτρηση
των
υποψηφίων
Βελτίωση
του
apriori
•
Ελάττωση
του
πλήθους
των
περασμάτων
της
βάσης
δεδομένων των
δοσοληψιών
•
Συρρίκνωση
του
πλήθους
των
υποψηφίων•
Διευκόλυνση
στο
μέτρημα
των
υποψηφίων.
Ελαχιστοποίηση
του
πλήθους
των
περασμάτων
ABCD
ABC ACDABD BCD
AB AC BC AD BD CD
A A B C D
{}
Μόλις
τα
A και
D βγουν
συχνά μπορεί
να
αρχίσει
το
AD
Μόλις
βγουν
όλα
τα
υποσύνολα
2 του
BCD
μπορεί
να
αρχίσει
το
μέτρημα
του
BCD
Δοσοληψίες
A priori
Ακολουθιακά πρότυπα(sequential patterns)
Κάθε δοσοληψία Τ αφορά μία λίστα αντικειμένων (τιμών): Τ(i1, i2,…)
Κάθε ακολουθία C είναι μία λίστα δοσοληψιών: C(Τ1, Τ2, …)
Εύρεση
ακολουθιακών
προτύπων
Ένα ακολουθιακό πρότυπο είναι μία λίστα συνόλων: (s1,s2,….)Κάθε
σύνολο
s
περιέχει
κάποια
αντικείμενα
από
μία
δοσοληψία: s=(ik
, il
, ..)Τα
σύνολα
είναι
διατεταγμένα
μέσα
στη λίστα με βάση τη χρονική διάταξη
των
δοσοληψιών
Εύρεση ακολουθιακών προτύπων με βάση ένα ελάχιστο στήριξης (support) ως προς τις ακολουθίες
Ένα σύνολο ακολουθιών: C1, C2, …
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Κανόνες συσχέτισης(association rules)
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
Κάθε πελάτης αντιπροσωπεύεται από μία ακολουθία αγορών
Κάθε αγορά (δοσοληψία) αφορά ένα σύνολο βιβλίων
Εύρεση
ακολουθιακών
προτύπων
Ένα ακολουθιακό πρότυπο είναι:{ («Πόλεμος
και
Ειρήνη»), («Ιστορικά», «Απομνημονεύματα») }
με
ποσοστό
στήριξης
55%
Παράδειγμα: τι
είδους
αγορές
κάνουν
οι
πελάτες
ενός
εκδοτικού
οίκου;
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Ακολουθιακά πρότυπα(sequential patterns)
Κανόνες συσχέτισης(association rules)
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
Εμπορικές
εφαρμογές
με
στόχο
την
ικανοποίηση
των
πελατώνΈρευνα
στην
ιατρική
Άλλα
παραδείγματα
εφαρμογών:
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Ακολουθιακά πρότυπα(sequential patterns)
Κανόνες συσχέτισης(association rules)
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
Τι
σημαίνει
εξόρυξη
ακολουθιακών
προτύπων;
•
Δοθέντος
ενός
συνόλου
ακολουθιών
να
βρεθεί
το
πήρες
σύνολο
των συχνών
υποακακολουθιών.
Μια
ακολουθιακή βάση Μια
ακολουθία : < (ef) (ab) (df) c b >
Μια
καταχώρηση
μπορεί
να
περιέχει
ένα σύνολο
στοιχείων.
Τα
στοιχεία
δεν
είναι
ταξινομημένα.
<a(bc)dc> είναι
μια
υποακολουθία της
<<a(abc)(ac)d(cf)>
Δοθείσης
μιας
ελάχιστης στήριξης min_sup =2, το <(ab)c> είναι
ένα
ακολουθιακό πρότυπο
SID sequence10 <a(abc)(ac)d(cf)>20 <(ad)c(bc)(ae)>30 <(ef)(ab)(df)cb>40 <eg(af)cbc>
Προβλήματα
με
την
εξόρυξη
ακολουθιακών
προτύπων
•
Το πλήθος των ακολουθιακών προτύπων που μπορεί να κρύβονται
σε
μια
βάση
δεδομένων
είναι
τεράστιο.
•
Ένας
αλγόριθμος
εξόρυξης
θα
πρέπει:1)να
βρίσκει
όλα τα
ακολουθιακά
πρότυπα
με
ελάχιστη
στήριξη, 2)να
είναι
αποτελεσματικός
(ελάχιστα
περάσματα
της
βάσης δεδομένων)και
3) να
μπορεί
να
ενσωματώνει
περιορισμούς
που
επιβάλλει
ο
χρήστης.
Βασική
ιδιότητα
ακολουθιακών
προτύπων
(apriori)
Αν
μια
ακολουθία
S δεν
είναι
συχνή
τότε
οι υπέρακολουθίες
της
S δεν
είναι
συχνές.
ID Ακολουθία
10 <(bd),c,b,(ac)>
20 <(bf)(ce)b(fg)>
30 <(ah)(bf)abf>
40 <(bc)(ce)d>
50 <a(bd)bcb(ade)>
Αν
το
<hb> δεν
είναι
συχνό
τότε δεν
είναι
και
τα
<hab> και
<(ah)b>. Υποθέτοντας
ελάχιστη
στήριξη
2
Βασικός
Αλγόριθμος
με
προτεραιότητα
πλάτους
(Breadth First)
L=1(while resultL
!=null)Δημιουργία
των
υποψήφιων
Περικοπή
(prune)ΈλεγχοςL=L+1
Εύρεση
ακολουθιακών
προτύπων
μήκους
1
•
Αρχικοί
υποψήφιοι: όλες
οι
ακολουθίες μήκους
1
–
<a>, <b>, <c>, <d>, <e>, <f>, <g>, <h>
•
Σάρωση
της
βάσης
δεδομένων
μια
φορά, υπολογισμός
της
στήριξης
για
τα
υποψήφια
<a(bd)bcb(ade)>50<(be)(ce)d>40
<(ah)(bf)abf>30<(bf)(ce)b(fg)>20<(bd)cb(ac)>10ΑκολουθίαSeq. ID
min_sup =2
Υποψ Στηρ<a> 3<b> 5<c> 4<d> 3<e> 3<f> 2<g> 1<h> 1
ID Ακολουθία
10 <(bd),c,b,(ac)>
20 <(bf)(ce)b(fg)>
30 <(ah)(bf)abf>
40 <(bc)(ce)d>
50 <a(bd)bcb(ade)>
<a> <b> <c> <d> <e> <f> <g> <h>
<aa> <ab>…<af>
<ba> <bb>…<ff> <(ab)>…<(ef)>
<abb> <aab> <aba> <baa> <bab>…
<abba>
<(bd)bc>…
<(bd)cba>
Πέρασμα
1 υποψ. 8 μένουν
6
Δεν
ξεπερνούν το
κατώφλι
Δεν
βρίσκονται στην
βάση
Πέρασμα
2 υποψ. 51 μεγέθους
2 19 10 δεν
είναι
στη
βάση
Πέρασμα
3 υποψ. 46 μεγέθους
3 19 20 δεν
είναι
στη
βάση
Δημιουργία
υποψηφίων
μήκους-2
<a> <b> <c> <d> <e> <f>
<a> <aa> <ab> <ac> <ad> <ae> <af>
<b> <ba> <bb> <bc> <bd> <be> <bf>
<c> <ca> <cb> <cc> <cd> <ce> <cf>
<d> <da> <db> <dc> <dd> <de> <df>
<e> <ea> <eb> <ec> <ed> <ee> <ef>
<f> <fa> <fb> <fc> <fd> <fe> <ff>
<a> <b> <c> <d> <e> <f>
<a> <(ab)> <(ac)> <(ad)> <(ae)> <(af)>
<b> <(bc)> <(bd)> <(be)> <(bf)>
<c> <(cd)> <(ce)> <(cf)>
<d> <(de)> <(df)>
<e> <(ef)>
<f>
51 υποψήφια μεγέθους-2
Χωρίς
την
Apriori ιδιότητα,8*8+8*7/2=92 υποψήφιαΟ
Apriori
περικόπτει
44.57% υποψήφια
Ανάπτυξη
Προτύπου
(prefixSpan)
•
Προθεματική
(Prefix)
και
μεταθεματική
(Suffix)
προνολές–
τα
<a>, <aa>, <a(ab)> and <a(abc)> είναι
prefixes
της
ακολουθίας
<a(abc)(ac)d(cf)>–
Όταν
δίδεται
η
ακολουθία
<a(abc)(ac)d(cf)>
Prefix Suffix
(με
βάση
την
Prefix προβολή)
<a> <(abc)(ac)d(cf)><aa> <(_bc)(ac)d(cf)><ab> <(_c)(ac)d(cf)>
Παράδειγμα
Sequence_id Sequence
10 <a(abc)(ac)d(cf)>20 <(ad)c(bc)(ae)>30 <(ef)(ab)(df)cb>40 <eg(af)cbc>
Παράδειγμα
( min_sup=2):
Prefix Sequential Patterns
<a> <a>,<aa>,<ab><a(bc)>,<a(bc)a>,<aba>,<abc>,<(ab)>,<(ab)c>,<(a b)d>,<(ab)f>,<(ab)dc>,<ac>,<aca>,<acb>,<acc>,<ad>,<adc>,<af>
<b> <b>, <ba>, <bc>, <(bc)>, <(bc)a>, <bd>, <bdc>,<bf><c> <c>, <ca>, <cb>, <cc><d> <d>,<db>,<dc>, <dcb><e> <e>,<ea>,<eab>,<eac>,<eacb>,<eb>,<ebc>,<ec>,<ecb>,<ef>,<efb
>,<efc>,<efcb><f> <f>,<fb>,<fbc>, <fc>, <fcb>
PrefixSpan
Βήμα
1: Εύρεση
των
ακολουθιακών
προτύπων
μήκους
1
<a>:4, <b>:4, <c>:4, <d>:3, <e>:3, <f>:3
πρότυποστήριξη
Βήμα
2: Διαχωρισμός
του
χώρου
αναζήτησης
έξη
υποσύνολα
σύμφωνα
με
τα
έξη
προθέματα;
Βήμα
3: Βρες
τα
υποσύνολα
των
ακολουθιακών
προτύπων;
Κατασκευή
των
αντίστοιχων
προβολών
της
βάσης
και αναδρομική
εξόρυξη
κάθεμιας.
Παράδειγμα
Prefix Projected(suffix) databases Sequential Patterns
<a> <(abc)(ac)d(cf)>,<(_d)c(bc)(ae)>,
<(_b)(df)cb>,<(_f)cbc>
<a>,<aa>,<ab><a(bc)>,<a(bc)a>, <aba>,<abc>,<(ab)>,<(ab)c>,<(ab )d>,<(ab)f>,<(ab)dc>,<ac>,<aca> ,<acb>,<acc>,<ad>,<adc>,<af>
Sequence_id Sequence Projected(suffix) databases
10 <a(abc)(ac)d(cf)> <a(abc)(ac)d(cf)>20 <(ad)c(bc)(ae)> <(ad)c(bc)(ae)>30 <(ef)(ab)(df)cb> <(ef)(ab)(df)cb>40 <eg(af)cbc> <eg(af)cbc>
Παράδειγμα
Εύρεση
των
ακολουθιακών
προτύπων
με
πρόθεμα
<a>:1.
Σάρωση
της
βάσης
S. Προβάλλονται
οι
ακολουθίες
στην
S
που
περιέχουν
<a> για να σχηματισθεί η <a>-προβολή.
2.
Σάρωση
της
<a>-προβολής
δίνει
6
ακολουθιακά
πρότυπα μήκους-2 με
πρόθεμα
το
<a> :
<a>:2 , <b>:4, <(_b)>:2, <c>:4, <d>:2, <f>:2
<aa>:2 , <ab>:4, <(ab)>:2, <ac>:4, <ad>:2, <af>:2
3.
Αναδρομικά, μπορούν
να
διαμερισθούν
τα
ακολουθιακά πρότυπα
με
πρόθεμα
το
<a> σε
6 υποσύνολα.
Κατασκευάζονται
οι
αντίστοιχες
προβολέςκαι
γίνεται
εξόρυξη στην
κάθεμια.
δηλ.
η
<aa>-προβολή
έχει
δύο
ακολουθίες
:
<(_bc)(ac)d(cf)> και
<(_e)>.
Ομαδοποίηση χρονικών ακολουθιών(time-series clustering)
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Ακολουθιακά πρότυπα(sequential patterns)
Κανόνες συσχέτισης(association rules)
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
Βάση
Δεδομένων
Μία βάση χρονικών ακολουθιών
Ομαδοποίηση
χρονικών
ακολουθιών
Εύρεση
παρόμοιων
ακολουθιών
ή ακολουθιών
που
μοιάζουν
με
μία
δοσμένη
t
Ομαδοποίηση χρονικών ακολουθιών(time-series clustering)
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Ακολουθιακά πρότυπα(sequential patterns)
Κανόνες συσχέτισης(association rules)
Ομαδοποίηση(Clustering)
Κατηγοριοποίηση(classification)
Εύρεση
προμηθειών
με
παρόμοιες
κινήσειςΠαρακολούθηση
πορείας
ανταγωνιστών
Παραδείγματα
εφαρμογών:
•
Οι
βασικές
δομές
πολλών
βιολογιών
(μικρο)μορίων είναι
ακολουθίες
“γραμμάτων”
παρά
την
3D δομή
τους.–
Η πρωτεΐνη
έχει 20 αμινοξέα.
–
Το
DNA έχει
ένα
αλφάβητο
από
4 βάσεις
{A, T, G, C}–
Το
RNA έχει
ένα
αλφάβητο
{A, U, G, C}
•
Κείμενα•
Ημερολόγια
δοσοληψιών
•
Ακολουθίες
σημάτων•
Δομικές
ομοιότητες
σε
επίπεδο
ακολουθίας
συχνά
δείχνουν
ψηλή
μεγάλη
πιθανότητα
να
σχετίζονται λειτουργικά/σημασιολογικά.
Περιγραφή
του
Προβλήματος
•
Η
ομαδοποίηση
που
βασίζεται
σε
δομικά χαρακτηριστικά
μπορεί
να
αποτελέσει
ισχυρό
εργαλείο
για
διαχωρισμό
ακολουθιών
σε διαφορετικές
λειτουργικές
κατηγορίες.
–
Ο
στόχος
είναι
να
δημιουργηθεί
μια
ομαδοποίηση ακολουθιών
ώστε
οι
ακολουθίες
σε
κάθε
ομάδα
να
έχουν
κοινά
χαρακτηριστικά.–
Το
αποτέλεσμα
μπορεί
να
αποκαλύψει
άγνωστες
δομικές
και
λειτουργικές
κατηγορίες
που
μπορεί
να οδηγήσουν
σε
καλύτερη
κατανόηση
του
χώρου.
•
Πρόκληση: πως
μετριέται
η
δομική
ομοιότητα?
Μέτρα
Ομοιότητας
•
Απόσταση
στοιχείων: –
Υπολογιστικά
ασύμφορη
–
είναι
καλή
για
την
βέλτιστη
σειρά
ενώ
αγνοεί
άλλες τοπικές
που
συχνά
αντιπροσωπεύουν
σημαντικά
χαρακτηριστικά
κοινά
σε
ζεύγη
ακολουθιών.•
Προσέγγιση
που
βασίζεται
σε
q-gram :
–
Αγνοεί
την
ακολουθιακή
συσχέτιση
(π.χ., διάταξη, εξάρτηση, κλπ.) μεταξύ
των
q-grams
•
Κρυμμένο
μοντέλο
Markov: –
Αντιλαμβάνεται
μερικές
συσχετίσεις
και
στατιστικές
χαμηλής
τάξης–
Ευάλωτο
σε
θόρυβο
και
κακές
τιμές
παραμέτρων
–
Υπολογιστικά
μη
αποτελεσματικό
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
ΕΡΓΑΛΕΙΑ
BusinessMiner (Business Objects)DBMiner(SFU)
IND (Nasa)Intelligent Miner (IBM)
Kepler (GMD)Mineset (SGI)
Brute (Univ. of Washington)
MSBN (Microsoft)
Πρόβλεψη, Κατηγοριοποίηση, Συσχετίσεις
Κατηγοριοποίηση, Πρόβλεψη
Κατηγοριοποίηση, Πρόβλεψη, Συσχετίσεις, Ομαδοποίηση
Κατηγοριοποίηση, Συσχετίσεις
Πρόβλεψη, Συσχετίσεις
Προϊόν Διαδικασία
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
ΕΡΓΑΛΕΙΑ
Υλοποίηση
συνδυασμών
διαδικασιών
Off-line επεξεργασία
δεδομένων
Έλλειψη
ολοκλήρωσης
με
την
τεχνολογία
των
βάσεων
Βελτίωση
διασύνδεσης
με
τον
χρήστη
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Τομέας
εξελισσόμενος
Ερευνητικό
και
εμπορικό
ενδιαφέρον
Ολοκλήρωση
προσεγγίσεων
από
διαφορετικούς
τομείςΣΥΝΟΨΗ
ΕΡΓΑΛΕΙΑΕΡΓΑΛΕΙΑ
Εξόρυξη
Δεδομένων
(Data Mining)
ΔΙΑΔΙΚΑΣΙΕΣΔΙΑΔΙΚΑΣΙΕΣ
ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ
OOΡΙΣΜΟΣΡΙΣΜΟΣ
Αναγνώριση
νέων
διαδικασιών
εξόρυξης
ΣΥΝΟΨΗ
ΕΡΓΑΛΕΙΑΕΡΓΑΛΕΙΑΕύρεση
αρχιτεκτονικής
για
την
εξόρυξη
δεδομένων
Προσαρμογή
αλγορίθμων
για
μεγάλες
βάσεις
Ολοκλήρωση
με
συστήματα
βάσεων
δεδομένων
Επέκταση
συστημάτων
βάσεων
δεδομένων
Βελτίωση
εργαλείων
Ανάπτυξη
γλωσσών
εξόρυξης