Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf ·...

103
Εξόρυξη Δεδομένων

Transcript of Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf ·...

Page 1: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εξόρυξη

Δεδομένων

Page 2: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Κλασσικά

Βιβλία

Αναφοράς

Data Mining-Concepts and Techniques-Han and K, Morgan Kaufmann, 2001

Principles of Data Mining-Hand, Manila and Smyth. MIT Press, 2001.

The Elements of Statistical Learning-Data Mining, Inference and Prediction, Springer, 2001.

Page 3: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ο

όρος

εξόρυξη

δεδομένων

αναφέρεται

στην

εξόρυξη

ή

την ανακάλυψη

νέων

πληροφοριών

με

την

μορφή

κανόνων

ή

προτύπων

από

πηγές

δεδομένων. Για να είναι πρακτικά χρήσιμες

αυτές

οι

πληροφορίες

πρέπει

να

έχουν

εξαχθεί

από

μεγάλες

βάσεις

δεδομένων

και

αρχεία.

Η

εξόρυξη

δεδομένων

χρησιμοποιεί

τεχνικές

από

την μηχανική

μάθηση, την

στατιστική, τα

νευρωνικά

δίκτυα

κοκ.

Οι

αποθήκες

δεδομένων

μπορούν

να χρησιμοποιηθούν

για

να

υποστηρίξουν

την

εξόρυξη

δεδομένων.

Page 4: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Η

εξόρυξη

δεδομένων

αποτελεί

τμήμα

της

διαδικασίας ανακάλυψης

γνώσης

από

βάσεις

δεδομένων

(KDD-

Knowledge Discovery in Databases).

Η

διαδικασία

αυτή

αποτελείται

από

6 φάσεις: επιλογή δεδομένων, καθαρισμό, εμπλουτισμό, μετατροπή

ή

κωδικοποίηση, εξόρυξη, και

δημιουργία

αναφορών.

Page 5: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Πραγματικότητα

Ανακάλυψη

γνώσης

από

βάσεις

δεδομένων

Απαιτήσεις

για

«έξυπνα

»

εργαλεία

Ανακαλύπτουν νέα γνώση μέσααπό γνωστά δεδομένα

Απαιτούν καμία ή μικρήκαθοδήγηση από τον χρήστη

Χειρίζονται μεγάλους όγκουςδεδομένων

Page 6: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Επιχειρησιακά

δεδομένα

Αποθήκη

δεδομένων

ΕξαγωγήΕξαγωγήΜετασχημ/σμόςΜετασχημ/σμός

Εργαλεία

εξόρυξης

δεδομένων

Data

mart

Data

martΦόρτωση/

Ανανέωση

Φόρτωση/

Ανανέωση

OLAP server

OLAP server

Εργαλεία

επεξεργασίας

δεδομένων

Εργαλεία

πολυδιάστατηςανάλυσης

Εργαλεία

εξόρυξης

δεδομένων

Page 7: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εξόρυξη

Δεδομένων

(Data Mining)

Ανακάλυψη νέων (κρυμμένων) προτύπων και μοντέλων (patterns, models), κανόνες συσχέτισης, ιεραρχίες κατηγοριοποίησης, ομαδοποίηση

με (ημι-) αυτόματο και αποδοτικό τρόπο

για την περιγραφή των δεδομένων μίας μεγάλης βάσηςκαι την πρόβλεψη και εξήγηση νέων δεδομένων.

OΡΙΣΜΟΣ

Page 8: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ανακάλυψη

γνώσης

είναι

η

διαδικασία

εντοπισμού έγκυρων, εν

δυνάμει

χρήσιμων

και

κατανοητών

πρότυπων

(patterns) σε

δεδομένα.

Page 9: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Δεδομένα

είναι

ένα

σύνολο

F

από

γεγονότα. Πρότυπο

(pattern) είναι

μια

έκφραση

Ε

σε

μια

γλώσσα

L

που

περιγράφει

ένα

υποσύνολο

FE

του

F. Διαδικασία:Συνήθως

πολλών

βημάτων, που

περιλαμβάνει

προετοιμασία

των

δεδομένων, αναζήτηση

προτύπων, και εκλέπτυνση

με

επανάληψη.

Εγκυρότητα:Τα

πρότυπα

που

ανακαλύπτονται

πρέπει

να ισχύουν

και

σε

νέα

δεδομένα

με

κάποιο

βαθμό

εμπιστοσύνης. Χρήσιμες:Τα

πρότυπα

θα

πρέπει

να

οδηγούν

σε

κάποιες

χρήσιμες

δράσεις, που

εκτιμούνται

από

κάποια συνάρτηση.

Κατανοητά:Πρέπει

να

είναι

πρότυπα

κατανοητά

από ανθρώπους.

Page 10: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Στόχοι

της

Εξόρυξης

Δεδομένων

και

Ανακάλυψης Γνώσης

Πρόβλεψη-Η εξόρυξη δεδομένων μπορεί να δείξειτην συμπεριφορά κάποιων γνωρισμάτων τωνδεδομένων στο μέλλονΤαυτοποίηση-Οι μορφές των δεδομένων μπορούννα χρησιμοποιηθούν για να προσδιορισθεί ηύπαρξη ενός προϊόντος, ενός γεγονότος, η μιαςδραστηριότηταςΤαξινόμηση-Η εξόρυξη δεδομένων μπορεί ναδιαμερίσει τα δεδομένα ώστε να μπορούν ναπροσδιορισθούν διαφορετικές κλάσεις ήκατηγορίες με βάση συνδυασμούς παραμέτρων

Page 11: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Στόχοι

της

Εξόρυξης

Δεδομένων

και

Ανακάλυψης Γνώσης

(2)

Βελτιστοποίηση –Ένας ενδεχόμενος στόχος τηςεξόρυξης δεδομένων μπορεί να είναι ηβελτιστοποίηση της χρήσης μέσων όπως ο χρόνος, οχώρος, το χρήμα, ή τα υλικά και η μεγιστοποίηση τωνμεταβλητών εξόδου όπως οι πωλήσεις ή τα κέρδηδοθέντων κάποιων περιορισμών. Σαν τέτοιος, αυτός οστόχος της εξόρυξης δεδομένων προσομοιάζει τηναντικειμενική συνάρτηση που χρησιμοποιείται σταπροβλήματα επιχειρησιακής έρευνας πουαντιμετωπίζει βελτιστοποιήσεις υπό περιορισμούς.

Page 12: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Τύποι

Γνώσης

που

Ανακαλύπτονται

κατά

την

Εξόρυξη Δεδομένων

Κανόνες

Συσχέτισης

–Οι

κανόνες

αυτοί

σχετίζουν

την

ύπαρξη

ενός συνόλου

προϊόντων

με

διάστημα

τιμών

ενός

άλλου

συνόλου

μεταβλητών.•

Ιεραρχίες

Ταξινόμησης

–Ο

στόχος

είναι

ξεκινώντας

από

ένα

υπάρχον

σύνολο

γεγονότων

ή

δοσοληψιών

να

δημιουργηθεί

μια ιεραρχία

κλάσεων.

Ακολουθιακά

πρότυπα

–Αναζητείται

μια

ακολουθία

ενεργειών

ή γεγονότων.

Πρότυπα

σε

χρονοσειρές

–Μπορεί

να

εντοπισθούν

ομοιότητες

στις θέσεις

χρονοσειρών.

Κατηγοριοποίηση

και

κατάτμηση

–Ένα

σύνολο

γεγονότων

ή αντικειμένων

μπορεί

να

διαμερισθεί

σε

σύνολα

“παρόμοιων”

στοιχείων.

Page 13: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Χαρακτηριστικά

ενός

Συστήματος

Εξόρυξης

Δεδομένων

Διαχείριση

Διαφορετικών

Τύπων

Δεδομένων•

Αποδοτικότητα

των

αλγόριθμων

εξόρυξης

Χρησιμότητα, βεβαιότητα

και

εκφραστικότητα

των αποτελεσμάτων

της

εξόρυξης.

Παρουσίαση

σε

υψηλό

επίπεδο

των

αιτημάτων

και

των αποτελεσμάτων

από

την

διαδικασία

εξόρυξης

Διαδραστική

εξόρυξη

γνώσης

σε

διαφορετικά

επίπεδα αφαίρεσης.

Εξόρυξη

Πληροφοριών

από

διαφορετικές

πηγές δεδομένων

Προστασία

και

ασφάλεια

δεδομένων.

Page 14: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Τρόποι

Ταξινόμησης

των

Τεχνικών

Εξόρυξης

Είδη

βάσεων

δεδομένων

με

τις

οποίες

συνεργάζονται (σχεσιακές, αντικειμενοστρεφείς, ετερογενείς, Internet

κλπ).•

Το

είδος

της

γνώσης

που

εξάγουν

(κανόνες

συσχέτισης,

κανόνες

χαρακτηρισμού, κανόνες

ταξινόμησης, )•

Είδος

των

τεχνικών

που

χρησιμοποιούν

(αυτόνομη

εξόρυξη, εξόρυξη

καθοδηγούμενη

από

δεδομένα, εξόρυξη

καθοδηγούμενη

από

επερωτήσεις).

Page 15: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Βάσεις

δεδομένων

ΤΕΧΝΟΛΟΓΙΑ

Στατιστική

ανάλυση Μηχανική

Μάθηση

Ο

ρόλος

του

χώρου

των

Βάσεων

Δεδομένων

Κλιμάκωση και εξέλιξηυπαρχόντων αλγορίθμωνγια χειρισμό μεγάλου όγκου δεδομένων

Δουλειά σε όλες τις διαδικασίες εξόρυξης

Συνολική αντιμετώπιση κοινών προβλημάτωνεπεξεργασίας δεδομένων στους αλγόριθμουςΚατασκευή SQL-aware συστημάτων

εξόρυξης δεδομένων

Εξέλιξη των ΣΔΒΔ για αποδοτικότερηυποστήριξη μεθόδων εξόρυξης δεδομένων

Πχ: ενσωμάτωση data mining primitives

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Εξόρυξη

Δεδομένων

(Data Mining)

Page 16: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

ΔΙΑΔΙΚΑΣΙΕΣ

Κατηγοριοποίηση(classification)

Κατηγοριοποίηση

Εξόρυξη

Δεδομένων

(Data Mining)

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Κάθε οντότητα του πληθυσμού έχει m ιδιότητες: Α1, Α2,… ΑmΈναν πληθυσμό ο οποίος έχει Ν ομάδες: G1, G2, …GΝΈνα δείγμα του πληθυσμού για τις οντότητες του οποίουγνωρίζουμε σε ποια ομάδα ανήκουν

Βάση

Δεδομένων

Ανάπτυξη

προφίλ

για

κάθε

γνωστή

ομάδα

Εύρεση

όλων

(Ν) των

οντοτήτων που

ανήκουν

σε

μία

δοσμένη

ομάδα

Page 17: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Παράδειγμα: ποιοι

πελάτες

είναι

θετικοί

αποδέκτες

σε

διαφημιστικά

φυλλάδια

Οι πελάτες χωρίζονται σε θετικούς αποδέκτες και στους άλλους

Ιδιότητες κάθε πελάτη: Όνομα, ηλικία, επάγγελμα, κλπ

Δεδομένα για πελάτες που απάντησαν σε παλιότερες καμπάνιες

Κατηγοριοποίηση

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Κατηγοριοποίηση(classification)

Προφίλ

θετικών

αποδεκτών:

(Ηλικία>25 και

<55) και

μισθός>240000 και

Περιοχή=Ν.Προάστεια

Εφαρμογή

του

προφίλ

για

εύρεση

όλων

των

πελατών

για

αποστολή

νέου

υλικού

Page 18: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Άλλα

παραδείγματα

εφαρμογών:

- Oργάνωση

διαφημιστικής

καμπάνιας

- Πολιτική

πίστωσης

- Επέκταση

επιχειρησιακών

δραστηριοτήτων

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Κατηγοριοποίηση(classification)

Page 19: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Κατηγοριοποίηση

(Classification)

Κατηγοριοποίηση

είναι

η

διαδικασία

εκμάθησης

ενός

μοντέλου που

περιγράφει

διαφορετικές

κλάσεις

δεδομένων. Οι

κλάσεις

έχουν

προκαθορισθεί. Αυτή

η

διαδικασία

λέγεται “επιβλεπόμενη

μάθηση”

(supervised learning). Μόλις

δημιουργηθεί, μπορεί

να

χρησιμοποιηθεί

για

ταξινόμηση

νέων δεδομένων. Το

πρώτο

βήμα, επιτυγχάνεται

με

χρήση

ενός

συνόλου

δεδομένων

που

έχουν

ήδη

ταξινομηθεί. Κάθε

εγγραφή στα

δεδομένα

αυτά

περιέχει

ένα

γνώρισμα, που

ονομάζεται

γνώρισμα

κλάσης

που

δείχνει

σε

ποια

κλάση

ανήκει

η

εγγραφή. Το

μοντέλο

που

παράγεται

συνήθως

έχει

την

μορφή

δένδρου

αποφάσεων

ή

συνόλου

κανόνων.Το

μοντέλο

θέλουμε

να

προβλέπει

την

σωστή

κλάση

στην

οποία

ανήκουν

νέα

δεδομένα.

Page 20: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Διαδικασία

δύο

βημάτων

Δημιουργία

του

μοντέλου:περιγράφει

προκαθορισμένες

κλάσεις. –

Θεωρούμε

ότι

κάθε

πλειάδα

ανήκει

σε

μια

προκαθορισμένη

κλάση

Το

σύνολο

των

πλειάδων

που

χρησιμοποιούνται

για

την

δημιουργία του

μοντέλου

αποτελεί

το

σύνολο

εκγύμνασης

Το

μοντέλο

παριστάνεται

σαν

κανόνες, δένδρο

αποφάσεων

ή μαθηματικός

τύπος

Χρήση

του

μοντέλου

για

ταξινόμηση

μελλοντικών

ή

άγνωστων δεδομένων

Εκτίμηση

της

ακρίβειας

του

μοντέλου•

Συγκρίνεται

η

γνωστή

κλάση

δείγματος

ελέγχου

με

αυτή

που

προκύπτει

από το μοντέλο•

Ακρίβεια

είναι

το

ποσοστό

του

δείγματος

ελέγχου

που

ταξινομείται

σωστά

από

το

μοντέλο•

Το

σύνολο

ελέγχου

είναι

ανεξάρτητο

από

αυτό

της

εκμάθησης.•

Αν

η

ακρίβεια

είναι

αποδεκτή

χρησιμοποιείται

για

ταξινόμηση

άγνωστων

δεδομένων

Page 21: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Όνομα Βαθμίδα ΧρΠρουπ Μόνμος

Κώστας Προϊστάμενος 3 ΟΧΙ

Πέτρος Προϊστάμενος 7 ΝΑΙ

Άννα Διευθυντής 2 ΝΑΙ

Ηλίας Τμηματάρχης 7 ΝΑΙ

Ελένη Προϊστάμενος 6 ΟΧΙ

Πάνος Τμηματάρχης 3 ΟΧΙ

ΔεδομέναΕκμάθησης

Αλγόριθμοι

Κατηγοριοποίησης

Μοντέλο

If Διευθυντής

or ΧρΠρουπ>6 then

Μόνιμος=ΝΑΙ

Page 22: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Μοντέλο

Δεδομένα Ελέγχου

Άγνωστα Δεδομένα

Page 23: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Υπάρχουν

πολλά

μοντέλα

κατηγοριοποίησης

Ταξινόμηση

με

δένδρα

αποφάσεων•

Ταξινόμηση

Bayes

Νευρωνικά

δίκτυα•

Support Vector Machines (SVM)

Ταξινομήσεις

που

βασίζονται

σε

συσχετίσεις•

Άλλες

μέθοδοι

(KNN, Boosting, Bagging κλπ)

Page 24: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Αποτίμηση

των

Μεθόδων

Κατηγοριοποίησης

Προβλεπόμενη

Ακρίβεια•

Ταχύτητα

και

κλιμάκωση

Χρόνος

Δημιουργίας

του

μοντέλου–

Χρόνος

Χρήσης

Σταθερότητα–

Διαχείριση

θορύβου

και

χαμένων

τιμών

Δυνατότητα

ερμηνείας–

Κατανόηση

της

δομής

του

μοντέλου

Ποιότητα

των

κανόνων–

Μέγεθος

του

δένδρου

αποφάσεων

Πληρότητα

των

κανόνων

Page 25: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Καθορισμός

ενός

μετρικού

χώρου

και

υπολογισμός

των

οντοτήτων που

ανήκουν

σε

μία

ομάδα

με

μέτρο

την

εγγύτητα:

πχ: k-nearest neighbor

Προβολή

του

χώρου

σε

περιοχές

αποφάσεων:πχ: δέντρα

αποφάσεων, νευρωνικά

δίκτυα

Προσεγγίσεις

κατηγοριοποίησης:

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Κατηγοριοποίηση(classification)

Προτάσεις

από

τον

χώρο

των

βάσεων

για

κλιμακούμενους

αλγορίθμους:SPRINT

Page 26: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Όνομα Βαθμίδα ΧρΠρουπ Μόνμος

Κώστας Προϊστάμενος 3 ΟΧΙ

Πέτρος Προϊστάμενος 7 ΝΑΙ

Άννα Διευθυντής 2 ΝΑΙ

Ηλίας Τμηματάρχης 7 ΝΑΙ

Ελένη Προϊστάμενος 6 ΟΧΙ

Πάνος Τμηματάρχης 3 ΟΧΙ

ΔεδομέναΕκμάθησης

Αλγόριθμοι

Κατηγοριοποίησης

Μοντέλο

If Διευθυντής

or ΧρΠρουπ>6 then

Μόνιμος=ΝΑΙ

Page 27: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Αλγόριθμος

για

την

επαγωγή

δένδρου

αποφάσεων

Βασικός

Αλγόριθμος

(Άπληστος)–

Το

δένδρο

κατασκευάζεται

με

αναδρομικό

top-down διαίρει

και

βασίλευε

τρόπο–

Στην αρχή όλα τα παραδείγματα στη ρίζα

Κατηγορικά

Γνωρίσματα

(αν

είναι

συνεχή

γίνονται

διακριτά–

Διαμερίζονται

με

βάση

επιλεγμένα

γνωρίσματα

Τα

γνωρίσματα

επιλέγονται

ευριστικά

ή

με

στατιστικά

μέτρα

(πληροφοριακό κέρδος)

Συνθήκες

Τερματισμού

των

διαμερίσεων–

Όλα

τα

δείγματα

ενός

κόμβου

ανήκουν

στην

ίδια

κλάση

Δεν

υπάρχουν

γνωρίσματα

για

περαιτέρω

διαμέριση

(για

την

ταξινόμηση

του κόμβου

χρησιμοποιείται

πλειοψηφία

ψήφων)

Τελειώνει

το

δείγμα

Page 28: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Αλγόριθμος

Decision

Tree

Induction

Είσοδος: Σύνολο

εγγραφών

εκπαίδευσης

R1

,R2

,…Rm

και

ένα

σύνολο γνωρισμάτων

A1

,A2

,…An

.Έξοδος:Δένδρο

Αποφάσεων

Procedure Build_tree(records, Attributes);begincreate a node N;If all Records belong to the same class, C then return N as a leaf node with

class label C;If Attributes is empty then return N as a leaf node with class label C, such that

the majority of Records belong to it;Select attribute Ai

(with the highest information gain) from Attributes;Label node N with Ai

;

Page 29: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Αλγόριθμος

Decision

Tree

Induction (Συν.)

for each known value, Vj

of Ai

dobeginAdd a branch from node N for the condition Ai

=Vj

;Sj

=subset of records where Ai

=Vj

;If Sj

is empty then add a leaf, L, with class label C, such that the majority of Records

belong to it Return Lelse add the node returned by Build_tree(Sj

,Attributes-Ai

);end;

end;

Page 30: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Τι

σημαίνει

πληροφοριακό

κέρδος

(Information Gain);

∑=

=n

1ii2in21 plogp-),...SS,I(S

Σαν

μέτρο

του

πληροφοριακού

κέρδους

χρησιμοποιούμε

την εντροπία.

Οι

αναμενόμενες

πληροφορίες

για

την

ταξινόμηση

δεδομένων εκμάθησης

από

δείγματα, όταν

το

γνώρισμα

κλάσης

έχει

n τιμές

(v1

,v2

,…,vn

) και

Si

είναι

το

πλήθος

των

δειγμάτων

που

ανήκουν στην

κλάση

με

ετικέτα

vi

δίδεται

από

τον

τύπο:

Όπου

pi

είναι

η

πιθανότητα

ένα

τυχαίο

δείγμα

να

ανήκει

στην κλάση

vi

. Μια

εκτίμηση

της

τιμής

pi

είναι

si

/s.

Page 31: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Το

γνώρισμα

Α

με

τιμές

{v1

,…,vm

} διαμερίζει

το

δείγμα

σε υποσύνολα

S1

,S2

,…Sm

όπου

όσα

ανήκουν

στο

Si

έχουν

μια

τιμή του

vi

του

Α. Κάθε

Si

μπορεί

να

περιέχει

δείγματα

που

ανήκουν

σε οποιαδήποτε

κλάση. Το

πλήθος

των

Si

ανήκουν

στην

κλάση

j συμβολίζεται

σαν

sij

. Η

εντροπία

σε

σχέση

με

χρήση

του γνωρίσματος

Α

σαν

γνωρίσματος

ελέγχου

ορίζεται:

Το

κέρδος

ορίζεται

σαν

Gain(A)=I(s1

,…sn

)-E(A)

),...,(*...)( 21

1

1jnjj

n

j

jnj SSSISSSAE ∑

=

+=

Το

I(sj1

,…sjn

) μπορεί

να

ορισθεί

χρησιμοποιώντας

τον

τύπο

για

το I(s1

,…sn

) αντικαθιστώντας

το

pi

με

το

pji

όπου

pji

=sji

/s.

Page 32: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εγγαμος Μισθος Υπ_Λογ Ηλικία Μπορεί

Δαν

οχι >=50Κ <5Κ >=25 ναι

ναι >=50Κ >=5Κ >=25 ναι

ναι 20Κ…50Κ <5Κ <25 οχι

οχι <20Κ >=5Κ <265 οχι

οχι <20Κ <5Κ >=25 οχι

ναι 20Κ…50Κ >=5Κ >=25 ναι

I(3,3)=-0.5log2

0.5-0.5log2

0.5=1Έγγαμος=ναι

s11

=2, s21

=1 I(s11

,s12

)=0.92

Έγγαμος=οχι

s12

=1, s22

=2

I(s12

,s22

)=0.92

Επομένως

E(Εγγαμος)=3/6 I(s11

,s12

)+3/6 I(s12

,s22

)=0.92

Και

κέρδος

1-0.92=0.08

Page 33: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Όμοια Ε(Μισθος)=0.33 και

Gain(Μισθος)=0.67

E(ΥπΛογ)=0.82 και

Gain(ΥπΛογ)=0.18 Ε(Ηλικια)=0.81 και

Gain(Ηλικια)=0.19

Page 34: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

ΕΓΓΑΜΟΣ

ΜΙΣΘΟΣ ΥΠΟΛ_ΛΟΓ

ΗΛΙΚΙΑ

ναι οχι

<20Κ>=20Κ<50Κ

>=50Κ <5Κ >=5Κ

<25 >=25

Χαμηλού

ρίσκου

Χαμηλού

ρίσκου

Μεσαίου

ρίσκου

Μεγάλου

ρίσκουΥψηλού

ρίσκου

Υψηλού

ρίσκου

Page 35: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ομαδοποίηση(Clustering)

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Κατηγοριοποίηση(classification)

Ομαδοποίηση

Βάση

Δεδομένων

Κάθε οντότητα του πληθυσμού έχει m ιδιότητες: Α1, Α2,… Αm

Έναν πληθυσμό

Διαχωρισμός

του

πληθυσμού

σε

ομάδες

Για

κάθε

ομάδα

, εύρεση

του

προφίλ

των

οντοτήτων που

ανήκουν

σε

αυτή

Page 36: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Παράδειγμα: μία

βάση

με

δημογραφικά

στοιχεία

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Κάθε οντότητα έχει ιδιότητες: ηλικία, οικονομική κατάσταση, περιοχή, μόρφωση …

Ομαδοποίηση

Διαχωρισμός

του

πληθυσμού

σε

επίπεδα

μόρφωσης

Με

βάση

την

ηλικία

και

την

οικονομικά

κατάσταση

Page 37: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ομάδα

1

Ομάδα

2

Μεμονωμένα

σημεία

(outliers)

Ομαδοποίηση

τα

παρόμοια

στην

ίδια

ομάδα

Page 38: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Τα

σημεία

που

είναι

σε

ομάδα

πρέπει

Στην

ίδια

ομάδα

αυτά

που

μοιάζουν•

Τα

διαφορετικά

σε

διαφορετικές

ομάδες

Οι

ομάδες

δεν

είναι

προκαθορισμένες

(μη

επιβλεπόμενη εκμάθηση)

Page 39: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Απαιτήσεις

για

τις

Ομάδες

Δυνατότητα

αντιμετώπισης

διαφορετικών

τύπων

γνωρισμάτων•

Ανακάλυψη

συστάδων

οποιουδήποτε

σχήματος

Αντιμετώπιση

θορύβου

στα

δεδομένα•

Πολλές

διαστάσεις

Ευστάθεια

σε

σχέση

με

το

μέγεθος

των

δεδομένων•

Ενσωμάτωση

περιορισμών

που

εισάγει

ο

χρήστης

Δυνατότητα

ανακάλυψης

όλων

των

κρυμμένων

προτύπων.

Page 40: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εξερεύνηση

δεδομένωνTargeted Marketing Ταξινόμηση

Εγγράφων

Ταξινόμηση

ακολουθιών

γονιδιώματος

Άλλα

παραδείγματα

εφαρμογών:

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Page 41: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

1.

Distance-based: k-means, HAC (Hierarchical Agglomerative Clustering)

Προσεγγίσεις

ομαδοποίησης:

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

2.

Model-based: Expectation-Maximization(EM)

3.

Partition-based:

Προτάσεις

από

τον

χώρο

των

βάσεων

για

κλιμακούμενους

αλγορίθμους:DBSCAN, CLARANS

4.

Ιεραρχικές

Μέθοδοι

Page 42: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Για

δεδομένα

που

χωράνε

στη

μνήμη

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

npnjn

pj

pj

xxx

xxx

xxx

......

...

......

......

1

2221

1111

Λέγεται

και

object-by variable δομή

Πίνακας

δεδομένων

n αντικείμενα

με

p μεταβλητές

Page 43: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Πίνακας

διαφορετικότητας

(dissimilarity matrix)

Προσέγγιση

αντικειμένων•

dij

μη

ομοιότητα

αντικειμένων•

Μη

αρνητική

Είναι

κοντά

όσο

πλησιάζει

το

0

⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢

0 d ...d d......

0... d d0... d

0...

1-nn,n2n1

3231

21

Page 44: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Θέλουμε

μεγάλη

ομοιότητα

(ανάλογα

με

κάποιο

μέτρο ομοιότητας) εντός

των

κλάσεων

και

μικρή

μεταξύ

των

κλάσεων. (Συνήθως

οι

ομάδες

είναι

ξένες

μεταξύ

τους).

Ένα

χαρακτηριστικό

στοιχείο

είναι

η

συνάρτηση

ομοιότητας που

χρησιμοποιείται. Όταν

τα

δεδομένα

είναι

αριθμητικά

μπορεί

να

χρησιμοποιηθεί

μια

συνάρτηση

που

βασίζεται

στην απόσταση.

Page 45: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Συνάρτηση

Ομοιότητας

Ευκλείδεια

Απόσταση

2222

211 ||...||||);( knjnkjkjkj rrrrrrrrό −++−+−=στασηαπ

Όσο

μικρότερη

είναι

η

απόσταση

τόσο

μεγαλώνει

η

ομοιότητα.

Ένας

κλασσικός

αλγόριθμος

είναι

αυτός

των

k μέσων

(k means)

Page 46: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Γενικευμένη

απόσταση

είναι

η

απόσταση

Minkowski

q qjnin

qj2i2

qj1i1 |x-x|...|x-x||x-x|j)d(i, +++=

Η οποία για q=2 είναι

η

Ευκλείδεια

ενώ

για

q=1 είναι

η

Manhattan απόσταση

q qjnin

qj2i22

qj1i11 |x-x|...|x-x||x-x|wj)d(i, nww +++=

Απόσταση

με

βάρη:

Page 47: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ιδιότητες

της

απόστασης

Minkowski

Μη

αρνητική

d(i,j)≥0•

d(i,i)=0

Συμμετρική: d(i,j)=d(j,i)•

Τριγωνική

ανισότητα: d(i,j)≤d(i,k)+d(k,j)

Page 48: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Κατηγορίες

αλγορίθμων

για

δημιουργία

συστάδων

Αλγόριθμοι

διαμέρισης: Διαμερίζονται

τα

αντικείμενα

σε

k συστάδες. Με

επανάληψη

επανατοποθετούνται

τα

αντικείμενα

ώστε

να

δημιουργηθούν

καλλίτερες

συστάδες.•

Ιεραρχικοί

αλγόριθμοι: Δύο

προσεγγίσεις

1)κάθε

αντικείμενο

είναι

μια

κλάση

και

γίνεται

συνένωση

των

κλάσεων

για

δημιουργία μεγαλυτέρων

ή

2)όλα

τα

αντικείμενα

θεωρούνται

μια

κλάση

και

διασπώνται

σε

μικρότερες.•

Μέθοδοι

που

βασίζονται

στην

πυκνότητα:συναρτήσεις

πυκνότητας

Μέθοδοι

που

βασίζονται

σε

πλέγματα:ποσοτικοποιείται

ο

χώρος των

αντικειμένων

σε

μια

δομή

πλέγματος

Με

βάση

μοντέλο:χρησιμοποίηση

ενός

μοντέλου

για

να

βρεθεί

η καλλίτερη

προσέγγιση

των

δεδομένων

Page 49: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Αλγόριθμοι

διαμέρισης

Διαμερίζονται

τα

k αντικείμενα

σε

k συστάδες

με

βελτιστοποίηση του

κριτηρίου

που

επιλέγεται

για

την

διαμέριση.

Για να βρεθεί το καθολικό βέλτιστο πρέπει να εξετασθούν όλες οι διαμερίσεις, οι

πιθανές

διαμερίσεις

είναι

kn-(k-1)n-…-1 που

είναι

πάρα

πολλές.•

Ευριστικές

μέθοδοι: K-means δηλαδή

μια

συστάδα

παριστάνεται

με

το

κέντρο

της

ή

k metoids

δηλαδή

κάθε

συστάδα

παριστάνεται από ένα αντικείμενο της

Page 50: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Σκιαγράφηση

του

k means

Αυθαίρετη

επιλογή

k αντικειμένων

σαν

τα

αρχικά

κέντρα

των συστάδων.

Μεταφορά

ενός

αντικειμένου

στη

συστάδα

που

το

προσεγγίζει περισσότερο

με

βάση

την

μέση

τιμή

των

αντικειμένων

στη

συστάδα. Ενημέρωση

των

μέσων

τιμών

των

συστάδων.

Page 51: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

K means αλγόριθμος

Είσοδος: μια

βάση

δεδομένων

D με

m εγγραφές

r1

,r2

,…rm

και

ένα επιθυμητό

πλήθος

συστάδων

k

Έξοδος:ένα

σύνολο

από

k ομάδες

που

ελαχιστοποιούν

το

κριτήριο

του τετραγωνικού

λάθους

begin

Τυχαία

επιλογή

των

k εγγραφών

σαν

κέντρων

των

k συστάδωνRepeatΚάθε

εγγραφή

ri

τοποθετείται

σε

μια

συστάδα

έτσι

που

η

απόσταση μεταξύ

της

ri

και

του

κέντρου

της

συστάδας

να

είναι

η

μικρότερη

από τις

k συστάδες

Υπολογίζεται

ξανά

το

κέντρο

για

κάθε

συστάδα

με

βάση

τις

εγγραφές που

περιέχει

Μέχρι

να

μην

υπάρχει

αλλαγήend;

Page 52: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία
Page 53: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Η

συνθήκη

τερματισμού

συνήθως

είναι

το

κριτήριο

του τετραγωνικού

λάθους. Για

τις

συστάδες

C1

,C2

,…,Ck

με

μέσους m1

,m2

,…,mk

το

λάθος

ορίζεται:

∑ ∑= ∈∀

=k

1i

2

Crij

ij

)m,απόσταση(rΛάθος

Page 54: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ο

μέσος

για

μια

ομάδα, Ci

, με

n εγγραφές

m διαστάσεων

είναι

το διάνυσμα:

⎟⎟⎠

⎞⎜⎜⎝

⎛= ∑∑

∈∀∈∀ ijij Crjm

Crjii r

nr

nC 1...,1

Page 55: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

ID Ηλικια Προυπηρεσία

1 30 5

2 50 25

3 50 15

4 25 55 30 10

6 55 25

Έστω

ότι

θέλουμε

2 συστάδες και

ας

υποθέσουμε

ότι

ξεκινάμε

με

το

3 (C1

)

και

το

6 (C2

) για

κέντρα.Το

1 απέχει

22.4 από

το

C1

και 32.0 από

το

C2

. Επομένως

πάει στο

C1

. Το

2 απέχει

10.0 και

5.0 αντίστοιχα

και

επομένως

πάει

στο

C2

Όμοια

το

4 απέχει

25.5 από

το

C1

και

36.6 από

το

C2

και

επομένως

πάει στο

C1

. Τέλος

το

5 απέχει

20.6 από

το

C1

και

29.2 από

το

C2

και επομένως

πάει

στο

C1

.

Page 56: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Πλεονεκτήματα

και

Μειονεκτήματα

του

k means

Έχει

σχετικά

καλή

απόδοση

Ο(tkn) (n αντικείμενα, k ομάδες

και

t επαναλήψεις

k,t <<n.

Συνήθως βρίσκει ένα τοπικό βέλτιστο.•

Μπορεί

να

εφαρμοσθεί

μόνο

όταν

ορίζεται

ο

μέσος

(τι

γίνεται

όταν

έχουμε

κατηγορικά

δεδομένα).•

Πρέπει

να

ορισθεί

το

πλήθος

των

ομάδων

Δεν

αντιμετωπίζει

δεδομένα

με

θόρυβο•

Δεν

βρίσκει

μη

κυρτές

ομάδες.

Page 57: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Υπολογισμός

των

κέντρων

(όταν

οι

οντότητες

i∈I εμφανίζονται

σαν

γραμμές

yi

Rn)

Το

κέντρο

βάρους

y(S)=Σi ∈S

yi

/|S|•

Οι

συντελεστές

της

εξίσωσης

γραμμικής

παλινδρόμησης

μιας

μεταβλητής

σε

σχέση

με

τις

άλλες

(στο

S)

Page 58: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Υπολογισμός

των

κέντρων

(όταν

τα

δεδομένα

παριστάνονται με

τον

πίνακα

ανομοιότητας

)

Μια

οντότητα

i∈I

που

ελαχιστοποιεί

την

συνολική ανομοιότητα

d(i, S)=Σj∈S

dij

/|S| ή

d(i,S)=max j∈S

dij

ή d(i,S)=min j∈S

dij

Page 59: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Παραλλαγές

του

k means

Παραλλαγές

σε–

Επιλογή

των

αρχικών

K

Υπολογισμοί

σε

διαφορά–

Στρατηγικές

στον

υπολογισμό

του

μέσου

των

συστάδων

Κατηγορικά

δεδομένα–

Χρήση

mode αντί

για

mean (το

πιο

συχνό)

Ανάμειξη

κατηγορικών

και

αριθμητικών

δεδομένων

Page 60: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Παραλλαγές

του

k means

Παραλλαγές

στην

επιλογή

των

αρχικών

k μέσων•

Στη

στρατηγική

υπολογισμού

του

μέσου

της

συστάδας.

Για

αντιμετώπιση

κατηγορικών

δεδομένων.

Page 61: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία
Page 62: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ιεραρχικές

Μέθοδοι

AGNES Αρχικά

κάθε

αντικείμενο

είναι

μια

ομάδα. Βήμα- βήμα

συγχωνεύονται

οι

ομάδες

DIANA (Divisive Analysis) Αρχικά

όλα

τα

αντικείμενα είναι

μια

ομάδα. Βήμα-βήμα

διασπώνται

οι

ομάδες

Page 63: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ιεραρχικές

Μέθοδοι

Δύσκολο

να

βρεθούν

τα

σημεία

διάσπασης/συγχώνευσης•

Δεν

έχουν

καλή

απόδοση

Ο(n2)

Ενοποίηση

ιεραρχικών

με

άλλες

τεχνικές

Page 64: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Βάση

Δεδομένων

Κανόνες συσχέτισης(association rules)

Κάθε δοσοληψία αφορά μία λίστα αντικειμένων (τιμών)

Μία βάση δοσοληψιών: Τ1, Τ2, …

Εύρεση

συσχετίσεων

Εύρεση

συσχετίσεων

μεταξύ

αντικειμένων

μίας

δοσοληψίας

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

X Y

Page 65: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εμπιστοσύνη (confidence) c: Στις c% των περιπτώσεων που υπάρχει το Χ τότε υπάρχει και το Υ

Στήριξη (support) s : Ο κανόνας υποστηρίζεται από το s% των συνολικών δοσοληψιών

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Κανόνες συσχέτισης(association rules)

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Εύρεση

συσχετίσεων

με

βάση:

Page 66: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Μία βάση δοσοληψιών: Τ1, Τ2, …

Κάθε δοσοληψία αφορά ένα καλάθι αγαθών

Εύρεση

συσχετίσεων

Παράδειγμα: ποια

προϊόντα

αγοράζουν

μαζί

οι

πελάτες ενός

καταστήματος

(>60%)

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Κανόνες συσχέτισης(association rules)

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Ψωμί Βούτυρο (70%)

Page 67: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Σχεδιασμός

των

προμηθειών

ενός

σούπερ

μάρκετ

Σχεδιασμός

καταλόγου

Οργάνωση

καταστήματος

Άλλα

παραδείγματα

εφαρμογών:

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Κανόνες συσχέτισης(association rules)

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Page 68: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Apriori

Αλγόριθμοι:

Βασική

ιδέα: Διάσπαση

του

προβλήματος

σε

δύο

υποπροβλήματα

Εύρεση όλων των συνδυασμών των αντικειμένων πουυπάρχουν σε ποσοστό δοσοληψιών μεγαλύτερο του ποσοστούστήριξης.

Χρήση των συνδυασμών για παραγωγή κανόνων. Αν για παράδειγμα ΑΒΓΔ και ΑΒ είναι τέτοιοι συνδυασμοί, υπολογίζουμε το r=support(ABΓΔ)/support(AB). Αν το r>confidence τότε ισχύει ο κανόνας ΑΒ ΓΔ

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Κανόνες συσχέτισης(association rules)

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Page 69: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εξόρυξη

Κανόνων

Συσχέτισης

Ένας

κανόνας

συσχέτισης

είναι

της

μορφής

X ⇒ Y

όπου

τα

X={x1

, x2

,…, xn

} και

Y={y1

, y2

,…, ym

} είναι

σύνολα αντικειμένων, με

τα

xi

και

yj

να

είναι

διακριτά

αντικείμενα για

κάθε

i και

j. Η

συσχέτιση

αυτή

λέει

ότι

αν

ένας

πελάτης

αγοράζει

το

X είναι

πιθανό

να

αγοράσει

και

το

Y επίσης. Γενικά

κάθε

κανόνας

συσχέτισης

έχει

την

μορφή

LHS

(αριστερό

μέλος) ⇒ RHS (δεξιό

μέλος), όπου

τα

LHS και RHS είναι

σύνολα

αντικειμένων.

Το

LHS∪RHS λέγεται

σύνολο

αντικειμένων.

Page 70: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εξόρυξη

Κανόνων

Συσχέτισης

Η

στήριξη

του

κανόνα

LHS ⇒ RHS είναι

το

ποσοστό των

δοσοληψιών

που

περιλαμβάνουν

όλα

τα

αντικείμενα

της

ένωσης

LHS∪RHS.

Δηλαδή

η στήριξη

είναι

το

ποσοστό

των

δοσοληψιών

που

περιέχουν

όλα

τα

αντικείμενα

του

συνόλου. Αν

η στήριξη

είναι

χαμηλή

αυτό

συνεπάγεται

ότι

δεν

υπάρχει

σαφής

ένδειξη

ότι

τα

αντικείμενα LHS∪RHS εμφανίζονται

μαζί.

Page 71: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Κωδικός Δοσοληψ.Ώρα Προϊόντα

102 06:35 γάλα, ψωμί, βουτήματα, χυμός

792 07:38 γάλα, χυμός

1130 08:05 γάλα, αυγά

1735 08:40 ψωμί, βουτήματα, καφές

Στήριξη

{γάλα.,χυμός}

50%

Στήριξη

{ψωμί.,χυμός}

25%

Page 72: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Η

εμπιστοσύνη

του

κανόνα

συσχέτισηςLHS ⇒ RHS είναι

το

ποσοστό

των

δοσοληψιών

που

περιλαμβάνουν

επίσης

το

RHS. Ένας

άλλος

όρος

για την

εμπιστοσύνη

είναι

η

ισχύς

του

κανόνα

Εμπιστοσύνη

Εμπιστοσύνη

γάλα

⇒ χυμός

66.7%Εμπιστοσύνη

ψωμί

⇒ χυμός

50%

Page 73: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ο

στόχος

της

εξόρυξης

κανόνων

συσχέτισης, είναι

η

δημιουργία

όλων των

πιθανών

κανόνων

που

ξεπερνούν

κάποια

όρια

στήριξης

και

εμπιστοσύνης. Το

πρόβλημα

χωρίζεται

σε

δύο

υποπροβλήματα:

α)Δημιουργία

όλων

των

συνόλων

αντικειμένων

που ξεπερνούν

το

όριο. Τα

σύνολα

αυτά

ονομάζονται

μεγάλα

(ή συχνά). Μεγάλα

εννοούμε

με

μεγάλη στήριξη

β)Για

κάθε

μεγάλο

σύνολο, δημιουργούνται δημιουργούνται

όλοι

οι

κανόνες

με

ελάχιστη

εμπιστοσύνη: για

ένα

μεγάλο

σύνολο

αντικειμένων

X και

Y⊂X, έστω

Z=X-Y τότε

αν

στήριξη(X)/στήριξη(Z)>

ελάχιστη

εμπιστοσύνη, ο κανόνας

Z=>Y (δηλαδή

X-Y ⇒ Y) είναι

ένας

έγκυρος

κανόνας

Page 74: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Η

εύρεση

όλων

των

μεγάλων

συνόλων

αντικειμένων

με τις

τιμές

στήριξης

είναι

ένα

δύσκολο

πρόβλημα. Για

βελτίωση

των

αλγορίθμων

για

εύρεση

των

κανόνων συσχέτισης

χρησιμοποιούνται

οι

ιδιότητες:

Ένα

υποσύνολο

ενός

μεγάλου

συνόλου

αντικειμένων πρέπει

να

είναι

επίσης

μεγάλο

(downward closure)

Αντίστροφα, ένα

υπερσύνολο

ενός

μικρού

συνόλου αντικειμένων

είναι

επίσης

μικρό. (antimonotonicity)

Page 75: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Apriori

Αλγόριθμος

για

εύρεση

συχνών

συνόλων Είσοδος: βάση

δεδομένων

από

m δοσοληψίες

D, και

ελάχιστη

στήρξη

mins

(ποσοστό

του

m). Έξοδος: συχνά

σύνολα

L1

, L2

,…Lk

Υπολογισμός

support(ij

)=count(ij

)/m

για

κάθε

αντικείμενο. Το υποσύνολο

των

στοιχείων

ij

με

support(ij

) >mins

αποτελεί

το

L1. k=1

Δημιουργία

των

υποψηφίων

k+1 Ck+1

γίνεται

με

συνδυασμό

των μελών

των

Lk

που

έχουν

k-1 κοινά

στοιχεία. Θεωρούμε

σαν

στοιχεία

του

Ck+1

αυτά

τα

k+1 έτσι

που

κάθε υποσύνολο

μεγέθους

k εμφανίζεται

στο

Lk

. Υπολογίζεται

η στήριξη

αυτών

και

επιλέγονται

μόνο

εκείνα

με

στήριξη

>mins

Αν

το

είναι

Lk+1

είναι

κενό

τοτε

τερματίζεται

διαφορετικά επανάληψη

με

k=k+1.

Page 76: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ο

apriori

αλγόριθμος

Ck

: υποψήφιο

υποσύνολο

αντικειμένων

μεγέθους

k•

Lk

: συχνό

υποσύνολο

αντικειμένων

μεγέθους

k

L1

={συχνά

αντικείμενα}•

for (k=1; Lk

!=∅; k++1} do•

Ck+1 υποψήφια

που

δημιουργήθηκαν

από

το

Lk

για

κάθε

δοσοληψία

t στη

βάση

δεδομένων

αύξησε

τον

μετρητή όλων

των

υποψήφιων

στο

Ck+1

που

περιέχονται

στο

t•

Lk+1

: τα

υποψήφια

του

Ck+1

∪k

Lk

;

Page 77: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Προβλήματα

Πολλαπλά

περάσματα

της

βάσης

δεδομένων δοσοληψιών

Τεράστιος

Αριθμός

υποψηφίων•

Τεράστιος

όγκος

εργασίας

για

καταμέτρηση

των

υποψηφίων

Page 78: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Βελτίωση

του

apriori

Ελάττωση

του

πλήθους

των

περασμάτων

της

βάσης

δεδομένων των

δοσοληψιών

Συρρίκνωση

του

πλήθους

των

υποψηφίων•

Διευκόλυνση

στο

μέτρημα

των

υποψηφίων.

Page 79: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ελαχιστοποίηση

του

πλήθους

των

περασμάτων

ABCD

ABC ACDABD BCD

AB AC BC AD BD CD

A A B C D

{}

Μόλις

τα

A και

D βγουν

συχνά μπορεί

να

αρχίσει

το

AD

Μόλις

βγουν

όλα

τα

υποσύνολα

2 του

BCD

μπορεί

να

αρχίσει

το

μέτρημα

του

BCD

Δοσοληψίες

A priori

Page 80: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ακολουθιακά πρότυπα(sequential patterns)

Κάθε δοσοληψία Τ αφορά μία λίστα αντικειμένων (τιμών): Τ(i1, i2,…)

Κάθε ακολουθία C είναι μία λίστα δοσοληψιών: C(Τ1, Τ2, …)

Εύρεση

ακολουθιακών

προτύπων

Ένα ακολουθιακό πρότυπο είναι μία λίστα συνόλων: (s1,s2,….)Κάθε

σύνολο

s

περιέχει

κάποια

αντικείμενα

από

μία

δοσοληψία: s=(ik

, il

, ..)Τα

σύνολα

είναι

διατεταγμένα

μέσα

στη λίστα με βάση τη χρονική διάταξη

των

δοσοληψιών

Εύρεση ακολουθιακών προτύπων με βάση ένα ελάχιστο στήριξης (support) ως προς τις ακολουθίες

Ένα σύνολο ακολουθιών: C1, C2, …

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Κανόνες συσχέτισης(association rules)

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Page 81: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Κάθε πελάτης αντιπροσωπεύεται από μία ακολουθία αγορών

Κάθε αγορά (δοσοληψία) αφορά ένα σύνολο βιβλίων

Εύρεση

ακολουθιακών

προτύπων

Ένα ακολουθιακό πρότυπο είναι:{ («Πόλεμος

και

Ειρήνη»), («Ιστορικά», «Απομνημονεύματα») }

με

ποσοστό

στήριξης

55%

Παράδειγμα: τι

είδους

αγορές

κάνουν

οι

πελάτες

ενός

εκδοτικού

οίκου;

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Ακολουθιακά πρότυπα(sequential patterns)

Κανόνες συσχέτισης(association rules)

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Page 82: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εμπορικές

εφαρμογές

με

στόχο

την

ικανοποίηση

των

πελατώνΈρευνα

στην

ιατρική

Άλλα

παραδείγματα

εφαρμογών:

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Ακολουθιακά πρότυπα(sequential patterns)

Κανόνες συσχέτισης(association rules)

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Page 83: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Τι

σημαίνει

εξόρυξη

ακολουθιακών

προτύπων;

Δοθέντος

ενός

συνόλου

ακολουθιών

να

βρεθεί

το

πήρες

σύνολο

των συχνών

υποακακολουθιών.

Μια

ακολουθιακή βάση Μια

ακολουθία : < (ef) (ab) (df) c b >

Μια

καταχώρηση

μπορεί

να

περιέχει

ένα σύνολο

στοιχείων.

Τα

στοιχεία

δεν

είναι

ταξινομημένα.

<a(bc)dc> είναι

μια

υποακολουθία της

<<a(abc)(ac)d(cf)>

Δοθείσης

μιας

ελάχιστης στήριξης min_sup =2, το <(ab)c> είναι

ένα

ακολουθιακό πρότυπο

SID sequence10 <a(abc)(ac)d(cf)>20 <(ad)c(bc)(ae)>30 <(ef)(ab)(df)cb>40 <eg(af)cbc>

Page 84: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Προβλήματα

με

την

εξόρυξη

ακολουθιακών

προτύπων

Το πλήθος των ακολουθιακών προτύπων που μπορεί να κρύβονται

σε

μια

βάση

δεδομένων

είναι

τεράστιο.

Ένας

αλγόριθμος

εξόρυξης

θα

πρέπει:1)να

βρίσκει

όλα τα

ακολουθιακά

πρότυπα

με

ελάχιστη

στήριξη, 2)να

είναι

αποτελεσματικός

(ελάχιστα

περάσματα

της

βάσης δεδομένων)και

3) να

μπορεί

να

ενσωματώνει

περιορισμούς

που

επιβάλλει

ο

χρήστης.

Page 85: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Βασική

ιδιότητα

ακολουθιακών

προτύπων

(apriori)

Αν

μια

ακολουθία

S δεν

είναι

συχνή

τότε

οι υπέρακολουθίες

της

S δεν

είναι

συχνές.

ID Ακολουθία

10 <(bd),c,b,(ac)>

20 <(bf)(ce)b(fg)>

30 <(ah)(bf)abf>

40 <(bc)(ce)d>

50 <a(bd)bcb(ade)>

Αν

το

<hb> δεν

είναι

συχνό

τότε δεν

είναι

και

τα

<hab> και

<(ah)b>. Υποθέτοντας

ελάχιστη

στήριξη

2

Page 86: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Βασικός

Αλγόριθμος

με

προτεραιότητα

πλάτους

(Breadth First)

L=1(while resultL

!=null)Δημιουργία

των

υποψήφιων

Περικοπή

(prune)ΈλεγχοςL=L+1

Page 87: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εύρεση

ακολουθιακών

προτύπων

μήκους

1

Αρχικοί

υποψήφιοι: όλες

οι

ακολουθίες μήκους

1

<a>, <b>, <c>, <d>, <e>, <f>, <g>, <h>

Σάρωση

της

βάσης

δεδομένων

μια

φορά, υπολογισμός

της

στήριξης

για

τα

υποψήφια

<a(bd)bcb(ade)>50<(be)(ce)d>40

<(ah)(bf)abf>30<(bf)(ce)b(fg)>20<(bd)cb(ac)>10ΑκολουθίαSeq. ID

min_sup =2

Υποψ Στηρ<a> 3<b> 5<c> 4<d> 3<e> 3<f> 2<g> 1<h> 1

Page 88: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

ID Ακολουθία

10 <(bd),c,b,(ac)>

20 <(bf)(ce)b(fg)>

30 <(ah)(bf)abf>

40 <(bc)(ce)d>

50 <a(bd)bcb(ade)>

<a> <b> <c> <d> <e> <f> <g> <h>

<aa> <ab>…<af>

<ba> <bb>…<ff> <(ab)>…<(ef)>

<abb> <aab> <aba> <baa> <bab>…

<abba>

<(bd)bc>…

<(bd)cba>

Πέρασμα

1 υποψ. 8 μένουν

6

Δεν

ξεπερνούν το

κατώφλι

Δεν

βρίσκονται στην

βάση

Πέρασμα

2 υποψ. 51 μεγέθους

2 19 10 δεν

είναι

στη

βάση

Πέρασμα

3 υποψ. 46 μεγέθους

3 19 20 δεν

είναι

στη

βάση

Page 89: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Δημιουργία

υποψηφίων

μήκους-2

<a> <b> <c> <d> <e> <f>

<a> <aa> <ab> <ac> <ad> <ae> <af>

<b> <ba> <bb> <bc> <bd> <be> <bf>

<c> <ca> <cb> <cc> <cd> <ce> <cf>

<d> <da> <db> <dc> <dd> <de> <df>

<e> <ea> <eb> <ec> <ed> <ee> <ef>

<f> <fa> <fb> <fc> <fd> <fe> <ff>

<a> <b> <c> <d> <e> <f>

<a> <(ab)> <(ac)> <(ad)> <(ae)> <(af)>

<b> <(bc)> <(bd)> <(be)> <(bf)>

<c> <(cd)> <(ce)> <(cf)>

<d> <(de)> <(df)>

<e> <(ef)>

<f>

51 υποψήφια μεγέθους-2

Χωρίς

την

Apriori ιδιότητα,8*8+8*7/2=92 υποψήφιαΟ

Apriori

περικόπτει

44.57% υποψήφια

Page 90: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ανάπτυξη

Προτύπου

(prefixSpan)

Προθεματική

(Prefix)

και

μεταθεματική

(Suffix)

προνολές–

τα

<a>, <aa>, <a(ab)> and <a(abc)> είναι

prefixes

της

ακολουθίας

<a(abc)(ac)d(cf)>–

Όταν

δίδεται

η

ακολουθία

<a(abc)(ac)d(cf)>

Prefix Suffix

(με

βάση

την

Prefix προβολή)

<a> <(abc)(ac)d(cf)><aa> <(_bc)(ac)d(cf)><ab> <(_c)(ac)d(cf)>

Page 91: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Παράδειγμα

Sequence_id Sequence

10 <a(abc)(ac)d(cf)>20 <(ad)c(bc)(ae)>30 <(ef)(ab)(df)cb>40 <eg(af)cbc>

Παράδειγμα

( min_sup=2):

Prefix Sequential Patterns

<a> <a>,<aa>,<ab><a(bc)>,<a(bc)a>,<aba>,<abc>,<(ab)>,<(ab)c>,<(a b)d>,<(ab)f>,<(ab)dc>,<ac>,<aca>,<acb>,<acc>,<ad>,<adc>,<af>

<b> <b>, <ba>, <bc>, <(bc)>, <(bc)a>, <bd>, <bdc>,<bf><c> <c>, <ca>, <cb>, <cc><d> <d>,<db>,<dc>, <dcb><e> <e>,<ea>,<eab>,<eac>,<eacb>,<eb>,<ebc>,<ec>,<ecb>,<ef>,<efb

>,<efc>,<efcb><f> <f>,<fb>,<fbc>, <fc>, <fcb>

Page 92: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

PrefixSpan

Βήμα

1: Εύρεση

των

ακολουθιακών

προτύπων

μήκους

1

<a>:4, <b>:4, <c>:4, <d>:3, <e>:3, <f>:3

πρότυποστήριξη

Βήμα

2: Διαχωρισμός

του

χώρου

αναζήτησης

έξη

υποσύνολα

σύμφωνα

με

τα

έξη

προθέματα;

Βήμα

3: Βρες

τα

υποσύνολα

των

ακολουθιακών

προτύπων;

Κατασκευή

των

αντίστοιχων

προβολών

της

βάσης

και αναδρομική

εξόρυξη

κάθεμιας.

Page 93: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Παράδειγμα

Prefix Projected(suffix) databases Sequential Patterns

<a> <(abc)(ac)d(cf)>,<(_d)c(bc)(ae)>,

<(_b)(df)cb>,<(_f)cbc>

<a>,<aa>,<ab><a(bc)>,<a(bc)a>, <aba>,<abc>,<(ab)>,<(ab)c>,<(ab )d>,<(ab)f>,<(ab)dc>,<ac>,<aca> ,<acb>,<acc>,<ad>,<adc>,<af>

Sequence_id Sequence Projected(suffix) databases

10 <a(abc)(ac)d(cf)> <a(abc)(ac)d(cf)>20 <(ad)c(bc)(ae)> <(ad)c(bc)(ae)>30 <(ef)(ab)(df)cb> <(ef)(ab)(df)cb>40 <eg(af)cbc> <eg(af)cbc>

Page 94: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Παράδειγμα

Εύρεση

των

ακολουθιακών

προτύπων

με

πρόθεμα

<a>:1.

Σάρωση

της

βάσης

S. Προβάλλονται

οι

ακολουθίες

στην

S

που

περιέχουν

<a> για να σχηματισθεί η <a>-προβολή.

2.

Σάρωση

της

<a>-προβολής

δίνει

6

ακολουθιακά

πρότυπα μήκους-2 με

πρόθεμα

το

<a> :

<a>:2 , <b>:4, <(_b)>:2, <c>:4, <d>:2, <f>:2

<aa>:2 , <ab>:4, <(ab)>:2, <ac>:4, <ad>:2, <af>:2

3.

Αναδρομικά, μπορούν

να

διαμερισθούν

τα

ακολουθιακά πρότυπα

με

πρόθεμα

το

<a> σε

6 υποσύνολα.

Κατασκευάζονται

οι

αντίστοιχες

προβολέςκαι

γίνεται

εξόρυξη στην

κάθεμια.

δηλ.

η

<aa>-προβολή

έχει

δύο

ακολουθίες

:

<(_bc)(ac)d(cf)> και

<(_e)>.

Page 95: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ομαδοποίηση χρονικών ακολουθιών(time-series clustering)

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Ακολουθιακά πρότυπα(sequential patterns)

Κανόνες συσχέτισης(association rules)

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Βάση

Δεδομένων

Μία βάση χρονικών ακολουθιών

Ομαδοποίηση

χρονικών

ακολουθιών

Εύρεση

παρόμοιων

ακολουθιών

ή ακολουθιών

που

μοιάζουν

με

μία

δοσμένη

t

Page 96: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Ομαδοποίηση χρονικών ακολουθιών(time-series clustering)

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Ακολουθιακά πρότυπα(sequential patterns)

Κανόνες συσχέτισης(association rules)

Ομαδοποίηση(Clustering)

Κατηγοριοποίηση(classification)

Εύρεση

προμηθειών

με

παρόμοιες

κινήσειςΠαρακολούθηση

πορείας

ανταγωνιστών

Παραδείγματα

εφαρμογών:

Page 97: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Οι

βασικές

δομές

πολλών

βιολογιών

(μικρο)μορίων είναι

ακολουθίες

“γραμμάτων”

παρά

την

3D δομή

τους.–

Η πρωτεΐνη

έχει 20 αμινοξέα.

Το

DNA έχει

ένα

αλφάβητο

από

4 βάσεις

{A, T, G, C}–

Το

RNA έχει

ένα

αλφάβητο

{A, U, G, C}

Κείμενα•

Ημερολόγια

δοσοληψιών

Ακολουθίες

σημάτων•

Δομικές

ομοιότητες

σε

επίπεδο

ακολουθίας

συχνά

δείχνουν

ψηλή

μεγάλη

πιθανότητα

να

σχετίζονται λειτουργικά/σημασιολογικά.

Page 98: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Περιγραφή

του

Προβλήματος

Η

ομαδοποίηση

που

βασίζεται

σε

δομικά χαρακτηριστικά

μπορεί

να

αποτελέσει

ισχυρό

εργαλείο

για

διαχωρισμό

ακολουθιών

σε διαφορετικές

λειτουργικές

κατηγορίες.

Ο

στόχος

είναι

να

δημιουργηθεί

μια

ομαδοποίηση ακολουθιών

ώστε

οι

ακολουθίες

σε

κάθε

ομάδα

να

έχουν

κοινά

χαρακτηριστικά.–

Το

αποτέλεσμα

μπορεί

να

αποκαλύψει

άγνωστες

δομικές

και

λειτουργικές

κατηγορίες

που

μπορεί

να οδηγήσουν

σε

καλύτερη

κατανόηση

του

χώρου.

Πρόκληση: πως

μετριέται

η

δομική

ομοιότητα?

Page 99: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Μέτρα

Ομοιότητας

Απόσταση

στοιχείων: –

Υπολογιστικά

ασύμφορη

είναι

καλή

για

την

βέλτιστη

σειρά

ενώ

αγνοεί

άλλες τοπικές

που

συχνά

αντιπροσωπεύουν

σημαντικά

χαρακτηριστικά

κοινά

σε

ζεύγη

ακολουθιών.•

Προσέγγιση

που

βασίζεται

σε

q-gram :

Αγνοεί

την

ακολουθιακή

συσχέτιση

(π.χ., διάταξη, εξάρτηση, κλπ.) μεταξύ

των

q-grams

Κρυμμένο

μοντέλο

Markov: –

Αντιλαμβάνεται

μερικές

συσχετίσεις

και

στατιστικές

χαμηλής

τάξης–

Ευάλωτο

σε

θόρυβο

και

κακές

τιμές

παραμέτρων

Υπολογιστικά

μη

αποτελεσματικό

Page 100: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

ΕΡΓΑΛΕΙΑ

BusinessMiner (Business Objects)DBMiner(SFU)

IND (Nasa)Intelligent Miner (IBM)

Kepler (GMD)Mineset (SGI)

Brute (Univ. of Washington)

MSBN (Microsoft)

Πρόβλεψη, Κατηγοριοποίηση, Συσχετίσεις

Κατηγοριοποίηση, Πρόβλεψη

Κατηγοριοποίηση, Πρόβλεψη, Συσχετίσεις, Ομαδοποίηση

Κατηγοριοποίηση, Συσχετίσεις

Πρόβλεψη, Συσχετίσεις

Προϊόν Διαδικασία

Page 101: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

ΕΡΓΑΛΕΙΑ

Υλοποίηση

συνδυασμών

διαδικασιών

Off-line επεξεργασία

δεδομένων

Έλλειψη

ολοκλήρωσης

με

την

τεχνολογία

των

βάσεων

Βελτίωση

διασύνδεσης

με

τον

χρήστη

Page 102: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Τομέας

εξελισσόμενος

Ερευνητικό

και

εμπορικό

ενδιαφέρον

Ολοκλήρωση

προσεγγίσεων

από

διαφορετικούς

τομείςΣΥΝΟΨΗ

ΕΡΓΑΛΕΙΑΕΡΓΑΛΕΙΑ

Page 103: Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf · βάσεις δεδομένων (KDD-Knowledge Discovery in Databases). Η διαδικασία

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣΔΙΑΔΙΚΑΣΙΕΣ

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Αναγνώριση

νέων

διαδικασιών

εξόρυξης

ΣΥΝΟΨΗ

ΕΡΓΑΛΕΙΑΕΡΓΑΛΕΙΑΕύρεση

αρχιτεκτονικής

για

την

εξόρυξη

δεδομένων

Προσαρμογή

αλγορίθμων

για

μεγάλες

βάσεις

Ολοκλήρωση

με

συστήματα

βάσεων

δεδομένων

Επέκταση

συστημάτων

βάσεων

δεδομένων

Βελτίωση

εργαλείων

Ανάπτυξη

γλωσσών

εξόρυξης