Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf ·...

Εξόρυξη

Δεδομένων

Κλασσικά

Βιβλία

Αναφοράς

•

Data Mining-Concepts and Techniques-Han and K, Morgan Kaufmann, 2001

•

Principles of Data Mining-Hand, Manila and Smyth. MIT Press, 2001.

•

The Elements of Statistical Learning-Data Mining, Inference and Prediction, Springer, 2001.

Ο

όρος

εξόρυξη

δεδομένων

αναφέρεται

στην

εξόρυξη

ή

την ανακάλυψη

νέων

πληροφοριών

με

την

μορφή

κανόνων

ή

προτύπων

από

πηγές

δεδομένων. Για να είναι πρακτικά χρήσιμες

αυτές

οι

πληροφορίες

πρέπει

να

έχουν

εξαχθεί

από

μεγάλες

βάσεις

δεδομένων

και

αρχεία.

Η

εξόρυξη

δεδομένων

χρησιμοποιεί

τεχνικές

από

την μηχανική

μάθηση, την

στατιστική, τα

νευρωνικά

δίκτυα

κοκ.

Οι

αποθήκες

δεδομένων

μπορούν

να χρησιμοποιηθούν

για

να

υποστηρίξουν

την

εξόρυξη

δεδομένων.

Η

εξόρυξη

δεδομένων

αποτελεί

τμήμα

της

διαδικασίας ανακάλυψης

γνώσης

από

βάσεις

δεδομένων

(KDD-

Knowledge Discovery in Databases).

Η

διαδικασία

αυτή

αποτελείται

από

6 φάσεις: επιλογή δεδομένων, καθαρισμό, εμπλουτισμό, μετατροπή

ή

κωδικοποίηση, εξόρυξη, και

δημιουργία

αναφορών.

Πραγματικότητα

Ανακάλυψη

γνώσης

από

βάσεις

δεδομένων

Απαιτήσεις

για

«έξυπνα

»

εργαλεία

Ανακαλύπτουν νέα γνώση μέσααπό γνωστά δεδομένα

Απαιτούν καμία ή μικρήκαθοδήγηση από τον χρήστη

Χειρίζονται μεγάλους όγκουςδεδομένων

Επιχειρησιακά

δεδομένα

Αποθήκη

δεδομένων

ΕξαγωγήΕξαγωγήΜετασχημ/σμόςΜετασχημ/σμός

Εργαλεία

εξόρυξης

δεδομένων

Data

mart

Data

martΦόρτωση/

Ανανέωση

Φόρτωση/

Ανανέωση

OLAP server

OLAP server

Εργαλεία

επεξεργασίας

δεδομένων

Εργαλεία

πολυδιάστατηςανάλυσης

Εργαλεία

εξόρυξης

δεδομένων

Εξόρυξη

Δεδομένων

(Data Mining)

Ανακάλυψη νέων (κρυμμένων) προτύπων και μοντέλων (patterns, models), κανόνες συσχέτισης, ιεραρχίες κατηγοριοποίησης, ομαδοποίηση

με (ημι-) αυτόματο και αποδοτικό τρόπο

για την περιγραφή των δεδομένων μίας μεγάλης βάσηςκαι την πρόβλεψη και εξήγηση νέων δεδομένων.

OΡΙΣΜΟΣ

Ανακάλυψη

γνώσης

είναι

η


εντοπισμού έγκυρων, εν

δυνάμει

χρήσιμων

και

κατανοητών

πρότυπων

(patterns) σε

δεδομένα.

Δεδομένα

είναι

ένα

σύνολο

F

από

γεγονότα. Πρότυπο

(pattern) είναι

μια

έκφραση

Ε

σε

μια

γλώσσα

L

που

περιγράφει

ένα

υποσύνολο

FE

του

F. Διαδικασία:Συνήθως

πολλών

βημάτων, που

περιλαμβάνει

προετοιμασία

των

δεδομένων, αναζήτηση

προτύπων, και εκλέπτυνση

με

επανάληψη.

Εγκυρότητα:Τα

πρότυπα

που

ανακαλύπτονται

πρέπει

να ισχύουν

και

σε

νέα

δεδομένα

με

κάποιο

βαθμό

εμπιστοσύνης. Χρήσιμες:Τα

πρότυπα

θα

πρέπει

να

οδηγούν

σε

κάποιες

χρήσιμες

δράσεις, που

εκτιμούνται

από

κάποια συνάρτηση.

Κατανοητά:Πρέπει

να

είναι

πρότυπα

κατανοητά

από ανθρώπους.

Στόχοι

της

Εξόρυξης

Δεδομένων

και

Ανακάλυψης Γνώσης

Πρόβλεψη-Η εξόρυξη δεδομένων μπορεί να δείξειτην συμπεριφορά κάποιων γνωρισμάτων τωνδεδομένων στο μέλλονΤαυτοποίηση-Οι μορφές των δεδομένων μπορούννα χρησιμοποιηθούν για να προσδιορισθεί ηύπαρξη ενός προϊόντος, ενός γεγονότος, η μιαςδραστηριότηταςΤαξινόμηση-Η εξόρυξη δεδομένων μπορεί ναδιαμερίσει τα δεδομένα ώστε να μπορούν ναπροσδιορισθούν διαφορετικές κλάσεις ήκατηγορίες με βάση συνδυασμούς παραμέτρων

Στόχοι

της

Εξόρυξης

Δεδομένων

και

Ανακάλυψης Γνώσης

(2)

Βελτιστοποίηση –Ένας ενδεχόμενος στόχος τηςεξόρυξης δεδομένων μπορεί να είναι ηβελτιστοποίηση της χρήσης μέσων όπως ο χρόνος, οχώρος, το χρήμα, ή τα υλικά και η μεγιστοποίηση τωνμεταβλητών εξόδου όπως οι πωλήσεις ή τα κέρδηδοθέντων κάποιων περιορισμών. Σαν τέτοιος, αυτός οστόχος της εξόρυξης δεδομένων προσομοιάζει τηναντικειμενική συνάρτηση που χρησιμοποιείται σταπροβλήματα επιχειρησιακής έρευνας πουαντιμετωπίζει βελτιστοποιήσεις υπό περιορισμούς.

Τύποι

Γνώσης

που

Ανακαλύπτονται

κατά

την

Εξόρυξη Δεδομένων

•

Κανόνες

Συσχέτισης

–Οι

κανόνες

αυτοί

σχετίζουν

την

ύπαρξη

ενός συνόλου

προϊόντων

με

διάστημα

τιμών

ενός

άλλου

συνόλου

μεταβλητών.•

Ιεραρχίες

Ταξινόμησης

–Ο

στόχος

είναι

ξεκινώντας

από

ένα

υπάρχον

σύνολο

γεγονότων

ή

δοσοληψιών

να

δημιουργηθεί

μια ιεραρχία

κλάσεων.

•

Ακολουθιακά

πρότυπα

–Αναζητείται

μια

ακολουθία

ενεργειών

ή γεγονότων.

•

Πρότυπα

σε

χρονοσειρές

–Μπορεί

να

εντοπισθούν

ομοιότητες

στις θέσεις

χρονοσειρών.

•

Κατηγοριοποίηση

και

κατάτμηση

–Ένα

σύνολο

γεγονότων

ή αντικειμένων

μπορεί

να

διαμερισθεί

σε

σύνολα

“παρόμοιων”

στοιχείων.

Χαρακτηριστικά

ενός

Συστήματος

Εξόρυξης

Δεδομένων

•

Διαχείριση

Διαφορετικών

Τύπων

Δεδομένων•

Αποδοτικότητα

των

αλγόριθμων

εξόρυξης

•

Χρησιμότητα, βεβαιότητα

και

εκφραστικότητα

των αποτελεσμάτων

της

εξόρυξης.

•

Παρουσίαση

σε

υψηλό

επίπεδο

των

αιτημάτων

και

των αποτελεσμάτων

από

την


εξόρυξης

•

Διαδραστική

εξόρυξη

γνώσης

σε

διαφορετικά

επίπεδα αφαίρεσης.

•

Εξόρυξη

Πληροφοριών

από

διαφορετικές

πηγές δεδομένων

•

Προστασία

και

ασφάλεια

δεδομένων.

Τρόποι

Ταξινόμησης

των

Τεχνικών

Εξόρυξης

•

Είδη

βάσεων

δεδομένων

με

τις

οποίες

συνεργάζονται (σχεσιακές, αντικειμενοστρεφείς, ετερογενείς, Internet

κλπ).•

Το

είδος

της

γνώσης

που

εξάγουν

(κανόνες

συσχέτισης,

κανόνες

χαρακτηρισμού, κανόνες

ταξινόμησης, )•

Είδος

των

τεχνικών

που

χρησιμοποιούν

(αυτόνομη

εξόρυξη, εξόρυξη

καθοδηγούμενη

από

δεδομένα, εξόρυξη

καθοδηγούμενη

από

επερωτήσεις).

Βάσεις

δεδομένων

ΤΕΧΝΟΛΟΓΙΑ

Στατιστική

ανάλυση Μηχανική

Μάθηση

Ο

ρόλος

του

χώρου

των

Βάσεων

Δεδομένων

Κλιμάκωση και εξέλιξηυπαρχόντων αλγορίθμωνγια χειρισμό μεγάλου όγκου δεδομένων

Δουλειά σε όλες τις διαδικασίες εξόρυξης

Συνολική αντιμετώπιση κοινών προβλημάτωνεπεξεργασίας δεδομένων στους αλγόριθμουςΚατασκευή SQL-aware συστημάτων

εξόρυξης δεδομένων

Εξέλιξη των ΣΔΒΔ για αποδοτικότερηυποστήριξη μεθόδων εξόρυξης δεδομένων

Πχ: ενσωμάτωση data mining primitives

OOΡΙΣΜΟΣΡΙΣΜΟΣ

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣ

Κατηγοριοποίηση(classification)


Εξόρυξη

Δεδομένων

(Data Mining)

ΤΕΧΝΟΛΟΓΙΑΤΕΧΝΟΛΟΓΙΑ


Κάθε οντότητα του πληθυσμού έχει m ιδιότητες: Α1, Α2,… ΑmΈναν πληθυσμό ο οποίος έχει Ν ομάδες: G1, G2, …GΝΈνα δείγμα του πληθυσμού για τις οντότητες του οποίουγνωρίζουμε σε ποια ομάδα ανήκουν

Βάση

Δεδομένων

Ανάπτυξη

προφίλ

για

κάθε

γνωστή

ομάδα

Εύρεση

όλων

(Ν) των

οντοτήτων που

ανήκουν

σε

μία

δοσμένη

ομάδα

Παράδειγμα: ποιοι

πελάτες

είναι

θετικοί

αποδέκτες

σε

διαφημιστικά

φυλλάδια

Οι πελάτες χωρίζονται σε θετικούς αποδέκτες και στους άλλους

Ιδιότητες κάθε πελάτη: Όνομα, ηλικία, επάγγελμα, κλπ

Δεδομένα για πελάτες που απάντησαν σε παλιότερες καμπάνιες


Εξόρυξη

Δεδομένων

(Data Mining)





Προφίλ

θετικών

αποδεκτών:

(Ηλικία>25 και

<55) και

μισθός>240000 και

Περιοχή=Ν.Προάστεια

Εφαρμογή

του

προφίλ

για

εύρεση

όλων

των

πελατών

για

αποστολή

νέου

υλικού

Άλλα

παραδείγματα

εφαρμογών:

- Oργάνωση

διαφημιστικής

καμπάνιας

- Πολιτική

πίστωσης

- Επέκταση

επιχειρησιακών

δραστηριοτήτων

Εξόρυξη

Δεδομένων

(Data Mining)






(Classification)


είναι

η


εκμάθησης

ενός

μοντέλου που

περιγράφει


κλάσεις

δεδομένων. Οι

κλάσεις

έχουν

προκαθορισθεί. Αυτή

η


λέγεται “επιβλεπόμενη

μάθηση”

(supervised learning). Μόλις

δημιουργηθεί, μπορεί

να

χρησιμοποιηθεί

για

ταξινόμηση

νέων δεδομένων. Το

πρώτο

βήμα, επιτυγχάνεται

με

χρήση

ενός

συνόλου

δεδομένων

που

έχουν

ήδη

ταξινομηθεί. Κάθε

εγγραφή στα

δεδομένα

αυτά

περιέχει

ένα

γνώρισμα, που

ονομάζεται

γνώρισμα

κλάσης

που

δείχνει

σε

ποια

κλάση

ανήκει

η

εγγραφή. Το

μοντέλο

που

παράγεται

συνήθως

έχει

την

μορφή

δένδρου

αποφάσεων

ή

συνόλου

κανόνων.Το

μοντέλο

θέλουμε

να

προβλέπει

την

σωστή

κλάση

στην

οποία

ανήκουν

νέα

δεδομένα.

Διαδικασία

δύο

βημάτων

•

Δημιουργία

του

μοντέλου:περιγράφει

προκαθορισμένες

κλάσεις. –

Θεωρούμε

ότι

κάθε

πλειάδα

ανήκει

σε

μια

προκαθορισμένη

κλάση

–

Το

σύνολο

των

πλειάδων

που

χρησιμοποιούνται

για

την

δημιουργία του

μοντέλου

αποτελεί

το

σύνολο

εκγύμνασης

–

Το

μοντέλο

παριστάνεται

σαν

κανόνες, δένδρο

αποφάσεων

ή μαθηματικός

τύπος

•

Χρήση

του

μοντέλου

για


μελλοντικών

ή

άγνωστων δεδομένων

–

Εκτίμηση

της

ακρίβειας

του

μοντέλου•

Συγκρίνεται

η

γνωστή

κλάση

δείγματος

ελέγχου

με

αυτή

που

προκύπτει

από το μοντέλο•

Ακρίβεια

είναι

το

ποσοστό

του

δείγματος

ελέγχου

που

ταξινομείται

σωστά

από

το

μοντέλο•

Το

σύνολο

ελέγχου

είναι

ανεξάρτητο

από

αυτό

της

εκμάθησης.•

Αν

η

ακρίβεια

είναι

αποδεκτή

χρησιμοποιείται

για


άγνωστων

δεδομένων

Όνομα Βαθμίδα ΧρΠρουπ Μόνμος

Κώστας Προϊστάμενος 3 ΟΧΙ

Πέτρος Προϊστάμενος 7 ΝΑΙ

Άννα Διευθυντής 2 ΝΑΙ

Ηλίας Τμηματάρχης 7 ΝΑΙ

Ελένη Προϊστάμενος 6 ΟΧΙ

Πάνος Τμηματάρχης 3 ΟΧΙ

ΔεδομέναΕκμάθησης

Αλγόριθμοι

Κατηγοριοποίησης

Μοντέλο

If Διευθυντής

or ΧρΠρουπ>6 then

Μόνιμος=ΝΑΙ

Μοντέλο

Δεδομένα Ελέγχου

Άγνωστα Δεδομένα

Υπάρχουν

πολλά

μοντέλα

κατηγοριοποίησης

•

Ταξινόμηση

με

δένδρα

αποφάσεων•


Bayes

•

Νευρωνικά

δίκτυα•

Support Vector Machines (SVM)

•

Ταξινομήσεις

που

βασίζονται

σε

συσχετίσεις•

Άλλες

μέθοδοι

(KNN, Boosting, Bagging κλπ)

Αποτίμηση

των

Μεθόδων


•

Προβλεπόμενη

Ακρίβεια•

Ταχύτητα

και

κλιμάκωση

–

Χρόνος

Δημιουργίας

του

μοντέλου–

Χρόνος

Χρήσης

•

Σταθερότητα–

Διαχείριση

θορύβου

και

χαμένων

τιμών

•

Δυνατότητα

ερμηνείας–

Κατανόηση

της

δομής

του

μοντέλου

•

Ποιότητα

των

κανόνων–

Μέγεθος

του

δένδρου

αποφάσεων

–

Πληρότητα

των

κανόνων

Καθορισμός

ενός

μετρικού

χώρου

και

υπολογισμός

των


ανήκουν

σε

μία

ομάδα

με

μέτρο

την

εγγύτητα:

πχ: k-nearest neighbor

Προβολή

του

χώρου

σε

περιοχές

αποφάσεων:πχ: δέντρα

αποφάσεων, νευρωνικά

δίκτυα

Προσεγγίσεις

κατηγοριοποίησης:

Εξόρυξη

Δεδομένων

(Data Mining)





Προτάσεις

από

τον

χώρο

των

βάσεων

για

κλιμακούμενους

αλγορίθμους:SPRINT

Όνομα Βαθμίδα ΧρΠρουπ Μόνμος

Κώστας Προϊστάμενος 3 ΟΧΙ

Πέτρος Προϊστάμενος 7 ΝΑΙ

Άννα Διευθυντής 2 ΝΑΙ

Ηλίας Τμηματάρχης 7 ΝΑΙ

Ελένη Προϊστάμενος 6 ΟΧΙ

Πάνος Τμηματάρχης 3 ΟΧΙ

ΔεδομέναΕκμάθησης



Μοντέλο

If Διευθυντής

or ΧρΠρουπ>6 then

Μόνιμος=ΝΑΙ

Αλγόριθμος

για

την

επαγωγή

δένδρου

αποφάσεων

•

Βασικός


(Άπληστος)–

Το

δένδρο

κατασκευάζεται

με

αναδρομικό

top-down διαίρει

και

βασίλευε

τρόπο–

Στην αρχή όλα τα παραδείγματα στη ρίζα

–

Κατηγορικά

Γνωρίσματα

(αν

είναι

συνεχή

γίνονται

διακριτά–

Διαμερίζονται

με

βάση

επιλεγμένα

γνωρίσματα

–

Τα


επιλέγονται

ευριστικά

ή

με

στατιστικά

μέτρα

(πληροφοριακό κέρδος)

•

Συνθήκες

Τερματισμού

των

διαμερίσεων–

Όλα

τα

δείγματα

ενός

κόμβου

ανήκουν

στην

ίδια

κλάση

–

Δεν

υπάρχουν


για

περαιτέρω

διαμέριση

(για

την


του κόμβου

χρησιμοποιείται

πλειοψηφία

ψήφων)

–

Τελειώνει

το

δείγμα


Decision

Tree

Induction

Είσοδος: Σύνολο

εγγραφών

εκπαίδευσης

R1

,R2

,…Rm

και

ένα

σύνολο γνωρισμάτων

A1

,A2

,…An

.Έξοδος:Δένδρο

Αποφάσεων

Procedure Build_tree(records, Attributes);begincreate a node N;If all Records belong to the same class, C then return N as a leaf node with

class label C;If Attributes is empty then return N as a leaf node with class label C, such that

the majority of Records belong to it;Select attribute Ai

(with the highest information gain) from Attributes;Label node N with Ai

;


Decision

Tree

Induction (Συν.)

for each known value, Vj

of Ai

dobeginAdd a branch from node N for the condition Ai

=Vj

;Sj

=subset of records where Ai

=Vj

;If Sj

is empty then add a leaf, L, with class label C, such that the majority of Records

belong to it Return Lelse add the node returned by Build_tree(Sj

,Attributes-Ai

);end;

end;

Τι

σημαίνει

πληροφοριακό

κέρδος

(Information Gain);

∑=

=n

1ii2in21 plogp-),...SS,I(S

Σαν

μέτρο

του

πληροφοριακού

κέρδους

χρησιμοποιούμε

την εντροπία.

Οι

αναμενόμενες

πληροφορίες

για

την


δεδομένων εκμάθησης

από

δείγματα, όταν

το

γνώρισμα

κλάσης

έχει

n τιμές

(v1

,v2

,…,vn

) και

Si

είναι

το

πλήθος

των

δειγμάτων

που

ανήκουν στην

κλάση

με

ετικέτα

vi

δίδεται

από

τον

τύπο:

Όπου

pi

είναι

η

πιθανότητα

ένα

τυχαίο

δείγμα

να

ανήκει

στην κλάση

vi

. Μια

εκτίμηση

της

τιμής

pi

είναι

si

/s.

Το

γνώρισμα

Α

με

τιμές

{v1

,…,vm

} διαμερίζει

το

δείγμα

σε υποσύνολα

S1

,S2

,…Sm

όπου

όσα

ανήκουν

στο

Si

έχουν

μια

τιμή του

vi

του

Α. Κάθε

Si

μπορεί

να

περιέχει

δείγματα

που

ανήκουν

σε οποιαδήποτε

κλάση. Το

πλήθος

των

Si

ανήκουν

στην

κλάση

j συμβολίζεται

σαν

sij

. Η

εντροπία

σε

σχέση

με

χρήση

του γνωρίσματος

Α

σαν

γνωρίσματος

ελέγχου

ορίζεται:

Το

κέρδος

ορίζεται

σαν

Gain(A)=I(s1

,…sn

)-E(A)

),...,(*...)( 21

1

1jnjj

n

j

jnj SSSISSSAE ∑

=

+=

Το

I(sj1

,…sjn

) μπορεί

να

ορισθεί

χρησιμοποιώντας

τον

τύπο

για

το I(s1

,…sn

) αντικαθιστώντας

το

pi

με

το

pji

όπου

pji

=sji

/s.

Εγγαμος Μισθος Υπ_Λογ Ηλικία Μπορεί

Δαν

οχι >=50Κ <5Κ >=25 ναι

ναι >=50Κ >=5Κ >=25 ναι

ναι 20Κ…50Κ <5Κ <25 οχι

οχι <20Κ >=5Κ <265 οχι

οχι <20Κ <5Κ >=25 οχι

ναι 20Κ…50Κ >=5Κ >=25 ναι

I(3,3)=-0.5log2

0.5-0.5log2

0.5=1Έγγαμος=ναι

s11

=2, s21

=1 I(s11

,s12

)=0.92

Έγγαμος=οχι

s12

=1, s22

=2

I(s12

,s22

)=0.92

Επομένως

E(Εγγαμος)=3/6 I(s11

,s12

)+3/6 I(s12

,s22

)=0.92

Και

κέρδος

1-0.92=0.08

Όμοια Ε(Μισθος)=0.33 και

Gain(Μισθος)=0.67

E(ΥπΛογ)=0.82 και

Gain(ΥπΛογ)=0.18 Ε(Ηλικια)=0.81 και

Gain(Ηλικια)=0.19

ΕΓΓΑΜΟΣ

ΜΙΣΘΟΣ ΥΠΟΛ_ΛΟΓ

ΗΛΙΚΙΑ

ναι οχι

<20Κ>=20Κ<50Κ

>=50Κ <5Κ >=5Κ

<25 >=25

Χαμηλού

ρίσκου

Χαμηλού

ρίσκου

Μεσαίου

ρίσκου

Μεγάλου

ρίσκουΥψηλού

ρίσκου

Υψηλού

ρίσκου

Ομαδοποίηση(Clustering)

Εξόρυξη

Δεδομένων

(Data Mining)





Ομαδοποίηση

Βάση

Δεδομένων

Κάθε οντότητα του πληθυσμού έχει m ιδιότητες: Α1, Α2,… Αm

Έναν πληθυσμό

Διαχωρισμός

του

πληθυσμού

σε

ομάδες

Για

κάθε

ομάδα

, εύρεση

του

προφίλ

των


ανήκουν

σε

αυτή

Παράδειγμα: μία

βάση

με

δημογραφικά

στοιχεία

Εξόρυξη

Δεδομένων

(Data Mining)






Κάθε οντότητα έχει ιδιότητες: ηλικία, οικονομική κατάσταση, περιοχή, μόρφωση …


Διαχωρισμός

του

πληθυσμού

σε

επίπεδα

μόρφωσης

Με

βάση

την

ηλικία

και

την

οικονομικά

κατάσταση

Ομάδα

1

Ομάδα

2

Μεμονωμένα

σημεία

(outliers)


τα

παρόμοια

στην

ίδια

ομάδα

Τα

σημεία

που

είναι

σε

ομάδα

πρέπει

•

Στην

ίδια

ομάδα

αυτά

που

μοιάζουν•

Τα

διαφορετικά

σε


ομάδες

•

Οι

ομάδες

δεν

είναι

προκαθορισμένες

(μη

επιβλεπόμενη εκμάθηση)

Απαιτήσεις

για

τις

Ομάδες

•


αντιμετώπισης

διαφορετικών

τύπων

γνωρισμάτων•

Ανακάλυψη

συστάδων

οποιουδήποτε

σχήματος

•

Αντιμετώπιση

θορύβου

στα

δεδομένα•

Πολλές

διαστάσεις

•

Ευστάθεια

σε

σχέση

με

το

μέγεθος

των

δεδομένων•

Ενσωμάτωση

περιορισμών

που

εισάγει

ο

χρήστης

•


ανακάλυψης

όλων

των

κρυμμένων

προτύπων.

Εξερεύνηση

δεδομένωνTargeted Marketing Ταξινόμηση

Εγγράφων


ακολουθιών

γονιδιώματος

Άλλα


εφαρμογών:

Εξόρυξη

Δεδομένων

(Data Mining)






1.

Distance-based: k-means, HAC (Hierarchical Agglomerative Clustering)

Προσεγγίσεις

ομαδοποίησης:

Εξόρυξη

Δεδομένων

(Data Mining)






2.

Model-based: Expectation-Maximization(EM)

3.

Partition-based:

Προτάσεις

από

τον

χώρο

των

βάσεων

για

κλιμακούμενους

αλγορίθμους:DBSCAN, CLARANS

4.

Ιεραρχικές

Μέθοδοι

Για

δεδομένα

που

χωράνε

στη

μνήμη

⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

npnjn

pj

pj

xxx

xxx

xxx

......

...

......

......

1

2221

1111

Λέγεται

και

object-by variable δομή

Πίνακας

δεδομένων

n αντικείμενα

με

p μεταβλητές

Πίνακας

διαφορετικότητας

(dissimilarity matrix)

•

Προσέγγιση

αντικειμένων•

dij

μη

ομοιότητα

αντικειμένων•

Μη

αρνητική

•

Είναι

κοντά

όσο

πλησιάζει

το

0

⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

0 d ...d d......

0... d d0... d

0...

1-nn,n2n1

3231

21

Θέλουμε

μεγάλη

ομοιότητα

(ανάλογα

με

κάποιο

μέτρο ομοιότητας) εντός

των

κλάσεων

και

μικρή

μεταξύ

των

κλάσεων. (Συνήθως

οι

ομάδες

είναι

ξένες

μεταξύ

τους).

Ένα

χαρακτηριστικό

στοιχείο

είναι

η

συνάρτηση

ομοιότητας που

χρησιμοποιείται. Όταν

τα

δεδομένα

είναι

αριθμητικά

μπορεί

να

χρησιμοποιηθεί

μια

συνάρτηση

που

βασίζεται

στην απόσταση.

Συνάρτηση

Ομοιότητας

Ευκλείδεια

Απόσταση

2222

211 ||...||||);( knjnkjkjkj rrrrrrrrό −++−+−=στασηαπ

Όσο

μικρότερη

είναι

η

απόσταση

τόσο

μεγαλώνει

η

ομοιότητα.

Ένας

κλασσικός

αλγόριθμος

είναι

αυτός

των

k μέσων

(k means)

Γενικευμένη

απόσταση

είναι

η

απόσταση

Minkowski

q qjnin

qj2i2

qj1i1 |x-x|...|x-x||x-x|j)d(i, +++=

Η οποία για q=2 είναι

η

Ευκλείδεια

ενώ

για

q=1 είναι

η

Manhattan απόσταση

q qjnin

qj2i22

qj1i11 |x-x|...|x-x||x-x|wj)d(i, nww +++=

Απόσταση

με

βάρη:

Ιδιότητες

της

απόστασης

Minkowski

•

Μη

αρνητική

d(i,j)≥0•

d(i,i)=0

•

Συμμετρική: d(i,j)=d(j,i)•

Τριγωνική

ανισότητα: d(i,j)≤d(i,k)+d(k,j)

Κατηγορίες

αλγορίθμων

για


συστάδων

•


διαμέρισης: Διαμερίζονται

τα

αντικείμενα

σε

k συστάδες. Με

επανάληψη

επανατοποθετούνται

τα


ώστε

να

δημιουργηθούν

καλλίτερες

συστάδες.•

Ιεραρχικοί

αλγόριθμοι: Δύο

προσεγγίσεις

1)κάθε

αντικείμενο

είναι

μια

κλάση

και

γίνεται

συνένωση

των

κλάσεων

για

δημιουργία μεγαλυτέρων

ή

2)όλα

τα


θεωρούνται

μια

κλάση

και

διασπώνται

σε

μικρότερες.•

Μέθοδοι

που


στην

πυκνότητα:συναρτήσεις

πυκνότητας

•

Μέθοδοι

που


σε

πλέγματα:ποσοτικοποιείται

ο

χώρος των

αντικειμένων

σε

μια

δομή

πλέγματος

•

Με

βάση

μοντέλο:χρησιμοποίηση

ενός

μοντέλου

για

να

βρεθεί

η καλλίτερη

προσέγγιση

των

δεδομένων


διαμέρισης

•

Διαμερίζονται

τα

k αντικείμενα

σε

k συστάδες

με

βελτιστοποίηση του

κριτηρίου

που

επιλέγεται

για

την

διαμέριση.

•

Για να βρεθεί το καθολικό βέλτιστο πρέπει να εξετασθούν όλες οι διαμερίσεις, οι

πιθανές

διαμερίσεις

είναι

kn-(k-1)n-…-1 που

είναι

πάρα

πολλές.•

Ευριστικές

μέθοδοι: K-means δηλαδή

μια

συστάδα

παριστάνεται

με

το

κέντρο

της

ή

k metoids

δηλαδή

κάθε

συστάδα

παριστάνεται από ένα αντικείμενο της

Σκιαγράφηση

του

k means

•

Αυθαίρετη

επιλογή

k αντικειμένων

σαν

τα

αρχικά

κέντρα

των συστάδων.

•

Μεταφορά

ενός

αντικειμένου

στη

συστάδα

που

το

προσεγγίζει περισσότερο

με

βάση

την

μέση

τιμή

των


στη

συστάδα. Ενημέρωση

των

μέσων

τιμών

των

συστάδων.

K means αλγόριθμος

Είσοδος: μια

βάση

δεδομένων

D με

m εγγραφές

r1

,r2

,…rm

και

ένα επιθυμητό

πλήθος

συστάδων

k

Έξοδος:ένα

σύνολο

από

k ομάδες

που

ελαχιστοποιούν

το

κριτήριο

του τετραγωνικού

λάθους

begin

Τυχαία

επιλογή

των

k εγγραφών

σαν

κέντρων

των

k συστάδωνRepeatΚάθε

εγγραφή

ri

τοποθετείται

σε

μια

συστάδα

έτσι

που

η

απόσταση μεταξύ

της

ri

και

του

κέντρου

της

συστάδας

να

είναι

η

μικρότερη

από τις

k συστάδες

Υπολογίζεται

ξανά

το

κέντρο

για

κάθε

συστάδα

με

βάση

τις

εγγραφές που

περιέχει

Μέχρι

να

μην

υπάρχει

αλλαγήend;

Η

συνθήκη

τερματισμού

συνήθως

είναι

το

κριτήριο

του τετραγωνικού

λάθους. Για

τις

συστάδες

C1

,C2

,…,Ck

με

μέσους m1

,m2

,…,mk

το

λάθος

ορίζεται:

∑ ∑= ∈∀

=k

1i

2

Crij

ij

)m,απόσταση(rΛάθος

Ο

μέσος

για

μια

ομάδα, Ci

, με

n εγγραφές

m διαστάσεων

είναι

το διάνυσμα:

⎟⎟⎠

⎞⎜⎜⎝

⎛= ∑∑

∈∀∈∀ ijij Crjm

Crjii r

nr

nC 1...,1

ID Ηλικια Προυπηρεσία

1 30 5

2 50 25

3 50 15

4 25 55 30 10

6 55 25

Έστω

ότι

θέλουμε

2 συστάδες και

ας

υποθέσουμε

ότι

ξεκινάμε

με

το

3 (C1

)

και

το

6 (C2

) για

κέντρα.Το

1 απέχει

22.4 από

το

C1

και 32.0 από

το

C2

. Επομένως

πάει στο

C1

. Το

2 απέχει

10.0 και

5.0 αντίστοιχα

και

επομένως

πάει

στο

C2

Όμοια

το

4 απέχει

25.5 από

το

C1

και

36.6 από

το

C2

και

επομένως

πάει στο

C1

. Τέλος

το

5 απέχει

20.6 από

το

C1

και

29.2 από

το

C2

και επομένως

πάει

στο

C1

.

Πλεονεκτήματα

και

Μειονεκτήματα

του

k means

•

Έχει

σχετικά

καλή

απόδοση

Ο(tkn) (n αντικείμενα, k ομάδες

και

t επαναλήψεις

k,t <<n.

•

Συνήθως βρίσκει ένα τοπικό βέλτιστο.•

Μπορεί

να

εφαρμοσθεί

μόνο

όταν

ορίζεται

ο

μέσος

(τι

γίνεται

όταν

έχουμε

κατηγορικά

δεδομένα).•

Πρέπει

να

ορισθεί

το

πλήθος

των

ομάδων

•

Δεν

αντιμετωπίζει

δεδομένα

με

θόρυβο•

Δεν

βρίσκει

μη

κυρτές

ομάδες.

Υπολογισμός

των

κέντρων

(όταν

οι

οντότητες

i∈I εμφανίζονται

σαν

γραμμές

yi

∈

Rn)

•

Το

κέντρο

βάρους

y(S)=Σi ∈S

yi

/|S|•

Οι

συντελεστές

της

εξίσωσης

γραμμικής

παλινδρόμησης

μιας

μεταβλητής

σε

σχέση

με

τις

άλλες

(στο

S)


των

κέντρων

(όταν

τα

δεδομένα

παριστάνονται με

τον

πίνακα

ανομοιότητας

)

•

Μια

οντότητα

i∈I

που

ελαχιστοποιεί

την

συνολική ανομοιότητα

d(i, S)=Σj∈S

dij

/|S| ή

d(i,S)=max j∈S

dij

ή d(i,S)=min j∈S

dij

Παραλλαγές

του

k means

•


σε–

Επιλογή

των

αρχικών

K

–

Υπολογισμοί

σε

διαφορά–

Στρατηγικές

στον

υπολογισμό

του

μέσου

των

συστάδων

•

Κατηγορικά

δεδομένα–

Χρήση

mode αντί

για

mean (το

πιο

συχνό)

–

Ανάμειξη

κατηγορικών

και

αριθμητικών

δεδομένων


του

k means

•


στην

επιλογή

των

αρχικών

k μέσων•

Στη

στρατηγική

υπολογισμού

του

μέσου

της

συστάδας.

•

Για

αντιμετώπιση

κατηγορικών

δεδομένων.


Μέθοδοι

•

AGNES Αρχικά

κάθε

αντικείμενο

είναι

μια

ομάδα. Βήμα- βήμα

συγχωνεύονται

οι

ομάδες

•

DIANA (Divisive Analysis) Αρχικά

όλα

τα

αντικείμενα είναι

μια

ομάδα. Βήμα-βήμα

διασπώνται

οι

ομάδες


Μέθοδοι

•

Δύσκολο

να

βρεθούν

τα

σημεία

διάσπασης/συγχώνευσης•

Δεν

έχουν

καλή

απόδοση

Ο(n2)

•

Ενοποίηση

ιεραρχικών

με

άλλες

τεχνικές

Βάση

Δεδομένων

Κανόνες συσχέτισης(association rules)

Κάθε δοσοληψία αφορά μία λίστα αντικειμένων (τιμών)

Μία βάση δοσοληψιών: Τ1, Τ2, …

Εύρεση

συσχετίσεων

Εύρεση


μεταξύ


μίας

δοσοληψίας

Εξόρυξη

Δεδομένων

(Data Mining)






X Y

Εμπιστοσύνη (confidence) c: Στις c% των περιπτώσεων που υπάρχει το Χ τότε υπάρχει και το Υ

Στήριξη (support) s : Ο κανόνας υποστηρίζεται από το s% των συνολικών δοσοληψιών

Εξόρυξη

Δεδομένων

(Data Mining)







Εύρεση


με

βάση:

Μία βάση δοσοληψιών: Τ1, Τ2, …

Κάθε δοσοληψία αφορά ένα καλάθι αγαθών

Εύρεση


Παράδειγμα: ποια

προϊόντα

αγοράζουν

μαζί

οι

πελάτες ενός

καταστήματος

(>60%)

Εξόρυξη

Δεδομένων

(Data Mining)







Ψωμί Βούτυρο (70%)

Σχεδιασμός

των

προμηθειών

ενός

σούπερ

μάρκετ

Σχεδιασμός

καταλόγου

Οργάνωση

καταστήματος

Άλλα


εφαρμογών:

Εξόρυξη

Δεδομένων

(Data Mining)







Apriori

Αλγόριθμοι:

Βασική

ιδέα: Διάσπαση

του

προβλήματος

σε

δύο

υποπροβλήματα

Εύρεση όλων των συνδυασμών των αντικειμένων πουυπάρχουν σε ποσοστό δοσοληψιών μεγαλύτερο του ποσοστούστήριξης.

Χρήση των συνδυασμών για παραγωγή κανόνων. Αν για παράδειγμα ΑΒΓΔ και ΑΒ είναι τέτοιοι συνδυασμοί, υπολογίζουμε το r=support(ABΓΔ)/support(AB). Αν το r>confidence τότε ισχύει ο κανόνας ΑΒ ΓΔ

Εξόρυξη

Δεδομένων

(Data Mining)







Εξόρυξη

Κανόνων


Ένας

κανόνας

συσχέτισης

είναι

της

μορφής

X ⇒ Y

όπου

τα

X={x1

, x2

,…, xn

} και

Y={y1

, y2

,…, ym

} είναι

σύνολα αντικειμένων, με

τα

xi

και

yj

να

είναι

διακριτά

αντικείμενα για

κάθε

i και

j. Η

συσχέτιση

αυτή

λέει

ότι

αν

ένας

πελάτης

αγοράζει

το

X είναι

πιθανό

να

αγοράσει

και

το

Y επίσης. Γενικά

κάθε

κανόνας

συσχέτισης

έχει

την

μορφή

LHS

(αριστερό

μέλος) ⇒ RHS (δεξιό

μέλος), όπου

τα

LHS και RHS είναι

σύνολα

αντικειμένων.

Το

LHS∪RHS λέγεται

σύνολο

αντικειμένων.

Εξόρυξη

Κανόνων


Η

στήριξη

του

κανόνα

LHS ⇒ RHS είναι

το

ποσοστό των


που

περιλαμβάνουν

όλα

τα


της

ένωσης

LHS∪RHS.

Δηλαδή

η στήριξη

είναι

το

ποσοστό

των


που

περιέχουν

όλα

τα


του

συνόλου. Αν

η στήριξη

είναι

χαμηλή

αυτό

συνεπάγεται

ότι

δεν

υπάρχει

σαφής

ένδειξη

ότι

τα

αντικείμενα LHS∪RHS εμφανίζονται

μαζί.

Κωδικός Δοσοληψ.Ώρα Προϊόντα

102 06:35 γάλα, ψωμί, βουτήματα, χυμός

792 07:38 γάλα, χυμός

1130 08:05 γάλα, αυγά

1735 08:40 ψωμί, βουτήματα, καφές

Στήριξη

{γάλα.,χυμός}

50%

Στήριξη

{ψωμί.,χυμός}

25%

Η

εμπιστοσύνη

του

κανόνα

συσχέτισηςLHS ⇒ RHS είναι

το

ποσοστό

των


που

περιλαμβάνουν

επίσης

το

RHS. Ένας

άλλος

όρος

για την

εμπιστοσύνη

είναι

η

ισχύς

του

κανόνα

Εμπιστοσύνη

Εμπιστοσύνη

γάλα

⇒ χυμός

66.7%Εμπιστοσύνη

ψωμί

⇒ χυμός

50%

Ο

στόχος

της

εξόρυξης

κανόνων

συσχέτισης, είναι

η


όλων των

πιθανών

κανόνων

που

ξεπερνούν

κάποια

όρια

στήριξης

και

εμπιστοσύνης. Το

πρόβλημα

χωρίζεται

σε

δύο

υποπροβλήματα:

α)Δημιουργία

όλων

των

συνόλων


που ξεπερνούν

το

όριο. Τα

σύνολα

αυτά

ονομάζονται

μεγάλα

(ή συχνά). Μεγάλα

εννοούμε

με

μεγάλη στήριξη

β)Για

κάθε

μεγάλο

σύνολο, δημιουργούνται δημιουργούνται

όλοι

οι

κανόνες

με

ελάχιστη

εμπιστοσύνη: για

ένα

μεγάλο

σύνολο


X και

Y⊂X, έστω

Z=X-Y τότε

αν

στήριξη(X)/στήριξη(Z)>

ελάχιστη

εμπιστοσύνη, ο κανόνας

Z=>Y (δηλαδή

X-Y ⇒ Y) είναι

ένας

έγκυρος

κανόνας

Η

εύρεση

όλων

των

μεγάλων

συνόλων


με τις

τιμές

στήριξης

είναι

ένα

δύσκολο

πρόβλημα. Για

βελτίωση

των


για

εύρεση

των

κανόνων συσχέτισης

χρησιμοποιούνται

οι

ιδιότητες:

Ένα

υποσύνολο

ενός

μεγάλου

συνόλου

αντικειμένων πρέπει

να

είναι

επίσης

μεγάλο

(downward closure)

Αντίστροφα, ένα

υπερσύνολο

ενός

μικρού

συνόλου αντικειμένων

είναι

επίσης

μικρό. (antimonotonicity)

Apriori


για

εύρεση

συχνών

συνόλων Είσοδος: βάση

δεδομένων

από

m δοσοληψίες

D, και

ελάχιστη

στήρξη

mins

(ποσοστό

του

m). Έξοδος: συχνά

σύνολα

L1

, L2

,…Lk


support(ij

)=count(ij

)/m

για

κάθε

αντικείμενο. Το υποσύνολο

των

στοιχείων

ij

με

support(ij

) >mins

αποτελεί

το

L1. k=1


των

υποψηφίων

k+1 Ck+1

γίνεται

με

συνδυασμό

των μελών

των

Lk

που

έχουν

k-1 κοινά

στοιχεία. Θεωρούμε

σαν

στοιχεία

του

Ck+1

αυτά

τα

k+1 έτσι

που

κάθε υποσύνολο

μεγέθους

k εμφανίζεται

στο

Lk

. Υπολογίζεται

η στήριξη

αυτών

και

επιλέγονται

μόνο

εκείνα

με

στήριξη

>mins

Αν

το

είναι

Lk+1

είναι

κενό

τοτε

τερματίζεται

διαφορετικά επανάληψη

με

k=k+1.

Ο

apriori


•

Ck

: υποψήφιο

υποσύνολο


μεγέθους

k•

Lk

: συχνό

υποσύνολο


μεγέθους

k

•

L1

={συχνά

αντικείμενα}•

for (k=1; Lk

!=∅; k++1} do•

Ck+1 υποψήφια

που

δημιουργήθηκαν

από

το

Lk

•

για

κάθε

δοσοληψία

t στη

βάση

δεδομένων

αύξησε

τον

μετρητή όλων

των

υποψήφιων

στο

Ck+1

που

περιέχονται

στο

t•

Lk+1

: τα

υποψήφια

του

Ck+1

•

∪k

Lk

;

Προβλήματα

•

Πολλαπλά

περάσματα

της

βάσης

δεδομένων δοσοληψιών

•

Τεράστιος

Αριθμός

υποψηφίων•

Τεράστιος

όγκος

εργασίας

για

καταμέτρηση

των

υποψηφίων

Βελτίωση

του

apriori

•

Ελάττωση

του

πλήθους

των

περασμάτων

της

βάσης

δεδομένων των


•

Συρρίκνωση

του

πλήθους

των

υποψηφίων•

Διευκόλυνση

στο

μέτρημα

των

υποψηφίων.

Ελαχιστοποίηση

του

πλήθους

των

περασμάτων

ABCD

ABC ACDABD BCD

AB AC BC AD BD CD

A A B C D

{}

Μόλις

τα

A και

D βγουν

συχνά μπορεί

να

αρχίσει

το

AD

Μόλις

βγουν

όλα

τα

υποσύνολα

2 του

BCD

μπορεί

να

αρχίσει

το

μέτρημα

του

BCD

Δοσοληψίες

A priori

Ακολουθιακά πρότυπα(sequential patterns)

Κάθε δοσοληψία Τ αφορά μία λίστα αντικειμένων (τιμών): Τ(i1, i2,…)

Κάθε ακολουθία C είναι μία λίστα δοσοληψιών: C(Τ1, Τ2, …)

Εύρεση

ακολουθιακών

προτύπων

Ένα ακολουθιακό πρότυπο είναι μία λίστα συνόλων: (s1,s2,….)Κάθε

σύνολο

s

περιέχει

κάποια


από

μία

δοσοληψία: s=(ik

, il

, ..)Τα

σύνολα

είναι

διατεταγμένα

μέσα

στη λίστα με βάση τη χρονική διάταξη

των


Εύρεση ακολουθιακών προτύπων με βάση ένα ελάχιστο στήριξης (support) ως προς τις ακολουθίες

Ένα σύνολο ακολουθιών: C1, C2, …

Εξόρυξη

Δεδομένων

(Data Mining)







Κάθε πελάτης αντιπροσωπεύεται από μία ακολουθία αγορών

Κάθε αγορά (δοσοληψία) αφορά ένα σύνολο βιβλίων

Εύρεση


προτύπων

Ένα ακολουθιακό πρότυπο είναι:{ («Πόλεμος

και

Ειρήνη»), («Ιστορικά», «Απομνημονεύματα») }

με

ποσοστό

στήριξης

55%

Παράδειγμα: τι

είδους

αγορές

κάνουν

οι

πελάτες

ενός

εκδοτικού

οίκου;

Εξόρυξη

Δεδομένων

(Data Mining)








Εμπορικές

εφαρμογές

με

στόχο

την

ικανοποίηση

των

πελατώνΈρευνα

στην

ιατρική

Άλλα


εφαρμογών:

Εξόρυξη

Δεδομένων

(Data Mining)








Τι

σημαίνει

εξόρυξη


προτύπων;

•

Δοθέντος

ενός

συνόλου


να

βρεθεί

το

πήρες

σύνολο

των συχνών

υποακακολουθιών.

Μια

ακολουθιακή βάση Μια

ακολουθία : < (ef) (ab) (df) c b >

Μια

καταχώρηση

μπορεί

να

περιέχει

ένα σύνολο

στοιχείων.

Τα

στοιχεία

δεν

είναι

ταξινομημένα.

<a(bc)dc> είναι

μια

υποακολουθία της

<<a(abc)(ac)d(cf)>

Δοθείσης

μιας

ελάχιστης στήριξης min_sup =2, το <(ab)c> είναι

ένα

ακολουθιακό πρότυπο

SID sequence10 <a(abc)(ac)d(cf)>20 <(ad)c(bc)(ae)>30 <(ef)(ab)(df)cb>40 <eg(af)cbc>

Προβλήματα

με

την

εξόρυξη


προτύπων

•

Το πλήθος των ακολουθιακών προτύπων που μπορεί να κρύβονται

σε

μια

βάση

δεδομένων

είναι

τεράστιο.

•

Ένας


εξόρυξης

θα

πρέπει:1)να

βρίσκει

όλα τα

ακολουθιακά

πρότυπα

με

ελάχιστη

στήριξη, 2)να

είναι

αποτελεσματικός

(ελάχιστα

περάσματα

της

βάσης δεδομένων)και

3) να

μπορεί

να

ενσωματώνει

περιορισμούς

που

επιβάλλει

ο

χρήστης.

Βασική

ιδιότητα


προτύπων

(apriori)

Αν

μια

ακολουθία

S δεν

είναι

συχνή

τότε

οι υπέρακολουθίες

της

S δεν

είναι

συχνές.

ID Ακολουθία

10 <(bd),c,b,(ac)>

20 <(bf)(ce)b(fg)>

30 <(ah)(bf)abf>

40 <(bc)(ce)d>

50 <a(bd)bcb(ade)>

Αν

το

<hb> δεν

είναι

συχνό

τότε δεν

είναι

και

τα

<hab> και

<(ah)b>. Υποθέτοντας

ελάχιστη

στήριξη

2

Βασικός


με

προτεραιότητα

πλάτους

(Breadth First)

L=1(while resultL

!=null)Δημιουργία

των

υποψήφιων

Περικοπή

(prune)ΈλεγχοςL=L+1

Εύρεση


προτύπων

μήκους

1

•

Αρχικοί

υποψήφιοι: όλες

οι

ακολουθίες μήκους

1

–

<a>, , <c>, <d>, <e>, <f>, <g>, <h>

•

Σάρωση

της

βάσης

δεδομένων

μια

φορά, υπολογισμός

της

στήριξης

για

τα

υποψήφια

<a(bd)bcb(ade)>50<(be)(ce)d>40

<(ah)(bf)abf>30<(bf)(ce)b(fg)>20<(bd)cb(ac)>10ΑκολουθίαSeq. ID

min_sup =2

Υποψ Στηρ<a> 3 5<c> 4<d> 3<e> 3<f> 2<g> 1<h> 1

ID Ακολουθία

10 <(bd),c,b,(ac)>

20 <(bf)(ce)b(fg)>

30 <(ah)(bf)abf>

40 <(bc)(ce)d>

50 <a(bd)bcb(ade)>

<a> <c> <d> <e> <f> <g> <h>

<aa> <ab>…<af>

<ba> <bb>…<ff> <(ab)>…<(ef)>

<abb> <aab> <aba> <baa> <bab>…

<abba>

<(bd)bc>…

<(bd)cba>

Πέρασμα

1 υποψ. 8 μένουν

6

Δεν

ξεπερνούν το

κατώφλι

Δεν

βρίσκονται στην

βάση

Πέρασμα

2 υποψ. 51 μεγέθους

2 19 10 δεν

είναι

στη

βάση

Πέρασμα

3 υποψ. 46 μεγέθους

3 19 20 δεν

είναι

στη

βάση

υποψηφίων

μήκους-2

<a> <c> <d> <e> <f>

<a> <aa> <ab> <ac> <ad> <ae> <af>

 <ba> <bb> <bc> <bd> <be> <bf>

<c> <ca> <cb> <cc> <cd> <ce> <cf>

<d> <da> <db> <dc> <dd> <de> <df>

<e> <ea> <eb> <ec> <ed> <ee> <ef>

<f> <fa> <fb> <fc> <fd> <fe> <ff>

<a> <c> <d> <e> <f>

<a> <(ab)> <(ac)> <(ad)> <(ae)> <(af)>

 <(bc)> <(bd)> <(be)> <(bf)>

<c> <(cd)> <(ce)> <(cf)>

<d> <(de)> <(df)>

<e> <(ef)>

<f>

51 υποψήφια μεγέθους-2

Χωρίς

την

Apriori ιδιότητα,8*8+8*7/2=92 υποψήφιαΟ

Apriori

περικόπτει

44.57% υποψήφια

Ανάπτυξη

Προτύπου

(prefixSpan)

•

Προθεματική

(Prefix)

και

μεταθεματική

(Suffix)

προνολές–

τα

<a>, <aa>, <a(ab)> and <a(abc)> είναι

prefixes

της

ακολουθίας

<a(abc)(ac)d(cf)>–

Όταν

δίδεται

η

ακολουθία

<a(abc)(ac)d(cf)>

Prefix Suffix

(με

βάση

την

Prefix προβολή)

<a> <(abc)(ac)d(cf)><aa> <(_bc)(ac)d(cf)><ab> <(_c)(ac)d(cf)>

Παράδειγμα

Sequence_id Sequence

10 <a(abc)(ac)d(cf)>20 <(ad)c(bc)(ae)>30 <(ef)(ab)(df)cb>40 <eg(af)cbc>


( min_sup=2):

Prefix Sequential Patterns

<a> <a>,<aa>,<ab><a(bc)>,<a(bc)a>,<aba>,<abc>,<(ab)>,<(ab)c>,<(a b)d>,<(ab)f>,<(ab)dc>,<ac>,<aca>,<acb>,<acc>,<ad>,<adc>,<af>

 , <ba>, <bc>, <(bc)>, <(bc)a>, <bd>, <bdc>,<bf><c> <c>, <ca>, <cb>, <cc><d> <d>,<db>,<dc>, <dcb><e> <e>,<ea>,<eab>,<eac>,<eacb>,<eb>,<ebc>,<ec>,<ecb>,<ef>,<efb

>,<efc>,<efcb><f> <f>,<fb>,<fbc>, <fc>, <fcb>

PrefixSpan

Βήμα

1: Εύρεση

των


προτύπων

μήκους

1

<a>:4, :4, <c>:4, <d>:3, <e>:3, <f>:3

πρότυποστήριξη

Βήμα

2: Διαχωρισμός

του

χώρου

αναζήτησης

έξη

υποσύνολα

σύμφωνα

με

τα

έξη

προθέματα;

Βήμα

3: Βρες

τα

υποσύνολα

των


προτύπων;

Κατασκευή

των

αντίστοιχων

προβολών

της

βάσης

και αναδρομική

εξόρυξη

κάθεμιας.

Prefix Projected(suffix) databases Sequential Patterns

<a> <(abc)(ac)d(cf)>,<(_d)c(bc)(ae)>,

<(_b)(df)cb>,<(_f)cbc>

<a>,<aa>,<ab><a(bc)>,<a(bc)a>, <aba>,<abc>,<(ab)>,<(ab)c>,<(ab )d>,<(ab)f>,<(ab)dc>,<ac>,<aca> ,<acb>,<acc>,<ad>,<adc>,<af>

Sequence_id Sequence Projected(suffix) databases

10 <a(abc)(ac)d(cf)> <a(abc)(ac)d(cf)>20 <(ad)c(bc)(ae)> <(ad)c(bc)(ae)>30 <(ef)(ab)(df)cb> <(ef)(ab)(df)cb>40 <eg(af)cbc> <eg(af)cbc>

Εύρεση

των


προτύπων

με

πρόθεμα

<a>:1.

Σάρωση

της

βάσης

S. Προβάλλονται

οι

ακολουθίες

στην

S

που

περιέχουν

<a> για να σχηματισθεί η <a>-προβολή.

2.

Σάρωση

της

<a>-προβολής

δίνει

6

ακολουθιακά

πρότυπα μήκους-2 με

πρόθεμα

το

<a> :

<a>:2 , :4, <(_b)>:2, <c>:4, <d>:2, <f>:2

<aa>:2 , <ab>:4, <(ab)>:2, <ac>:4, <ad>:2, <af>:2

3.

Αναδρομικά, μπορούν

να

διαμερισθούν

τα

ακολουθιακά πρότυπα

με

πρόθεμα

το

<a> σε

6 υποσύνολα.

Κατασκευάζονται

οι

αντίστοιχες

προβολέςκαι

γίνεται

εξόρυξη στην

κάθεμια.

δηλ.

η

<aa>-προβολή

έχει

δύο


:

<(_bc)(ac)d(cf)> και

<(_e)>.

Ομαδοποίηση χρονικών ακολουθιών(time-series clustering)

Εξόρυξη

Δεδομένων

(Data Mining)








Βάση

Δεδομένων

Μία βάση χρονικών ακολουθιών


χρονικών


Εύρεση

παρόμοιων


ή ακολουθιών

που

μοιάζουν

με

μία

δοσμένη

t

Ομαδοποίηση χρονικών ακολουθιών(time-series clustering)

Εξόρυξη

Δεδομένων

(Data Mining)








Εύρεση

προμηθειών

με

παρόμοιες

κινήσειςΠαρακολούθηση

πορείας

ανταγωνιστών

Παραδείγματα

εφαρμογών:

•

Οι

βασικές

δομές

πολλών

βιολογιών

(μικρο)μορίων είναι


“γραμμάτων”

παρά

την

3D δομή

τους.–

Η πρωτεΐνη

έχει 20 αμινοξέα.

–

Το

DNA έχει

ένα

αλφάβητο

από

4 βάσεις

{A, T, G, C}–

Το

RNA έχει

ένα

αλφάβητο

{A, U, G, C}

•

Κείμενα•

Ημερολόγια


•

Ακολουθίες

σημάτων•

Δομικές

ομοιότητες

σε

επίπεδο

ακολουθίας

συχνά

δείχνουν

ψηλή

μεγάλη

πιθανότητα

να

σχετίζονται λειτουργικά/σημασιολογικά.

Περιγραφή

του

Προβλήματος

•

Η

ομαδοποίηση

που

βασίζεται

σε

δομικά χαρακτηριστικά

μπορεί

να

αποτελέσει

ισχυρό

εργαλείο

για

διαχωρισμό


σε διαφορετικές

λειτουργικές

κατηγορίες.

–

Ο

στόχος

είναι

να

δημιουργηθεί

μια

ομαδοποίηση ακολουθιών

ώστε

οι


σε

κάθε

ομάδα

να

έχουν

κοινά

χαρακτηριστικά.–

Το

αποτέλεσμα

μπορεί

να

αποκαλύψει

άγνωστες

δομικές

και

λειτουργικές

κατηγορίες

που

μπορεί

να οδηγήσουν

σε

καλύτερη

κατανόηση

του

χώρου.

•

Πρόκληση: πως

μετριέται

η

δομική

ομοιότητα?

Μέτρα

Ομοιότητας

•

Απόσταση

στοιχείων: –

Υπολογιστικά

ασύμφορη

–

είναι

καλή

για

την

βέλτιστη

σειρά

ενώ

αγνοεί

άλλες τοπικές

που

συχνά

αντιπροσωπεύουν

σημαντικά

χαρακτηριστικά

κοινά

σε

ζεύγη

ακολουθιών.•

Προσέγγιση

που

βασίζεται

σε

q-gram :

–

Αγνοεί

την

ακολουθιακή

συσχέτιση

(π.χ., διάταξη, εξάρτηση, κλπ.) μεταξύ

των

q-grams

•

Κρυμμένο

μοντέλο

Markov: –

Αντιλαμβάνεται

μερικές

συσχετίσεις

και

στατιστικές

χαμηλής

τάξης–

Ευάλωτο

σε

θόρυβο

και

κακές

τιμές

παραμέτρων

–

Υπολογιστικά

μη

αποτελεσματικό

Εξόρυξη

Δεδομένων

(Data Mining)

ΔΙΑΔΙΚΑΣΙΕΣΔΙΑΔΙΚΑΣΙΕΣ



ΕΡΓΑΛΕΙΑ

BusinessMiner (Business Objects)DBMiner(SFU)

IND (Nasa)Intelligent Miner (IBM)

Kepler (GMD)Mineset (SGI)

Brute (Univ. of Washington)

MSBN (Microsoft)

Πρόβλεψη, Κατηγοριοποίηση, Συσχετίσεις

Κατηγοριοποίηση, Πρόβλεψη

Κατηγοριοποίηση, Πρόβλεψη, Συσχετίσεις, Ομαδοποίηση

Κατηγοριοποίηση, Συσχετίσεις

Πρόβλεψη, Συσχετίσεις

Προϊόν Διαδικασία

Εξόρυξη

Δεδομένων

(Data Mining)




ΕΡΓΑΛΕΙΑ

Υλοποίηση

συνδυασμών

διαδικασιών

Off-line επεξεργασία

δεδομένων

Έλλειψη

ολοκλήρωσης

με

την

τεχνολογία

των

βάσεων

Βελτίωση

διασύνδεσης

με

τον

χρήστη

Εξόρυξη

Δεδομένων

(Data Mining)




Τομέας

εξελισσόμενος

Ερευνητικό

και

εμπορικό

ενδιαφέρον

Ολοκλήρωση

προσεγγίσεων

από

διαφορετικούς

τομείςΣΥΝΟΨΗ

ΕΡΓΑΛΕΙΑΕΡΓΑΛΕΙΑ

Εξόρυξη

Δεδομένων

(Data Mining)




Αναγνώριση

νέων

διαδικασιών

εξόρυξης

ΣΥΝΟΨΗ

ΕΡΓΑΛΕΙΑΕΡΓΑΛΕΙΑΕύρεση

αρχιτεκτονικής

για

την

εξόρυξη

δεδομένων

Προσαρμογή


για

μεγάλες

βάσεις

Ολοκλήρωση

με

συστήματα

βάσεων

δεδομένων

Επέκταση

συστημάτων

βάσεων

δεδομένων

Βελτίωση

εργαλείων

Ανάπτυξη

γλωσσών

εξόρυξης

Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf ·...

Documents

Transcript of Εξόρυξη Δεδομένωνcourses.lib.uoa.gr/attachments/1/File/510/pms510_3.pdf ·...