Weka

16
Data Mining software Weka

description

Weka. Data Mining software. Εισαγωγή. Weka: W ekato E nvironment for k nowledge A nalysis Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες μεθόδους για : Προεπεξεργασία Δεδομένων Ταξινόμηση Συσταδοποίηση Εύρεση Κανόνων Συσχέτισης. - PowerPoint PPT Presentation

Transcript of Weka

Page 1: Weka

Data Mining software

Weka

Page 2: Weka

Εισαγωγή Weka: Wekato Environment for knowledge Analysis

Ηweka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο

περιέχει υλοποιημένες μεθόδους για: Προεπεξεργασία ΔεδομένωνΤαξινόμησηΣυσταδοποίηση Εύρεση Κανόνων Συσχέτισης

Page 3: Weka

ΕγκατάστασηTo software είναι διαθέσιμο για εγκατάσταση

από την ιστοσελίδα:

http://www.cs.waikato.ac.nz/ml/weka/

Για το περιβάλλον των windows, σε περίπτωση που

κάποια έκδοση της java δεν είναι ήδη , εγκατεστημένη το εκτελέσιμο που θα

αποθηκευτεί είναι η έκδοση (stable version) που περιλαμβάνει την java VM 1.6

Page 4: Weka

Περιβάλλον weka ,Ανοίγοντας το πρόγραμμα μέσω του μενού Application

→Exporer→Open file δίνεται η δυνατότητα να επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να εφαρμοστούν

τεχνικές που αφορούν :

• Preprocess• Classify• Cluster• Associate• Select Attributes• Visualize

• ( Επιλέγοντας ένα σύνολο δεδομένων αρχείο .arff), εμφανίζονται γραφικά τα δεδομένα για καθένα από τα

γνωρίσματα ξεχωριστά καθώς και στατιστικές πληροφορίες . για αυτά Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση

, στην οποία ταξινομούνται τα δεδομένα που ανήκουν στην ίδια κλάση εμφανίζονται με το ίδιο χρώμα

Page 5: Weka
Page 6: Weka

Αρχεία .arff

Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο

format και να αποθηκεύονται με την επέκταση .arff

Στον φάκελο C:\Program Files\Weka-3-5\data περιέχονται κάποια παραδείγματα τέτοιων

.αρχείων

Δεδομένα μπορούν επίσης να δοθούν από έναURL ή από μία SQL .βάση

Page 7: Weka

Παράδειγμα@relation heart-disease-simplified

@attribute age numeric@attribute sex { female, male}@attribute chest_pain_type { typ_angina, asympt,

non_anginal, atyp_angina}@attribute cholesterol numeric@attribute exercise_induced_angina { no, yes}@attribute class { present, not_present}

@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...

Page 8: Weka

Οπτικοποίηση δεδομένων

Από την καρτέλα visualize υπάρχει η δυνατότητα να

εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος σε συνάρτηση με κάθε άλλο

. γνώρισμα

Page 9: Weka
Page 10: Weka

Συσταδοποίηση δεδομένων

Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση

( ‘εύρεση ομάδων όμοιων’ ). δεδομένων

Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει

συσταδοποίηση και με το κουμπί start να .αρχίσει η εκτέλεση του αλγορίθμου

Page 11: Weka

Επιλογή αλγορίθμου Οι αλγόριθμοι συσταδοποίησης που έχουν

υλοποιηθεί είναι οι:Cobweb ( )ιεραρχική συσταδοποίησηDBScanEMFarthest FirstOPTICSSimpleKmeans (K-means)Xmeans

Page 12: Weka

Πληροφορίες σχετικά με τα

αποτελέσματα του clustering σταδεδομένα

Page 13: Weka

Παράμετροι Οι τιμές των παραμέτρων κάθε αλγορίθμου

( συσταδοποίησης όπως ο αριθμός των clusters στον kmeans, το eps και τοMinPts στονDBScan)

μπορούν να τροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του

. αλγορίθμου όταν αυτός έχει επιλεγεί

Page 14: Weka

Οπτικοποίηση αποτελέσματος

Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα

δεδομένα ( από το result list) εμφανίζεται ένα μενού με την βοήθεια του οποίου μπορεί να

εμφανιστεί η γραφική αναπαράσταση των,δεδομένων με βάση τις ομάδες που έχουν

προκύψει από το clustering

Page 15: Weka

Οπτικοποίηση αποτελέσματος

Page 16: Weka

Οπτικοποίηση αποτελέσματος