Weka
description
Transcript of Weka
Data Mining software
Weka
Εισαγωγή Weka: Wekato Environment for knowledge Analysis
Ηweka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο
περιέχει υλοποιημένες μεθόδους για: Προεπεξεργασία ΔεδομένωνΤαξινόμησηΣυσταδοποίηση Εύρεση Κανόνων Συσχέτισης
ΕγκατάστασηTo software είναι διαθέσιμο για εγκατάσταση
από την ιστοσελίδα:
http://www.cs.waikato.ac.nz/ml/weka/
Για το περιβάλλον των windows, σε περίπτωση που
κάποια έκδοση της java δεν είναι ήδη , εγκατεστημένη το εκτελέσιμο που θα
αποθηκευτεί είναι η έκδοση (stable version) που περιλαμβάνει την java VM 1.6
Περιβάλλον weka ,Ανοίγοντας το πρόγραμμα μέσω του μενού Application
→Exporer→Open file δίνεται η δυνατότητα να επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να εφαρμοστούν
τεχνικές που αφορούν :
• Preprocess• Classify• Cluster• Associate• Select Attributes• Visualize
• ( Επιλέγοντας ένα σύνολο δεδομένων αρχείο .arff), εμφανίζονται γραφικά τα δεδομένα για καθένα από τα
γνωρίσματα ξεχωριστά καθώς και στατιστικές πληροφορίες . για αυτά Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση
, στην οποία ταξινομούνται τα δεδομένα που ανήκουν στην ίδια κλάση εμφανίζονται με το ίδιο χρώμα
Αρχεία .arff
Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο
format και να αποθηκεύονται με την επέκταση .arff
Στον φάκελο C:\Program Files\Weka-3-5\data περιέχονται κάποια παραδείγματα τέτοιων
.αρχείων
Δεδομένα μπορούν επίσης να δοθούν από έναURL ή από μία SQL .βάση
Παράδειγμα@relation heart-disease-simplified
@attribute age numeric@attribute sex { female, male}@attribute chest_pain_type { typ_angina, asympt,
non_anginal, atyp_angina}@attribute cholesterol numeric@attribute exercise_induced_angina { no, yes}@attribute class { present, not_present}
@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...
Οπτικοποίηση δεδομένων
Από την καρτέλα visualize υπάρχει η δυνατότητα να
εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος σε συνάρτηση με κάθε άλλο
. γνώρισμα
Συσταδοποίηση δεδομένων
Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση
( ‘εύρεση ομάδων όμοιων’ ). δεδομένων
Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει
συσταδοποίηση και με το κουμπί start να .αρχίσει η εκτέλεση του αλγορίθμου
Επιλογή αλγορίθμου Οι αλγόριθμοι συσταδοποίησης που έχουν
υλοποιηθεί είναι οι:Cobweb ( )ιεραρχική συσταδοποίησηDBScanEMFarthest FirstOPTICSSimpleKmeans (K-means)Xmeans
Πληροφορίες σχετικά με τα
αποτελέσματα του clustering σταδεδομένα
Παράμετροι Οι τιμές των παραμέτρων κάθε αλγορίθμου
( συσταδοποίησης όπως ο αριθμός των clusters στον kmeans, το eps και τοMinPts στονDBScan)
μπορούν να τροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του
. αλγορίθμου όταν αυτός έχει επιλεγεί
Οπτικοποίηση αποτελέσματος
Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα
δεδομένα ( από το result list) εμφανίζεται ένα μενού με την βοήθεια του οποίου μπορεί να
εμφανιστεί η γραφική αναπαράσταση των,δεδομένων με βάση τις ομάδες που έχουν
προκύψει από το clustering
Οπτικοποίηση αποτελέσματος
Οπτικοποίηση αποτελέσματος