Weka

Post on 20-Jan-2016

63 views 0 download

description

Weka. Data Mining software. Εισαγωγή. Weka: W ekato E nvironment for k nowledge A nalysis Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες μεθόδους για : Προεπεξεργασία Δεδομένων Ταξινόμηση Συσταδοποίηση Εύρεση Κανόνων Συσχέτισης. - PowerPoint PPT Presentation

Transcript of Weka

Data Mining software

Weka

Εισαγωγή Weka: Wekato Environment for knowledge Analysis

Ηweka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο

περιέχει υλοποιημένες μεθόδους για: Προεπεξεργασία ΔεδομένωνΤαξινόμησηΣυσταδοποίηση Εύρεση Κανόνων Συσχέτισης

ΕγκατάστασηTo software είναι διαθέσιμο για εγκατάσταση

από την ιστοσελίδα:

http://www.cs.waikato.ac.nz/ml/weka/

Για το περιβάλλον των windows, σε περίπτωση που

κάποια έκδοση της java δεν είναι ήδη , εγκατεστημένη το εκτελέσιμο που θα

αποθηκευτεί είναι η έκδοση (stable version) που περιλαμβάνει την java VM 1.6

Περιβάλλον weka ,Ανοίγοντας το πρόγραμμα μέσω του μενού Application

→Exporer→Open file δίνεται η δυνατότητα να επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να εφαρμοστούν

τεχνικές που αφορούν :

• Preprocess• Classify• Cluster• Associate• Select Attributes• Visualize

• ( Επιλέγοντας ένα σύνολο δεδομένων αρχείο .arff), εμφανίζονται γραφικά τα δεδομένα για καθένα από τα

γνωρίσματα ξεχωριστά καθώς και στατιστικές πληροφορίες . για αυτά Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση

, στην οποία ταξινομούνται τα δεδομένα που ανήκουν στην ίδια κλάση εμφανίζονται με το ίδιο χρώμα

Αρχεία .arff

Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο

format και να αποθηκεύονται με την επέκταση .arff

Στον φάκελο C:\Program Files\Weka-3-5\data περιέχονται κάποια παραδείγματα τέτοιων

.αρχείων

Δεδομένα μπορούν επίσης να δοθούν από έναURL ή από μία SQL .βάση

Παράδειγμα@relation heart-disease-simplified

@attribute age numeric@attribute sex { female, male}@attribute chest_pain_type { typ_angina, asympt,

non_anginal, atyp_angina}@attribute cholesterol numeric@attribute exercise_induced_angina { no, yes}@attribute class { present, not_present}

@data63,male,typ_angina,233,no,not_present67,male,asympt,286,yes,present67,male,asympt,229,yes,present38,female,non_anginal,?,no,not_present...

Οπτικοποίηση δεδομένων

Από την καρτέλα visualize υπάρχει η δυνατότητα να

εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος σε συνάρτηση με κάθε άλλο

. γνώρισμα

Συσταδοποίηση δεδομένων

Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση

( ‘εύρεση ομάδων όμοιων’ ). δεδομένων

Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει

συσταδοποίηση και με το κουμπί start να .αρχίσει η εκτέλεση του αλγορίθμου

Επιλογή αλγορίθμου Οι αλγόριθμοι συσταδοποίησης που έχουν

υλοποιηθεί είναι οι:Cobweb ( )ιεραρχική συσταδοποίησηDBScanEMFarthest FirstOPTICSSimpleKmeans (K-means)Xmeans

Πληροφορίες σχετικά με τα

αποτελέσματα του clustering σταδεδομένα

Παράμετροι Οι τιμές των παραμέτρων κάθε αλγορίθμου

( συσταδοποίησης όπως ο αριθμός των clusters στον kmeans, το eps και τοMinPts στονDBScan)

μπορούν να τροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του

. αλγορίθμου όταν αυτός έχει επιλεγεί

Οπτικοποίηση αποτελέσματος

Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα

δεδομένα ( από το result list) εμφανίζεται ένα μενού με την βοήθεια του οποίου μπορεί να

εμφανιστεί η γραφική αναπαράσταση των,δεδομένων με βάση τις ομάδες που έχουν

προκύψει από το clustering

Οπτικοποίηση αποτελέσματος

Οπτικοποίηση αποτελέσματος