Data Mining

16
Εργασία για το Ακαδημαϊκό Έτος 2013-14 Εξόρυξη Δεδομένων και Επιχειρηματική Ευφυΐα Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο 23/01/2013 Πρόγραμμα Μεταπτυχιακών Σπουδών “Πληροφορική και Τηλεματική” Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ομάδα Εργασίας Αθανασίου Κωνσταντίνος, ΑΜ: 13101 Παπασπύρος Δημήτριος, ΑΜ: 13113 1

Transcript of Data Mining

1

Εργασία για το Ακαδημαϊκό Έτος 2013-14

Εξόρυξη Δεδομένων και Επιχειρηματική Ευφυΐα

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

Πρόγραμμα Μεταπτυχιακών Σπουδών “Πληροφορική και Τηλεματική”

Τμήμα Πληροφορικής και ΤηλεματικήςΧαροκόπειο Πανεπιστήμιο

Ομάδα Εργασίας

Αθανασίου Κωνσταντίνος, ΑΜ: 13101 Παπασπύρος Δημήτριος, ΑΜ: 13113

2

Εισαγωγή – ΕργαλείαΔημιουργία βάσης δεδομένων- ΔείκτεςΔημιουργία arff αρχείων – προεπεξεργασία στο wekaΧρήση Αλγορίθμων κατηγοριοποίησηςΧρήση Δέντρων απόφασηςΚατηγοριοποιητής NaiveBayes Κατηγοριοποιητής Decision TablesΣυμπεράσματα

Περιεχόμενα

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

3

Χρονική περίοδο δεδομένων Ευρωπαϊκής Ένωσης 2007-2011

Προσπάθεια εύρεσης βέλτιστου κατηγοριοποιητήΠροεπεξεργασία δεδομένωνΔιάκριση σε 3 κατηγορίες (Βορράς, Νότος, Ανατολική Ευρώπη)

Εισαγωγή - Εργαλεία

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

4

Weka My SQL Workbench

Εισαγωγή - Εργαλεία

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

5

Λήψη, επεξεργασία δεδομένων από http://data.worldbank.org/country

Εισαγωγή - Εργαλεία

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

6

Δημιουργία Βάσης Δεδομένων

Εισαγωγή δεδομένων στο εργαλείο My SQL Workbench

Δημιουργία ΒΔ Δείκτες

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

7

Επιλογή χαρακτηριστικών δεδομένωνΝα καλύπτει ένα σύνολο από δ ιαφορετικούς τομείς

Αγροτική παραγωγή και αγροτικός πληθυσμός, προσδόκιμο ζωής, Περιβάλλον, Οικονομία, Παιδεία, Υγεία, Υποδομές, Εργασία, Τεχνολογική ανάπτυξη

Να διασφαλίζει πως σχετικοί παράγοντες όπως το μέγεθος της κάθε χώρας δεν επηρεάζουν τις τ ιμές των δεικτών (κανονικοποιημένα δεδομένα)

Να εξασφαλίζει όσο το δυνατόν πληρέστερα δεδομένα στο χρονικό διάστημα 2007-2011 για το σύνολο των χωρών

Δημιουργία ΒΔ Δείκτες

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

8

Επιλογή δεικτώνAG.PRD.CROP.XD - Crop product ion index (2004 -2006 = 100) : SP .RUR.TOTL .ZS - Rura l popu la t ion (% o f to ta l popu la t ionSP .DYN.LE00 . IN - L i f e expec tancy a t b i r th , to ta l ( yearsEG.USE .ELEC .KH.PC - E lec t r i c power consumpt ion (kWh per cap i ta lGC .DOD.TOTL .GD.ZS - Cent ra l government debt , t o ta l (% o f GDPSE .XPD.TOTL .GB.ZS - Pub l i c spend ing on educa t ion , to ta l (% o f GDPIS .VEH.NVEH.P3 - Motor veh ic le s (per 1 ,000 peop leSL .UEM.TOTL .ZS - Unemployment , to ta l (% o f to ta l l abor fo rceSH.XPD.PCAP - Hea l th expend i ture per cap i ta ( curren t USSP .POP .TECH.RD.P6 - Techn ic ians in R&D (per mi l l i on peop le

Δημιουργία ΒΔ Δείκτες

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

9

@Relat ion <re lat ion -name

@Atr ibute <attr ibute -name-1> <attr ibute - type> … @Atr ibute <attr ibute -name-N> <attr ibute - type

@Data

Μια γραμμή κειμένου για κάθε εγγραφή, η οποία να περιλαμβάνει χωρισμένες με κόμμα τις τιμές που περιγράφηκαν στην επικεφαλίδα του αρχείου .

Δημιουργία arff αρχείων – προεπεξέργασία στο Weka

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

10

SP.RUR.TOTL.ZS - RURAL POPULATION (% OF TOTAL POPULATION) :

Χρήση Αλγορίθμων κατηγοριοποίησης

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

11

SP.DYN.LE00. IN - L IFE EXPECTANCY AT BIRTH, TOTAL (YEARS) :

Χρήση Αλγορίθμων κατηγοριοποίησης

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

12

Χρήση Δένδρων Απόφασης

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

13

Χρήση Δένδρων Απόφασης

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

14

Κατηγοριοποιητής NaiveBayes

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

15

Κατηγοριοποιητής Decision Tables

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

16

Συμπεράσματα

Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο

23/01/2013

Έγκυρη πηγή δεδομένων

Εργαλεία γρήγορης προεπεξεργασίας δεδομένων

Επιλογή χαρακτηριστικών κατηγοριοποίησης

Δοκιμές με διαφορετικά μοντέλα