Data Mining
-
Upload
constantinos-athanasiou -
Category
Documents
-
view
37 -
download
0
Transcript of Data Mining
1
Εργασία για το Ακαδημαϊκό Έτος 2013-14
Εξόρυξη Δεδομένων και Επιχειρηματική Ευφυΐα
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
Πρόγραμμα Μεταπτυχιακών Σπουδών “Πληροφορική και Τηλεματική”
Τμήμα Πληροφορικής και ΤηλεματικήςΧαροκόπειο Πανεπιστήμιο
Ομάδα Εργασίας
Αθανασίου Κωνσταντίνος, ΑΜ: 13101 Παπασπύρος Δημήτριος, ΑΜ: 13113
2
Εισαγωγή – ΕργαλείαΔημιουργία βάσης δεδομένων- ΔείκτεςΔημιουργία arff αρχείων – προεπεξεργασία στο wekaΧρήση Αλγορίθμων κατηγοριοποίησηςΧρήση Δέντρων απόφασηςΚατηγοριοποιητής NaiveBayes Κατηγοριοποιητής Decision TablesΣυμπεράσματα
Περιεχόμενα
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
3
Χρονική περίοδο δεδομένων Ευρωπαϊκής Ένωσης 2007-2011
Προσπάθεια εύρεσης βέλτιστου κατηγοριοποιητήΠροεπεξεργασία δεδομένωνΔιάκριση σε 3 κατηγορίες (Βορράς, Νότος, Ανατολική Ευρώπη)
Εισαγωγή - Εργαλεία
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
4
Weka My SQL Workbench
Εισαγωγή - Εργαλεία
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
5
Λήψη, επεξεργασία δεδομένων από http://data.worldbank.org/country
Εισαγωγή - Εργαλεία
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
6
Δημιουργία Βάσης Δεδομένων
Εισαγωγή δεδομένων στο εργαλείο My SQL Workbench
Δημιουργία ΒΔ Δείκτες
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
7
Επιλογή χαρακτηριστικών δεδομένωνΝα καλύπτει ένα σύνολο από δ ιαφορετικούς τομείς
Αγροτική παραγωγή και αγροτικός πληθυσμός, προσδόκιμο ζωής, Περιβάλλον, Οικονομία, Παιδεία, Υγεία, Υποδομές, Εργασία, Τεχνολογική ανάπτυξη
Να διασφαλίζει πως σχετικοί παράγοντες όπως το μέγεθος της κάθε χώρας δεν επηρεάζουν τις τ ιμές των δεικτών (κανονικοποιημένα δεδομένα)
Να εξασφαλίζει όσο το δυνατόν πληρέστερα δεδομένα στο χρονικό διάστημα 2007-2011 για το σύνολο των χωρών
Δημιουργία ΒΔ Δείκτες
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
8
Επιλογή δεικτώνAG.PRD.CROP.XD - Crop product ion index (2004 -2006 = 100) : SP .RUR.TOTL .ZS - Rura l popu la t ion (% o f to ta l popu la t ionSP .DYN.LE00 . IN - L i f e expec tancy a t b i r th , to ta l ( yearsEG.USE .ELEC .KH.PC - E lec t r i c power consumpt ion (kWh per cap i ta lGC .DOD.TOTL .GD.ZS - Cent ra l government debt , t o ta l (% o f GDPSE .XPD.TOTL .GB.ZS - Pub l i c spend ing on educa t ion , to ta l (% o f GDPIS .VEH.NVEH.P3 - Motor veh ic le s (per 1 ,000 peop leSL .UEM.TOTL .ZS - Unemployment , to ta l (% o f to ta l l abor fo rceSH.XPD.PCAP - Hea l th expend i ture per cap i ta ( curren t USSP .POP .TECH.RD.P6 - Techn ic ians in R&D (per mi l l i on peop le
Δημιουργία ΒΔ Δείκτες
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
9
@Relat ion <re lat ion -name
@Atr ibute <attr ibute -name-1> <attr ibute - type> … @Atr ibute <attr ibute -name-N> <attr ibute - type
@Data
Μια γραμμή κειμένου για κάθε εγγραφή, η οποία να περιλαμβάνει χωρισμένες με κόμμα τις τιμές που περιγράφηκαν στην επικεφαλίδα του αρχείου .
Δημιουργία arff αρχείων – προεπεξέργασία στο Weka
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
10
SP.RUR.TOTL.ZS - RURAL POPULATION (% OF TOTAL POPULATION) :
Χρήση Αλγορίθμων κατηγοριοποίησης
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
11
SP.DYN.LE00. IN - L IFE EXPECTANCY AT BIRTH, TOTAL (YEARS) :
Χρήση Αλγορίθμων κατηγοριοποίησης
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013
15
Κατηγοριοποιητής Decision Tables
Τμήμα Πληροφορικής & Τηλεματικής, Χαροκόπειο Πανεπιστήμιο
23/01/2013