2010-2011 321/2005076€¦ · 2010-2011 Σποξ wασνής ҅ Παπασπξρόποξλος...

of 85 /85
Πανεπιστήμιο Αιγαίου Σχολή Θετικών Επιστημών Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Θέμα: Ανάλυση Χώρο-χρονικών Περιβαλλοντολογικών Δεδομένων Ακαδημαϊκό έτος: 2010-2011 Σπουδαστής : Παπασπυρόπουλος Κωνσταντίνος Α.Μ. σπουδαστή : 321/2005076 Επιβλέπων καθηγητής: Μαραγκουδάκης Εμμανουήλ Λέκτορας

Embed Size (px)

Transcript of 2010-2011 321/2005076€¦ · 2010-2011 Σποξ wασνής ҅ Παπασπξρόποξλος...

  • Πανεπιστήμιο Αιγαίου Σχολή Θετικών Επιστημών

    Τμήμα Μηχανικών Πληροφοριακών και

    Επικοινωνιακών Συστημάτων

    Θέμα: Ανάλυση Χώρο-χρονικών Περιβαλλοντολογικών

    Δεδομένων

    Ακαδημαϊκό έτος:

    2010-2011

    Σπουδαστής :

    Παπασπυρόπουλος Κωνσταντίνος

    Α.Μ. σπουδαστή :

    321/2005076

    Επιβλέπων καθηγητής:

    Μαραγκουδάκης Εμμανουήλ Λέκτορας

  • 2

  • 3

    Περίληψη

    Ο στόχος της διπλωματικής εργασίας είναι η ανάλυση χώρο-χρονικών δεδομένων από

    περιβαλλοντικές μελέτες με χρήση συστημάτων GIS και η εξόρυξη γνώσης από αυτά μέσω της

    συσταδοποίησης ομοίων παρατηρήσεων.

    Το «Αρχιπέλαγος» μια δραστήρια μη κυβερνητική οργάνωση έχει ξεκινήσει μια προσπάθεια

    προστασίας του υπό εξαφάνιση χαμαιλέοντα της Σάμου. Η οργάνωση έχει ήδη συλλέξει κάποια

    δεδομένα για τους χαμαιλέοντες και συνεχίζει την έρευνα της. Μέσα σε αυτά τα δεδομένα

    υπάρχει κρυμμένη πολύτιμη γνώση για τις συνήθειες και τα σωματικά χαρακτηριστικά των

    χαμαιλεόντων. Ακόμα υπάρχει η δυνατότητα εύκολου και γρήγορου διαχωρισμού των

    χαμαιλεόντων σε ομάδες. Αυτή η γνώση στα χέρια των ερευνητών μπορεί να παίξει καθοριστικό

    ρολό τόσο για την προστασία όσο και για την μελέτη του χαμαιλέοντα. Για αυτόν τον σκοπό θα

    δημιουργηθεί μια ολοκληρωμένη διαδικτυακή εφαρμογή που θα στηρίξει το όλο εγχείρημα,

    παρέχοντας υπηρεσίες μελέτης αναζήτησης αλλά και διαχείρισης χώρο-χρονικών δεδομένων σε

    ευχάριστο γραφικό περιβάλλον εργασίας. Η εφαρμογή θα χρησιμοποιεί σύστημα διαχείρισης

    βάσεων δεδομένων και αλγόριθμο συσταδοποίησης Expectation Maximization (EM) με την

    χρήση του οποίου θα γίνετε η εξόρυξη γνώσης.

  • 4

    Περιεχόμενα 1.Γενικές πληροφορίες ................................................................................................................................. 6

    Ποιες είναι οι ανάγκες του «Αρχιπελάγους» ........................................................................................... 6

    2.Εξόρυξη γνώσης [6][11 [14] ............................................................................................................................. 8

    Τι είναι η εξόρυξη γνώσης[4][5] .................................................................................................................. 8

    Εξόρυξη γνώσης και περιβάλλον[9] ........................................................................................................... 8

    Δυναμική πληθυσμού][12][13] .................................................................................................................. 9

    Μελέτη καταλληλότητας βιότοπου[15] .................................................................................................. 9

    Πρακτικές εφαρμογές[30][31][32][33] ........................................................................................................ 10

    3.Υλοποίηση ................................................................................................................................................ 12

    Προγράμματα που χρησιμοποιήθηκαν .................................................................................................. 12

    Γλώσσα προγραμματισμού[1] .............................................................................................................. 12

    Πρόγραμμα γεωγραφικών πληροφοριακών συστημάτων (GIS) ........................................................ 14

    Διαχείριση βάσεων δεδομένων .......................................................................................................... 14

    Analysis Server[7] ................................................................................................................................. 15

    4.Περιβαλλοντικά δεδομένα και περιβαλλοντικές βάσεις ........................................................................ 16

    Χωρικά δεδομένα[8] ............................................................................................................................. 16

    Τα χρονικά δεδομένα[10] ..................................................................................................................... 16

    Περιβαλλοντικές βάσεις δεδομένων .................................................................................................. 18

    5.Clustering [2] ............................................................................................................................................. 22

    Γενικά στοιχεία για τον ΕΜ (expectation maximization)[16][17] ........................................................... 24

    Ο αλγόριθμος του EM[18][19] ................................................................................................................. 25

    Ο αλγόριθμος του K-means[22][23][24] .................................................................................................... 32

    Microsoft clustering[3] ............................................................................................................................. 34

    Πως δουλεύει ο αλγόριθμος............................................................................................................... 35

    Δεδομένα που απαιτούνται για την δημιουργία μοντέλων συσταδοποίησης .................................. 37

    Δημιουργία προβλέψεων [8][10] ........................................................................................................... 37

    6.Δομή βάσης δεδομένων .......................................................................................................................... 38

    7.Σχόλια κώδικα [27] ..................................................................................................................................... 41

    GoogleMaps[25][26] ................................................................................................................................ 41

    Analysis Server[28][29] ............................................................................................................................ 43

    8.Σενάρια .................................................................................................................................................... 44

  • 5

    Εισαγωγή δεδομένων ............................................................................................................................. 44

    Αναζήτηση δεδομένων ........................................................................................................................... 51

    Clustering ................................................................................................................................................ 53

    Λίγα λόγια για το «Αρχιπέλαγος» ........................................................................................................... 56

    9.Επίλογος ................................................................................................................................................... 58

    Σύνοψη και συμπεράσματα ................................................................................................................... 59

    Μελλοντικές επεκτάσεις ......................................................................................................................... 59

    10.Παράτημα κώδικα ................................................................................................................................. 59

    Κωδικας Clustering.................................................................................................................................. 60

    Κώδικας φωτογραφιών .......................................................................................................................... 79

    Βιβλιογραφία .............................................................................................................................................. 83

  • 6

    1.Γενικές πληροφορίες

    Ποιες είναι οι ανάγκες του «Αρχιπελάγους»

    Tο «Αρχιπέλαγος» χρειάζεται μια ολοκληρωμένη εφαρμογή για την υποστήριξη της μελέτης και της προστασίας των χαμαιλεόντων της Σάμου. Υπήρχε η ανάγκη για συγκροτημένη καταγραφή των χαρακτηριστικών του κάθε χαμαιλέοντα που πιάνεται ,αλλά και σε επόμενο στάδιο η μελέτη αυτών των χαρακτηριστικών με τέτοιον τρόπο ώστε οι ερευνητές να μπορούν να εξάγουν εύκολα και γρήγορα σαφή συμπεράσματα. Τέλος κρίθηκε ότι ένα σύστημα που θα μπορούσε να μελετήσει αυτόματα αυτά τα δεδομένα θα έδινε μεγάλη ώθηση στο όλο εγχείρημα. Για να υπάρχει εύκολη πρόσβαση στα δεδομένα από παντού η εφαρμογή έπρεπε να είναι διαδικτυακή. Ακόμα για να διασφαλιστεί ότι μη εξουσιοδοτημένα άτομα δεν θα έχουν πρόσβαση στα δεδομένα, θα υπάρχουν σελίδες στις οποίες θα έχουν πρόσβαση μόνο οι εγγεγραμμένοι χρήστες, οι οποίοι θα πρέπει επιπλέον να εισάγουν το όνομα τους και έναν κωδικό για να αποκτήσουν πρόσβαση σε αυτά.

    Γενικά έχει παρατηρηθεί ότι η αναπαράσταση δεδομένων σε χάρτη βοηθάει πολύ στην κατανόηση τους, έτσι βασικό συστατικό στοιχείο για την εφαρμογή αυτή ήταν η αποτύπωση δεδομένων πάνω σε χάρτες. Επίσης επειδή για το ερευνητικό προσωπικό είναι ποιο εύκολη η χρήση ενός γραφικού περιβάλλοντος για την διαχείριση των δεδομένων τους σε σχέση με κάποιο σύστημα διαχείρισης βάσεων δεδομένων, αποφασίστηκε να κατασκευαστούν κατάλληλες ιστοσελίδες για την εισαγωγή και την επεξεργασία τόσο των γενικών και των φυσιολογικών δεδομένων όσο και των φωτογραφιών των χαμαιλεόντων.

    Για λόγους ευχρηστίας τα δεδομένα χωρίστηκαν σε τρεις κατηγορίες (γενικά, φυσιολογικά, εικόνας) και φτιάχτηκε μια σελίδα για την κάθε κατηγορία. Εδώ αξίζει να σημειωθεί ότι η διαχείριση φωτογραφιών χωρίς την χρήση βάσεων δεδομένων μπορεί να γίνει μια πολύ χρονοβόρα διαδικασία ειδικά όταν ο αριθμός των φωτογραφιών υπερβεί ένα όριο. Γι αυτόν το λόγο ο ιστότοπος όχι μόνο διαθέτει ειδική σελίδα για την εισαγωγή και επεξεργασία των φωτογραφιών και των δεδομένων που σχετίζονται με αυτές αλλά και ειδικό κώδικα ώστε η φωτογραφίες να μην ξεπερνούν ένα ορισμένο μέγεθος για να υπάρχει ομοιομορφία στην εμφάνιση τους. Για την εύκολη μελέτη των δεδομένων εκτός από την συνολική προβολή των δεδομένων σε χάρτη , έχουν κατασκευαστεί ειδικές σελίδες στις οποίες ο χρήστης μπορεί να δει συγκεκριμένα δεδομένα ταξινομημένα με βάση κάποιο χαρακτηριστικό του χαμαιλέοντα. Ποιο αναλυτικά ο χρήστης μπορεί να δει σε χάρτη τους χαμαιλέοντες που πιάστηκαν μια συγκεκριμένη ημερομηνία ή να δει μόνο τους αρσενικούς ή μόνο τους θηλυκούς χαμαιλέοντες. Σημαντική είναι και η αναζήτηση των χαμαιλεόντων με βάση την γεωγραφική τους θέση και με βάση τον επιστήμονα που τους έπιασε. Ο ιστότοπος διαθέτει σελίδα στην οποία ο χρήστης μπορεί να εισάγει ένα σημείο και μια απόσταση και να δει στον χάρτη μόνο τους χαμαιλέοντες που είναι σε μικρότερη ή ίση απόσταση από το δοσμένο σημείο.

    Τέλος μιας και η εξόρυξη γνώσης απαιτεί κάποια παραπάνω ειδίκευση αποφασίστηκε η κατασκευή μιας σελίδας που να επιτρέπει και στους μη έμπειρους χρήστες την εύκολη χρήση

  • 7

    αυτών των υπηρεσιών. Εδώ να σημειωθεί ότι ο χρήστης δεν θα χρειάζεται να γνωρίζει κάτι ιδιαίτερο για την εκτέλεση της εξόρυξης γνώσης αφού το μόνο που θα κάνει είναι να επιλέγει τις στήλες που επιθυμεί κάνοντας κλικ σε κουτάκια επιλογής και να συμπληρώνει σε περιοχές κειμένου κάποιες παραμέτρους, στη συνέχεια η σελίδα δημιουργεί αυτόματα τον κατάλληλο κώδικα ώστε να γίνει η εκτελεστή της εξόρυξης γνώσης. Η σελίδα εκτελεί ομαδοποίηση των δεδομένων και δίνει στον χρήστη την δυνατότητα εύκολης επιλογής των δεδομένων πάνω στα οποία θα γίνει η μελέτη. Στη συνέχεια ο χρήστης μπορεί να ορίσει τον μέγιστο αριθμό των ομάδων στις οποίες θέλει να χωριστούν τα δεδομένα και τον ελάχιστο αριθμό χαμαιλεόντων ανά ομάδα ώστε να προσαρμόσει την υπηρεσία ακριβώς στις ανάγκες του. Έπειτα η ιστοσελίδα εμφανίζει στον χάρτη τους χαμαιλέοντες με διαφορετικά σύμβολα ανάλογα με την ομάδα στην οποία ανήκουν. Ακόμα για να γίνει πιο κατανοητός ο διαχωρισμός η σελίδα εμφανίζει μια λίστα για κάθε ομάδα με όλα τα μέλη της.

  • 8

    2.Εξόρυξη γνώσης [6][11 [14] Εδώ θα γίνει μια σύντομη περιγραφή για το τι ακριβώς είναι εξόρυξη γνώσης , τι είναι τα χώρο-

    χρονικά δεδομένα και τι η συσταδοποίηση που χρησιμοποιήθηκε στην δική μας εφαρμογή.

    Τι είναι η εξόρυξη γνώσης[4][5]

    Το Data Mining στη βιβλιογραφία έχει τον εξής ορισμό: "Η σύνθετη διαδικασία εξαγωγής

    συγκεκριμένης, προηγουμένως άγνωστης και δυνητικά ωφέλιμης, γνώσης από δεδομένα”.

    Εναλλακτικά, συναντάται και ως "η επιστήμη της εξόρυξης χρήσιμης πληροφορίας από σύνολα

    ή βάσεις δεδομένων μεγάλου μεγέθους" . Αναφορικά με τη διαχείριση επιχειρηματικών πόρων

    (ERP), το Data Mining θεωρείται ως η στατιστική και λογική ανάλυση εκτεταμένων συνόλων από

    δεδομένα συναλλαγών και εργασιών για τον εντοπισμό επαναλαμβανόμενων μοτίβων ή τάσεων

    που μπορούν να βοηθήσουν στη λήψη αποφάσεων

    Η τεχνολογία του Data Mining χρησιμοποιείται συνήθως από οργανισμούς ή τμήματα

    επιχειρηματικής ευφυΐας, και από οικονομικούς αναλυτές, αλλά πλέον η χρήση του επεκτείνεται

    συνεχώς και σε άλλες επιστήμες όπου γεννιέται η ανάγκη εξαγωγής χρήσιμης γνώσης από

    τεράστια σύνολα δεδομένων που συλλέγονται με τις σύγχρονες μεθόδους έρευνας και

    παρατήρησης. Χαρακτηριστικές εφαρμογές της τεχνολογίας αυτής έχουν να κάνουν με την

    πρόβλεψη συμπεριφορών και τον εντοπισμό τάσεων και μοτίβων, κυρίως σε εμπορικούς τομείς

    όπου η συχνότητα αλληλεπίδρασης της εταιρίας με τον χρήστη-πελάτη είναι υψηλή και άρα τα

    δεδομένα είναι πλούσια σε όγκο και ποιότητα. Για παράδειγμα, οι αλυσίδες σουπερ-μάρκετ, οι

    τράπεζες, η ναυτιλία, τα μέσα μαζικής ενημέρωσης και η διαφήμιση, αποτελούν βασικούς

    υποψήφιους για τέτοιου είδους εφαρμογές. Στον επιστημονικό τομέα, η ανάγκη για εξόρυξη

    γνώσης συναντάται συχνά στα πεδία της ιατρικής, της βιολογίας, της πληροφορικής και των

    τηλεπικοινωνιών.

    Εξόρυξη γνώσης και περιβάλλον[9]

    Οι περιβαλλοντικές επιστήμες εξετάζουν τις φυσικές, χημικές και βιολογικές πτυχές του

    περιβάλλοντος και τις αρχές που τις διέπουν . Ένας χαρακτηριστικός αντιπρόσωπος των

    περιβαλλοντικών επιστημών είναι η οικολογία, η οποία μελετά τις σχέσεις μεταξύ των μελών

    των ζωντανών κοινοτήτων και μεταξύ των κοινοτήτων και του αβιοτικού (μη- ζωντανού)

    περιβάλλοντός τους. Ένα τέτοιο ευρύ, σύνθετο και διεπιστημονικό πεδίο έχει μεγάλα περιθώρια

    για την εφαρμογή διαφόρων μεθόδων εξόρυξης γνώσης. Εντούτοις, οι περιβαλλοντικές

    επιστήμες θέτουν επίσης πολλές προκλήσεις στις υπάρχουσες μεθόδους εξόρυξης γνώσης.

  • 9

    Τα οικολογικά πρότυπα μπορούν έπειτα να χρησιμοποιηθούν για να κατανοηθεί καλύτερα και

    να προβληθεί η συμπεριφορά των υπό μελέτη κοινοτήτων και να υποστηρίξουν έτσι την λήψη

    αποφάσεων για την περιβαλλοντική διαχείριση. Χαρακτηριστικά θέματα μοντελοποίησης είναι

    η δυναμική πληθυσμών ,η αλληλεπίδραση διάφορων ειδών και η καταλληλότητα βιότοπων για

    ένα είδος.

    Δυναμική πληθυσμού][12][13]

    Η δυναμική πληθυσμού μελετά τη συμπεριφορά μιας κοινότητας ζωντανών

    οργανισμών(πληθυσμός) με την πάροδο του χρόνου και συνήθως λαμβάνει υπόψη τους

    αβιοτικούς παράγοντες και άλλες ζωντανές κοινότητες στο περιβάλλον. Παραδείγματος χάριν,

    κάποιος μπορεί να μελετήσει τον πληθυσμό του φυτοπλαγκτόν σε μια δεδομένη λίμνη και τη

    σχέση του με τη θερμοκρασία ύδατος, τις συγκεντρώσεις των θρεπτικών ουσιών/ρύπων (όπως

    το άζωτο και ο φώσφορος) και την βιομάζα του ζωοπλαγκτόν (τροφή του φυτοπλαγκτόν).

    Συνήθως η συχνότερη προσέγγιση από τους οικολογικούς εμπειρογνώμονες είναι με την χρήση

    των διαφορικών εξισώσεων, οι οποίες περιγράφουν την αλλαγή της κατάστασης ενός

    δυναμικού συστήματος με την πάροδο του χρόνου. Μια χαρακτηριστική προσέγγιση στη

    διαμόρφωση της δυναμικής πληθυσμών είναι η εξής: ένας οικολογικός εμπειρογνώμονας

    γράφει ένα σύνολο διαφορικών εξισώσεων που συλλαμβάνουν τις σημαντικότερες σχέσεις στην

    περιοχή. Αυτές είναι συχνά γραμμικές διαφορικές εξισώσεις. Οι συντελεστές αυτών των

    εξισώσεων καθορίζονται έπειτα χρησιμοποιώντας μετρήσεις από το συγκεκριμένο περιβάλλον.

    Οι σχέσεις όμως μεταξύ των ζωντανών κοινοτήτων και το αβιοτικό περιβάλλον τους μπορούν να

    είναι μη γραμμικές. Η δυναμική πληθυσμού άλλα και τα οικολογικά πρότυπα πρέπει να

    αντανακλούν αυτό το γεγονός για να είναι ρεαλιστικά. Αυτό έχει προκαλέσει ένα κύμα

    ενδιαφέροντος για τη χρήση τεχνικών όπως τα νευρωνικά δίκτυα για την οικολογική

    μοντελοποίηση. Τα δεδομένα από το περιβάλλον χρησιμοποιούνται για να εκπαιδεύσουν ένα

    νευρωνικό δίκτυο το οποίο μπορεί έπειτα να χρησιμοποιηθεί για να προβλέψει τη μελλοντική

    συμπεριφορά του μελετώμενου πληθυσμού. Με αυτό τον τρόπο, η δυναμική πληθυσμών έχει

    διαμορφωθεί για την άλγη , την υδρόβια πανίδα , τα ψάρια, το φυτοπλαγκτόν και το

    ζωοπλαγκτόν και πολλά άλλα. Ενώ παράλληλα και η επαγωγή δέντρων

    οπισθοδρόμησης(regression tree induction) έχει χρησιμοποιηθεί για να μοντελοποιήσει τη

    δυναμική πληθυσμών , συστήματα για την ανακάλυψη των διαφορικών εξισώσεων έχουν

    αποδειχθεί πιο χρήσιμα σε αυτή την περίπτωση, δεδομένου ότι οι διαφορικές εξισώσεις είναι

    οι επικρατέστερες στην οικολογική μοντελοποίηση.

    Μελέτη καταλληλότητας βιότοπου[15]

  • 10

    Η μελέτη καταλληλότητας βιότοπου είναι στενά συνδεδεμένη με τη δυναμική πληθυσμών.

    Γενικά αυτό που μελετάται είναι η επίδραση των αβιοτικών χαρακτηριστικών του βιότοπου στην

    παρουσία, την αφθονία ή την ποικιλομορφία μιας δεδομένης ομάδας οργανισμών.

    Παραδείγματος χάριν, κάποιος μπορεί να μελετήσει την επίδραση των εδαφολογικών

    χαρακτηριστικών, όπως η εδαφολογική θερμοκρασία, η περιεκτικότητα σε νερό και ορυκτά στο

    έδαφος καθώς και ο πληθυσμός των ειδών Collembola (springtails), τα ποιο πολυπληθή έντομα

    στο χώμα . Η μελέτη χρησιμοποιεί τα νευρωνικά δίκτυα για την δημιουργία διάφορων

    προβλεπτικών μοντέλων για την ποικιλομορφία των collembolan.Διάφορες εφαρμογές μελέτης

    καταλληλότητας βιότοπου κάνουν χρήση άλλων μεθόδων ανάλυσης δεδομένων όπως η

    τοποθέτηση(fielding). Η τοποθέτηση εφαρμόζει διάφορες μεθόδους, συμπεριλαμβανομένης

    της διακρίνουσας, της λογιστική οπισθοδρόμησης, τα νευρωνικά δίκτυα και γενετικούς

    αλγόριθμους, για να προβλέψει και να εντοπίσει τις κατάλληλες περιοχές. Η Bell χρησιμοποιεί

    τα δέντρα απόφασης για να περιγράψει το χειμερινό βιότοπο της αντιλόπης pronghorn. Το

    Jeffers χρησιμοποιεί έναν γενετικό αλγόριθμο για να ανακαλύψει τους κανόνες που

    περιγράφουν τις προτιμήσεις βιότοπων για τα υδρόβια είδη στους βρετανικούς ποταμούς.

    Πρακτικές εφαρμογές[30][31][32][33]

    Μερικά παραδείγματα στα οποία η εξόρυξη γνώσης χρησιμοποιείτε στις περιβαλλοντικές

    μελέτες είναι τα εξής. Ως τμήμα μιας ακαδημαϊκής εργασίας, προγραμματίστηκε ένα πρότυπο

    χρησιμοποιώντας την εξόρυξη γνώσης. Εργαζόμενοι στην Penoles μια μεταλλουργική μονάδα

    για τον καθαρισμό του χρυσού του, ασημιού, του μόλυβδου και του ψευδάργυρου, ελέγχανε

    συνεχώς τη συγκέντρωση του SO2 που εκπέμπεται στην ατμόσφαιρα. Όποτε ένα

    προκαθορισμένο όριο ξεπερνιέται, λαμβάνονταν έξτρα μέτρα, μειώνοντας την παραγωγή έως

    ότου οι ατμοσφαιρικές συνθήκες έρθουν σε ισορροπία και το SO2 διασκορπιστεί για να μην

    υπάρξουν επιπτώσεις στο γειτονικό περιβάλουν. Οι συγκεντρώσεις SO2 ταξινομούνταν σε

    επιτρεπόμενες, λίγο πάνω από τα όρια, μέτρια πάνω από τα όρια και υψηλές. Αυτές είναι οι

    τιμές που προσπαθούσε να προβλέψει πρότυπο εξόρυξης γνώσης, λαμβάνοντας υπόψη τη

    ταχύτητα ανέμου ,την ένταση του, την ατμοσφαιρική πίεση, τη θερμοκρασία και τις τρέχουσες

    και ιστορικές μετρήσεις στο SO2 γύρω από τις εγκαταστάσεις της εταιρίας. Η πρόβλεψή στόχευε

    μια ώρα μπροστά (δηλ. στις 9:00 π.μ. προβλέπονταν οι ιδιότητες του SO2 στις 10:00 π.μ.). Τα

    αποτελέσματα: περίπου στο 80% των περιπτώσεων ήταν σωστά. Ίσως δεν ακούγετε και πολύ

    αποδοτικό, αλλά σε σχέση με τα αποτελέσματα οποιωνδήποτε εμπειρογνώμονα των

    εγκαταστάσεων (ακόμη και με τη βοήθεια οποιουδήποτε ειδικού πάνω στον καιρό) τα

    παραγόμενα αποτελέσματα κρίνονται ως καλά.

  • 11

    Η βραζιλιάνικη παράκτια ζώνη παρουσιάζει μεγάλη ποικίλα και ενδιαφέρον από

    περιβαλλοντική άποψη. Εντούτοις, λίγα είναι γνωστά για τη βιολογική ποικιλομορφία του

    οικοσυστήματος. Περιβαλλοντικές αλλαγές υπάρχουν πάντα εντούτοις, είναι σημαντικό να

    διακριθούν οι φυσικές από τις ανθρωπογενείς. Κάτω από αυτά τα σενάρια, ο στόχος της

    εργασίας ήταν να παρουσιαστεί μια μεθοδολογία εξόρυξης δεδομένων ικανή να μελετά τα

    επίπεδα ποιότητας και υγείας στο περιβάλλον. Μια δεκαετής παρακολούθηση φυσικών,

    χημικών και βιολογικών παραμέτρων από μια μολυσμένη περιοχή την Arraial do Cabo-RJ

    χρησιμοποιήθηκε για να παραγάγει ένα πρότυπο ταξινόμησης βασισμένο στους κανόνες

    ταξινόμησης. Το πρότυπο αναγνωρίζει επτά διαφορετικές κατηγορίες βασισμένες στις

    βιολογικές ιδιότητες του νερού και έναν νέο τροφικό δείκτη (PLIX). Νευρωνικά δίκτυα

    εξελίχθηκαν και βελτιστοποιήθηκαν από γενετικούς αλγορίθμους για να προβλέψουν αυτούς

    τους δείκτες, λαμβάνοντας υπόψη τους μηχανισμούς ελέγχου της τοπολογίας, της

    σταθερότητας και των σύνθετων ιδιοτήτων της τροφικής αλυσίδας.

    Τα υδρομετεωρολογικά σενάρια του προγράμματος FP7 στο project ADMIRE1 χρησιμοποιούν

    εξόρυξη γνώσης αντί των φυσικών προτύπων προκειμένου να προβλεφθούν τα φαινόμενα που

    συνήθως δεν προβλέπονται σωστά, γύρο από τη θερμοκρασία του νερού, τη διάδοση των

    κυμάτων προς τα κάτω σε ένα Σλοβάκικο υδραγωγείο και τη βραχυπρόθεσμη πρόβλεψη

    βροχοπτώσεων με την ανάλυση των δεδομένων από ένα ραντάρ.

    Η Haley & Το Aldrich μέσω της εξόρυξης δεδομένων και υιοθετώντας στατιστικές τεχνικές όπως

    η ανάλυση παραγόντων και η ανάλυση σε κύριες συνιστώσες αποκαλύπτει συσχετισμούς μέσα

    στα δεδομένα. Καμία νέα πληροφορία δεν δημιουργείται. Αντ' αυτού, η γνώση εξάγετε από την

    υπάρχουσα περιβαλλοντική γεωστατιστική ανάλυση δεδομένων προσδιορίζονται μοντέλα που

    αλλιώς μπορεί να είχαν χαθεί. Υιοθετώντας μεθόδους πολλών στατιστικών μεταβλητών, έχει

    εφαρμόσει επιτυχώς η γεωστατιστική για να εξεταστούν περιβαλλοντικά προβλήματα σε

    ποικίλα μέσα συμπεριλαμβανομένων των υπόγειων νερών, του χώματος, του υπόγειου αερίου,

    των ατμοσφαιρικών μορίων στις λίμνες, τα ποτάμια και τους ωκεανούς.

  • 12

    3.Υλοποίηση

    Προγράμματα που χρησιμοποιήθηκαν

    Για την υλοποίηση αυτής της ιστοσελίδας υπήρχαν διαθέσιμα αρκετά προγράμματα και

    γλώσσες προγραμματισμού. Γενικά αυτά που χρειάζονταν ήταν ένα πρόγραμμα και μια γλωσσά

    προγραμματισμού για την δημιουργία της ιστοσελίδας, μια υπηρεσία η οποία θα μπορούσε να

    διαχειριστεί χάρτες και εμφάνιση δεδομένων μέσα σε αυτούς καθώς και ένα πρόγραμμα και

    μια γλώσσα διαχείρισης βάσεων δεδομένων.

    Γλώσσα προγραμματισμού[1]

    Όσο αφορά την γλώσσα για την δημιουργία της ιστοσελίδας επιλέχθηκε η ASP.NET 4.0 μαζί με

    c#. Η ΑSP.NET είναι ένα προγραμματιστικό πλαίσιο εργασίας «χτισμένο» σε κοινή γλώσσα

    μηχανής (common language runtime) που μπορεί να χρησιμοποιηθεί σε ένα server για να

    αναπτυχθούν ισχυρές Web εφαρμογές. Σε αυτή την νέα έκδοση προσφέρονται πολύ σημαντικές

    δυνατότητες σε σχέση με προηγούμενα αναπτυξιακά μοντέλα Web εφαρμογών:

    Εμπλουτισμένη Λειτουργία: Η ASP.NET μεταφράζει τον κώδικα της γλώσσας που

    χρησιμοποιεί ο server. Σε αντίθεση με τους μεταφραστικούς της προκατόχους, η ASP.NET

    μπορεί να εκμεταλλευτεί στατική σύνδεση , άμεση μεταγλώττιση, γηγενή

    βελτιστοποίηση (native optimization) , άμεσες υπηρεσίες απόκρυψης χωρίς απαραίτητες

    προηγούμενες διεργασίες. Αυτό έχει σαν αποτέλεσμα να βελτιωθεί σημαντικά η

    απόδοση πριν καν γραφτεί μία γραμμή κώδικα.

    World-Class Εργαλείο Υποστήριξης: Το ASP.NET πλαίσιο εργασίας είναι συμπληρωμένο

    με μια πλούσια εργαλειοθήκη και σχεδιαστή σε ολοκληρωμένο Visual Studio περιβάλλον

    ανάπτυξης. WYSIWYG (What You See Is What You Get) επεξεργασία, drag-and-drop

    server controls, και αυτόματη ανάπτυξη είναι λίγα από τα χαρακτηριστικά που παρέχει

    αυτό το εργαλείο.

    Δύναμη και ελαστικότητα: Επειδή το ASP.NET βασίζεται στο common language runtime,

    η δύναμη και η ελαστικότητα ολόκληρης της πλατφόρμας είναι διαθέσιμη στους

    προγραμματιστές Web εφαρμογών. Η NET Framework βιβλιοθήκη κλάσεων και τα

    προγράμματα Messaging και Data Access Solutions είναι όλα προσβάσιμα από το Web.

    Η ASP.NET είναι επίσης ανεξάρτητη από την γλώσσα, έτσι μπορεί κάποιος να διαλέξει

    τη γλώσσα που ταιριάζει καλύτερα στην εφαρμογή. Αυτό είναι ένα από τα

    σημαντικότερα πλεονεκτήματα της για την δική μας εφαρμογή, αρκεί να σκεφτεί κανείς

    ότι στην περίπτωση μας απαιτείται συνεχώς επεξεργασία δεδομένων και ότι με την

    συγκριμένη υπηρεσία δίνετε η δυνατότητα χρήσης c# , το οποίο σημάνει ότι μια

  • 13

    εφαρμογή διαδικτύου μπορεί να εκτελέσει ότι ακριβώς και μια κλασική εφαρμογή.

    Επιπλέον, η ικανότητα διαλειτουργικότητας (interoperability) της κοινής γλώσσας

    εγγυάται ότι η υπάρχουσα επένδυση σε COM-based ανάπτυξη διατηρείται όταν

    χρησιμοποιούμε ASP.NET

    Απλότητα: ASP.NET διευκολύνει την λειτουργία συνηθισμένων εργασιών όπως για

    παράδειγμα την υποβολή μιας απλής φόρμας και την ταυτοποίηση του client έως και

    την ανάπτυξη και την διαμόρφωση ιστοσελίδας. Το framework της σελίδας ASP.NET

    δηλαδή επιτρέπει τη δημιουργία διεπαφής χρηστών (user interfaces) η οποία δίνει την

    δυνατότητα μέσω Visual Basic την κατανόηση της λογικής ή του προγράμματος, του

    κώδικα και του χειρισμού συμβάντων. Χαρακτηριστικό παράδειγμα το μοντέλο

    επεξεργασίας φορμών. Επιπλέον, διευκολύνει την ανάπτυξη του κώδικα με υπηρεσίες

    διαχείρισης όπως αυτόματη μέτρηση αναφορών και συλλογή αχρήστων.

    Ευχρηστία: Η ASP.NET χρησιμοποιεί ένα βασισμένο σε κείμενο (textbased), ιεραρχικό

    σύστημα διαχείρισης που απλοποιεί την εφαρμογή ρυθμίσεων στο περιβάλλον του

    server και των Web εφαρμογών. Επειδή η διαχείριση πληροφορίας είναι

    αποθηκευμένη σαν απλό κείμενο, νέες ρυθμίσεις μπορούν να εφαρμοστούν χωρίς την

    βοήθεια των τοπικών Administration tools. Αυτή η φιλοσοφία (zero local administration)

    επεκτείνεται στην ανάπτυξη ASP.NET Framework εφαρμογών. Μία ASP.NET Framework

    εφαρμογή αναπτύσσεται σε ένα server απλά με το να αντιγράψει τα απαραίτητα αρχεία

    σε αυτόν. Δεν απαιτείται επανεκκίνηση του server ακόμα και στην ανάπτυξη running

    compiled code.

    Κλιμάκωση και διαθεσιμότητα: ASP.NET έχει σχεδιαστεί με γνώμονα την κλιμάκωση, με

    χαρακτηριστικά ειδικά προορισμένα να βελτιώνουν την απόδοση σε πολυεπεξεργαστικά

    περιβάλλοντα. Επιπλέον, οι διαδικασίες διαχειρίζονται την ASP.NET εκτέλεση, έτσι ώστε

    αν μία διαδικασία δεν λειτουργήσει σωστά (πχ. αδιέξοδα), μία νέα διαδικασία να

    μπορεί να δημιουργηθεί στην θέση της, η οποία να βοηθάει ώστε να διατηρηθεί η

    εφαρμογή συνεχώς διαθέσιμη και να χειρίζεται αιτήσεις.

    Προσαρμοστικότητα και επεκτασιμότητα. Η ASP.NET έχει μία καλά σχεδιασμένη

    αρχιτεκτονική που επιτρέπει στους προγραμματιστές να παρεμβάλουν τον κώδικα τους

    στο επίπεδο που επιθυμούν. Στην πραγματικότητα, είναι πιθανόν να επεκταθεί ή να

    αντικατασταθεί κάθε υποκατάστατο της ASP.NET στον χρόνο εκτέλεσης με άλλα

    αυτοσχέδια στοιχεία ελέγχου. Η εισαγωγή κώδικα βασισμένου στις ατομικές ανάγκες

    του χρήστη όπως επίσης και των υπηρεσιών του προγράμματος επιτυγχάνεται κατ’

    αυτόν τον τρόπο ευκολότερα από ποτέ.

    Ασφάλεια: Με την ταυτοποίηση χρήστη που υπάρχει στα Windows, μπορεί κάποιος ως

    ένα βαθμό βέβαια να είναι σίγουρος ότι οι εφαρμογές του είναι ασφαλείς.

  • 14

    Συμπερασματικά μπορούμε να πούμε ότι η ASP.NET είναι μια εύκολη στη εκμάθηση και

    χρήση γλώσσα με την οποία ο χρήστης μπορεί να δημιουργήσει πρωτοποριακές αλλά και

    εντυπωσιακές εφαρμογές. Το όλο έργο θα υλοποιηθεί στο Microsoft visual studio 2010.

    Πρόγραμμα γεωγραφικών πληροφοριακών συστημάτων (GIS)

    Για την διαχείριση των χαρτών και την εμφάνιση των δεδομένων πάνω σε αυτούς υπήρχαν δυο

    λύσεις ,το arcgis ή το google maps. Το arcgis είναι μια ολοκληρωμένη εφαρμογή για διαχείριση

    χωρικών δεδομένων πάνω σε χάρτες και δημιουργία δυναμικών ηλεκτρονικών χαρτών. Οι

    δυνατότητες του ξεπερνούσαν κατά πολύ τις απαιτήσεις μας αλλά λόγω των πολλών του

    δυνατοτήτων και του σχεδιασμού του ώστε να καλύπτει ευρύ φάσμα αναγκών, ήταν πιο

    δύσχρηστο για την υλοποίηση της δικής μας εφαρμογής. Έτσι τελικά επιλέχτηκε το GoogleMaps

    το οποίο μπορεί να συνεργαστεί με java,xml,json καθώς και με την asp.net. Συγκεκριμένα το

    πακέτο GoogleMaps.Subgurim.NET δίνει στις ιστοσελίδες την δυνατότητα να χρησιμοποιούν

    όλες τις λειτουργίες του GoogleMaps kai μάλιστα χωρίς να είναι απαραίτητο να γραφτεί κώδικας

    σε java και διανέμεται δωρεάν για ακαδημαϊκή χρήση. Η χρήση του πακέτου απαιτεί το γράψιμο

    κώδικα, παρ’όλα αυτά ο προγραμματιστής μπορεί σχετικά εύκολα να εξοικειωθεί με την

    λειτουργία και τον τρόπο χρήσης των συναρτήσεων. To συγκεκριμένο πακέτο κάλυπτε ακριβώς

    τις ανάγκες της εφαρμογής μας καθώς με την εισαγωγή του κατάλληλου .dll αρχείου όλες οι

    υπηρεσίες του GoogleMaps εισάγονταν, κατευθείαν στην asp.net.Πλέον μπορούσε να

    δημιουργηθεί ο χάρτης μέσα στην ιστοσελίδα, να παραμετροποιηθεί ώστε να δείχνει στο

    επιθυμητό μέρος με το επιθυμητό zoom ,να εισαχθούν δυναμικά σημεία σε αυτόν τα οποία να

    έχουν την δυνατότητα τα προβάλουν οποιαδήποτε πληροφορία επιθυμεί ο προγραμματιστής

    όταν ο χρήστης κάνει κλικ σε αυτά. Ακόμα υπήρχε η δυνατότητα να μετρηθεί εύκολα η

    απόσταση δυο σημείων και να εισαχθούν διαφορετικά σύμβολα στον χάρτη ανάλογα με τις

    ανάγκες της εφαρμογής. Τέλος πολύ ενθαρρυντική ήταν η ύπαρξη πολλών ιστοσελίδων στο

    διαδίκτυο οι οποίες χρησιμοποιούσαν google maps τόσο για απλές εφαρμογές σχετιζόμενες με

    χάρτες όσο και για πιο σύνθετες καθώς και η ύπαρξη πλήρους και αναλυτικής τεκμηρίωσης από

    την μεριά της google.

    Διαχείριση βάσεων δεδομένων

    Τέλος έμεινε το κομμάτι της διαχείρισης της βάσης δεδομένων από την οποία η εφαρμογή όχι

    μόνο θα αντλεί όλα τα απαραίτητα δεδομένα αλλά θα εκτελεί και αλγόριθμο για την εξόρυξη

    γνώσης. Ο Microsoft SQL Server ήταν η επιλογή μας ανάμεσα σε αρκετές επιλογές συστημάτων

    διαχείρισης βάσεων δεδομένων που χρησιμοποιούνται ευρέως (Access, mySQL, Oracle) και

    αυτό γιατί είναι ένα σχεσιακό σύστημα διαχείρισης βάσεων δεδομένων (relation database

    management system, RDBMS) σχεδιασμένο να υποστηρίζει βάσεις δεδομένων μεγάλου όγκου

    και κρίσιμης σημασίας σε πολλά διαφορετικά πεδία εφαρμογών μερικά από τα οποία είναι τα

  • 15

    ακόλουθα: η επεξεργασία συναλλαγών εντός επικοινωνίας (on line transaction processing,

    OLTP), οι αποθήκες δεδομένων (data warehousing) και το ηλεκτρονικό εμπόριο (ecommerce)

    με υψηλές απαιτήσεις. Για την υποστήριξη αυτών των λειτουργιών ο SQL Server διαθέτει

    ορισμένα εργαλεία στα οποία περιλαμβάνονται κάποια βοηθητικά προγράμματα γραμμής

    εντολών και ο Enterprise Manager, ένα προηγμένο παραστατικό εργαλείο για την διαχείριση

    πολλών βάσεων δεδομένων και του ίδιου του SQL Server. Επίσης ένα πολύ σημαντικό στοιχείο

    για την εφαρμογή μας ήταν η ύπαρξη στον Microsoft SQL Server της υπηρεσίας Analysis Service

    η οποία δίνει δυνατότητες εκτέλεσης αλγορίθμων εξόρυξης γνώσης .

    Analysis Server[7]

    Ποιο αναλυτικά η υπηρεσία Microsoft SQL Server 2008 Analysis Services σχεδιάστηκε για να παρέχει εξαιρετική απόδοση σε μεγάλης κλίμακας εφαρμογές ώστε να υποστηρίξει υλοποιήσεις με εκατομμύρια αρχείων και χιλιάδες χρήστες. Τα καινοτόμα, εργαλεία βοηθούν στην βελτίωση της παραγωγικότητας, του σχεδιασμού και της υλοποίησης της λύσης. Οι προγραμματιστές μέχρι τώρα χρησιμοποιούσαν πολλαπλά εργαλεία για την ανάπτυξη εφαρμογών με εξόρυξη γνώσης, πράγμα που δυσχέραινε το έργο τους και αύξανε των όγκο των γνώσεων που έπρεπε να έχουν. Με τις υπηρεσίες Analysis Services, οι προγραμματιστές μπορούν να χρησιμοποιήσουν το SQL Server Business Intelligence Development Studio (BIDS) σε όλο τον κύκλο ανάπτυξης από την αρχή του προγράμματος μέχρι το τέλος . Επειδή το SQL Server Business Intelligence Development Studio είναι βασισμένο στο Visual Studio, παρέχει δυνατότητες σχεδιασμού, ανάπτυξης, συνεργασίας, βελτιστοποίησης, και δοκιμής τις κάθε λύσης. Όλα αυτά παρέχουν ένα περιβάλλον όπου οι υπεύθυνοι για την ανάπτυξη μπορούν να λειτουργήσουν γρηγορότερα και αποτελεσματικότερα. Οι ικανότητες ανάλυσης επεκτείνονται με την δυνατότητα πρόβλεψης και ενισχύουν το σύνολο εργαλείων εξόρυξης γνώσης. Η απλή πρόσβαση στα δεδομένα δεν είναι πλέον επαρκής για την πλήρη αξιοποίηση τους. Οι χρήστες χρειάζονται εξειδικευμένα εργαλεία και οι προγραμματιστές πρέπει να είναι σε θέση να αναπτύξουν εφαρμογές με αυτά. Οι υπηρεσίες ανάλυσης παρέχουν βελτιστοποιημένη διαλειτουργικότητα και διεπαφές ώστε να επιτρέψουν στους προγραμματιστές την ανάπτυξη τέτοιων εφαρμογών. Αν και το SQL Server Business Intelligence Development Studio είναι ποιο εύχρηστο λόγω της ύπαρξης γραφικού περιβάλλοντος, στην δική μας εφαρμογή ήταν απαραίτητη η χρήση κώδικα ώστε η εξόρυξη γνώσης να καθορίζεται δυναμικά ανάλογα με τις απαιτήσεις του χρήστη. Για να το πετύχουμε αυτό κάναμε χρήση της βιβλιοθήκης ADOMD.NET η οποία αν και μοιάζει με την ADO.NET είναι εξειδικευμένη για την εκτέλεση εντολών που έχουν να κάνουν με εξόρυξη γνώσης και προσφέρει ειδικές κλάσεις και διασυνδέσεις. Επίσης είναι διαθέσιμη σε πολλές γλώσσες προγραμματισμού όπως Visual Basic .NET,J#, και βέβαια C# που μας ενδιαφέρει στην προκειμένη περίπτωση.

  • 16

    4.Περιβαλλοντικά δεδομένα και περιβαλλοντικές βάσεις

    Χωρικά δεδομένα[8]

    Tα χωρικά δεδομένα είναι δεδομένα, τα οποία έχουν μια χωρική συνιστώσα (ή συνιστώσα θέσης). Μπορούν να θεωρηθούν ως δεδομένα αντικειμένων τα οποία βρίσκονται σε έναν φυσικό χώρο. Αυτό μπορεί να δηλώνεται ρητά με ένα ή περισσότερα γνωρίσματα θέσης, όπως η διεύθυνση ή το γεωγραφικό πλάτος / μήκος ή μπορεί να υπονοείται, όπως με μια διαμέριση της βάσης δεδομένων η οποία βασίζεται στη θέση. Επιπλέον, τα χωρικά δεδομένα μπορούν να προσπελαστούν χρησιμοποιώντας ερωτήσεις που περιέχουν χωρικούς τελεστές όπως οι τελεστές "κοντά", "βόρεια", "νότια", "γειτονικά" και "περιέχεται σε". Τα χωρικά δεδομένα αποθηκεύονται σε βάσεις χωρικών δεδομένων που περιέχουν τόσο τη χωρική όσο και τη μη χωρική πληροφορία. Εξαιτίας της ενυπάρχουσας πληροφορίας της απόστασης που σχετίζεται με τα χωρικά δεδομένα, οι βάσεις χωρικών δεδομένων πολύ συχνά χρησιμοποιούν ειδικές δομές δεδομένων ή ευρετήρια τα οποία είναι χτισμένα με βάση την πληροφορία απόστασης ή τοπολογίας. Όσον αφορά την εξόρυξη γνώσης, αυτή η πληροφορία απόστασης παρέχει τη βάση για τις αναγκαίες μετρήσεις ομοιότητας.

    Τα χωρικά δεδομένα είναι απαιτούμενα για πολλά σύγχρονα πληροφοριακά συστήματα. Τα Συστήματα Γεωγραφικών Πληροφοριών (GIS) αποθηκεύουν πληροφορίες που σχετίζονται με κάποια γεωγραφική θέση στην επιφάνεια της γης. Χρησιμοποιούνται σε εφαρμογές που σχετίζονται με τον καιρό, τις κοινωνικές υποδομές, τη διαχείριση καταστροφών και τα επικίνδυνα απόβλητα. Οι εργασίες εξόρυξης γνώσης από τα δεδομένα περιλαμβάνουν την πρόβλεψη περιβαλλοντικών καταστροφών. Οι βιοφαρμακευτικές εφαρμογές, συμπεριλαμβανομένων της επεξεργασίας ιατρικών εικόνων και της διάγνωσης ασθενειών, επίσης απαιτούν χωρικά συστήματα.

    Η εξόρυξη χωρικής γνώσης που συχνά καλείται ανακάλυψη γνώσης από βάσεις χωρικών δεδομένων, είναι εξόρυξη γνώσης που εφαρμόζεται πάνω σε βάσεις χωρικών δεδομένων ή χωρικά δεδομένα. Ορισμένες από τις εφαρμογές εξόρυξης χωρικής γνώσης εντάσσονται στα πεδία των GIS, γεωλογίας, περιβαλλοντικής επιστήμης, διαχείρισης πόρων, γεωργίας, ιατρικής και ρομποτικής. Πολλές από τις τεχνικές εφαρμόζονται απευθείας σε χωρικά δεδομένα, υπάρχουν όμως νέες τεχνικές και αλγόριθμοι που αναπτύχθηκαν ειδικά για εξόρυξη χωρικών δεδομένων. Εδώ να σημειωθεί ότι η προσπέλαση των χωρικών δεδομένων μπορεί να είναι πιο πολύπλοκη από αυτήν των μη χωρικών δεδομένων. Υπάρχουν ειδικές λειτουργίες και δομές δεδομένων που χρησιμοποιούνται για την προσπέλαση των χωρικών δεδομένων.

    Τα χρονικά δεδομένα[10]

    Οι βάσεις δεδομένων συνήθως δεν περιέχουν χρονικά δεδομένα. Αντιθέτως, τα δεδομένα που είναι αποθηκευμένα αφορούν σε ένα συγκεκριμένο σημείο στο χρόνο. Για το λόγο αυτό μια τέτοια βάση δεδομένων αποκαλείται βάση στιγμιότυπου (snapshot database). Για παράδειγμα, μια βάση με εγγραφές υπαλλήλων περιέχει μόνο τους υπάλληλους που εργάζονται την παρούσα στιγμή στην επιχείρηση και όχι όλους όσους έχουν εργαστεί κατά καιρούς σε αυτήν. Εντούτοις, πολλές ερωτήσεις δεν μπορούν να απαντηθούν από αυτή τη βάση στιγμιότυπου. Ένα διευθυντικό στέλεχος μπορεί να επιθυμεί να παρατηρήσει τάσεις της επιχείρησης στην πρόσληψη και απόλυση υπαλλήλων, ή να παρατηρήσει τη διαφορετικότητα των εθνικοτήτων

  • 17

    των υπαλλήλων και πώς αυτή αλλάζει με την πάροδο του χρόνου. Οι ερωτήσεις εξόρυξης γνώσης αυτού του τύπου απαιτούν χρονικά δεδομένα. Σε μία χρονική βάση (temporal database), τα δεδομένα αποθηκεύονται για πολλαπλά σημεία στο χρόνο και όχι μόνο για ένα. Το παρακάτω παράδειγμα παρουσιάζει μια χρονική βάση που αποθηκεύει δεδομένα για υπαλλήλους. Είναι προφανές ότι η αποθήκευση τριών ξεχωριστών εγγραφών για τον ίδιο υπάλληλο είναι μη αποδοτική και μπορούν να εφαρμοστούν τεχνικές για την εξάλειψη τέτοιων πλεονασμών. Το επόμενο παράδειγμα δείχνει απλώς την γενική ιδέα. Κάθε πλειάδα περιέχει πληροφορία που είναι έγκυρη από την ημερομηνία που αναφέρεται στην πλειάδα αυτή μέχρι την ημερομηνία που αναφέρεται στην επόμενη πλειάδα σε χρονολογική σειρά.

    Η εταιρεία ΧΥΖ χρησιμοποιεί μια χρονική βάση για να αποθηκεύει πληροφορίες για τους υπαλλήλους της. Για κάθε υπάλληλο διατηρούνται πληροφορίες για τον Αριθμό Φορολογικού Μητρώου (ΑΦΜ), το όνομα του, τη διεύθυνση του και το μισθό του. Όταν γίνεται η εισαγωγή μιας εγγραφής στη βάση, αποθηκεύεται η τρέχουσα ημερομηνία. Ο Joe Smith προσλήφθηκε στις 12/02/2002 με μισθό $50,000. Στον εξάμηνο έλεγχο επίδοσης του δόθηκε αύξηση $2,000 και προαγωγή. Στις 10/12/2002 μετακόμισε σε νέα διεύθυνση. Στο τέλος του 2002 υπήρχαν τρεις εγγραφές στη βάση για τον Joe Smith:

    Ημερ/νία Ονοματεπώνυμο ΑΦΜ Διεύθυνση Μισθός

    12/02/2002 Smith Joe 123456789 10 Moss Haven $50,000 12/08/2002 Smith Joe 123456789 10 Moss Haven $52,000 10/12/2002 Smith Joe 123456789 13 Chesterton $52,000

    Η ανάλυση χρονικών δεδομένων (ή δεδομένων που μεταβάλλονται με το χρόνο) παρουσιάζει πολλές ενδιαφέρουσες προκλήσεις. Για παράδειγμα, υπάρχουν πολλές διαφορετικές αναπαραστάσεις για το χρόνο. Στο Παράδειγμα 9.1 η ημερομηνία που αποθηκεύεται στην εγγραφή είναι η ημερομηνία από την οποία ισχύουν οι πληροφορίες που αναγράφονται. Αυτό συχνά αναφέρεται ως χρόνος εγκυρότητας. Ο χρόνος εγκυρότητας (valid time) είναι η χρονική στιγμή για την οποία μια πληροφορία είναι αληθής στον πραγματικό κόσμο. Αυτός συνήθως αποτελείται από αρχικό χρόνο και τελικό χρόνο. Στο συγκεκριμένο παράδειγμα ο τελικός χρόνος υπονοείται ότι είναι ο αρχικός χρόνος της επόμενης εγγραφής για τον ίδιο υπάλληλο. Ένας άλλος χρόνος που μπορεί να χρησιμοποιηθεί είναι ο χρόνος συναλλαγής. Ο χρόνος συναλλαγής (transaction time) είναι η χρονοσφραγίδα που σχετίζεται με την συναλλαγή που έκανε την εισαγωγή της εγγραφής (είναι η χρονική στιγμή κατά την οποία έγινε η εισαγωγή της εγγραφής στη βάση). Αυτός μπορεί να διαφέρει από τον αρχικό χρόνο εγκυρότητας. Το χρονικό διάστημα συναλλαγής είναι το χρονικό διάστημα κατά το οποίο η εγγραφή υπήρχε στη βάση. Για παράδειγμα, ο Joe Smith μπορεί να υπέδειξε στις 15/11/2002 ότι η νέα του διεύθυνση θα ισχύει από τις 10/12/2002. Ο αρχικός χρόνος εγκυρότητας για τη νέα διεύθυνση ήταν 10/12/2002 όμως ο χρόνος συναλλαγής ήταν 15/11/2002. Μπορούν επίσης να χρησιμοποιηθούν διάφοροι άλλοι χρονικοί τύποι. Όταν οι σχετικές με έναν υπάλληλο πληροφορίες αλλάζουν, μια νέα πλειάδα εισάγεται στη βάση. Αλλαγές ή διαγραφές επιτρέπονται μόνο για να διορθωθούν δεδομένα που εισήχθησαν λανθασμένα.

    Μέχρι στιγμής είδαμε ότι τα χρονικά δεδομένα αναφέρονται σε μια χρονική διάρκεια, δηλαδή έχουν έναν αρχικό χρόνο και έναν τελικό χρόνο. Σε αυτήν την αναπαράσταση, το διάστημα τιμών [ts, te] σχετίζεται με κάθε εγγραφή. Εδώ, ts είναι ο αρχικός χρόνος και te ο τελικός χρόνος. Διαφορετικές χρονικές αναπαραστάσεις μπορούν να χρησιμοποιηθούν. Μια χρονοσφραγίδα μπορεί να χρησιμοποιηθεί αντί ενός διαστήματος. Αυτό συμβαίνει συχνά σε χρονολογικές σειρές όπου συγκεκριμένες τιμές σχετίζονται με μια χρονική στιγμή. Για παράδειγμα, μια κοινή

  • 18

    χρονολογική σειρά είναι αυτή που δείχνει την τιμή μιας μετοχής στο κλείσιμο του χρηματιστηρίου κάθε μέρα. Αυτή είναι η τιμή της μετοχής σε μια συγκεκριμένη τιμή στο χρόνο.

    Υπάρχουν πολλά διαφορετικά παραδείγματα για χρονικά δεδομένα. Οι δορυφόροι συνέχεια συλλέγουν εικόνες και δεδομένα από διάφορους αισθητήρες. Οι πληροφορίες αυτές είναι χρονικές και σχετίζονται με συγκεκριμένες στιγμές στο χρόνο (οι στιγμές που συλλέγονται). Σε ένα νοσοκομείο φυλάγονται εκτυπώσεις καρδιογραφημάτων για τους ασθενείς. Αυτά παρουσιάζουν μια συνεχή όψη χρονικών δεδομένων. Όταν λαμβάνεται ένα ηλεκτροεγκεφαλογράφημα από έναν ασθενή, πολλά διαφορετικά κύματα από τον εγκέφαλο μετριούνται παράλληλα. Κάθε κύμα αναπαριστά ένα συνεχές στο χρόνο σύνολο τιμών.

    Περιβαλλοντικές βάσεις δεδομένων

    Η λύση των σοβαρών προβλημάτων στην προστασία του περιβάλλοντος, την περιβαλλοντική

    διαχείριση, και την περιβαλλοντική έρευνα μπορεί να βασιστεί μόνο στην αποτελεσματική

    χρήση περιεκτικών και αξιόπιστων πληροφοριών για το περιβάλλον μας. Οι πληροφορίες που

    συλλέγονται αυτήν την περίοδο λαμβάνουν τη μορφή βιολογικών, φυσικών, χημικών,

    γεωλογικών μετεωρολογικών στοιχείων περιγράφοντας την κατάσταση και τη δυναμική του

    περιβάλλοντός μας. Η διαθεσιμότητα των πληροφοριών γίνετε όλο και ποιο σημαντική στην

    κοινωνία μας. Οι πληροφορίες θα γίνουν ένα από τα πολυτιμότερα προτερήματα σε πολλές από

    το τις δραστηριότητες μας. Εντούτοις, είναι ήδη προφανές ότι λόγω του πολλαπλασιασμού των

    πληροφοριών, η δυνατότητα να ληφθεί η κατάλληλη πληροφορία σε κάθε περίπτωση γίνετε

    όλο και ποιο δύσκολη. Αυτό είναι ιδιαίτερα εμφανές στα περιβαλλοντολογικά θέματα. Το

    βασικό πρόβλημα εν προκειμένω είναι πού να αναζητηθεί η σχετική πληροφορία στις

    περιβαλλοντικές ερωτήσεις

    Ορισμός περιβαλλοντικής βάσης δεδομένων και συστήματος πληροφοριών

    Τα περιβαλλοντικά στοιχεία είναι τεχνικά, χωρικά, και χρονικά στοιχεία για το περιβάλλον, όπως

    τον αέρα, το νερό, και το χώμα. Αυτά αναφέρονται στα απόβλητα ,τον θόρυβο, τις επικίνδυνες

    ουσίες, την πανίδα την χλωρίδα, την φύση, και στην διαιώνιση των ειδών. Με τη βοήθεια της

    ανάλυσης και της ερμηνείας αυτών των στοιχείων μπορούν να δημιουργηθούν οι

    περιβαλλοντικές πληροφορίες. Μια περιβαλλοντική βάση δεδομένων είναι ένας ιδιαίτερος

    τύπος βάσης δεδομένων ο οποίος αποθηκεύει κυρίως περιβαλλοντικά στοιχεία. Σύμφωνα με

    τους ειδικούς πάνω στην περιβαλλοντική πληροφορία, μια βάση δεδομένων μπορεί να

    αποκαλεστεί περιβαλλοντική εάν πληρούνται οι ακόλουθοι τρεις όροι

    η πλειοψηφία των στοιχείων είναι περιβαλλοντικά στοιχεία

  • 19

    ένα σύστημα βάσεων δεδομένων χρησιμοποιείται για την αποθήκευση αυτών των

    στοιχείων

    η βάση δεδομένων καθιερώνεται ως βάση για περιβαλλοντική χρήση και

    περιβαλλοντικές έρευνες.

    Τα συστήματα περιβαλλοντικών πληροφοριών (EIS), χρησιμοποιούνται όπως μια τεχνολογική

    οργανωτική υποδομή που παρέχει τις περιβαλλοντικές πληροφορίες από διαφορετικές

    περιβαλλοντικές βάσεις δεδομένων, που είναι συχνά γεωγραφικά διαχωρισμένες. Επομένως τα

    συστήματα περιβαλλοντικών πληροφοριών θεωρούνται μερικές φορές εκτεταμένα γεωγραφικά

    συστήματα πληροφοριών (GIS). Εντούτοις, το EIS διαχειρίζετε επίσης θεματικά στοιχεία (δηλ.,

    περιβαλλοντικά γεγονότα όπως οι τιμές μέτρησης στις χημικές ιδιότητες ουσιών,

    περιβαλλοντικά έγγραφα, ερευνητικά προγράμματα, νόμους, και κανονισμούς) ή στοιχεία με

    χρονική πληροφορία (π.χ., αλλαγές χρήσης γης, ή διακυμάνσεις σε σχέση με τον χρόνο για

    επικίνδυνες ουσίες).

    Τύποι περιβαλλοντικών βάσεων δεδομένων

    Αυτός είναι ο περιεκτικότερος τρόπος να ταξινομηθούν οι περιβαλλοντικές βάσεις δεδομένων.

    Στην εξειδικευμένη γλώσσα των επιστημών των πληροφοριών, οι βάσεις δεδομένων

    διαιρούνται σε διάφορους τύπους σύμφωνα με τη δομή τους και τους τύπους πληροφοριών .

    Στο πρώτο επίπεδο χωρίζονται σε ,βάσεις με γεγονότα , βάσεις κείμενου,

    ολοκληρωμένες(integrated) βάσεις δεδομένων όπως φαίνετε στο σχήμα.

  • 20

    Διαχωρισμός περιβαλλοντικών βάσεων

    Ο ορος βάσεις γεγονότων δεν είναι σαφώς ορισμένος. Συνήθως γίνεται αποδεκτό ότι αυτός ο

    τύπος βάσεων δεδομένων αποτελείται από γεγονότα. Ο όρος γεγονός σε αυτή την περίπτωση

    είναι βασισμένος στην έννοια των ιδιοτήτων και των χαρακτηριστικών. Επομένως οι βασισμένες

    σε γεγονότα πληροφορίες είναι περισσότερο δομημένες από τις πληροφορίες κειμένου. Πρέπει

    να τονιστεί ότι στις περισσότερες βάσεις δεδομένων υπάρχει συνδυασμός βάσεων κειμένου

    και βάσεων γεγονότων. Αυτές αποκαλούνται ετερογενείς βάσεις δεδομένων και ενσωματώνουν

    κείμενο, γεγονότα, γραφικά, δεδομένα πινάκων κ.α.

    Οι βάσεις γεγονότων διαιρούνται σε αριθμητικές βάσεις δεδομένων,

    metadatabases, ερευνητικές βάσεις δεδομένων, και καταλόγους χημικών ουσιών

    Οι βάσεις κειμένου διαιρούνται σε βιβλιογραφικές και σε βάσεις ολοκληρωμένου

    κειμένου

    Οι ολοκληρωμένες(integrated) βάσεις δεδομένων διαιρούνται σε αυτήν την

    προσέγγιση σε δομικές και βάσεις δεδομένων αντίδρασης

  • 21

    Εδώ θα γίνει μια σύντομη περιγραφή για το τι ακριβώς είναι η συσταδοποίηση που

    χρησιμοποιήθηκε στην δική μας εφαρμογή

  • 22

    5.Clustering [2]

    Η συσταδοποίηση είναι ίσως η πιο γνωστή και πιο δημοφιλής τεχνική της εξόρυξης γνώσης. Παραδείγματα εφαρμογών της κατηγοριοποίησης περιλαμβάνουν αναγνώριση προτύπων και εικόνας, ιατρική διάγνωση, έγκριση δανείων, ανίχνευση λαθών σε βιομηχανικές εφαρμογές, όπως επίσης και κατηγοριοποίηση των τάσεων στην οικονομία. Η εκτίμηση και η πρόβλεψη μπορούν να θεωρηθούν σαν ειδικοί τύποι της κατηγοριοποίησης. Όταν κάποιος κάνει μία εκτίμηση της ηλικίας ή μαντεύει τον αριθμό από βότσαλα σε ένα δοχείο, αυτά είναι στην πραγματικότητα προβλήματα κατηγοριοποίησης. Η πρόβλεψη μπορεί να θεωρηθεί σαν η κατηγοριοποίηση της τιμής ενός γνωρίσματος σε μία από ένα σύνολο από πιθανές κλάσεις. Ενώ συνήθως θεωρείται ότι προβλέπουμε μία συνεχή τιμή, η κατηγοριοποίηση προσπαθεί να προβλέψει μία διακριτή τιμή. Πριν από τη χρήση των πρόσφατων τεχνικών της εξόρυξης γνώσης, η κατηγοριοποίηση συχνά εκτελούνταν με απλή εφαρμογή της γνώσης από τα δεδομένα. Αυτό φαίνεται στο παρακάτω παράδειγμα:

    Οι δάσκαλοι κατηγοριοποιούν τους μαθητές ως Α, Β, C, D ή F με βάση τους βαθμούς τους. Χρησιμοποιώντας απλά όρια (60,70,80,90), η επόμενη κατηγοριοποίηση είναι πιθανή:

    90 < βαθμός Α

    80 < βαθμός < 90 Β

    70 < βαθμός < 80 C

    60 < βαθμός < 70 D

    βαθμός < 60 F

    Όλες οι προσεγγίσεις στην εκτέλεση της κατηγοριοποίησης προϋποθέτουν κάποια γνώση των δεδομένων. Συχνά ένα σύνολο εκπαίδευσης χρησιμοποιείται για να καθορίσει τις συγκεκριμένες παραμέτρους που απαιτούνται από την τεχνική. Τα δεδομένα εκπαίδευσης (training data) αποτελούνται από ένα δείγμα δεδομένων της εισόδου όπως επίσης και από την κατηγοριοποίηση που έχει δοθεί σε αυτά τα δεδομένα. Ειδικοί του τομέα εφαρμογής μπορεί επίσης να χρησιμοποιηθούν για να βοηθήσουν στη διαδικασία.

    Η κατηγοριοποίηση είναι μία απεικόνιση από τη βάση δεδομένων στο σύνολο των κατηγοριών. Παρατηρείστε ότι οι κατηγορίες είναι προκαθορισμένες, δεν είναι επικαλυπτόμενες και διαμερίζουν ολόκληρη τη βάση δεδομένων. Κάθε πλειάδα της βάσης δεδομένων εκχωρείται σε ακριβώς μία κατηγορία. Οι κατηγορίες που υπάρχουν για ένα πρόβλημα κατηγοριοποίησης είναι στην πραγματικότητα κλάσεις ισοδυναμίας (equivalence classes). Στην πραγματικότητα, το πρόβλημα συνήθως υλοποιείται σε δύο φάσεις:

    1. Δημιουργούμε ένα συγκεκριμένο μοντέλο από την αξιολόγηση των δεδομένων εκπαίδευσης. Αυτό το βήμα έχει σαν είσοδο τα δεδομένα εκπαίδευσης (συμπερι-λαμβανομένης της ορισμένης κατηγοριοποίησης για κάθε πλειάδα) και σαν έξοδο ένα ορισμό του μοντέλου που αναπτύχθηκε. Το μοντέλο που δημιουργήθηκε κατη-γοριοποιεί τα δεδομένα εκπαίδευσης όσο το δυνατόν με μεγαλύτερη ακρίβεια.

    2. Εφαρμόζουμε το μοντέλο που αναπτύχθηκε στο βήμα 1 κατηγοριοποιώντας τις πλει-άδες της υπό εξέταση βάσης δεδομένων.

    Εάν και το δεύτερο βήμα στην πραγματικότητα εκτελεί την κατηγοριοποίηση, η περισσότερη έρευνα έχει γίνει για το βήμα 1. Το βήμα 2 είναι συχνά εύκολο στην υλοποίηση.

  • 23

    Η ανάλυση σε ομάδες έχει σκοπό να διαχωρίσει το σύνολο των παρατηρήσεων σε φυσικές

    οµάδες, έτσι ώστε τα µέλη κάθε οµάδας να είναι όσο το δυνατό όµοια µεταξύ τους, ενώ τα µέλη

    διαφορετικών οµάδων να είναι όσο το δυνατό ανόµοια. Γεωμετρικά αυτό σηµαίνει ότι δύο

    όµοιες παρατηρήσεις θα βρίσκονται σε γειτονικά σηµεία, ενώ δύο ανόµοιες σε αποµακρυσµένα

    σηµεία .

    Η µέτρηση της απόστασης και της οµοιότητας είναι ουσιαστικής σηµασίας αφού οι

    παρατηρήσεις οµαδοποιούνται µε βάση αυτή την απόσταση. Υπάρχουν διάφορα µέτρα

    απόστασης, όπως η ευκλείδια απόσταση, η απόσταση Manhatan, η απόσταση Chebychev, o

    συντελεστής συσχέτισης τουPearson κ.ά.

    Η πιο συνηθισμένη µμέθοδος σχηµατισµού οµάδων είναι η ιεραρχική ανάλυση η οποία

    χρησιµοποιεί δύο τεχνικές, τη συσσωρευτική ανάλυση σε οµάδες ή την επιµεριστική ανάλυση

    σε οµάδες. Στη συσσωρευτική ανάλυση, οι οµάδες σχηµατίζονται µε την οµαδοποίηση των

    παρατηρήσεων σε όλο και µεγαλύτερες οµάδες, έως ότου όλες οι παρατηρήσεις γίνουν µέλη

    µιας και µόνο οµάδας. Η επιµεριστική ανάλυση αρχίζει µε όλες τις παρατηρήσεις

    οµαδοποιηµένες σε µια οµάδα και τις επιµερίζει µέχρις ότου γίνουν τόσες οµάδες όσες και οι

    παρατηρήσεις.

    Η πιο συνηθισµένη µέθοδος είναι η πρώτη. Υπάρχουν πολλά κριτήρια που καθορίζουν ποιες

    παρατηρήσεις ή οµάδες πρέπει να συνδυαστούν σε κάθε στάδιο, και διαφέρουν στον τρόπο µε

    τον οποίο εκτιµούν τις αποστάσεις µεταξύ των οµάδων στα διαδοχικά στάδια. Ανάλογα µε το

    κριτήριο που χρησιµοποιούµε µπορούµε να καταλήξουµε σε διαφορετικές κάθε φορά

    οµαδοποιήσεις. Όλα τα κριτήρια στηρίζονται σε πίνακα αποστάσεων µεταξύ ζευγών

    παρατηρήσεων.

    Κριτήριο εγγύτερου γείτονα (nearest neighbour ). Με αυτό συνδυάζονται οι δύο πρώτες

    παρατηρήσεις που έχουν την µικρότερη απόσταση µεταξύ τους. Υπολογίζεται στη

    συνέχεα η µικρότερη απόσταση µεταξύ µιας παρατήρησης στη νέα οµάδα και µιας άλλης

    εξατοµικευµένης παρατήρησης. Σε κάθε στάδιο η απόσταση µεταξύ δύο οµάδων

    θεωρείται η απόσταση µεταξύ των εγγύτερων σηµείων τους.

    Κριτήριο απώτερου γείτονα ( farthest neighbour ) . Ίδια λογική µε την προηγούµενη µε

    την διαφορά ότι η απόσταση µεταξύ των οµάδων υπολογίζεται ως αυτή των µακρύτερων

    σηµείων τους.

    Κριτήριο µέσου δεσµού. Ορίζει την απόσταση µεταξύ δύο οµάδων ως τη µέση τιµή των

    αποστάσεων µεταξύ όλων των ζευγών των παρατηρήσεων, όπου ένα µέλος ζεύγους

    προέρχεται από καθεµιά από τις οµάδες. Είναι γνωστό ότι στην ανάλυση σε οµάδες δεν

    υπάρχει η δυνατότητα στατιστικών ελέγχων. Επίσης η οµαδοποίηση εξαρτάται πολλές

    φορές από το κριτήριο ομαδοποίησης. Τα αποτελέσµατα της ανάλυσης φαίνονται από

    το συσσωρευτικό σχέδιο και το δενδρόγραμμα.

  • 24

    Συσσωρευτικό σχέδιο. Η πρώτη σειρά αφορά το πρώτο στάδιο, η δεύτερη το δεύτερο

    στάδιο κτλ. µέχρι τον αριθµό των διαφορετικών επιλογών. Επίσης φαίνονται σε στήλη

    οι συντελεστές που αφορούν το τετράγωνο της ευκλείδειας απόστασης των αντίστοιχων

    παρατηρήσεων του σταδίου.

    δενδρόγραμμα. Οι πληροφορίες που υπάρχουν στο συσσωρευτικό σχέδιο

    αποτυπώνονται στο δενδρόγραμμα µε τις αποστάσεις-συντελεστές να

    επανακλιµακώνονται σε κλίμακα εύρους 0-25. Σε αυτό οι κάθετες γραµµές δηλώνουν

    συνδυασµούς οµάδων παρατηρήσεων, ενώ το µήκος κάθε γραµµής δηλώνει την

    απόσταση κατά την οποία οι οµάδες συνδυάζονται. ∆ιαφορετική οµάδα σχηµατίζεται

    όταν εµφανίζεται κενό στο δενδρόγραµµα και η απόσ�