Nimertis_Pagouropoulos

170
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΄΄ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ΄΄ Τμήμα Μαθηματικών και Τμημα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ «Data Mining στην Χρηματοοικονομική Ανάλυση» Μεταπτυχιακός Φοιτητής: Παγουρόπουλος Απόστολος ΑΜ: 150 Επιβλέπων Καθηγητής: Βουτσινάς Βασίλης Πάτρα 17 Οκτωβρίου 2006

Transcript of Nimertis_Pagouropoulos

Page 1: Nimertis_Pagouropoulos

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ

ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ

΄΄ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ΄΄

Τμήμα Μαθηματικών και Τμημα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ

«Data Mining στην Χρηματοοικονομική Ανάλυση»

Μεταπτυχιακός Φοιτητής: Παγουρόπουλος Απόστολος ΑΜ: 150 Επιβλέπων Καθηγητής: Βουτσινάς Βασίλης Πάτρα 17 Οκτωβρίου 2006

Page 2: Nimertis_Pagouropoulos

ΠΕΡΙΕΧOΜΕΝΑ ΕΡΓΑΣΙΑΣ Πρόλογος σελ 2 0. Εισαγωγή σελ 3 Ά μέρος

1. Λίγα για την Τεχνητή Νοημοσύνη σελ 4 2. Η τεχνική Data Mining / Εξόρυξη από Δεδομένα σελ 6

2.1. Τα στάδια της διαδικασίας Data Mining σελ 10

2.2. Μέθοδοι της τεχνικής Data Mining σελ 12

2.2.1. Ταξινόμηση (Classification) σελ 13 2.2.2. Ομαδοποίηση (Clustering) σελ 21 2.2.2.1. Oμαδοποιώντας μεγάλα σύνολα / Clustering large datasets σελ 33 2.2.3. Συσχέτιση (Dependency Modeling) σελ 40 2.2.4. Άλλες μέθοδοι Data Mining σελ 43

2.3. Εφαρμογές της μεθόδου Data Mining σε διάφορα επιστημονικά πεδία σελ 44

΄Β μέρος Εφαρμογές Data Mining στο χρηματοοικονομικό περιβάλλον Ενότητα Ά

1. Δημιουργώντας ένα μοντέλο πρόβλεψης σελ 47 2. Σημαντικές μορφές μοντέλων πρόβλεψης Data Mining σελ 56

2.1. Το στατιστικό μοντέλο ARIMA, ARIMA model σελ 56

2.2. Relational Data Mining σελ 61

Page 3: Nimertis_Pagouropoulos

2.3. Αξιοποιώντας χρονοσειρές που αφορούν την συμπεριφορά μετοχών / Stock time series pattern matching: Template-based vs. Rule-based approaches σελ 67

2.4. Μοντέρνες μεθοδολογίες για την Ανεύρεση Γνώσης στα

χρηματοοικονομικά σελ 70

Ενότητα ΄Β 3. Προκλήσεις που πηγάζουν από τα χρηματοοικονομικά σελ 72

3.1. Πτώχευση σελ 73

3.2. Πιστωτικός κίνδυνος επιχειρήσεων σελ 77

3.3. Διαχείριση και επιλογή χαρτοφυλακίου σελ 79

3.4. Μεταβλητότητα σελ 84

3.5. Διαχείριση πιστώσεων (εμπορικές πιστώσεις) σελ 87

3.6. Βιωσιμότητα των επιχειρήσεων σελ 88 ΄Γ μέρος Πειραματικά αποτελέσματα σε πραγματικά δεδομένα Α. Εφαρμόζοντας την μέθοδο της Συσχέτισης για θέματα Διαχείρισης

Χαρτοφυλακίου σελ 93 Β. Εφαρμόζοντας τις μεθόδους Ταξινόμησης και Ομαδοποίησης στην

Χρηματοοικονομική Ανάλυση για θέματα Βιωσιμότητας και Πτώχευσης των επιχειρήσεων σελ 119

Β1. Εφαρμόζοντας την μέθοδο της Ταξινόμησης στην

Χρηματοοικονομική Ανάλυση σελ 123 Β2. Εφαρμόζοντας την μέθοδο της Ομαδοποίησης στην

Χρηματοοικονομική Ανάλυση σελ 146 4. Συμπεράσματα, μελλοντικές προκλήσεις σελ 162 Βιβλιογραφία / Πηγές σελ 163

Page 4: Nimertis_Pagouropoulos
Page 5: Nimertis_Pagouropoulos

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών «Μαθηματικά των Υπολογιστών και των Αποφάσεων»

Επιβλέπων: Βασίλης Βουτσινάς Τριμελής επιτροπή: Βασίλης Βουτσινάς, Ιωάννης Χατζηλυγερούδης, Κωνσταντίνος Τσεκούρας Μεταπτυχιακός: Παγουρόπουλος Απόστολος ΑΜ:150 Περίληψη της διπλωματικής εργασίας: Data Mining στην Xρηματοοικονομική Ανάλυση Η εργασία με τίτλο Data Mining στην Χρηματοοικονομική Ανάλυση, έχει σαν στόχο να αναδείξει τον βαθμό που μπορούν οι μέθοδοι Data Mining να αξιοποιήσουν τα οποιαδήποτε οικονομικά δεδομένα και να εξάγουν χρήσιμα συμπεράσματα και γνώση. Στο περιεχόμενο της εργασίας παρουσιάζεται η σημασία και η έννοια της τεχνικής Data Mining, περιγράφονται οι σημαντικότερες μέθοδοι (Ταξινόμηση, Ομαδοποίηση, Συσχέτιση) καθώς και πληροφορίες για τα διάφορα πεδία που εφαρμόζεται. Στην συνέχεια παραθέτονται στοιχεία σχετικά με την εφαρμογή της μεθόδου σε οικονομικά δεδομένα καθώς και στους τρόπους επεξεργασίας αυτών των δεδομένων και εστιάζουμε σε ζητήματα που απασχολούν την σύγχρονη οικονομία και στο πως αντιμετωπίζονται. Τέλος έχουν συλλεχθεί οικονομικά στοιχεία από εταιρείες οι οποίες έχουν πτωχεύσει και από εταιρείες που συνεχίζουν να λειτουργούν, καθώς και από μετοχές τραπεζών τα οποία θα χρησιμοποιηθούν για την εκπαίδευση αλγορίθμων Ταξινόμησης, Ομαδοποίησης και Συσχέτισης όπου από τους ελέγχους που θα διενεργηθούν, θα εξαχθούν συμπεράσματα σχετικά με το πόσο ικανοποιητικά είναι τα αποτελέσματα που λάβαμε για την αντιμετώπιση θεμάτων όπως η πτώχευση, η βιωσιμότητα οικονομικών οργανισμών και η μελέτη στοιχείων που αφορούν την συμπεριφορά των μετοχών. Λέξεις κλειδιά: Data Mining, Ταξινόμηση, Ομαδοποίηση, Συσχέτιση, αλγόριθμοι, μετοχές, πτώχευση, βιωσιμότητα, αριθμοδείκτες. Summary of project: Data Mining in Financial Analysis This project is about Data Mining methods and how we can use them in Financial Analysis. We describe the most popular methods, such as Classification, Clustering and Association. In addition, we focus on ways of financial data preprocessing and on topics that concern finance in general. Finally we use real financial data in order to train algorithms of all methods to extract knowledge and test the quality of results we earn, in topics that concern enterprises like financial / economic failure, viability, and stock market analysis. Keywords: Data Mining, Classification, Clustering / Cluster Analysis, Association, algorithms, financial / economic failure, viability, stock market analysis.

Page 6: Nimertis_Pagouropoulos
Page 7: Nimertis_Pagouropoulos

Η εργασία αυτή υλοποιήθηκε ώστε να διερευνηθεί η σχέση που μπορεί να υπάρξει μεταξύ των τεχνικών Data Mining / Εξόρυξη από Δεδομένα και της Χρηματοοικονομικής Ανάλυσης. Συλλέχτηκαν πληροφορίες για την θεωρητική θεμελίωση την τεχνικής Data Mining, από διάφορα επιστημονικά συγγράμματα, ώστε να γίνει μία όσο το δυνατόν πληρέστερη παρουσίασή της. Στην συνέχεια επελέγησαν κάποια πεδία της οικονομίας γενικότερα, τα οποία θεωρήθηκαν ως πρωταρχικής σημασίας για έρευνα, όπως η πτώχευση, η βιωσιμότητα επιχειρήσεων, και η διαχείριση χαρτοφυλακίου, η διαχείριση πιστώσεων κα τα οποία αναλύθηκαν και παρουσιάστηκαν πληροφορίες γύρω από αυτά. Κατέστει δυνατή η συλλογή ικανοποιητικών δεδομένων μόνο για την πτώχευση, την βιωσιμότητα και την διαχείριση χαρτοφυλακίου και επομένως οι εφαρμογές που έγιναν εστιάστηκαν στα πεδία αυτά. Άλλωστε από οικονομικής φύσεως θεωρούνται και από τα σημαντικότερα. Αυτά τα στοιχεία αξιοποιήθηκαν και επεξεργάστηκαν βάσει κάποιων τεχνικών και ενός αλγορίθμου κατηγοριοποίησης. Στόχος και πρόκληση ήταν να δούμε πόσο καλά μπορούν να αξιοποιηθούν αυτά μέσω των ανάλογων τεχνικών, (Ομαδοποίηση, Συσχέτιση, Ταξινόμηση), να εντοπιστούν σχέσεις και τάσεις που μπορεί να φαντάζουν παράξενες και πρωτόγνωρες, και τέλος να εξαχθούν χρήσιμα συμπεράσματα και γνώση, καθώς και να διαπιστωθεί ο βαθμός που τα αποτελέσματα συμβαδίζουν με την υπάρχουσα χρηματοοικονομική θεωρία.

Page 8: Nimertis_Pagouropoulos

2

Πρόλογος Η εργασία αυτή έχει ως στόχο να αναδείξει την σχέση που μπορεί να υπάρξει ανάμεσα στην Χρηματοοικονομική και Διοικητική επιστήμη και σε αυτήν της Τεχνητής Νοημοσύνης, εστιάζοντας κυρίως στο κατά πόσο η δεύτερη μπορεί να δώσει λύσεις σε καίρια ζητήματα, προβλήματα αλλά και προκλήσεις που παρουσιάζονται στο σύγχρονο οικονομικό περιβάλλον. Το μέσο για την εκπλήρωση αυτού του στόχου είναι οι τεχνικές Data Mining, που στα ελληνικά σαν όρος, αποδίδονται ως Τεχνικές Εξόρυξης Δεδομένων. Για την υλοποίηση της εργασίας αυτής, σαν πηγές χρησιμοποιήθηκαν πολλά επιστημονικά βιβλία που σχετίζονται με την Διοίκηση των Επιχειρήσεων, τα Χρηματοοικονομικά, την Τεχνητή Νοημοσύνη και τις μεθόδους Data Mining, τις Πολυκριτήριες Τεχνικές Ταξινόμησης αλλά και την Στατιστική. Το αποτέλεσμα από τον συνδυασμό των παραπάνω θα παρουσιαστεί στις σελίδες που θα ακολουθήσουν. Δεδομένου ότι δεν υπήρχε πλούσιο υλικό σχετικά με την εργασία έγινε η καλύτερη δυνατή προσπάθεια για την ενοποίηση των πληροφοριών και την όσο το δυνατό ικανοποιητικότερη σύνδεση μεταξύ τους, ώστε να είναι σε θέση ο κάθε ενδιαφερόμενος που θα μελετήσει την εργασία να αποκομίσει χρήσιμες πληροφορίες και γνώση.

Page 9: Nimertis_Pagouropoulos

3

0. Εισαγωγή Ο 20Ος αιώνας έχει χαρακτηριστεί από πολλούς, ειδικούς και μη, συγκεκριμένα και άλλες φορές αυθαίρετα, ως ο αιώνας της πληροφορίας. Εκείνοι οι οποίοι είναι σε θέση και έχουν την ικανότητα να συλλέγουν πληροφορίες και δεδομένα, και έπειτα να τα αναλύουν και να τα αξιοποιούν, μοιραία είναι σε θέση να πρωταγωνιστήσουν σε όποιο πεδίο δραστηριοποιούνται. Η πληροφορία και η αξιοποίησή της, καθώς και η ανάλυση διάφορων δεδομένων τα οποία μπορούν να συλλεχθούν δίνουν την δυνατότητα σε κάθε ενδιαφερόμενο να αποκτήσει ένα ανταγωνιστικό πλεονέκτημα στον χώρο στον οποίο δραστηριοποιείται και να πάρει τις βέλτιστες αποφάσεις σε θέματα και διλήμματα που τον αφορούν. Αυτού του είδους οι αναλύσεις, που λαμβάνουν χώρα σε ποιοτικά αλλά και αριθμητικά δεδομένα γίνονται, ανάμεσα σε άλλες και με την βοήθεια της επιστήμης της Τεχνητής Νοημοσύνης, και πιο συγκεκριμένα με την χρήση των τεχνικών Data Mining, οι οποίες δίνουν την δυνατότητα εξαγωγής κανόνων μέσω των ηλεκτρονικών υπολογιστών. Στην συγκεκριμένη εργασία θα δούμε πως μπορούν οι τεχνικές αυτές να αποδώσουν στο χρηματοοικονομικό περιβάλλον, αλλά και γενικότερα στην οικονομία και να αντιμετωπίσουν προβλήματα όπως η πτώχευση των επιχειρήσεων, θέματα διαχείρισης χαρτοφυλακίου και πρόβλεψης της πορείας (όσον αφορά την τιμή) χρηματοοικονομικών προϊόντων, καθώς και πληροφορίες γύρω από την βιωσιμότητα των επιχειρήσεων. Η εργασία αρχικά θα αναφερθεί συνοπτικά στην επιστήμη της Τεχνητής Νοημοσύνης, έπειτα θα εστιάσει στις τεχνικές Data Mining, και στην συνέχεια θα επικεντρώσει σε θέματα οικονομίας που είναι ζωτικής σημασίας για οικονομικούς οργανισμούς αναφέροντας και παρουσιάζοντας έννοιες και στοιχεία που χαρακτηρίζουν αυτά, θα επισημάνει τρόπους και μεθόδους επίλυσης και αντιμετώπισης που προέρχονται από άλλα επιστημονικά πεδία, και τέλος μέσω κάποιων εφαρμογών με την βοήθεια αλγορίθμων οι οποίοι θα εφαρμοστούν σε οικονομικά στοιχεία που έχουν συλλεχθεί, θα καταλήξουμε στο κατά πόσο είναι ικανές αυτές οι τεχνικές στην αντιμετώπιση τέτοιων ζητημάτων.

Page 10: Nimertis_Pagouropoulos

4

Ά ΜΕΡΟΣ 1. Λίγα για την Τεχνητή Νοημοσύνη Το να δοθεί ένας ακριβής ορισμός γύρω από τον όρο Τεχνητή Νοημοσύνη, δεν είναι κάτι εύκολο και απλό. Αντίθετα κατά πολλούς είναι πολύπλοκο και σύνθετο καθώς η έννοια της λέξης «νοημοσύνη», πραγματικά προσεγγίζεται από πάρα πολλά σημεία. Ο Marvin Minsky υποστήριξε πως ΄΄Τεχνητή Νοημοσύνη είναι η επιστήμη του να κάνεις τις μηχανές να κάνουν πράγματα που θα απαιτούσαν αν εγένετο από έναν άνθρωπο΄΄. Ένας άλλος ορισμός αναφέρει πως Τεχνητή Νοημοσύνη είναι η μελέτη του πώς να κάνουμε τους ηλεκτρονικούς υπολογιστές να κάνουν πράγματα για τα οποία, προς το παρόν, οι άνθρωποι είναι καλύτεροι (Elaine Rich 1983). Επίσης, διάσταση απόψεων υπάρχει και στο εάν η Τεχνητή Νοημοσύνη αποτελεί επιστήμη ξεχωριστή, ή απλά είναι ένας κλάδος της επιστήμης των υπολογιστών. [.1] Εμείς εδώ, θα θεωρήσουμε ότι η Τεχνητή Νοημοσύνη αποτελεί επιστήμη η οποία έχει σαν μοναδικό μέσο πειραματισμού τους ηλεκτρονικούς υπολογιστές. Η Τεχνητή Νοημοσύνη γεννήθηκε στις αρχές της δεκαετίας του 1940, με το ενδιαφέρον να περιστρέφεται στην κατασκευή προγραμμάτων για παίξιμο παιχνιδιών και αποδείξεις θεωρημάτων. Η κυρίως έμφαση δόθηκε στην κατασκευή συστημάτων τα οποία είχαν κάποιο βαθμό γενικής ευφυΐας ή ικανότητας για την επίλυση προβλημάτων από διαφορετικά πεδία και χώρους. Στο σημείο αυτό αξίζει να επισημάνουμε ότι ώθηση στην εξέλιξη της επιστήμης έδωσε η δημιουργία της γλώσσας LISP. Η βασική κατεύθυνση της επιστήμης και βασικός της σκοπός ήταν η δημιουργία δομών που παριστάνουν τον τρόπο με τον οποίο ο ανθρώπινος εγκέφαλος αποθηκεύει δεδομένα, πληροφορία, γνώση καθώς και τρόπους επεξεργασίας αυτών και αντιστοιχία του ανθρώπινου συλλογισμού. Οι προσπάθειες όλες αφιερώθηκαν στην κατασκευή συστημάτων με περιορισμένο πεδίο εφαρμογής που κατείχαν σημαντικό όγκο γνώσης για το συγκεκριμένο πεδίο (το πεδίο προσδιορίζει το ανάλογο αντικείμενο, επιστημονικό χώρο). Στο σημείο αυτό θα αναφερθούμε σύντομα στους σπουδαιότερους τομείς της Τεχνητής Νοημοσύνης και θα δώσουμε μία μικρή περιγραφή για τον κάθε ένα από αυτούς [.1] : Παίξιμο Παιχνιδιών (Game Playing) Αναφέρεται στο παίξιμο των παιχνιδιών που απαιτούν συλλογισμό, όπως το σκάκι, και είναι από τους παλαιότερους τομείς. Αυτοποιημένος Συλλογισμός (Automated Reasoning) Θα μπορούσε κανείς να ισχυριστεί πως η αυτόματη απόδειξη θεωρημάτων (automatic theorem proving) είναι ο παλαιότερος κλάδος της Τεχνητής Νοημοσύνης που απέδωσε πολλούς καρπούς. Στάθηκε αφορμή για την τυποποίηση πολλών αλγορίθμων αναζήτησης και την ανάπτυξη του κατηγορηματικού λογισμού πρώτης τάξης (first-order predicate calculus) καθώς και της γλώσσας PROLOG.

Page 11: Nimertis_Pagouropoulos

5

Έμπειρα Συστήματα (Expert Systems) Αποτελεί τον πιο επιτυχημένο κλάδο με εμπορεύσιμα αποτελέσματα σε πολλά πεδία της καθημερινότητας και επιστημών. Το έμπειρο σύστημα είναι ένα πρόγραμμα το οποίο μιμείται έναν εμπειρογνώμονα για την επίλυση προβλημάτων και την λήψη αποφάσεων. Στηρίζονται στην σπουδαιότητα της εξειδικευμένης γνώσης, για ένα στενό πεδίο, που λαμβάνεται από ένα η περισσότερους εμπειρογνώμονες στο πεδίο αυτό. Η γνώση των συστημάτων βασίζεται στην εμπειρία που αποκτήθηκε. Στην ουσία τέτοια συστήματα αποτελούν την ΄΄συνέννωση΄΄ πολλών εμπειρογνωμόνων σε έναν όσον αφορά την γνώση. Κατανόηση Φυσικής Γλώσσας (Natural Language Understanding) Αποτελεί ένα από τα δυσκολότερα προβλήματα της επιστήμης. Υπάρχουν ελάχιστα συστήματα τα οποία κατανοούν την γλώσσα, και αναφέρονται σε περιορισμένου μεγέθους λεξιλόγια και σύνολα εννοιών. Μηχανική Μάθηση (Machine Learning) Η αυτοποιημένη μάθηση είναι και αυτή από τα δυσκολότερα προβλήματα. Αναφέρεται στο κατά πόσο μπορεί ένα πρόγραμμα να είναι ικανό για αυτομάθηση, είτε μέσω εμπειρίας, είτε μέσω παραδειγμάτων αλλά και περιγραφών σε φυσική γλώσσα. Αυτός ο τομέας εξελίσσεται δυναμικά, και σε αυτόν βασίζονται και οι τεχνικές Data Mining που θα μας απασχολήσουν στην συγκεκριμένη εργασία. Η Μηχανική Μάθηση αποσκοπεί στην διερεύνηση των μηχανισμών και των υπολογιστικών διαδικασιών μέσω των οποίων είναι δυνατή η εξαγωγή και οργάνωση της γνώσης από την υπάρχουσα εμπειρία. Μεταξύ των διαφόρων μορφών συστημάτων μάθησης, η επαγωγική μάθηση μέσω παραδειγμάτων (inductive learning) έχει γνωρίσει τη μεγαλύτερη διάδοση. Στο συγκεκριμένο πεδίο σημαντικό ρόλο παίζει και η ποιότητα των κανόνων που εξάγονται από την υπάρχουσα γνώση καθώς και η βελτίωσή της. Κατανόηση Εικόνας (Image Understanding) Ο τομέας αυτός αναφέρεται στη δυνατότητα ενός ηλεκτρονικού υπολογιστή που είναι εφοδιασμένος με κάμερα να κατανοεί. Να αναγνωρίζει δηλαδή αντικείμενα και τις σχέσεις τους στο χώρο σε μια εικόνα, όπου η εικόνα μπορεί να είναι σχέδια αλλά και φυσική. Αποτελεί έναν από τους δυσκολότερους τομείς της επιστήμης αυτής .

Page 12: Nimertis_Pagouropoulos

6

2. Η τεχνική Data Mining / Εξόρυξη από Δεδομένα Η διαδικασία Data Mining, η ελληνική απόδοση της οποίας είναι ΄΄Εξόρυξη από Δεδομένα ή Ανεύρεση Γνώσης από Δεδομένα΄΄, είναι η αναλυτική διαδικασία η οποία έχει σχεδιαστεί για να αναλύει και να εξερευνεί δεδομένα σε μεγάλες ποσότητες και έπειτα να δημιουργεί κανόνες και σχέσεις μεταξύ των μεταβλητών που ενδιαφέρουν να ερευνηθούν. Γενικά ο όρος Data Mining αναφέρεται σε υψηλού επιπέδου εφαρμογές και μεθόδους και παρόμοια εργαλεία, που χρησιμοποιούνται για να παρουσιάσουν και να αναλύσουν δεδομένα σε πεδία λήψης αποφάσεων. Η βασική ιδέα πίσω από τον όρο Data Mining είναι η ανεύρεση εκείνης της μη μηδενικής λύσης η οποία δίνει την δυνατότητα εξαγωγής χρήσιμων και ουσιαστικών κανόνων σε δεδομένα [3]. Η όλη διαδικασία βασίζεται στην χρησιμοποίηση αλγορίθμων οι οποίοι αναζητούν κανόνες μεταξύ των μεταβλητών των δεδομένων, και έπειτα καταχωρούν τα δεδομένα σε νέες βάσεις δεδομένων. Τεχνικώς οι αλγόριθμοι αυτοί είναι τα συστατικά της διαδικασίας η οποία βρίσκει συσχετισμούς ή κανόνες μέσα από τεράστιες βάσεις αποθηκευμένων δεδομένων / πληροφοριών. Επίσης η διαδικασία Data Mining αναφέρεται συχνά και ως Computerized Technology (Πληροφοριακή Τεχνολογία) η οποία χρησιμοποιεί πολύπλοκους αλγόριθμους που δημιουργούν κανόνες και σχέσεις μέσα σε τεράστιες βάσεις δεδομένων, αναλύοντάς τες, με σκοπό την λήψη στρατηγικών αποφάσεων.

Η τεχνική Data Mining, DM , ενδιαφέρει ερευνητές από διάφορα πεδία επιστημών όπως εκείνα της Μηχανικής Μάθησης (Machine Learning), Αναγνώρισης Κανόνων (Pattern Recognition), των Βάσεων Δεδομένων (Databases), την Στατιστική (Statistics), την Τεχνητή Νοημοσύνη (Artificial Intelligence ΑΙ), και τα Έμπειρα Συστήματα (Expert Systems). Οι περισσότεροι αλγόριθμοι και τεχνικές προέρχονται από αυτά τα πεδία. Η βάση όλων των παραπάνω είναι η απόσπαση κανόνων που περιέχουν γνώση, μέσα από πλήθος δεδομένων.

Οι κυριότεροι στόχοι των τεχνικών DM είναι η Πρόβλεψη (Prediction) και η Περιγραφή (Description) [.3]. Η Πρόβλεψη, που αποτελεί και το σημαντικότερο είδος DM, χρησιμοποιεί υπάρχουσες μεταβλητές στις βάσεις δεδομένων ώστε να προβλέπει άγνωστες ή μελλοντικές αξίες ενδιαφέροντος. Από την άλλη μεριά, η Περιγραφή επικεντρώνεται στο να βρίσκει κανόνες περιγράφοντας δεδομένα. Οι αλγόριθμοι της κάθε τεχνικής DM αποτελούνται από τρία συστατικά στοιχεία [.3]: Model Representation (Αναπαράσταση Μοντέλου) Model Evaluation (Αποτίμηση Μοντέλου) Search Method (Μέθοδος Αναζήτησης)

Επεξήγηση των σημαντικότερων στοιχείων ενός αλγορίθμου (DM):

-Model Representation: Είναι η γλώσσα L η οποία περιγράφει ανακαλυφθήσες μεθόδους. Εάν η αναπαράσταση είναι μικρή και περιορισμένη αρκετά τότε τίποτε από παραδείγματα η από χρόνο εκπαίδευσης δεν θα παράγει ένα μοντέλο για τα δεδομένα.

Page 13: Nimertis_Pagouropoulos

7

-Model Evaluation (Μοντέλο αποτίμησης): Υπολογίζει πόσο καλά μια συγκεκριμένη μέθοδος, ένα μοντέλο με τις παραμέτρους του, συνιστούν τα κριτήρια της διαδικασίας Knowledge Discovery Databases (Ανεύρεση γνώσης σε βάσεις δεδομένων). -Search: Αποτελείται από δύο στοιχεία. Το πρώτο είναι η parameter search όπου ο αλγόριθμος πρέπει να ψάχνει για παραμέτρους που συνοψίζουν τα μοντέλα αποτίμησης που έλαβαν δεδομένα και έτοιμη αναπαράσταση του μοντέλου. Δεύτερον έχουμε την model research.

Συνοπτικά, το μοντέλο της τεχνικής που θα χρησιμοποιηθεί πρέπει να αναπαριστά καθαρές υποθέσεις και συμπεράσματα, ώστε να αποσπώνται οι κανόνες που ενδιαφέρουν. Επιπρόσθετα το μοντέλο θα πρέπει να έχει έγκυρη πρόβλεψη η οποία θα μπορεί να βασιστεί στην μέθοδο Cross Validation και η αναζήτηση να συνοψίζει τα κριτήρια αποτίμησης του μοντέλου σχετικά με την αναπαράσταση των δεδομένων. Τα εργαλεία εξόρυξης (Mining Tools or Search Engines) είναι συνήθως «έξυπνα» από το πεδίο της Τεχνητής Νοημοσύνης σχετικά με βάσεις δεδομένων. Ποικίλα είναι τα είδη / τύποι των εργαλείων που χρησιμοποιούνται στην τεχνική Data Mining. Στο σημείο αυτό θα αναφέρουμε ονομαστικά τα κυριότερα αυτών: Neural Networks, (Νευρωνικά Δίκτυα) Τα Νευρωνικά Δίκτυα (Artificial neural networks), είναι μη γραμμικά μοντέλα πρόβλεψης για λήψη αποφάσεων, τα οποία χρησιμοποιούν υπάρχοντα δεδομένα τα οποία έχουν γνωστά αποτελέσματα (outcomes) για να εκπαιδεύσουν ένα μοντέλο το οποίο μπορεί μετά να χρησιμοποιηθεί για να κάνει προβλέψεις. Επειδή τα Νευρωνικά Δίκτυα αποτελούν από τα σημαντικότερα εργαλεία της τεχνικής Data Mining θα αναφερθούμε λίγο εκτενέστερα σε αυτά. Τα Νευρωνικά Δίκτυα ΝΔ, τα οποία αναφέρονται και ως Τεχνητά Νευρωνικά Δίκτυα, (Artificial Neural Networks) αναπτύχθηκαν μέσω της επιστήμης της Τεχνητής Νοημοσύνης ως μία καινοτόμος μεθοδολογία μοντελοποίησης πολύπλοκων προβλημάτων. Η κύρια μεθοδολογική τους βάση είναι η προσπάθεια εξομοίωσης του τρόπου λειτουργίας του ανθρώπινου εγκεφάλου κατά την επεξεργασία των σημάτων / μηνυμάτων που λαμβάνει από το εξωτερικό περιβάλλον. Κάθε ΝΔ, είναι ένα δίκτυο παράλληλων μονάδων επεξεργασίας οι οποίες είναι οργανωμένες σε μια σειρά επιπέδων (layers). Μια τυπική αρχιτεκτονική ενός ΝΔ περιλαμβάνει: -Ένα επίπεδο εισόδου (input layer) αποτελούμενο από μια σειρά κόμβων (επιμέρους μονάδες επεξεργασίας), έναν για κάθε είσοδο του ΝΔ. -Ένα επίπεδο εξόδου (output layer) το οποίο αποτελείται από έναν ή περισσότερους κόμβους, ανάλογα με τη μορφή που έχει το αποτέλεσμα του ΝΔ. Στην περίπτωση προβλημάτων ταξινόμησης το πλήθος των κόμβων του επιπέδου εξόδου καθορίζεται ανάλογα με το πλήθος των κατηγοριών. Έτσι στην περίπτωση των δύο κατηγοριών, το δίκτυο μπορεί να έχει μόνο έναν κόμβο εξόδου ο οποίος θα λαμβάνει την τιμή 1 για την κατηγορία C1 και 2 για την κατηγορία C2 (οι συμβολισμοί είναι αυθαίρετοι). Στην γενικότερη περίπτωση όπου υπάρχουν q κατηγορίες, τότε το πλήθος των

Page 14: Nimertis_Pagouropoulos

8

κόμβων στο επίπεδο εξόδου συνήθως καθορίζεται ως ο αμέσως μεγαλύτερος ακέραιος αριθμός από τον πραγματικό αριθμό log2q. Εναλλακτικά, μπορεί να καθοριστεί ένας κόμβος εξόδου για κάθε κατηγορία. -Μια σειρά ενδιάμεσων επιπέδων (hidden layers). Όλοι οι κόμβοι διαδοχικών επιπέδων συνδέονται πλήρως μεταξύ τους, ενώ είναι επίσης δυνατή η ανάπτυξη ΝΔ στα οποία υπάρχουν συνδέσεις ακόμα και κόμβων που δεν ανήκουν σε διαδοχικά επίπεδα. Στο σχήμα που θα ακολουθήσει παρουσιάζεται ένα ΝΔ που χρησιμοποιεί την αρχιτεκτονική αυτή (fully connected neural network model) με ένα ενδιάμεσο επίπεδο. Γενικά, δεν υπάρχει ένας συγκεκριμένος κανόνας βάσει του οποίου καθορίζεται ο αριθμός των κόμβων ενδιαμέσων επιπέδων. Κάθε σύνδεση μεταξύ δύο κόμβων του ΝΔ έχει ένα βάρος (weight), το οποίο αναπαριστά την ισχύ της σύνδεσης. Ο καθορισμός των βαρών αυτών που αποτελεί την εκμάθηση του δικτύου, επιτυγχάνεται μέσω διαδικασιών βελτιστοποίησης, με σκοπό την ελαχιστοποίηση των αποκλίσεων μεταξύ των αποτελεσμάτων του δικτύου από το πραγματικό αποτέλεσμα (προκαθορισμένη ταξινόμηση) το οποίο καθορίζεται για ένα δείγμα εκμάθησης. Ως μέτρο των αποκλίσεων συνήθως χρησιμοποιείται το άθροισμα των τετραγώνων των σφαλμάτων, κατά αναλογία με την στατιστική παλινδρόμηση. Η πλέον διαδεδομένη διαδικασία εκμάθησης του δικτύου, είναι η διαδικασία back propagation, ενώ παράλληλα σημαντική είναι και η συμβολή εξελιγμένων τεχνικών μη γραμμικής βελτιστοποίησης οι οποίες παρέχουν υψηλή υπολογιστική ισχύ και οδηγούν στον εντοπισμό του ολικού ελάχιστου (global minimum) της συνάρτησης σφάλματος. Παρακάτω παρουσιάζεται η γενική αρχιτεκτονική ενός νευρωνικού δικτύου: Έξοδος 1 Έξοδος 2 Είσοδος 1 Είσοδος 2 Είσοδος 3

Page 15: Nimertis_Pagouropoulos

9

Βάσει των βαρών των συνδέσεων, η είσοδος στον κάθε κόμβο του δικτύου υπολογίζεται ως ο σταθμισμένος μέσος των εξόδων όλων των κόμβων με τους οποίους συνδέεται. Στη γενικότερη περίπτωση ενός πλήρως συνδεδεμένου ΝΔ η είσοδος inir στον κόμβο ι του επιπέδου r υπολογίζεται από τον τύπο:

1

0 1

jnij

ir ik kj irj k

in w o φ−

= =

= +∑ ∑

όπου nj είναι ο αριθμός των κόμβων στο επίπεδο j, wj

ik είναι το βάρος της σύνδεσης μεταξύ του κόμβου i στο επίπεδο r και του κόμβου k στο επίπεδο j, οkj είναι η έξοδος του κόμβου k στο επίπεδο j και φir είναι ένας όρος σφάλματος. Η έξοδος κάθε νευρώνα προκύπτει μέσω μιας συνάρτησης μετασχηματισμού της εισόδου του νευρώνα. Η συνηθέστερη συνάρτηση μετασχηματισμού που χρησιμοποιείται είναι η λογιστική συνάρτηση:

1

1irir in

T

oe−

=+

όπου Τ μία σταθερά.

Βασικό πλεονέκτημα των ΝΔ είναι η δυνατότητα παράλληλης επεξεργασίας που παρέχουν, και κυρίως η δυνατότητα αναπαράστασης έντονα μη γραμμικών συμπεριφορών. Από την άλλη μεριά, χαρακτηρίζονται από μειονεκτήματα όπως ο αυξημένος υπολογιστικός φόρτος που απαιτείται κατά την φάση της εκμάθησης του δικτύου και η μη επεξήγηση των αποτελεσμάτων που δίνει [.2]. Decision Trees, (Δένδρα Αποφάσεων) Τα δέντρα αποφάσεων είναι μοντέλα υποστήριξης λήψης αποφάσεων τα οποία δημιουργούν κανόνες για να ταξινομούν ένα σύνολο δεδομένων όπου το κάθε δέντρο αναπαριστά σύνολα από αποφάσεις.

Page 16: Nimertis_Pagouropoulos

10

Rule Induction, (Εισαγωγή Κανόνων) Είναι η χρησιμοποίηση if-then κανόνων σε σύνολα από δεδομένα, τα οποία βασίζονται κυρίως σε στατιστικά μοντέλα. Data Visualization, (Απεικόνιση Δεδομένων) Αποτελεί την εικονική αναπαράσταση σχέσεων μεταξύ δεδομένων. Genetic Algorithms, (Γενετικοί Αλγόριθμοι) Οι Γενετικοί Αλγόριθμοι είναι μία τεχνική η οποία βασίζεται σε στοιχεία / συστατικά natural evolution χρησιμοποιώντας γενετικούς συνδυασμούς. Nearest Neighbor Method, (Μέθοδος Γειτνίασης) Είναι μία τεχνική ταξινόμησης δεδομένων που βασίζεται σε ομοειδείς εγγραφές μέσα από προηγούμενες (historical) βάσεις δεδομένων. 2.1 Τα στάδια της διαδικασίας Data Mining Πριν αναφερθούμε στα στάδια της διαδικασίας Data Mining, είναι χρήσιμο να επισημάνουμε πως πολλοί αναφέρουν ότι η διαδικασία Data Mining αποτελεί μία στατιστική διαδικασία η οποία αναλύει δεδομένα αποθηκευμένα μέσα σε Data Warehouses. Τα Data Warehouses αποτελούν τεράστια πεδία με αποθηκευμένα δεδομένα , όπου εκεί περιέχονται ποικίλες πληροφορίες για όλες τις λειτουργίες ενός οργανισμού (είτε πρόκειται για ιδιωτική επιχείρηση, νοσοκομείο, δημόσια υπηρεσία κ.α). Τα δεδομένα αυτά είναι επεξεργασμένα κατά τέτοιο τρόπο που διευκολύνουν τα εργαλεία της μεθόδου Data Mining να τα επεξεργάζονται καλύτερα. Μικρότερες σε μέγεθος εκδόσεις των Data Warehouses είναι τα Data Marts τα οποία επικεντρώνονται και εστιάζονται σε συγκεκριμένες περιοχές / ομάδες ενδιαφέροντος, είναι οικονομικότερα και λειτουργούν σε μικρότερο περιβάλλον. Στην συνέχεια ακολουθεί ένα παράδειγμα σύγκρισης μεταξύ Data Warehouse και Data Mart σε πίνακα:

Page 17: Nimertis_Pagouropoulos

11

DATA WAREHOUSE DATA MART

Total company sales information Πληροφορίες για τις συνολικές πωλήσεις

Sales for a simple location Πωλήσεις για μία τοποθεσία ,εστία της αγοράς

Store sales / Hourly sales Συνολικό ποσοστό πωλήσεων

Credit card sales only Πωλήσεις / αγορές που έγιναν με πιστωτική κάρτα

Customer profiles Εικόνα / Προφίλ πελατών

Credit card customer profiles Εικόνα πελατών σχετικά με την χρησιμοποίηση της πιστωτικής κάρτας

Credit card purchasing history Πορεία πιστωτικής κάρτας

Η διαδικασία Εξόρυξης από δεδομένα αποτελείται από τρία στάδια [.3] :

Το στάδιο της «εξερεύνησης» των δεδομένων (initial exploration) Το στάδιο δημιουργίας και κατασκευής του κατάλληλου μοντέλου πρόβλεψης (model building and validation)

Τέλος, το στάδιο της περαιτέρω ανάπτυξης της διαδικασίας (deployment) Στο σημείο αυτό θα ακολουθήσει μια περιγραφή του κάθε σταδίου της διαδικασίας με όσο το δυνατό πιο σαφή και κατανοητό τρόπο [.3] : Αναζήτηση και «Εξερεύνηση» των δεδομένων (initial exploration) Αυτό το στάδιο συνήθως ξεκινάει με την προετοιμασία των δεδομένων (data preparation), που περιλαμβάνει καθαρισμό από πιθανούς θορύβους που υπάρχουν μέσα στα δεδομένα, μετασχηματισμούς δεδομένων και επιλογή των κατάλληλων υποσυνόλων εγγραφών και καθορισμό ομάδων δεδομένων με μεγάλους αριθμούς μεταβλητών και πεδίων (fields) διεξάγοντας μία επιλογή χαρακτηριστικών (feature selections). Έπειτα, ανάλογα με την φύση του προβλήματος αυτό το στάδιο της διαδικασίας μπορεί να περιλαμβάνει μία απλή επιλογή από μεθόδους πρόβλεψης για ένα μοντέλο ανάλυσης, ώστε να βγάλει κάποια συμπεράσματα χρησιμοποιώντας μία μεγάλη ποικιλία από στατιστικές μεθόδους (EDA – Exploratory Data Analysis) για να αναγνωρίσει τις πιο σχετικές μεταβλητές και να εξαλείψει την πολυπλοκότητα από το επόμενο στάδιο υλοποίησης της διαδικασίας.

Page 18: Nimertis_Pagouropoulos

12

Δημιουργία του κατάλληλου μοντέλου πρόβλεψης (model building and validation)

Tο συγκεκριμένο στάδιο περιλαμβάνει την επεξεργασία πολλών και ποικίλων μοντέλων και την επιλογή εκείνου που βασίζεται στην άριστη / βέλτιστη απόδοση της πρόβλεψης. Αυτό ίσως ακούγεται σαν μια απλή διαδικασία, αλλά είναι γεγονός ότι μερικές φορές αποτελεί μία πολύπλοκη και δύσκολη διαδικασία. Είναι μία μεγάλη γκάμα τεχνικών που αναπτύχθηκαν για να επιτύχουν το στόχο αυτού του σταδίου και έχουν την προσωνυμία ‘Competitive Evaluation Models’.Ο σκοπός είναι να απευθυνόμαστε σε διαφορετικά μοντέλα με το ίδιο σύνολο δεδομένων και συγκρίνοντας την απόδοση της μεθόδου να επιλέγουμε την καλύτερη. Αυτές οι τεχνικές οι οποίες αποτελούν την «αφρόκρεμα» του ‘Predictive Data Mining’ είναι οι εξής: Bagging (Voting,Averaging), Boosting, Stacking (Stacked Generalizations), και τέλος η τεχνική Meta-Learning.

Ανάπτυξη (Deployment)

Στο τελικό στάδιο χρησιμοποιούμε το μοντέλο που επιλέχθηκε σαν το καλύτερο από το στάδιο της δημιουργίας του μοντέλου της κάθε διαδικασίας και το εφαρμόζουμε σε νέα δεδομένα, ώστε να παράγει προβλέψεις ή να εκτιμήσει το νέο αποτέλεσμα. Να εξάγει δηλαδή νέους κανόνες.

2.2 Μέθοδοι της τεχνικής Data Mining

Οι κυριότερες μέθοδοι της τεχνικής Εξόρυξης από Δεδομένα οι οποίες χρησιμοποιούν κανόνες Μηχανικής Μάθησης είναι [.4] : Κανόνες Ταξινόμησης Κανόνες Ομαδοποίησης Κανόνες Συσχέτισης

Υπάρχουν βέβαια και άλλα πεδία τέτοιων κανόνων, όπως στατιστικής ανάλυσης (statistical analysis) της αριθμητικής ταξινόμησης (numerical taxonomy), της παλινδρόμησης (regression analysis) και άλλων αρκετών. Στην συνέχεια θα παρουσιάσουμε αναλυτικά τον τρόπο λειτουργίας και δομής των κανόνων ταξινόμησης,ομαδοποίησης και συσχέτισης.

Page 19: Nimertis_Pagouropoulos

13

2.2.1 Ταξινόμηση (Classification) Ίσως η πιο δημοφιλής και αποτελεσματική τεχνική. Οι αλγόριθμοι ταξινόμησης εφαρμόζονται σε δεδομένα τα οποία έχουν προταξινομηθεί σε συγκεκριμένες κλάσεις με στόχο την εξαγωγή κανόνων οι οποίοι μπορεί μετέπειτα να χρησιμοποιηθούν για ταξινόμηση νέων δεδομένων στις ίδιες κλάσεις. Ένα σύνολο εξαγόμενων κανόνων ονομάζεται ταξινομητής (classifier). Η λειτουργία των αλγορίθμων ταξινόμησης έχει ως εξής [.4]:

(1) Δίνουμε ένα σύνολο από δεδομένα σαν είσοδο σε έναν αλγόριθμο ταξινόμησης (2) Ο αλγόριθμος έπειτα με την σειρά του «μαθαίνει» από το πώς αυτά τα δεδομένα έχουν ταξινομηθεί. Δηλαδή κατανοεί τους κανόνες βάσει των οποίων ταξινομήθηκαν τα δεδομένα (3) Έπειτα βάσει των συγκεκριμένων κανόνων έχει την ικανότητα να ταξινομήσει νέα δεδομένα

Υπάρχουν δύο βασικοί τύποι αλγόριθμων ταξινόμησης ανάλογα με το είδος του ταξινομητή που παράγουν: (a) Οι αλγόριθμοι που παράγουν λίστες αποφάσεων [πχ Clark] (b) Οι αλγόριθμοι που παράγουν δένδρα αποφάσεων [πχ Quinlan] Οι κανόνες που παράγουν λίστες αποφάσεων έχουν την μορφή λογικών κανόνων που βγάζουν ανάλογα συμπεράσματα και είναι μία σχετικά νέα μορφή αλγόριθμων. Από την άλλη μεριά οι αλγόριθμοι που παράγουν δένδρα αποφάσεων είναι εκείνοι που αποτελούν ίσως την πιο παλιά μορφή και έκφραση της τεχνικής Data Mining. Οι αλγόριθμοι που παράγουν δένδρα αποφάσεων έχουν στην ρίζα τους και στους ενδιάμεσους κόμβους τιμές των διάφορων πεδίων και στα φύλλα τους τιμές του πεδίου κλάσης. Ο κάθε κόμβος διακλαδώνεται προς τα κάτω έχοντας ένα κλαδί για κάθε διακριτή τιμή του πεδίου. Σε περίπτωση συνεχούς αριθμητικού πεδίου, χωρίζεται το εύρος του πεδίου σε διαστήματα και ο κόμβος διακλαδώνεται με βάση αυτά. Τέλος ένας αλγόριθμος που παράγει δένδρα αποφάσεων ακολουθεί συνήθως αναλυτική προσέγγιση (top-down), δημιουργεί δηλαδή το δένδρο από την ρίζα και προχωράει προς τα κάτω. Στην συνέχεια θα περιγραφεί αναλυτικά ένας από τους βασικότερους αλγόριθμους ταξινόμησης που παράγει δένδρα αποφάσεων, ο ID3. Ο αλγόριθμος αυτός παρουσιάστηκε ολοκληρωμένα από τον J.R Quinlan στο περιοδικό Machine Learning το 1986. Η αρχική του έκδοση είχε δημοσιευτεί από τον ίδιο το 1979. Το όνομά του προκύπτει από τα αρχικά Induction of Decision Trees. Ο αλγόριθμος αυτός θεωρήθηκε πρωτοποριακός την εποχή εκείνη εξαιτίας της πληρότητας της μελέτης και της αποτελεσματικότητάς του. Ο ID3 ανήκει στην οικογένεια των συστημάτων μάθησης TDIDT (Top-Down Inductuon of Decision Trees), ακολουθώντας την αναλυτική προσέγγιση. Δέχεται σαν είσοδο ένα σύνολο εκπαίδευσης οι εγγραφές του οποίου έχουν προταξινομηθεί σε κλάσεις. Ο αλγόριθμος, στην αρχική του μορφή, θεωρεί δύο διακριτές τιμές κλάσης

Page 20: Nimertis_Pagouropoulos

14

οι οποίες συμβολίζονται στην βιβλιογραφία ως P (positive) και N (negative). Βέβαια ο αλγόριθμος μπορεί να επεκταθεί και σε περισσότερες από δύο τιμές κλάσης. Αντί να εξάγεται το δένδρο αποφάσεων από ολόκληρο το σύνολο εκπαίδευσης, χρησιμοποιείται ένα «παράθύρο», δηλαδή ένα υποσύνολο εγγραφών. Με το δένδρο που προκύπτει ταξινομείται ολόκληρο το σύνολο εκπαίδευσης και ελέγχεται η ακρίβεια της ταξινόμησης. Αν όλες οι εγγραφές έχουν ταξινομηθεί σωστά, τότε το υπάρχον δένδρο γίνεται αποδεκτό και ο αλγόριθμος τερματίζει. Διαφορετικά, προστίθενται οι άλλες εγγραφές στο «παράθυρο» και η διαδικασία επαναλαμβάνεται. Αυτό συνεχίζεται μέχρι όλες οι εγγραφές να ταξινομηθούν σωστά από το δένδρο. Για να εξασφαλιστεί η επιτυχής κατάληξη του αλγορίθμου, πρέπει να υπάρχει δυνατότητα το «παράθυρο» να μεγαλώσει τόσο που να περιέχει όλο το σύνολο των εγγραφών. Επομένως μία σημαντική παράμετρος του αλγορίθμου είναι το ποσοστό εγγραφών που θα περιέχει το «παράθυρο» και με τι ρυθμό θα μεγαλώνει εφόσον δεν είναι επαρκές. Επόμενη και σημαντική παράμετρος είναι το κριτήριο επιλογής κάθε κόμβου, με το οποίο θα γίνει η διακλάδωση. Χρησιμοποιείται ως κριτήριο επιλογής ένα μέγεθος δανεισμένο από την Θεωρία της Πληροφορίας η Εντροπία. Το μέγεθος Εντροπία, ως αντίθετο στο μέγεθος Πληροφορία, δίνει μία εκτίμηση του πόσο λανθασμένα χωρίζεται κάθε φορά το σύνολο εκπαίδευσης, με βάση το συγκεκριμένο πεδίο. Άρα το πεδίο με την μικρότερη Εντροπία χωρίζει καλύτερα το σύνολο εκπαίδευσης. Σε αυτό το σημείο θα αναφερθούμε στα βήματα του αλγορίθμου ID3, τα οποία έχουν ως εξής:

I. Διάλεξε ένα πεδίο για ρίζα του δένδρου απόφασης και σχημάτισε διακλάδωση με ένα φύλλο για κάθε διαφορετική τιμή (ή διάστημα) αυτού του πεδίου

II. Το δένδρο απόφασης που έχει μέχρι στιγμής κατασκευασθεί χρησιμοποιείται για να ταξινομήσει το σύνολο εκπαίδευσης. Αν όλες οι εγγραφές που ταξινομούνται σε ένα συγκεκριμένο φύλλο ανήκουν στην ίδια κλάση, ονόμασε το φύλλο αυτό με την κλάση αυτή. Αν όλα τα φύλλα έχουν ονομασθεί με κάποια κλάση ο αλγόριθμος τελειώνει

III. Διαφορετικά, για κάθε φύλλο που δεν έχει ονομαστεί με κάποια κλάση, διάλεξε ένα πεδίο που δεν έχει προηγουμένως επιλεγεί στο μονοπάτι από το φύλλο έως την ρίζα, ονόμασε το φύλλο (κόμβος πλέον) με αυτό το πεδίο και σχημάτισε διακλάδωση με ένα φύλλο για κάθε διαφορετική τιμή (ή διάστημα) αυτού του πεδίου. Έπειτα συνέχισε στο Βήμα ΙΙ.

Στο σημείο αυτό θα παρουσιάσουμε ακόμη έναν αλγόριθμο ταξινόμησης, τον C4.5. Ο αλγόριθμος αυτός αποτελεί μία από τις πλέον γνωστές τεχνικές στο χώρο της μηχανικής μάθησης, ο οποίος αναπτύσσει δένδρα αποφάσεων που παρουσιάζονται και ως κανόνες απόφασης της μορφής [.2]: Εάν στοιχειώδεις συνθήκες Τότε συμπεράσματα

Page 21: Nimertis_Pagouropoulos

15

Ο C4.5 αναπτύχθηκε από τον Quinlan (1993) και αποτελεί εξέλιξη του αλγορίθμου ID3. Ο καινούργιος αλγόριθμος σε σχέση με τον προκάτοχό του έχει τα εξής βασικά πλεονεκτήματα

1. Δυνατότητα επεξεργασίας και διαχείρισης ποσοτικών κριτηρίων 2. Δυνατότητα διαχείρισης δεδομένων με ελλιπή στοιχεία 3. Αποφυγή της μεγάλης προσαρμογής στα δεδομένα του δείγματος εκμάθησης

(overfitting) Ο αλγόριθμος ξεκινώντας από ένα σύνολο παραδειγμάτων τα οποία διαμορφώνουν το δείγμα εκμάθησης, οδηγεί στην ανάπτυξη ενός συνόλου κανόνων αποφάσεων για την ταξινόμηση εναλλακτικών δραστηριοτήτων. Οι κανόνες αυτοί με την σειρά τους οργανώνονται και δημιουργούν ένα δέντρο αποφάσεων. Ο κάθε κόμβος του δέντρου περιλαμβάνει το κριτήριο αξιολόγησης το οποίο ελέγχεται βάσει των συνθηκών που καθορίζουν τα κλαδιά του δέντρου. Τα φύλλα με την σειρά τους υποδεικνύουν την κατηγορία στην οποία πρέπει να ενταχθεί μια εναλλακτική δραστηριότητα η οποία επαληθεύει την συνθήκη του κλάδου που καταλήγει στο φύλλο. Εδώ παραθέτουμε ένα τέτοιο δέντρο:

≤ 1 >1

>0,3 ≤ 0,3 >1,2 ≤ 1,2

G1

G2 G3

C2 C1 C1 C2

Page 22: Nimertis_Pagouropoulos

16

Αυτό το δέντρο απόφασης, αναπτύσσεται μέσω μίας επαναληπτικής διαδικασίας όπου κάθε στάδιο αυτής περιλαμβάνει τα παρακάτω τρία βήματα: -Αξιολόγηση της διακριτικής ικανότητας των κριτηρίων αξιολόγησης στην ταξινόμηση των εναλλακτικών δραστηριοτήτων. -Επιλογή του κριτηρίου αξιολόγησης με την υψηλότερη διακριτική ικανότητα -Διαχωρισμός των εναλλακτικών δραστηριοτήτων σε υποσύνολα αντίστοιχα με το πλήθος των τιμών του επιλεγμένου κριτηρίου αξιολόγησης (στην περίπτωση ποιοτικών κριτηρίων) ή των σημείων διαχωρισμού (cut-points, εάν τα κριτήρια είναι ποσοτικά). Η παραπάνω διαδικασία επαναλαμβάνεται για κάθε υποσύνολο εναλλακτικών δραστηριοτήτων που σχηματίζεται στο τρίτο βήμα, μέχρι τελικά να επιτευχθεί η σωστή ταξινόμηση όλων των εναλλακτικών δραστηριοτήτων του δείγματος εκμάθησης. Ο έλεγχος της διακριτικής ικανότητας κάθε κριτηρίου αξιολόγησης κατά το πρώτο βήμα της παραπάνω διαδικασίας, πραγματοποιείται βάσει της πληροφορίας που εισάγει το κριτήριο αξιολόγησης στην ταξινόμηση των εναλλακτικών δραστηριοτήτων. Ως μέτρο χρησιμοποιείται η εντροπία της ταξινόμησης που εισάγει το κάθε κριτήριο. Εάν ένα κριτήριο χωρίζει τις m εξεταζόμενες εναλλακτικές δραστηριότητες σε t υποσύνολα D1,D2,……..,Dt, καθένα από τα οποία περιλαμβάνει νh εναλλακτικές δραστηριότητες (h=1,2,……..,t), τότε η εντροπία του διαχωρισμού που πραγματοποιεί το κριτήριο αξιολόγησης υπολογίζεται βάσει της σχέσης:

1 1( ) ( / ) log[ ( / )]

qth

h k h kh k

vI D p D C p D Cm= =

= −∑ ∑

όπου, ως p ( / )h kD C συμβολίζεται το πλήθος των εναλλακτικών δραστηριοτήτων του συνόλου hD τα οποία ανήκουν στην κατηγορία kC . Το κριτήριο που παρουσιάζει την μικρότερη εντροπία επιλέγεται ως εκείνο που παρέχει την υψηλότερη νέα πληροφορία στην ταξινόμηση των εναλλακτικών δραστηριοτήτων. Η παραπάνω διαδικασία μπορεί να οδηγήσει στην δημιουργία ενός περίπλοκου και εξειδικευμένου δέντρου κάθε φύλλο του οποίου θα αφορά μόνο μία εναλλακτική δραστηριότητα. Η αντιμετώπιση του προβλήματος αυτού πραγματοποιείται σε ένα δεύτερο στάδιο του αλγορίθμου μέσο της τεχνικής pruning έτσι ώστε να αποφεύγεται η περίπτωση υπερταιριάσματος, (overfitting), που οφείλεται στην μεγάλη προσαρμογή του αναπτυσσόμενου δέντρου στα δεδομένα του δείγματος εκμάθησης. Στην λογική του αλγορίθμου C4.5 αλλά και του ID3 κινούνται πολλοί νέοι αλγόριθμοι που έχουν αναπτυχθεί στα πλαίσια της επαγωγικής μάθησης όπως ο CN2, αλγόριθμοι της οικογένειας AQ και άλλοι πολλοί. Τελειώνοντας με τους αλγόριθμους ταξινόμησης, τα κύρια πλεονεκτήματά τους είναι τα ακόλουθα:

Page 23: Nimertis_Pagouropoulos

17

-Παρέχουν δυνατότητα διαχείρισης ποιοτικών δεδομένων -Έχουν τη δυνατότητα διαχείρισης δεδομένων με ελλιπή στοιχεία -Δυνατότητα διαχείρισης τεράστιων συνόλων δεδομένων αποτελεσματικά -Ευκατανόητη μορφή του αναπτυσσόμενου υποδείγματος ταξινόμησης. Στο σημείο αυτό θα κάνουμε μία μικρή αναφορά γύρω από την τεχνική pruning για τους αλγόριθμους ταξινόμησης Με τον όρο Pruning Decision Trees ονομάζουμε εκείνη την διαδικασία στο πεδίο των δέντρων αποφάσεων (Decision trees) κατά την οποία «κλαδεύουμε» ένα δέντρο απόφασης, με σκοπό να καταφέρουμε να αποφύγουμε την περίπτωση «υπερταιριάσματος» (overfitting) των δεδομένων / εγγραφών που έχουμε με το πεδίο εκπαίδευσης, έτσι ώστε να πετύχουμε μία γενικοποίηση με την δημιουργία ενός δέντρου καταλληλότερου για ταξινόμηση νέων εγγραφών. Στόχος της διαδικασίας είναι να μην είναι το δέντρο υπερβολικά εξειδικευμένο στην ταξινόμηση νέων εγγραφών, αλλά αντίθετα να είναι ευέλικτο ως προς την ταξινόμηση νέων εγγραφών με την καλύτερη δυνατή ακρίβεια (accuracy). Οι αλγόριθμοι που χρησιμοποιούν την μέθοδο pruning είναι εκείνοι που παράγουν δέντρα απόφασης και συνήθως είναι ο αλγόριθμος ID3 και ο αλγόριθμος C4.5 Οι δύο αυτοί αλγόριθμοι χρησιμοποιούν την μέθοδο pruning αλλά με διαφορετική δομή και λειτουργία. Βέβαια ο σκοπός και στους δύο είναι ο ίδιος, δηλαδή να αποφύγουν την περίπτωση overfitting και να δημιουργήσουν ένα ιδανικό δέντρο ταξινόμησης ID3 / Rule post pruning Με την μέθοδο Rule post-pruning πετυχαίνουμε υψηλή ακρίβεια στην ταξινόμηση των νέων εγγραφών (high accuracy hypothesis) Τα βήματα αυτής της μεθόδου είναι τα ακόλουθα : -Απομονώνουμε το δέντρο απόφασης από το πεδίο εκπαίδευσης (training set), το αναλύουμε μέχρι το τελικό φύλλο, μέχρι τα δεδομένα εκπαίδευσης να ταιριάζουν όσο το δυνατόν καλύτερα με τα κλαδιά του δέντρου, και επιτρέπουμε το overfitting -Μετατρέπουμε το δέντρο σε ένα ισοδύναμο πεδίο από κανόνες δημιουργώντας ένα κανόνα για κάθε μονοπάτι, από την ρίζα μέχρι το φύλλο κόμβο. -Κλαδεύω κάθε κανόνα μετακινώντας τις προηγούμενες συνθήκες, και έτσι πετυχαίνω καλύτερη ακρίβεια (estimated accuracy) -Κόβω τους κλαδεμένους κανόνες ανάλογα με την ακρίβειά τους και τους έχω για ταξινομητές στην συνέχεια.

Page 24: Nimertis_Pagouropoulos

18

ΠΠααρράάδδεειιγγμμαα RRuullee PPoosstt PPrruunniinngg ΣΣχχήήμμαα SSuunnnnyy RRaaiinn OOvveerrccaasstt YYeess HHiigghh NNoorrmmaall SSttrroonngg WWeeaakk NNoo YYeess NNoo YYeess Ο αριστερότερος κανόνας που προκύπτει από το δέντρο είναι ο : IF (Outlook = Sunny) and (Humidity = High) Then PlayTennis = No Με την μέθοδο Post pruning θα μετακινούσαμε τις προσυνθήκες, (Outlook = Sunny) και (Humidity = High) και θα βλέπαμε ποια από τις δύο θα πετύχαινε υψηλότερη ακρίβεια στον κανόνα. Σε περίπτωση που δεν γινόταν κάτι τέτοιο κανένα «κλάδεμα» δεν θα γινόταν. Pruning ID3 Reduced error pruning Στην μέθοδο Reduced error pruning, θεωρούμε κάθε κόμβο από το δέντρο απόφασης να είναι υποψήφιος για αποκοπή. Αυτό γίνεται μετακινώντας το υποδέντρο του κόμβου, δημιουργώντας ένα φύλλο κόμβο, και θεωρώντας τον κατάλληλο για την ταξινόμηση νέων εγγραφών. Οι κόμβοι μετακινούνται μόνο εάν το νέο δέντρο αποδίδει όχι χειρότερα από το πρωτότυπο πάνω σε ένα πεδίο εγκυρότητας (validation set). Αυτό έχει το αποτέλεσμα ότι κάθε κόμβος φύλλο, που προστίθεται στο training set είναι υποψήφιος και πιθανόν να αποκοπεί, επειδή τα χαρακτηριστικά που θα έχει είναι δύσκολο να συμβαδίζουνε με το τεστ εγκυρότητας. Οι κόμβοι

Outlook

Humidity Wind

Page 25: Nimertis_Pagouropoulos

19

κλαδεύονται, διαλέγοντας εκείνον του οποίου η αποκοπή αυξάνει την ακρίβεια της ταξινόμησης στο validation set. Pruning C4.5 Ο αλγόριθμος C4.5 επιτρέπει την αντικατάσταση ενός υποδέντρου με ένα από τα παιδιά του. Υποθέτουμε ότι μπορούμε να προβλέψουμε το ποσοστό λάθους error rate ενός δέντρου και των υποδέντρων του. Θα έχω: -Υποθέτουμε ότι μπορούμε να προβλέψουμε το ποσοστό λάθους ενός δέντρου και των υποδέντρων του. -Ξεκινάμε από την κορυφή του δέντρου και εξετάζουμε κάθε μη φύλλο (nonleaf subtree). -Εάν η αντικατάσταση του υποδέντρου με ένα δέντρο ή με το ποιο κοινά χρησιμοποιούμενο κλαδί οδηγεί σε ένα χαμηλότερο αναμενόμενο ποσοστό λάθους, τότε κλαδεύουμε το δέντρο γνωρίζοντας ότι το αναμενόμενο ποσοστό σφάλματος για όλα τα δέντρα που περιέχουν το συγκεκριμένο θα επηρεαστούνε. Όσο το ποσοστό σφάλματος για όλο το δέντρο μειώνεται καθώς το ίδιο συμβαίνει και για τα υποδέντρα, αυτή η διαδικασία θα οδηγήσει σε ένα δέντρο του οποίου το αναμενόμενο ποσοστό λάθους είναι μικρότερο. Pessimistic pruning / C4.5 Με την μέθοδο αυτή αυξάνουμε τον αριθμό των σφαλμάτων που παρατηρούνται σε κάθε φύλλο. Λειτουργία: Έχω Ν περιπτώσεις εκπαίδευσης οι οποίες αναφέρονται σε ένα φύλλο, εκ των οποίων οι Ε είναι λανθασμένες. Το σφάλμα σε αυτήν την περίπτωση ισούται με τον λόγο Ε/Ν. Ο λόγος αυτός μας δείχνει ότι έχουμε Ε γεγονότα σε Ν προσπάθειες. Εάν αυτό το πεδίο των Ν περιπτώσεων θεωρηθεί σαν δείγμα θα μπορούμε να αναρωτηθούμε τι πληροφορία μας δίνει αυτό το αποτέλεσμα, σχετικά με την πιθανότητα λάθους πάνω σε έναν πληθυσμό του φύλλου που είμαστε.

Page 26: Nimertis_Pagouropoulos

20

ΕΥΡΕΣΗ ΣΦΑΛΜΑΤΟΣ / ERROR ESTIMATION Ο υπολογισμός του σφάλματος μπορεί να ορισθεί βάση του υψηλότερου ορίου με τα όρια αξιοπιστίας, και γράφεται UCF(E,N)ª όπου a=6. Ο αλγόριθμος υπολογίζει το σφάλμα σε ένα φύλλο με το μεγαλύτερο όριο αξιοπιστίας, έχοντας ως κανόνα ότι το δέντρο έχει σκοπό να ελαχιστοποιήσει το ποσοστό σφάλματος. Ο τύπος που μας δίνει το ποσοστό σφάλματος σε ένα πεδίο εκπαίδευσης είναι ο ακόλουθος: Error = N X UCF (E,N) όπου Ν είναι οι περιπτώσεις που έχω και UCF(E,N) το αναμενόμενο ποσοστό σφάλματος. Παράδειγμα C4.5 Pessimistic / Pruning Υποθέτουμε ότι έχουμε το υποδέντρο education spending = n: democrat (6) education spending = y: democrat (9) education spending = u: republican (1) Για το πρώτο φύλλο έχω Ν=6 και Ε=0 και με το επίπεδο αξιοπιστίας (confidence level) CL=25% έχω U25%(0,6)= 0.206. Έτσι εάν είχα να ταξινομήσω 6 περιπτώσεις θα είχα 6 Χ 0.206. Ομοίως, για τα υπόλοιπα φύλλα έχω: U25%(0.1)= 0,750, U25%(0.9)= 0.143 Επομένως ο αριθμός των προβλευθέντων σφαλμάτων του υποδέντρου θα ισούται με 6 Χ 0.206 + 9 Χ 0.143 + 1 Χ 0.750 = 3.273 Στην περίπτωση που θα επιλεγεί το φύλλο democrat για αντικατάσταση του υποδέντρου, θα έχουμε 16 περιπτώσεις με 1 σφάλμα και σύμφωνα με τα παραπάνω το αναμενόμενο σφάλμα θα ισούται με 16 Χ U25%(1.16) = 16 X 0.157 = 2.512 Όσο το υποδέντρο που εξετάζουμε θα έχει υψηλότερο αριθμό προβλευθέντων σφαλμάτων, θα κλαδεύεται σε φύλλο για καλύτερη λειτουργία ταξινόμησης. Το υποδέντρο έχει την μορφή : adoption of the budget resolution = y: democrat (151) adoption of the budget resolution = u:democrat (1) adoption of the budget resolution = n: democrat (16/1) με προβλεπόμενο αριθμό σφαλμάτων: 151 X U25%(0.151) + 1 X U25%(0,1) + 2.512 = 4.642 Εάν αυτό το υποδέντρο αντικαθήστατω από το φύλλο democrat τα προβλευθέντα σφάλματα θα ήταν 168 Χ U25%(1.168) = 2.610 που είναι μικρότερο του σφάλματος του υποδέντρου και άρα μας συμφέρει να κλαδέψουμε το υποδέντρο σε φύλλο.

Page 27: Nimertis_Pagouropoulos

21

Εκτιμώντας τα επίπεδα λάθους για δέντρα αποφάσεων Ν = αριθμός περιπτώσεων εκπαίδευσης Ε = προβλεπόμενα σφάλματα σε ένα σύνολο Ν νέων περιπτώσεων Ο λόγος του αριθμού προβλεπόμενων σφαλμάτων στα φύλλα προς τον αριθμό των περιπτώσεων σε ένα σύνολο εκπαίδευσης μας δίνει μία εκτίμηση του ποσοστού σφάλματος ενός κλαδεμένου δέντρου σε μη γνωστές περιπτώσεις ταξινόμησης

Error Rate = E / N 2.2.2 Ομαδοποίηση (Clustering)

Οι κανόνες Ομαδοποίησης επίσης είναι αρκετά διαδεδομένοι. Διαφέρουν από εκείνους της ταξινόμησης στο ότι τα δεδομένα που χρησιμοποιούνται για μάθηση δεν είναι προταξινομημένα, λείπει δηλαδή η κλάση του πεδίου. Η τεχνική ομαδοποίησης χωρίζει ουσιαστικά ένα σύνολο εγγραφών σε ομάδες έτσι ώστε οι εγγραφές που βρίσκονται στην ίδια ομάδα να έχουν περισσότερες ομοιότητες μεταξύ τους, με βάση ορισμένα προκαθορισμένα κριτήρια, απ’ότι με εγγραφές άλλων ομάδων [.4]. Σήμερα είναι ιδιαίτερα σημαντικό για της επιχειρήσεις να μπορούν να ομαδοποιούν τους πελάτες τους σε συγκεκριμένες κατηγορίες. Με βάση αυτές τις κατηγορίες μπορούν να αξιολογούν έναν νέο πελάτη με βάση την ομάδα στην οποία κατατάσσεται ή ακόμα να προσδιορίσουν τα χαρακτηριστικά των πελατών που αποφέρουν μεγάλα κέρδη στην εταιρεία. Με βάση αυτόν τον διαχωρισμό των πελατών μπορούν να προσανατολίσουν την στρατηγική της εταιρείας στην εξειδικευμένη εξυπηρέτηση ορισμένων πελατειακών ομάδων. Για παράδειγμα, από την ανάλυση ενός πολύ μεγάλου συνόλου πελατών, μπορεί να μειωθεί το κόστος μίας διαφημιστικής εκστρατείας που βασίζεται στην αποστολή διαφημιστικών φυλλαδίων. Αυτό γίνεται περιορίζοντας το πλήθος των πελατών στους οποίους απευθύνεται, επιλέγοντας αυτούς με μεγαλύτερη πιθανότητα να αντιδράσουν θετικά. Για να μπορέσει να γίνει η επιλογή του κατάλληλου αλγορίθμου απαραίτητη προϋπόθεση είναι η μελέτη των δεδομένων που θα χρησιμοποιηθούν για τον προσδιορισμό κυρίως του κριτηρίου ομοιότητας των εγγραφών μίας ομάδας. Γενικά η τεχνική της ομαδοποίησης μπορεί να είναι:

• Στατιστική ή Αριθμητική (statistical/numerical clustering)

Σε αυτήν την περίπτωση χρησιμοποιούνται διάφορα αριθμητικά κριτήρια ομοιότητας. Έτσι οι ομάδες που προκύπτουν περιγράφονται από αριθμητικές τιμές • Εννοιολογική (conceptual clustering) Σε αυτήν την περίπτωση ο προσδιορισμός των ομάδων βασίζεται στο νόημα και στις έννοιες που τα διάφορα αριθμητικά στοιχεία

Page 28: Nimertis_Pagouropoulos

22

αντιπροσωπεύουνε. Έτσι οι τιμές που έχουμε είναι κατηγορικές και όχι αριθμητικές. Πολλοί από τους αλγόριθμους ομαδοποίησης απαιτούν τo σύνολο εκπαίδευσης που επεξεργάζονται να είναι αριθμητικό (πχ k-means) είτε κατηγορικό (πχ k-modes).Υπάρχουν και αλγόριθμοι βέβαια που επιτρέπουν μικτό σύνολο εκπαίδευσης (πχ ο k-prototypes).

Στην συνέχεια θα περιγραφεί αναλυτικά ένας από τους βασικότερους αλγόριθμους ομαδοποίησης ο k-means, ο οποίος παρουσιάστηκε αρχικά το 1967 [.4].

Ο k-means διαχωρίζει τα δεδομένα του συνόλου εκπαίδευσης σε k ομάδες, όπου το k καθορίζεται από τον χρήστη. Η λειτουργία του βασίζεται σε διαδοχικές επαναλήψεις κατά τις οποίες τα δεδομένα κατατάσσονται σε κάποια ομάδα με βάση την ομοιότητα που παρουσιάζουν με το μέσο αυτής της ομάδας. Ο αλγόριθμος στηρίζεται ουσιαστικά σε κάποια αντιπροσωπευτικά δείγματα (means) κάθε ομάδας. Κάθε μία από τις k ομάδες που θα δημιουργηθούν θα περιέχει ένα αντιπροσωπευτικό δείγμα το οποίο ουσιαστικά θα αντιπροσωπεύει την ομάδα, καθώς θα αποτελεί μια μέση περιγραφή της ομάδας. Επίσης το αντιπροσωπευτικό δείγμα θεωρείται ότι είναι το κέντρο βάρους της ομάδας. Ο αλγόριθμος προσπαθεί να κατατάξει τις εγγραφές στις διάφορες ομάδες έτσι ώστε μετά τον τερματισμό, κάθε εγγραφή να ανήκει σε εκείνη την ομάδα από της οποίας το αντιπροσωπευτικό δείγμα απέχει λιγότερο σε σχέση με αυτά των άλλων ομάδων.

Τα βήματα του αλγορίθμου είναι τα εξής: 1. Προσδιόρισε το k 2. Πάρε τα αρχικά k αντιπροσωπευτικά δείγματα (πχ πάρε τις πρώτες k αντιπροσωπευτικές εγγραφές) 3. Επανέλαβε 4. Για κάθε εγγραφή βρες την απόστασή της από τα αντιπροσωπευτικά δείγματα και θεώρησε ότι ανήκει στην ομάδα του πιο κοντινότερου αντιπροσωπευτικού δείγματος 5. Υπολόγισε τα νέα αντιπροσωπευτικά δείγματα (κέντρα βάρους) των ομάδων 6. Μέχρι να μην γίνονται αλλαγές.

Μία βελτιωμένη έκδοση του αλγορίθμου k-means αποτελεί ο αλγόριθμος K-modes πάνω στον οποίο θα γίνει και η εφαρμογή μας για Ομαδοποίηση στο πρακτικό κομμάτι της εργασίας. Για τον λόγο αυτό κρίνουμε σκόπιμο να παρουσιάσουμε κάποια στοιχεία που αφορούν τον συγκεκριμένο αλγόριθμο. Ο αλγόριθμος K-modes Ο αλγόριθμος K-modes είναι ένας αλγόριθμος κατηγοριοποίησης δεδομένων [.17]. Πραγματεύεται και εφαρμόζεται σε κατηγορικά δεδομένα και αποτελεί θα μπορούσαμε να πούμε μία βελτιωμένη έκδοση του αλγορίθμου k-means. Ο συγκεκριμένος αλγόριθμος απαιτεί από τον χρήστη να καθορίσει από την αρχή τον αριθμό των ομάδων που επιθυμεί να εξαχθούν και να παραχθούν και ο αλγόριθμος με την σειρά του προχωράει σε αυτό. Κάθε ομάδα (cluster) έχει ένα κέντρο ή αλλιώς μέσο (mode) που σχετίζεται με αυτήν. Υποθέτουμε ότι τα αντικείμενα του συνόλου

Page 29: Nimertis_Pagouropoulos

23

που έχουμε στην διάθεσή μας περιγράφονται από m κατηγορικά πεδία, το κέντρο της κάθε ομάδας είναι ένα διάνυσμα Q = (q1,q2,…….,qm) όπου το στοιχείο qi είναι εκείνο με την μεγαλύτερη συχνότητα όσον αφορά την τιμή του για το iοστό πεδίο στην ομάδα των αντικειμένων. Δοθέντος ενός συνόλου δεδομένων και ορίζοντας τον αριθμό των ομάδων, ο αλγόριθμος λειτουργεί ως εξής: 1. Επέλεξε αρχικά k κέντρα για k ομάδες (clusters) 2. Για κάθε στοιχείο Χ -Υπολόγισε την ομοιότητα μεταξύ του αντικειμένου / στοιχείου Χ και των κέντρων

όλων των ομάδων -Εισήγαγε το στοιχείο Χ στην ομάδα c της οποίας το κέντρο / μέσο είναι το πιο

κοντινό, όμοιο με το Χ -Κάνε update στο κέντρο της ομάδας c 3. Επανεξέτασε την ομοιότητα των στοιχείων σε σχέση με τα υπάρχοντα κέντρα των ομάδων (modes). Στην περίπτωση που ένα στοιχείο είναι κοντύτερα σε ένα κέντρο / mode που ανήκει σε άλλη ομάδα παρά στην δική του, επανατοποθέτησε το σε εκείνη την ομάδα και επαναπροσδιόρισε τα κέντρα / modes των ομάδων. Επανέλαβε το βήμα 3 έως ότου κανένα ή ελάχιστα αντικείμενα να αλλάζουν ομάδες . Για την ομοιότητα χρειαζόμαστε μία μετρική ώστε να επιλέγουμε την κοντινότερη ομάδα για κάθε αντικείμενο. Έστω Χ = x1,x2,………….xm είναι ένα στοιχείο, όπου xi είναι η τιμή του iοστού πεδίου, και Q = (q1,q2,…….,qm) είναι το κέντρο της ομάδας. Το μέτρο ομοιότητας (similarity measure) μεταξύ του X και του Q μπορεί να προσδιοριστεί ως:

1( , ) ( , )

m

i ii

similarity X Q x qδ=

= ∑

1 (xi = qi) όπου ( , )i ix qδ = 0 (xi ≠ qi) Στην συνέχεια θα παρουσιάσουμε περισσότερα στοιχεία για την ομαδοποίηση (Cluster Analysis) [.8]. Οι αλγόριθμοι που χρησιμοποιούνται για clustering / ομαδοποίηση ανήκουν σε πέντε κατηγορίες όπως αυτές αναφέρονται παρακάτω:

Page 30: Nimertis_Pagouropoulos

24

- Partitioning methods - Hierarchical methods - Model-based methods - Density-based methods - Grid-based methods

Κάθε μία από αυτές θα περιγραφεί παρακάτω. Partitioning methods Δοθέντος n αντικείμενα αυτές οι μέθοδοι δημιουργούν k partitions / διαιρέσεις, χωρίσματα για τα δεδομένα τα οποία τα καταχωρούν σε ομάδες όπου κάθε μία partition αναπαριστά μία ομάδα (cluster). Κάθε ένα αντικείμενο ανήκει σε μία ομάδα και επίσης κάθε μία ομάδα πρέπει να περιέχει τουλάχιστον ένα αντικείμενο. Η γενική μέθοδος είναι να καθορίσουμε έναν αριθμό ομάδων και έπειτα να αρχίσουμε να καταχωρούμε ανάλογα τα αντικείμενα που μας ενδιαφέρουν έως ότου να ικανοποιηθεί κάποια αντικειμενική συνάρτηση. Για να εντοπίσουμε το βέλτιστο της συνάρτησης θα πρέπει να υπολογίσουμε όλες τις N(n,k) πιθανές partitions όπου:

( )

1

1( , ) ( 1)!

k kk i n

iiN n k i

k−

=

⎛ ⎞= − ⎜ ⎟⎝ ⎠

Page 31: Nimertis_Pagouropoulos

25

Ο αλγόριθμος k-means Ο αλγόριθμος k-means o οποίος παρουσιάστηκε παραπάνω αποτελεί τον πιο διαδεδομένο αλγόριθμο clustering. Εφαρμόζοντάς τον, χωρίζουμε τα δεδομένα σε k ομάδες όπου το k καθορίζεται από τον χρήστη. Σκοπός του αλγορίθμου είναι να ελαχιστοποιήσει (minimize) τις διαφορές (discrepancies) των σημείων των clusters με τα αντίστοιχα κέντρα. Στο σημείο αυτό θα παρουσιάσουμε μία πιο αναλυτική προσέγγιση του αλγορίθμου ως προς την μαθηματική θεμελίωσή του. Οι ομάδες οι οποίες δημιουργούνται κατά την λειτουργία του αλγορίθμου, χαρακτηρίζονται από τον p-vector mean ο οποίος αποτελεί το βαρύκεντρό τους. Για τον καθορισμό αυτών χρησιμοποιείται η L2 norm . Άρα έχουμε την ακόλουθη αντικειμενική συνάρτηση:

2

1 i

k

i jj x Cj

A x c= ∈

= −∑∑ όπου ix αναφέρεται στο αντικείμενο και jc στο

αντίστοιχο κέντρο της ομάδας Ο αλγόριθμος διαμερίζει ένα σύνολο n σημείων σε k ομάδες. Έχει ως εξής: 1. Υπολογίζονται τα κέντρα των ομάδων 2. Κατανέμεται κάθε σημείο στην ομάδα με το πλησιέστερο κέντρο, για το οποίο έχει

την μικρότερη L2 norm 3. Επαναπροσδιόρισε τα νέα κέντρα

4. Για κάθε αντικείμενο ι όπου i jx C∈ υπολόγισε arg min1

r i r

r jr

n x ch

n≠

−=

− ,

όπου h το στοιχείο που ελαχιστοποιεί το πηλίκο Όπου nr είναι ο αριθμός των αντικειμένων που εκχωρήθηκαν στο cluster r

Σε περίπτωση που 1 1j i jh i h

h j

n x cn x cn n

−−<

− − τότε μετακίνησε το

αντικείμενο i από το cluster j και τοποθέτησέ το στο cluster h Επαναπροσδιόρισε τα κέντρα των ομάδων

5. Σε περίπτωση που ένα αντικείμενο μετακινήθηκε στο βήμα 4, πήγαινε ξανά στο 3.

Αλλιώς τερμάτισε.

Page 32: Nimertis_Pagouropoulos

26

Σημαντικό πλεονέκτημα του αλγορίθμου είναι η πολυπλοκότητά του Ο(n), ότι ανήκει στους scalable αλγορίθμους και ότι δίνει περιλήψεις των ομάδων που δημιουργεί. Βασικά του μειονεκτήματα είναι η ευαισθησία του σε outliers και ότι τείνει να παράγει cluster ίδιου περίπου μεγέθους. Ακόμη δεν κρίνεται επαρκής για πολύπλοκα σχήματα. Fuzzy k-means H μέθοδος του αλγορίθμου k-means όπως παρουσιάστηκε παραπάνω αποτελεί μία μέθοδο hard clustering (απόλυτη ομαδοποίηση) . Κάθε αντικείμενο καταχωρείται σε ένα και μόνο cluster. Μία fuzzy, soft περίπτωση clustering δημιουργεί βαθμούς συμμετοχής για κάθε αντικείμενο το οποίο ανήκει σε κάθε ομάδα / cluster. Αυτό μας βοηθάει να προσδιορίζουμε την εμπιστοσύνη (confidence) την οποία έχουμε για κάθε περίπτωση labeling (διαδικασία ετικέτας ανάλογα με τα χαρακτηριστικά). Ο βαθμός κατά τον οποίο ένα αντικείμενο i είναι μέλος ενός cluster j εκφράζεται από την αναλογία (proportion) zij όπου είναι μη αρνητικοί αριθμοί και το άθροισμά τους μας δίνουν την μονάδα για όλα τα clusters για κάθε αντικείμενο i. Το πρόβλημα της ομαδοποίησης εδώ σύμφωνα με τον Bezdek (1981) προσεγγίζεται σαν ένα πρόβλημα βελτιστοποίησης, χρησιμοποιώντας Langrance multipliers. Η ομαδοποίηση ξεκινά με το να ελαχιστοποιούμε μία συνάρτηση Α σε σχέση με τις αντίστοιχες αναλογίες συμμετοχής z.

2rij i j

i jA z x c= −∑∑ όπου r μεγαλύτερο της μονάδας και

1. zij ∈ [0,1] για όλα τα i, j

2. 10 n

ijiz n

=< <∑

3. 11k

ijjz

==∑ για όλα τα i

Page 33: Nimertis_Pagouropoulos

27

Επισημάνουμε ότι το r μπορεί να χρησιμοποιηθεί και ως στοιχείο που θα επηρεάζει τον βαθμό της ασάφειας (fuzziness). Μεγάλες τιμές του παράγουν περισσότερο ασαφείς ομαδοποιήσεις. Δοθέντος ενός συνόλου από κέντρα clusters Cj η βέλτιστη συμμετοχή ενός αντικειμένου i σε ένα cluster j δίνεται από τον τύπο:

21

21

1

ri j

ijk r

i hh

x cz

x c

−−

−−

=

=

−∑

1. Ο αλγόριθμος αυτός δημιουργεί τιμές σχετικά με την συμμετοχή 2. Υπολογίζει το νέο κέντρο από κάθε cluster σαν την μέση απόσταση των

δεδομένων χρησιμοποιώντας τους υπάρχοντες συντελεστές membership 3. Υπολογίζει τους συντελεστές συμμετοχής με τον παραπάνω τύπο

4. Ανάλογα με το αποτέλεσμα έχουμε loop / επανάληψη μεταξύ των 2 και 3.

k-medoids Η μέθοδος αυτή χωρίζει ένα διάστημα σε k ομάδες. Ένα medoid είναι ένα αντικείμενο το οποίο έχει επιλεγεί από το σύνολο δεδομένων και αναπαριστά ένα cluster. Ο αλγόριθμος επιλέγει k medoids για να αναπαραστήσει τα k clusters. Έπειτα οι ομάδες δημιουργούνται με το να καταχωρούμε το κάθε ένα από τα εναπομείναντα αντικείμενα στο κοντινότερο medoid. Ο πιο κοινός και γνωστός αλγόριθμος αυτής της μεθόδου είναι ο Partitioning Around Medoids (PAM) των Kaufman και Rousseeuw (1990). Ο αλγόριθμος αυτός λειτουργεί ως ακολούθως : Τυχαία επέλεξε k αντικείμενα από τα δεδομένα σαν medoids Θεώρησε να γίνονται ανταλλαγές στα ζεύγη των αντικειμένων (i,h); όπου το i ανήκει στα επιλεχθέντα αντικείμενα και το h στα υπόλοιπα (μη επιλεχθέντα). Θέσε την ανταλλαγή σαν i↔ h. Έστω d(xi,xh) είναι το μέτρο της απόστασης μεταξύ δύο αντικειμένων i και h. Τώρα θεώρησε ένα άλλο μη-επιλεχθέν αντικείμενο j.

Page 34: Nimertis_Pagouropoulos

28

Υπολόγισε το Τih , την συνολική συνεισφορά για i↔ h ως

ih jihj

T C= ∑

Υπάρχουν τέσσερις περιπτώσεις όταν υπολογίζουμε το jihC

1. Εάν το j ήδη υπάρχει στην ομάδα που καθορίζεται από το medoid ι (έστω το cluster / ομάδα i) θεώρησε την απόσταση d(xi,xh) μεταξύ των j και h.

Εάν το h είναι κοντύτερο στο j παρά το i στο j ,τότε η συνεισφορά από το j στην αλλαγή (swap), είναι

jihC =d(xi,xh) – d(xj,xi) Το αποτέλεσμα του i↔ h θα είναι ότι το j τώρα ανήκει στο cluster h.

2. Σε περίπτωση που το j ανήκει στην ομάδα k όπου k ≠ i έλεγξε την απόσταση μεταξύ του αντικειμένου j και h. Εάν το h είναι μακρύτερα από το j από ότι το medoid k είναι από το j τότε η συνεισφορά από το αντικείμενο j στην αλλαγή είναι:

jihC = 0 και το αποτέλεσμα του i↔ h θα είναι ότι το αντικείμενο j ακόμη

ανήκει στο cluster k. Αλλιώς εάν το h είναι κοντίτερα στο j παρά στο k τότε η συνεισφορά από το

j στην ανταλλαγή είναι: jihC =d(xj,xh) – d(xj,xk) και θα σημαίνει ότι το j τώρα ανήκει στο cluster h.

3. Έστω (i*,h*) = argmini,hTi*,h*<0 τότε η ανταλλαγή θα είναι i*↔h*

Στην περίπτωση αυτή το h ανήκει στα επιλεχθέντα αντικείμενα και το i ανήκει στα μη επιλεχθέντα αντικείμενα. Ο αλγόριθμος πηγαίνει στο βήμα 2.

4. Τοποθέτησε κάθε μη επιλεχθέν αντικείμενο (non-selected object) στο cluster που καθορίζεται από το κοντινότερο medoid.

Page 35: Nimertis_Pagouropoulos

29

Αυτό που πραγματικά εκπλήσσει στην μέθοδο αυτή είναι η «ευρωστία», robustness. Η χρησιμοποίηση των medoids για τον καθορισμό clusters κάνει την μέθοδο ισχυρή ενάντια σε σφάλματα όσον αφορά τα δεδομένα. Σαν μειονέκτημα του μπορεί να θεωρηθεί η πολυπλοκότητά του Ο(n2) και το ότι δεν περιγράφει τις ομάδες τις οποίες δημιουργεί. Τέλος χρειάζεται εμπειρία από τον χρήστη στο να μαντέψει σωστά τις ομάδες εκ των προτέρων για να αρχίσει να τρέχει ο αλγόριθμος. Hierarchical clustering Η μέθοδος αυτή προσπαθεί να συνδέσει n αντικείμενα σε υποκλάσεις. Χαρακτηρίζεται από δύο μορφές την Agglomerative και την Divisive. Οι μέθοδοι Agglomerative ανήκουν στις μεθόδους ‘bottom-up’ ομαδοποιώντας n αντικείμενα σε k ομάδες σε κάθε επίπεδο (stage) με το να συγχωνεύουν το ζευγάρι των ομοιότερων ομάδων . Από την άλλη μεριά οι Divisive μέθοδοι είναι ‘top-down’ δηλαδή ξεκινάν από ένα cluster και αναζητούν να χωρίσουν τα δεδομένα σε k διαχωρισμούς διαμερίζοντας ένα cluster σε κάθε επίπεδο. Σχεδόν όλοι οι αλγόριθμοι του hierarchical clustering είναι agglomerative. Agglomerative methods Οι agglomerative μέθοδοι ξεκινάνε με το να θεωρούν κάθε αντικείμενο σαν cluster. Έπειτα ο αλγόριθμος συγχωνεύει τις δύο κοντινότερες ομάδες (nearest clusters) των οποίων η απόσταση καθορίζεται από την μετρική Di,h και υπάρχει πληθώρα από αυτές με μερικές να είναι περισσότερο αρεστές όπως οι :

,,m in ( )

i i j ji jx S x S

S ingle linkage d x x∈ ∈

,,max ( )

i i j ji jx S x S

Complete linkage d x x∈ ∈

1 ( , )j

i j jj

ix S x Si

Average linkage d x xS S ∈ ∈

− ∑ ∑

Page 36: Nimertis_Pagouropoulos

30

Η τελευταία καθορίζει την απόσταση μεταξύ δύο clusters όπως η Ευκλείδεια απόσταση την απόσταση μεταξύ των βαρύκεντρων των σημείων σε κάθε cluster. Μία γενική ομάδα μετρικών δόθηκε από τους Lance και Williams. Έστω Dk,ij είναι η απόσταση μεταξύ ενός cluster k και μιας ένωσης clusters ι,j. Τότε: Dk,ij = αiDk,i + αjDk,j + βDi,j + γ|Dk,i - Dk,j Μία agglomerative method λειτουργεί ως εξής: 1. Θεωρούμε κάθε αντικείμενο σαν ομάδα. Ο πίνακας (n x n) της απόστασης αναπαριστά τις αποστάσεις μεταξύ όλων των ζευγών που μπορούν να δημιουργήσουν ένα cluster. 2. Βρίσκει το μικρότερο στοιχείο του πίνακα και αυτό αντιστοιχεί στο ζεύγος των clusters που είναι περισσότερο όμοια. Συγχωνεύει τα i,h μαζί (i,h τα αντίστοιχα clusters). 3. Υπολογίζει τις αποστάσεις μεταξύ των νέων και προηγούμενων cluster χρησιμοποιώντας μία μετρική απόστασης. Διαγράφουν την γραμμή και την στήλη του i και στην γραμμή και στήλη του h τοποθετεί τις νέες τιμές. (Αυτό μειώνει το μέγεθος του πίνακα κατά 1) 4. Τέλος ελέγχει αν ο αριθμός των clusters είναι μεγαλύτερος του k. Αν ναι πηγαίνει στο βήμα 2, αλλιώς τερματίζει. Το πλεονέκτημα αυτών των μεθόδων είναι ότι μπορούν να χειρίζονται μεγάλο αριθμό δεδομένων. Μειονεκτήματα τους θεωρούνται η πολυπλοκότητα του χρόνου τους Ο(n3) και ότι έχουν μεγάλη εξάρτηση από τις μετρικές απόστασης καθώς κάθε νέα μετρική δημιουργεί διαφορετικό αριθμό ομάδων. Divisive methods Οι Kaufman και Rousseuw έδωσαν μια περιγραφή σχετικά με έναν divisive hierarchical αλγόριθμο. Η ιδέα ώστε ένα αντικείμενο να χαρακτηρίζεται ως μη ικανοποιήσιμο / μη ικανοποιημένο (dissatisfied) με μία ομάδα (cluster) έχει ως ακολούθως. Ένα dissatisfied αντικείμενο είναι εκείνο το οποίο είναι το πιο απόμακρο από όλα τα άλλα. Έστω η μέση απόσταση μεταξύ ενός αντικειμένου i και ενός cluster Cj καθορίζεται και βρίσκεται από την :

Page 37: Nimertis_Pagouropoulos

31

1, ( , )i j j i h

xh CjD C n d x x−

= ∑

Το περισσότερο dissatisfied αντικείμενο διασπάται και δημιουργεί ένα νέο cluster. Αυτό είναι όμοιο με το να «σπάμε» εκείνο το cluster με την μεγαλύτερη διάμετρο. Τα αντικείμενα της συγκεκριμένης ομάδας αποφασίζουν εάν θα μετακινηθούν ή εάν θα παραμείνουν στην ομάδα όπου βρίσκονται. Εδώ ξαναχρησιμοποιείται ο μέσος της απόστασης (average distance). Εάν ένα αντικείμενο h είναι κοντύτερα σε ένα cluster τότε η μετακίνηση πραγματοποιείται. Ο αλγόριθμος συνεχίζει να διασπά το cluster με την μεγαλύτερη διάμετρο μέχρι να έχουμε n ομάδες. Με λίγα λόγια η λειτουργία του αλγορίθμου έχει ως εξής:

1. Επέλεξε την ομάδα που περιέχει τα πιο μακρινά ζευγάρια αντικειμένων. Αυτό θα έχει και την μεγαλύτερη διάμετρο.

2. Μέσα στην ομάδα αυτή βρες εκείνο με την μεγαλύτερη μέση απόσταση από

όλα τα άλλα και θεώρησέ το σαν νέο cluster.

3. Για το αντικείμενο h υπολόγισε την μέση απόσταση και μετακίνησέ το σε νέο

cluster. Κάνε το ίδιο για όλα τα αντικείμενα. 4. Εάν κανένα αντικείμενο δεν θέλει να μετακινηθεί αλλά ο αριθμός των cluster

ως τώρα είναι μεγαλύτερος του k πήγαινε στο 1, αλλιώς σταμάτα. Μειονεκτήματα της μεθόδου αυτής είναι ότι λόγο των υπολογισμών απαιτεί μεγάλο αποθηκευτικό χώρο , έχει χρόνο Ο(n3) και επίσης βρίσκει μία από τις Ν(n,k) partitions. Model-based methods Οι μέθοδοι με την ονομασία Model-based methods, περιγράφουν κάθε μέθοδο ομαδοποίησης όπου ένα μοντέλο μπορεί να μετατραπεί και να ταιριαστεί με τα ανάλογα δεδομένα. Η διαδικασία του να επιλεγεί ένα μοντέλο απαιτεί μεγάλη επιτήρηση όσον αφορά την μέθοδο ομαδοποίησης, και προϋποθέτει την απαιτούμενη γνώση του χρήστη για τα δεδομένα. Τα είδη τέτοιων μεθόδων αναφέρονται σε στατιστικές εκδώσεις και νευρωνικά δίκτυα. Παρακάτω θα αναφερθούμε στον ΕΜ αλγόριθμο.

Page 38: Nimertis_Pagouropoulos

32

ΕΜ αλγόριθμος Είναι φυσικό να θεωρήσουμε ένα πρόβλημα clustering σαν ένα πρόβλημα έλλειψης δεδομένων. Αυτό γίνεται καθώς εάν όλα τα δεδομένα υπάρχουν τότε θεωρητικά η ανάλυσή τους θα είναι εύκολη. Ο αλγόριθμος λειτουργεί εκτιμώντας τα δεδομένα που λείπουν ( E-step) και έπειτα εκτιμώντας τις παραμέτρους του μοντέλου με την μεγαλύτερη ομοιότητα (M-step). Η προσέγγιση αυτή απαιτεί η συλλογή αντικειμένων και οι ομάδες τους (clusters) να αναπαρίστανται από ένα στατιστικό μοντέλο. Τα δεδομένα θεωρούνται σαν ένα τυχαίο δείγμα από ένα μίγμα πιθανοτηκών κατανομών (distributions). Αυτές καθορίζουν και τα clusters. Η ομοιότητα των δεδομένων έχει μία multinomial μορφή και καθορίζεται ως εξής:

1( ) ( , )

n

ii

L f xψ ψ=

όπου το ψ είναι ένα σύνολο από παραμέτρους που καθορίζουν το υπάρχον μοντέλο και f(x,ψ) είναι το p.d.f της κατανομής. Από την στιγμή που κάθε αντικείμενο προκύπτει από μία και μόνο κατανομή η πυκνότης των χi και zi μπορεί να γραφεί :

Όπου το πj αναπαριστά την πιθανότητα ότι το αντικείμενο i προέκυψε από την πυκνότητα fj(.). Οι πυκνότητες των συστατικών (components densities) τυπικά εξαρτώνται από επιπρόσθετες παραμέτρους. Το zij είναι 0-1 μεταβλητές – δείκτες, που αποτυπώνουν πότε ένα αντικείμενο ι προκύπτει από την fj(.) η όχι και zi=(z1i,………,zki) είναι ο τομέας ο οποίος περιέχει τον k δείκτη για το αντικείμενο i όπου :

1 1,......,1

kji i nj

z = ∀ ==∑

Αυτός ο δείκτης αναπαριστά τα labels που λείπουν.

1( ( )) ij

kz

j j ij

f xπ=Π

Page 39: Nimertis_Pagouropoulos

33

Ο αλγόριθμος ΕΜ στην tth έχει ως εξής:

1. E-step: Υπολόγισε την αναμενόμενη τιμή των δεικτών μεταβλητών που βασίζονται στο υπάρχον μοντέλο και δεδομένα

( )

1

( )( | ) Pr ( 1 | )

( )

tj i jt

ij ij ij kg i gg

f xz E z x z x

f xψ

π

πΨ

=

= = = =∑

2. Μ-step: Εκτίμησε τις prior / πρώτες πιθανότητες π, ισοδύναμα με την αναλογία των αντικειμένων που έρχονται από κάθε ομάδα / cluster

( 1 ) ( )

1/

nt t

j i ji

z nπ +

=

= ∑

Οι παράμετροι αυτές πρέπει να «επαναπροσδιορίζονται» στο M-step του

αλγορίθμου. Στην πιο απλή περίπτωση αυτές οι επεναπληροφορήσεις είναι μέσοι όροι βαρών (weighted averages), όπου z είναι το βάρος.

Σημαντικό πλεονέκτημα του αλγορίθμου είναι ότι μπορεί να συνδυάσει ένα στατιστικό μοντέλο με τα δεδομένα. Μειονεκτήματα του είναι ότι σαρώνει ολόκληρο το σύνολο δεδομένων σε κάθε εφαρμογή και ότι μπορεί αναγκαία γνώση σχετικά με το στατιστικό μοντέλο να μην υπάρχει. Επίσης κρίνεται αργός για πολύπλοκα μοντέλα και πολύ μεγάλες βάσεις δεδομένων. 2.2.2.1 Ομαδοποιώντας μεγάλα σύνολα / Clustering large datasets Ένας προφανής τρόπος ομαδοποίησης μεγάλων συνόλων δεδομένων είναι να προσπαθήσουμε να εξάγουμε από τις ίδιες υπάρχουσες μεθόδους κάποια μοντέλα αποτελεσματικότερα που θα είναι ικανά να συνεργαστούν με τον μεγάλο αριθμό δεδομένων [.8]. Θα πρέπει να επικεντρωθούμε στην ομαδοποίηση μεγάλων αριθμών / ποσοτήτων δεδομένων παρά στην ομαδοποίηση μικρού αριθμού δεδομένων σε

Page 40: Nimertis_Pagouropoulos

34

πολλές διαστάσεις. Στην συνέχεια θα παρουσιάσουμε ορισμένους αλγορίθμους από τις διάφορες μεθόδους οι οποίοι κρίνονται ίσως ως οι πιο αντιπροσωπευτικοί, (μερικοί αποτελούν την βάση για εξέλιξη κάποιων άλλων), της κάθε μεθόδου. Οι Kaufman ,Rousseeuw (1990) πρότειναν τον αλγόριθμο CLARA (Clustering LARge Applications) ο οποίος είναι μία παραλλαγή του αλγορίθμου k-medoids για πολλά δεδομένα. Λειτουργεί με το να ομαδοποιεί ένα δείγμα του συνόλου και έπειτα εκχωρεί όλα τα δεδομένα του συνόλου σε αυτές τις ομάδες. Ο αλγόριθμος λειτουργεί ως ακολούθως:

1. Επέλεξε ένα δείγμα από τα n αντικείμενα και ομαδοποίησέ το σε k ομάδες 2. Εκχώρησε κάθε αντικείμενο του συνόλου (αρχικό σύνολο) στο κοντινότερο

group

3. Αποθήκευσε την μέση απόσταση μεταξύ των αντικειμένων και των

αντιπροσωπευτικών τους δειγμάτων 4. Επανέλαβε την διαδικασία 5 φορές επιλέγοντας την ομάδα με την μικρότερη

μέση απόσταση O παραπάνω αλγόριθμος από την στιγμή που χρησιμοποιεί μέσους για τον προσδιορισμό ομάδων, δεν είναι ιδανικός όμως σε περιπτώσεις όπου το n είναι πολύ μεγαλύτερο του μέγιστου αριθμού αντικειμένων όπου η μέθοδός μας μπορεί να ομαδοποιήσει σε λογικά πλαίσια χρόνου. Επίσης ένα μικρό δείγμα δεδομένων θα καταλήγει σε κάποιες ομάδες οι οποίες θα προϋπάρχουν. Στην συνέχεια θα παρουσιαστούν κάποιοι αλγόριθμοι οι οποίοι θα ταξινομούν n αντικείμενα σε k ευκρινείς ομάδες (k distinct clusters). Partitioning methods / Ο αλγόριθμος CLARANS Παρουσιάστηκε από τους Ng, Han (1994) σαν μια βελτιωμένη μέθοδος της μεθόδου CLARA. Ο CLARANS (Clustering Large Applications based on RANdomized Search) θεωρείται ότι ομαδοποιεί καλύτερα με λιγότερες πράξεις. Στην ουσία αναζητεί ένα τυχαίο υποσύνολο των γειτόνων μιας λύσης S. Έχει δύο παραμέτρους ΜΑΧneigh που δηλώνει τον μέγιστο αριθμό των γειτόνων της, και ΜΑΧsol τον αριθμό των τοπικών λύσεων που αναμένει. Η λειτουργία του έχει ως εξής:

1. Έστω S ένα αυθαίρετο σύνολο από k αντιπροσωπευτικά αντικείμενα. Θέσε i=1

2. Θέσε j=1

Page 41: Nimertis_Pagouropoulos

35

3. Θεώρησε έναν γείτονα R του S τυχαία. Υπολόγισε την «συνεισφορά

ανταλλαγής» (total swap contribution) των δύο γειτόνων όπως και στην περίπτωση των k-medoids

4. Εάν το R έχει μικρότερο κόστος, θεώρησε R=S και πήγαινε στο βήμα 2,

αλλιώς αύξησε το j κατά 1. Εάν το j< ΜΑΧneigh πήγαινε στο βήμα 3.

5. Όταν j> ΜΑΧneigh σύγκρινε το κόστος της S με την καλύτερη λύση ως τώρα και αν είναι μικρότερο κατέγραψε το. Αύξησε το i κατά 1 . Εάν i> ΜΑΧsol τερμάτισε αλλιώς πήγαινε στο βήμα 1.

Ιεραρχικές μέθοδοι / Fractionization and refractionization Με τον όρο Fractionization εννοούμε την μέθοδο να υιοθετούμε κάθε μέθοδο ιεραρχικής ομαδοποίησης η οποία θα είναι σε θέση να πραγματεύεται μεγάλα σύνολα δεδομένων. Η ιδέα είναι να διασπά τα δεδομένα σε «ευκολοδούλευτα» υποσύνολα (manageable subsets) τα οποία ονομάζονται fractions και έπειτα να εφαρμοστεί η όποια ιεραρχική μέθοδος σε κάθε ένα fraction. Οι παρεχθήσες ομάδες από τα fractions έπειτα ομαδοποιούνται σε k ομάδες με την ίδια μέθοδο. Fractionization /Refractionization

Στην περίπτωση Fractionization k είναι ο απαιτούμενος αριθμός των ομάδων που θα πρέπει να εκτιμηθούν εκ των προτέρων. Έστω n ο αριθμός των αντικειμένων στα δεδομένα και M ο μέγιστος αριθμός των αντικειμένων όπου η διαδικασία ομαδοποίησης μπορεί να χειριστεί σε λογικά πλαίσια χρόνου. Η διαδικασία θα έχει ως εξής:

1. Διέσπασε τα δεδομένα σε fractions που θα έχουν μέγεθος M. 2. Ομαδοποίησε κάθε fraction σε αΜ ομάδες όπου α<1. Υπολόγισε τον μέσο

του κάθε cluster και θεώρησέ τους σαν δεδομένα.

3. Εάν ο αριθμός των meta-observations είναι μεγαλύτερος του Μ, τότε η

μέθοδός μας δεν τερματίζει. Πήγαινε στο βήμα 1 και θεώρησε τις meta-observations σαν δεδομένα. (Έτσι ο αλγόριθμος επαναλαμβάνει το loop μέχρι να έχει μικρότερο αριθμό meta-observations από το Μ).

Page 42: Nimertis_Pagouropoulos

36

4. Ομαδοποίησε αυτές τις μετά-παρατηρήσεις σε k ομάδες χρησιμοποιώντας

όποια μέθοδο θέλεις.

5. Ταξινόμησε κάθε οντότητα καθώς ανήκει στο cluster με τον πλησιέστερο

μέσο.

Δυνατό σημείο της μεθόδου αυτής είναι ο χρόνος καθώς είναι διάφορος του n από την στιγμή που έχουμε τα fractions. Όμως υπάρχει πρόβλημα στο ότι μπορεί οι meta-observations να έχουν λάθος στοιχεία μέσα τους και στην συνέχεια να οδηγηθούμε σε σφάλμα. Για τον λόγο αυτό προτάθηκε η Refractionization. Η διαδικασία αυτή έχει ως εξής:

1. Διέσπασε τα δεδομένα σε fractions που θα έχουν μέγεθος M 2. Ομαδοποίησε κάθε fraction σε αΜ ομάδες όπου α<1. Υπολόγισε τον μέσο

του κάθε cluster και θεώρησέ τους σαν meta-observations.

3. Εάν ο αριθμός των meta-observations είναι μεγαλύτερος του Μ, τότε η

μέθοδός μας δεν τερματίζει. Πήγαινε στο βήμα 1 και θεώρησε τις meta-observations σαν δεδομένα.

(Έτσι ο αλγόριθμος επαναλαμβάνει το loop μέχρι να έχει μικρότερο αριθμό

meta-observations από το Μ). 4. Ομαδοποίησε αυτές τις μετά-παρατηρήσεις σε k ομάδες .

5. Δημιούργησε τα fractions της επόμενης λειτουργίας όπως τα cluster στο βήμα

4. Από την στιγμή όπου το κάθε cluster έχει Μ αντικείμενα θεώρησέ το σαν fraction και εξαίρεσέ το από την διαδικασία.

6. Ταξινόμησε κάθε οντότητα καθώς ανήκει σε ένα cluster σύμφωνα με κάποια

μέθοδο. Σύμφωνα με τον Tantrum υπάρχουν κάποιοι περιορισμοί όσον αφορά την μέθοδο. Έστω ng είναι ο αληθινός αριθμός των ομάδων, nf ο αριθμός των fractions έπειτα από τον διαχωρισμό των δεδομένων, nm ο αριθμός των meta-observations έπειτα από την ομαδοποίηση κάθε fraction. Τότε θα έχουμε τα εξής:

Page 43: Nimertis_Pagouropoulos

37

Εάν ng< nm τότε η refractionization δεν χρειάζεται Η μέθοδος δεν θα βρει τις πραγματικές ομάδες όπου ng< nmnf Για να βρούμε μία εκτίμηση του αριθμού των ομάδων το k θεωρείται σαν το κατάλληλο βάρος απόδειξης (approximate weight of evidence) (AWE). Εκτιμούμε τον αριθμό των clusters με το να μεγιστοποιήσουμε την AWE:

^arg m ax (2 ( ) 2 (3 / 2 log ))

kk L k r n= − +

Όπου L(k) είναι η λογαριθμική-ομοιότητα (log-likelihood) του k cluster μοντέλου,

1:1:( / ) Pr( | )j i jj ki N

L X C x Cτ==

= ∑∏

και r είναι ο αριθμός των παραμέτρων. Ο αλγόριθμος τερματίζει όταν ο αριθμός των clusters σταθεροποιείται και οι αλλαγές στα clusters όσον αφορά την σύνθεσή τους είναι μικρός. Density based methods Στην μέθοδο αυτή οι ομάδες / clusters καθορίζονται σαν πυκνές περιοχές στον χώρο τον δεδομένων πχ ένας μεγαλύτερος αριθμός σημείων από ότι περιμέναμε. Πρέπει να σημειωθεί ότι όταν αναφερόμαστε στην πυκνότητα (density) φωτογραφίζουμε την φυσική της έννοια παρά κάποια στατιστική κατανομή. Σημαντικά πλεονεκτήματα της μεθόδου είναι η δυνατότητα να διαχειρίζεται τυχαία σχήματα και περιπτώσεις θορύβου. Η συγκεκριμένη μέθοδος θεωρείται σαν μοντέρνα μέθοδος καθώς είναι από τις τελευταίες μεθόδους της Cluster Analysis. Στην συνέχεια για να γίνει πιο κατανοητή θα παρουσιαστεί ο αλγόριθμος DENCLUE

Page 44: Nimertis_Pagouropoulos

38

DENCLUE algorithm Ο συγκεκριμένος αλγόριθμος χρησιμοποιεί συναρτήσεις οι οποίες είναι γνωστές και σαν influence function για να μοντελοποιήσει τον αντίκτυπο ενός αντικειμένου μέσα στον χώρο / γειτονιά όπου βρίσκεται. Η πυκνότητα τότε του διαστήματος εκείνου υπολογίζεται σαν το άθροισμα από τις influence functions από όλα τα αντικείμενα. Οι ομάδες / clusters (που αποκαλούνται density attractors) καθορίζονται έπειτα από το τοπικό μέγιστο της ολικής density function. Καθορισμός influence function Η συνάρτηση επιρροής ενός αντικειμένου x x∈ είναι μία συνάρτηση

0:x pBf

⎯⎯→ + που δίδεται από το ( ) ( , )xB Bf y f y x= . Πρέπει να σημειωθεί ότι οι

συναρτήσεις αυτές συνήθως βασίζονται σε μία συνάρτηση απόστασης d(x,y). Δημοφιλής συνάρτηση είναι η Square Wave όπου ( , ) 1sqf y x = εάν d(x,y)<σ ή αλλιώς να είναι μηδέν 0. Επίσης υπάρχει και η Gaussian :

2 2( , ) exp( ( , ) / 2 ), 0Gf y x d x y σ σ= − > Καθορισμός συνάρτησης πυκνότητας, density function Η συνάρτηση αυτή καθορίζεται από το άθροισμα των influence functions όλων των αντικειμένων στα δεδομένα

1

( ) ( )i

nxD

B Bi

f y f y=

= ∑

Ως density-attractor ονομάζουμε ένα σημείο * Px ∈ μόνο εάν είναι τοπικό μέγιστο της density function D

Bf

Page 45: Nimertis_Pagouropoulos

39

Ο αλγόριθμος DENCLUE λειτουργεί ως εξής:

1. Εντόπισε το ελάχιστο hyper-rectangle των δεδομένων και χώρισε το σε p-dimensional υπερ-κύβους μήκους 2σ. Μόνο κύβοι που περιέχουν δεδομένα πρέπει να καθοριστούν. Έστω το σύνολο του αριθμού τους Cpop

2. Βρες τα στατιστικά στοιχεία των κύβων (πχ. Τον μέσο C )

3. Εντόπισε τα ζευγάρια των συνδεόμενων κύβων (όπου ( , ) 4i jd c c σ≤ ) 4. Υπολόγισε την ολική πυκνότητα και καθόρισε τους density-attractors με την

διαδικασία hill-climbing

5. Εκχώρησε τα αντικείμενα στο ανάλογο cluster σύμφωνα με τους density-

attractors Grid-based methods Με αυτές τις μεθόδους χωρίζουμε το διάστημα των δεδομένων σε πεπερασμένο αριθμό κυψελών με σκοπό να δημιουργήσουμε ένα σπείρωμα / grid. Όλες οι διαδικασίες έπειτα λαμβάνουν τόπο στα κελιά που έχουμε δημιουργήσει. Συνήθως ερευνάται η πυκνότητα μέσα στις κυψέλες (μέθοδος STING, Statistical Information Grid). Το πεδίο των δεδομένων διαιρείται σε πολύγωνα cells / κυψέλες. Υπολογίζονται και αποθηκεύονται στοιχεία για το κάθε αντικείμενο του κελιού. Το κάθε κελί θα περιέχει: -τον αριθμό των αντικειμένων -τον μέσο -την τυπική απόκλιση -τις ελάχιστες και μέγιστες τιμές των αντικειμένων -μία στατιστική κατανομή Μόνο ο αριθμός των αντικειμένων και ο μέσος των σημείων είναι σημαντικά για την ομαδοποίηση. Δοθέντος ενός αρχικού επιπέδου κελιών, σε κάθε κελί δίδεται μία πιθανότητα για να είναι σχετικό με την έρευνα. Αυτά που δεν συμβαδίζουν αγνοούνται ενώ τα σχετικά τοποθετούνται στο σπείρωμα μέχρι να φθάσουν στον

Page 46: Nimertis_Pagouropoulos

40

πυθμένα όπου και σχηματίζουν μία λίστα με πληροφορίες. Το επόμενο βήμα είναι να ελεγχθούν οι γείτονες των σχετικών / relevant κελιών για την σχετικότητά τους. Η διαδικασία του αλγορίθμου έχει ως εξής:

1. Ξεκίνα από το κελί ρίζα 2. Στα κελιά του ίδιου επιπέδου υπολόγισε την πιθανότητα ότι το κελί είναι

σχετικό και ονόμασέ το

( Η σχετικότητα αναφέρεται στο κατά πόσο η πυκνότητα ενός κελιού είναι πιθανόν να είναι μεγαλύτερη από εκείνη της έρευνας )

3. Εάν το τωρινό επίπεδο είναι το bottom layer, συνέχισε. Αλλιώς επανέλαβε το

βήμα 2 για τα πεδία των relevant cells. 4. Για όλα τα σχετικά κελιά εξέτασε την απόστασή τους από το κελί που έχεις

5. Τοποθέτησε όλα τα σχετικά κελιά που δεν έχουν βρεθεί σε μία ουρά / queue

και επανέλαβε το βήμα 4 μέχρις ότου η ουρά να είναι άδεια. Τώρα έχεις μία ομάδα / cluster.

6. Επανέλαβε το 4 και 5 μέχρι όλα τα σχετικά κελιά να έχουν λάβει μέρος στην

διαδικασία και σταμάτα

2.2.3 Συσχέτιση (Dependency Modeling)

Μία από τις σημαντικότερες τεχνικές Εξόρυξης από Δεδομένα είναι η προτυποποίηση αλληλεξαρτήσεων, αλλιώς Συσχέτιση (Dependency Modeling) [.4]. Σκοπός της είναι η εύρεση των σημαντικών αλληλεξαρτήσεων μεταξύ των διαφόρων πεδίων / χαρακτηριστικών του συνόλου εκπαίδευσης. Η πιο συνηθισμένη εφαρμογή της μεθόδου της Συσχέτισης είναι «η ανάλυση του καλαθιού της νοικοκυράς». Σκοπός είναι να αναγνωρισθούν τα αγαθά που αγοράζονται μαζί. Έστω για παράδειγμα ο πίνακας με τα δεδομένα που σε κάθε γραμμή του απεικονίζει τα αγαθά που αγοράστηκαν σε ένα καλάθι μέσα σε μία υπεραγορά:

κόκα-κόλα γάλα τυρί φρυγανιές κρέας τυρί νερό γάλα κρέας κρέας γάλα ψωμί … … … … …

Page 47: Nimertis_Pagouropoulos

41

Ένας κανόνας Συσχέτισης θα μπορούσε να πει ότι το γάλα πωλείται μαζί με το τυρί, με τη προφανή αξιοποίηση της πληροφορίας που είναι η γειτνίαση του σημείου πώλησης γάλακτος με αυτό του τυριού.

Ένας κανόνας συσχέτισης είναι μία έκφραση της μορφής Χ ⇒ Y, όπου Χ,Y είναι σύνολα τιμών των πεδίων, όπως για παράδειγμα σύνολα οικονομικών αγαθών. Η σπουδαιότητα ενός κανόνα Συσχέτισης καθορίζεται αναλογικά από το ποσοστό εφαρμογής του κανόνα επί του συνόλου εκπαίδευσης. Συγκεκριμένα, οι αλγόριθμοι συσχέτισης που έχουν προταθεί και εφαρμόζονται πρακτικά, εξάγουν κανόνες συσχέτισης της μορφής: «το 98% των πελατών που αγοράζουν γάλα και κρέας αγοράζουν επίσης και τυρί. Αλλά και στο 70% των αγορών έχουν αγορασθεί γάλα, κρέας και τυρί».Το πρώτο ποσοστό αναφέρεται ως αξιοπιστία (confidence) του κανόνα ενώ το δεύτερο ως επιβεβαίωση (support). Η επιβεβαίωση αφορά στο ποσοστό που εμφανίζονται και τα τρία αγαθά μαζί επί όλου του συνόλου εκπαίδευσης ενώ η αξιοπιστία αφορά στο ποσοστό που εμφανίζονται τα αγαθά μαζί επί του αριθμού των αγορών που περιέχουν γάλα και κρέας. Το πρόβλημα της εύρεσης κανόνων συσχέτισης εστιάζεται στην εύρεση όλων των κανόνων που έχουν μία καθορισμένη από τον χρήστη ελάχιστη τιμή επιβεβαίωσης και αξιοπιστίας. Παρακάτω θα περιγραφεί αναλυτικά ο βασικότερος αλγόριθμος συσχέτισης, ο Apriori ο οποίος παρουσιάστηκε αρχικά το 1994. Ο αλγόριθμος Apriori δέχεται ως είσοδο ένα σύνολο αγορών (transactions) που αποτελεί και το σύνολο εκπαίδευσης. Κάθε αγορά είναι ουσιαστικά μία λίστα (item set) από αγαθά(items) που αγοράστηκαν μαζί. Συγκεκριμένα έστω Ι=i1, i2, ……, im ένα σύνολο από αγαθά. Έστω D, Ένα σύνολο από αγορές, όπου κάθε αγορά Τ είναι μία λίστα από αγαθά όπου το Τ είναι υποσύνολο του Ι …Γενικά, κάθε υποσύνολο από αγαθά Χ ⊂ Ι ονομάζεται λίστα αγαθών (item set). Για κάθε αγορά υπάρχει ένας και μοναδικός κωδικός αναγνώρισης, ο οποίος ονομάζεται TID (transaction identifier). Ο κανόνας συσχέτισης είναι μία έκφραση της μορφής Χ ⇒ Υ όπου Χ ⊂ Ι, Υ ⊂ Ι και Χ ∩ Υ = 0. Ο κανόνας Χ ⇒ Υ , σε ένα σύνολο από αγορές D, ισχύει με αξιοπιστία c, αν το c% των αγορών που ανήκουν στο D και περιέχουν το Χ , περιέχουν επίσης και το Υ.Ο κανόνας Χ ⇒ Υ έχει επιβεβαίωση s, αν το s% των αγορών στο D περιέχουν το Χ ∪ Υ . Γενικότερα το πρόβλημα εύρεσης όλων των κανόνων Συσχέτισης που πληρούν τις επιθυμητές τιμές επιβεβαίωσης και αξιοπιστίας μπορούν να διαιρεθούν σε δύο υποπροβλήματα: - Εύρεση όλων των συνδυασμών των προϊόντων που έχουν επιβεβαίωση πάνω από την ελάχιστη επιβεβαίωση. Αυτοί οι συνδυασμοί ονομάζονται μεγάλες λίστες από προϊόντα (large itemsets) και όλοι οι υπόλοιποι συνδυασμοί μικρές λίστες από προϊόντα (small itemsets). - Χρήση όλων των μεγάλων λιστών από προϊόντα για εξόρυξη των κανόνων Συσχέτισης που ικανοποιούν την ελάχιστη αξιοπιστία. Για παράδειγμα, έστω ότι τα ABCD και AB είναι μεγάλες λίστες από προϊόντα. Μπορούμε να καθορίσουμε αν ο κανόνας Συσχέτισης ΑΒ => CD ξεπερνά την ελάχιστη αξιοπιστία, υπολογίζοντας το λόγο r, που δίνει r = επιβεβαίωση (ABCD) / επιβεβαίωση (ΑΒ). Στην περίπτωση που r≥ ελάχιστη αξιοπιστία, ο κανόνας γίνεται αποδεκτός. Η εύρεση μεγάλων λιστών από προϊόντα, για να αποφεύγει ένα εξαντλητικό ψάξιμο όλων των συνδυασμών

Page 48: Nimertis_Pagouropoulos

42

βασίζεται στο γεγονός ότι μία λίστα είναι μεγάλη όταν κάθε υποσύνολό της είναι μεγάλη λίστα από προϊόντα. Ο αλγόριθμος Apriori εντοπίζει τις μεγάλες λίστες από προϊόντα προσπελαύνοντας πολλές φορές το σύνολο εκπαίδευσης. Στην πρώτη προσπέλαση υπολογίζεται η επιβεβαίωση κάθε διαφορετικού προϊόντος ξεχωριστά και στην συνέχεια καθορίζεται ποια από αυτές είναι μεγάλες λίστες από προϊόντα. Σε κάθε επόμενη προσπέλαση, αρχίζουμε έχοντας τις μεγάλες λίστες από προϊόντα που βρέθηκαν στην προηγούμενη προσπέλαση. Από αυτές δημιουργούμε νέες πιθανές μεγάλες λίστες από προϊόντα, που καλούνται υποψήφιες (candidate) μεγάλες λίστες από προϊόντα. Έπειτα μετρά με την ακριβή επιβεβαίωση αυτών και καθορίζουμε ποιες είναι οι πραγματικά μεγάλες λίστες από προϊόντα. Οι τελευταίες αποτελούν βάση για το επόμενο βήμα. Η αποτελεσματικότητα στην εύρεση μεγάλων λιστών από προϊόντα αποτελεί κριτήριο για την αποτελεσματικότητα συνολικά ενός αλγορίθμου εύρεσης κανόνων Συσχέτισης. Στο σημείο αυτό παρουσιάζουμε τον αλγόριθμο Apriori.

Τα βήματα του αλγορίθμου Apriori είναι τα εξής:

I. Βρες τα αγαθά που εμφανίζονται περισσότερο από την ελάχιστη επιβεβαίωση (minimum support), δηλαδή το σύνολο L1= μεγάλες λίστες από 1 αγαθό (large 1-item sets) II. Από k=2 και όσο Lk-1 δεν είναι κενό κάνε: Α) Βρες το σύνολο Ck των υποψήφιων μεγάλων λιστών από k αγαθά (candidate large k-item sets) με βάση το Lk-1

B) Βρες ποία από αυτά εμφανίζονται περισσότερο από την ελάχιστη επιβεβαίωση και φτιάξε το σύνολο Lk= μεγάλες λίστες από k αγαθά ΙΙΙ. Για κάθε στοιχείο των L1, … , Ln βρες ποία ικανοποιούν την ελάχιστη αξιοπιστία (minimum confidence).

Στο πρώτο βήμα ο αλγόριθμος μετρά τις εμφανίσεις του κάθε προϊόντος ξεχωριστά για να καθοριστούν οι μεγάλες λίστες μεγέθους ενός προϊόντος. Το δεύτερο βήμα είναι μία επαναλαμβανόμενη σειρά από υποβήματα. Κάθε επανάληψη, έστω η k, περιλαμβάνει δύο υποβήματα. Αρχικά, μεγάλες λίστες από k-1 προϊόντα Lk-1, που βρέθηκαν στην προηγούμενη k-1 επανάληψη χρησιμοποιούνται για να δημιουργηθούν οι υποψήφιες μεγάλες λίστες από k προϊόντα ( Ck), με βάση την αρχή ότι μια λίστα από προϊόντα είναι μεγάλη, αν κάθε υποσύνολό της είναι μεγάλη λίστα από προϊόντα. Στην συνέχεια, σαρώνουμε το σύνολο εκπαίδευσης για να βρούμε την επιβεβαίωση των υποψήφιων μεγάλων λιστών από k προϊόντα. Οι επαναλήψεις σταματούν όταν δεν υπάρχουν υποψήφιες μεγάλες λίστες από προϊόντα. Τότε, στο επόμενο βήμα (τρίτο), από κάθε μία μεγάλη λίστα από προϊόντα προκύπτουν κανόνες από τους οποίους γίνονται τελικά αποδεκτοί όσοι έχουν μεγαλύτερη από την ελάχιστη αξιοπιστία.

Page 49: Nimertis_Pagouropoulos

43

Στο σημείο αυτό θα αναφέρουμε ένα παράδειγμα για το πως μπορεί να εφαρμόσουμε την μέθοδο της Συσχέτισης κυρίως σε επιχειρήσεις εμπορίας τροφίμων αλλά και άλλων όπως οι υπεραγορές. ‘Έστω, για παράδειγμα, το σύνολο εκπαίδευσης που εμφανίζεται στον παρακάτω πίνακα. Έστω επίσης, ότι ο χρήστης θέτει ελάχιστη επιβεβαίωση ίση με 50% και ελάχιστη αξιοπιστία ίση με 70%.

Κόκα-κόλα

γάλα τυρί φρυγανιές κρέας

τυρί βούτυρο γάλα νερό κρέας γάλα ψωμί γάλα τυρί

Τότε, από το πρώτο βήμα προκύπτει (σε παρένθεση η επιβεβαίωση αυτών):

L1=γάλα (100%), τυρί (75%), κρέας (50%)

Στην 1η επανάληψη του 2ου βήματος, οι υποψήφιες μεγάλες λίστες με δύο προϊόντα είναι : C2=γάλα-τυρί (75%), γάλα-κρέας (50%), τυρί-κρέας (25%) Στην 2η επανάληψη του 2ου βήματος, οι υποψήφιες μεγάλες λίστες με τρία προϊόντα είναι : C2=γάλα-τυρί-κρέας (25%) Από την επιβεβαίωση αυτής της προκύπτει ότι L3= και οι επαναλήψεις του δεύτερου βήματος σταματούν. Στο τρίτο βήμα, από όλους τους δυνατούς κανόνες που προκύπτουν από το L2 : γάλα → τυρί και γάλα → κρέας. Ο πρώτος έχει αξιοπιστία 75% ενώ ο δεύτερος 50%. Συνεπώς, εξάγεται μόνο ένας κανόνας συσχέτισης ο γάλα → τυρί.

2.2.4 Άλλες μέθοδοι Data Mining

Εκτός των αλγορίθμων της Ταξινόμησης, της Συσχέτισης και της Ομαδοποίησης, υπάρχουν και άλλες τεχνικές της μεθόδου Εξόρυξης από Δεδομένα όπως η Παλινδρόμηση (Regression), η τεχνική της Συγκεφαλαίωσης (Summarization) και η τεχνική της Αλλαγής και Εύρεσης της Απόκλισης (Change and Deviation Detection) στις οποίες θα αναφερθούμε περιληπτικά στην συνέχεια [Πηγή Internet] .

Page 50: Nimertis_Pagouropoulos

44

Συγκεφαλαίωση (Summarization)

Η Συγκεφαλαίωση, περιέχει μεθόδους οι οποίες βρίσκουν αποδειχθείσες περιγραφές για ένα υποσύνολο δεδομένων. Ένα απλό παράδειγμα θα ήταν κατατάσσοντας σε πίνακες τον μέσο (mean) και την τυπική απόκλιση (standard deviation) για όλα τα πεδία. Πιο εξελιγμένες μέθοδοι περιλαμβάνουν την παραγωγή κανόνων συγκεφαλαίωσης, πολύπλοκες τεχνικές απεικόνισης (multivariate visualization techniques), και επίσης την ανεύρεση λειτουργικών σχέσεων (discovery of functional relationships) μεταξύ μεταβλητών. Οι τεχνικές της Συγκεφαλαίωσης συνήθως έχουν εφαρμογή και εστιάζονται σε αυτοματοποιημένες αναφορές (automated report generation) και στην εξερεύνηση και ανάλυση δεδομένων (interactive exploratory data analysis).

Παλινδρόμηση (Regression) Η Παλινδρόμηση μαθαίνει μία λειτουργία η οποία κατατάσσει στο χώρο ένα δεδομένο σε μία μεταβλητή που μπορεί να προβλεφθεί πραγματικά (real-valued prediction variable). Η Παλινδρόμηση έχει πολλές και σημαντικές εφαρμογές όπως στο να προβλέπει την συμπεριφορά του καταναλωτή στο λανσάρισμα ενός νέου αγαθού σε σχέση με τα διαφημιστικά έξοδα, τι επιπτώσεις θα έχει στην καταναλωτική συμπεριφορά των ατόμων μία αύξηση των φόρων δαπανών σε καταναλωτικά αγαθά και άλλα πολλά. Πρόβλεψη της Απόκλισης (Change and Deviation Detection) Η τεχνική αυτή, έχει ως σκοπό στο να επικεντρώνεται να βρίσκει τις πιο κατάλληλες αλλαγές στα δεδομένα από προηγούμενες μεταβλητές οι οποίες είχαν εκτιμηθεί ή και όχι. 2.3 Εφαρμογές της μεθόδου Data Mining σε διάφορα επιστημονικά πεδία Στο σημείο αυτό θα αναφέρουμε συνοπτικά ορισμένες εφαρμογές της μεθόδου Data Mining οι οποίες έχουν συλλεχθεί από διάφορα επιστημονικά πεδία. [Πηγή Internet] Direct mail marketing – Μάρκετινγκ μέσω mail Το Body Shop International δοκιμάζει τεχνικές Data Mining ώστε να καταφέρει να αυξήσει την αποτελεσματικότητα των παραγγελιών μέσω mail. Τα διοικητικά στελέχη ενδιαφέρονται στο να μειώσουν το κόστος αποστολής διαφημιστικών καταλόγων, εστιάζοντας μόνο σε πελάτες οι οποίοι θεωρούνται ως «κερδοφόροι».

Page 51: Nimertis_Pagouropoulos

45

Category management and inventory control – Κατηγοριοποίηση μέσω μάνατζμεντ, και έλεγχος για κάτι νέο Η εταιρεία Rubbermaid χρησιμοποιεί μεθόδους Data Mining για να κατηγοριοποιεί το στυλ της στρατηγικής που χρησιμοποιεί ανάλογα με την αγορά που εστιάζεται, στο να αγοράζει και να πουλά τα οικονομικά αγαθά που παράγει. Market Basket Analysis (MBA) – Ανάλυση καλαθιού της νοικοκυράς

Τα στελέχη της J.Crew Group συνδυάζουν click system analysis μέσα από το επίσημο web-site τους σε συνδυασμό με την μέθοδο point-of-sale (POS) στις λιανικές τους πωλήσεις. Με αυτό τον τρόπο θέλουν να δούνε τι ρούχα, τι υποδήματα και άλλα αξεσουάρ αγοράζονται μαζί. Τα δεδομένα μετά θα αναλυθούν και έπειτα θα σταλθούν κατάλογοι με οικονομικά αγαθά και προσφορές των σε on-line αγοραστές.

Customer relationship management (CRM) and customer profiles – Καταλαβαίνοντας το προφίλ του κάθε πελάτη Σύμφωνα με διάφορες εταιρείες λιανικής, άλλες από τον τραπεζικό τομέα είναι δυνατό χρησιμοποιώντας τεχνικές Data Mining, όπως κανόνες ταξινόμησης ή και ομαδοποίησης να κατατάσσουμε τους πελάτες ανάλογα με προσωπικά τους στοιχεία και την προηγούμενη τους συμπεριφορά προς την εταιρεία που μας ενδιαφέρει σε «καλούς», «μέτριους» και «κακούς». Έτσι δίνεται η δυνατότητα να επιλέγουν το αγοραστικό κοινό με το οποίο συναλλάσσονται και στο οποίο εστιάζουν την πολιτική της εταιρείας. Astronomy - Αστρονομία Έχει κατασκευαστεί ένα σύστημα με την ονομασία SKICATαπό το JPL/Caltech και χρησιμοποιείται από τους αστρονόμους στο να αναγνωρίζουν αυτόματα τους διάφορους γαλαξίες και αστεροειδείς σε μία μεγάλη κλίμακα η οποία περιέχει διάφορα αστρονομικά μεγέθη. Biology – Βιολογία Διάφορα συστήματα έχουν κατασκευαστεί στο να εξάγουν κανόνες που αφορούν την δομή των οργανισμών, την ανάλυση του DNA, καθώς και την δυνατότητα για εύρεση φαρμάκων για την καταπολέμηση ασθενειών.

Page 52: Nimertis_Pagouropoulos

46

Global Climate Modeling – Παγκόσμιο μοντέλο κλιματολογικών συνθηκών Διάφορα συστήματα έχουν υιοθετηθεί τα οποία επιτρέπουν την ανάλυση κλιματολογικών συνθηκών και με αυτό τον τρόπο δίνουν την δυνατότητα προβλέψεων κλιματολογικών φαινομένων όπως οι κυκλώνες, οι καταιγίδες, οι καύσωνες και άλλα πολλά. Data Mining for financial applications - Η μέθοδος Εξόρυξης από Δεδομένα σε οικονομικές εφαρμογές Πολλές φορές τεχνικές της μεθόδου Εξόρυξης από Δεδομένα όπως τα νευρωνικά δίκτυα και τα δένδρα αποφάσεων μπορούν να χρησιμοποιηθούν από οικονομικούς αναλυτές για την λήψη στρατηγικών αποφάσεων στο ανάλογο οικονομικό πεδίο που ενδιαφέρει κάθε φορά. Φυσικά χρειάζεται και το ανάλογο υπόβαθρο από ιστορικά δεδομένα ώστε να είναι δυνατή η ανάλυση που θα γίνει.

Page 53: Nimertis_Pagouropoulos

47

΄Β ΜΕΡΟΣ Εφαρμογές Data Mining στο χρηματοοικονομικό περιβάλλον Ενότητα Ά Στο σημείο αυτό της εργασίας θα επικεντρωθούμε στο κατά πόσο οι τεχνικές Data Mining μπορούν να εφαρμοστούν πάνω σε οικονομικής φύσης προβλήματα και ζητήματα. Θα παρουσιαστούν στοιχεία και πληροφορίες σχετικά με το πώς δημιουργείται ένα μοντέλο πρόβλεψης και εκτίμησης καθώς και τι στάδια προεργασίας απαιτούνται. Στην συνέχεια θα γίνει εφαρμογή κάποιων αλγορίθμων από το πεδίο Εξόρυξης Δεδομένων σε στοιχεία που αφορούν μετοχές και ισολογισμούς κάποιων εταιρειών ώστε να ερευνηθεί κατά πόσο αυτές οι τεχνικές είναι ικανές και αποτελεσματικές για την αντιμετώπιση φαινομένων όπως η πτώχευση και η διαχείριση χαρτοφυλακίου. 1. Δημιουργώντας ένα μοντέλο πρόβλεψης Αρχικά θα αναλογιστούμε πως μπορούμε να κατασκευάσουμε διάφορα μαθηματικά και υπολογιστικά μοντέλα τα οποία θα παίρνουν σαν είσοδο οικονομικά δεδομένα χρησιμοποιώντας τεχνικές Data Mining και θα επιστρέφουν σαν έξοδο μία εκτίμηση πρόβλεψης για το ανάλογο μέγεθος που εξετάζουμε. Η τεχνική Data Mining όπως προαναφέραμε απορρέει από τα πεδία της μηχανικής μάθησης (Machine learning) και τεχνολογιών που αφορούν ανάλυση βάσεων δεδομένων (Database technologies). Ο σκοπός της μηχανικής μάθησης είναι να κατασκευαστούν υπολογιστικά προγράμματα τα οποία αυτόματα θα βελτιώνονται όσο «αποκτούν» πείρα και να παράγουν χρήσιμες εκτιμήσεις. Γενικά οι τεχνικές Data Mining όπως π.χ. τα δέντρα αποφάσεων και τα νευρωνικά δίκτυα, μπορούν να αποδειχθούν ιδιαίτερα χρήσιμες στον κάθε ενδιαφερόμενο οικονομικό αναλυτή. Παρακάτω παραθέτονται κάποιοι πίνακες για το πού μπορεί να εφαρμοστεί ένα μοντέλο Data Mining (DM) εκτός της πρόβλεψης μετοχών [.9]:

Page 54: Nimertis_Pagouropoulos

48

Data mining και εμπόριο Χρήστες Σκοπός και εφαρμογή/αποτέλεσμα συστήματος Έμποροι -Προειδοποίηση για αλλαγή εμπορευμάτων -Εύρεση κανόνων και συσχετίσεων στην αγορά

-Εύρεση σχέσεων μεταξύ των αγορών (κανόνες που αναφέρονται στο πώς αλληλοεπηρεάζονται)

Manager -Βελτίωση των εμπορικών διαδικασιών

-Δημιουργία συνεχής ομαλότητας στις εμπορικές λειτουργίες (πχ. Πωλήσεις)

Παραδοσιακά knowledge – based (symbolic) expert systems για εμπόρους Στόχος/αποτέλεσμα - Έγκυρη προειδοποίηση για αλλαγή εμπορευμάτων, - Εύρεση κανόνων στην αγορά - Εύρεση αλληλεπιδράσεων μεταξύ των αγορών Δυσκολίες -Επαλήθευση για την εγκυρότητα τους, εμπιστοσύνη Αποτέλεσμα -Οι κανόνες που ισχύουν σε αρκετές διαφορετικές αγορές είναι σχετικά λίγοι

Page 55: Nimertis_Pagouropoulos

49

Γενικά οι τεχνικές της μεθόδου εξόρυξης από δεδομένα τείνουν να απαιτούν περισσότερα ιστορικά δεδομένα από τα κοινά μοντέλα και ειδικά στην περίπτωση των νευρωνικών δικτύων, είναι δύσκολο να ερμηνευθούν. Οι παράμετροι που λαμβάνονται σε ένα σύστημα / μοντέλο Data Mining έχουν ως εξής [.9]: Data set (αποτελείται από το σύνολο των δεδομένων που έχουμε). Εδώ έχουμε δύο επιλογές. Είτε να χρησιμοποιήσουμε την χρονοσειρά που έχουμε στην διάθεσή μας, είτε όλες τις μεταβλητές που επηρεάζουν την χρονοσειρά. Οι τεχνικές DM ακολουθούν μία fundamental analysis approach η οποία έχει να κάνει με τους σημαντικότερους παράγοντες επιρροής. Data types (η μορφή / είδος δεδομένων που έχουμε και αφορούν πεδία (attributes) η σχέσεις (relations)). Συνήθως οι μέθοδοι DM ακολουθούν μία προσέγγιση attribute-value approach (attribute-based approach). Αυτή η μέθοδος χρησιμοποιεί και περιλαμβάνει πολλές στατιστικές μεθόδους καθώς και νευρωνικά δίκτυα. Mathematical algorithm method, model. Αποτελεί μία ποικιλία από στατιστικές και νευρωνικές μεθόδους καθώς και μεθόδους που έχουν να κάνουν με την λογική. Υπάρχουν πολλά νευρωνικά δίκτυα τα οποία βασίζονται σε διαφορετικούς αλγόριθμους και μεθοδολογίες. Στην συνέχεια θα αναφερθούμε στα βασικά βήματα που καθορίζουν την δημιουργία ενός υπολογιστικού μοντέλου πρόβλεψης και θα παρατεθούν πληροφορίες για το τι στοιχεία περιέχουν, καθώς και για το πώς επενεργούν στο όλο σύστημα πρόβλεψης [.14]. Τα βήματα αυτά είναι :

• Η προεπεξεργασία των δεδομένων, Data preprocessing • Η επιλογή του κατάλληλου αλγορίθμου, Prediction algorithms • Αποτίμηση, εκτίμηση του όλου συστήματος πρόβλεψης, System

evaluation Προεπεξεργασία δεδομένων Προτού τα διάφορα δεδομένα δοθούν σαν είσοδο σε έναν αλγόριθμο, πρέπει να συλλεχθούν, να ερευνηθούν και να καθαριστούν [.13]. Ακόμα και το καλύτερο σύστημα πρόβλεψης θα αποτύχει στην σωστή εξαγωγή συμπερασμάτων αν τα δεδομένα που πραγματεύεται είναι κακής ποιότητας. Επίσης είναι σκόπιμο να εξεταστούν ποια δεδομένα κρίνονται σαν καταλληλότερα για αξιοποίηση ώστε να έχουμε το καλύτερο δυνατό αποτέλεσμα. Πολλές φορές κάποια τιμή απουσιάζει από

Page 56: Nimertis_Pagouropoulos

50

την βάση δεδομένων που διαθέτουμε για εκμετάλλευση. Είναι προτιμότερο να αντικατασταθεί με μία άλλη τιμή παρά να διαγραφεί. Σε περίπτωση όπου έχουμε μεγάλο αριθμό τέτοιων εγγραφών τότε είναι καλό να τις αντικαταστήσουμε με εκείνη την τιμή που θα επηρεάσει λιγότερο την εγκυρότητα της πρόβλεψής μας. Επίσης μπορούν να χρησιμοποιηθούν κάποιοι δείκτες (indicators) των οποίων η χρησιμότητα είναι πολύ μεγάλη καθώς μειώνουν τον θόρυβο (από την στιγμή που εκφράζουν έναν μέσο όρο) και παρέχουν όψεις από δεδομένα τα οποία είναι κατάλληλα για επεξεργασία. Ορισμένοι από αυτούς τους δείκτες είναι οι: ΜΑ κινητοί μέσοι, Stochastic, MACD Moving Average Convergence Divergence, ROC Rate of Chance, RSI Relative Strength Index[.14] . Πολλές φορές επιβάλλεται η αναγνώριση κάποιων χαρακτηριστικών από το μοντέλο όσον αφορά τα δεδομένα και σε αυτήν την περίπτωση χρησιμοποιούνται τεχνικές όπως Principal Component Analysis, Sensitivity Analysis και κάποιες ευριστικές τεχνικές Heuristic. Επιλογή κατάλληλων αλγορίθμων / μαθηματικού μοντέλου Όσον αφορά τις μεθόδους και τους αλγορίθμους που χρησιμοποιούνται για την πρόβλεψη χρηματοοικονομικών μεγεθών υπάρχει πληθώρα τέτοιων τεχνικών οι σημαντικότερες εκ των οποίων είναι οι γραμμικές μέθοδοι, τα νευρωνικά δίκτυα και αλγόριθμοι όπως ο C4.5. Μελετώντας αυτές τις τεχνικές το συμπέρασμα που βγαίνει είναι ότι οι καταλληλότερες είναι οι υβριδικές, δηλαδή συνδυασμός πολλών τεχνικών για την αξιοποίηση των δυνατών σημείων της κάθε μίας [.14]. Για παράδειγμα στα πεδία της διαχείρισης χαρτοφυλακίων και πρόβλεψης του συναλλάγματος μπορούμε να διακρίνουμε τις παρακάτω κατηγορίες στις οποίες μπορούμε να καταφύγουμε για να τα μοντελοποιήσουμε και έπειτα να τα αναλύσουμε [.12].

• Δημιουργία χρονοσειρών με τιμή ανοίγματος, τιμή κλεισίματος, χαμηλότερη τιμή διακύμανσης, υψηλότερη τιμή διακύμανσης και τιμή διαπραγμάτευσης / πώλησης

• Διάφοροι θεμελιώδεις παράγοντες που ασκούν μεγάλη επιρροή όπως η

τιμή του χρυσού, τα επίπεδα του εθνικού συναλλάγματος κτλ

• Lagged returns από χρονοσειρές ειδικού ενδιαφέροντος • Τεχνικοί παράγοντες όπως μεταβλητές που έχουν σχέση και αποτελούν

συναρτήσεις περισσοτέρων από μία χρονοσειρές πχ κινητοί μέσοι (moving averages)

Μία ευρέως χρησιμοποιούμενη προσέγγιση που έχει να κάνει με τα παραπάνω είναι να μοντελοποιήσουμε τις χρονοσειρές με autoregressive (ΑR) και moving average (MA) μοντέλα. Ένας χρήστης έχει την δυνατότητα έναν κατάλληλο αριθμό lags για

Page 57: Nimertis_Pagouropoulos

51

τα AR και τα ARMA μοντέλα τα οποία βασίζονται σε εμπειρικά δεδομένα (αναλύονται με χρονοσειρές τα διάφορα δεδομένα). Επίσης μοντέλα όπως τα smooth transition AR (STAR) και τα self-exciting transition (AR), τα οποία είναι ντετερμινιστικά μοντέλα ως προς το ότι χρησιμοποιούν μαθηματικές ισότητες για να περιγράψουν την διαδικασία που παράγει τις χρονοσειρές. Πλεονέκτημα των παραπάνω μεθόδων είναι ότι μπορούν να ερμηνευτούν εύκολα. Μία άλλη προσέγγιση που, αφορά στην συγκεκριμένη εργασία και σχετίζεται, με την μέθοδο Data Mining, είναι να υιοθετηθεί ένα μοντέλο το οποίο είναι ευέλικτο στο ότι μπορεί να συνδυάσει έναν μεγάλο αριθμό από συναρτήσεις με μεγάλη ακρίβεια. Τέτοια μοντέλα είναι μη παραμετρικά καθώς δεν χρειάζεται να υπάρχει άμεση σχέση μεταξύ των τιμών των παραμέτρων ενός μοντέλου με δεδομένα. Τα πλεονεκτήματα αυτού του είδους των μοντέλων είναι τα παρακάτω:

• Η δυνατότητα που παρέχουν στο να μοντελοποιούν υψηλής πολυπλοκότητας συναρτήσεις

• Η δυνατότητα να χρησιμοποιούν έναν υψηλό αριθμό μεταβλητών στο

μοντέλο, και παρ’ όλα αυτά να περιέχουν και άλλα δεδομένα όπως θεμελιώδεις και τεχνικούς παράγοντες π.χ. Τιμή χρυσού, αξία συναλλάγματος κτλ.

Σαν μειονέκτημα για αυτά τα μοντέλα μπορεί να θεωρηθεί ότι δεν μπορούν να ερμηνευθούν εύκολα. Στην περίπτωση χρονοσειρών Data Mining, το μοντέλο επιλογής θα είναι ένα νευρωνικό δίκτυο. Καταχωρώντας και γνωστοποιώντας τον αριθμό των παραμέτρων που σχετίζονται με το μοντέλο μπορούμε να κοντρολάρουμε την ευελιξία του. Τα περισσότερα νευρωνικά δίκτυα που χρησιμοποιούνται σε οικονομικές εφαρμογές είναι ένα multi-layer perceptron (MLP) με ένα μοναδικό κρυφό επίπεδο εγγραφών / κόμβων (single hidden layer of nodes). Το πρόβλημα του να προβλέψουμε τα αποτελέσματα από την συμπεριφορά ενός χαρτοφυλακίου ή της οποιαδήποτε μετοχής, και του επιπέδου του συναλλάγματος σε χρονική περίοδο t + 1 μπορεί να γίνει με την βοήθεια ενός προβλήματος παλινδρόμησης ή και ταξινόμησης όπου στην περίπτωση της παλινδρόμησης για το συνάλλαγμα τα δεδομένα θα έχουν να κάνουν με τις τιμές του συναλλάγματος, και στην περίπτωση της ταξινόμησης το μοντέλο θα προβλέπει εάν επήλθε αύξηση ή μείωση της τιμής του συναλλάγματος. Εφαρμογές οι οποίες αναφέρονται στην διαχείριση χαρτοφυλακίου και στην συμπεριφορά των μετοχών αναφέρονται παρακάτω.

Page 58: Nimertis_Pagouropoulos

52

MLP regression example : Διαχείριση χαρτοφυλακίου / Portofolio management Η περίπτωση της παλινδρόμησης περιέχει την περίπτωση όπου προβλέπουμε τις μελλοντικές τιμές μίας μεταβλητής και έτσι αυτή η περίπτωση μπορεί να εφαρμοστεί στην περίπτωση των αναμενόμενων τιμών n μετοχών για την διαχείριση του χαρτοφυλακίου [.12]. Υποθέτουμε ότι έχουμε ιστορικά δεδομένα για Ν (Ν>n) μετοχές για να συμπληρώσουμε Ν multi-layer perceptrons. Στο τέλος κάθε εβδομάδας τα MLPs ξανασυμπληρώνονται με τα τελευταία ιστορικά δεδομένα. Για παράδειγμα ας θεωρήσουμε ότι διαχειριζόμαστε ένα χαρτοφυλάκιο της τάξης των $100 εκατομμυρίων μέχρι το Δεκέμβρη του 2005 χρησιμοποιώντας MLPs. Το σύστημα επιλέγει και επιβλέπει 1000 μετοχές κάθε εβδομάδα. Για κάθε μία από αυτές τις μετοχές υπάρχει ένα MLP το οποίο μοντελοποιεί την μελλοντική επίδοση της μετοχής σαν συνάρτηση της έκθεσης της μετοχής σε 40 παράγοντες επιρροής, οι οποίοι καλούνται θεμελιώδεις παράγοντες, και έπειτα δίνει την εβδομαδιαία μεταβολή. Έπειτα επιλέγεται ένα χαρτοφυλάκιο των κορυφαίων μετοχών που συμφέρει να αγοραστούν. MLP classification example : trading futures / Παράδειγμα ταξινόμησης Σαν ένα τέτοιο παράδειγμα μπορούμε να θεωρήσουμε την διαπραγμάτευση μιας μετοχής A σε μια τιμή Β για μια ημερομηνία C χρησιμοποιώντας ένα νευρωνικό δίκτυο [.12]. Αρχικά τα ιστορικά δεδομένα ετοιμάζονται . Σε κάθε βήμα τα δεδομένα ταξινομούνται σε μία από δύο κατηγορίες σχετικά με το εάν είναι κερδοφόρο να πουλήσουμε ή να αγοράσουμε την κάθε μετοχή Α σε τιμή Β σε μία ημερομηνία C. 1. Long: buy the stock on date C

2. Short: sell the stock on date C Έχοντας συμπληρώσει ένα μοντέλο με τα ανάλογα ιστορικά δεδομένα , είμαστε σε θέση να το χρησιμοποιήσουμε για να προβλέψουμε μία κερδοφόρα θέση σε χρόνο t+1 (πχ την επόμενη μέρα η βδομάδα). Στο τέλος του κάθε βήματος το μοντέλο επαναπληροφορείται με τα νέα δεδομένα που προκύπτουν. Τέλος όταν έρχεται η χρονική στιγμή C τότε ο ενδιαφερόμενος είναι σε συμφέρουσα θέση C όπου αγοράζει ή πουλάει την μετοχή Α. Trading rules / Εμπορικοί κανόνες Οι κανόνες αυτού του είδους μπορούν να καθοριστούν από τα δεδομένα που έχουμε πχ. Πούλα ή αγόρασε. Τέτοιου είδους κανόνες μπορούν να έχουν την ακόλουθη μορφή/συνθήκη IF CONDITION 1 AND CONDITION 2 THEN ACTION

Page 59: Nimertis_Pagouropoulos

53

και μπορούν να προκύψουν με το να αναλύσουμε ένα δέντρο απόφασης [.12]. Με το να δώσουμε σε ένα μοντέλο τα ανάλογα ιστορικά δεδομένα μπορούμε με αυτή την διαδικασία να παράγουμε νέους κανόνες και ιδέες. Υποθέτουμε ότι έχουμε ένα δέντρο με τέτοια δεδομένα. Κάθε εσωτερικός κόμβος είναι ένα τεστ για κάθε μία από τις μεταβλητές που υπάρχουν για να προβλέψουμε ένα αποτέλεσμα. Εάν η μεταβλητή Χ1 λαμβάνει συνεχείς τιμές τότε θα έχουμε (Χ1 >=VALUE) or (X1 < VALUE), όπου Χ1 και VALUE καθορίζονται από τον ανάλογο αλγόριθμο που ταιριάζει στο υπάρχον δέντρο. Εάν η μεταβλητή λέει ότι η X2 μπορεί να πάρει μία από m τιμές τότε θα έχουμε (Χ2 = I), για i = 1,2,m όπου Χ2 και i έχουν επιλεχθεί από το μοντέλο μας. Έτσι, με το να ακολουθήσουμε την διαδρομή από την ρίζα ως τα φύλλα του δέντρου θα πάρουμε τους ανάλογους κανόνες. Για παράδειγμα, ιστορικά δεδομένα μπορούν να συλλεχθούν και ένα δέντρο απόφασης να κατασκευαστεί για να εξετάσει την εγκυρότητα του ακόλουθου κανόνα: ΄΄When the 10-day moving average crosses above the 30-day moving average and both moving averages are increasing, it is time to buy’’. Καθαρίζοντας οικονομικά δεδομένα Συνεχώς καινούργιες τεχνικές και μέθοδοι έχουν δημιουργηθεί ώστε να είμαστε σε θέση να αναλύουμε οικονομικά δεδομένα και να είμαστε σε θέση να λαμβάνουμε έπειτα τις όποιες αποφάσεις [.13]. Σε πολλές περιπτώσεις όμως τα δεδομένα που χρησιμοποιούν αυτές οι μέθοδοι προς ανάλυση είναι γεμάτα από λάθη. Αυτά ονομάζονται «βρώμικα δεδομένα», (dirty data). Επίσης, είναι γεγονός ότι οι περισσότερο εξελιγμένες και συνάμα πιο πολύπλοκες τεχνικές δείχνουν να επηρεάζονται από τέτοιου είδους ατελή δεδομένα και να μας δημιουργούν την ανάγκη να τα επεξεργαστούμε για να «καθαριστούν» και να είναι έτοιμα για ανάλυση. Στο σημείο αυτό θα πρέπει να τονίσουμε ότι θα αναφερθούμε σε αριθμητικά δεδομένα, όμως πολύ σοβαρή είναι και η περίπτωση όπου καλούμαστε να επεξεργαστούμε κείμενα αλλά και κατηγορικά δεδομένα. Τι μπορεί να συμβαίνει: Υπάρχουν οι εξής περιπτώσεις που μπορούμε να συναντήσουμε αντιμετωπίζοντας ατελή δεδομένα [.13]:

1. Να μην έχουν τοποθετηθεί τιμές κατά την διάρκεια των εγγραφών. Αυτό γίνεται πολύ εύκολά κατανοητό καθώς αποτελεί την περίπτωση να έχουμε κενά κελιά τιμών, έλλειψη δηλαδή δεδομένων.

Στο σημείο αυτό θα πρέπει να τονίσουμε ότι υπάρχει διαφορά μεταξύ δεδομένων τα οποία είναι εύκολο να παρατηρηθούν ότι είναι λάθος τα οποία ανήκουν στην

Page 60: Nimertis_Pagouropoulos

54

κατηγορία του observational missing, και σε δεδομένα τα οποία ανήκουν στην κατηγορία του structural missing. Η δεύτερη κατηγορία αναφέρεται σε τιμές όπου δεν θα περιμέναμε να βρίσκονται εκεί που είναι, όπως αλλαγές τιμών για μετοχές σε μέρες που η χρηματαγορά είναι κλειστή, κ.α. Τα μοντέλα τα οποία έχουν δημιουργηθεί θα πρέπει να είναι σε θέση να αντιμετωπίζουν αυτές τις περιπτώσεις ώστε να έχουμε έγκυρα αποτελέσματα. Παρακάτω θα αναφερθούμε σε αυτές τις περιπτώσεις συνεχίζοντας τα παραπάνω.

2. Impossible values, αναφέρονται σε τιμές που είναι αδύνατο να ισχύουν, όπως σε περιπτώσεις που αναμένουμε θετική τιμή και υπάρχει αρνητική. Στην περίπτωση κατά την οποία οι σωστές τιμές δεν μπορούν να καταχωρηθούν, τότε θα πρέπει να καταφύγουμε στην παρατήρηση τιμών που απουσιάζουν και λείπουν.

3. Inconsistent values, αναφέρονται σε τιμές οι οποίες αποτελούν ένα πιο

πολύπλοκο λάθος. Αυτό συμβαίνει όταν πολλές τιμές μαζί σπάνε έναν κανόνα. Για παράδειγμα εάν κάποιες τιμές που αποτελούν συστατικά ενός κανόνα δεν έχουν ως αποτέλεσμα την εξαγωγή του κανόνα. Ένας τρόπος για να αντιμετωπιστεί αυτή η κατάσταση είναι να θεωρήσουμε εμείς ποιες από τις τιμές είναι οι κατάλληλες. Για παράδειγμα απίθανη τιμή είναι εκείνη που σε μία ιεραρχία μας ξενίζει όπως στην 2,3,5,7,10,2000

Η τιμή 2000 μπορεί να είναι σωστή αλλά είναι απίθανη να ισχύει εδώ. Πιθανόν να έγινε λάθος στην καταχώρησή της και το σύστημα θα πρέπει να την αναγνωρίζει και να την θεωρεί άκυρη. Τι γίνεται όμως στην περίπτωση όπου αντί 2000 θα είχαμε 200. Μήπως θα πρέπει να ερευνηθεί η τιμή λίγο παραπάνω καθώς η απόκλιση δεν είναι και τόσο μεγάλη; Όπως παρατηρoύμε, αρκετών ειδών περιπτώσεις λαθών μπορούμε να επισημάνουνε αλλά η αντιμετώπισή τους εκτός ότι μπορεί να μην είναι εύκολη είναι συνάμα και χρονοβόρα. Αρχικά θα αναφερθούμε στην περίπτωση που έχουμε ελλιπή (missing data). Στην περίπτωση αυτή το πρώτο που κάνουμε είναι να διαπιστώσουμε την παρατήρηση η οποία είναι περισσότερο κοντά στην τιμή που λείπει. Αυτό αποκαλείται ως «the donor». Εάν υπάρχουν περισσότερα πιθανά από ένα donor τότε μπορούμε να επιλέξουμε ένα από αυτά στην τύχη. Στην περίπτωση αυτή προσπαθούμε να ταιριάξουμε την κενή τιμή με το κατάλληλο donor. Η δεύτερη προσέγγιση είναι να χρησιμοποιήσουμε κάποιο μοντέλο για να βρούμε την τιμή που απουσιάζει. Η βασική και θεμελιώδης προσέγγιση είναι η ακόλουθη [.13]: Α. Δημιούργησε ένα μοντέλο Β. Χρησιμοποίησε το μοντέλο για να ανακαλύψεις την τιμή που λείπει Όπως συμβαίνει συνήθως, το βασικό θέμα είναι να επιλέξουμε το ιδανικότερο μοντέλο. Όσο ιδανικότερο το μοντέλο, τόσο το καλύτερο αποτέλεσμα. Το μοντέλο θα περιέχει όλα τα δεδομένα και τις αντίστοιχες χρονοσειρές και επίσης θα πρέπει να

Page 61: Nimertis_Pagouropoulos

55

είναι όσο το δυνατόν απλό στην χρήση του και στην δομή του. Για να δημιουργήσουμε ένα μοντέλο θα πρέπει να συμπληρώσουμε δεδομένα. Θα πρέπει όσον το δυνατό να έχουμε περισσότερες μη κενές τιμές στα κελιά. Στην περίπτωση που συμβαίνει το αντίθετο, μπορούμε με το να δοκιμάζουμε και να προβλέπουμε τιμές να το αντιμετωπίσουμε. Στην περίπτωση που τα αποτελέσματα έχουν την βέλτιστη επιτυχία και εγκυρότητα έχουμε τον ΕΜ αλγόριθμο. Στο σημείο αυτό δημιουργείται η ανάγκη για την υιοθέτηση κάποιας μεθόδου η οποία θα αντιμετωπίζει περιπτώσεις dirty η bad δεδομένων. Πολλά μπορούν να ειπωθούν και επίσης πολλά είναι τα μοντέλα τα οποία έχουμε την δυνατότητα να χρησιμοποιήσουμε. Σε περιπτώσεις όπου μας λείπουν δεδομένα μπορούμε να χρησιμοποιήσουμε μεθόδους όπου οι τιμές αυτές αντικαθίστανται από τον μέσο (mean). Μπορούν να χρησιμοποιηθούν αρκετά πολύπλοκα μοντέλα όπως αυτά της κατηγορίας ARIMA. Σε περιπτώσεις όπου πρέπει να ανιχνευθούν περίεργες και εξωπραγματικές παρατηρήσεις μπορούμε να χρησιμοποιήσουμε την μέθοδο how far off, σύμφωνα με την οποία τοποθετούμε τιμές και βλέπουμε πόσο αυτές απέχουν από τις πραγματικές. Στην ουσία συγκρίνουμε την τιμή που παρατηρούμε με αυτήν που έχουμε καταχωρήσει και ανάλογα με το αποτέλεσμα πράττουμε αναλόγως. Επίσης μπορούμε να χρησιμοποιήσουμε μεθόδους οι οποίες περιέχουν φραγμούς (bounds). Υπάρχει και η μέθοδος κατά την οποία υπολογίζουμε τα βάρη (weights) χρησιμοποιώντας M-estimators ανάλογα με τον αριθμό των τιμών που πρέπει να παρατηρηθούν, ώστε να είμαστε σε θέση να βλέπουμε πόσο αποκλίνουν οι τιμές από αυτό που θέλουμε εμείς. Στο να βρίσκουμε bad τιμές, υπάρχει και μία ακόμη προσέγγιση η οποία αποκαλείται the usual suspects approach, και στην οποία ταξινομούνται οι καλές και οι κακές εγγραφές και τιμές ανάλογα. Στην ουσία δηλαδή πρόκειται για ένα πρόβλημα ταξινόμησης (classification) και μέθοδοι όπως δέντρα αποφάσεων, απεικόνιση δεδομένων και παλινδρόμηση μπορούν να χρησιμοποιηθούν. Οι παραπάνω τεχνικές σίγουρα μας δίνουν λύσεις σε αρκετές περιπτώσεις όπου μπορεί να χρειαστούμε βοήθεια αλλά πρέπει να γνωρίζουμε και πόσο αποτελεσματικές είναι για το κάθε πρόβλημα. Θα πρέπει να είμαστε σε θέση να γνωρίζουμε κατά πόσο δεν έχουμε ψεύτικες τιμές σε δεδομένα, κατά πόσο κάποια λάθη είναι σε θέση να επηρεάσουν το τελικό αποτέλεσμα και επίσης κατά πόσο είναι πιθανόν με τον διαχωρισμό των τιμών σε καλές και κακές είναι πιθανόν λόγο σφάλματος ή ανικανότητας του κάθε μοντέλου να χάνονται πληροφορίες. Για τον λόγο αυτό απαιτείται η εφαρμογή και επιλογή εκείνου του μοντέλου που θα δίνει τα βέλτιστα αποτελέσματα. System Evaluation / Αποτίμηση του συστήματος που δημιουργήσαμε Ένα από τα βασικότερα στάδια / επίπεδα κατά την δημιουργία και την υλοποίηση ενός μοντέλου πρόβλεψης είναι η αποτίμηση του μοντέλου, δηλαδή πόσο καλά και ικανοποιητικά είναι τα αποτελέσματα / πληροφορίες τις οποίες δίνει. Αυτό συμβαίνει διότι η αποτίμηση μας δείχνει που εστιάζεται το ενδιαφέρον του μοντέλου και όλη μας η προσπάθεια, εάν το μοντέλο μας είναι ιδανικό θα μας παρουσιάσει οφέλη τα

Page 62: Nimertis_Pagouropoulos

56

οποία σε άλλη περίπτωση δεν θα μπορούσαν να αποκομιστούν (εδώ μεγάλο ρόλο παίζει και η εμπειρία του χρήστη και φυσικά εκείνου ή εκείνων που δημιούργησαν το μοντέλο), και τέλος αιτιολογεί και αποδεικνύει πως εξήχθησαν τα οποιαδήποτε συμπεράσματα και πληροφορίες. Ως προς το στάδιο της αποτίμησης πρέπει να δοθεί κάποια προσοχή στα παρακάτω. Αποτίμηση εκείνου του στοιχείου που μας ενδιαφέρει (evaluate the right thing). Στις προβλέψεις που αφορούν χρηματοοικονομικά δεδομένα ο στόχος της πρόβλεψης είναι η κερδοφορία ενώ οι αλγόριθμοι οι οποίοι μπορεί να χρησιμοποιηθούν ίσως έχουν άλλο στόχο. Για τον λόγο αυτό πρέπει οι αλγόριθμοι και οι μέθοδοι οι οποίες θα χρησιμοποιηθούν να εξετάζονται προηγουμένως για το πόσο είναι κατάλληλες σε τέτοιου είδους δεδομένα. Υπάρχουν ορισμένες στρατηγικές οι οποίες έχουν αναπτυχθεί για αυτόν ακριβώς τον λόγο όπως : Accuracy, η οποία δηλώνει ένα ποσοστό σωστών αποτελεσμάτων Square error, το άθροισμα των διακυμάνσεων των αποτελεσμάτων Reliability, η αξιοπιστία του μοντέλου στην πρόβλεψη 2. Σημαντικές μορφές μοντέλων πρόβλεψης Data Mining Στο σημείο αυτό θα προσπαθήσουμε να εμβαθύνουμε και να παρουσιάσουμε περισσότερα εξειδικευμένα στοιχεία σχετικά με το πώς οι μέθοδοι Data Mining μπορούν να σχετιστούν με την οικονομία και την πρόβλεψη χρηματοοικονομικών μεγεθών [.9]. Για τον λόγο αυτό θα παρουσιαστούν κάποιες στατιστικές και υπολογιστικές μέθοδοι Data Mining και θα γίνει όσο το δυνατόν πληρέστερη αναφορά στην δομή τους και λειτουργία τους. Τέλος, όσον αφορά το μοντέλο ΑRΙΜA, πρέπει να τονίσουμε ότι προέρχεται από το πεδίο της Στατιστικής και αποτελεί αποκλειστικά στατιστικό μοντέλο Data Minig , και παρουσιάζεται απλά για να δούμε την λειτουργία του και τον τρόπο εφαρμογής του. Το Relational Data Mining, που «εκπροσωπεί» την Μηχανιστική Μάθηση παρουσιάζεται παρακάτω. 2.1 Το στατιστικό μοντέλο ARIMA, ARIMA model Αρκετές προσπάθειες οι οποίες αποσκοπούσαν στο να δημιουργηθεί ένα παραδοσιακό μοντέλο πρόβλεψης το οποίο θα έχει να πραγματευτεί χρονοσειρές διαφόρων δεδομένων και στοιχείων της οικονομίας όπως τιμές μετοχών οδήγησαν

Page 63: Nimertis_Pagouropoulos

57

στην δημιουργία της στατιστικής μεθόδου ARIMA model (Autoregressive Integrated Moving Average). Το μοντέλο αυτό πρόβλεψης αναπτύχθηκε από τους Box, Jenkins (1976). Το σύστημα αυτό αποτελείται από τρεις βασικές διαδικασίες [.9]:

1. Auto regression 2. Differencing 3. Moving average (MA)

Τα γενικά ARIMA μοντέλα συνδυάζουν τις παραπάνω βασικές διαδικασίες και καταχωρούνται σαν ARIMA (p,d,q) όπου p είναι η σειρά / διάταξη (order) της autoregression, d είναι ο βαθμός του differencing και q είναι η σειρά (order) του moving average (κινητός μέσος). Στην συνέχεια θα παρουσιαστούν τα παραπάνω στοιχεία. Autoregression Είναι μία γραμμική συνάρτηση η οποία «ταιριάζει» p τιμές μιας χρονοσειράς V(t-1), V(t-2),……………….V(t-p) με την V(t), όπου V(t) είναι η τιμής της χρονοσειράς την χρονική στιγμή t. Στην first order autoregressive process χρησιμοποιείται μόνο η προηγούμενη τιμή (preceding). Σε υψηλότερες, οι p preceding τιμές χρησιμοποιούνται και έτσι συνεχίζει. Αυτό μπορεί να συμβολιστεί και ως AR(p) όπου το p συμβολίζει την σειρά / διάταξη (order). Για παράδειγμα η AR(1) είναι η first-order autoregressive process όπου V(t) = C + g1 V(t – 1) + Dt . Όσον αφορά το C είναι μια σταθερά η οποία σχετίζεται με τον μέσο mean της διαδικασίας και D(t) είναι μία συνάρτηση του t και θεωρείται σαν μια διαταραχή / disturbance της χρονοσειράς την χρονική στιγμή t. Το g1 υπολογίζεται από τις ελεγχθείσες σειρές και δείχνει την σχέση μεταξύ των V(t) και V(t-1). Ομοίως μία second order autoregression , AR(2) έχει την μορφή που ακολουθεί , όπου οι δύο ακόλουθες τιμές θεωρούνται διαφορετικές μεταξύ τους V(t) = C + g1 V(t-1) + g2 V(t-2) + D(t) Έτσι ένα μοντέλο πρόβλεψης AR(p) είναι ταυτόσημο με το ARIMA (p,0,0) V(t) = C + g1 V(t-1) + g2 V(t-2) + ………+ gp V(t-p) + D(t)

Page 64: Nimertis_Pagouropoulos

58

Differencing Η διαδικασία αυτή αντικαθιστά κάθε τιμή με την διαφορά της τιμής αυτής και της προηγούμενης τιμής στην χρονοσειρά. Η πρώτη περίπτωση difference είναι η W(t) = V(t) – V(t-1) Όπως και στην περίπτωση της autoregression έτσι και εδώ για την πρώτη περίπτωση difference έχω I(1) , ARIMA (0,1,0) . Ομοίως για την δεύτερη περίπτωση θα έχω Z(t) = W(t) – W(t-1) Μπορούμε να καθορίσουμε την διαδικασία της difference ως Υ(t) = Z(t) – Z(t-1) για I(3). Επομένως, για την παράμετρο d, θα εννοούμε τον βαθμό/degree of differencing. Moving averages Στην διαδικασία αυτή, κάθε στιγμή καθορίζεται από τον weighted average της υπάρχουσας disturbance και των q προηγούμενων disturbances. Ένα τέτοιο μοντέλο εμφανίζεται ως MA(q) η ARIMA (0,0,q). Η εξίσωση του πρώτου moving average ΜΑ(1) είναι η ακόλουθη V(t) = C + D(T) + S1 D(t-1) Παρόμοια για τον δεύτερο θα είναι V(t) = C + D(T) + S1 D(t-1) + S2 D(t-2) Η γενική μορφή θα είναι V(t) = C + D(T) + S1 D(t-1) + S2 D(t-2) +……………+Sq d(t-q) Η βασική διαφορά που υπάρχει μεταξύ των AR(p) και των MA(q) βρίσκεται και εντοπίζεται στα στοιχεία που περιέχουν αντίστοιχα τα δύο μοντέλα. Στα πρώτα υπολογίζεται το p των recent values, ενώ στα δεύτερα βρίσκεται το q των recent random disturbances της ανάλογης χρονοσειράς. Ο συνδυασμός των AR(1), MA(1) δημιουργεί ένα ARMA(1,1) μοντέλο το οποίο ισοδυναμεί με (1,0,1) και εκφράζεται με την εξίσωση V(t) = C + g1 V(t-1) + S1 D(t-1) + D(t)

Page 65: Nimertis_Pagouropoulos

59

Το πιο γενικό μοντέλο ARMA (p,q) το οποίο είναι όμοιο με το ARIMA (p,0,q) είναι το ακόλουθο V(t) = C + g1 V(t-1) + g2 V(t-2)+……+gp V(t-p) + D(t) + s1 D(t-1) + s2 D(t-2) +………..+ D(t-q) Στο σημείο αυτό θα εστιάσουμε στην τρίτη παράμετρο που σχετίζεται με το differencing , το μοντέλο ARIMA (1,1,1) V(t) - V(t-1) = C + g1 V(t-1) - V(t-2) + D(t) + s1 D(t-1) η ισοδύναμα W(t) = C + g1 W(t-1) + D(t) + s1 D(t-1) Όπου W(t) = V(t) – V(t-1) για first difference d=1 Με την ίδια λογική ARIMA(1,2,1) θα είναι Z(t) = C + g1Z(t-1) + D(t) + s1 D(t-1) όπου Z(t) = W(t) – W(t-1) Βήματα για την ανάπτυξη ενός ARIMA model Οι Box και Jenkins ανέπτυξαν μία διαδικασία για την δημιουργία ενός τέτοιου μοντέλου [.9]. Βέβαια θα πρέπει να τονίσουμε ότι δεν πρόκειται για μία αυστηρά αλγοριθμική διαδικασία καθώς ο χρήστης έχει την δυνατότητα να επεμβαίνει όπου κρίνεται απαραίτητο και να προσθέτει την δική του φιλοσοφία κατά την ανάπτυξη του μοντέλου. Τα βασικά βήματα πάντως που κρίνονται σημαντικά και τα οποία μπορούν να επαναληφθούν κατά την διάρκεια της διεργασίας είναι τα : Identification, Estimation και Diagnosis. H Identification, αποτελεί το πρώτο βήμα της διαδικασίας. Οι τρεις ακέραιοι p,d,q στο ARIMA (p,d,q) πρέπει να καθοριστούν. Επιπρόσθετα αρκετές άλλες παράμετροι μπορούν να συνεργαστούν με το ARIMA model. Τα ARIMA models αναφέρονται μόνο σε χρονοσειρές οι οποίες έχουν σταθερό μέσο και διακύμανση στο χρόνο. Αυτές οι σειρές αναφέρονται ως stationary. Οι integrated series τυπικά δεν θεωρούνται στατικές. Σε αυτές τις συνθήκες οι χρονοσειρές πρέπει να μετατραπούν σε στατικές με διαφορικές οι άλλες μεθόδους. Στο σημείο αυτό θα πρέπει να αναγνωρίσουμε τα p,q ,την σειρά της autoregression και εκείνη του moving average. Σε μία μη εποχική διαδικασία τα p,q θα παίρνουν τιμές συνήθως λιγότερο από 3 και η autocorrelation function (ACF) και η partial autocorrelation function (PACF) μιας σειράς θα βοηθήσει στο να αναγνωρισθούν τα p,q. Πρέπει να τονίσομε ότι τα ACF, PACF υπολογίζονται χρησιμοποιώντας ένα δεδομένο μέρος από ολόκληρη την σειρά των δεδομένων που έχουμε και εμπεριέχεται ο κίνδυνος να είναι παραπλανητικές οι τιμές των ACF,PACF σε περίπτωση που το δεδομένο και επιλεχθέν μέρος δεν είναι αντιπροσωπευτικό του μελλοντικού μέρους.

Page 66: Nimertis_Pagouropoulos

60

Όσον αφορά το Estimation ας υποθέσουμε ότι οι τιμές στις τριάδες p,d,q έχουν ήδη αναγνωρισθεί. Αυτό συνεπάγεται αυτομάτως σχετικά με το ARIMA model ότι υπολογίζονται με το λάθος του μοντέλου. Οι εκτιμήσεις αυτές που θα πάρουμε περιβάλλονται με στατιστικές παραμέτρους όπως επίπεδα εμπιστοσύνης κ.α. Η διαδικασία εάν κριθεί απαραίτητο μπορεί να επαναληφθεί με διαφορετικές τιμές στην τριπλέτα εάν το μοντέλο δεν κρίνεται κατάλληλο η ακόμα μη έγκυρο. Έτσι ενώ αναφέραμε προηγουμένως πως ο καθορισμός των τιμών στα p,d,q είναι βασικός είναι όμως και κάτι υποκειμενικό καθώς όπως είδαμε μπορεί να χρειαστεί η αντικατάστασή των αν κριθεί σκόπιμο αυτό από τον χρήστη. Diagnosis. Όσον αφορά αυτό το βήμα, μπορεί να θεωρηθεί σαν έλεγχος για το αν το μοντέλο είναι κατάλληλο. Ο χρήστης εξετάζει : -τα ACF και PACF τείνουν όσο το δυνατόν στο μηδέν 0 -οι πρώτοι και δεύτεροι σε σειρά συσχετισμοί είναι μικροί -η residual χρονοσειρά που ελέγχθηκε από τα ACF, PACF δείχνει no pattern Μερικά εργαλεία Data Mining παρουσιάζουνε τα ARIMA models ως τα καταλληλότερα για επιλογή σύμφωνα με διάφορα και ποικίλα κριτήρια. Κυρίως λόγος είναι ότι έχουν πολύ καλό στατιστικό περιβάλλον για τον ενδιαφερόμενο. Στο σημείο αυτό πρέπει να επισημάνουμε ότι πολλές φορές συναντάμε χρονοσειρές οι οποίες χαρακτηρίζονται από περιοδικότητα και «εποχικότητα». Για παράδειγμα ο Γενάρης είναι γνωστό στους χρηματοοικονομικούς κύκλους ότι πάντα έχει μεγάλη επίδραση στις τιμές των μετοχών. Υπάρχει ένας αλγόριθμος, ο ΧΙΙ ARIMA algorithm ο οποίος υπολογίζει τους εποχιακούς παράγοντες ανάλογα με την περίπτωση. Υπάρχουν τρία βήματα σε αυτόν τον αλγόριθμο: -Επιλογή μεταβλητών -Επιλογή υπολογιστικών αλγοριθμικών επιλογών/διαδικασιών -Καθορισμός των στοιχείων που θα λάβουν μέρος στην διαδικασία Σύγκριση των ARIMA models με άλλες μεθόδους Όπως έχουμε δει ως τώρα, η χρησιμοποίηση των μοντέλων ARIMA απαιτεί αρκετές ατομικές παρεμβάσεις. Θα μπορούσαμε να ισχυριστούμε ότι υπάρχουν δύο οδοί στο να δημιουργήσουμε ένα μοντέλο με αποτέλεσμα να κατατάσσουμε τα μοντέλα σε δύο κατηγορίες, automatic και custom [.9]. Η επιλογή ενός automatic model σημαίνει ότι έχουμε τρία ARIMA models και από αυτά τα τρία επιλέγουμε το κατάλληλο. Στα custom models, ο χρήστης είναι αυτός που επιλέγει τις παραμέτρους (p,d,q). Ο

Page 67: Nimertis_Pagouropoulos

61

χρήστης επίσης μπορεί να καθορίσει και τις seasonal parameters τοποθετώντας τες μέσα στο μοντέλο. Αυτό καταδεικνύει πόσο ευαίσθητα είναι τα ARIMA models σε παρεμβάσεις ατόμων και ειδικών (experts) σχετικά με τον καθορισμό των παραμέτρων. Αυτό θα μπορούσε να θεωρηθεί και ένα δυνατό σημείο των στατιστικών μεθόδων, δηλαδή η ελευθερία κινήσεων που έχει ο ειδικός μέσα στο σύστημα και το μοντέλο. Επιπρόσθετα τα μοντέλα αυτά έχουν την σημαντική από κάθε άποψη δυνατότητα της χρησιμοποίησης και ανάλυσης αριθμητικών δεδομένων. Στον αντίποδα βέβαια υπάρχουν και κάποια μειονεκτήματα , η ελαστικότητα/ flexibility καθώς και η χρησιμοποίηση λογικών εκφράσεων/logical expressions. Ειδικά το τελευταίο είναι σημαντικό για την ανάπτυξη υβριδικών τεχνικών/hybrid methods με τον συνδυασμό στατιστικών τεχνικών και first-order logic μεθόδων όπως η MMDR. Τελειώνοντας θα μπορούσαμε να ισχυριστούμε ότι υπάρχει ένα στοιχείο που κάνει μοναδικές τις στατιστικές μεθόδους. Αυτό είναι η δυνατότητα που παρέχουν στον χρήστη για να υπολογίσει και να δώσει μία εκτίμηση της στατιστικής αποτελεσματικότητας και καταλληλότητας του μοντέλου (statistical significance). Αυτό μας δείχνει και πόσο καλά προβλέπει το μοντέλο καθώς και τι απόδοση έχει στο να εκπαιδεύει και να τεστάρει δεδομένα. 2.2 Relational Data Mining Οι μέθοδοι Data Mining, που στο πεδίο της χρηματοοικονομικής ανάλυσης αναφέρονται ως Relational Data Mining RDM, έχουν την ιδιότητα να ταξινομούν και να καταχωρούν δεδομένα σε τιμές στόχους. Τα διάφορα δεδομένα / αντικείμενα καθώς και καταχωρήσεις και διάφορα αποτελέσματα που έχουμε, θα πρέπει να αναπαρασταθούν με την κατάλληλη γλώσσα [.9]. Η επιλογή λοιπόν της ανάλογης γλώσσας είναι μία σοβαρή πρόκληση. Ιστορικά οι μέθοδοι οι οποίες βασίζονται σε attribute-value languages (AVLs) είναι περισσότερο κατάλληλες και γνωστές σε εφαρμογές αλγορίθμων μάθησης. Τα νευρωνικά δίκτυα και τα δέντρα αποφάσεων είναι τυπικές μέθοδοι οι οποίες βασίζονται σε AVLs. Είναι απλές, αποτελεσματικές και έχουν την δυνατότητα να μπορούν να διαχειρίζονται τον θόρυβο (noisy data). Παρόλα αυτά οι μέθοδοι αυτές έχουν αρκετούς περιορισμούς στο πως αναπαριστούν την γνώση. Ο σκοπός του Inductive Logic Programming (ILP) που στην ουσία αποτελεί μία από τις γνωστότερες τεχνικές Data Mining, είναι να υπερνικήσει τα εμπόδια αυτά. Τα συστήματα αυτά συνδυάζουν υπάρχουσα γνώση και συσχετισμούς μεταξύ των αντικειμένων μέσα στην διαδικασία μάθησης (learning process) αλλά τελικά κρίνονται αναποτελεσματικά κυρίως στο να διαχειρίζονται αριθμητικά δεδομένα. Αυτό στην ουσία έρχεται να επιλύσει το Relational Data Mining (RDM). Άλλωστε το RDM ορίζεται ως ανακάλυψη κρυμμένων συσχετισμών σε αριθμητικά και συμβολικά δεδομένα χρησιμοποιώντας ενυπάρχουσα γνώση. Στην ουσία το RDM έρχεται να συμπληρώσει το ILP και έπειτα τα δυο τους να δώσουν έμφαση στην εύρεση και στον εντοπισμό συσχετισμών. Παρακάτω ακολουθούν κάποια παραδείγματα για το πώς λειτουργεί το RDM / ILP σαν μέθοδος πρόβλεψης.

Page 68: Nimertis_Pagouropoulos

62

Παράδειγμα 1 (attribute value language) Ο πίνακας που ακολουθεί αναπαριστά ένα πεδίο / αντικείμενο τιμών. Οι πρώτες δύο γραμμές αναπαριστούν κάποια αντικείμενα από ένα σύνολο εκπαίδευσης. Η τελευταία γραμμή αναπαριστά ένα αντικείμενο χωρίς τιμή για το πεδίο στόχο. Το πεδίο αυτό πρέπει να βρεθεί για το συγκεκριμένο object πχ. Η τιμή της μετοχής για την επόμενη μέρα , 01.05.99. Κάθε ζεύγος πεδίο-τιμή (attribute-value) μπορεί να γραφτεί σαν ένα όνομα ενός πεδίου και της τιμής του, για παράδειγμα το πρώτο αντικείμενο μπορεί να γραφτεί σαν: <date, 01.02.99> <stock price on 01.02.99, $60.6>; <volume of shares traded on 01.02.99, 1,000,000>; <target-- stock price on 01.03.99, $53.8> . Attribute:date Attribute 1: Attribute 2: Attribute 3: Stock price on date t Volume (number of shares) Target price on t+1 Value:01.02.99 Value: $60.6 Value: 1,000,000 $53.8 Value:01.02.99 Value: $53.8 Value: 700,000 $54.6 Value:01.03.99 Value: $54.6 Value: 800,000 $56.3 Value:01.04.99 Value: $56.3 Value: 840,000 Για παράδειγμα, ο ακόλουθος rule 1 μπορεί να εξαχθεί από τον παραπάνω πίνακα IF stock price today is more than $60 and trade volume today is greater than 900,000 THEN tomorrow stock will go down

Page 69: Nimertis_Pagouropoulos

63

O παραπάνω κανόνας μπορεί να γραφτεί πιο τυπικά ως IF StockPrice (t)>$60 AND StockTradeVolume (t) >900,000 THEN Greater(StockPrice(t+1), StockPrice(t) Ο κανόνας rule 2 είναι επίσης αληθής για τον πίνακα που έχουμε και θα είναι IF stock price today is greater than stock price yesterday and trade volume today is greater than yesterday THEN tomorrow stock price will go up Ομοίως όπως προηγουμένως ο κανόνας αυτός μπορεί να γραφτεί τυπικά ως IF Greater(StockPrice(t), StockPrice(t-1)) AND Greater(StockTradeVolume(t),StockTradeVolume(t-1)) THEN StockPrice(t+1)>StockPrice(t) Ας σημειωθεί ότι ο rule 2 είναι αληθής για τον πίνακα που έχουμε στην διάθεσή μας καθώς δεν υπάρχουν παραδείγματα που να αντιτίθενται σε αυτόν τον κανόνα. Βέβαια ο πίνακας που έχουμε στην διάθεσή μας δεν είναι μεγάλος ώστε να εξάγει αξιόπιστους κανόνες. Ο πίνακας και οι παραπάνω κανόνες δείχνουν ότι οι attribute-value methods δεν μπορούν να εξάγουν τους κανόνες 1,2 απευθείας. Οι δύο κανόνες περιέχουν συσχετισμούς μεταξύ δύο αντικειμένων (εγγραφές για δύο μέρες, t και (t+1)): StockPrice(t+1)>StockPrice(t) Greater(StockTradeVolume(t).StockTradeVolume(t-1)) Ειδική προεπεξεργασία χρειάζεται για την δημιουργία επιπρόσθετων πεδίων όπως τα ακόλουθα: 1, StockPrice (t-1) < StockPrice (t) StockUp(t) 0, StockPrice (t-1) ≥ StockPrice (t)

Page 70: Nimertis_Pagouropoulos

64

Υπάρχει μία λογική ισοδυναμία μεταξύ του πεδίου StockUp(t) και συσχέτιση με

Greater(StockPrice(t), StockPrice(t-1) που χρησιμοποιήθηκε στον rule 1: Stοckup (t) Greater (Stock Price (t), Stock Price (t-1)) Όμοια για να βρούμε τον κανόνα rule 2 με attribute-value μέθοδο θα χρειαστούμε το επιπρόσθετο πεδίο: Volume Up(t) Greater(StockTradeVolume(t),StockTradeVolume(t-1)) Στην περίπτωση που θέλουμε να προσθέτουμε συσχετίσεις όπως Greater(StockTradeVolume(t),StockTradeVolume(t- i)) με 2,3,……,ι μέρες χρειάζεται να παράγουμε πολλά πεδία όπως το Volume iUp(t) όμοια με το Volume Up(t) που χρησιμοποιήθηκε για μία μέρα. Σε λογικούς όρους τα πεδία StockUp(t) και VolumeUp(t) ονομάζονται μοναδικά (monadic predicates). Συναρτήσεις μίας μεταβλητής λέγονται και αυτές monadic functions. Παράδειγμα 2 (relational data mining) Έχει παρατηρηθεί ότι οι Attribute-value languages δεν λειτουργούν τόσο καλά όταν έχουν να κάνουν με το να εκφράσουν συσχετίσεις μεταξύ διαφορετικών αντικειμένων. Για το λόγο αυτό προτείνονται «πλουσιότερες» και πιο εκφραστικές γλώσσες για να εκφράσουν και να αποδώσουν σχέσεις μεταξύ πιο πολύπλοκων ζευγαριών στα πεδία. Αυτά μπορεί να είναι λίστες, γράφοι κ.α. Αυτές οι πιο εκφραστικές γλώσσες ανήκουν στην κατηγορία της First Order Logic FOL, και υποστηρίζουν μεταβλητές, σχέσεις και πολύπλοκες εκφράσεις. Το RDM μπορεί να βασιστεί στην FOL. Τα ILP μπορούν να ανακαλύψουν regularities χρησιμοποιώντας διάφορους πίνακες σε μια βάση δεδομένων αλλά η propositional approach (προτασιακή προσέγγιση) επιβάλλει την δημιουργία ενός και μόνο πίνακα ο οποίος αποκαλείται universal relation (μία σχέση / relation σχετικά με όλους τους άλλους πίνακες συγκεντρωμένους). Αυτή η universal relation μπορεί να είναι πολύ μεγάλη και έτσι αναποτελεσματική και αναξιόπιστη. Οι κανόνες FOL έχουν την δυνατότητα και το πλεονέκτημα να εντοπίζουν relational assertions από την στιγμή που «αιχμαλωτίζουν» σχέσεις αμέσως. Ο τυπικός ILP είναι στην ουσία ένα εργαλείο ταξινόμησης με ένα επίπεδο και υπόβαθρο γνώσης που εκφράζεται ως εξής:

Page 71: Nimertis_Pagouropoulos

65

- ένα σύνολο από predicate definitions και properties

- θετικά / positive examples E+ για κάποια κλάση ή παράδειγμα

- αρνητικά / negative examples E- για την ίδια κλάση / pattern

Χρησιμοποιώντας αυτήν την γνώση θα κατασκευάσουμε μία φόρμουλα πρόβλεψης Η έτσι ώστε: Όλα τα παραδείγματα E+ στην θα είναι λογικά εξαγόμενα από Β,Η και καθόλου αρνητικά παραδείγματα E- θα μπορούν να εξαχθούν από τις Β,Η. Η formula Η εκφράζει και δηλώνει κάποια regularity που ενυπήρχε στην background knowledge. Αυτή η φόρμουλα μπορεί να εντοπιστεί με τις ILP μεθόδους. Ένα ILP μπορεί να αναπαραστήσει την λογική των Β,Η. [.9] Συνήθως για την υλοποίηση των παραπάνω χρησιμοποιείται η γλώσσα προγραμματισμού Prolog καθώς κρίνεται πολύ πλούσια σε εκφραστικότητα αλλά παρουσιάζει το μειονέκτημα ότι είναι καταλαμβάνει πολύ χώρο στον δίσκο. Η εφαρμογή ενός συστήματος ILP περιλαμβάνει τρία βήματα:

- ανάπτυξη μίας αποτελεσματικής αναπαράστασης των παραδειγμάτων

- ανάπτυξη μίας σχετικής ενυπάρχουσας γνώσης

- την χρησιμοποίηση ενός ILP συστήματος Υπάρχει η ανάγκη για γενικοποίηση του αποτελέσματος. Οι μέθοδοι RDM πρέπει να είναι ικανές να επιλύουν αριθμητικά και interval forecasting tasks μαζί με τα αντίστοιχα της ταξινόμησης. Αυτό απαιτεί την μετατροπή των παραδειγμάτων positive / negative καθώς επίσης και την μετατροπή των παραδειγμάτων εκπαίδευσης, training examples, από την background knowledge. Ένα σύστημα RDM έχει σχεδιαστεί για να χρησιμοποιείται από εργαλεία πρόβλεψης / forecasting tasks όπως classification και numerical forecasting. Με την ίδια λογική η γνώση ενός RDM αποδίδεται ως εξής:

- ένα σύνολο με predicate definitions

- Training examples E expanded με target values T (nominal ή numeric)

- σύνολο υπόθεσης (Gk) που εκφράζεται με όρους από predicate definitions

Page 72: Nimertis_Pagouropoulos

66

Έτσι με αυτήν την Background knowledge ένα σύστημα RDM θα δημιουργήσει ένα σύνολο από Η φόρμουλες έτσι ώστε ο στόχος πρόβλεψης για όλα τα παραδείγματα να μπορεί λογικά να εξαχθεί από την Β και την κατάλληλη Ηi Attribute:date Attribute 1: Attribute 2: Attribute 3: Stock price on date t Volume (number of shares) Target price on t+1 Value:01.02.99 Value: $60.6 Value: 1,000,000 $53.8 Value:01.02.99 Value: $53.8 Value: 700,000 $54.6 Value:01.03.99 Value: $54.6 Value: 800,000 $56.3 Value:01.04.99 Value: $56.3 Value: 840,000 Έστω ο rule 2 που ανακαλύφθηκε από τον παραπάνω πίνακα IF Greater(StockPrice(t), StockPrice(t-1)) AND Greater(StockTradeVolume(t),StockTradeVolume(t-1)) THEN StockPrice(t+1)>StockPrice(t) Ο κανόνας αυτός αναπαριστά μία logic formula Η2 και ο πίνακας προηγουμένως αναπαριστά ένα training example E. Αυτές οι δύο πηγές μας επιτρέπουν να λάβουμε την ακόλουθη «λογική» για την ημερομηνία date (t+1) = (01.04.99) : StockPrice(01.04.99)>54.6 θεωρώντας ότι t =(01.03.99) (1) Επίσης μπορούμε να εξάγουμε τον κανόνα IF StockPrice(t)<$60 AND StockTradeVolume(t)<$90000 THEN Greater($60,Stock Price(t+1))

Page 73: Nimertis_Pagouropoulos

67

Αυτός ο τελευταίος κανόνας μας επιτρέπει να συμπεράνουμε ότι StockPrice(01.04.99)<60 (2) Συνδυάζοντας (1),(2) θα έχουμε: 60>StockPrice(01.04.99)>54.6 (3) 2.3 Αξιοποιώντας χρονοσειρές που αφορούν την συμπεριφορά μετοχών / Stock time series pattern matching: Template-based vs. Rule-based approaches Οι χρονοσειρές που μας ενδιαφέρουν να ερευνηθούν ώστε να εξαχθούν χρήσιμα συμπεράσματα και κανόνες, είναι μία συλλογή πληροφοριών που έχουμε σχετικά με την πορεία και την συμπεριφορά μετοχών (από την στιγμή που το πεδίο που ενδιαφέρει είναι εκείνο της χρηματιστηριακής αγοράς). Οι χρονοσειρές αυτές χαρακτηρίζονται από τα εξής: περιλαμβάνουν μεγάλο όγκο δεδομένων και είναι πολυδιάστατες. Οι ερευνητές εστιάζουν στο κατά πόσο είναι δυνατή η εύρεση όμοιων χρονοσειρών και η απόκτηση βάσεων δεδομένων που θα αφορούν χρονοσειρές. Στην ουσία τα στοιχεία που αναλύονται σε αυτές τις περιπτώσεις είναι ολόκληρη η χρονοσειρά με ότι αυτό συνεπάγεται. Οι χρονοσειρές που αναφέρονται σε μετοχές και γενικά σε χρηματιστηριακά προϊόντα έχουν ιδιαίτερα χαρακτηριστικά (όπως προκύπτει από την επεξεργασία τους), τα οποία είναι κοινά μεταξύ τους και διαφέρουν από χρονοσειρές άλλων πεδίων. Ένα τέτοιο κοινό χαρακτηριστικό είναι το λεγόμενο ηλεκτροκαρδιογράφημα (electrocardiogram ECG). Εκείνο που θεωρείται σημαντικό είναι να αναγνωριστούν τα perceptually important points (PIPs), μέσω κάποιων μέτρων καθορισμού αποστάσεων όπως θα δούμε και στην συνέχεια, και με την βοήθεια δύο προσεγγιστικών μεθόδων των template-pattern-matching και rule- based pattern-matching θα οδηγηθούμε στην εξαγωγή γνώσης [.18]. Ταιριάζοντας χρονοσειρές μετοχών / Stock time series pattern matching Αυτή η μέθοδος βασίζεται στον προσδιορισμό των perceptually important points, και συγκεκριμένα ανάλογα με την περίπτωση όπως στην head-and-shoulder προσέγγιση έχουμε ένα σημείο για την κεφαλή, head, δύο για τους ώμους, shoulder points και δύο για το λαιμό neck points. Αυτά όπως και για τους ανθρώπους, έτσι και για την περίπτωση των μετοχών κρίνονται σημαντικά για τεχνική ανάλυση. Έχουμε υποθέσει πως έχουμε δύο ερωτήματα queries, του τύπου: Q1: Βρες όλες τις μετοχές που συμπεριφέρονται όμοια με την μετοχή Α Q2: Βρες όλες τις εβδομαδιαίες περιπτώσεις / κανόνες για την τιμή κλεισίματος μίας τιμής μετοχής υψηλής τεχνολογίας

Page 74: Nimertis_Pagouropoulos

68

Το Q1 είναι μία πλήρης διαδικασία ταιριάσματος χρονοσειρών όπου μπορεί να θεωρηθεί ως εξής: Δοθείσας μίας ακολουθίας από ερωτήματα Q=(q1,q2,………,qn) και ένα σύνολο από ακολουθίες δεδομένων P=(p1,p2,……..,pm) τα οποία έχουν εξαχθεί από ένα σύνολο δεδομένων, έχουμε σαν στόχο να αναγνωρίσουμε ένα σύνολο του P το οποίο να είναι όμοιο του Q. Όσο για ερωτήματα όμοια και αντίστοιχα με το Q2 έχουμε μία ακολουθία ερωτημάτων Q=(q1,q2,………,qn) και μια μεγαλύτερη P=(p1,p2,……..,pm), και σκοπός είναι να βρεθούν όλες οι υποακολουθίες S=(s1,s2,……….,sw) στο Ρ, που ταιριάζουν με το Q και w ⟨ ⟨ m. Επιστρέφοντας στην μέθοδο, εντοπίζουμε τα PIPs στην ακολουθία δεδομένων P. Η όλη διαδικασία εντοπισμού των ομοίων χρονοσειρών μπορεί να χωριστεί σε δύο εκφράσεις: PIP αναγνώριση και μέτρο ομοιότητας. Τα πρώτα PIPs θα είναι εκείνα του συνόλου P με την μεγαλύτερη απόσταση μεταξύ τους. Το επόμενο ΡΙΡ θα είναι εκείνο με την μεγαλύτερη απόσταση από τα δύο υπάρχοντα ΡΙΡ και το τέταρτο ΡΙΡ θα είναι εκείνο με την μέγιστη απόσταση από τα δύο συνεχόμενα ΡΙPs (μεταξύ του πρώτου και του δεύτερου η του δεύτερου και του τελευταίου). Για να υπολογίσουμε την απόσταση μεταξύ δύο adjacent PIPs έχουμε τις εξής μετρικές: Euclidean Distance:

2 2 2 23 1 2 2 3 2 3 1 3 1 3( , , ) ( ) ( ) ( ) ( )ED p p p x x y y x x y y= − + − + − + −

Perpendicular Distance:

3 3 1 2 1 1 2 1 3( , ) ( ( ) ( ) /( ))c c cVD p p y y y y y x x x x y= − = + − − − − Vertical Distance:

3 3 1 2 1 1 2 1 3( , ) ( ( ) ( ) /( ))c c cVD p p y y y y y x x x x y= − = + − − − − Οι συντεταγμένες αλλάζουν ανάλογα με την κάθε περίπτωση και παράδειγμα. Προσδιορίζοντας την ομοιότητα των διαγραμμάτων Template-based pattern-matching approach VS Rule-based pattern-matching approach Ένας ιδανικός τρόπος για τον προσδιορισμό της ομοιότητας είναι το «ταίριασμα σχεδίων» template matching. Με τον προσδιορισμό των σχημάτων των προτύπων / patterns μας δίνεται η δυνατότητα να κάνουμε σύγκριση σημείων που ενδιαφέρουν.

Page 75: Nimertis_Pagouropoulos

69

Οι ακολουθίες όμως μπορούν να έχουν διαφορετικά εύρη και έκταση με αποτέλεσμα να χρειάζεται μία κανονικοποίηση τον τιμών για κάθε εύρος. Η απόσταση έπειτα μεταξύ των P,Q υπολογίζεται από τον τύπο (στο παρακάτω σχήμα, σχήμα Α, παρουσιάζεται η μορφή τους):

2

1

( , ) 1/ ( )n

k kk

AD SP Q n sp q=

= −∑

όπου τα SΡ και spk αντιπροσωπεύουν τα PIPs που βρεθήκανε στο Ρ. Για να είναι σωστός ο παραπάνω τύπος σε σχέση με την διάσταση του χρόνου, (time dimension) θα πρέπει να πάρει την μορφή:

2

2( , ) 1/( 1) ( )

nt tk k

kTD SP Q n sp q

=

= − −∑

Τέλος, για την περίπτωση που λάβουμε υπόψη την κάθετη και οριζόντια διαταραχή, η μετρική της απόστασης μπορεί να πάρει την μορφή (όπου το w1 αντιπροσωπεύει το βάρος της απόστασης και τα AD,TD καθορίζονται από τον χρήστη:

1 1( , ) ( , ) (1 ) ( , )D SP Q w AD SP Q W TD SP Q= × + − × Vertical distance based:PIP-VD p3(x3,y3) b Euclidean distance based:PIP-ED d d p2(x2,y2) a pc(xc,yc) σχήμα Α. p1(x1,y1) Perpendicular distance based: PIP-PD Εκτός όμως από την μέθοδο Template-based, υπάρχει και εκείνη της Rule-based η οποία μέσω κανόνων περιγράφει τα σχήματα των προτιμούντων προτύπων, και στην ουσία περιγράφει και δίνει πληροφορίες μέσω των σχημάτων για τον προσδιορισμό των PIPs σε κάθε περίπτωση. Μεγάλο αβαντάζ της συγκεκριμένης μεθόδου είναι ότι αποφεύγουμε προβλήματα που μπορούν να δημιουργηθούν από τους αριθμητικούς προσδιορισμούς των σημείων όσον αφορά τα PIPs που συγκρίνουμε και να εντοπιστούν πρότυπα που μπορεί να ενδιαφέρουν τα οποία αδυνατεί να εντοπίσει η προηγούμενη μέθοδος.

Page 76: Nimertis_Pagouropoulos

70

2.4 Μοντέρνες μεθοδολογίες για την Ανεύρεση Γνώσης στα χρηματοοικονομικά DDeetteerrmmiinniissttiicc ddyynnaammiicc ssyysstteemm aapppprrooaacchh Τα οικονομικά δεδομένα όπως οι τιμές των μετοχών παρουσιάζονται σε μορφή χρονοσειρών [.9]. Οι πρόβλεψη με χρονοσειρές ήταν πάντα μία μεγάλη πρόκληση στα μαθηματικά μοντέλα. Το σύγχρονο DM έρχεται να ενισχύσει αυτήν την τάση. Η προσέγγιση με δυναμικά συστήματα προέρχεται κυρίως από την εφαρμογή στην φυσική. Τελευταία έχει εισέλθει και στον τομέα της οικονομίας. Η επιλογή πεδίων (attributes) και η ανακάλυψη νόμων (laws) είναι κάτι το πολύ σημαντικό. Η ελπίδα για την εξαγωγή δυναμικών κανόνων (dynamic rules) στην οικονομία μεταφράζεται με το να ανακαλύπτονται συμπεριφορές γενικές για τα στοιχεία και τις έννοιες που μας ενδιαφέρουν. Για παράδειγμα μία εκτίμηση για το πώς θα συμπεριφερθεί μια αγορά. Τα βήματα για την ανάπτυξη ενός δυναμικού συστήματος είναι: -Ανάπτυξη του διαστήματος (state space) για το δυναμικό σύστημα -Ανακάλυψη των νόμων που επιδρούν περισσότερο στο φαινόμενο που ενδιαφέρει -Επίλυση των διαφορικών εξισώσεων για την αναγνώριση της transition function (rules) -Χρησιμοποίηση της ανωτέρω ως predictor του επόμενου επιπέδου (state) του δυναμικού συστήματος Για να αποδεχτούμε τους κανόνες που θα εξάγει το σύστημα βέβαια, θα πρέπει να υπάρχει αρκετή πληροφορία ώστε να χαρακτηρίζεται με υψηλή ακρίβεια (high accuracy), όλες οι μεταβλητές που το επηρεάζουν να είναι διαθέσιμες, το σύστημα θα πρέπει να αγγίζει και να προσεγγίζει κάποια δεδομένη stationary evolution, να είναι ντετερμινιστικό δηλαδή να επιδέχεται περιγραφή από μέσα διαφορικών εξισώσεων, και τέλος η εξέλιξή του να μπορεί να περιγραφεί σχετικά με το space of delayed values. Efficient market theory Η θεωρία αυτή αναφέρεται στο ότι είναι πρακτικά αδύνατο να εξάγουμε ένα fixed long-term global forecasting model από ιστορικές πληροφορίες και δεδομένα που αφορούν μετοχές [.9]. Η ιδέα αυτή βασίζεται στην παρατήρηση του ότι εάν η αγορά

Page 77: Nimertis_Pagouropoulos

71

παρουσιάζει κάποιου είδους συχνότητα τότε κάποιος θα την εκμεταλλευτεί και έτσι αυτή θα εξαφανιστεί. Με άλλα λόγια η εξέλιξη των τιμών σε κάθε μεταβλητή έχει και παρουσιάζει έναν random walk, τυχαίο περίπατο. Αυτό σημαίνει ότι οι διακυμάνσεις των τιμών είναι ανεξάρτητες των επόμενων βημάτων σε μεγάλες περιόδους. Σύμφωνα με αυτήν την θεωρία οι συμμετρίες / κανονικότητες επιδέχονται βελτιώσεις και ανασχεδιασμούς σε τακτά χρονικά διαστήματα. Τα οικονομικά δεδομένα είναι μη τυχαία (not random). Στην Efficient market theory το DM προσπαθεί να παρέχει εργαλεία που θα εξάγουν υποκανόνες σε μεγάλους αριθμούς δεδομένων. Fundamental and Τechnical analyses Οι δύο αυτές τεχνικές χρησιμοποιούνται ευρέως σε προβλέψεις οικονομικών μεγεθών [.9]. Μία Fundamental ανάλυση προσπαθεί να αναγνωρίσει και να καθορίσει όλες τις οικονομετρικές μεταβλητές που επηρεάζουν ένα δυναμικό σύστημα ή ένα δεδομένο επίπεδο για την τιμή μίας μετοχής. Αυτές μπορεί να περιλαμβάνουν παράγοντες όπως η ανεργία, έσοδα κ.α. Πολλές φορές συναντάμε όμως την δυσκολία για να αναγνωρίσουμε ποιες από αυτές είναι καταλληλότερες από τις άλλες. Η Technical ανάλυση (ΤΑ) υποθέτει ότι όταν το επίπεδο από μία οικονομική μεταβλητή είναι υψηλό όσον αφορά την τιμή της, όλες οι πληροφορίες που είναι απαραίτητες για την πρόβλεψη των μελλοντικών τιμών είναι και περιέχονται στην ίδια χρονοσειρά. Πιο συγκεκριμένα ο τεχνικός αναλυτής εξετάζει μεμονωμένα την αγορά όσον αφορά την financial security (τιμή, αριθμό συναλλαγών,τιμή ανοίγματος). Υπάρχουν όμως και εδώ αρκετά μειονεκτήματα όπως μη έγκυρες πληροφορίες και δεδομένα, οι χρονοσειρές είναι μη στατικές, πολλές τιμές από στατιστική σκοπιά όπως μέσοι, αποκλίσεις μπορεί να είναι άγνωστες. Ο αριθμός των εμπορικών παραδειγμάτων μπορεί να μην είναι ακριβής για την εξαγωγή κανόνων. Για το λόγο αυτό η Technical analysis είναι καλύτερη για να αναγνωρίζει τάσεις αγορών παρά να προβλέπει τιμές μετοχών.

Page 78: Nimertis_Pagouropoulos

72

Ενότητα ΄Β 3. Προκλήσεις που πηγάζουν από το χρηματοοικονομικό περιβάλλον Με το πέρασμα των χρόνων το παγκόσμιο χρηματοοικονομικό περιβάλλον μεταβάλλεται συνεχώς. Η μεταβολή αυτή πηγάζει από την εμφάνιση νέων χρηματοοικονομικών αγαθών και συνθηκών καθώς και από τις δυσκολίες (όσον αφορά τον κίνδυνο) οι οποίες εμφανίζονται στην προσπάθεια λήψης χρηματοοικονομικών αποφάσεων ειδικά σε επενδυτικά θέματα, καθώς οι δεύτερες έχουν πλέον μεγαλύτερη πολυπλοκότητα από παλιότερα με αποτέλεσμα να καθιστούν επιτακτική την υιοθέτηση νέων τεχνικών και μεθόδων για την αντιμετώπισή τους. Αυτές οι μέθοδοι προέρχονται κυρίως από τα πεδία της Τεχνητής Νοημοσύνης και των Μαθηματικών. Παρακάτω θα εστιάσουμε στο κατά πόσο η Τεχνητή Νοημοσύνη μέσω της Μηχανικής Μάθησης και των μεθόδων Data Mining (στην ελληνική ορολογία ο όρος αυτός αποδίδεται ως Εξόρυξη από Δεδομένα), έχει την δυνατότητα να αντιμετωπίσει ικανοποιητικά προβλήματα και προκλήσεις που πηγάζουν από το χρηματοοικονομικό περιβάλλον όπως: Η πτώχευση των επιχειρήσεων Πιστωτικός κίνδυνος επιχειρήσεων Διαχείριση και επιλογή χαρτοφυλακίου Μεταβλητότητα μετοχών Διαχείριση πιστώσεων Βιωσιμότητα επιχειρήσεων Στην κάθε περίπτωση από τα παραπάνω, αρχικά θα γίνεται μία περιγραφή του κάθε φαινομένου καθώς και των σημαντικότερων στοιχείων που το χαρακτηρίζουν. Έπειτα θα αναφέρονται οι σημαντικότεροι παράγοντες που λαμβάνονται υπόψη για την αντιμετώπιση του κάθε ζητήματος, μαζί με κάποια μέθοδο από διάφορα επιστημονικά πεδία (ανάλογα με τα στοιχεία που έχουν συλλεχθεί). Στην συνέχεια θα ακολουθεί η προσέγγιση του κάθε ζητήματος μέσα από τα πεδία της Μηχανικής Μάθησης και συγκεκριμένα της μεθόδου Data Mining.

Page 79: Nimertis_Pagouropoulos

73

3.1 Πτώχευση Η πτώχευση (failure) ορίζεται με ποικίλους τρόπους και υπάρχουν διαφορετικές ερμηνείες σχετικά με την πραγματική της έννοια. Πολλοί είναι εκείνοι που πιστεύουν πως στην περίπτωση που μία επιχείρηση η οικονομικός οργανισμός πτωχεύει ότι καταλήγει σε κατάρρευση και διάλυση. Κάτι τέτοιο όμως δεν συμβαίνει πάντα. Μπορούμε να υποστηρίξουμε πως υπάρχουν δύο τύποι διαχωρισμού για την πτώχευση . Η Οικονομική πτώχευση (Economic failure) και η Χρηματοοικονομική πτώχευση (Financial failure) [.2] [.7]. Όσον αφορά την Οικονομική πτώχευση, εννοούμε πως τα έσοδά μιας επιχείρησης δεν καλύπτουν το κόστος. Μπορεί ακόμα να σημαίνει πως τα κέρδη ενός οργανισμού ως ποσοστό του ιστορικού κόστους των επενδύσεων είναι μικρότερο από το κόστος των κεφαλαίων της. Τέλος μπορεί να σημαίνει ότι οι πραγματικές αποδόσεις υστερούν σε σχέση με τις αναμενόμενες. Στο σημείο αυτό πρέπει να επισημάνουμε πως από οικονομική σκοπιά δεν έχει επέλθει συμφωνία για τον οικονομικό ορισμό της πτώχευσης. Όπως αναφέραμε και προηγουμένως, υπάρχει και η έννοια της Χρηματοοικονομικής πτώχευσης σύμφωνα με την οποία μία επιχείρηση θεωρείται ότι έχει πτωχεύσει αν δεν μπορεί να αντιμετωπίσει τις τρέχουσες υποχρεώσεις της μόλις καταστούν αυτές απαιτητές, παρά το ότι τα συνολικά επενδυόμενα της κεφάλαια μπορεί να υπερβαίνουν τις συνολικές της υποχρεώσεις. Αυτό το φαινόμενο είναι γνωστό και ως τεχνική αδυναμία πληρωμών (technical insolvency). Ειδικότερα πάντως, μία επιχείρηση θεωρείται χρεοκοπημένη ή σε πτώχευση (bankrupt) όταν οι συνολικές της υποχρεώσεις υπερβαίνουν μια «λογική» (fair) αποτίμηση του ενεργητικού της (σε περίπτωση δηλαδή που η «πραγματική» καθαρή θέση της είναι αρνητική). Παρακάτω παρουσιάζονται οι βασικότεροι παράγοντες πτώχευσης [.7] : Αίτια πτωχεύσεων 1979 Ποσοστό του συνόλου Ανικανότητα διοίκησης 44,4 Έλλειψη διοικητικής πείρας 16,8 Μη ισόρροπη πείρα σε πωλήσεις παραγωγή κ.α 15,8 Έλλειψη πείρας στη συγκεκριμένη δραστηριότητα 14,9 Αμέλεια 1,1 Καταστροφή 0,6 Απάτη 0,6 Άγνωστα αίτια 5,6 Τα αποτελέσματα μεγάλου αριθμού μελετών σχετικά με τα αίτια της πτώχευσης ανέδειξαν κάποιες βασικές κατηγορίες όπως παρουσιάζονται παρακάτω [.7]:

Page 80: Nimertis_Pagouropoulos

74

Αίτια πτώχευσης Ποσοστό του συνόλου Ανικανότητα της διοίκησης 60 Δυσμενείς τάσεις στο συγκεκριμένο κλάδο 20 Καταστροφικά γεγονότα 10 Διάφορα 10 Στο σημείο αυτό πρέπει να αναφέρουμε ότι η πτώχευση σαν έννοια αποτελεί στην ουσία το αποτέλεσμα κάποιας χρηματοοικονομικής αποτυχίας όσον αφορά έναν οργανισμό ή και κάποια επιχείρηση, όπως η αθέτηση υποχρεώσεων προς τους πιστωτές, η έλλειψη ρευστότητας καθώς και περιπτώσεις υψηλού δανεισμού. Τα παραπάνω μπορούν να ωθήσουν στην πτώχευση. Τα αίτια μίας επιχειρηματικής αποτυχίας όπως είναι η πτώχευση αποτελούν μία ακολουθία λανθασμένων αποφάσεων τα οποία σε συνάρτηση με τις συνθήκες που επικρατούν στην αγορά σχετικά με τις πρώτες ύλες αλλά και την διάθεση των αγαθών, οδηγούν σε αποτυχία τον οικονομικό οργανισμό. Θέλοντας να καταστεί εφικτή μία πρόβλεψη σχετικά με τον κίνδυνο της πτώχευσης, συνήθως λαμβάνονται υπόψη οι χρηματοοικονομικές επιδόσεις των επιχειρήσεων σύμφωνα πάντα με τις χρηματοοικονομικές τους καταστάσεις. Τα διάφορα στοιχεία που ενδιαφέρουν αναλύονται βάσει κάποιων χρηματοοικονομικών δεικτών (θα πρέπει να τονίσουμε ότι παρά την χρησιμότητά τους, πολλές φορές υπάρχουν ενστάσεις ως προς το πόσο αποτελεσματικοί είναι). Επίσης μπορούν να χρησιμοποιηθούν και ποιοτικά δεδομένα σχετικά με την ποιότητα της διοίκησης των επιχειρήσεων, την οργάνωσή τους, τις τάσεις του κλάδου και άλλα πολλά. Παρακάτω παρουσιάζονται οι κυριότεροι χρηματοοικονομικοί δείκτες που χρησιμοποιούνται για την πρόβλεψη της πτώχευσης [.2]. Καθαρά κέρδη / Μικτά κέρδη Μικτά κέρδη / Σύνολο ενεργητικού Καθαρά κέρδη / Σύνολο ενεργητικού Καθαρά κέρδη / Ίδια κεφάλαια Κυκλοφορούν ενεργητικό / Βραχυπρόθεσμες υποχρεώσεις (Κυκλοφορούν ενεργητικό-Αποθέματα) / Βραχυπρόθεσμες υποχρεώσεις Σύνολο υποχρεώσεων / Σύνολο ενεργητικού Ίδια κεφάλαια / (Ίδια κεφάλαια + Μακροπρόθεσμες υποχρεώσεις)

Page 81: Nimertis_Pagouropoulos

75

Ίδια κεφάλαια / Πάγιο ενεργητικό Αποθέματα / Κεφάλαιο κίνησης Βραχυπρόθεσμες υποχρεώσεις / Σύνολο ενεργητικού Κεφάλαιο κίνησης / ίδια κεφάλαια Για την πρόβλεψη της πτώχευσης, εκτός από τους παραπάνω αριθμοδείκτες, λαμβάνεται υπόψη η πορεία της χρηματιστηριακής αξίας της μετοχής, η μελέτη λογιστικών μεγεθών που δίνουν χρησιμότατη πληροφόρηση σχετικά με μια επερχόμενη αποτυχία όπως: Πτώση στη σχέση παραγόμενων μετρητών (cash flow) και χρεών Πτώση στη σχέση παραγόμενων μετρητών και κυκλοφορούντος ενεργητικού Πτώση στο δείκτη ρευστότητας αποθεμάτων Πτώση στο ρυθμό είσπραξης των λογαριασμών των πελατών Αυξανόμενη βραδύτητα στην πληρωμή των πιστωτών Αμέσως με την εμφάνιση των πρώτων σημείων επερχόμενης οικονομικής κρίσης λαμβάνονται μέτρα αντιμετώπισης, τα οποία αποβλέπουν στη δημιουργία μετρητών για την συνέχιση της πληρωμής των όποιων ληξιπρόθεσμων υποχρεώσεων. Τα μέτρα αυτά είναι τα ακόλουθα: Ειδικές πωλήσεις αποθεμάτων Πώληση ενεργητικών μη απαραίτητων στην παραγωγική διαδικασία Μείωση δαπανών αμοιβής εργασίας σε οποιοδήποτε επίπεδο είναι δυνατόν Εισροή κεφαλαίων από ιδιοκτήτες, συνεργάτες ή ειδικές πηγές Πώληση παραγωγικών μέσων και ενοικίαση των απαιτούμενων Αντικατάσταση βραχυπρόθεσμου χρέους με άλλο μακρότερης διάρκειας Σε περίπτωση που παρά τις όποιες προσπάθειες, η ανικανότητα πληρωμής ληξιπρόθεσμων υποχρεώσεων είναι πραγματικότητα, η διοίκηση μπορεί να υιοθετήσει κάποια μέτρα με την σύμφωνη γνώμη των πιστωτών της ώστε να αντιμετωπιστεί η κρίση. Αυτά είναι η παράταση λήξης χρέους, η ανασύνθεση χρέους και η αναδιοργάνωση. Η αντιμετώπιση αυτού του είδους, δηλαδή ιδιοκτήτες και πιστωτές μαζί, είναι πιθανόν να αποφέρει καλύτερα αποτελέσματα από την

Page 82: Nimertis_Pagouropoulos

76

ρευστοποίηση καθώς αποφεύγονται τα δικαστικά έξοδα και ακόμη, από κοινωνική πλευρά καθώς και από πλευρά πιστωτών, η τυχόν ανάκαμψη του οικονομικού οργανισμού είναι προτιμότερη από τη διάλυση. Τελειώνοντας θα κάνουμε μία αναφορά στο κεφάλαιο κίνησης (working capital) καθώς η μελέτη αυτού του στοιχείου είναι πολύ σημαντική για τον κάθε ερευνητή και αναλυτή, καθώς έχει στενή σχέση με τις τρέχουσες λειτουργικές ανάγκες της επιχείρησης. Ανεπάρκεια και κακή διαχείριση του κεφαλαίου κινήσεως οδηγεί πολλές φορές σε πτώχευση. Υπάρχουν δύο ορισμοί σχετικά με το κεφάλαιο κίνησης και θα τους αναφέρουμε στην συνέχεια [.6]. Ο πρώτος αναφέρεται στο Καθαρό κεφάλαιο κίνησης. Σύμφωνα με αυτόν, το καθαρό κεφάλαιο κίνησης είναι το πλεόνασμα των κυκλοφοριακών στοιχείων μιας επιχείρησης σε σχέση με τις τρέχουσες ή βραχυχρόνιες υποχρεώσεις της και αποτελείται από τα κυκλοφοριακά στοιχεία που παρέχονται στην επιχείρηση από τους φορείς της και τους μακροχρόνιους πιστωτές της. Δηλαδή, αντιπροσωπεύει το ποσό των κυκλοφοριακών στοιχείων (κυκλοφορούν + διαθέσιμο) που δεν έχει προσφερθεί από τους βραχυχρόνιους πιστωτές της επιχειρήσεως. Ο δεύτερος ορισμός αναφέρεται στο συνολικό ή μικτό κεφάλαιο κινήσεως, όπου το κεφάλαιο κινήσεως είναι ίσο με το σύνολο των κυκλοφοριακών στοιχείων της επιχείρησης (κυκλοφορούν + διαθέσιμο). Σύμφωνα με τον ορισμό αυτό το κεφάλαιο κινήσεως μίας επιχείρησης είναι το σύνολο κυκλοφοριακών στοιχείων του ισολογισμού της. Οι παράγοντες που προσδιορίζουν το κεφάλαιο κίνησης είναι οι εξής [.6]: Το είδος και η φύση των εργασιών της επιχείρησης Η παραγωγική διαδικασία Η επέκταση του κύκλου εργασιών Η ταχύτητα εισπράξεως απαιτήσεων Η ταχύτητα κυκλοφορίας αποθεμάτων Ο βαθμός εποχικότητας Οι συνθήκες ανταγωνισμού Ο βαθμός κινδύνου της αξίας των κυκλοφοριακών στοιχείων Ο επιχειρηματικός κύκλος Ο πληθωρισμός Η μερισματική πολιτική

Page 83: Nimertis_Pagouropoulos

77

Το κεφάλαιο κινήσεως αποτελείται από δύο τμήματα: το μόνιμο το οποίο ισούται με το ελάχιστο ύψος κυκλοφοριακών στοιχείων που χρειάζεται μια επιχείρηση για να λειτουργήσει και το προσωρινό ή μεταβλητό που τοποθετείται σε ρευστά, απαιτήσεις και αποθέματα και του οποίου το ύψος εξαρτάται από τη φύση και τις λειτουργικές ανάγκες της επιχείρησης. Το μεγαλύτερο μέρος του μονίμου κεφαλαίου κινήσεως θα πρέπει κανονικά να προέρχεται από τους μετόχους ή τους φορείς της επιχειρήσεως με έκδοση μετοχών και από την παρακράτηση κερδών με την μορφή αποθεματικών. Όσο μεγαλύτερο είναι το ύψος του κεφαλαίου κίνησης, τόσο πιο ευνοϊκή είναι η πιστοληπτική ικανότητα της επιχείρησης. Σε τέτοιες περιπτώσεις η επιχείρηση είναι σε πλεονεκτική θέση και μπορεί να δανείζεται ευκολότερα για την κάλυψη των αναγκών της σε προσωρινά κεφάλαια κινήσεως. Πηγές μονίμου κεφαλαίου κινήσεως αποτελούν πολλές φορές η έκδοση από την επιχείρηση μακροχρόνιων ομολογιακών δανείων, καθώς και ο μακροπρόθεσμος δανεισμός. Το προσωρινό ή μεταβλητό τμήμα του κεφαλαίου κινήσεως προέρχεται συνήθως από τις βραχυπρόθεσμες πιστώσεις και τον βραχυχρόνιο τραπεζικό δανεισμό. Στην συνέχεια αναφέρονται οι κυριότερες πηγές κεφαλαίου κινήσεως [.6]: Οι πωλήσεις και τα διάφορα άλλα έσοδα που προέρχονται από τη δραστηριότητα της επιχειρήσεως και τα οποία αυξάνουν τα ρευστά της διαθέσιμα, ή τις απαιτήσεις της, ή και τα δύο. Τα κέρδη κεφαλαίου από την πώληση χρεογράφων Οι πωλήσεις παγίων περιουσιακών στοιχείων ή άλλων προσωρινών επενδύσεων Η αύξηση κεφαλαίου με έκδοση νέων μετοχών και η προσφυγή στο μακροχρόνιο δανεισμό με έκδοση τίτλων ομολογιακών δανείων Οι βραχυχρόνιες Τραπεζικές Πιστώσεις Οι παρεχόμενες πιστώσεις από τους προμηθευτές 3.2 Πιστωτικός κίνδυνος επιχειρήσεων Ως πιστωτικός κίνδυνος μίας επιχείρησης αναφέρεται ο κίνδυνος που προκύπτει από την ανεπαρκή ανταπόκριση της επιχείρησης προς την εκπλήρωση των υποχρεώσεών της προς τους πιστωτές της [.2]. Η ανεπαρκής αυτή ανταπόκριση της επιχείρησης αναφέρεται στην καθυστερημένη αποπληρωμή των υποχρεώσεών της καθώς επίσης και σε περιπτώσεις όπου αποφεύγεται η αποπληρωμή τους. Κάθε μία από τις περιπτώσεις αυτές μπορεί να οφείλεται είτε στην αδυναμία της επιχείρησης να αντεπεξέλθει και να καλύψει τις υποχρεώσεις τις (όπως είναι η πτώχευση), ή στην ηθελημένη αποφυγή αντιμετώπισης των υποχρεώσεων που έχει ο οργανισμός. Για

Page 84: Nimertis_Pagouropoulos

78

την λήψη κάποιας απόφασης η οποία σχετίζεται με την δανειοδότηση επιχειρήσεων λαμβάνονται υπόψη τα παρακάτω δύο στοιχεία: Η πιθανές ζημιές που είναι πιθανόν να προκύψουν από την έγκριση της χρηματοδότησης μίας επιχείρησης, η οποία τελικά δεν ανταποκρίνεται στις υποχρεώσεις που της δημιουργεί η χρηματοδότηση (default risk) Το πιθανό κέρδος που προέρχεται από την χρηματοδότηση μιας επιχείρησης, η οποία ανταποκρίνεται με συνέπεια στις υποχρεώσεις της. Ανάλογα λοιπόν με το βαθμό παραχωρήσεων που θα υπάρξει ανάμεσα στα δύο παραπάνω στοιχεία θα καθοριστεί το ύψος της δανειοδότησης που θα χορηγηθεί τελικά στην επιχείρηση. Όπως τονίζουν οι Srinivasan και Kim (1987), το πρόβλημα της εκτίμησης του πιστωτικού κινδύνου και η λήψη αποφάσεων σχετικά με την χρηματοδότηση των επιχειρήσεων, παρουσιάζει μεγάλη πολυπλοκότητα που αποτυπώνεται στην διαδικασία τριών σταδίων έτσι ώστε να αντιμετωπιστεί όσο το δυνατόν καλύτερα το πρόβλημα. Αυτά τα στάδια είναι τα ακόλουθα [.2]: Στάδιο πρώτο: Εκτίμηση της παρούσας αξίας των ωφελειών και των ζημιών από την έγκριση της χρηματοδότησης, για κάθε περίοδο που αυτή αφορά βάσει του πιστωτικού παρελθόντος της χρηματοδοτούμενης επιχείρησης Στάδιο δεύτερο: Συνδυασμός της εκτιμώμενης παρούσας αξίας των ωφελειών και των ζημιών από την έγκριση της χρηματοδότησης με τις αντίστοιχες πιθανότητες αποπληρωμής ή όχι της χρηματοδότησης, ώστε να υπολογιστεί η αναμενόμενη καθαρή παρούσα αξία, η οποία προκύπτει από την έγκριση της χρηματοδότησης. Στάδιο τρίτο: Εάν η αναμενόμενη καθαρή παρούσα αξία είναι θετική, τότε εγκρίνεται η χρηματοδότηση, διαφορετικά απορρίπτεται. Στην συνέχεια παραθέτονται οι χρηματοοικονομικοί δείκτες οι οποίοι χρησιμοποιούνται για την εκτίμηση του πιστωτικού κινδύνου επιχειρήσεων [.2]. Κέρδη προ τόκων και φόρων / Σύνολο ενεργητικού Καθαρά κέρδη / Ίδια κεφάλαια Καθαρά κέρδη / Πωλήσεις Ίδια κεφάλαια / Σύνολο υποχρεώσεων Σύνολο υποχρεώσεων / Σύνολο ενεργητικού Κυκλοφορούν ενεργητικό / Βραχυπρόθεσμες υποχρεώσεις (Κυκλοφορούν ενεργητικό-Αποθέματα) / Βραχυπρόθεσμες υποχρεώσεις Διαθέσιμα / Βραχυπρόθεσμες υποχρεώσεις

Page 85: Nimertis_Pagouropoulos

79

Μερίσματα / Περιθώριο αυτοχρηματοδότησης Κεφάλαιο κίνησης / Σύνολο ενεργητικού Χρηματοοικονομικά έξοδα / Πωλήσεις Βραχυπρόθεσμες υποχρεώσεις / Αποθέματα 3.3. Διαχείριση και επιλογή χαρτοφυλακίου Ίσως μία από τις σημαντικότερες προκλήσεις της χρηματοοικονομικής θεωρίας είναι το πρόβλημα της επιλογής και διαχείρισης χαρτοφυλακίων. Αυτή η πρόκληση έγκειται στην σύνθεση ενός χαρτοφυλακίου χρεογράφων (μετοχές, ομόλογα, έντοκα γραμμάτια, αμοιβαία κεφάλαια, repos και άλλα διάφορα χρηματοοικονομικά αγαθά), με σκοπό και στόχο την μεγιστοποίηση της χρησιμότητας του επενδυτή. Ένα χαρτοφυλάκιο είναι μία συλλογή επενδυτικών μέσων συνδυασμένων για να ανταποκριθούν σε έναν κοινό επενδυτικό στόχο [.11]. Ο βασικός και πρωταρχικός στόχος ενός χαρτοφυλακίου με προσανατολισμό την ανάπτυξη είναι η μακροπρόθεσμη ανατίμησή του. Ένα χαρτοφυλάκιο με προσανατολισμό στο εισόδημα δίνει έμφαση στα τρέχοντα μερίσματα και τις αποδόσεις τόκου. Για την σύνθεση ενός χαρτοφυλακίου υπάρχουν δύο στάδια: Πρώτο στάδιο: ο επενδυτής πρέπει να αξιολογήσει τα διαθέσιμα χρεόγραφα και να επικεντρώσει το ενδιαφέρον του σε έναν περιορισμένο αριθμό αυτών, τα οποία θα διαθέτουν τις καλύτερες επενδυτικές προοπτικές. Το στάδιο αυτό είναι απαραίτητο, ιδιαίτερα σε περίπτωση όπου έχουμε μετοχές. Ο τεράστιος αριθμός μετοχών που διαπραγματεύονται στις χρηματιστηριακές αγορές, καθιστά προφανώς πολύ δύσκολη τη σύνθεση ενός χαρτοφυλακίου διερευνώντας ταυτόχρονα τις εκατοντάδες ή και χιλιάδες μετοχές που είναι διαθέσιμες ως επενδυτικές επιλογές Δεύτερο στάδιο: ο επενδυτής έχοντας εντοπίσει έναν περιορισμένο κατάλληλο αριθμό χρεογράφων, πρέπει να αποφασίσει για το πως θα κατανείμει το κεφάλαιό του σε αυτά τα χρεόγραφα ώστε να συνθέσει το βέλτιστο χαρτοφυλάκιο το οποίο θα του προσφέρει τις μέγιστες αποδόσεις με τον ελάχιστο κίνδυνο. Η επιλογή και διαχείριση χαρτοφυλακίου έχει σαν στόχο την μεγιστοποίηση της «χρησιμότητας» του επενδυτή, πράμα που επιτυγχάνεται με την μεγιστοποίηση της αναμενόμενης απόδοσης του χαρτοφυλακίου και την ελαχιστοποίηση του κινδύνου. Ο κίνδυνος αυτός ορίζεται σε σχέση με την πιθανή μεταβλητότητα των μελλοντικών αποδόσεων του στοιχείου αυτού, όπως η τιμή μίας μετοχής. Στο σημείο αυτό παραθέτουμε τους κυριότερους χρηματιστηριακούς και χρηματοοικονομικούς δείκτες για την επιλογή και διαχείριση χαρτοφυλακίων [.2]:

Page 86: Nimertis_Pagouropoulos

80

Μικτή λογιστική αξία μετοχής (Σύνολο ενεργητικού / Αριθμός των υπό διαπραγμάτευση μετοχών) Δείκτης κεφαλαιοποίησης (1 / (Τιμή/Κέρδη ανά μετοχή)) Χρηματιστηριακή αξία (Αριθμός των υπό διαπραγμάτευση μετοχών x Χρηματιστηριακή τιμή) Εμπορευσιμότητα (Όγκος συναλλαγών / Αριθμός των υπό διαπραγμάτευση μετοχών) Ετήσια ποσοστιαία μεταβολή λογιστικής αξίας Μερισματική απόδοση Ετήσια κεφαλαιακή απόδοση Μέσος αριθμός ημερών διαπραγμάτευσης (Πλήθος ημερών κατά τις οποίες πραγματοποιήθηκαν συναλλαγές της μετοχής / Πλήθος ημερών κατά τις οποίες λειτούργησε το ΧΑΑ) Μέσος αριθμός διακινούμενων μονάδων διαπραγμάτευσης (Ετήσιος όγκος συναλλαγών της μετοχής) / [(Πλήθος ημερών κατά τις οποίες λειτούργησε το ΧΑΑ) x (Ελάχιστη μονάδα διαπραγμάτευσης της μετοχής)] Μέση ημερήσια αξία συναλλαγών Τιμή / Κέρδη ανά μετοχή (P/E) Ίδια κεφάλαια / Σύνολο ενεργητικού Κυκλοφορούν ενεργητικό / Σύνολο υποχρεώσεων Ίδια κεφάλαια / Σύνολο υποχρεώσεων Καθαρά κέρδη / Ίδια κεφάλαια Θέματα γύρω από τις μετοχές Στο σημείο αυτό θα εστιάσουμε γύρω από την έννοια της μετοχής και τα χαρακτηριστικά που την διέπουν σαν όρο στο χρηματοοικονομικό περιβάλλον. Η μετοχή (stock) αποτελεί ένα χρεόγραφο [.10]. Τα χρεόγραφα είναι επενδύσεις που αποτελούν απόδειξη χρέους ή ιδιοκτησίας (επιχειρήσεως ή άλλων περιουσιακών στοιχείων) ή του νομικού δικαιώματος στην απόκτηση ή πώληση μεριδίου ιδιοκτησίας (σε επιχείρηση ή άλλα περιουσιακά στοιχεία). Οι μετοχές δεν αποτελούν το μοναδικό χρεόγραφο, καθώς χρεόγραφα είναι οι ομολογίες και οι συμφωνίες αγοροπωλησίας. Εμείς θα ασχοληθούμε εδώ μόνο με τις μετοχές καθώς θα

Page 87: Nimertis_Pagouropoulos

81

εφαρμόσουμε κάποιες τεχνικές εξόρυξης δεδομένων πάνω σε στοιχεία που αφορούν μετοχές. Οι μετοχές κατηγοριοποιούνται ως εξής: Κοινές μετοχές, που αντιπροσωπεύουν μία επένδυση σε μετοχές ανωνύμων εταιριών που αντιπροσωπεύουν την ιδιοκτησία σε κάποιο νομικό πρόσωπο. Κάθε τεμάχιο μίας κοινής μετοχής αντιπροσωπεύει τόκο κλασματικής ιδιοκτησίας στην εταιρεία. Προς κατανόηση σκεφτείτε μια κοινή μετοχή σε ένα νομικό πρόσωπο που έχει στην διάθεσή του 10000 μετοχές, αποτελεί τόκο ιδιοκτησίας 1/10000. όσον αφορά την απόδοση μιας μετοχής, θα πρέπει να επισημάνουμε πως προέρχεται από δύο πηγές. Η μία πηγή είναι η απολαβή μερισμάτων, περιοδικών δηλαδή πληρωμών από την εταιρεία στους μετόχους από τα τρέχοντα και προηγούμενα κέρδη. Η δεύτερη πηγή απόδοσης είναι τα κεφαλαιουχικά κέρδη, που προέρχονται από την πώληση μετοχών σε τιμή υψηλότερη από την αρχική. Προνομιούχες μετοχές, οι οποίες και αυτές αντιπροσωπεύουν τόκο ιδιοκτησίας σε νομικά πρόσωπα. Αντίθετα με τις κοινές μετοχές, οι προνομιούχες μετοχές έχουν καθορισμένη τιμή μερισμάτων, η πληρωμή των οποίων προηγείται της πληρωμής των μερισμάτων των κοινών μετοχών της ίδιας εταιρείας. Αξίζει να σημειωθεί πως οι προνομιούχες μετοχές δεν έχουν ημερομηνία λήξης. Οι επενδυτές συνήθως τις αγοράζουν για τα μερίσματα που αποδίδουν, αλλά και τα κεφαλαιουχικά κέρδη που πιθανόν να προκύψουν. Γενικά οι επενδυτές έλκονται από τις προνομιούχες μετοχές λόγο του τρέχοντος εισοδήματος που παρέχουν. Επίσης ένα τέτοιο εισόδημα από μερίσματα είναι εύκολο στο να προβλεφτεί. Ακόμη παρέχουν ασφάλεια καθώς οι υψηλού επιπέδου μετοχές έχουν εξαίρετο ιστορικό ανταπόκρισης στις πληρωμές μερισμάτων με άμεσο και έγκαιρο τρόπο. Επίσης έχουν μικρό κόστος ανά μονάδα, με αποτέλεσμα να δίνεται η δυνατότητα και σε μικρούς επενδυτές να συμμετέχουν ενεργά στις προνομιούχες μετοχές. Βέβαια, οι προνομιούχες μετοχές χαρακτηρίζονται και από κάποια μειονεκτήματα όπως η ευπάθειά τους σε πληθωρισμό και υψηλά επιτόκια. Επίσης μερικές φορές τα προνομιούχα μερίσματα μπορεί να ανασταλούν ή να διακοπούν εάν μειωθούν τα έσοδα του εταιρικού εκδότη. Τα κέρδη επίσης, (κεφαλαιουχικά), δεν είναι τόσο ικανοποιητικά. Στο σημείο αυτό θα αναφερθούμε στον υπολογισμό της απόδοσης ενός χαρτοφυλακίου. Η απόδοση ενός χαρτοφυλακίου υπολογίζεται σαν μέσος όρος των αποδόσεων επί των διαφορετικών τύπων ενεργητικού (επενδυτικά μέσα) από τα οποία σχηματίζεται. Η απόδοση του χαρτοφυλακίου, rp, μπορεί να βρεθεί με τον υπολογισμό της παρακάτω εξίσωσης:

Page 88: Nimertis_Pagouropoulos

82

Απόδοση χαρτοφυλακίου = (ποσοστό της συνολικής αξίας του χαρτοφυλακίου σε δολάρια όπως αντιπροσωπεύεται από το ενεργητικό 1 × απόδοση ενεργητικού 1) + (ποσοστό της συνολικής αξίας του χαρτοφυλακίου σε δολάρια όπως αντιπροσωπεύεται από το ενεργητικό 2 × απόδοση ενεργητικού 2) + ………………………………………………………….. + (ποσοστό της συνολικής αξίας του χαρτοφυλακίου σε δολάρια όπως αντιπροσωπεύεται από το ενεργητικό n × απόδοση ενεργητικού n) =

1

n

j =∑ (ποσοστό της συνολικής αξίας του χαρτοφυλακίου σε δολάρια όπως

αντιπροσωπεύεται από το ενεργητικό j × απόδοση ενεργητικού j)

Εξίσωση Α : rp=(w1 × r1) + (w2 + r2) +….+ (wn × rn) = 1( )

n

j jj

w r=

×∑ όπου

1

1n

jιω

=

=∑

Θα πρέπει να τονίσουμε ότι σε αυτόν τον υπολογισμό θα πρέπει να συμπεριληφθεί το 100% του ενεργητικού του χαρτοφυλακίου. Η τυπική απόκλιση της απόδοσης του χαρτοφυλακίου υπολογίζεται από τον παρακάτω τύπο:

2

1

( )

1

n

ii

r rs

n=

−=

Ας υποθέσουμε ότι θέλουμε να καθορίσουμε την απόδοση και την τυπική απόκλιση τετραγώνου των αποδόσεων για το χαρτοφυλάκιο ΧΥ, που δημιουργήθηκε με τον συνδυασμό ίσων ποσοστών (50%) των στοιχείων ενεργητικού Χ και Υ. Οι αναμενόμενες αποδόσεις των Χ και Υ για κάθε ένα από τα επόμενα 5 έτη δίνονται (1997-2001) δίνονται στις στήλες 1και 2 αντίστοιχα στο Μέρος Α του πίνακα που ακολουθεί. Στις στήλες 3 και 4 τα ποσοστά (50%) των Χ και Υ μαζί με τις αντίστοιχες αποδόσεις από τις στήλες 1 και 2, αντικαθιστώνται στην εξίσωση Α για

Page 89: Nimertis_Pagouropoulos

83

την λήψη μια προσδοκόμενης απόδοσης χαρτοφυλακίου 12% για κάθε έτος από το 1997 μέχρι το 2001. Επιπλέον, όπως φαίνεται στο Μέρος Β του πίνακα, η μέση αναμενόμενη απόδοση rp, κατά την διάρκεια της πενταετούς περιόδου είναι επίσης 12%. Αντικαθιστώντας στην εξίσωση της τυπικής απόκλισης, η τυπική απόκλιση του χαρτοφυλακίου ΧΥ, sp του 0% υπολογίζεται στο Μέρος Γ του πίνακα. Αυτή η αξία δε θα έπρεπε να προκαλέσει έκπληξη, επειδή η αναμενόμενη απόδοση κάθε έτους είναι η ίδια –12%. Επομένως δεν παρουσιάζεται απόκλιση στις αναμενόμενες αποδόσεις από έτος σε έτος όπως φαίνεται στην Στήλη 4 του Μέρους Α του πίνακα. Παρακάτω παρατίθεται ο πίνακας με τα στοιχεία του παραδείγματος: (Πίνακας)

Page 90: Nimertis_Pagouropoulos

84

3.4. Μεταβλητότητα Με τον όρο μεταβλητότητα αναφερόμαστε στην αβεβαιότητα που χαρακτηρίζει την λήψη αποφάσεων σε θέματα επενδυτικών θεμάτων, διαχείρισης κινδύνου όσον αφορά την αξιολόγησή του, τιμολόγησης χρηματοοικονομικών προϊόντων και την χάραξη νομισματικής πολιτικής καθώς η μεταβλητότητα στις αγορές επηρεάζει σημαντικά την επενδυτική ψυχολογία και επομένως την ευρύτερη οικονομία. Ο όρος μεταβλητότητα στο πεδίο των χρηματοοικονομικών, συχνά αναφέρεται στην τυπική απόκλιση, σ, ή στη διακύμανση, σ2 , η οποία υπολογίζεται από τον παρακάτω τύπο:

1( )

1tt

R RN

σΝ

=−

=−

Η διακύμανση αποτελεί καλό μέτρο διασποράς, αλλά παρουσιάζει το μειονέκτημα ότι η αριθμητική της τιμή ερμηνεύεται δύσκολα [.5]. Για τον λόγο αυτό συχνά υπολογίζουμε την τετραγωνική ρίζα της διακύμανσης δηλαδή την τυπική απόκλιση (standard deviation) που συμβολίζεται με σ και δίνεται από τον τύπο:

1( )

1tt

R RN

σΝ

=−

=−

Θα πρέπει να τονίσουμε ότι έχει παρατηρηθεί πως αυξάνεται η ακρίβεια της πρόβλεψης της μεταβλητότητας, αν στον παραπάνω τύπο υπολογίζουμε τις τυπικές αποκλίσεις των παρατηρήσεων όχι από την μέση τιμή του δείγματος (η οποία πολλές φορές, ειδικά για μικρά δείγματα, είναι ανακριβής πρόβλεψη της πραγματικής μέσης τιμής), αλλά από το μηδέν (Figlewski (1997)). Επίσης η τυπική απόκλιση είναι μία παράμετρος που έχει νόημα να χρησιμοποιείται ως μέσο μέτρησης του κινδύνου, μόνο όταν αναφέρεται σε κάποια συγκεκριμένη κατανομή. Για να είμαστε περισσότερο σαφείς, αποτελεί σωστό δείκτη διασποράς μόνο για την κανονική κατανομή (και κάποιες άλλες κατανομές αλλά όχι για όλες). Τελειώνοντας, ο κίνδυνος, έχει να κάνει μόνο με αρνητικές ή μικρές αποδόσεις, ενώ οι δείκτες διασποράς συνήθως δεν κάνουν διακρίσεις ανάμεσα σε αρνητικές ή θετικές αποκλίσεις. Παρακάτω θα αναφερθούμε σε κάποιες ιδιότητες της μεταβλητότητας. Συσσώρευση της μεταβλητότητας (Volatility clustering): Υπάρχουν περίοδοι κατά τις οποίες η μεταβλητότητα είναι παρατεταμένα υψηλή, ενώ άλλες κατά τις οποίες είναι παρατεταμένα χαμηλή Αντιστροφή προς τη μέση μεταβλητότητα (Mean reversion): Οι περίοδοι υψηλής ή χαμηλής μεταβλητότητας τείνουν να ακολουθούνται από περιόδους αντιστροφής προς τη μέση/ κανονική μεταβλητότητα

Page 91: Nimertis_Pagouropoulos

85

Ασυμμετρία της μεταβλητότητας (Asymmetry): Μια αρνητική μεταβολή των αποδόσεων προκαλεί μεγαλύτερη μεταβλητότητα από ότι μια ισόποση θετική μεταβολή Ισχυρή μνήμη της μεταβλητότητας (Long memory property): Ισχυρά σοκ τείνουν να έχουν επίδραση στη μεταβλητότητα για ιδιαίτερα μακρύ χρονικό διάστημα Συνδιακυμάνσεις της μεταβλητότητας των διαφόρων αξιών και χρηματοοικονομικών αγορών, καθώς η συσχέτιση μεταξύ μεταβλητότητας έχει αποδειχτεί πιο ισχυρή από τη συσχέτιση μεταξύ αποδόσεων και επιπλέον τείνει να αυξάνεται σε περιόδους πτωτικών αγορών. Η τεκμαρτή μεταβλητότητα έχει μια ασύμμετρη κατανομή στις διάφορες τιμές εξάσκησης και στις αγορές μετοχών. Ακόμη μεταβλητότητα αυξάνει καθώς οι τιμές των μετοχών πέφτουν και μειώνεται καθώς ανεβαίνουν (αυτό το γεγονός αποκαλείται φαινόμενο μόχλευσης) Επιπλέον έχει παρατηρηθεί ότι οι προβλέψεις της μεταβλητότητας εξαρτώνται από το τρέχον επίπεδο της μεταβλητότητας, την δομή της μεταβλητότητας (π.χ το βαθμό επιμονής και αντιστροφής προς τη μέση τιμή) και τον χρονικό ορίζοντα της πρόβλεψης. Στο σημείο αυτό παραθέτουμε ένα αριθμητικό παράδειγμα: Έστω ότι εξετάζουμε δύο ανταγωνιζόμενες επενδύσεις, Α και Β, με αποδόσεις όπως αυτές του πίνακα παρακάτω. Οι δύο επενδύσεις έχουν κερδίσει μέση απόδοση 15% σε μία εξαετή περίοδο. Παρατηρώντας τις αποδόσεις βλέπουμε πως αυτές της επένδυσης Β διαφέρουν κατά πολύ από τον μέσο όρο, από ότι οι αποδόσεις της επένδυσης Α. Έτος Επένδυση Α Επένδυση Β 1991 15,6% 8,4% 1992 12,7 12,9 1993 15,3 19,6 1994 16,2 17,5 1995 16,5 10,3 1996 13,7 21,3 Μέσος όρος 15,0% 15,0% Η μέση απόκλιση τετραγώνου, τυπική απόκλιση, αποτελεί ένα εργαλείο για την χρήση και εκτίμηση του επενδυτικού κινδύνου. Στον πίνακα που ακολουθεί θα υπολογίσουμε τις τυπικές αποκλίσεις των επενδύσεων Α και Β, και θα δούμε ποια επένδυση εμπεριέχει μεγαλύτερο κίνδυνο [.10].

Page 92: Nimertis_Pagouropoulos

86

Επένδυση Α

Έτος Απόδοση R Μέση απόδοση R R R− ( )2R R−

1991 15,6% 15,0% 6% 0,36% 1992 12,7 15,0 -2,3 5,29 1993 15,3 15,0 3 0,09 1994 16,2 15,0 1,2 1,44 1995 16,5 15,0 1,5 2,25 1996 13,7 15,0 -1,3 1,69 11,12

26

1( ) 11,12 1, 49%

1 6 1i

A

R RS

N=

−= = =

− −∑

Επένδυση B

Έτος Απόδοση R Μέση απόδοση R R R− ( )2R R−

1991 8,4% 15,0% -6,6% 43,56% 1992 12,9 15,0 -2,1 4,41 1993 19,6 15,0 4,6 21,16 1994 17,5 15,0 2,5 6,25 1995 10,3 15,0 -4,7 22,09 1996 21,3 15,0 6,3 39,69 137,16

26

1( ) 137,16 5,24%

1 6 1i

A

R RS

N=

−= = =

− −∑

Page 93: Nimertis_Pagouropoulos

87

Παρατηρούμε ότι η μέση απόκλιση τετραγώνου για την Α, είναι πολύ χαμηλότερη από την αντίστοιχη της επένδυσης Β. Η μεγαλύτερη απόλυτη διασπορά της απόδοσης της επένδυσης Β, όπως αντανακλάται με τη μεγαλύτερη της μέση απόκλιση τετραγώνου, δείχνει πως έχει μεγαλύτερο κίνδυνο ως επένδυση. Αυτά βέβαια σε ότι αφορά τα ιστορικά στοιχεία τα οποία έχουμε. 3.5. Διαχείριση πιστώσεων (εμπορικές πιστώσεις) Μια από τις πιο σημαντικές πηγές εξωτερικής χρηματοδότησης αποτελεί το συνηθισμένο χρονικό διάστημα που μεσολαβεί μεταξύ της παραλαβής των αγαθών και της εξόφλησής τους. Για τον μεν πωλητή των αγαθών αυτό συνεπάγεται τη δημιουργία ενός εισπρακτέου λογαριασμού, ενώ για τον αγοραστή των αγαθών τη δημιουργία ενός πληρωτέου λογαριασμού. Αυτό το φαινόμενο, που ονομάζεται εμπορικές πιστώσεις (trade credit), αποτελεί για την πλευρά των αγοραστών των αγαθών πηγή χρηματοδότησης, ενώ από την πλευρά των πωλητών μία επένδυση σε χρηματοδότηση (αντιπροσωπεύει μία χρήση κεφαλαίων) [.7]. Το ύψος των εισπρακτέων λογαριασμών καθορίζεται από τον όγκο των πωλήσεων με πίστωση και από το μέσο χρονικό διάστημα που μεσολαβεί μεταξύ της πραγματοποίησης των πωλήσεων και της είσπραξής τους. Η μέση περίοδος είσπραξης εξαρτάται κατά ένα μέρος από διάφορες οικονομικές συνθήκες, και επίσης από μια ομάδα ελεγχόμενων παραγόντων που καλούνται μεταβλητές πιστωτικής πολιτικής (credit policy variables). Αυτές είναι : Τα πιστωτικά πρότυπα, όπως ο μέγιστος κίνδυνος αποδεκτών πιστωτικών λογαριασμών Η χρονική διάρκεια της πίστωσης, δηλαδή το χρονικό διάστημα για το οποίο χορηγείται η πίστωση Οι εκπτώσεις που δίνονται σε περίπτωση πρόωρης εξόφλησης Η πολιτική που ακολουθεί η επιχείρηση για θέματα εισπράξεων Συνήθως, για να προβούμε σε μία εκτίμηση όσον αφορά τον πιστωτικό κίνδυνο λαμβάνουμε υπόψη κάποιους παράγοντες όπως το χαρακτήρα, την ικανότητα πληρωμής, τα κεφάλαια, το ενέχυρο και τις συνθήκες. Ο χαρακτήρας αναφέρεται στην πιθανότητα ένας πελάτης να προσπαθήσει να σεβαστεί τις υποχρεώσεις του. Αυτός ο παράγοντας έχει σημασία από την στιγμή που κάθε πιστωτική συναλλαγή

Page 94: Nimertis_Pagouropoulos

88

προϋποθέτει μία υπόσχεση πληρωμής. Έχουμε δηλαδή να κάνουμε με το ηθικό μέρος της συναλλαγής, το οποίο θεωρείται και από τα πιο σημαντικά σύμφωνα με τους ειδικούς. Όσον αφορά την ικανότητα, αυτή αποτελεί μια υποκειμενική κρίση της ικανότητας του πελάτη να ξοφλήσει το λογαριασμό του. Η κρίση αυτή βασίζεται στις επιχειρηματικές επιδόσεις του πελάτη στο παρελθόν, που συμπληρώνονται με επιτόπια παρατήρηση των μεθόδων παραγωγής ή των εμπορικών και επιχειρηματικών μεθόδων του. Συνεχίζοντας, τα κεφάλαια μετρούνται από τη γενική οικονομική κατάσταση της επιχείρησης, όπως εμφανίζεται μέσα από την ανάλυση των αριθμοδεικτών, με ιδιαίτερη έμφαση στην υλική καθαρή θέση της επιχείρησης. Το ενέχυρο από την μεριά του, αντιπροσωπεύεται από τα περιουσιακά στοιχεία που προσφέρει ο πελάτης ως εξασφάλιση της πίστωσης που του χορηγείται. Τελειώνοντας, οι συνθήκες αναφέρονται στις επιπτώσεις που έχουν στην επιχείρηση οι γενικές οικονομικές συνθήκες ή στις ειδικές εκείνες εξελίξεις σε ορισμένους τομείς της οικονομίας, που επηρεάζουν την ικανότητα του πελάτη να αντιμετωπίσει και να φέρει σε πέρας τις υποχρεώσεις του. Στο σημείο αυτό θα πρέπει να προσθέσουμε ότι στοιχεία για τους παραπάνω πέντε παράγοντες συλλέγονται από ένα πολύ καλά οργανωμένο δίκτυο πληροφοριών, το οποίο συνήθως εστιάζει σε ιστορικά δεδομένα σε σχέση με τους πελάτες. 3.6. Βιωσιμότητα των επιχειρήσεων Ίσως ένα από τα σημαντικότερα θέματα που έχει να πραγματευτεί η χρηματοοικονομική θεωρία είναι το θέμα της βιωσιμότητας των οικονομικών οργανισμών. Το να γνωρίζει κάποιος την κατάσταση στην οποία βρίσκεται η επιχείρησή του, αξιολογώντας τα οποιαδήποτε στοιχεία έχει στην διάθεσή του είναι σίγουρα κάτι πολύ σημαντικό. Τα στοιχεία αυτά μπορεί να είναι ποσοτικά, για παράδειγμα στοιχεία από το ενεργητικό, το παθητικό και κάποιοι αριθμοδείκτες, αλλά επίσης και ποιοτικά στοιχεία, στοιχεία τα οποία θα προέρχονται από πηγές πληροφόρησης της επιχείρησης και θα αφορούν τον ανταγωνισμό, την ποιότητα που προσφέρει ο οργανισμός, την θέση που κατέχει στην συνείδηση των καταναλωτών και πολλά άλλα. Επίσης θα πρέπει να σημειώσουμε ότι το θέμα της βιωσιμότητας, από την μεριά της προσπάθειας του κάθε ενδιαφερόμενου να αναλύσει κάποια στοιχεία ώστε να εξάγει κάποια συμπεράσματα, μπορεί να συνδεθεί και με την περίπτωση της πτώχευσης (από την σκοπιά της διερεύνησης και εκεί), καθώς η πτώχευση όπως ξέρουμε είναι ένα από τα αποτελέσματα για μια επιχείρηση η οποία παύει να είναι βιώσιμη. Λέμε ένα από τα αποτελέσματα καθώς υπάρχει η πιθανότητα συγχώνευσης αλλά και εξαγοράς της εταιρείας από κάποια άλλη. Στο σημείο αυτό παραθέτουμε τους σημαντικότερους αριθμοδείκτες οι οποίοι χρησιμοποιούνται για την ανάλυση και μελέτη της μακροχρόνιας οικονομικής κατάστασης των επιχειρήσεων [.2]: Ίδια κεφάλαια / Συνολικά κεφάλαια Ίδια κεφάλαια / Δανειακά κεφάλαια

Page 95: Nimertis_Pagouropoulos

89

Ίδια κεφάλαια / Πάγια Κυκλοφορούν ενεργητικό / Συνολικές υποχρεώσεις Πάγια / Μακροπρόθεσμες υποχρεώσεις Αριθμοδείκτης καλύψεως τόκων : Καθαρά κέρδη Εκμεταλλεύσεως προ φόρων και τόκων / Σύνολο τόκων Το θέμα της βιωσιμότητας των επιχειρήσεων σχετίζεται και είναι άρρηκτα συνδεδεμένο με το πώς είναι διαρθρωμένα τα κεφάλαιά της [.6]. Η διαδικασία προσδιορισμού της οικονομικής καταστάσεων μιας επιχειρήσεως από μακροχρόνια σκοπιά, σχετίζεται απόλυτα με την ανάλυση της διαρθρώσεως των κεφαλαίων της. Αναφερόμενοι στην διάρθρωση των κεφαλαίων εννοούμε τα διάφορα είδη και τις μορφές των κεφαλαίων που χρησιμοποιεί για την χρηματοδότησή της. Έχουμε τα μόνιμα (ίδια) κεφάλαια, ως και τις βραχυπρόθεσμες, μεσοπρόθεσμες και μακροπρόθεσμες υποχρεώσεις της. Η σπουδαιότητα της διαρθρώσεως των κεφαλαίων απορρέει από την ουσιαστική διαφορά που υπάρχει μεταξύ των ιδίων κεφαλαίων αλλά και των δανειακών. Τα ίδια κεφάλαια είναι εκείνα που επωμίζονται τον επιχειρηματικό κίνδυνο που αναπόφευκτα υπάρχει στις επιχειρήσεις. Βασικό χαρακτηριστικό των ιδίων κεφαλαίων είναι ότι δεν έχουν ορισμένο χρόνο επιστροφής ούτε εξασφαλισμένη απόδοση, δεδομένου ότι η διανομή μερίσματος στους μετόχους εξαρτάται από την απόφαση της διοικήσεως και της γενικής συνελεύσεως των μετόχων. Επίσης επειδή θεωρούνται μόνιμα, επενδύονται κατά κανόνα σε μακροχρόνιες επενδύσεις και εκτίθενται σε περισσότερους κινδύνους από ότι τα δανειακά. Αντίθετα τα δανειακά κεφάλαια πρέπει να εξοφληθούν προσαυξημένα από τους τόκους τους σε τακτά χρονικά διαστήματα, ανεξάρτητα από την οικονομική θέση της επιχείρησης. Σε περίπτωση που μια επιχείρηση δεν είναι σε θέση να εξοφλήσει τις υποχρεώσεις, που απορρέουν από την χρησιμοποίηση των ξένων κεφαλαίων (επιστροφή κεφαλαίων και πληρωμή τόκων), θα έχει σαν συνέπεια να υποστούν ζημιά τα ίδια κεφάλαιά της. Όσο μεγαλύτερη είναι η αναλογία των ξένων κεφαλαίων, στο σύνολο των περισσότερο χρεωμένη εμφανίζεται αυτή και τόσο μεγαλύτερες είναι οι είναι οι σταθερές επιβαρύνσεις και υποχρεώσεις της για την εξόφλησή τους. Υπάρχει μεγάλη πίεση στην επιχείρηση για την πληρωμή τόκων και την επιστροφή των δανειακών κεφαλαίων, όταν αυτά καθιστούν ληξιπρόθεσμα. Η πίεση αυτή είναι περισσότερο αισθητή σε περίπτωση που σημειωθεί κάμψη των πωλήσεων και των κερδών της επιχείρησης. Σε περιπτώσεις που τα κέρδη των επιχειρήσεων παρουσιάζουν διακυμάνσεις, η ύπαρξη μεγάλου ποσοστού δανειακών κεφαλαίων τείνει να αυξήσει τον δανεισμό. Αυτό μπορεί να επιδράσει στα κέρδη κάνοντάς τα περισσότερο ασταθή. Επίσης θα πρέπει να τονιστεί ότι η χρησιμοποίηση ξένων κεφαλαίων για επενδύσεις παρουσιάζει πολλά πλεονεκτήματα σε σχέση με την έκδοση νέων τίτλων σε περίπτωση αύξησης του κεφαλαίου. Αν η απόδοση των νέων επενδύσεων, που χρηματοδοτούνται με δανειακά κεφάλαια, είναι μεγαλύτερη από τον τόκο των ξένων κεφαλαίων, οι μέτοχοι ωφελούνται από τα αυξημένα κέρδη της επιχείρησης χωρίς να εισφέρουν πρόσθετα δικά τους κεφάλαια. Σε περιπτώσεις που η επιχείρηση επιτυγχάνει υψηλότερη απόδοση επενδύοντας το προϊόν ενός

Page 96: Nimertis_Pagouropoulos

90

χαμηλότοκου δανείου, τότε πραγματοποιεί κέρδος που αποκαλείται «trading on the equity». Σχετικά με την επίδραση που έχει η διάρθρωση των κεφαλαίων μιας επιχείρησης στην αξία των μετοχών της αλλά και στο ύψος των κερδών της, υπάρχουν δύο διαφορετικές απόψεις. Η πρώτη υποστηρίζει ότι τα δανειακά κεφάλαια, εκτός από το όφελος που αποφέρουν στην επιχείρηση λόγω των φορολογικών ελαφρύνσεων, ασκούν επίδραση στα κέρδη και στην εκτίμηση της αξίας των μετοχών αυτής. Η δεύτερη άποψη υποστηρίζει ότι εκτός από το φορολογικό όφελος, τα δανειακά κεφάλαια δεν επηρεάζουν τα κέρδη και την εκτίμηση της αξίας των μετοχών αυτής. Οι δύο αυτές απόψεις έχουν να κάνουν κάθε φορά με τις αντιλήψεις της κάθε διοίκησης σε κάθε επιχείρηση. Η πολιτική που ακολουθεί κάθε επιχείρηση ως προς την διάρθρωση των κεφαλαίων της έχει σαν σκοπό την ισορροπία μεταξύ του αναλαμβανομένου κινδύνου από την άσκηση της επιχειρηματικής δραστηριότητας και της προσδοκώμενης απ’αυτήν αποδόσεως. Με το να χρησιμοποιείται μεγαλύτερο ποσοστό δανειακών κεφαλαίων, έχουμε σαν αποτέλεσμα την αύξηση του κινδύνου ως προς την μελλοντική πορεία των κερδών της επιχείρησης, ενώ ταυτόχρονα υποδηλώνει και αυξημένη προσδοκώμενη απόδοση. Θα πρέπει να τονιστεί πως γενικά ο αυξημένος κίνδυνος οδηγεί σε μείωση της τιμής των μετοχών μιας επιχειρήσεως στην αγορά. Αντίθετα, η προσδοκία για μεγαλύτερη απόδοση προκαλεί αύξηση της τιμής τους. Η άριστη διάρθρωση κεφαλαίων για μια επιχείρηση είναι εκείνη που κατορθώνει να επιφέρει ισορροπία μεταξύ του αναλαμβανομένου κινδύνου και της αποδόσεως της επιχείρησης και η οποία μεγιστοποιεί την τιμή των μετοχών αυτής στην εν λόγο αγορά. Ταυτόχρονα ελαχιστοποιεί το κόστος των κεφαλαίων της. Επομένως μπορούμε να συμπεράνουμε πως εφόσον η μεγιστοποίηση της τιμής των μετοχών μιας επιχειρήσεως και η ελαχιστοποίηση του κόστους των κεφαλαίων αυτής ταυτίζονται χρονικά, το πρόβλημα ευρέσεως της αρίστης διαρθρώσεως κεφαλαίων είναι πρόβλημα μεγιστοποιήσεως της αξίας της, ή ελαχιστοποιήσεως του κόστους των κεφαλαίων της. Τελειώνοντας, οι παράγοντες που επηρεάζουν τις αποφάσεις μιας επιχειρήσεως για την διατήρηση μιας δεδομένης διαρθρώσεως κεφαλαίων είναι οι παρακάτω [.6]: Ο επιχειρηματικός κίνδυνος Η θέση της επιχειρήσεως από απόψεως φορολογίας Η ικανότητα της επιχειρήσεως να αντλεί κεφάλαια με επωφελείς για αυτήν όρους, ακόμη και κάτω από δύσκολες συνθήκες Στο σημείο αυτό θα κάνουμε μία μικρή αναφορά σε κάθε έναν παράγοντα. Επιχειρηματικός κίνδυνος Όπως γνωρίζουμε ο κίνδυνος είναι ένα στοιχείο πού συνηθισμένο στο οικονομικό περιβάλλον των επιχειρήσεων. Όσο μεγαλύτερος είναι, τόσο χαμηλότερος θα πρέπει να είναι ο αριθμοδείκτης δανειακής επιβαρύνσεως.

Page 97: Nimertis_Pagouropoulos

91

Η θέση της επιχειρήσεως από απόψεως φορολογίας Ένας σημαντικότατος παράγοντας για την χρησιμοποίηση ξένων κεφαλαίων από την μεριά των οικονομικών οργανισμών είναι το γεγονός ότι οι τόκοι αφαιρούνται από τα κέρδη ώστε να μειώνεται το φορολογητέο ποσό και το κόστος δανεισμού ανάλογα με τον συντελεστή φορολογίας κάθε επιχειρήσεως. Το πλεονέκτημα αυτό όμως παύει να υφίσταται σε περίπτωση που το μεγαλύτερο μέρος των κερδών της επιχειρήσεως έχει λόγους να υπόκειται σε φορολογικές απαλλαγές. Αυτό συμβαίνει όταν η επιχείρηση έχει τη δυνατότητα να πραγματοποιεί αυξημένες αποσβέσεις ή να έχει μειωμένη φορολογική επιβάρυνση, λόγω πραγματοποιήσεως νέων επενδύσεων, ή τέλος να απαλλάσσεται εντελώς από φόρους, λόγω μεταφοράς ζημιών προηγουμένων χρήσεων. Σε αυτές τις περιπτώσεις ο συντελεστής φορολογίας των κερδών της επιχειρήσεως είναι πολύ χαμηλός και καμιά φορά και μηδενικός, με αποτέλεσμα το κίνητρο φορολογικών ελαφρύνσεων από την χρησιμοποίηση ξένων κεφαλαίων να ατονεί. Έτσι η χρησιμοποίηση ξένων κεφαλαίων δεν είναι τόσο επωφελής, όσο θα ήταν σε περίπτωση που η επιχείρηση δεν είχε τις παραπάνω δυνατότητες και τα κέρδη της θα υπόκειντο σε υψηλό συντελεστή φορολογίας εισοδήματος. Η ικανότητα της επιχειρήσεως να αντλεί κεφάλαια με επωφελείς για αυτήν όρους, ακόμη και κάτω από δύσκολες συνθήκες. Επιχειρήσεις με αμετάβλητο κύκλο εργασιών έχουν ανάγκη συνεχούς ροής κεφαλαίων για την επίτευξη μακροχρόνιας ανόδου. Σε περιπτώσεις στενότητας ρευστών, αυξάνονται οι δυσκολίες δανεισμού από τις τράπεζες, από την στιγμή που οι τελευταίες επιλέγουν με αυστηρά κριτήρια τις επιχειρήσεις που δανείζουν και προτιμούν αυτές που παρουσιάζουν υγιείς και δυναμικούς ισολογισμούς. Για να δημιουργήσουμε μία σαφή εικόνα για την οικονομική κατάσταση της επιχείρησης, θα πρέπει να προσδιορίσουμε την θέση της τόσο από βραχυχρόνια όσο και από μακροχρόνια σκοπιά. Αυτό γιατί, μια ευνοϊκή τρέχουσα οικονομική κατάσταση μπορεί να εξουδετερωθεί από μια αντίθετη κατάσταση στην περιουσιακή και κεφαλαιακή της διάρθρωση. Σαν παραδείγματα που ενδέχεται να επηρεάσουν δυσμενώς την επιχείρηση μπορούν να αναφερθούν η πραγματοποίηση ανεπαρκών αποσβέσεων, η υπερεπενδύσεις σε πάγια στοιχεία που δεν είναι πλήρως εκμεταλλεύσιμα, η δυσμενής διάρθρωση των κεφαλαίων της επιχειρήσεως, η οποία την κάνει να είναι υπερχρεωμένη και να επιβαρύνεται με πρόσθετα χρηματοοικονομικά έξοδα και πολλά άλλα. Αντίθετα, μια ευνοϊκή, από μακροχρόνια σκοπιά οικονομική κατάσταση, μπορεί να εξουδετερωθεί από μία δυσμενή τρέχουσα κατάσταση στα κεφάλαια κινήσεως της επιχειρήσεως. Παραδείγματα μπορούν να αναφερθούν πολλά όπως η ανεπάρκεια των κεφαλαίων κινήσεως, οι μεγάλες απαιτήσεις, τα υψηλά αποθέματα, των οποίων η ταχύτητα κυκλοφορίας είναι χαμηλή, η εξάντληση των κεφαλαίων κινήσεως και άλλα πολλά. Στο σημείο αυτό θα ακολουθήσει μία περιγραφή ορισμένων οικονομικών στοιχείων πάνω στα οποία θα γίνουν οι εφαρμογές των αλγορίθμων και τα αντίστοιχα

Page 98: Nimertis_Pagouropoulos

92

τρεξίματα. Τα στοιχεία αυτά ανήκουν σε ισολογισμούς πτωχευμένων και μη επιχειρήσεων και έχουν αντληθεί από τον ICAP [.15]. Γήπεδα / Οικόπεδα , Κτίρια / Εγκαταστάσεις : Οι πάσης φύσεως οικοδομικές κατασκευές οι οποίες ανήκουν κατά κυριότητα στην οικονομική μονάδα και δεν προορίζονται για πώληση (στην ουσία αναφερόμαστε στα Ακίνητα ή Κτίρια) Μηχανικός Εξοπλισμός : Τα πάσης φύσεως που ανήκουν κατά κυριότητα στην οικονομική μονάδα και δεν προορίζονται να πουληθούν Αποσβέσεις (κτιρίων, μεταφορικών μέσων κτλ) : Το κόστος των υπηρεσιών των παγίων στοιχείων οι οποίες έχουν εξαντληθεί Αποθέματα : Εμπορεύματα της οικονομικής μονάδας αποθηκευμένα στις αποθήκες της Έτοιμα αγαθά, εμπορεύματα : Υλικά αγαθά τα οποία ανήκουν κατά κυριότητα στην οικονομική μονάδα και προορίζονται να πουληθούν αυτούσια Ύλες / Υλικά : Υλικά αγαθά που ανήκουν κατά κυριότητα στην οικονομική μονάδα και τα οποία προορίζονται για την παραγωγή αγαθών Χρεόγραφα : Μετοχές και ομολογίες που ανήκουν κατά κυριότητα στην οικοδομική μονάδα και οι οποίες αναμένεται να ρευστοποιηθούν εντός ενός έτους. Ταμείο / Τράπεζες : Μετρητά της οικονομικής μονάδας Ίδια κεφάλαια : Υποχρεώσεις της επιχείρησης προς τον φορέα της Γραμμάτεια πληρωτέα : Υποχρεώσεις προς τρίτους οι οποίες είναι ενσωματωμένες σε πιστωτικό τίτλο, δηλαδή συναλλαγματική ή γραμμάτιο «εις διαταγών» Κύκλος εργασιών / Πωλήσεις : Έσοδα από πώληση εμπορευμάτων

Page 99: Nimertis_Pagouropoulos

93

΄Γ ΜΕΡΟΣ Πειραματικά αποτελέσματα σε πραγματικά δεδομένα Α. Εφαρμόζοντας την μέθοδο της Συσχέτισης για θέματα Διαχείρισης

Χαρτοφυλακίου Στο σημείο αυτό θα δούμε πως μπορούμε να αξιοποιήσουμε δεδομένα που έχουμε στην διάθεσή μας και σχετίζονται με μετοχές, έτσι ώστε να είμαστε σε θέση να εξάγουμε χρήσιμα συμπεράσματα και γνώση σε θέματα που αφορούν την διαχείριση χαρτοφυλακίου. Τα δεδομένα που έχουμε στην διάθεσή μας αφορούν δύο μετοχές του τραπεζικού κλάδου, της τράπεζας Πειραιώς (PEIRAIWS BANK) και της τράπεζας Άλφα (ALFA BANK). Τα στοιχεία αυτά αφορούν το έτος 2001 και για τις δύο μετοχές και συμπεριλαμβάνουν την τιμή κλεισίματος των μετοχών, τον όγκο αγορών και πωλήσεων των μετοχών, τον μέσο της τιμής που αγοραζόταν και πωλούταν η κάθε μετοχή, καθώς και τα μέγιστα και ελάχιστα επίπεδα στα οποία κυμάνθηκε η τιμή κατά την διάρκεια της συνεδρίασης την κάθε μέρα. Εμείς από την μεριά μας, εστιάζουμε στις αλλαγές και τις αυξομειώσεις που επήλθαν από μέρα σε μέρα στα παραπάνω στοιχεία καθώς και στην σχέση που υπάρχει μεταξύ τους. Για παράδειγμα ένας κανόνας θα μπορούσε να ήταν ότι: «Αυξήθηκε η τιμή της μετοχής σήμερα σε σχέση με χθες ενώ ο όγκος των μετοχών που αγοράστηκαν ήταν μικρότερος από εκείνων που πωλήθηκαν» Για την υλοποίηση της εφαρμογής αυτής χρησιμοποιήθηκε ο αλγόριθμος συσχέτισης Apriori. Όσον αφορά τον αλγόριθμο Apriori στο πρόγραμμά μας και την μέθοδο της συσχέτισης θα πρέπει να σημειώσουμε ότι έχει δύο σημαντικές παραμέτρους. Αυτές είναι οι : minimum support και minimum confidence. Κάθε φορά που τρέχουμε τον αλγόριθμο επιλέγεται ένα ελάχιστο κατώφλι αυτών. Φυσικά το κατώφλι αυτό αποτελεί μία αριθμητική τιμή. Σχετικά με το ελάχιστο support, πρέπει να πούμε πως αποτελεί το κατώφλι για το support / επιβεβαίωση των κανόνων που θα εξαχθούν. Το support / επιβεβαίωση ενός κανόνα είναι ο αριθμός των εγγραφών / συναλλαγών στις οποίες βρέθηκαν μαζί όλα τα αντικείμενα που συμμετέχουν στον κανόνα. Το ελάχιστο support δίδεται σαν ποσοστό έναντι του συνόλου των εγγραφών. Η επιλογή της παραμέτρου αυτής απαιτεί γνώση του συνόλου των εγγραφών του πίνακα εισόδου, ώστε να μπορεί να αναχθεί ο απόλυτος αριθμός του ελάχιστου support σε ποσοστό. Από την άλλη μεριά, το ελάχιστο confidence / εμπιστοσύνη αποτελεί το κατώφλι για το confidence των κανόνων που θα εξαχθούν. Η εμπιστοσύνη ενός κανόνα είναι το ποσοστό των εγγραφών που περιέχουν όλα τα αντικείμενα του κανόνα, προς τον αριθμό των εγγραφών που περιέχουν μόνο τα αντικείμενα του αριστερού μέρους του κανόνα. Η φυσική σημασία της παραμέτρου αυτής είναι η εμπιστοσύνη που μπορούμε να έχουμε στην ισχύ ενός κανόνα. Στις δύο βάσεις που έχουμε στην διάθεσή μας όσον αφορά τις δύο μετοχές έχουμε τα εξής πεδία που μας ενδιαφέρουνε:

Page 100: Nimertis_Pagouropoulos

94

CLASS, αναφέρεται στο εάν αυξήθηκε ή μειώθηκε η τιμή της μετοχής σε σχέση με την προηγούμενη μέρα-συνεδρίαση. Ο κωδικός 10 συμβολίζει την αύξηση της τιμής ενώ ο 11 ότι επήλθε μείωση. Max, αναφέρεται στην μέγιστη τιμή που έφτασε η μετοχή κατά την διάρκεια της συνεδρίασης. Ο κωδικός 20 σημαίνει ότι είχαμε άνοδο, ο κωδικός 21 ότι επήλθε μείωση και τέλος ο 22 ότι παρέμεινε σταθερό. Αναφέρουμε ότι οι συγκρίσεις όλες γίνονται με βάση την προηγούμενη μέρα. Min, αντιπροσωπεύει το ελάχιστο της τιμής με τον κωδικό 30 να δηλώνει αύξηση, τον 31 να δηλώνει μείωση και τον 32 να είναι σταθερό. Sell, δηλώνει τον μέσο όρο των τιμών όπου πωλούνταν η μετοχές εκείνη την ημέρα (για την συγκεκριμένη μετοχή), και οι κωδικοί 40,41,42 εκφράζουν αντίστοιχα την αύξηση, την μείωση και το ότι παρέμεινε σταθερή η τιμή. Buy, δηλώνει τον μέσο όρο των τιμών που αγοράστηκε η μετοχή στην συνεδρίαση. Ο κωδικός 50 αναφέρεται στην αύξηση, ο κωδικός 51 στην μείωση και ο 52 στο ότι παρέμεινε σταθερή η τιμή. Τέλος με την Diafora, συμβολίζουμε την διαφορά μεταξύ του όγκου αγοράς και πώλησης των μετοχών. Δηλαδή στην περίπτωση που ο όγκος των μετοχών που προορίζονταν για πώληση, ήταν μεγαλύτερος από εκείνον για αγορά, σε μία συνεδρίαση θα έχουμε τον κωδικό 60, ενώ στην αντίθετη περίπτωση τον κωδικό 61. Στην περίπτωση που θα είναι οι ίδιοι θα έχουμε το 62. Στο σημείο αυτό πρέπει να επισημάνουμε σχετικά με την κωδικοποίηση ότι στα πεδία Buy και Sell λόγο της διαφοράς στην δομή των πινάκων μεταξύ των δύο τραπεζών για την μετοχή της τράπεζας Πειραιώς ισχύει για το Sell 50 αύξηση, 51 μείωση και 52 σταθερό και αντίστοιχα για το Buy 40 αύξηση, 41 μείωση και 42 σταθερό. Η κωδικοποίηση γίνεται για να τρέξει ο αλγόριθμος καθώς απαιτεί στα κελιά να έχουμε αύξουσα σειρά, πχ 10, 20, 30, 40, 50, 60 (με το δεύτερο νούμερο να διαφοροποιείται ανάλογα). Ακολουθούν οι πειραματικοί έλεγχοι με τα αντίστοιχα συμπεράσματα για τις δύο μετοχές του τραπεζικού κλάδου. Επίσης αναφέρουμε ότι λόγο του πολύ μεγάλου αριθμού κανόνων που έχουν εξαχθεί, μόνο ένα μικρό μέρος αυτών έχουν ΄΄μεταφραστεί΄΄, κυρίως κάποιοι αντιπροσωπευτικοί, καθώς είναι αδύνατο να γίνει αυτό για όλους. Έχουν επιλεγεί κανόνες που κρίνονται ως οι καταλληλότεροι για την εξαγωγή συμπερασμάτων και γνώσης. Στην συνέχεια θα παρουσιάσουμε τον τρόπο με τον οποίο παρουσιάζεται το περιβάλλον της εφαρμογής γενικά σχετικά με την Συσχέτιση και τον αλγόριθμο Apriori. Στον κάθε πειραματικό έλεγχο δίνονταν οι ανάλογες τιμές στις παραμέτρους και εξάγονταν οι αντίστοιχοι κανόνες κάθε φορά. Αρχικά δημιουργούμε τον φάκελο / file για να αποθηκεύσουμε τους ελέγχους. Εμείς απλά επιλέγουμε New και δίνουμε ένα όνομα (στο παράθυρό μας επιλέξαμε το APRIORI) για νέο φάκελο, η Open για να ανοίξουμε ένα ήδη υπάρχον. Το αντίστοιχο παράθυρο είναι το εξής:

Page 101: Nimertis_Pagouropoulos

95

Στην συνέχεια επιλέγουμε από το menu της επιλογής Algorithms τον αλγόριθμο που μας ενδιαφέρει, στην περίπτωσή μας τον Apriori.

Page 102: Nimertis_Pagouropoulos

96

Στην διεπαφή εμφανίζεται το όνομα του πειραματικού ελέγχου, επιλέγουμε να συνδεθούμε με την αντίστοιχη βάση που έχουμε τα δεδομένα, κάνουμε κλικ στο connect, επιλέγουμε τον πίνακα που θα χρησιμοποιηθεί για την εφαρμογή στο Select a table, και στην συνέχεια μαρκάρουμε τα πεδία που θέλουμε να βρεθούν οι συσχετισμοί. Στο παράθυρο έχουμε την περίπτωση εξέτασης της σχέσης μεταξύ των δύο μετοχών, Άλφα και Πειραιώς. Αφού τελειώσουμε συνεχίζουμε με το Next.

Τέλος, στο παράθυρο των παραμέτρων επιλέγουμε τις ανάλογες τιμές για Minimum Support και Minimum Confidence, εδώ έχουμε το 10% και 20% αντίστοιχα, συνεχίζοντας κάνουμε κλικ στο εικονίδιο Apriori και έχουμε το τελικό αποτέλεσμα, δηλαδή τους κανόνες που εξήχθησαν. Αξίζει να αναφέρουμε ότι όσο εμείς επιλέγουμε μεγαλύτερες τιμές για τα δύο αυτά στοιχεία, οι κανόνες που εξάγονται αρχίζουν να μειώνονται καθώς αυξάνονται οι απαιτήσεις του συστήματος. Βέβαια οι κανόνες που θα παραμείνουν ίσως είναι και οι πιο ισχυροί από όλους όσους εξήχθησαν.

Page 103: Nimertis_Pagouropoulos

97

Εδώ θα δώσουμε μία εικόνα του πίνακα για την μετοχή της Πειραιώς (εικονίδιο που ακολουθεί) που αποτέλεσε την κωδικοποιημένη βάση δεδομένων για την εφαρμογή του αλγορίθμου Apriori (η μορφή των πινάκων για τις δύο μετοχές είναι η ίδια, όπως και για τους πειραματικούς ελέγχους που αναζητούνται οι συσχετισμοί μεταξύ τους όσον αφορά την τιμή κλεισίματος).

Page 104: Nimertis_Pagouropoulos

98

ΜΕΤΟΧΗ ΤΡΑΠΕΖΑΣ ΑΛΦΑ / ALFABANK Εφαρμογή 1 Στην συγκεκριμένη εφαρμογή μας ενδιαφέρει να δούμε την αλληλεξάρτηση που μπορεί να υπάρξει ανάμεσα στην τιμή της μετοχής, σχετικά με το αν αυξήθηκε ή μειώθηκε, και στην διαφορά όγκου αγορών και πωλήσεων. Οι κανόνες που θα κριθούν καταλληλότεροι προς αξιοποίηση επιλέγονται ανάλογα με τις απαιτήσεις που έχουμε από το σύστημα. Επισημάνουμε το γεγονός ότι στην κάθε εφαρμογή επιλέγονται με διαφορετικά κριτήρια οι ΄΄καλύτεροι΄΄ κανόνες καθώς έχουμε διαφορετικές τιμές στα support και confidence. Στον πρώτο έλεγχο επιλέξαμε minimum support 10% , minimum confidence 10% και επιλέξαμε τους εξής κανόνες (πειραματικός έλεγχος 1) : If 61 then 11 .Confidence = 0,595041334629059 and Support = 72 If 11 then 61 .Confidence = 0,52173912525177 and Support = 72

Page 105: Nimertis_Pagouropoulos

99

Παρατηρούμε ότι δεν είχαμε ικανοποιητικά αποτελέσματα σχετικά με τις απαιτήσεις μας, ερμηνεύοντας τον κανόνα σαν ποσοστό των εγγραφών (η γνώση όμως που λάβαμε είναι σημαντική), καθώς τα επίπεδα support και confidence δεν είναι αρκετά υψηλά σε σχέση με τον αριθμό των εγγραφών που έχουμε (εδώ αυτός ο αριθμός, όπως και στους υπόλοιπους ελέγχους, αντιπροσωπεύει τις μέρες που έγιναν συνεδριάσεις). Έτσι λοιπόν έχουμε: If 61 then 11 .Confidence = 0,595041334629059 and Support = 72 Αυτός μεταφράζεται ως εξής: If όγκος αγοράς > όγκος πωλήσεων then μείωση τιμής .Confidence = 0,595041334629059 and Support = 72 Ο κανόνας δηλώνει ότι σε 72 περιπτώσεις από τις 249, δηλαδή σε ένα ποσοστό 30% επί του συνόλου των εγγραφών, όταν ο όγκος αγορών των μετοχών ήταν μεγαλύτερος από τον όγκο πωλήσεων είχαμε και μείωση της τιμής της μετοχής στο τέλος της συνεδρίασης. Επίσης ένα ποσοστό της τάξης του 59% των συνολικών εγγραφών μας δίνει ότι είχαμε μείωση της τιμής της μετοχής όταν ο όγκος των αγορών είναι μεγαλύτερος από εκείνο των πωλήσεων. If 10 then 60 .Confidence = 0,55045872926712 and Support = 60 Αυτός μεταφράζεται ως εξής: If αυξηθεί η τιμή then όγκος πωλήσεων > όγκος αγοράς .Confidence = 0,55045872926712 and Support = 60 Αυτός αναφέρει ότι σε 60 περιπτώσεις από τις 249, δηλαδή σε ένα ποσοστό 24% επί του συνόλου, όταν η τιμή της μετοχής παρουσίαζε άνοδο σε σχέση με την προηγούμενη συνεδρίαση, τότε ο όγκος των πωλήσεων επικρατούσε εκείνου των αγορών. Επίσης σε ποσοστό 55% στις συνολικές εγγραφές μας έχουμε αύξηση της τιμής της μετοχής όταν ο όγκος των πωλήσεων είναι μεγαλύτερος από εκείνον τον αγορών. Στην συνέχεια ακολούθησαν και άλλοι έλεγχοι όπου τα support και confidence λαμβάνανε και άλλες τιμές, τους οποίους παρουσιάζουμε παρακάτω: Για minimum support 15% , minimum confidence 15% (πειραματικός έλεγχος 2) If 61 then 11 .Confidence = 0,595041334629059 and Support = 72 Δηλαδή: If όγκος πωλήσεων > όγκος αγορών then μείωση τιμής .Confidence = 0,595041334629059 and Support = 72 If 11 then 61 .Confidence = 0,52173912525177 and Support = 72

Page 106: Nimertis_Pagouropoulos

100

Δηλαδή: If μειωθεί η τιμή then όγκος πωλήσεων > όγκος αγορών .Confidence = 0,52173912525177 and Support = 72 Για minimum support 20% , minimum confidence 20% (πειραματικός έλεγχος 3) If 61 then 11 .Confidence = 0,595041334629059 and Support = 72 If 11 then 61 .Confidence = 0,52173912525177 and Support = 72 Οι κανόνες είναι όμοιοι με του προηγούμενου πειραματικού ελέγχου Για minimum support 25% , minimum confidence 25% (πειραματικός έλεγχος 4) If 61 then 11 .Confidence = 0,595041334629059 and Support = 72 If 11 then 61 .Confidence = 0,52173912525177 and Support = 72 Οι κανόνες είναι όμοιοι με του προηγούμενου πειραματικού ελέγχου Για minimum support 30% , minimum confidence 30% πειραματικός έλεγχος 5), δεν είχαμε κανέναν κανόνα. Από τους παραπάνω ελέγχους, αν και δεν είμαστε ικανοποιημένοι από την ποιότητα των κανόνων όσον αφορά τα επίπεδα support και confidence που θέσαμε, μπορούμε να συμπεράνουμε ότι δεν είναι απαραίτητο για την διαμόρφωση της τιμής μιας μετοχής σε περιπτώσεις όπου ο όγκος των μετοχών που πωλούνται υπερβαίνει εκείνων που αγοράζονται να μειώνεται η τιμή. Αντιθέτως είδαμε πως όταν γίνει το αντίθετο υπάρχει η πιθανότητα να επέλθει μείωση, όσον αφορά βέβαια την μετοχή της Άλφα. Αυτό το λέμε διότι στην αγορά υπάρχει η αντίληψη ότι όταν οι επενδυτές πουλάνε πολλές μετοχές από μία εταιρεία (τονίζουμε ότι αναφερόμαστε για μία μόνο μετοχή και μόνο για αυτήν), τότε η τιμή της θα πέσει. Αυτό το καθορίζουν και άλλοι παράγοντες όπως οι τιμές του χρυσού και του πετρελαίου, καθώς και διάφορες οικονομικοπολιτικές συνθήκες. Βέβαια ο κυριότερος προσδιοριστικός παράγοντας είναι η πορεία της εταιρείας μέσα στην οικονομία και τα αποτελέσματά της όσον αφορά τα κέρδη που πραγματοποιεί. Τέλος άμα θέλουμε να εξάγουμε έναν κανόνα σαν συμπέρασμα, μπορούμε να πούμε ότι όταν ο όγκος των μετοχών που αγοράστηκαν υπερισχύει εκείνου των μετοχών που πωλήθηκαν, τότε η τιμή της μετοχής στο κλείσιμο θα μειωθεί σε σχέση με την προηγούμενη μέρα (ο κανόνας με κόκκινο χρωματισμό και διαφορετική γραμματοσειρά).

Page 107: Nimertis_Pagouropoulos

101

Εφαρμογή 2 Στην παρούσα εφαρμογή θα δούμε τι σχέση μπορεί να υπάρξει ανάμεσα στην τιμή μιας μετοχής και στα μέγιστα και ελάχιστα επίπεδα που αγγίζει η τιμή της κατά την διάρκεια μιας συνεδρίασης. Για minimum support 10% , minimum confidence 10% (πειραματικός έλεγχος 1) Από τους κανόνες που εξήχθησαν επελέγησαν οι ακόλουθοι: If 21, 31 then 11 .Confidence = 0,857142865657806 and Support = 90 Δηλαδή: If το μέγιστο μειωθεί, το ελάχιστο μειωθεί then μείωση τιμής .Confidence = 0,857142865657806 and Support = 90 If 11, 31 then 21 .Confidence = 0,818181812763214 and Support = 90 Δηλαδή: If μειωθεί η τιμή, μειωθεί το ελάχιστο then μειώνεται το μέγιστο .Confidence = 0,818181812763214 and Support = 90 If 11, 21 then 31 .Confidence = 0,882352948188782 and Support = 90 Δηλαδή: If μειωθεί η τιμή, μειωθεί το μέγιστο then μειώνεται το ελάχιστο .Confidence = 0,882352948188782 and Support = 90 Για minimum support 15% , minimum confidence 15% (πειραματικός έλεγχος 2) If 21, 31 then 11 .Confidence = 0,857142865657806 and Support = 90 If 11, 31 then 21 .Confidence = 0,818181812763214 and Support = 90 If 11, 21 then 31 .Confidence = 0,882352948188782 and Support = 90 Οι κανόνες είναι όμοιοι με του πειραματικού ελέγχου 1

Page 108: Nimertis_Pagouropoulos

102

Για minimum support 20% , minimum confidence 20% (πειραματικός έλεγχος 3) If 21, 31 then 11 .Confidence = 0,857142865657806 and Support = 90 If 11, 31 then 21 .Confidence = 0,818181812763214 and Support = 90 If 11, 21 then 31 .Confidence = 0,882352948188782 and Support = 90 Οι κανόνες είναι όμοιοι με του πειραματικού ελέγχου 1 Για minimum support 25% , minimum confidence 25% (πειραματικός έλεγχος 4) If 21, 31 then 11 .Confidence = 0,857142865657806 and Support = 90 If 11, 31 then 21 .Confidence = 0,818181812763214 and Support = 90 If 11, 21 then 31 .Confidence = 0,882352948188782 and Support = 90 Οι κανόνες είναι όμοιοι με του πειραματικού ελέγχου 1 Από τους κανόνες που εξήχθησαν παρατηρούμε ότι υπάρχει πάντα μία ανάλογη σχέση της πορείας της τιμής της μετοχής με το πώς διακυμάνθηκαν το ελάχιστο και μέγιστο επίπεδό της. Αυτό χαρακτηρίζει και τα τρία στοιχεία. Επίσης παρατηρείται αυτό το φαινόμενο και όταν έχουμε και τα δύο στην υπόθεση ενός κανόνα αλλά και μόνο το ένα. Είναι επίσης πολύ χαρακτηριστικά υψηλό το confidence των κανόνων αυτών. Το support κυμάνθηκε από 23,6% που δεν είναι ικανοποιητικό, μέχρι 44% όσον αφορά όλους τους κανόνες. Επίσης ο κανόνας με την μεγαλύτερη ισχύ από όλους σημειώνει πως όταν μειώνεται η τιμή κλεισίματος και το μέγιστο επίπεδο που μπορεί να φτάσει την συγκεκριμένη μέρα, τότε έχουμε ταυτόχρονη μείωση και του ελαχίστου επιπέδου της σε ένα ποσοστό 36,5% από την στιγμή που το support ισούται με 90. Εφαρμογή 3 Στο σημείο αυτό, θα συμπεριλάβουμε στους ελέγχους όλα τα πεδία που έχουμε στην διάθεσή μας. Έγιναν έλεγχοι με τιμές στις παραμέτρους μας 10%, 15%, 20%, 25%, 30%, 35%, 40%. Για τον λόγο ότι οι κανόνες που εξήχθησαν ήταν πάρα πολλοί κρίθηκε σκόπιμο να παρουσιάσουμε τους κανόνες με support και confidence 35% και 40% οι οποίοι έχουν και μεγαλύτερη βαρύτητα από την στιγμή που είναι οι τιμές που έχουν την μεγαλύτερη απαίτηση για καλή εξαγωγή γνώσης από το σύστημα.

Page 109: Nimertis_Pagouropoulos

103

Για minimum support 35% , minimum confidence 35% (πειραματικός έλεγχος 1) If 31, 41 then 51 .Confidence = 0,952830195426941 and Support = 101 Δηλαδή If το ελάχιστο μειωθεί, η τιμή πώλησης μειωθεί then η τιμή αγοράς μειώνεται .Confidence = 0,952830195426941 and Support = 101 If 11, 21, 41 then 51 .Confidence = 0,977528095245361 and Support = 87 Δηλαδή: If μειωθεί η τιμή, μειωθεί το μέγιστο, μειωθεί η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,977528095245361 and Support = 87 If 31, 41, 51 then 11 .Confidence = 0,96039605140686 and Support = 97 Δηλαδή: If το ελάχιστο μειωθεί, η τιμή πώλησης μειωθεί, η τιμή αγοράς μειωθεί then μειώνεται η τιμή κλεισίματος .Confidence = 0,96039605140686 and Support = 97 If 11, 31, 41 then 51 .Confidence = 0,979797959327698 and Support = 97 Δηλαδή: If μειωθεί η τιμή, μειωθεί το ελάχιστο, μειωθεί η τιμή πώλησης then μειώνεται η τιμή αγοράς της μετοχής .Confidence = 0,979797959327698 and Support = 97 Από τους παραπάνω κανόνες μπορούμε να συμπεράνουμε ότι υπάρχει ανάλογη σχέση σχετικά με την τιμή κλεισίματος της μετοχής και το αν μειωθούν το μέγιστο και ελάχιστο επίπεδο που έφτασε, η τιμή αγοράς και πώλησης κατά την συνεδρίαση και αν ο όγκος πωλήσεων ήταν μεγαλύτερος εκείνουτων αγορών. Πάντα ακολουθούν κοινή πορεία. Οι συγκεκριμένοι κανόνες είναι και αυτοί που υπερίσχυσαν από όλους όσους εξήχθησαν λόγω των τιμών support και confidence που τους διακρίνουν. Για minimum support 40% , minimum confidence 40% (πειραματικός έλεγχος 2) Ακριβώς τα ίδια συμπεράσματα προκύπτουν για την τιμή 40% στις παραμέτρους που έχουμε στην διάθεσή μας, με την εξαγωγή μικρότερου αριθμού κανόνων.

Page 110: Nimertis_Pagouropoulos

104

Εφαρμογή 4 Στο συγκεκριμένο σημείο θα ακολουθήσουν κάποιοι έλεγχοι του αλγορίθμου, στους οποίους η παράμετρος που αφορά την εμπιστοσύνη confidence, θα είναι μικρότερη της αντίστοιχης της επιβεβαίωσης support. Αυτό θα γίνει επειδή το confidence είναι εκείνο με την μεγαλύτερη βαρύτητα για την εξαγωγή των κανόνων. Για minimum support 30% , minimum confidence 10% (πειραματικός έλεγχος 1) If 31, 41 then 51 .Confidence = 0,952830195426941 and Support = 101 Δηλαδή: If μειωθεί το ελάχιστο, μειωθεί η τιμή πώλησης then μειώνεταιη τιμή αγοράς .Confidence = 0,952830195426941 and Support = 101 If 21, 31, 41 then 11 .Confidence = 0,952941179275513 and Support = 81 Δηλαδή: If μειωθεί το μέγιστο, μειωθεί το ελάχιστο, μειωθεί η τιμή πώλησης then μειώνεται η τιμή κλεισίματος .Confidence = 0,952941179275513 and Support = 81 If 11, 21, 41 then 51 .Confidence = 0,977528095245361 and Support = 87 Δηλαδή: If μειωθεί η τιμή, μειωθεί το μέγιστο, μειωθεί η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,977528095245361 and Support = 87 If 31, 41, 51 then 11 .Confidence = 0,96039605140686 and Support = 97 Δηλαδή: If μειωθεί το ελάχιστο, μειωθεί η τιμή πώλησης, μειωθεί η τιμή αγοράς then μειώνεται η τιμή κλεισίματος .Confidence = 0,96039605140686 and Support = 97 If 11, 31, 41 then 51 .Confidence = 0,979797959327698 and Support = 97 Δηλαδή:

Page 111: Nimertis_Pagouropoulos

105

If μειωθεί η τιμή κλεισίματος, μειωθεί το ελάχιστο, μειωθεί η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,979797959327698 and Support = 97 If 21, 31, 41 then 51 .Confidence = 0,976470589637756 and Support = 83 Δηλαδή: If μειωθεί το μέγιστο, μειωθεί το ελάχιστο, μειωθεί η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,976470589637756 and Support = 83 If 21, 31, 41, 51 then 11 .Confidence = 0,963855445384979 and Support = 80 Δηλαδή: If μειωθεί το μέγιστο, μειωθεί το ελάχιστο, μειωθεί η τιμή πώλησης, μειωθεί η τιμή αγοράς then μειώνεται η τιμή κλεισίματος .Confidence = 0,963855445384979 and Support = 80 If 11, 21, 31, 51 then 41 .Confidence = 0,952380955219269 and Support = 80 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί το μέγιστο, μειωθεί το ελάχιστο, μειωθεί η τιμή αγοράς then μειώνεται η τιμή πώλησης .Confidence = 0,952380955219269 and Support = 80 If 11, 21, 31, 41 then 51 .Confidence = 0,987654328346252 and Support = 80 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί το μέγιστο, μειωθεί το ελάχιστο, μειωθεί η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,987654328346252 and Support = 80 Για minimum support 40% , minimum confidence 10% (πειραματικός έλεγχος 2) If 41 then 51 .Confidence = 0,902985095977783 and Support = 121 Δηλαδή: If μειωθεί η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,902985095977783 and Support = 121 If 41, 51 then 11 .Confidence = 0,925619840621948 and Support = 112

Page 112: Nimertis_Pagouropoulos

106

Δηλαδή: If μειωθεί η τιμή πώλησης, μειωθεί η τιμή αγοράς then μειώνεται η τιμή κλεισίματος .Confidence = 0,925619840621948 and Support = 112 If 11, 51 then 41 .Confidence = 0,933333337306976 and Support = 112 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί η τιμή αγοράς then μειώνεται η τιμή πώλησης .Confidence = 0,933333337306976 and Support = 112 If 11, 41 then 51 .Confidence = 0,941176474094391 and Support = 112 Δηλαδή: If μειώνεται η τιμή κλεισίματος, μειώνεται η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,941176474094391 and Support = 112 If 31, 41 then 51 .Confidence = 0,952830195426941 and Support = 101 Δηλαδή: If μειώνεται το ελάχιστο, μειώνεται η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,952830195426941 and Support = 101 Στους ελέγχους 1 και 2 επιβεβαιώνεται η ανάλογη σχέση που υπάρχει μεταξύ των πεδίων, όπως είχαμε αναφέρει και παραπάνω. Οι κανόνες έχουν ένα ποσοστό επιβεβαίωσης που κυμαίνεται από 32% μέχρι και 48,5%. Για minimum support 50% , minimum confidence 10% (πειραματικός έλεγχος 3) Στον συγκεκριμένο έλεγχο δεν είχαμε εξαγωγή κανόνων. ΜΕΤΟΧΗ ΤΡΑΠΕΖΑΣ ΠΕΙΡΑΙΩΣ / PEIRAIWS BANK Όσον αφορά την μετοχή της τράπεζας Πειραιώς θα γίνουν οι πειραματικοί έλεγχοι όπως ακριβώς έγιναν και με την τράπεζα Άλφα, επιλέγοντας ίδιες τιμές για τις παραμέτρους ώστε να γίνουν και οι ανάλογες συγκρίσεις σχετικά με τους κανόνες που θα εξαχθούν.

Page 113: Nimertis_Pagouropoulos

107

Εφαρμογή 1 Στην συγκεκριμένη εφαρμογή μας ενδιαφέρει να δούμε την αλληλεξάρτηση που μπορεί να υπάρξει ανάμεσα στην τιμή της μετοχής, σχετικά με το αν αυξήθηκε ή μειώθηκε, και στην διαφορά όγκου αγορών και πωλήσεων. Τα υπόλοιπα, όσον αφορά τους κανόνες είναι τα ίδια με αυτά που ισχύουν και για την μετοχή της τράπεζας ΑΛΦΑ. Για minimum support 10% , minimum confidence 10% είχαμε τους εξής κανόνες (πειραματικός έλεγχος 1): If 60 then 11 .Confidence = 0,563758373260498 and Support = 84 If 11 then 60 .Confidence = 0,636363625526428 and Support = 84 Οι κανόνες που εξήχθησαν δεν κρίνονται ικανοποιητικοί σχετικά με την επιβεβαίωση και αξιοπιστία που έχουν. Ξεχωρίζουν οι κανόνες: If 60 then 11 .Confidence = 0,563758373260498 and Support = 84 Αυτός μεταφράζεται ως εξής: If όγκος πωλήσεων > όγκος αγορών then μείωση τιμής .Confidence = 0,563758373260498 and Support = 84 If 11 then 60 .Confidence = 0,636363625526428 and Support = 84 Αυτός μεταφράζεται ως εξής: If μειωθεί η τιμή then όγκος πωλήσεων > όγκος αγορών .Confidence = 0,636363625526428 and Support = 84 Η τιμή που διαμορφώνεται για την μετοχή επηρεάζεται αρνητικά εάν ο όγκος των μετοχών που πωλείται είναι μεγαλύτερος από εκείνον των μετοχών που αγοράζονται. Ισχύει δηλαδή η άποψη ότι εάν πωλούνταν πολλές μετοχές σε μία μέρα τότε η τιμή της μετοχής θα παρουσιάσει μείωση. Επίσης πιο ισχυρό συμπέρασμα εξάγεται από τον κανόνα που παρουσιάζεται με κόκκινο χρωματισμό και διαφορετική γραμματοσειρά, καθώς έχουμε τα υψηλότερα επίπεδα confidence και support. Από αυτόν συμπεραίνουμε πως όταν μειώνεται η τιμή κλεισίματος τότε έχουμε τον όγκο των μετοχών που πωλήθηκαν να υπερισχύει εκείνου που αγοράστηκαν σε ποσοστό 33,7%. Για minimum support 15% , minimum confidence 15% (πειραματικός έλεγχος 2) If 60 then 11 .Confidence = 0,563758373260498 and Support = 84

Page 114: Nimertis_Pagouropoulos

108

If 11 then 60 .Confidence = 0,636363625526428 and Support = 84 Οι κανόνες είναι όμοιοι με του πειραματικού ελέγχου 1 Ομοίως και σε αυτόν τον έλεγχο οι κανόνες που μπορούν να κριθούν ως αξιοποιήσιμοι είναι οι: If 60 then 11 .Confidence = 0,563758373260498 and Support = 84 If 11 then 60 .Confidence = 0,636363625526428 and Support = 84 Οι κανόνες είναι όμοιοι με του πειραματικού ελέγχου 1 Για minimum support 20% , minimum confidence 20% (πειραματικός έλεγχος 3) If 60 then 11 .Confidence = 0,563758373260498 and Support = 84 If 11 then 60 .Confidence = 0,636363625526428 and Support = 84 Οι κανόνες είναι όμοιοι με του πειραματικού ελέγχου 1 Για minimum support 25% , minimum confidence 25% (πειραματικός έλεγχος 4) If 60 then 11 .Confidence = 0,563758373260498 and Support = 84 If 11 then 60 .Confidence = 0,636363625526428 and Support = 84 Οι κανόνες είναι όμοιοι με του πειραματικού ελέγχου 1 Για minimum support 30% , minimum confidence 30% (πειραματικός έλεγχος 5) If 60 then 11 .Confidence = 0,563758373260498 and Support = 84 If 11 then 60 .Confidence = 0,636363625526428 and Support = 84 Οι κανόνες είναι όμοιοι με του πειραματικού ελέγχου 1 Για minimum support 35% , minimum confidence 35% (πειραματικός έλεγχος 6) Δεν εξήχθησαν κανόνες.

Page 115: Nimertis_Pagouropoulos

109

Εφαρμογή 2 Στην παρούσα εφαρμογή θα δούμε τι σχέση μπορεί να υπάρξει ανάμεσα στην τιμή της μετοχής και στα μέγιστα και ελάχιστα επίπεδα που αγγίζει η τιμή της κατά την διάρκεια μιας συνεδρίασης. Για minimum support 10% , minimum confidence 10% (πειραματικός έλεγχος 1) If 31 then 11 .Confidence = 0,832000017166138 and Support = 104 Δηλαδή: If μειωθεί το ελάχιστο then μειώνεται η τιμή κλεισίματος .Confidence = 0,832000017166138 and Support = 104 If 21, 31 then 11 .Confidence = 0,876288652420044 and Support = 85 Δηλαδή: If μειωθεί το μέγιστο, μειωθεί το ελάχιστο then μειώνεται η τιμή κλεισίματος .Confidence = 0,876288652420044 and Support = 85 If 11, 31 then 21 .Confidence = 0,817307710647583 and Support = 85 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί το ελάχιστο then μειώνεται το μέγιστο .Confidence = 0,817307710647583 and Support = 85 If 11, 21 then 31 .Confidence = 0,858585834503174 and Support = 85 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί το μέγιστο then μειώνεται το ελάχιστο .Confidence = 0,858585834503174 and Support = 85 Για minimum support 15% , minimum confidence 15% (πειραματικός έλεγχος 2) If 31 then 11 .Confidence = 0,832000017166138 and Support = 104 Δηλαδή: If μειωθεί το ελάχιστο then μειώνεται η τιμή κλεισίματος .Confidence = 0,832000017166138 and Support = 104 If 21, 31 then 11 .Confidence = 0,876288652420044 and Support = 85 Δηλαδή:

Page 116: Nimertis_Pagouropoulos

110

If μειωθεί το μέγιστο, μειωθεί το ελάχιστο then μειώνεται η τιμή κλεισίματος .Confidence = 0,876288652420044 and Support = 85 If 11, 31 then 21 .Confidence = 0,817307710647583 and Support = 85 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί το ελάχιστο then μειώνεται το μέγιστο .Confidence = 0,817307710647583 and Support = 85 If 11, 21 then 31 .Confidence = 0,858585834503174 and Support = 85 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί το μέγιστο then μειώνεται το ελάχιστο .Confidence = 0,858585834503174 and Support = 85 Για minimum support 20% , minimum confidence 20% (πειραματικός έλεγχος 3) If 31 then 11 .Confidence = 0,832000017166138 and Support = 104 Δηλαδή: If μειωθεί το ελάχιστο then μειώνεται η τιμή κλεισίματος .Confidence = 0,832000017166138 and Support = 104 If 11 then 31 .Confidence = 0,787878811359406 and Support = 104 Δηλαδή: If μειωθεί η τιμή κλεισίματος then μειώνεται το ελάχιστο .Confidence = 0,787878811359406 and Support = 104 If 21, 31 then 11 .Confidence = 0,876288652420044 and Support = 85 Δηλαδή: If μειωθεί το μέγιστο, μειωθεί το ελάχιστο then μειώνεται η τιμή κλεισίματος .Confidence = 0,876288652420044 and Support = 85 If 11, 31 then 21 .Confidence = 0,817307710647583 and Support = 85 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί το ελάχιστο then μειώνεται το μέγιστο .Confidence = 0,817307710647583 and Support = 85

Page 117: Nimertis_Pagouropoulos

111

If 11, 21 then 31 .Confidence = 0,858585834503174 and Support = 85 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί το μέγιστο then μειώνεται το ελάχιστο .Confidence = 0,858585834503174 and Support = 85 Για minimum support 25% , minimum confidence 25% (πειραματικός έλεγχος 4) If 31 then 11 .Confidence = 0,832000017166138 and Support = 104 Δηλαδή: If μειωθεί το ελάχιστο then μειώνεται η τιμή κλεισίματος .Confidence = 0,832000017166138 and Support = 104 If 21, 31 then 11 .Confidence = 0,876288652420044 and Support = 85 Δηλαδή: If μειωθεί το μέγιστο, μειωθεί το ελάχιστο then μειώνεται η τιμή κλεισίματος .Confidence = 0,876288652420044 and Support = 85 If 11, 31 then 21 .Confidence = 0,817307710647583 and Support = 85 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί το ελάχιστο then μειώνεται το μέγιστο .Confidence = 0,817307710647583 and Support = 85 If 11, 21 then 31 .Confidence = 0,858585834503174 and Support = 85 Δηλαδή: If μειωθεί η τιμή κλεισίματος, μειωθεί το μέγιστο then μειώνεται το ελάχιστο .Confidence = 0,858585834503174 and Support = 85 Για minimum support 30% , minimum confidence 30% (πειραματικός έλεγχος 5) If 31 then 11 .Confidence = 0,832000017166138 and Support = 104 If 21, 31 then 11 .Confidence = 0,876288652420044 and Support = 85 If 11, 31 then 21 .Confidence = 0,817307710647583 and Support = 85 If 11, 21 then 31 .Confidence = 0,858585834503174 and Support = 85

Page 118: Nimertis_Pagouropoulos

112

Οι κανόνες είναι ακριβώς οι ίδιοι με του πειραματικού ελέγχου 4 Για minimum support 35% , minimum confidence 35% (πειραματικός έλεγχος 6) If 31 then 11 .Confidence = 0,832000017166138 and Support = 104 Δηλαδή: If μειωθεί το ελάχιστο then μειώνεται η τιμή κλεισίματος .Confidence = 0,832000017166138 and Support = 104 Για minimum support 40% , minimum confidence 40% (πειραματικός έλεγχος 7) If 31 then 11 .Confidence = 0,832000017166138 and Support = 104 Δηλαδή: If μειωθεί το ελάχιστο then μειώνεται η τιμή κλεισίματος .Confidence = 0,832000017166138 and Support = 104 Για minimum support 45% , minimum confidence 45% (πειραματικός έλεγχος 8) Δεν εξήχθησαν κανόνες. Όσον αφορά τους ελέγχους, από τον έλεγχο 2 και έπειτα, οι κανόνες έχουν ήδη εξαχθεί στον πρώτο έλεγχο (πειραματικός έλεγχος 1) και έχουν μεταφραστεί. Έχουμε μία ανακύκλωση κανόνων, και προχωρώντας μειώνεται ο αριθμός τους καθώς αυξάνουν οι απαιτήσεις του συστήματος. Συμπερασματικά παρατηρούμε ότι υπάρχει ανάλογη σχέση ανάμεσα στην τιμή της μετοχής και στο εάν μειώθηκαν τα επίπεδα που άγγιζαν τα maximum και minimum για την τιμή της μετοχής. Επίσης είχαμε ικανοποιητικά επίπεδα κυρίως όσον αφορά στη εμπιστοσύνη των κανόνων με πολλές φορές να ξεπερνάει το ποσοστό του 80%. Ο πιο αξιόλογος ίσως κανόνας, που αποδίδεται με κόκκινο χρωματισμό, τονίζει πως σε ποσοστό 41,7% όταν είχαμε μείωση του ελαχίστου επιπέδου της τιμής για την μετοχή, τότε η τιμή κλεισίματος παρουσίαζε μείωση. Εφαρμογή 3 Στο σημείο αυτό θα συμπεριλάβουμε όλα τα πεδία που έχουμε στην διάθεσή μας για τους ελέγχους. Οι τιμές που έχουμε επιλέξει για τις παραμέτρους μας είναι 35% και 40% και για τις δύο.

Page 119: Nimertis_Pagouropoulos

113

Για minimum support 35% , minimum confidence 35% (πειραματικός έλεγχος 1) If 41 then 51 .Confidence = 0,912000000476837 and Support = 114 Δηλαδή: If μειώνεται η τιμή αγοράς then μειώνεται η τιμή πώλησης .Confidence = 0,912000000476837 and Support = 114 If 31, 41 then 11 .Confidence = 0,968421041965485 and Support = 92 Δηλαδή: If μειώνεται το ελάχιστο, μειώνεται η τιμή αγοράς then μειώνεται η τιμή κλεισίματος .Confidence = 0,968421041965485 and Support = 92 If 31, 51 then 11 .Confidence = 0,947916686534882 and Support = 91 Δηλαδή: If μειώνεται το ελάχιστο, μειώνεται η τιμή πώλησης then μειώνεται η τιμή κλεισίματος .Confidence = 0,947916686534882 and Support = 91 If 41, 51 then 11 .Confidence = 0,921052634716034 and Support = 105 Δηλαδή: If μειώνεται η τιμή αγοράς, μειώνεται η τιμή πώλησης then μειώνεται η τιμή κλεισίματος .Confidence = 0,921052634716034 and Support = 105 If 11, 51 then 41 .Confidence = 0,945945918560028 and Support = 105 Δηλαδή: If μειώνεται η τιμή κλεισίματος, μειώνεται η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,945945918560028 and Support = 105 If 11, 41 then 51 .Confidence = 0,9375 and Support = 105 Δηλαδή: If μειώνεται η τιμή κλεισίματος, μειώνεται η τιμή αγοράς then μειώνεται η τιμή πώλησης.Confidence = 0,9375 and Support = 105 If 31, 51 then 41 .Confidence = 0,947916686534882 and Support = 91 Δηλαδή:

Page 120: Nimertis_Pagouropoulos

114

If μειώνεται το ελάχιστο, μειώνεται η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,947916686534882 and Support = 91 If 31, 41 then 51 .Confidence = 0,957894742488861 and Support = 91 Δηλαδή: If μειώνεται το ελάχιστο, μειώνεται η τιμή αγοράς then μειώνεται η τιμή πώλησης .Confidence = 0,957894742488861 and Support = 91 Για minimum support 40% , minimum confidence 40% (πειραματικός έλεγχος 2) If 41 then 51 .Confidence = 0,912000000476837 and Support = 114 Δηλαδή: If μειώνεται η τιμή αγοράς then μειώνεται η τιμή πώλησης .Confidence = 0,912000000476837 and Support = 114 If 41, 51 then 11 .Confidence = 0,921052634716034 and Support = 105 Δηλαδή: If μειώνεται η τιμή αγοράς, μειώνεται η τιμή πώλησης then μειώνεται η τιμή κλεισίματος .Confidence = 0,921052634716034 and Support = 105 If 11, 51 then 41 .Confidence = 0,945945918560028 and Support = 105 Δηλαδή: If μειώνεται η τιμή κλεισίματος, μειώνεται η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,945945918560028 and Support = 105 If 11, 41 then 51 .Confidence = 0,9375 and Support = 105 Δηλαδή: If μειώνεται η τιμή κλεισίματος, μειώνεται η τιμή αγοράς then μειώνεται η τιμή πώλησης.Confidence = 0,9375 and Support = 105 Από τους παραπάνω κανόνες μπορούμε να συμπεράνουμε ότι όταν μειώνεται η τιμή που πωλείται η μετοχή (ο μέσος των συναλλαγών), μειώνεται και η τιμή κλεισίματος. Το ίδιο συμβαίνει και για μείωση του μέσου πώλησης της μετοχής. Επίσης η ίδια σχέση ανάμεσα σε αυτά τα πεδία συμβαίνει και στην περίπτωση της μείωσης της τιμής τους με εξίσου υψηλά επίπεδα εμπιστοσύνης. Όσον αφορά τα μέγιστα και ελάχιστα επίπεδα που φθάνει η τιμή της μετοχής κατά την διάρκεια των συναλλαγών με τους μέσους πώλησης και αγοράς έχουμε και εδώ την ίδια συμπεριφορά. Με λίγα

Page 121: Nimertis_Pagouropoulos

115

λόγια υπάρχει αναλογία και κοινή πορεία στην συμπεριφορά της τιμής της μετοχής, με τα minimum, maximum, και τους μέσους διαπραγμάτευσης όσον αφορά την αγορά και την πώληση όπως και στην μετοχή της τράπεζας ΑΛΦΑ. Εφαρμογή 4 Στο συγκεκριμένο σημείο θα ακολουθήσουν κάποιοι πειραματικοί έλεγχοι του αλγορίθμου, στους οποίους η παράμετρος που αφορά την εμπιστοσύνη confidence, θα είναι μικρότερη της αντίστοιχης της επιβεβαίωσης support. Αυτό θα γίνει επειδή το confidence είναι εκείνο με την μεγαλύτερη βαρύτητα για την εξαγωγή των κανόνων, οπότε αυτομάτως δίνεται η δυνατότητα στο σύστημα για μεγαλύτερη ελαστικότητα στην εξαγωγή των κανόνων. Για minimum support 30% , minimum confidence 10% (πειραματικός έλεγχος 1) If 31, 41 then 11 .Confidence = 0,968421041965485 and Support = 92 Δηλαδή: If μειώνεται το ελάχιστο, μειώνεται η τιμή αγοράς then μειώνεται η τιμή κλεισίματος .Confidence = 0,968421041965485 and Support = 92 If 31, 51 then 11 .Confidence = 0,947916686534882 and Support = 91 Δηλαδή: If μειώνεται το ελάχιστο, μειώνεται η τιμή πώλησης then μειώνεται η τιμή κλεισίματος .Confidence = 0,947916686534882 and Support = 91 If 41, 51 then 11 .Confidence = 0,921052634716034 and Support = 105 Δηλαδή: If μειώνεται η τιμή αγοράς, μειώνεται η τιμή πώλησης then μειώνεται η τιμή κλεισίματος .Confidence = 0,921052634716034 and Support = 105 If 11, 51 then 41 .Confidence = 0,945945918560028 and Support = 105 Δηλαδή: If μειώνεται η τιμή κλεισίματος, μειώνεται η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,945945918560028 and Support = 105 If 11, 41 then 51 .Confidence = 0,9375 and Support = 105 Δηλαδή:

Page 122: Nimertis_Pagouropoulos

116

If μειώνεται η τιμή κλεισίματος, μειώνεται η τιμή αγοράς then μειώνεται η τιμή πώλησης.Confidence = 0,9375 and Support = 105 If 31, 51 then 41 .Confidence = 0,947916686534882 and Support = 91 Δηλαδή: If μειώνεται το ελάχιστο, μειώνεται η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,947916686534882 and Support = 91 If 31, 41 then 51 .Confidence = 0,957894742488861 and Support = 91 Δηλαδή: If μειώνεται το ελάχιστο, μειώνεται η τιμή αγοράς then μειώνεται η τιμή πώλησης .Confidence = 0,957894742488861 and Support = 91 Για minimum support 40% , minimum confidence 10% (πειραματικός έλεγχος 2) If 41 then 51 .Confidence = 0,912000000476837 and Support = 114 Δηλαδή: If μειώνεται η τιμή αγοράς then μειώνεται η τιμή πώλησης .Confidence = 0,912000000476837 and Support = 114 If 41, 51 then 11 .Confidence = 0,921052634716034 and Support = 105 Δηλαδή: If μειώνεται η τιμή αγοράς, μειώνεται η τιμή πώλησης then μειώνεται η τιμή κλεισίματος .Confidence = 0,921052634716034 and Support = 105 If 11, 51 then 41 .Confidence = 0,945945918560028 and Support = 105 Δηλαδή: If μειώνεται η τιμή κλεισίματος, μειώνεται η τιμή πώλησης then μειώνεται η τιμή αγοράς .Confidence = 0,945945918560028 and Support = 105 If 11, 41 then 51 .Confidence = 0,9375 and Support = 105 Δηλαδή: If μειώνεται η τιμή κλεισίματος, μειώνεται η τιμή αγοράς then μειώνεται η τιμή πώλησης.Confidence = 0,9375 and Support = 105

Page 123: Nimertis_Pagouropoulos

117

Ομοίως και εδώ έχουμε ανάλογη σχέση ανάμεσα σε όλα τα πεδία του πίνακα όσον αφορά την μείωση. ΕΞΕΤΑΖΟΝΤΑΣ ΤΗΝ ΣΧΕΣΗ ΜΕΤΑΞΥ ΤΩΝ ΔΥΟ ΜΕΤΟΧΩΝ Στο σημείο αυτό θα παρουσιάσουμε 3 ελέγχους οι οποίοι αφορούν την πορεία κλεισίματος της τιμής των μετοχών σχετικά με τον αν επήλθε αύξηση ή μείωση και το τι σχέση υπάρχει μεταξύ τους. Για την μετοχή της Άλφα, έχουμε 11 για αύξηση της τιμής και 10 για μείωση της τιμής και για την Πειραιώς 21 για αύξηση και 20 για μείωση. Για minimum support 20% , minimum confidence 20% (πειραματικός έλεγχος 1) If 21 then 11 .Confidence = 0,772727251052856 and Support = 102 If 11 then 21 .Confidence = 0,739130437374115 and Support = 102 Για minimum support 25% , minimum confidence 25% (πειραματικός έλεγχος 2) If 21 then 11 .Confidence = 0,772727251052856 and Support = 102 If 11 then 21 .Confidence = 0,739130437374115 and Support = 102 Για minimum support 30% , minimum confidence 30% (πειραματικός έλεγχος 3) If 21 then 11 .Confidence = 0,772727251052856 and Support = 102 Δηλαδή: If αυξηθεί η τιμή της Πειραιώς then αυξηθεί η τιμή της Άλφα .Confidence = 0,772727251052856 and Support = 102 If 11 then 21 .Confidence = 0,739130437374115 and Support = 102 Δηλαδή: If αυξηθεί η τιμή της Άλφα then αυξηθεί η τιμή της Πειραιώς .Confidence = 0,739130437374115 and Support = 102

Page 124: Nimertis_Pagouropoulos

118

Από τα παραπάνω συμπεραίνουμε πως σε ένα ποσοστό 40,8% των περιπτώσεων, δηλαδή σε 102 από τις 249 περιπτώσεις, όταν αυξάνεται η τιμή κλεισίματος της μίας μετοχής τότε αυξάνεται και της άλλης. Στην περίπτωση δε που αφορά η υπόθεση την μετοχή της Πειραιώς τότε λόγο της μεγαλύτερης εμπιστοσύνης που έχουμε στον κανόνα, είναι πιθανότερο να αυξηθεί και της ΑΛΦΑ, ενώ το αντίστροφο ναι μεν ισχύει αλλά με μικρότερη εμπιστοσύνη. Επομένως ίσως αξίζει να παρακολουθείται και να δίνεται μεγαλύτερη προσοχή στην πορεία της μετοχής Πειραιώς όσον αφορά την κοινή πορεία που μπορούν να έχουν.

Page 125: Nimertis_Pagouropoulos

119

Β. Εφαρμόζοντας την μέθοδο της Ταξινόμησης και της Ομαδοποίησης στην Χρηματοοικονομική Ανάλυση για θέματα Πτώχευσης και Βιωσιμότητας επιχειρήσεων Στο σημείο αυτό θα δούμε τι λύσεις μπορεί να προσφέρει η επιστήμη της Μηχανικής Μάθησης μέσω της μεθόδου Data Mining στα θέματα της πτώχευσης και της βιωσιμότητας τω επιχειρήσεων. Τα δύο αυτά φαινόμενα θα εξεταστούν μαζί καθώς η πτώχευση είναι πολλές φορές η εξέλιξη μία μη βιώσιμης εταιρείας και γενικά, χαρακτηριστικά βιώσιμων οργανισμών σε καμία περίπτωση δεν χαρακτηρίζουν εταιρείες που κινδυνεύουν η που έχουνε πτωχεύσει. Αυτό ο κάθε ενδιαφερόμενος μπορεί να το εκμεταλλευτεί για να εξάγει χρήσιμα συμπεράσματα αποκλείοντας χαρακτηριστικά που αφορούν την κάθε περίπτωση για χάρη της άλλης. Έχουν συλλεχθεί κάποια οικονομικά δεδομένα πάνω στα οποία θα γίνουν οι εφαρμογές των αλγορίθμων (με την βοήθεια του προγράμματος Διογένης) τα οποία χρειάστηκαν προεπεγεργασία ώστε να είναι κατάλληλα για να δοθούν σαν είσοδος στον ανάλογο αλγόριθμο. Όλα τα βήματα και οι διαδικασίες που ακολουθήθηκαν θα παρουσιαστούν παρακάτω. Για τις μεθόδους της Ταξινόμησης και της Ομαδοποίησης θα χρησιμοποιήσουμε τους αλγορίθμους C4.5 και Κ-Modes αντίστοιχα μέσω της εφαρμογής Διογένης (Σύστημα Ιεραρχικά Κατανεμημένης Εξόρυξης Λειτουργικών Επιχειρηματικών Δεδομένων). Οι πειραματικοί έλεγχοι θα διαφοροποιούνται κάθε φορά ανάλογα με τα κριτήρια και τις επιλογές που θα γίνονται, και στην συνέχεια θα παραθέτονται τα διάφορα συμπεράσματα. Ο πίνακας πάνω στον οποίο θα γίνει η εφαρμογή για Ταξινόμηση και Ομαδοποίηση περιέχει οικονομικά στοιχεία από 68 πτωχευμένες και 72 μη πτωχευμένες επιχειρήσεις, τα οποία έχουν επεξεργαστεί σύμφωνα με τον αλγόριθμο που έχουμε περιγράψει στην συνέχεια για κατηγοριοποίηση. Οι αρχικοί πίνακες που έχουμε στην διάθεσή μας αποτελούνται από οικονομικά στοιχεία τα οποία αφορούν τις 140 επιχειρήσεις. Η επιλογή τους είναι τυχαία, με αποτέλεσμα να μην είναι των ίδιων χαρακτηριστικών, όσον αφορά το οικονομικό τους μέγεθος, αλλά να υπάρχει διαφοροποίηση και ως προς τον κλάδο στον οποίο δραστηριοποιούνται. Τα στοιχεία που έχουμε στην διάθεσή μας για όλες της εταιρείες είναι τα εξής: Χρηματοοικονομικές δαπάνες Χρεόγραφα Συσσωρευμένες αποσβέσεις Σύνολο παθητικού Σύνολο ενεργητικού Σύνολο αποσβέσεων Συμμετοχές Προμήθειες, λοιπά λειτουργικά έσοδα Μηχανικός εξοπλισμός Μικτό κέρδος Μη λειτουργικά έξοδα Μετοχικό εταιρικό κεφάλαιο Μέσο-μακροπρόθεσμες προβλέψεις, υποχρεώσεις

Page 126: Nimertis_Pagouropoulos

120

Μερίσματα πληρωτέα, κέρδη προς διανομή Μακροπρόθεσμες απαιτήσεις Λοιπές υποχρεώσεις, μεταβιβάσιμοι λογαριασμοί Λοιπές απαιτήσεις, μεταβιβάσιμοι λογαριασμοί Λοιπά λειτουργικά έξοδα Λειτουργικό περιθώριο Κύκλος εργασιών Κτίρια εγκαταστάσεις Κέρδος προ φόρου εισοδήματος Καθαρά πάγια Καθαρά μερίσματα Ίδια κεφάλαια Ημικατεργασμένα προϊόντα Γραμμάτια πληρωτέα, προμηθευτές, πιστωτές Γήπεδα οικόπεδα Φόρος εισοδήματος Αποσβέσεις μηχανολογικού εξοπλισμού Αποσβέσεις εκτός κόστους πωληθέντων Αποσβέσεις κτιριακών εγκαταστάσεων Αποσβέσεις μέσα στο κόστος Αποθέματα Αδιανέμητα κέρδη, συσσωρευμένες ζημιές Ταμείο, τράπεζες Έτοιμα προϊόντα, εμπορεύματα Ασώματες-ακίνητες δαπάνες πολλαπλών αποσβέσεων Οφειλές σε τράπεζες, δόσεις δανείων Παρακάτω παρουσιάζουμε τον αλγόριθμο μέσω του οποίου έγινε η επεξεργασία των δεδομένων που τελικά μας έδωσε τον πίνακα πάνω στον οποίο θα γίνουν οι έλεγχοι:

Page 127: Nimertis_Pagouropoulos

121

Αλγόριθμος Διακριτοποίησης, Κατηγοριοποίησης και Επεξεργασίας των δεδομένων Στο σημείο αυτό θα περιγράψουμε τον αλγόριθμο που χρησιμοποιήσαμε για την κατηγοριοποίηση των δεδομένων που αφορούν στις πτωχευμένες και μη πτωχευμένες επιχειρήσεις. Αξίζει να σημειωθεί ότι σε κάποια σημεία τροποποιήθηκε λόγο της φύσης των αριθμητικών δεδομένων που είχαμε. MAIN LOOP:

1. Δημιούργησε μία λίστα των τιμών του κάθε πεδίου. Εδώ οι τιμές αναφέρονται στο κάθε διαφορετικό νούμερο που συναντάμε και το πεδίο αντιπροσωπεύεται από το κάθε στοιχείο που έχουμε, δηλαδή πάγια, ταμείο κ.α. [16]

2. Για κάθε τιμή θα κάνουμε

2.1 Υπολογίζουμε την συχνότητα εμφάνισης των τιμών ανάλογα με την

κλάση που βρίσκονται και ανήκουν. Στην περίπτωσή μας είναι ελάχιστες οι τιμές πλην του μηδενός που χαρακτηρίζονται και από τις δύο κλάσεις

2.2 Καταχωρούμε την κάθε τιμή στην ανάλογη κλάση με την procedure ASSIGN;

enddo

3. Δημιουργούμε διαστήματα τιμών χρησιμοποιώντας την procedure INTERVAL;

ASSIGN Εάν για την κάθε τιμή όλα τα αντικείμενα (εδώ είναι οι εταιρείες) ανήκουν στην ίδια κλάση τότε καταχωρούμε την τιμή αυτή στην αντίστοιχη κλάση. Στην περίπτωσή μας ισχύει αυτό εκτός της τιμής μηδέν 0, όπου την καταχωρούμε εμείς στην ανάλογη κλάση για κάθε στοιχείο ανάλογα με το πόσο συχνά εμφανίζεται. Δηλαδή επιλέγουμε την κλάση όπου το νούμερο ύπαρξης / εμφάνισης συχνότητας είναι το μεγαλύτερο. Επειδή στην περίπτωσή μας η κάθε τιμή ανήκει σε πτωχευμένη ή μη εταιρεία δεν υπάρχουν τιμές που να χαρακτηρίζονται ως ΄΄UNKNOWN’’, επομένως κάθε εντολή από τον αλγόριθμο που αναφέρεται εκεί στην περίπτωσή μας αγνοείται. INTERVAL: Στην περίπτωση της δημιουργίας διαστημάτων εμάς θα μας απασχολήσουν οι εντολές 3.1 και 3.3 από την στιγμή που δεν έχουμε τιμές UNKNOWN. Στην ουσία όταν μία

Page 128: Nimertis_Pagouropoulos

122

ακολουθία από τιμές ανήκει σε μία κλάση τότε θα δημιουργούμε ένα διάστημα αυτής της κλάσης INTI = [LBoundi, UBoundi]. Έπειτα θα προσπαθήσουμε να κάνουμε συνεχή τα διαστήματα ανάμεσα στις πτωχευμένες και τις μη πτωχευμένες με την παρακάτω σχέση LBoundi := (LBoundi + UBoundi) / 2 and UBoundi-1 := LBoundi; Ο πίνακας που έχουμε στην διάθεσή μας αποτελείται από τιμές οι οποίες αντιπροσωπεύουν τους μέσους των άκρων κάποιων διαστημάτων που ανήκαν εξολοκλήρου σε μία κλάση, δηλαδή είτε σε πτωχευμένη εταιρεία, είτε σε μη πτωχευμένη. Για παράδειγμα εάν σε 6 κελιά είχαμε τις τιμές (σε ευρώ), 0, 100, 359, 400, 550, 1000, οι οποίες ανήκουν σε εταιρείες πτωχευμένες τότε αυτές θα αντικατασταθούν με τον μέσο των άκρων του διαστήματος, δηλαδή το 500 ( [0+1000]/2 ) και θα ανήκει η τιμή αυτή στην κλάση πτωχευμένες. Θα έχουμε δηλαδή μία γραμμή στην βάση δεδομένων μας που θα αντιπροσωπεύει τις άλλες 6. Επίσης αξίζει να αναφέρουμε ότι για τον λόγο που η τιμή 0 εμφανιζόταν με πολύ μεγαλύτερη συχνότητα από ότι οι άλλες τιμές, τα διάφορα κενά που εμφανίστηκαν στον πίνακα κατά την διάρκεια τις επεξεργασίας των δεδομένων καλύφθηκαν με την τιμή του μέσου του διαστήματος που ανήκει το μηδέν. Για αυτόν τον λόγο κάποιες τιμές έχουν μεγαλύτερη συχνότητα εμφάνισης από κάποιες άλλες στον τελικό πίνακα. Τελειώνοντας, αξίζει να αναφερθεί ότι η κατηγοριοποίηση έγινε για να κατασκευαστούν τα διάφορα διαστήματα. Η βάση δεδομένων που θα προκύψει για την εφαρμογή θα είναι ο τελικός πίνακας με μη κενά κελιά που παρουσιάζεται παρακάτω (παρουσιάζεται ένα μέρος της βάσης):

Page 129: Nimertis_Pagouropoulos

123

Β1. Εφαρμόζοντας την μέθοδο της Ταξινόμησης στην Χρηματοοικονομική Ανάλυση

Πρωτού να ξεκινήσουμε την εφαρμογή όσον αφορά την Ταξινόμηση μέσω του αλγορίθμου C4.5 είναι κρίσιμο να αναφερθούμε σε μερικά στοιχεία που χαρακτηρίζουν τον αλγόριθμο του προγράμματος και πρέπει να κατανοηθούν ώστε χρησιμοποιώντας τον αλγόριθμο, να λαμβάνουμε την μεγαλύτερη χρησιμότητα που μπορεί να μας προσφέρει. Το περιβάλλον του, όπως είναι επόμενο, απεικονίζεται σε σελίδες / φύλλα οι οποίες είναι οι :

Data Parameters Results – Tree/Results-Rules Classify Table

Σελίδα Data Η πρώτη σελίδα είναι αυτή που επιλέγεται η είσοδος του αλγόριθμου. Συμπληρώνουμε το όνομα της βάσης με την οποία θέλουμε να συνδεθούμε και αφού κάνουμε login, έχουμε την δυνατότητα να επιλέξουμε τον πίνακα που μας ενδιαφέρει. Σε σχέση με τον πίνακα που πρέπει να επιλέξουμε επιπλέον αν θέλουμε να δημιουργήσουμε αντίγραφο του πίνακα και το αντίγραφο (ή ο αρχικός πίνακας σε περίπτωση που δεν τον αντιγράψουμε) θα σβηστεί στο τέλος από την βάση ή όχι. Όσο αφορά τα πεδία τα οποία θα πρέπει να επιλεγούν, ο C4.5 είναι αλγόριθμος ταξινόμησης οπότε πρέπει να επιλεγεί ένα σύνολο πεδίων επιλογέων και ένα πεδίο τάξης το οποίο να μην περιέχεται στο σύνολο αυτό. Τα πεδία των επιλογέων επιλέγονται από την λίστα των related attributes και το πεδίο τάξης από την λίστα επιλογής του target attribute.

Page 130: Nimertis_Pagouropoulos

124

Σελίδα Parameters Επιλογή Criteria Η πρώτη παράμετρος είναι η Criteria όπου ορίζουμε πιο κριτήριο θα χρησιμοποιηθεί κατά την εξαγωγή του δέντρου απόφασης. Αν επιλέξουμε το Ratio θα χρησιμοποιηθεί το κριτήριο αναλογίας κέρδους, διαφορετικά το απλό κριτήριο κέρδους - πληροφορίας. Το πρώτο είναι ουσιαστικά μια εξέλιξη του δεύτερου όπου λαμβάνεται υπόψη όχι απλώς πόσο καλά χωρίζονται οι εγγραφές σε σχέση με την τιμή τάξης τους αλλά και ποια είναι η μορφή των δεδομένων σε σχέση με το «σπάσιμο» αυτό. Έχει παρατηρηθεί ότι το απλό κριτήριο κέρδους ευνοεί ελέγχους σε πεδία με πολλές διακριτές τιμές. Το πρόβλημα αυτό λύνεται με το κριτήριο αναλογίας

Page 131: Nimertis_Pagouropoulos

125

κέρδους ως εξής. Μελετάει την πληροφορία όχι μόνο σε σχέση με την τιμή τάξης αλλά σε σχέση με την τιμή του πεδίου ελέγχου. Η πληροφορία που χρειαζόμαστε για να μάθουμε την τιμή του πεδίου αυξάνει προφανώς όσο περισσότερες διακριτές τιμές υπάρχουν. Αν λοιπόν διαιρέσουμε το κέρδος με την πληροφορία αυτή παίρνουμε μία αρκετά καλύτερα μετρική, που εμποδίζει τα πολύ σύνθετα «σπασίματα». Γενικά είναι καλύτερο να χρησιμοποιείται το κριτήριο αναλογίας κέρδους και έχει παραμετροποιηθεί απλώς για λόγους πειραματισμών. Επιλογή κλαδέματος Η επόμενη παράμετρος αφορά το «κλάδεμα» ή όχι του δέντρου. Εφόσον επιλεγεί η επιλογή PruneCheck θα βγει σαν έξοδος μία «κλαδεμένη» έκδοση του δέντρου. Η έκδοση αυτή θα έχει λιγότερους κόμβους και, σύμφωνα με τον αλγόριθμο, θα είναι απαλλαγμένη από εξειδικεύσεις που μειώνουν την αξία του δέντρου σαν μοντέλο πρόβλεψης και ταξινόμησης. Ο τρόπος που γίνεται το κλάδεμα αφορά στην εκτίμηση του λάθους ταξινόμησης σε ένα κόμβο σε σχέση με την εκτίμηση του λάθους αθροιστικά στα παιδιά του. Άμα το λάθος στον κόμβο εκτιμηθεί μικρότερο από ότι στα παιδιά του τότε το δέντρο σε εκείνο το σημείο κλαδεύεται και μετατρέπεται σε φύλλο. Για την εκτίμηση του λάθους υπάρχουν προφανώς μόνο στατιστικά στοιχεία και όχι πραγματικά. Χρησιμοποιούμε την διωνυμική κατανομή για να μας δώσει μία «απαισιόδοξη» στατιστική εκτίμηση του λάθους με βάση το σύνολο των εγγραφών του συνόλου εκπαίδευσης στους κόμβους. Η εκτίμηση λάθους είναι μεγάλη για εξειδικεύσεις κόμβων που φαίνονται ότι μάλλον δεν στέκουν γενικά αλλά αποτελούν ειδικές περιπτώσεις του συνόλου εκπαίδευσης. Ο βαθμός κλαδέματος εξαρτάται από δύο παραμέτρους, το επίπεδο εμπιστοσύνης (confidence level) και το επιπρόσθετο λάθος (error overhead). Το επίπεδο εμπιστοσύνης δηλώνει ουσιαστικά πόσο πολύ εμπιστευόμαστε τα δεδομένα που έχουμε σαν δείγμα από ένα άπειρο σύνολο δεδομένων. Η εκτίμηση λάθους, που καθοδηγεί και το κλάδεμα, αυξάνει όσο μικρότερο εμπιστοσύνης έχουμε. Οπότε μικρό επίπεδο εμπιστοσύνης σημαίνει πιο δραστικό κλάδεμα. Η συνηθισμένη τιμή για αυτήν την παράμετρο είναι 0,25. Το επιπρόσθετο λάθος είναι ένας πιο ωμός τρόπος να αυξηθεί η δραστικότητα του κλαδέματος. Το λάθος αυτό ενισχύει αθροιστικά την εκτίμηση λάθους για ένα κόμβο και έτσι το κλάδεμα γίνεται σε περισσότερους κόμβους. Η επίδραση της παραμέτρου αυτής είναι αρκετά μεγάλη και για μεγάλες τιμές συχνά καταλήγουμε σε δέντρο ενός φύλλου! Συνήθως λοιπόν το αφήνουμε 0 ή 0,1. Επιλογή κανόνων Επόμενη παράμετρος είναι το ExportRules όπου δηλώνουμε αν θέλουμε να εξάγουμε και σύνολα κανόνων ταξινόμησης εκτός από δέντρα. Ένα σύνολο κανόνων προκύπτει από ένα δέντρο αν θεωρήσουμε κάθε μονοπάτι του δέντρου σαν ένα κανόνα. Αναφέρονται οι εγγραφές που είναι σωστές και λάθος ταξινομημένες. Ακόμη υπάρχει επιλογή να ταξινομηθεί το σύνολο των κανόνων επιλέγοντας την

Page 132: Nimertis_Pagouropoulos

126

επιλογή Shortrules. Αυτή χρησιμοποιεί μία μετρική, η τιμή της οποίας αναφέρεται, που μετράει το πόσο σημαντικός είναι ο κανόνας και τον ταξινομεί ανάλογα. Μετάφραση κανόνων Μπορούμε, εφόσον υπάρχει δυνατότητα, να μεταφράσουμε την έξοδο των κανόνων σε πιο κατανοήσιμη μορφή. Οι κανόνες, εφόσον μεταφραστούν, θα βγουν σε if-then μορφή και θα έχουν αντικατασταθεί οι τιμές των πεδίων με πιο ευκολονόητες τιμές από αυτές που υπάρχουν στα δεδομένα. Αυτό γίνεται επιλέγοντας το TranslateRules. Εννοείται ότι πρέπει να έχει φροντίσει ο administrator της βάσης να κατασκευάσει πίνακα μετάφρασης για το σύνολο των δεδομένων που χρησιμοποιήσαμε. Παραγωγή Expert Output Επιλέγοντας να παράγουμε έξοδο για expert system απλώς παράγουμε ένα επιπλέον αρχείο. Οι κανόνες μετασχηματίζονται και σε μία άλλη μορφή κατάλληλη για επεξεργασία από ένα expert system.

Page 133: Nimertis_Pagouropoulos

127

Σελίδες Results- Tree/Results- Rules Η έξοδος βγαίνει λοιπόν σε δύο μορφές, σε δέντρα και σε σύνολα κανόνων οι οποίοι είναι κατανοήσιμοι αντίθετα από τα δέντρα τα οποία έχουν έναν συμβολισμό και συμβάσεις στην απεικόνισή τους όπως θα επισημάνουμε παρακάτω. Κάθε κόμβος περιγράφεται από τα στοιχεία του που χωρίζονται με το σύμβολο «|». Το πρώτο στοιχείο είναι η διακριτή τιμή από το πεδίο εξειδίκευσης του πατέρα που οδηγεί σε αυτόν τον κόμβο. Προφανώς για την ρίζα του δέντρου το στοιχείο αυτό είναι κενό. Ακολουθούν τα στοιχεία Num και Error. Το Num είναι ο αριθμός των εγγραφών του συνόλου εκπαίδευσης που «καλύπτονται» από αυτόν τον κόμβο. Για ρίζα πχ., το Num είναι ο συνολικός αριθμός εγγραφών του συνόλου εκπαίδευσης. Το Err είναι ο αριθμός των εγγραφών που ταξινομούνται λάθος στον κόμβο σε σχέση με την επικρατούσα τιμή τάξης Class : που ακολουθεί. Το Err φυσικά έχει μεγαλύτερη σημασία για τα φύλλα του δέντρου, όπου καταλήγει η διαδικασία ταξινόμησης , για να δούμε την ακρίβεια με την οποία χωρίζονται τελικά οι εγγραφές. Το τελευταίο στοιχείο του κόμβου είναι το NextAttr όπου δηλώνεται το όνομα του πεδίου που χρησιμοποιείται για έλεγχο στον κόμβο αυτόν. Στα φύλλα όπου δεν γίνονται έλεγχοι η τιμή που δίνεται είναι «‗leaf».

Page 134: Nimertis_Pagouropoulos

128

Σελίδα Classify Table Μαζί με την σελίδα των αποτελεσμάτων, όπου παρουσιάζονται οι κανόνες, εμφανίζεται και αυτή του Classify Table, η τέταρτη της φόρμας. Η σελίδα αυτή είναι προαιρετική και εξαρτάται από το αν μας ενδιαφέρει να χρησιμοποιήσουμε τους κανόνες που μόλις έχουμε πάρει ώστε να ταξινομήσουμε έναν άλλο πίνακα. Στην περίπτωση αυτήν συνδεόμαστε με την βάση όπου βρίσκεται ο πίνακας προς ταξινόμηση, επιλέγουμε τον πίνακα και τι πεδίο που πρέπει να ταξινομηθεί. Ο πίνακας πρέπει να έχει τα πεδία που χρησιμοποιούνται στους κανόνες. Το πεδίο που έχει επιλεγεί για ταξινόμηση θα πρέπει προφανώς να μπορεί να αποθηκεύσει αλφαριθμητικά δεδομένα. Αν περιέχει ήδη δεδομένα, αυτά θα καλυφθούν από τις νέες τιμές τάξης. (Στην εργασία δεν χρησιμοποιήθηκε η συγκεκριμένη λειτουργία) Στους ελέγχους που γίνανε επιλέξαμε για κριτήριο το Ratio ενώ κρίθηκε σκόπιμο να μην ενεργοποιηθεί η επιλογή του κλαδέματος, Prune Check για τον λόγο ότι δεν έδινε κανένα αξιόλογο αποτέλεσμα (στην ουσία δεν έδινε σε καμία περίπτωση κάποιον κανόνα, πιθανόν λόγο της φύσης των δεδομένων που έχουμε στην διάθεσή μας). Τέλος ενεργοποιήσαμε την επιλογή μετάφρασης και ταξινόμησης των κανόνων. Οι κανόνες που εξήχθησαν από το σύστημα και που κρίθηκαν από εμάς ως αξιοποιήσιμοι παρουσιάζονται παρακάτω με τον ανάλογο σχολιασμό. Σε πολλούς ελέγχους τα αποτελέσματα δεν ήταν ικανοποιητικά και για τον λόγο αυτό δεν παρουσιάζονται καθώς δεν ήταν δυνατή η εξαγωγή χρήσιμων συμπερασμάτων. ΠΕΙΡΑΜΑΤΙΚΟΣ ΕΛΕΓΧΟΣ 1 Στοιχεία που επιλέχθηκαν, related attributes: Όλα Στοιχεία πεδίου τάξης, target attribute: Κλάση Στον συγκεκριμένο έλεγχο επιλέξαμε όλα τα οικονομικά στοιχεία που έχουμε στην διάθεσή μας, ώστε να δούμε πως σχετίζονται και συνδέονται με την ανάλογη κλάση, πτωχευμένη εταιρεία η μη. ADIANKERDHSYSSZHMIES -139,75 ETOIMAPROIONTAEMPOREYM 187,5 APOSBEKTOSKOSTPOL 1942 CLASS PT 11 0 1,15277779102325

Page 135: Nimertis_Pagouropoulos

129

Ο παραπάνω κανόνας ενημερώνει ότι οι 3 τιμές των στοιχείων βρεθήκαν στον πίνακα εκπαίδευσης 11 φορές σε εταιρείες που ήταν πτωχευμένες και καμία σε μη πτωχευμένη εταιρεία. Επειδή η τιμή αυτή αντιπροσωπεύσει ένα διάστημα (έχουμε αναφέρει ότι η κάθε τιμή είναι ο μέσος του ανάλογου διαστήματος), πιθανόν οι τιμές αυτές που περιέχουν τα αντίστοιχα διαστήματα να κρίνονται ως μη ικανοποιητικές από οικονομική άποψη για την υγιή λειτουργία μιας οικονομικής μονάδας και να πρέπει να αποφεύγονται. Δηλαδή για τα αδιανέμητα κέρδη / συσσωρευμένες ζημιές το διάστημα [-323, 43,5], για τα έτοιμα προϊόντα και εμπορεύματα το διάστημα [0, 202] και για τις αποσβέσεις εκτός κόστους πωληθέντων [0, 235] κρίνονται ως επικίνδυνα και μη ικανοποιητικά. Επίσης θα μπορούσαμε να συμπεράνουμε ότι τα στοιχεία αδιανέμητα κέρδη - συσσωρευμένες ζημιές, έτοιμα προϊόντα και εμπορεύματα, αποσβέσεις εκτός κόστους πωληθέντων έχουν μία σημαντικότητα όσον αφορά το φαινόμενο της πτώχευσης για της εταιρείες και χρίζουν ιδιαίτερης μελέτης και προσοχής σε μία επιχείρηση. ΠΕΙΡΑΜΑΤΙΚΟΣ ΕΛΕΓΧΟΣ 2 Στοιχεία που επιλέχθηκαν, related attributes: Σύνολο παθητικού Σύνολο ενεργητικού Μέσο-μακροπρόθεσμες προβλέψεις, υποχρεώσεις Γραμμάτια πληρωτέα, προμηθευτές, πιστωτές Οφειλές σε τράπεζες, δόσεις δανείων Στοιχεία πεδίου τάξης, target attribute: Κλάση SYNENERGHTIKOY 43467,75 TAMEIOTRAPEZES 766 CLASS PT 7 0 1,09722220897675 Παρατηρούμε ότι τα ανάλογα επίπεδα τιμών ανήκουν αποκλειστικά σε εταιρείες που είναι πτωχευμένες, επομένως κρίνονται ως επικίνδυνα και μη κατάλληλα για τον οποιονδήποτε οικονομικό οργανισμό. Πιθανόν να είναι πολύ χαμηλά, από την στιγμή που αφορούν και στοιχεία του ενεργητικού για την εταιρεία, και επομένως στοιχεία που αντιπροσωπεύουν ποσά που της ανήκουν. Πιο συγκεκριμένα για το ταμείο το διάστημα [0, 1532] φαίνεται να μην είναι ικανοποιητικό όσον αφορά την οικονομική κατάσταση της εταιρείας. Για το ενεργητικό το διάστημα [0, 10756] ομοίως μπορεί να χαρακτηριστεί ότι δεν είναι ικανό για να εγγυηθεί στην οποιαδήποτε εταιρεία την βιωσιμότητά της.

Page 136: Nimertis_Pagouropoulos

130

ΠΕΙΡΑΜΑΤΙΚΟΣ ΕΛΕΓΧΟΣ 3 Στοιχεία που επιλέχθηκαν, related attributes: Οφειλές σε τράπεζες, δόσεις δανείων Ταμείο, τράπεζες Ίδια κεφάλαια Μετοχικό εταιρικό κεφάλαιο Στοιχεία πεδίου τάξης, target attribute: Κλάση IDIAKEFALAIA 2930 TAMEIOTRAPEZES 766 CLASS PT 8 0 1,11111116409302 Στον συγκεκριμένο έλεγχο βρέθηκαν 8 περιπτώσεις εταιρειών που είχαν τις τιμές 2930 (αντιστοιχεί στο διάστημα [–1105, 6965] ) για τα ίδια κεφάλαια και 766 (διάστημα [0, 1532] ) για το ταμείο / τράπεζες και ανήκαν όλες στην κλάση των πτωχευμένων. Επομένως οι τιμές που περιέχονται στα αντίστοιχα διαστήματα κρίνονται ως μη ικανοποιητικές (σε επίπεδο) για οικονομικούς οργανισμούς. Αντιθέτως μπορούμε να ισχυριστούμε ότι εταιρείες που κυμαίνονται εκεί, οι αντίστοιχες για τα στοιχεία τιμές τους, αντιμετωπίζουν πρόβλημα. ΠΕΙΡΑΜΑΤΙΚΟΣ ΕΛΕΓΧΟΣ 4 Στοιχεία που επιλέχθηκαν, related attributes: Σύνολο αποσβέσεων Μικτό κέρδος Μερίσματα πληρωτέα, κέρδη προς διανομή Κέρδος προ φόρου εισοδήματος Αδιανέμητα κέρδη, συσσωρευμένες ζημιές

Page 137: Nimertis_Pagouropoulos

131

Στοιχεία πεδίου τάξης, target attribute: Κλάση ADIANKERDHSYSSZHMIES -139,75 KERDPROFOREISOD -726 CLASS PT 5 0 1,06944441795349 Στον συγκεκριμένο έλεγχο βρέθηκαν 5 εταιρείες που ανήκαν στην κλάση των πτωχευμένων και τα αδιανέμητά τους κέρδη με τις συσσωρευμένες ζημίες ήταν 139,75 (διάστημα [-323, 43,5]) και αντίστοιχα τα κέρδη προ φόρου εισοδήματος λάμβαναν την τιμή –726 η οποία αντιπροσωπεύει το διάστημα [-1625,5, 173,5]. Μπορούμε λοιπόν να συμπεράνουμε ότι οι εταιρείες οι οποίες χαρακτηρίζονται από τιμές που ανήκουν στα ανάλογα διαστήματα για τα αντίστοιχα στοιχεία πιθανόν να αντιμετωπίσουν πρόβλημα. ΠΕΙΡΑΜΑΤΙΚΟΣ ΕΛΕΓΧΟΣ 5 Στοιχεία που επιλέχθηκαν, related attributes: Χρεόγραφα Συμμετοχές Στοιχεία πεδίου τάξης, target attribute: Κλάση SYMMETOXES 1184,75 XREOGRAFA 7,5 CLASS PT 55 27 1,27297985553741 Ο κανόνας αυτός δηλώνει ότι βρέθηκαν 82 εταιρείες στις οποίες τα χρεόγραφα λάμβαναν την τιμή 7,5 δηλαδή ανήκαν στο διάστημα [0 ,15] και οι συμμετοχές την τιμή 1184,75 που αντιπροσωπεύει το διάστημα [0, 2369,5]. Από αυτόν τον αριθμό των εταιρειών οι 55 ήταν πτωχευμένες, και οι 27 μη πτωχευμένες. Βέβαια παρατηρούμε ότι ο αριθμός των πτωχευμένων είναι σχεδόν ο διπλάσιος από τις μη πτωχευμένες, επομένως θα μπορούσαμε να ισχυριστούμε ότι τα στοιχεία αυτά είναι περισσότερο αρνητικά όσον αφορά την πορεία της επιχείρησης ή είναι πιθανόν μελλοντικά να οδηγήσουν στην πτώχευσή της.

Page 138: Nimertis_Pagouropoulos

132

Συνολικά συμπεράσματα πειραματικών ελέγχων Στο σημείο αυτό θα παρουσιάσουμε τα διαστήματα των στοιχείων τα οποία αντιστοιχούσαν στις τιμές / μέσους. Τα διαστήματα αυτά, (αποδίδονται με κόκκινο χρωματισμό και διαφορετική γραμματοσειρά), χαρακτηρίζουν τις εταιρείες που ανήκουν στην κλάση των πτωχευμένων εκτός από το τελευταίο όπου 2 στις 3 περιπτώσεις ανήκουν στις πτωχευμένες και οι άλλες στις μη πτωχευμένες. ADIANKERDHSYSSZHMIES -139,75 [-323, 43,5] ETOIMAPROIONTAEMPOREYM 187,5 [0, 202] APOSBEKTOSKOSTPOL 1942 [0, 235] SYNENERGHTIKOY 43467,75 [0, 10756] TAMEIOTRAPEZES 766 [0, 1532] IDIAKEFALAIA 2930 [–1105, 6965] KERDPROFOREISOD -726 [-1625,5, 173,5] SYMMETOXES 1184,75 [0, 2369,5] Τα στοιχεία αυτά ανήκουν και στις δύο κλάσεις XREOGRAFA όπως αναφέραμε και στον σχολιασμό των ελέγχων 7,5 και αποδίδονται με πράσινο χρωματισμό [0 ,15] Θα μπορούσαμε να ισχυριστούμε ότι εκτός από τα διαστήματα τα οποία δίνουν μία αριθμητική εκδοχή για τα γεγονότα, μπορούμε να αξιολογήσουμε και τα στοιχεία εννοιολογικά, δηλαδή πως από την στιγμή που επιλέχτηκαν αυτά μέσω των ελέγχων, τότε ίσως έχουν και μία ξεχωριστή βαρύτητα. Ίσως είναι αυτά που καθορίζουν σε μεγάλο βαθμό την πορεία μίας επιχείρησης και για το αν σε κάποια στιγμή έρθει ο οικονομικός οργανισμός αντιμέτωπος με μία κρίση που μπορεί να οδηγήσει ακόμα και στην πτώχευση. Επίσης βλέπουμε πως τα αποτελέσματα που παίρνουμε μας ωθούν να βγάζουμε συμπεράσματα για σύνολα τιμών, τα οποία συναντώνται με

Page 139: Nimertis_Pagouropoulos

133

μεγαλύτερη συχνότητα στην ανάλογη κλάση, και έτσι μπορούν να χαρακτηριστούν ως ιδανικά και μη. Τέλος αυτό που ενδιαφέρει είναι και η συχνότητα εμφάνισης της κάθε τιμής σε μία κλάση, ώστε να έχουμε και κάποια εμπιστοσύνη στον κανόνα και να του δώσουμε κάποια βαρύτητα. Θα πρέπει βέβαια να τονίσουμε το γεγονός ότι σε σχέση με το πλήθος των εταιρειών (140 εταιρείες), οι περιπτώσεις σαν ποσοστά μπορεί να φαίνονται πολύ μικρές. Άμα αναλογιστούμε όμως ότι είναι ξερές τιμές, crisp, τότε αποκτούν μεγάλη αξία καθώς οι ίδιες τιμές εντοπίστηκαν σε διαφορετικές εταιρείες. Εξετάζοντας το κεφάλαιο κίνησης Έχουμε αναφέρει ότι σημαντικός παράγοντας προσδιορισμού της οικονομικής κατάστασης που βρίσκεται ένας οικονομικός οργανισμός είναι το κεφάλαιο κίνησης. Για τον λόγο αυτό παρακάτω θα εξετάσουμε τα στοιχεία που περιέχονται σε αυτό και θα προσπαθήσουμε να βγάλουμε τα όποια συμπεράσματα. Όπως γνωρίζουμε έχουμε δύο είδη κεφαλαίου κίνησης. Το καθαρό και το συνολικό ή μικτό κεφάλαιο κίνησης. Τα στοιχεία που σχετίζονται με αυτά είναι το κυκλοφορούν ενεργητικό και το διαθέσιμο, καθώς και οι βραχυπρόθεσμες υποχρεώσεις. Εμείς θα εξετάσουμε τι στοιχεία έχουμε στην διάθεσή μας και θα τα χρησιμοποιήσουμε για την εκπαίδευση του ταξινομητή μας. ΚΥΚΛΟΦΟΡΟΥΝ Αποθέματα Απαιτήσεις Γραμμάτια εισπρακτέα / Προμηθευτές, λοιπά λειτουργικά έσοδα ΔΙΑΘΕΣΙΜΑ Ταμείο, τράπεζες Χρεόγραφα Προμήθειες ΥΠΟΧΡΕΩΣΕΙΣ Μακροπρόθεσμες υποχρεώσεις Βραχυπρόθεσμες υποχρεώσεις Πιστωτές Γραμμάτια πληρωτέα Διενεργώντας ελέγχους με το πρόγραμμα με τα παραπάνω στοιχεία και πιο συγκεκριμένα με εκείνα που έχουμε στην διάθεσή μας από τις 140 εταιρείες, είχαμε τον κανόνα:

Page 140: Nimertis_Pagouropoulos

134

APOTHEMATA 7,625 XREOGRAFA 7,5 CLASS MPT 11 0 1,15277779102325

Ο έλεγχος αυτός αναφέρεται στο συνολικό η μικτό κεφάλαιο κίνησης. Τα αποθέματα αντιστοιχούν στο διάστημα [0, 15,25] και τα χρεόγραφα στο [0, 15]. Τα διαστήματα αυτά χαρακτηρίζονται αποκλειστικά από την κλάση των μη πτωχευμένων και μάλιστα σε 11 περιπτώσεις, επομένως κρίνονται ικανοποιητικά σαν αριθμητικά μεγέθη για τις εταιρείες. Άλλωστε τα αποθέματα έχουν μια μικρή τιμή που σημαίνει ότι η εταιρεία δεν έχει μεγάλο όγκο προϊόντων στις αποθήκες της αδιάθετα (πολλές φορές αυτό σημαίνει και αύξηση του κόστους από την στιγμή που οι αποθήκες δεν ανήκουν στην εταιρεία αλλά νοικιάζονται, επομένως στην περίπτωσή μας είναι υπέρ των εταιρειών). Αυτό μπορεί να ερμηνευθεί ως ικανότητα στο να διαθέτει με ευκολία το προϊόν της στην αγορά, δηλαδή σωστή στρατηγική στην προώθηση του προϊόντος από το τμήμα marketing και αντίστοιχη διάθεσή του στην αγορά. Εξετάζοντας αριθμοδείκτες για την βιωσιμότητα των επιχειρήσεων Στο σημείο αυτό έχουμε υπολογίσει κάποιους αριθμοδείκτες (αποτελούν πηλίκα) οι οποίοι προσδιορίζουν το κατά πόσο είναι βιώσιμη η όχι κάποια επιχείρηση. Με τους αριθμοδείκτες αυτούς έχουμε δημιουργήσει μία βάση δεδομένων πάνω στην οποία θα γίνουν οι αντίστοιχοι έλεγχοι. Είχαμε στην διάθεσή μας στοιχεία από 68 πτωχευμένες και 72 μη πτωχευμένες εταιρείες. Στις περιπτώσεις όπου παρουσιαζόταν κενό στον πίνακα, τότε υπολογίζαμε τον μέσο του κάθε πεδίου και αντικαθιστούσαμε γιατί σε αντίθετη περίπτωση δεν έτρεχε ο αλγόριθμος. Η διαδικασία αυτή έγινε ξεχωριστά για τις πτωχευμένες και τις μη πτωχευμένες προτού ενοποιηθούν όλα τα δεδομένα. Για τον λόγο αυτό 4 τιμές εμφανίζονται με μεγαλύτερη συχνότητα από τις άλλες. Αυτό σίγουρα επηρεάζει το αποτέλεσμα αλλά από την άλλη μεριά εμείς το γνωρίζουμε και από την στιγμή που δηλώνει τον μέσο του κάθε πεδίου μπορεί να δώσει και κάποια εκτίμηση. Δεν είναι μία τιμή άσχετη δηλαδή. Οι αριθμοδείκτες είναι οι ακόλουθοι: Ίδια κεφάλαια / Ξένα κεφάλαια Καθαρά πάγια / Μακροχρόνιες υποχρεώσεις Ίδια κεφάλαια / Καθαρά πάγια

Page 141: Nimertis_Pagouropoulos

135

Πρέπει να αναφέρουμε ότι οι αριθμοδείκτες αυτοί δείχνουν απλά μία τάση και μία εκτίμηση σχετικά με τα ανάλογα στοιχεία που περιέχουν. Υπάρχουν και άλλοι αριθμοδείκτες που σχετίζονται με την βιωσιμότητα οικονομικών οργανισμών αλλά δεν επαρκούσαν τα στοιχεία που είχαμε στην διάθεσή μας για τον πλήρη και όσο τον δυνατό σαφέστερο προσδιορισμό τους. Ότι στοιχείο είχαμε στην διάθεσή μας προέρχεται από τις 68 πτωχευμένες και τις 72 μη πτωχευμένες εταιρείες που έχουμε στην βάση μας. Στο σημείο αυτό ακολουθεί μία περιγραφή για τον κάθε αριθμοδείκτη ξεχωριστά [.6]. ΑΡΙΘΜΟΔΕΙΚΤΗΣ ΙΔΙΩΝ ΚΕΦΑΛΑΙΩΝ προς ΔΑΝΕΙΑΚΑ ΚΕΦΑΛΑΙΑ Ίδια κεφάλαια / Ξένα κεφάλαια-Δανειακά κεφάλαια Ο συγκεκριμένος αριθμοδείκτης χρησιμοποιείται για να διαπιστωθεί εάν υπάρχει η όχι υπερδανεισμός σε μία επιχείρηση και εκφράζει την σχέση μεταξύ των ιδίων κεφαλαίων (μετοχικό κεφάλαιο + αποθεματικά) προς το σύνολο των δανειακών κεφαλαίων (μακροπρόθεσμες + βραχυπρόθεσμες υποχρεώσεις). Στην δικιά μας περίπτωση, για τον λόγο ότι κάποια δεδομένα δεν ήταν στην διάθεσή μας, σαν ξένα κεφάλαια χρησιμοποιήσαμε μόνο τον δανεισμό από τράπεζες και κάποιες οφειλές. Γενικά ο αριθμοδείκτης αυτός δείχνει την ασφάλεια που παρέχει η επιχείρηση στους δανειστές της. Αν είναι μεγαλύτερος του 1 μας δηλώνει ότι οι φορείς της επιχείρησης συμμετέχουν σε αυτή με μεγαλύτερα κεφάλαια από ότι οι πιστωτές της. Αυτό επίσης καταδεικνύει και έναν βαθμό ασφάλειας για τους πιστωτές της. Για παράδειγμα ένας αριθμοδείκτης με την τιμή 2 δείχνει ότι μια μονάδα υποχρεώσεων της επιχείρησης καλύπτεται από δύο μονάδες ίδιων κεφαλαίων ενώ ένας αριθμοδείκτης με την τιμή 0,5 δηλώνει ότι μία μονάδα υποχρεώσεων καλύπτεται από το 0,5 της μονάδος ιδίων κεφαλαίων και σαν αποτέλεσμα έχουμε περιορισμένη ασφάλεια για τους πιστωτές της επιχείρησης. Τελειώνοντας αξίζει να αναφέρουμε ότι στην ελληνική οικονομία ο αριθμοδείκτης αυτός είναι τις περισσότερες φορές μικρότερος της μονάδας, καθώς υπάρχει προτίμηση στον τραπεζικό δανεισμό παρά στην άντληση κεφαλαίων από την κεφαλαιαγορά. ΑΡΙΘΜΟΔΕΙΚΤΗΣ ΠΑΓΙΩΝ προς ΜΑΚΡΟΠΡΟΘΕΣΜΕΣ ΥΠΟΧΡΕΩΣΕΙΣ Καθαρά πάγια / Μακροχρόνιες υποχρεώσεις Ο παραπάνω αριθμοδείκτης αντανακλά κατά κάποιο τρόπο , τον βαθμό ασφαλείας που απολαμβάνουν οι μακροχρόνιοι πιστωτές της επιχειρήσεως. Ειδικά, στην περίπτωση που υπάρχει εγγραφή υποθήκης ή προσημειώσεως επί των παγίων περιουσιακών της στοιχείων παρέχει ένδειξη για το αν μπορούν να αποκτηθούν επί πλέον κεφάλαια με την παροχή της ίδιας εμπράγματης ασφάλειας. Μελετώντας τον αριθμοδείκτη αυτών σε μία μακροχρόνια βάση μπορούμε να καταλάβουμε την πολιτική που ακολουθεί μία επιχείρηση όσον αφορά την χρηματοδότηση των πάγιων περιουσιακών της στοιχείων. Γενικά μπορούν να γίνουν και συγκρίσεις μεταξύ

Page 142: Nimertis_Pagouropoulos

136

επιχειρήσεων που δραστηριοποιούνται στον ίδιο κλάδο μέσω του συγκεκριμένου αριθμοδείκτη. ΑΡΙΘΜΟΔΕΊΚΤΗΣ ΙΔΙΩΝ ΚΕΦΑΛΑΙΩΝ προς ΠΑΓΙΑ Ίδια κεφάλαια / Καθαρά πάγια Με τον αριθμοδείκτη αυτόν βρίσκουμε τον τρόπο χρηματοδότησης των παγίων επενδύσεων μιας επιχείρησης. Στην περίπτωση που τα ίδια κεφάλαια μιας επιχείρησης είναι μεγαλύτερα των επενδύσεών της σε πάγια, τότε ένα μέρος των κεφαλαίων κινήσεως αυτής προέρχονται από τους μετόχους της. Αντίθετα, όταν τα ίδια κεφάλαια είναι μικρότερα των επενδύσεων σε πάγια, τότε για την χρηματοδότηση των παγίων στοιχείων της έχουν χρησιμοποιηθεί, εκτός από τα ίδια, και ξένα κεφάλαια. Η πορεία του συγκεκριμένου αριθμοδείκτη δείχνει την πολιτική που ακολουθεί η επιχείρηση ως προς τον τρόπο χρηματοδοτήσεως των πάγιων της στοιχείων. Όταν παρουσιάζει η πορεία του αριθμοδείκτη άνοδο σημαίνει ότι η αύξηση του παγίου κεφαλαίου χρηματοδοτείται κατά μεγάλο ποσοστό από ίδια κεφάλαια παρά από δανεισμό. Στην αντίθετη περίπτωση έχουμε άντληση κεφαλαίων από δανεισμό. Στις παρακάτω σελίδες ακολουθούν οι έλεγχοι και τα συμπεράσματα που βγήκαν. Επίσης πρέπει να αναφέρουμε ότι για την κλάση των πτωχευμένων έχουμε χρησιμοποιήσει κόκκινο χρωματισμό, μπλε για στοιχεία και περιπτώσεις μη πτωχευμένων και τέλος πράσινο και διαφορετική επιλογή γραμματοσειράς Italic για περιπτώσεις που είχαμε να κάνουμε με τους μέσους των πεδίων. Επιλέξαμε τον χρωματισμό για την καλύτερη ανάγνωση των αποτελεσμάτων από τον κάθε ενδιαφερόμενο. Πειραματικός έλεγχος με όλα τα πεδία /αριθμοδείκτες και στόχο την κλάση. KATHARAPAG/MAKROYPOXR 6,14 CLASS PT 36 0 1,25531911849976 // KATHARAPAG/MAKROYPOXR 16,8 CLASS MPT 35 0 1,24822700023651 // KATHARAPAG/MAKROYPOXR 0 CLASS

Page 143: Nimertis_Pagouropoulos

137

MPT 5 0 1,03546094894409 // Από το συγκεκριμένο έλεγχο βλέπουμε ότι βρέθηκαν 35 περιπτώσεις εταιρειών με τιμή αριθμοδείκτη 16,8 που ανήκαν στην κλάση των μη πτωχευμένων ενώ η τιμή αυτή δεν εντοπίστηκε σε καμία πτωχευμένη. Αντίθετα η τιμή 6,14 βρέθηκε σε 36 πτωχευμένες και σε καμία μη πτωχευμένη. Αυτό μπορεί να συμβαίνει καθώς σαφώς η τιμή του αριθμοδείκτη αυτού είναι ικανοποιητική από την άλλη όμως οι εταιρείες αυτές μπορεί να αντιμετωπίζουν αλλού πρόβλημα και να μην αντικατοπτρίζεται η εικόνα τους μόνο από αυτόν. Εξάλλου δεν πρέπει να ξεχνάμε ότι τα κενά κελιά τα συμπληρώνουμε στην βάση με τον μέσο όρο όλων των τιμών, πράγμα που επηρεάζει το αποτέλεσμα της εφαρμογής. Στην συγκεκριμένη περίπτωση η τιμή 6,14 αποτελεί αυτόν τον μέσο για τις πτωχευμένες όπως και η 16,8 για τις μη πτωχευμένες. Τελειώνοντας η τιμή 0 βρέθηκε σε 5 εταιρείες οι οποίες ήταν στις μη πτωχευμένες. Αυτό έχει μεγαλύτερη αξία από τις προηγούμενες δύο τιμές διότι αποτελεί τιμή που δεν σχετίζεται με τον μέσο του αντίστοιχου πεδίου και δηλώνει ότι παρόλο που τα καθαρά πάγια ήταν μηδέν οι εταιρείες δεν έχουν πτωχεύσει. Πειραματικός έλεγχος με τον αριθμοδείκτη ιδίων κεφαλαίων προς ξένα και στόχο την κλάση IDIAKEFALAI/XENAKEF 379,47 CLASS MPT 42 0 1,29787230491638 // IDIAKEFALAI/XENAKEF 20,19 CLASS PT 21 0 1,14893615245819 // IDIAKEFALAI/XENAKEF 0,03 CLASS PT 4 0 1,02836883068085 // IDIAKEFALAI/XENAKEF 1,56 CLASS

Page 144: Nimertis_Pagouropoulos

138

MPT 3 0 1,02127659320831 // IDIAKEFALAI/XENAKEF 0,02 CLASS PT 2 0 1,01418435573578 // IDIAKEFALAI/XENAKEF 0,22 CLASS PT 2 0 1,01418435573578 // IDIAKEFALAI/XENAKEF 0,95 CLASS PT 2 0 1,01418435573578 // IDIAKEFALAI/XENAKEF -7 CLASS PT 1 0 1,00709223747253 // IDIAKEFALAI/XENAKEF -78,38 CLASS PT 1 0 1,00709223747253 // IDIAKEFALAI/XENAKEF -0,16 CLASS PT 1 0 1,00709223747253 // IDIAKEFALAI/XENAKEF -0,01 CLASS PT 1 0 1,00709223747253

Page 145: Nimertis_Pagouropoulos

139

// IDIAKEFALAI/XENAKEF -2,14 CLASS PT 1 0 1,00709223747253 // IDIAKEFALAI/XENAKEF -0,97 CLASS PT 1 0 1,00709223747253 IDIAKEFALAI/XENAKEF 0,47 CLASS PT 3 1 0,687943279743195 // IDIAKEFALAI/XENAKEF 0,19 CLASS PT 3 1 0,687943279743195 // IDIAKEFALAI/XENAKEF 0,24 CLASS MPT 2 1 0,514184415340424 // Στον συγκεκριμένο πειραματικό έλεγχο, εκτός από τις τιμές των μέσων των πεδίων που συναντάμε και αποδίδονται με πράσινο χρωματισμό έχουμε τα εξής αποτελέσματα: Οι παρακάτω τιμές αριθμοδεικτών εμφανίστηκαν μόνο σε επιχειρήσεις που ανήκαν στην κλάση των πτωχευμένων με την συχνότητα εμφάνισης να δίνεται μέσα σε παρένθεση. 0,03(3) 0,02(2) 0,95(2) -7(1) -78,38(1) -0,16(1) -0,01(1) -2,14(1) -0,97(1) Παρατηρούμε ότι όλες οι τιμές είναι μικρότερες της μονάδας πράγμα που σημαίνει ότι οι υποχρεώσεις των επιχειρήσεων δεν καλύπτονται ικανοποιητικά σε σχέση με τα ίδια κεφάλαια που έχει στην διάθεσή της η κάθε επιχείρηση. Μάλιστα άμα σκεφτούμε και ότι λόγο ελλειπών δεδομένων εμείς έχουμε υπολογίσει μόνο τα δανειακά κεφάλαια από τράπεζες, γίνεται εύκολα κατανοητό ότι ο παρονομαστής θα

Page 146: Nimertis_Pagouropoulos

140

ήταν ακόμη μεγαλύτερος και θα είχαμε ακόμη μικρότερες τιμές. Συνεχίζοντας παρατηρούμε ότι έχουμε και αρνητικές τιμές οι οποίες εξολοκλήρου ανήκουν σε πτωχευμένες επιχειρήσεις πράγμα που δηλώνει την δυσχερή θέση της εταιρείας από την στιγμή που τα ίδια κεφάλαιά της έχουν αρνητικό πρόσημο. Επομένως καταλήγουμε στο ότι τιμές κάτω της μονάδας αφορούν επιχειρήσεις που αντιμετωπίζουν πρόβλημα βιωσιμότητας και οδηγούνται στην πτώχευση. Οι τιμή που ακολουθεί αφορά μόνο αριθμοδείκτες που ανήκουν αποκλειστικά σε μη πτωχευμένες εταιρείες. 1,56(3) Βρέθηκε μία τιμή που είχε συχνότητα εμφάνισης 3, και είναι μεγαλύτερη της μονάδας πράγμα που σημαίνει ότι οι συγκεκριμένες εταιρείες έχουν την δυνατότητα να ανταπεξέρχονται ικανοποιητικά στις υποχρεώσεις τους καθώς 1 μονάδα ξένων κεφαλαίων αντιστοιχεί σε 1,56 ιδίων κεφαλαίων. Αυτό σημαίνει ότι δεν καταφεύγει η εταιρεία σε μεγάλο ποσοστό σε δανεισμό ξένων κεφαλαίων, αλλά μέσω των ιδίων κεφαλαίων της (σε μεγαλύτερο βαθμό) εκπληρώνει τις υποχρεώσεις της. Τελειώνοντας παρατηρούμε ότι σε κάποιους κανόνες μία τιμή αριθμοδείκτη ανήκει και στις δύο κλάσεις, με διαφορά στην συχνότητα εμφάνισης. Αυτοί οι κανόνες είναι οι παρακάτω: IDIAKEFALAI/XENAKEF 0,47 CLASS PT 3 1 0,687943279743195 // IDIAKEFALAI/XENAKEF 0,19 CLASS PT 3 1 0,687943279743195 // IDIAKEFALAI/XENAKEF 0,24 CLASS MPT 2 1 0,514184415340424 //

Page 147: Nimertis_Pagouropoulos

141

Άμα θέλουμε να δώσουμε κάποια εκτίμηση για τα αποτελέσματα αυτά μπορούμε να κατατάξουμε την κάθε τιμή σε κάποια κλάση ανάλογα με την συχνότητα που εμφανίζεται σε αυτήν. Επίσης υπάρχει η περίπτωση κάποιες εταιρείες να είναι στην ίδια οικονομική κατάσταση και απλά η μία να έχει πτωχεύσει ενώ η άλλη να έχει την δυνατότητα μέσω κάποιων άλλων στοιχείων ή εισροής κεφαλαίων να είναι βιώσιμη. Τέλος δεν πρέπει να αποκλείουμε και τον παράγοντα της τύχης, δηλαδή να έχουμε ίδιες τιμές σε πτωχευμένες και μη πτωχευμένες εταιρείες. Πειραματικός έλεγχος με αριθμοδείκτη καθαρά πάγια προς μακροχρόνιες υποχρεώσεις και στόχο την κλάση KATHARAPAG/MAKROYPOXR 6,14 CLASS PT 36 0 1,25531911849976 // KATHARAPAG/MAKROYPOXR 16,8 CLASS MPT 35 0 1,24822700023651 // KATHARAPAG/MAKROYPOXR 0 CLASS MPT 5 0 1,03546094894409 // KATHARAPAG/MAKROYPOXR 0,93 CLASS MPT 2 1 0,514184415340424 // Από τον συγκεκριμένο πειραματικό έλεγχο, αν εξαιρέσουμε τις τιμές των μέσων (αποδίδονται με πράσινο χρωματισμό), έχουμε την τιμή 0 που συναντάται μόνο σε μη πτωχευμένες εταιρείες 5 φορές, και την τιμή 0,93 η οποία ανήκει σε 2 μη πτωχευμένες και σε μία πτωχευμένη. Όσον αφορά την συγκεκριμένη τιμή βλέπουμε ότι είναι κοντά στην μονάδα επομένως πιθανόν κάποιες εταιρείες να μην επηρεάζονται τόσο από τέτοια τιμή καθώς μπορεί να έχουν την δυνατότητα να ανταπεξέρχονται με άλλον τρόπο στην έλλειψη ιδίων κεφαλαίων για να μην υπερδανείζονται και να είναι συνεπείς στης υποχρεώσεις τους.

Page 148: Nimertis_Pagouropoulos

142

Πειραματικός έλεγχος με αριθμοδείκτη ίδιων κεφαλαίων προς πάγια και στόχο την κλάση IDIAKEF/KATHPAGIA 0 CLASS MPT 5 0 1,03546094894409 // IDIAKEF/KATHPAGIA 0,33 CLASS PT 2 0 1,01418435573578 // IDIAKEF/KATHPAGIA 0,41 CLASS PT 2 0 1,01418435573578 // IDIAKEF/KATHPAGIA 0,75 CLASS MPT 2 0 1,01418435573578 // IDIAKEF/KATHPAGIA 0,85 CLASS PT 2 0 1,01418435573578 // IDIAKEF/KATHPAGIA 0,87 CLASS PT 2 0

Page 149: Nimertis_Pagouropoulos

143

1,01418435573578 // IDIAKEF/KATHPAGIA 1,05 CLASS MPT 2 0 1,01418435573578 // IDIAKEF/KATHPAGIA 1,13 CLASS MPT 2 0 1,01418435573578 // IDIAKEF/KATHPAGIA 6 CLASS PT 2 0 1,01418435573578 IDIAKEF/KATHPAGIA -0,09 CLASS PT 1 0 1,00709223747253 // IDIAKEF/KATHPAGIA -0,54 CLASS PT 1 0 1,00709223747253 // IDIAKEF/KATHPAGIA -3,05 CLASS MPT 1 0 1,00709223747253 // IDIAKEF/KATHPAGIA -4,86 CLASS PT 1 0 1,00709223747253 // IDIAKEF/KATHPAGIA -63,15 CLASS PT

Page 150: Nimertis_Pagouropoulos

144

1 0 1,00709223747253 // IDIAKEF/KATHPAGIA 1,02 CLASS MPT 3 1 0,687943279743195 // IDIAKEF/KATHPAGIA 0,27 CLASS MPT 2 1 0,514184415340424 // IDIAKEF/KATHPAGIA 0,77 CLASS MPT 2 1 0,514184415340424 // IDIAKEF/KATHPAGIA 0,83 CLASS MPT 2 1 0,514184415340424 // IDIAKEF/KATHPAGIA 0,93 CLASS MPT 2 1 0,514184415340424 // IDIAKEF/KATHPAGIA 1,29 CLASS MPT 2 1 0,514184415340424 // IDIAKEF/KATHPAGIA 1,45 CLASS MPT 2 1 0,514184415340424 // IDIAKEF/KATHPAGIA

Page 151: Nimertis_Pagouropoulos

145

2,45 CLASS MPT 2 1 0,514184415340424 // Οι τιμές των αριθμοδεικτών που εμφανίστηκαν στις μη πτωχευμένες εταιρείες είναι οι ακόλουθες: 0(5) 0,75(2) 1,05(2) 1,13(2) -3,05(1) Από αυτές εντύπωση προξενεί η τιμή –3,05 από την στιγμή που είναι αρνητική και αφορά μη πτωχευμένη εταιρεία. Αυτό ίσως είναι σημάδι ότι μπορεί να οδηγηθεί η εταιρεία στην πτώχευση καθώς δεν δικαιολογείται εταιρεία βιώσιμη να έχει αρνητικά ίδια κεφάλαια, δηλαδή αντιμετωπίζει μεγάλες ζημίες που επηρεάζουν τα ίδια κεφάλαιά της με αρνητικό πρόσημο. Ίσως να έχει την δυνατότητα να αντλεί κεφάλαια και από αλλού όπως από τράπεζες αλλά σίγουρα αυτό μελλοντικά θα αποβεί μοιραίο καθώς υπάρχει κίνδυνος να υπερδανειστεί και από την στιγμή που τα ίδια κεφάλαια θα είναι αρνητικά λόγο των ζημίων να πτωχεύσει. Οι αντίστοιχες τιμές που ανήκαν αποκλειστικά στην κλάση των πτωχευμένων είναι οι: 0,33(2) 0,41(2) 0,85(2) 0,87(2) 6(2) -0,09(1) -0,54(1) -4,86(1) -63,15(1) Στην περίπτωση αυτή εντύπωση προκαλεί το γεγονός ότι έχουμε μία πολύ καλή τιμή την 6, να εμφανίζεται 2 φορές σε πτωχευμένες εταιρείες. Πιθανόν οι εταιρείες αυτές ενώ έχουν την δυνατότητα να χρηματοδοτούν πολύ καλά τις επενδύσεις που έκαναν να αντιμετώπιζαν πρόβλημα σε άλλα θέματα όπως οι πωλήσεις, στην διανομή των προϊόντων η και ακόμα να αντιμετώπισαν κάποια καταστροφή. Τελειώνοντας για τις τιμές που ανήκουν σε δύο κλάσεις ισχύουν αυτά που έχουμε αναφέρει και στα παραπάνω τρεξίματα. Τέλος, παρακάτω παρουσιάζουμε ένα μέρος της βάσης πάνω στην οποία έγιναν όλοι οι έλεγχοι για τους αριθμοδείκτες:

Page 152: Nimertis_Pagouropoulos

146

Β2. Εφαρμόζοντας την μέθοδο της Ομαδοποίησης στην Χρηματοοικονομική Ανάλυση Έχοντας ήδη εξετάσει πως μπορούμε να εφαρμόσουμε την μέθοδο της Ταξινόμησης στα οικονομικά δεδομένα των 140 επιχειρήσεων που έχουμε στην διάθεσή μας, και έχοντας βγάλει τα αντίστοιχα συμπεράσματα, θα προχωρήσουμε στην τεχνική της Ομαδοποίησης μέσω του αλγορίθμου K-modes. Με την τεχνική αυτή θα προσπαθήσουμε να χωρίσουμε το σύνολο δεδομένων που έχουμε σε ομάδες (στην περίπτωσή μας είναι εταιρείες) οι οποίες θα έχουν δημιουργηθεί ανάλογα με τα κοινά στοιχεία που έχουν. Στην αρχή θα παρουσιάσουμε κάποια στοιχεία και πληροφορίες για την λειτουργία του αλγορίθμου και μετά θα προχωρήσουμε στην εφαρμογή του πάνω στο σύνολο εκπαίδευσης του πίνακα που έχουμε στην διάθεσή μας. Όπως έχουμε αναφέρει ο αλγόριθμος K-modes είναι ένας αλγόριθμος κατηγοριοποίησης. Διαχωρίζει τα δεδομένα που έχουμε στην διάθεσή μας σε k ομάδες με διαδοχικές επαναλήψεις βάσει της ομοιότητας που παρουσιάζουν τα στοιχεία με τον μέσο της κάθε ομάδας. Για την εφαρμογή του απαιτείται η επιλογή ενός πίνακα και έπειτα εμφανίζονται τα πεδία που περιέχει ο πίνακας. Ο χρήστης από την μεριά του πρέπει να επιλέξει τα πεδία που τον ενδιαφέρουνε για να πραγματοποιηθεί η κατηγοριοποίηση. Όλα αυτά αφορούν κινήσεις πριν την λειτουργία του αλγορίθμου. Στην συνέχεια θα παρουσιαστούν οι παράμετροι του αλγορίθμου βάση των οποίων γίνονται οι έλεγχοι.

Page 153: Nimertis_Pagouropoulos

147

Σελίδα Parametres Αριθμός ομάδων / Clusters Αρχικά θα πρέπει να δώσουμε στο αντίστοιχο πεδίο τον αριθμό των ομάδων που επιθυμεί να εξαχθούν. Ο αριθμός αυτός θα πρέπει να είναι μικρότερος από των αριθμό των πεδίων που έχει ο πίνακας. Αρχικές συνθήκες Σε ότι αφορά τις αρχικές συνθήκες ο αλγόριθμος απαιτεί την επιλογή εγγραφών οι οποίες θα αποτελέσουν τα αρχικά κέντρα των ομάδων βάσει των οποίων θα ξεκινήσει η λειτουργία του αλγορίθμου. Αυτά τα κέντρα μπορούν να επιλεχθούν τυχαία Random η με βάση την συχνότητα των διακριτών τιμών των πεδίων του συνόλου των δεδομένων Frequency Based. Η διαφορά μεταξύ των δύο περιπτώσεων έγκειται στο γεγονός ότι στην δεύτερη περίπτωση αυξάνεται η περίπτωση οι αρχικές συνθήκες να είναι διαφορετικές μεταξύ τους και έτσι να έχουμε καλύτερα αποτελέσματα. Μέτρο ανομοιότητας / Dissimilarity Measure Αυτή η παράμετρος αφορά την συνάρτηση υπολογισμού του μέτρου ανομοιότητας μεταξύ των εγγραφών του συνόλου των δεδομένων και των κέντρων των ομάδων. Η σύγκριση αυτή χρησιμοποιείται προκειμένου να βρεθεί το κοντινότερο κέντρο για κάθε εγγραφή και η τοποθέτηση αυτής στην αντίστοιχη ομάδα. Η παράμετρος αυτή μπορεί να πάρει τρεις διαφορετικές τιμές: Binary, στην περίπτωση αυτή η απόσταση μεταξύ δύο εγγραφών υπολογίζεται ως ο αριθμός των πεδίων στα οποία οι τιμές των εγγραφών είναι διαφορετικές, Αυτό το μέτρο είναι καλό όταν ενδιαφέρει κυρίως η απόλυτη διαφορά τους και όχι η εννοιολογική διαφορά των τιμών. Frequency Based, όπου το μέτρο ομοιότητας υπολογίζεται με βάση την συχνότητα με την οποία εμφανίζονται οι διακριτές τιμές των πεδίων του συνόλου των δεδομένων. Η περίπτωση αυτή θα πρέπει να προτιμάται όταν η κατανομή των διακριτών τιμών των πεδίων δεν χαρακτηρίζεται από ομοιομορφία και σε περιπτώσεις που θέλουμε να δώσουμε έμφαση σε τιμές που δεν εμφανίζονται συχνά αποσκοπώντας στη εύρεση ομάδων με σπάνια χαρακτηριστικά. Tree Based, στην περίπτωση αυτή το μέτρο ομοιότητας προσπαθεί να χαρακτηρίσει ως κοντινές τις ομάδες που έχουν παρόμοιες εννοιολογικές τιμές. Για τη υλοποίηση αυτής της παραμέτρου χρησιμοποιείται ένα δέντρο που είναι αποθηκευμένες όλες οι εννοιολογικές συσχετίσεις των διακριτών τιμών των πεδίων.

Page 154: Nimertis_Pagouropoulos

148

Σελίδα Results Παρουσιάζονται τα κέντρα των ομάδων που έχουν προκύψει με την μορφή πίνακα. Κάθε ομάδα αντιστοιχεί σε μία εγγραφή και φαίνονται οι τιμές που αντιστοιχούν στο κάθε πεδίο. Γενικά αυτά είναι τα στοιχεία που μας ενδιαφέρουν όσον αφορά την εφαρμογή μας στην παρούσα εργασία. Στην συνέχεια ακολουθούν οι έλεγχοι. Για αυτά επιλέξαμε ορισμένα στοιχεία σαν πεδία τα οποία κρίναμε πως έχουν μεγαλύτερη βαρύτητα όσον αφορά την πτώχευση και την βιωσιμότητα των οικονομικών οργανισμών. Τα ανάλογα αποτελέσματα θα αναλύονται και θα σχολιάζονται. Τέλος από τις παραμέτρους του αλγορίθμου επιλέχτηκαν αυτές της Frequency Based όσον αφορά τις αρχικές συνθήκες και το μέτρο ανομοιότητας. Η εφαρμογή θα πραγματοποιηθεί στον ίδιο πίνακα που χρησιμοποιήσαμε και για την ταξινόμηση. Αυτό που πραγματικά ενδιαφέρει είναι να εντοπιστούν ομάδες οι οποίες να οδηγούν σε χρήσιμα συμπεράσματα. Για τον λόγο αυτό έχουμε επιλέξει συγκεκριμένα πεδία / στοιχεία για τους ελέγχους που θα κάνουμε.

Page 155: Nimertis_Pagouropoulos

149

Κάνοντας κλικ στο εικονίδιο K-modes έχουμε την εξαγωγή των ομάδων σε μορφή πίνακα.

Page 156: Nimertis_Pagouropoulos

150

Εξετάζοντας στοιχεία που σχετίζονται με το κεφάλαιο κίνησης Όπως έχουμε τονίσει η μελέτη του κεφαλαίου κίνησης είναι σημαντική από την στιγμή που δίνει μια εικόνα για την δυνατότητα που έχουν οι εταιρείες να ανταπεξέρχονται στις βραχυπρόθεσμες υποχρεώσεις τους. Για τον λόγο αυτό θα δούμε τι ομάδες μπορούν να προκύψουν σχετικά με τα στοιχεία που το αποτελούν. Το κεφάλαιο κίνησης αποτελείται από: ΚΥΚΛΟΦΟΡΟΥΝ Αποθέματα Απαιτήσεις Γραμμάτια εισπρακτέα / Προμηθευτές, λοιπά λειτουργικά έσοδα ΔΙΑΘΕΣΙΜΑ Ταμείο, τράπεζες Χρεόγραφα Προμήθειες ΥΠΟΧΡΕΩΣΕΙΣ Μακροπρόθεσμες υποχρεώσεις Βραχυπρόθεσμες υποχρεώσεις Πιστωτές Γραμμάτια πληρωτέα Εμείς θα επιλέξουμε τα αντίστοιχα στοιχεία / πεδία και θα εφαρμόσουμε τον αλγόριθμο και απαιτούμε από αυτόν να μας εξάγει 10 ομάδες. Τα πεδία παρουσιάζονται με εντονότερο χρωματισμό. Επίσης και η κλάση αποτελεί πεδίο αλλά για ευκολότερη κατανόηση έχει καταχωρηθεί ανάλογα στις διάφορες τιμές. Επίσης η σειρά που εξάγονται τα αποτελέσματα είναι για την κάθε ομάδα είναι ως εξής: Κλάση - χρεόγραφα -μεσομακροχρόνιες προβλέψεις,υποχρεώσεις – μακροπρόθεσμες απαιτήσεις - λοιπές υποχρεώσεις μεταβιβάσιμοι λογαριασμοί - γραμμάτια πληρωτέα,πιστωτές -αποθέματα - ταμείο,τράπεζες - οφειλές σε τράπεζες,δάνεια. XREOGRAFA MPT 7,5 PT 23497 MPT 84800,5 PT 280958,5 MPT 487311 PT 354 MPT 11771

Page 157: Nimertis_Pagouropoulos

151

PT 47115 MPT 137503 PT 440235 PROMHTLOIPALEITES MPT 0,5 PT 10,5 MPT 52,875 PT 65,15 MPT 157,25 PT 795,25 MPT 1463,25 PT 3459,5 MPT 4873,8 PT 7649,75 MESMAKPROBLEPYPOXR MPT 1284,5 PT 63136,25 MPT 113033,25 PT 202817,87 MPT 228942,25 PT 367778 MPT 509423,25 PT 661141,85 MPT 817384,4 PT 1216846,2 MAKRAPAITHSEIS MPT 5,875 PT 483,275 MPT 551,75 PT 684,875 MPT 893,5 PT 1090 MPT 2517 PT 4532 MPT 6746,5 PT 8737 LOIPYPOXRMETABILOGAR MPT 235,5 PT 24214 MPT 30446,375 PT 34163,5 MPT 35688,225 PT 40746,75 MPT 43332,75 PT 45668 MPT 51289 PT 61975,875 LOIPAPAITMETABLOGAR MPT 13,5 PT 11071,5 MPT 14777,5 PT 17762,475 MPT 18508,325 PT 23038,89 MPT 32975

Page 158: Nimertis_Pagouropoulos

152

PT 76271,25 MPT 84998,875 PT 95040 GRAMPLHRPROMPIST MPT 1974,5 PT 104551,4 MPT 117065,75 PT 134369,5 MPT 172486,5 PT 206796,37 MPT 223696,25 PT 300628,75 MPT 518873,35 PT 465488,25 APOTHEMATA MPT 7,625 PT 144035,87 MPT 186629,65 PT 229224,25 MPT 277242,25 PT 293009,37 MPT 320883 PT 512783,25 MPT 527418,65 PT 582930,75 TAMEIOTRAPEZES MPT 766 PT 31416,5 MPT 38512 PT 44691,25 MPT 55758,75 PT 67027 MPT 79875,75 PT 101610,75 MPT 115665,5 PT 128608,75 OFEILESSETRAPEZDAN MPT 124,25 PT 702541,75 MPT 867983,25 PT 982102,5 MPT 1426764,2 PT 2398064,5 MPT 139888,5 PT 211987,75 MPT 248086,27 PT 393206,5 Τα παραπάνω αποτελέσματα μπορούν να ερμηνευθούν ανά ομάδα αλλά και συγκρίνοντας όλες τις ομάδες μαζί. Βλέπουμε ότι ανάμεσα στις 10 ομάδες που έχουν εξαχθεί, υπάρχουν τιμές που ανήκουν στην κλάση των μη πτωχευμένων και σε απόλυτη τιμή είναι μικρότερες από τις αντίστοιχες που ανήκουν στις πτωχευμένες. Επομένως τα διαστήματα αυτά που αντιστοιχούν (έχουμε πει ότι οι τιμές αντιπροσωπεύουν τους μέσους των αντίστοιχων διαστημάτων) θα πρέπει να

Page 159: Nimertis_Pagouropoulos

153

συγκριθούν ανάλογα με τα αντίστοιχα στην ίδια κλάση. Δηλαδή, βλέπουμε ότι στις περιπτώσεις των πτωχευμένων, οι υποχρεώσεις, τα αποθέματα και τα ποσά που αποτελούν ξένα κεφάλαια (δάνεια) είναι αρκετά δυσανάλογα με τις απαιτήσεις και τα ποσά που ανήκουν στο ταμείο των εταιρειών. Αυτό σημαίνει ότι οι εταιρείες είναι υπερδανεισμένες πιθανόν, όσον αφορά τα ξένα κεφάλαια. Όσον αφορά τα αποθέματα δηλώνουν μια αδυναμία διάθεσης των προϊόντων στην αγορά και στις περιπτώσεις που μένουν για καιρό στις αποθήκες, αυξάνουν και το κόστος σε περιπτώσεις που οι αποθήκες νοικιάζονται. Αυτό μπορεί να οφείλεται σε διάφορους λόγους όπως λάθος προώθηση του προϊόντος. Όσον αφορά τις ομάδες που αντιστοιχούν σε μη πτωχευμένες βλέπουμε και εδώ πως γενικά σε κάθε ομάδα υπάρχει μία ισορροπία στις τιμές. Πιθανόν αυτές οι εταιρείες να είναι σε θέση να διαχειρίζονται καλύτερα τις όποιες επενδύσεις κάνουν και να προωθούν καλύτερα το προϊόν που παράγουν. Είναι πάντως γεγονός ότι τα συμπεράσματα που εξάγουμε δεν μπορούν να εξειδικευτούν καθώς όπως αναφέραμε οι τιμές παρουσιάζουν ποικιλομορφία ως προς την απόλυτη τιμή τους στις δύο κλάσεις. Επομένως καταλήγουμε στο συμπέρασμα ότι πιθανόν σημαντικό ρόλο παίζει η διοίκηση και οι επιλογές που κάνει. Ακόμη πολλές φορές, υπάρχει η πιθανότητα κάποιες εταιρείες που ανήκουν σε μία κλάση να μην απέχουν από άλλες που ανήκουν στην άλλη. Αυτό το λέμε καθώς μπορεί μία εταιρεία να βρίσκεται σε παρατεταμένη οικονομική κρίση έχοντας χαμηλούς δείκτες και να μην πτωχεύει. Τέλος πρέπει να λάβουμε υπόψη ότι έχουμε εταιρείες διαφορετικών οικονομικών μεγεθών που δραστηριοποιούνται σε διαφορετικούς κλάδους. Εξετάζοντας όλα τα στοιχεία / πεδία που έχουμε στην διάθεσή μας Στον παρόντα έλεγχο θα συμπεριλάβουμε όλα τα πεδία που έχουμε στην διάθεσή μας και θα ζητήσουμε την δημιουργία 10 ομάδων. Από τις παραμέτρους του αλγορίθμου έχουν επιλεγεί αντίστοιχα οι frequency based. CLASS MPT PT MPT PT MPT PT MPT PT MPT PT XRHMDAPANES 439,75 1194,5 1833,5 2659,5 4246,5 6693 154,5

Page 160: Nimertis_Pagouropoulos

154

12855 15692,15 16355 XREOGRAFA 23497 84800,5 280958,5 487311 354 11771 7,5 137503 440235 4006859 SYYSSAPOSBESEIS 14195 20009,375 22811,5 40849,5 47393,5 74638 91,75 107558,75 133749 173324,5 SYNPATHITIKOY 238439,5 373292,75 441129,37 482018,75 534207,4 651891,25 43217,75 913220 1136234,5 1462070,2 SYNENERGHTIKOY 180880,93 197989,03 228644 373292,75 440200,37 481554,25 43467,75 852277 1136234,5 1462070,2 SYNAPOSBESEWN 10883,75 12940,25 17504 20148,65 22041,9 24582,75 458,25

Page 161: Nimertis_Pagouropoulos

155

32894,5 40519,25 44660,15 SYMMETOXES 1053716,2 6143593 3522,875 654638 1958351,2 25711906 1184,75 14679,375 25694,5 110129,25 PROMHTLOIPALEITES 1463,25 3459,5 4873,8 7649,75 10047,5 15988,75 0,5 32028,5 77155,25 91062,375 MIKTOKERDOS 97145,25 133696,75 162835,75 184998,75 226615,5 306897,87 277,385 361561,25 411795,5 479629,75 MHXANEXOPLISMOS 1477 69781,875 165623,75 296360 5377001,5 29024721 1477 91690,15 233010 560694,25 MHLEITESODA 2275 2801,085 3095,9 4126 5664,375 6730,5

Page 162: Nimertis_Pagouropoulos

156

34,25 12460,25 14480,25 18787 METOXETAIRIKOKEFALAIO 374359,25 406243,87 441600,25 477664,25 554948 693258 13206,25 860839,75 975252,5 1110666,9 MESMAKPROBLEPYPOXR 3527,75 216018,75 283185,75 434996,5 599234 721856,25 1284,5 16530462 21062,5 37012,5 MERISMPLHRKERDDIANOMH 3713,5 7931,5 12521,25 17387,5 40036,25 767,5 767,5 5258,5 11019,75 14513,75 MAKRAPAITHSEIS 13453 28520,5 75153,75 149820,85 174061 611,875 5,875 999 1828,75 3455,75 LOIPYPOXRMETABILOGAR 80804,25 102311,5 111724,75 132134,37 145762,5 164798,5

Page 163: Nimertis_Pagouropoulos

157

235,5 192727,5 327394,37 346479 LOIPAPAITMETABLOGAR 198669 396700,5 39 8414,25 12624,875 17272,135 13,5 19524,225 26451 55757 LOIPALEITEXODA 467117,5 494550,87 552986,79 654866,85 803790,75 1103363,5 2564,25 2929842,5 6329,5 44897 LEITPERITHWRIO -9131164 40294,5 44749,875 47615,75 63166 82552 -3263,25 129866,75 151937,25 240793,75 KYKLOSERGASIWN 1255952,7 1385067,2 1501116 1814991,7 1896030,7 2036978,6 133 2423913,7 3975566,2 4315752 KTIRIAEGKATASTASEIS 713680,35 757379,75 818255,75 959418,25 1100380,7 1498263,2

Page 164: Nimertis_Pagouropoulos

158

1437 1805007,5 2929395,5 4313606,2 KERDPROFOREISOD 70407,615 73264,4 76275,7 84427 116607,75 158275,37 -726 206188,75 263511,5 499053,5 KATHARAPAGIA 524529,15 587314,75 740752,85 765635,9 847056,5 1180218,7 90,75 1827833 2734944,2 3137451,7 KATHARAMERISMATA 788647 48866,25 62692,5 544896,5 3971,5 12819 323,75 32734,5 323,75 1941,5 IDIAKEFALAIA 1372590,5 1530768,7 2381628 3578334,5 65327,25 93338,5 2930 109671,25 122464,15 129034,25 HMIKATPROIONTA 123226,75 9161883,5 25592 236955 123226,75 9161883,5

Page 165: Nimertis_Pagouropoulos

159

25592 236955 123226,75 9161883,5 GRAMPLHRPROMPIST 3498435,2 67558,75 91120,25 102068,75 107000,8 125107 1974,5 199586,25 213391,65 264879,5 GHPEDAOIKOPEDA 33756 55035,25 136631,5 28,25 1230120,2 3201516,5 28,25 10912803 42772,5 83996,25 FOROSEISODHMATOS 2035 703,25 3796,25 7509,25 12682,75 15646 73,75 298851,75 68467,25 88446,875 APOSBMHXANEXOPLISMOY 198510,25 308895,5 743,5 67032,25 151990,5 220698,25 743,5 441871,25 397505,87 417615,9 APOSBEKTOSKOSTPOL 1563421,5 1942 8646,75 18125,785 533574,25 5819,75

Page 166: Nimertis_Pagouropoulos

160

1942 22615,04 1563421,5 1942 APOSBKTIREGKATAST 2928790,2 6688399,5 -8334704,5 -267264,25 -176111,25 -112141,6 83,25 -101475,12 -72463,725 -55745,75 APOSBMESASTOKOSTOS 40883 712126,5 8653384,5 49739 60605,5 73186,25 458,25 109715,25 123255,75 133675 APOTHEMATA 80335,75 2550385,5 4407670,3 102603,5 139558,25 162537,5 7,625 217873,25 226743,5 265913,75 ADIANKERDHSYSSZHMIES 7439,75 10138 11843,75 14342,25 20266,25 22647 -139,75 36757,375 20955,25 41485,25 TAMEIOTRAPEZES 443406,25 521856,35 548470,75 614852 643558 839668,75

Page 167: Nimertis_Pagouropoulos

161

766 3665586,8 45514943 162957,5 ETOIMAPROIONTAEMPOREYM 518823,4 692468 933938 2525979,5 17913241 187,5 187,5 10349 15546,75 20921,15 ASWMAKINDAPPOLAPOSB 38641 52655,5 31234 101904,25 142324,75 186014,27 307 629950,55 12657569 226318,27 OFEILESSETRAPEZDAN 274451,65 509895,25 545743,5 578813,25 702541,75 867983,25 124,25 1426764,2 2398064,5 139888,5 Από τα παραπάνω αποτελέσματα θα προσπαθήσουμε να εστιάσουμε σε εκείνα που θεωρούνται περισσότερο σημαντικά προς αξιοποίηση. Όσον αφορά στις χρηματοοικονομικές δαπάνες διακρίνουμε ότι η κλάση των μη πτωχευμένων κυμαίνεται σε υψηλότερα επίπεδα από εκείνη των πτωχευμένων, δηλώνοντας πιθανόν ότι έχει δοθεί βάρος σημαντικό σε κάποιες επενδύσεις. Επίσης το λειτουργικό περιθώριο παρουσιάζεται με αρνητικό πρόσημο σε ομάδες που αφορούν μη πτωχευμένες, όπως και το κέρδος προ φόρου εισοδήματος και τα αδιανέμητα κέρδη. Αυτό ίσως δείχνει ότι οι επιχειρήσεις αν και δεν έχουν κηρύξει πτώχευση αντιμετωπίζουν σοβαρές ζημίες που τις επηρεάζουν και είναι πιθανόν να πτωχεύσουν στο μέλλον. Όσον αφορά τις πτωχευμένες παρατηρούμε στις υπάρχουσες ομάδες πως έχουν αναλογικά υψηλότερες τιμές στα χρεόγραφα και τις οφειλές σε τράπεζες. Ως προς το δεύτερο πιθανόν να υπάρχει υπερδανεισμός ώστε να καλύπτονται τρέχουσες υποχρεώσεις από την μεριά της επιχείρησης και τελικά η εταιρεία να μην μπορεί να ανταπεξέλθει και να πτωχεύει. Ακόμα ίσως αυτά τα ποσά δόθηκαν για επενδύσεις που τελικά δεν προσέφεραν τα αναμενόμενα κέρδη και οφέλη. Επίσης το σύνολο των αποσβέσεων είναι μεγαλύτερο για τις ομάδες των μη πτωχευμένων στις

Page 168: Nimertis_Pagouropoulos

162

περισσότερες των περιπτώσεων πράγμα που ίσως δηλώνει κάποιο πρόβλημα στην παραγωγή πιθανότατα λόγο συχνών ζημιών. Τέλος για τις τιμές του στοιχείου αποσβέσεις κτιριακών εγκαταστάσεων βρέθηκαν πολλές αρνητικές τιμές και στις δύο κλάσεις. Θυμίζουμε ότι οι τιμές αντιπροσωπεύουν διαστήματα. 4. Συμπεράσματα, μελλοντικές προκλήσεις Στην παρούσα εργασία ασχοληθήκαμε με το πώς μπορούμε να εφαρμόσουμε τις μεθόδους Data Mining σε διάφορα πεδία της Χρηματοοικονομικής Ανάλυσης. Αφορμή στάθηκε η μεγάλη σημασία που διαδραματίζει η Χρηματοοικονομική Ανάλυση στους οικονομικούς οργανισμούς παγκοσμίως και το ενδιαφέρον για νέες μεθοδολογίες εκτός των ήδη υπαρχόντων. Αρχικά ασχοληθήκαμε με θεωρητικά θέματα περιγράφοντας τις τεχνικές και την έννοια της μεθόδου Εξόρυξης από Δεδομένα. Στο πεδίο των εφαρμογών, που παρουσιάζει και το μεγαλύτερο ενδιαφέρον, και συγκεκριμένα για το κομμάτι της πτώχευσης και της βιωσιμότητας των επιχειρήσεων, χρησιμοποιήσαμε οικονομικά δεδομένα 140 επιχειρήσεων (68 πτωχευμένων και 72 μη πτωχευμένων) και δημιουργήσαμε βάσεις δεδομένων που χρησιμοποιήθηκαν σαν σύνολα εκπαίδευσης για τους ανάλογους αλγορίθμους. Οι μέθοδος της Ταξινόμησης έδωσε χρήσιμα συμπεράσματα κυρίως με δεδομένα τους αριθμοδείκτες που είχαν υπολογιστεί καθώς τα αποτελέσματα συμβαδίζουν σχεδόν απόλυτα με την χρηματοοικονομική θεωρία. Στην περίπτωση του πίνακα των πτωχευμένων και μη, όπως αυτός προέκυψε από την ανάλογη προεπεξεργασία, δόθηκε η δυνατότητα εύρεσης διαστημάτων που ίσως να χαρακτηρίζουν επιχειρήσεις που πτωχεύουν και όχι, ανάλογα πάντα με την κλάση που έχουμε. Παρόμοια αποτελέσματα, τα οποία παρουσιάστηκαν σε ομάδες προέκυψαν από την εφαρμογή της μεθόδου της Ομαδοποίησης στην ίδια βάση δεδομένων. Τέλος όσον αφορά την μέθοδο της Συσχέτισης είδαμε πως σχετίζεται η συμπεριφορά δύο μετοχών καθώς και την αλληλεξάρτηση μεταξύ των στοιχείων για την κάθε μία ξεχωριστά. Από όλα αυτά μπορούμε να συμπεράνουμε ότι όσο περισσότερα ιστορικά δεδομένα έχουμε, και όσο καλύτερη δυνατή είναι η ποιότητά τους, τόσο το καλύτερο για το σύστημα και την εξαγωγή γνώσης, καθώς η πληροφορία που θα παίρνουμε θα βελτιώνεται αισθητά και συνεχώς. Σαν πρόκληση θα μπορούσαμε επίσης να δημιουργήσουμε ένα σύστημα συμπεριλαμβάνοντας και άλλους παράγοντες, εξωγενείς σε σχέση με το εσωτερικό περιβάλλον των επιχειρήσεων, και να εντοπίσουμε νέες τάσεις που δημιουργούνται. Τέτοιοι θα μπορούσαν να είναι στοιχεία που σχετίζονται με μεγέθη όπως ο πληθωρισμός, οι συνθήκες ανταγωνισμού που επικρατούν, κλαδικές σχέσεις και συνθήκες ώστε να έχουμε περισσότερα δεδομένα και συσχετισμούς. Αυτά βέβαια προϋποθέτουν ειδική αντιμετώπιση ώστε να είμαστε σε θέση να τα αξιολογήσουμε και να τα συνδέσουμε με τα στοιχεία που ασχοληθήκαμε.

Page 169: Nimertis_Pagouropoulos

163

ΒΙΒΛΙΟΓΡΑΦΙΑ / ΠΗΓΕΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ & ΕΜΠΕΙΡΑ ΣΥΣΤΗΜΑΤΑ, ΑΘΑΝΑΣΙΟΣ ΤΣΑΚΑΛΙΔΗΣ ΚΑΘΗΓΗΤΗΣ, ΙΩΑΝΝΗΣ ΧΑΤΖΗΛΥΓΕΡΟΥΔΗΣ ΛΕΚΤΟΡΑΣ, ΠΑΤΡΑ 2002 [.1] ΠΟΛΥΚΡΙΤΗΡΙΕΣ ΤΕΧΝΙΚΕΣ ΤΑΞΙΝΟΜΗΣΗΣ , ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ Μιχάλης Δούμπος, Κωνσταντίνος Ζοπουνίδης Εκδόσεις ¨ Κλειδάριθμος¨ [.2] Advances In Knowledge Discovery And Data Mining [.3] Βουτσινάς Θέματα Επιχειρηματικής Νοημοσύνης, Θεωρητική Θεμελίωση και Εφαρμογές [.4] ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΉΣΕΩΝ, Τρίτη Αμερικάνικη Έκδοση, Douglas Downing Ph.D, Jeffrey Clark Ph.d [.5] ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ ΑΝΑΛΥΣΗ ΛΟΓΙΣΤΙΚΩΝ ΚΑΤΑΣΤΑΣΕΩΝ, ΠΕΜΠΤΗ ΕΚΔΟΣΗ ΝΙΚΗΤΑ Α.ΝΙΑΡΧΟΥ, Αναπληρωτή Καθηγητή Πανεπιστημίου Αθηνών Τμήμα Οικονομικών Επιστημών Αθήνα Πειραιάς 1997 ΕΚΔΟΣΕΙΣ Α.ΣΤΑΜΟΥΛΗΣ [.6] ΒΑΣΙΚΕΣ ΑΡΧΕΣ ΤΗΣ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΚΑΙ ΠΟΛΙΤΙΚΗΣ J FRED WESTON EUGENE F BRIGAM (ΕΚΔΟΣΕΙΣ ΠΑΠΑΖΗΣΗ ΑΘΗΝΑ 1996) [.7] Clustering large datasets, D.P. Mercer, Linacre College October 2003 [.8] paper Data Mining In Finance, Advances in Relational and Hybrid Methods (by Boris Kovalerchuk Evgenii Vityaev)[.9] ΕΠΕΝΔΥΣΕΙΣ Ι LAWRENCE J.GITMAN, MICHAEL D.JOEHNK ΕΚΤΗ ΕΚΔΟΣΗ (ΕΚΔΟΣΕΙΣ ΕΛΛΗΝ) [.10] ΕΠΕΝΔΥΣΕΙΣ ΙΙ LAWRENCE J.GITMAN, MICHAEL D.JOEHNK ΕΚΤΗ ΕΚΔΟΣΗ (ΕΚΔΟΣΕΙΣ ΕΛΛΗΝ) [.11] Examples of the use of data mining in financial applications, by Stephen Langdell, PhD, Numerical Algorithms Group [.12] paper Cleaning Financial Data, Numerical Algorithms Group [.13] paper On Developing a Financial Prediction System: Pitfalls and Possibilities, Stefan Zemke [.14] paper ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ ΛΟΓΙΣΤΙΚΗ ΧΡΗΣΤΟΥ ΒΑΣ. ΝΑΟΥΜ ΚΑΘΗΓΗΤΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΕΙΡΑΙΩΣ Β ΕΚΔΟΣΗ ΒΕΛΤΙΩΜΕΝΗ ΑΘΗΝΑ 1994 [.15]

Page 170: Nimertis_Pagouropoulos

164

Discretization and grouping : preprocessing steps for Data Mining Petr Berka and Ivan Bruha [.16] paper Clustering Mixed Numerical and Low Quality Categorical Data: Significance Metrics on a Yeast Example. Bill Andreopoulos, Aijun An, Xiaogang Wang York University IQIS 2005, June 17 2005 [.17] paper Tac-chung Fu et all., Stock time series pattern matching:Template-based vs.rule-based approaches, Engineering Applications of Artificial Intelligence (2006), doi:10.1016/j.engappai.2006.07.003 [.18] paper