Νευρωνικά Δίκτυα

ΤεχνητάΝευρωνικά

Δίκτυα

& εφαρμογή τους στην πρόγνωση καιρού

Πτυχιακή Εργασία

: Όνομα Ανδρέας Φωτέας: 200600226ΑΜ

: Επιβλέπων Εμμανουήλ Τσίλης

Περιεχόμενα

1. Αρχές Λειτουργίας...........................................................................................................7

1.1 Η δομή ενός νευρωνικού δικτύου..................................................................................7

1.1.1 Μονάδες επεξεργασίας..........................................................................................8

1.1.2 Ενώσεις μεταξύ των μονάδων................................................................................8

1.1.3 Ενεργοποίηση και κανόνες εξόδου.........................................................................9

1.2 Τοπολογίες Δικτύων.....................................................................................................10

1.3 Εκπαιδεύοντας ένα τεχνητό νευρωνικό δίκτυο............................................................10

1.3.1 Διαδικασίες μάθησης............................................................................................10

1.3.2 Μοντέλα τροποποίησης των συναπτικών βαρών.................................................11

1.4 Ταξινόμηση Νευρωνικών αλγορίθμων.........................................................................11

2. Δίκτυα ενός στρώματος..................................................................................................13

2.1 Δίκτυα με δυναμικά κατωφλίου...................................................................................13

2.2 Κανόνας Perceptron.....................................................................................................15

2.2.1 Κανόνας μάθησης.................................................................................................15

2.2.2 Θεώρημα σύγκλισης.............................................................................................15

2.2.3 Συμπεριφορά του αλγορίθμου Perceptron..........................................................17

2.3 Αυτοπροσαρμοζόμενο γραμμικό στοιχείο (ADALINE)..................................................17

2.3.1 Κανόνας Δέλτα......................................................................................................18

2.4 Σύγκριση του αλγόριθμου ADALINE και PERCEPTRON.................................................19

3. Δίκτυα πολλών στρωμάτων............................................................................................21

3.1 Δίκτυα πολλών στρωμάτων πρόσθιας τροφοδότησης.................................................21

3.2 Ο γενικευμένος κανόνας Δέλτα....................................................................................22

3.2.1 Κατανοώντας το back-Propagation.......................................................................24

3.3 Δουλεύοντας με το back-propagation..........................................................................25

3.4 Ελλείψεις του back-propagation...................................................................................27

3.4.1 Παράλυση δικτύου...............................................................................................27

3.4.2 Τοπικά ελάχιστα...................................................................................................28

3.5 Προηγμένοι αλγόριθμοι...............................................................................................28

3

3.6 Πόσο καλά είναι τα πολλαπλών επιπέδων δίκτυα πρόσθιας τροφοδότησης;.............30

3.6.1 Επίδραση του πλήθους των δειγμάτων μάθησης.................................................31

3.6.2 Η επίδραση του πλήθους των κρυφών μονάδων.................................................33

4. Αναδρομικά Δίκτυα........................................................................................................35

4.1 Ο γενικευμένος κανόνας δέλτα στα αναδρομικά δίκτυα.............................................35

4.1.1 Το δίκτυο Jordan...................................................................................................36

4.1.2 Tο δίκτυο Elman....................................................................................................37

4.2 Το δίκτυο Hopfield........................................................................................................38

4.2.1 Το δίκτυο Hopfield σαν συσχετιστική μνήμη........................................................39

4.2.2 Νευρώνες με διαβαθμισμένη απόκριση...............................................................40

4.2.3 Δίκτυα Hopfield για προβλήματα βελτιστοποίησης............................................40

4.3 Μηχανές Boltzmann.....................................................................................................42

5. Αυτό-οργανούμενα δίκτυα.............................................................................................45

5.1 Ανταγωνιστική μάθηση.................................................................................................45

5.1.1 Ομαδοποίηση.......................................................................................................45

5.1.2 Κβάντωση διανύσματος........................................................................................50

5.2 Το δίκτυο Kohonen.......................................................................................................53

5.3 Χεμπιανά μοντέλα μάθησης.........................................................................................56

5.3.1 Ανάλυση κύριων Συνιστωσών (Principal Component Analysis)............................57

5.3.2 Κανονικοποιημένος κανόνας Hebb.......................................................................58

5.3.3 Εξαγωγή σε κύριες συνιστώσες............................................................................59

5.3.4 Περισσότερα ιδιοανύσματα.................................................................................59

5.4 Θεωρία προσαρμοστικού συντονισμού.......................................................................60

5.4.1 Υπόβαθρο: Θεωρία προσαρμοστικού συντονισμού (ART)...................................60

5.4.2 ΑΡΤ1: Το απλοποιημένο μοντέλο νευρωνικού δικτύου........................................61

5.4.3 ΑRT1: Το πρωτότυπο μοντέλο..............................................................................64

6. Ενισχυτική Μάθηση.......................................................................................................67

6.1 Η κριτική.......................................................................................................................67

6.2 Ο ελεγκτής του δικτύου................................................................................................68

6.3 Προσέγγιση του Barto: ο συνδυασμός ASE-ACE...........................................................69

6.3.1 Συνειρμική αναζήτηση..........................................................................................70

6.3.2 Προσαρμοστική κριτική........................................................................................72

4

6.4 Ενισχυτική μάθηση σε σχέση με τον βέλτιστο έλεγχο..................................................72

7. Χρήση Υβριδικού Νευρωνικού Δικτύου για πρόβλεψη ατμοσφαιρικής Θερμοκρασίας. .75

7.1 Εισαγωγή......................................................................................................................75

7.2 Μερικές Δημοφιλείς Μέθοδοι και η εφαρμογή τους στην πρόγνωση θερμοκρασίας. 76

7.2.1 Προετοιμασία δεδομένων....................................................................................78

7.2.2 Αποτελέσματα......................................................................................................79

7.3 Το δίκτυο SOFM............................................................................................................80

7.3.1 Αρχιτεκτονική........................................................................................................81

7.4 SOFM-MLP Υβριδικό Δίκτυο.........................................................................................82

7.4.1 Εκπαιδεύοντας το υβριδικό SOFM-MLP δίκτυο....................................................84

7.4.2 Αποτελέσματα......................................................................................................85

7.5 Πρόβλεψη με υπολογιστικά χαρακτηριστικά...............................................................86

7.5.1 Αποτελέσματα......................................................................................................86

7.6 Online επιλογή χαρακτηριστικών και το Υβριδικό δίκτυο............................................87

7.6.1 Δίκτυο online επιλογής χαρακτηριστικών.............................................................88

7.6.2 Αποτελέσματα......................................................................................................89

7.7 Συμπεράσματα.............................................................................................................92

8. Ένα υλικολογισμικό ψηφιακό Νευρωνικό Δίκτυο για εφαρμογές πρόγνωσης καιρού....93

8.1 Νευρωνικά δίκτυα για πρόγνωση καιρού....................................................................93

8.2 Εφαρμογή ψηφιακού νευρωνικού δικτύου σε ένα τσιπ...............................................94

8.2.1 Η συνάρτηση Ενεργοποίησης...............................................................................96

8.2.2 Ανάλυση ακρίβειας...............................................................................................97

8.3 Προγραμματίζοντας ένα Τεχνητό Νευρωνικό Δίκτυο...................................................97

8.3.1 Ορισμός Παραμέτρων...........................................................................................97

8.3.2 Υλοποίηση μικροπρογράμματος...........................................................................98

8.4 Αποτελέσματα και συμπεράσματα.............................................................................101

Βιβλιογραφία......................................................................................................................103

5

1. Αρχές Λειτουργίας

Τα τεχνητά νευρωνικά δίκτυα που θα περιγράψουμε είναι όλα παραλλαγές της ιδέας της παράλληλης κατανεμημένης επεξεργασίας (parallel distributed processing PDP). Η αρχιτεκτονική του κάθε δικτύου βασίζεται σε πολλές παρόμοιες δομικές μονάδες που εκτελούν την επεξεργασία. Σε αυτό το κεφάλαιο αρχικά θα μελετήσουμε αυτές τις μονάδες επεξεργασίας και θα συζητήσουμε διαφορετικές τοπολογίες δικτύων. Στρατηγικές μάθησης για ένα προσαρμοστικό σύστημα θα παρουσιαστούν στο τελευταίο μέρος.

1.1 Η δομή ενός νευρωνικού δικτύου

Ένα τεχνητό νευρωνικό δίκτυο αποτελείται από ένα σύνολο απλών μονάδων επεξεργασίας που επικοινωνούν μεταξύ τους μέσω ενός μεγάλου πλήθους συνδέσεων που έχουν βάρη. Μια σειρά από τα βασικά στοιχεία ενός παράλληλα κατανεμημένου μοντέλου μπορούν να διακριθούν σε:

● ένα σύνολο μονάδων επεξεργασίας (νευρώνες, κύτταρα).● μια κατάσταση ενεργοποίησης yk για κάθε μονάδα, που είναι ισοδύναμη με την έξοδο της.● συνάψεις μεταξύ των μονάδων. Γενικά κάθε σύναψη ορίζεται από ένα συναπτικό βάρος wjk όπου καθορίζει την επίδραση του σήματος j στην μονάδα k.● ένα κανόνα διάδοσης, όπου καθορίζει την δραστική διέγερση sk μιας μονάδας από τις εξωτερικές εισόδους.● μια συνάρτηση ενεργοποίησης Fk, η οποία τροφοδοτείται από την διέγερση sk(t) και δίνει την έξοδο του νευρώνα yk(t).● μια εξωτερική είσοδο θκ για κάθε μονάδα που λέγεται κατώφλι ενεργοποίησης.● μια μέθοδο για την συλλογή της πληροφορίας από το περιβάλλον (κανόνας μάθησης).● ένα περιβάλλον στο οποίο το σύστημα πρέπει να λειτουργεί, παρέχοντας τα σήματα εισόδου και αν είναι αναγκαίο τα σήματα σφάλματος.

Στο επόμενο σχήμα φαίνονται αυτά τα βασικά στοιχεία.

7

Σχήμα 1.1: Τα βασικά στοιχεία ενός τεχνητού νευρωνικού δικτύου.

1.1.1 Μονάδες επεξεργασίας

Κάθε μονάδα εκτελεί σχετικά απλή δουλειά: να δέχεται σήματα εισόδου από γειτονικές μονάδες ή εξωτερικές πηγές και να υπολογίζει ένα σήμα εξόδου που διαδίδεται σε επόμενες μονάδες. Εκτός από αυτή την διεργασία, ένα δεύτερο καθήκον της είναι η προσαρμογή των βαρών. Το σύστημα είναι από την φύση του παράλληλο υπό την έννοια ότι πολλές μονάδες μπορούν να εκτελούν υπολογισμούς ταυτόχρονα.

Σε ένα σύστημα νευρώνων είναι χρήσιμο να διακρίνουμε τρείς τύπους μονάδων: μονάδες εισόδου (με δείκτη i) όπου λαμβάνουν δεδομένα από περιοχές εκτός των νευρωνικού δικτύου, μονάδες εξόδου (με δείκτη ο) που στέλνουν δεδομένα έξω από το δίκτυο και κρυφές μονάδες (με δείκτη h) που των οποίων οι είσοδοι και έξοδοι παραμένουν μέσα στο νευρωνικό δίκτυο.

Κατά τη διάρκεια της λειτουργίας οι μονάδες μπορούν να ενημερωθούν σύγχρονα ή ασύγχρονα. Με την σύγχρονη ενημέρωση, όλες οι μονάδες ενημερώνονται ταυτόχρονα, ενώ με την ασύγχρονη ενημέρωση κάθε μονάδα έχει μία πιθανότητα ενεργοποίησης της ενημέρωσης για κάθε χρονική στιγμή και συνήθως μόνο μία μονάδα είναι σε θέση να ενημερωθεί κάθε στιγμή.

1.1.2 Ενώσεις μεταξύ των μονάδων

Στις πιο πολλές περιπτώσεις υποθέτουμε ότι κάθε μονάδα περιέχει μια πρόσθετη συμβολή στην είσοδό της. Η συνολική είσοδος στην μονάδα k είναι απλά το άθροισμα

8

των εξόδων όλων των συνδεδεμένων μονάδων στην μονάδα k πολλαπλασιασμένες με μια τιμή (βάρος) συν μια τιμή κατωφλίου ή πόλωσης θk

(1,1)

Οι συνάψεις περιγράφονται από τα συναπτικά βάρη wjk που είναι πραγματικοί αριθμοί, θετικοί για τις ενισχυτικές συνάψεις και αρνητικοί για τις ανασταλτικές συνάψεις.

1.1.3 Ενεργοποίηση και κανόνες εξόδου

Χρειαζόμαστε επίσης ένα κανόνα πού να δίνει το αποτέλεσμα του συνόλου των εισόδων στην ενεργοποίηση της μονάδας. Χρειαζόμαστε μία συνάρτηση F k που παίρνει την διέγερση sk (t ) και την ενεργοποίηση yk (t ) και παράγει μια νέα τιμή της ενεργοποίησης της k μονάδας :

(1,2)

Συχνά, η συνάρτηση ενεργοποίησης είναι μια αύξουσα συνάρτηση της συνολικής εισόδου της μονάδας:

(1,3)

Αν και οι συναρτήσεις ενεργοποίησης δεν περιορίζονται σε αύξουσες συναρτήσεις, οι πιο διαδεδομένες συναρτήσεις είναι η βηματική συνάρτηση, η συνάρτηση κατωφλίου, η σιγμοειδής, η υπερβολική εφαπτομένη. Μερικές από αυτές φαίνονται στο σχήμα 1.2:

Σχήμα 1.2: Διάφορες συναρτήσεις ενεργοποίησης.

9

1.2 Τοπολογίες Δικτύων

Αυτή η ενότητα επικεντρώνεται στον τρόπο των συνδέσεων μεταξύ των μονάδων και στον τρόπο με τον οποίο διαδίδονται τα δεδομένα. Όσον αφορά αυτό το μοτίβο των συνδέσεων, βασική διάκριση που μπορούμε να κάνουμε είναι μεταξύ:

● Εμπρόσθιας τροφοδότησης δίκτυα, όπου τα δεδομένα ρέουν αυστηρά από την είσοδο προς την έξοδο. Η επεξεργασία εκτελείται σε διάφορα στρώματα (μονάδες), αλλά δεν υπάρχει καμίας μορφής ανάδραση.

● Αναδρομικά δίκτυα, που περιέχουν συνδέσεις ανατροφοδότησης. Η παρουσία της ανάδρασης διευκολύνει στην ευστάθεια του συστήματος, αλλά έχει και επίδραση στη δυνατότητα μάθησης του δικτύου.

1.3 Εκπαιδεύοντας ένα τεχνητό νευρωνικό δίκτυο

Ένα νευρωνικό δίκτυο θα πρέπει να ρυθμιστεί έτσι ώστε η εφαρμογή ενός συνόλου εισόδων να παράγει το επιθυμητό σύνολο εξόδων. Υπάρχουν διάφοροι τρόποι για να ρυθμιστούν τα συναπτικά βάρη. Ένας τρόπος είναι να ρυθμιστούν τα βάρη, χρησιμοποιώντας την εκ των προτέρων γνώση. Ένας άλλος τρόπος είναι να εκπαιδεύσεις το νευρωνικό δίκτυο τροφοδοτώντας το με πρότυπα διδασκαλίας και αφήνοντάς το να αλλάξει τα βάρη μόνο του με βάση κάποιο κανόνα μάθησης.

1.3.1 Διαδικασίες μάθησης

Μπορούμε να κατηγοριοποιήσουμε τις διαδικασίες μάθησης σε δύο διακριτές κατηγορίες. Αυτές είναι:

● επιβλεπόμενη μάθηση στην οποία το δίκτυο εκπαιδεύεται δίνοντας του ένα σύνολο παραδειγμάτων με τιμές εισόδου μαζί με τις επιθυμητές τιμές εξόδου. Αυτά τα ζεύγη εισόδου-εξόδου από ένας εξωτερικό «δάσκαλο», ή από ένα σύστημα που μπορεί να περιλαμβάνει το σύστημα «αυτοεπίβλεψη».

● μη επιβλεπόμενη μάθηση ή αυτό-οργανούμενη στην οποία μια (έξοδος) έχει εκπαιδευτεί για να ανταποκριθεί στο σύνολο των παραδειγμάτων στην είσοδο. Από αυτά τα παραδείγματα το σύστημα υποτίθεται ότι θα ανακαλύψει τα χαρακτηριστικά του πληθυσμού της εισόδου. Σε αντίθεση με την επιβλεπόμενη μάθηση με παραδείγματα δεν υπάρχει εκ των προτέρων μια σειρά από κλάσεις στις οποίες θα καταταγούν οι είσοδοι, αλλά το σύστημα πρέπει να αναπτύξει δικιά του αντίληψη για τα ερεθίσματα που δέχεται.

10

1.3.2 Μοντέλα τροποποίησης των συναπτικών βαρών

Και οι δύο διαδικασίες που αναφέρθηκαν πριν έχουν ως αποτέλεσμα την προσαρμογή των βαρών των συνδέσεων μεταξύ των μονάδων (νευρώνων), με βάση κάποιο κανόνα τροποποίησης. Σχεδόν όλοι οι κανόνες μάθησης για τα μοντέλα αυτού του τύπου μπορούν να θεωρηθούν μια παραλλαγή του Χεμπιανού μοντέλου μάθησης που πρότεινε ο Hebb. Η βασική ιδέα ήταν πως αν δύο μονάδες j και είναι ενεργές ταυτόχρονα, η διασύνδεσή τους πρέπει να ενισχυθεί. Αν η j λαμβάνει είσοδο από την k, η απλούστερη μορφή του κανόνα μάθησης του Hebb προβλέπει την τροποποίηση του wjk κατά:

(1,4)

Όπου γ είναι μία θετική σταθερά αναλογικότητας που αντιπροσωπεύει τον ρυθμό μάθησης. Ένας άλλος κανόνας δεν χρησιμοποιεί την έξοδο της k μονάδας, αλλά την διαφορά μεταξύ πραγματικής και επιθυμητής εξόδου για να μεταβάλλει τα βάρη:

(1,5)

Όπου dk είναι η επιθυμητή ενεργοποίηση του νευρώνα που παρέχεται από τον εκπαιδευτή. Αυτός συχνά καλείται κανόνας του Widdow-Hoff ή κανόνας δέλτα.

1.4 Ταξινόμηση Νευρωνικών αλγορίθμων

Γενικά οι νευρωνικοί αλγόριθμοι ταξινομούνται σύμφωνα με το παρακάτω σχήμα:

11

2. Δίκτυα ενός στρώματος

Αυτό το κεφάλαιο περιγράφει νευρωνικά δίκτυα ενός στρώματος, συμπεριλαμβανομένου και μερικών κλασσικών προσεγγίσεων στους υπολογισμούς με νευρώνες και στα προβλήματα μάθησης. Στο πρώτο τμήμα αυτού του κεφαλαίου συζητάμε την ισχύ των δικτύων ενός στρώματος και οι αλγόριθμοι διδασκαλίας τους θα μας δώσουν μερικά παραδείγματα της χρήσης των δικτύων. Στο δεύτερο μέρος θα ασχοληθούμε με τους περιορισμούς αυτού του τύπου δικτύων. Δυο κλασσικά μοντέλα θα παρουσιαστούν στο πρώτο μέρος, το Perceptron του Rosenblatt (1959) και το Adaline των Widrow και Hoff (1960).

2.1 Δίκτυα με δυναμικά κατωφλίου

Το πιο απλό νευρωνικό δίκτυο που μπορεί να σχεδιαστεί και να μελετηθεί πλήρως είναι ένα δίκτυο που αποτελείται από ένα μόνο νευρώνα. Οι μόνες συνδέσεις που υπάρχουν είναι αυτές μεταξύ των εισόδων xi και του νευρώνα. Οι παράμετροι wi είναι τα συναπτικά βάρη του νευρώνα ενώ η παράμετρος θ λέγεται κατώφλι ενεργοποίησης του νευρώνα. Στο σχήμα 2.1 έχουμε ένα δίκτυο με 2 μόνο εισόδους:

Σχήμα 2.1: Δίκτυο μιας στρώσης με μια έξοδο και δυο εισόδους

Η έξοδος του νευρώνα σχηματίζεται από την ενεργοποίηση της εξόδου του νευρώνα, που είναι μια συνάρτηση της εισόδου:

(2,1)

Η συνάρτηση ενεργοποίησης Ƒ μπορεί να είναι γραμμική με αποτέλεσμα να έχουμε γραμμικό δίκτυο, ή μη γραμμική. Σε αυτό το κομμάτι θα ασχοληθούμε με την βηματική συνάρτηση:

13

(2,2)

Η έξοδος του δικτύου είναι είτε +1 είτε -1, ανάλογα με την είσοδο. Το δίκτυο τώρα μπορεί να χρησιμοποιηθεί για εργασία ταξινόμησης: μπορεί να αποφασίσει αν ένα πρότυπο ανήκει σε μια από δύο κλάσεις. Αν η συνολική είσοδος είναι θετική τότε το πρότυπο θα ταξινομηθεί στην κλάση +1, εάν η συνολική είσοδος είναι αρνητική, το πρότυπο θα ταξινομηθεί στην κλάση -1. Ο διαχωρισμός των δύο κλάσεων σε αυτή την περίπτωση θα πραγματοποιείται από μία ευθεία γραμμή που δίνεται από την σχέση:

(2,3)

Ένα δίκτυο ενός επιπέδου καθορίζεται από μια γραμμική συνάρτηση απόφασης. Μια γεωμετρική απεικόνιση του γραμμικού αυτού κατωφλίου φαίνεται στο σχήμα 2.2 . Η εξίσωση 2.3 μπορεί να γραφτεί και σαν:

(2,4)

Όπου παρατηρούμε πως τα βάρη καθορίζουν την κλήση της γραμμής και το κατώφλι καθορίζει την απόσταση της γραμμής από την αρχή των αξόνων. Σημειωτέο πως τα βάρη μπορούν να σχεδιαστούν στο ίδιο διάγραμμα. Το διάνυσμα των βαρών είναι κάθετο στην συνάρτηση απόφασης.

Σχήμα 2.2: Γραφική απεικόνιση της συνάρτησης απόφασης και των βαρών

Τώρα που έχουμε δείξει την αναπαραστατική δυνατότητα του δικτύου ενός στρώματος με γραμμικά κατώφλια, ερχόμαστε στο δεύτερο ζήτημα: πως μπορούμε να διδάξουμε στο δίκτυο τις τιμές των συναπτικών βαρών και των πολώσεων σε ένα δίκτυο; Θα περιγράψουμε δύο μεθόδους διδασκαλίας για αυτά τα είδη δικτύων: την μέθοδο διδασκαλίας του perceptron και του κανόνα δέλτα ή LMS (ελαχιστοποίηση τετραγώνων). Και οι δύο είναι επαναληπτικές διαδικασίες που προσαρμόζουν τα βάρη.

14

Για κάθε βάρος η νέα τιμή υπολογίζεται προσθέτοντας μία διόρθωση στην παλιά τιμή. Το κατώφλι ενημερώνεται με παρόμοιο τρόπο:

(2,5) (2,6)

Το πρόβλημα μάθησης τώρα έχει αναχθεί στο πρόβλημα του πώς θα υπολογίσουμε τις τιμές των Δwi(t) και Δθ(t).2.2 Κανόνας Perceptron

2.2.1 Κανόνας μάθησης

Έστω ότι έχουμε ένα σύνολο δειγμάτων μάθησης από ένα διάνυσμα εισόδου x και τις επιθυμητές εξόδους d (x ). Για εργασία ταξινόμησης το d (x )είναι συνήθως +1 ή -1. Ο κανόνας μάθησης του perceptron είναι πολύ απλός και έχει τα ακόλουθα βήματα:

1. Ξεκίνα με τυχαίες τιμές για τα βάρη (αρχικοποίηση)2. Διάλεξε ένα διάνυσμα εισόδου από το σύνολο των διανυσμάτων μάθησης3. Εάν y≠ d(x), τροποποίησε όλα τα συναπτικά βάρη σύμφωνα με: Δwi= d(x)∙xi

4. Πήγαινε πίσω στο 2

Σημειωτέον ότι η διαδικασία είναι πολύ παρόμοια με τον κανόνα του Hebb, η μόνη διαφορά είναι ότι, όταν το δίκτυο αντιδρά σωστά, τα συναπτικά βάρη μένουν ίδια. Εκτός από την τροποποίηση των βαρών θα πρέπει επίσης να τροποποιήσουμε και το κατώφλι θ. Το κατώφλι αυτό θεωρείται σαν συναπτικό βάρος wo που είναι μόνιμα σε είσοδο με τιμή +1. Η τροποποίηση του δυναμικού κατωφλίου δίνεται από:

(2,7)

2.2.2 Θεώρημα σύγκλισης

Για τον κανόνα μάθησης του perceptron υπάρχει ένα θεώρημα σύγκλησης που ορίζεται ως εξής:Θεώρημα: Αν υπάρχει ένα σύνολο συναπτικών βαρών w* που είναι ικανό να εκτελεί τον μετασχηματισμό y= d(x), ο κανόνας σύγκλησης του perceptron θα συγκλίνει σε

15

μία λύση ύστερα από ένα πεπερασμένο πλήθος βημάτων για οποιαδήποτε αρχική επιλογή των βαρών.Απόδειξη: Δεδομένου ότι το μέτρο του διανύσματος w* δεν παίζει ρόλο (λόγο της συνάρτησης sgn), παίρνουμε ǁw* =1ǁ . Επειδή w* είναι σωστή λύση, η τιμή | w*∙x|, θα είναι μεγαλύτερη του μηδενός ή αλλιώς: εκεί υπάρχει ένα δ>0 όπως | w*∙x|>0 για όλες τις τιμές των εισόδων x. Τώρα ορίζουμε cos(a)=w∙w*/ǁwǁ. Όταν σύμφωνα με τον κανόνα μάθησης perceptron, τα συναπτικά βάρη τροποποιούνται για δεδομένο x, ξέρουμε ότι Δw=d(x)∙x, και το βάρος μετά την τροποποίηση θα είναι w’=w+Δw. Από αυτά έπεται ότι:

Μετά από t τροποποιήσεις έχουμε:

Έτσι ώστε:

Από αυτά έπεται ότι όταν εξ ορισμού cosα≤1 Το συμπέρασμα είναι πως πρέπει να υπάρχει ένα ανώτατο όριο. Το σύστημα τροποποιεί τα συναπτικά βάρη περιορισμένο αριθμό φορών. Με άλλα λόγια μετά από τον μέγιστο αριθμό tmax τροποποιήσεων το perceptron θα εκτελεί σωστά τις αντιστοιχίσεις. Αν ξεκινήσουμε με w=0,

(2,8)

16

2.2.3 Συμπεριφορά του αλγορίθμου Perceptron

Αν το πρόβλημα δεν είναι γραμμικά διαχωρίσιμο τότε ο αλγόριθμος Perceptron δεν συγκλίνει ποτέ. Αυτό είναι ένα σοβαρό μειονέκτημα το οποίο αποτέλεσε και το βασικό σημείο κριτικής εναντίον του Perceptron. Επί πλέον πολλά προβλήματα στον πραγματικό κόσμο είναι μη γραμμικά διαχωρίσιμα και επομένως το μοντέλο είναι άχρηστα γι’ αυτά.

2.3 Αυτοπροσαρμοζόμενο γραμμικό στοιχείο (ADALINE)

Ο όρος ADALINE προέρχεται από τα αρχικά των λέξεων ADAptive LINear Element. Μια σημαντική γενίκευση του αλγορίθμου εκπαίδευσης perceptron παρουσιάστηκε από τους Widrow και Hoff γνωστή ως μέθοδος εκπαίδευσης ελαχίστων μέσων τετραγώνων (least mean square LMS) ή αλλιώς γνωστή ως κανόνας δέλτα (delta rule). Η κύρια λειτουργική διαφορά με τον κανόνα μάθησης του perceptron είναι ο τρόπος με τον οποίο χρησιμοποιείται η έξοδος του συστήματος στην εκμάθηση του κανόνα. Ο κανόνας εκμάθησης Perceptron χρησιμοποιεί την έξοδο της συνάρτησης κατωφλίου (-1 ή +1). Ο κανόνας δέλτα χρησιμοποιεί την έξοδο του δικτύου χωρίς περεταίρω κατηγοριοποίηση σε τιμές -1 και +1. Αυτός ο κανόνας μάθησης εφαρμόστηκε στο ADALINE, όπου αναπτύχθηκε από τους Widrow και Hoff το 1960. Μια φυσική υλοποίηση του ADALINE φαίνεται στο σχήμα 2.3:

Σχήμα 2.3: Το ADALINE

Η συσκευή αποτελείται από ένα σύνολο από ελεγχόμενους αντιστάτες ενωμένους σε ένα κύκλωμα το οποίο μπορεί να αθροίσει το προερχόμενο ρεύμα από τις εισόδους. Συνήθως η κεντρική μονάδα, ο αθροιστής, ακολουθείται από ένα περιοριστή πλάτους όπου δίνει τιμές στο άθροισμα -1 ή +1, ανάλογα με το πρόσημο του αθροίσματος. Παρόλο που η προσαρμοστική αυτή διαδικασία στο παράδειγμα είναι με μόνο μια

17

έξοδο, είναι σαφές ότι ένα σύστημα με πολλές παράλληλες εξόδους είναι άμεσα υλοποιήσιμο από πολλαπλές μονάδες του παραπάνω είδους.

Αν οι αντιστάσεις των εισόδων συμβολίζονται με wi, όπου i=0,1,…,n τα σήματα εισόδου και εξόδου με xi και y, αντίστοιχα, τότε η έξοδος του της κεντρικής μονάδας ορίζεται ως:

(2,9)

Όπου θ≡wo. O σκοπός αυτής της συσκευής είναι να δώσει μια δεδομένη τιμή y=d p όταν ένα σύνολο από τιμέςx i

p, i=1,2,…,n εφαρμόζεται στις εισόδους. Το πρόβλημα είναι να καθοριστούν τα βάρη wi, i=1,2,…,n με τέτοιο τρόπο ώστε η απόκριση της εισόδου στην έξοδο να είναι σωστή για ένα μεγάλο πλήθος τυχαίων ζευγών εκπαίδευσης. Αν ένας τέλειος διαχωρισμός δεν είναι εφικτός, το μέσο σφάλμα πρέπει να ελαχιστοποιηθεί, με την έννοια των ελαχίστων τετραγώνων. Η αυτοπροσαρμοζόμενη λειτουργία σημαίνει ότι υπάρχει ένας μηχανισμός με τον οποίο τα wi μπορούν να ρυθμιστούν, συνήθως με επαναληπτικές διαδικασίες, για να λάβουν τις επιθυμητές τιμές.

2.3.1 Κανόνας Δέλτα

Για το ADALINE ο Widow εισήγαγε τον κανόνα δέλτα για την προσαρμογή των βαρών. Για ένα δίκτυο ενός στρώματος με μια έξοδο και με γραμμική συνάρτηση ενεργοποίησης η έξοδος δίνεται απλά από τη σχέση:

(2,10)

Ένα τέτοιο δίκτυο είναι σε θέση να αναπαραστήσει την γραμμική σχέση της μονάδας εξόδου με τις τιμές των μονάδων εισόδου. Βάζοντας τιμή κατωφλίου για την έξοδο, μπορεί να είναι εφικτή ταξινόμηση. Εδώ επικεντρωνόμαστε στην γραμμική συσχέτιση και την χρήση του δικτύου για προσέγγιση συνάρτησης. Σε χώρο εισόδων πολλών διαστάσεων το δίκτυο αναπαριστά ένα υπερεπίπεδο και είναι σαφές ότι και πολλαπλές έξοδοι μπορούν να οριστούν.

Ας υποθέσουμε ότι θέλουμε να εκπαιδεύσουμε έτσι ώστε ένα υπερεπίπεδο να τοποθετείται όσο το δυνατόν καλύτερα για ένα σύνολο δειγμάτων κατάρτισης αποτελούμενα από τιμές εισόδου x p και επιθυμητές τιμές εξόδου (στόχοι) d p. Για κάθε δοθέν δείγμα εισόδου, η έξοδος διαφέρει από τον στόχο κατά (d p− y p), όπου y p είναι η πραγματική έξοδος του νευρώνα. Ο κανόνας δέλτα χρησιμοποιεί μια συνάρτηση σφάλματος ή κόστους βασισμένη σε αυτές τις διαφορές για να τροποποιήσει τα βάρη.

Η συνάρτηση σφάλματος, ή αλλιώς LMS (least mean squares), είναι το άθροισμα των τετραγώνων των σφαλμάτων. Έτσι το συνολικό σφάλμα Ε ορίζεται ως:

18

(2,11) Όπου η τιμή του δείκτη p ποικίλει ανάλογα με την το πλήθος των δειγμάτων

εισόδου και το Ερ αναπαριστά το σφάλμα στο δείγμα p. Η διαδικασία LMS βρίσκει τις τιμές όλων των βαρών που ελαχιστοποιούν την συνάρτηση σφάλματος με μια μέθοδο που λέγεται κατάβαση δυναμικού. Η ιδέα είναι να γίνονται αλλαγές στα βάρη ανάλογα με την αρνητική παράγωγο του σφάλματος όπως μετριέται στο τρέχον δείγμα σε σχέση με το κάθε βάρος:

(2,12)

Όπου γ είναι μια σταθερά αναλογίας. Η κλήση είναι :

(2,13)

Όμως από την (2,10),

(2,14)και

(2,15)

έτσι ώστε

(2,16)

όπου δp =dp-yp η διαφορά μεταξύ επιθυμητής εξόδου και πραγματικής εξόδου για το δείγμα p. Ο κανόνας δέλτα τροποποιεί κατάλληλα τα βάρη από τις επιθυμητές και πραγματικές εξόδους τόσο για συνεχείς όσο και για διακριτές τιμές εισόδων και εξόδων.

2.4 Σύγκριση του αλγόριθμου ADALINE και PERCEPTRON

Έχουμε να κάνουμε να κάνουμε με δύο αλγόριθμους της ίδιας φιλοσοφίας: και οι δυο αυτοπροσαρμοστικοί. Πλεονέκτημα του ADALINE-LMS είναι ότι συγκλίνει, για p→∞, σε κάποιο διάνυσμα w* ακόμα και αν το πρόβλημα δεν είναι γραμμικά διαχωρίσιμο. Κάτι τέτοιο δεν συμβαίνει με τον αλγόριθμο PERCEPTRON. Αν το πρόβλημα δεν είναι γραμμικά διαχωρίσιμο τότε ο αλγόριθμος PERCEPTRON ταλαντεύεται ασταμάτητα χωρίς να συγκλίνει πουθενά.

19

3. Δίκτυα πολλώνστρωμάτων

Όπως είδαμε στο προηγούμενο κεφάλαιο, ένα δίκτυο ενός στρώματος έχει σοβαρούς περιορισμούς. Το πλήθος των προβλημάτων που μπορεί να επεξεργαστεί είναι πολύ μικρό. Σε αυτό το κεφάλαιο θα επικεντρωθούμε σε δίκτυα πρόσθιας τροφοδότησης με πολλά στρώματα επεξεργαστικών μονάδων.

Οι Minsky και Papert έδειξαν το 1969 ότι δίκτυα πρόσθιας τροφοδότησης δυο στρωμάτων μπορούν να ξεπεράσουν πολλούς από τους περιορισμούς, αλλά δεν παρουσίασαν λύση στο πρόβλημα για το πως θα ρυθμίζονται τα βάρη των εισόδων των κρυμμένων μονάδων. Λύση σε αυτό το πρόβλημα παρουσιάστηκε από τους Rumelhart, Hinton και Williams το 1986.

Η κεντρική ιδέα πίσω από την λύση είναι ότι τα σφάλματα των μονάδων των κρυφών στρωμάτων καθορίζονται με την μέθοδο πολλαπλασιασμού στα πίσω στρώματα των σφαλμάτων των μονάδων του εξωτερικού στρώματος. Γι αυτό τον λόγο αυτή η μέθοδος ονομάζεται κανόνας μάθησης Back-propagation. Αυτός ο κανόνας μπορεί να θεωρηθεί ως η γενίκευση του κανόνα δέλτα για μη γραμμικές συναρτήσεις ενεργοποίησης και δίκτυα πολλών στρωμάτων.

3.1 Δίκτυα πολλών στρωμάτων πρόσθιας τροφοδότησης

Ένα εμπροσθοτροφοδοτούμενο δίκτυο έχει μια πολυεπίπεδη δομή. Κάθε επίπεδο αποτελείται από μονάδες (νευρώνες) που λαμβάνουν την είσοδό τους από μονάδες στο αμέσως προηγούμενο επίπεδο και στέλνουν την έξοδό τους σε μονάδες του αμέσως επόμενου επιπέδου. Δεν υπάρχουν ενώσεις μέσα στο ίδιο επίπεδο. Οι Νi είσοδοι τροφοδοτούνται στο πρώτο στρώμα από Nh,1 κρυφές μονάδες (πρώτο κρυφό επίπεδο). Η ενεργοποίηση μιας κρυφής μονάδας είναι μια συνάρτηση Fi των εισόδων και ενός δυναμικού όπως δίνεται στην εξίσωση (1,4). Η έξοδος των κρυφών μονάδων διανέμεται στο επόμενο επίπεδο που αποτελείται από Nh,2 κρυφές μονάδες, μέχρι το τελευταίο κρυφό στρώμα, του οποίου οι έξοδοι τροφοδοτούνται σε ένα στρώμα από No μονάδες εξόδου.

Παρόλο που ο αλγόριθμος Back-Propagation μπορεί να εφαρμοστεί σε δίκτυα με οσοδήποτε μεγάλο αριθμό επιπέδων, έχει δειχθεί ότι μόνο ένα κρυφό επίπεδο αρκεί για να προσεγγίσουμε οποιαδήποτε συνάρτηση με όσο μεγάλη ακρίβεια θέλουμε, με την προϋπόθεση οι συναρτήσεις ενεργοποίησης των κρυφών επιπέδων να είναι μη γραμμικές. Στην πλειονότητα των περιπτώσεων χρησιμοποιείται ένα δίκτυο πρόσθιας

21

τροφοδότησης με μόνο ένα επίπεδο από κρυμμένες μονάδες με σιγμοειδή συνάρτηση ενεργοποίησης για τις μονάδες. Ένα δίκτυο πολλών επιπέδων φαίνεται στο επόμενο σχήμα:

Σχήμα 3.1: Ένα multi-layer δίκτυο με l στρώ5ματα μονα5δών.

3.2 Ο γενικευμένος κανόνας Δέλτα

Από την στιγμή που τώρα χρησιμοποιούμε μονάδες με μη γραμμικές συναρτήσεις ενεργοποίησης, πρέπει να γενικευθεί ο κανόνας Δέλτα, που είχε παρουσιαστεί στο προηγούμενο κεφάλαιο για γραμμικές συναρτήσεις ενεργοποίησης, σε ένα σύνολο από μονάδες με μη γραμμικές συναρτήσεις ενεργοποίησης. Η ενεργοποίηση είναι μια διαφορίσιμη συνάρτηση του συνόλου των εισόδων που δίνεται από την συνάρτηση:

(3,1)

στην οποία (3,2)

για να πάρουμε τη σωστή γενίκευση του κανόνα δέλτα όπως παρουσιάστηκε το προηγούμενο κεφάλαιο, πρέπει να θέσουμε:

(3,3)

Η μέτρηση του σφάλματος Εp ορίζεται ως το συνολικό τετραγωνικό σφάλμα του δείγματος p στις εξόδους των μονάδων:

(3,4)

22

όπου dop είναι η επιθυμητή έξοδος της μονάδας για το δείγμα p. Στη συνέχεια θέτουμε

ως το αθροιστικό τετραγωνικό σφάλμα. Μπορούμε να γράψουμε:

(3,5)

Στην εξίσωση (3,2) παρατηρούμε ότι ο δεύτερος παράγοντας είναι:

(3,6)

Όταν ορίσουμε

(3,7)

θα πάρουμε έναν κανόνα ενημέρωσης των συναπτικών βαρών που είναι ισοδύναμος με τον κανόνα δέλτα που ορίστηκε στο προηγούμενο κεφάλαιο, καταλήγοντας σε μια μείωση της κλίσης στην επιφάνεια των σφαλμάτων εάν κάνουμε τα σφάλματα να μεταβάλλονται σύμφωνα με:

(3,8)

Το κόλπο είναι να καταλάβουμε τι δ kp θα πρέπει να έχει κάθε k μονάδα στο

δίκτυο. Ένα ένα ενδιαφέρον αποτέλεσμα που προκύπτει τώρα, είναι ότι υπάρχει ένας απλός επαναληπτικός υπολογισμός από αυτά τα δ που μπορεί να υλοποιηθεί πολλαπλασιάζοντας τα σήματα σφάλματος προς τα πίσω στο σύστημα.

Για να υπολογίσουμε το δ kp εφαρμόζουμε τον κανόνα της αλυσίδας για να

γράψουμε αυτή τη μερική παράγωγο, ως γινόμενο δύο παραγόντων, ένας παράγοντας που αντικατοπτρίζει την αλλαγή στο σφάλμα ως συνάρτηση της εξόδου της μονάδας και ένας που αντικατοπτρίζει την αλλαγή στην έξοδο ως συνάρτηση των αλλαγών στην είσοδο. Έτσι έχουμε

(3,9)

από την εξίσωση (3,1) βλέπουμε ότι

(3,10)

που είναι απλά η παράγωγος της συνάρτησης Ƒ για την k μονάδα, που ενεργοποιείται από την διέγερση sk

p στην εν λόγω μονάδα. Για να υπολογίσουμε τον πρώτο παράγοντα της εξίσωσης (3,9), θεωρούμε δυο περιπτώσεις.

23

Πρώτα, θεωρούμε ότι η k μονάδα είναι μονάδα εξόδου (k=ο). Σε αυτή την περίπτωση προκύπτει από τον ορισμό του Εp ότι:

(3,11)

που είναι το ίδιο αποτέλεσμα που λάβαμε και με τον απλό κανόνα δέλτα. Αντικαθιστώντας αυτό και την εξίσωση (3,10) στην εξίσωση (3,9), παίρνουμε

(3,12)

για οποιαδήποτε μονάδα της εξόδου ο. Δεύτερον, αν k δεν είναι μονάδα εξόδου αλλά κρυφή μονάδα k=h , δεν ξέρουμε

άμεσα την συνεισφορά αυτής της μονάδας στο σφάλμα εξόδου του δικτύου. Ωστόσο, η μέτρηση του σφάλματος μπορεί να γραφεί σαν συνάρτηση των διεγέρσεων από το εν λόγο κρυφό επίπεδο έως το επίπεδο εξόδου και χρησι-μοποιώντας το κανόνα αλυσίδας:

(3,13)

Αντικαθιστώντας αυτό το αποτέλεσμα στην εξίσωση (3,9) έχουμε:

(3,14)

Οι εξισώσεις (3,12) και (3,14) δίνουν μια αναδρομική διαδικασία για τον υπολογισμό των δ όλων των μονάδων του δικτύου, που μπορούν έπειτα να χρησιμοποιηθούν για τον υπολογισμό όλων των συναπτικών βαρών σύμφωνα με την εξίσωση (3,8). Αυτή η διαδικασία αποτελεί τον γενικευμένο κανόνα δέλτα για δίκτυα πρόσθιας τροφοδότησης με μη γραμμικές μονάδες.

3.2.1 Κατανοώντας το back-Propagation

Οι εξισώσεις στην προηγούμενη ενότητα μπορεί να είναι μαθηματικά σωστές, αλλά τι πραγματικά σημαίνουν; Υπάρχει τρόπος κατανόησης του back-propagation χωρίς τα μαθηματικά;

Η απάντηση είναι, ναι. Στην πραγματικότητα αυτό που συμβαίνει στο back-propagation είναι το ακόλουθο. Όταν εκτελείται μια διαδικασία μάθησης, οι τιμές ενεργοποίησης πολλαπλασιάζονται στις μονάδες εξόδους, και η πραγματική έξοδος του δικτύου συγκρίνεται και τις επιθυμητές τιμές, καταλήγοντας συνήθως σε ένα σφάλμα κάθε μιας μονάδας εξόδου. Ας ονομάσουμε το σφάλμα eo για μια συγκεκριμένη μονάδα εξόδου ο. Πρέπει να μηδενίζουμε την τιμή του eo .

24

Η πιο απλή μέθοδος είναι η ακόλουθη: προσπαθούμε να αλλάξουμε τις συνδέσεις στο δίκτυο με τέτοιο τρόπο ώστε, την επόμενη φορά, το σφάλμα eo να είναι μηδέν για το συγκεκριμένο δείγμα. Γνωρίζουμε από τον κανόνα δέλτα πως, για να μειώσουμε ένα σφάλμα, πρέπει να προσαρμόσουμε τα βάρη σύμφωνα με την σχέση:

(3,15)

Αυτό είναι το ένα βήμα. Αλλά από μόνο του δεν είναι αρκετό: όταν απλά εφαρμόζουμε αυτό τον κανόνα, τα βάρη από την είσοδο και τις κρυφές μονάδες δεν αλλάζουν ποτέ, και έτσι δεν έχουμε δυνατότητα πλήρους προσέγγισης από πρόσθιας τροφοδότησης δίκτυο, όπως υπόσχεται το θεώρημα καθολικής προσέγγισης. Για να προσαρμοστούν τα βάρη των εισόδων των κρυφών μονάδων, πάλι θέλουμε να χρησιμοποιήσουμε τον κανόνα δέλτα. Σε αυτή την περίπτωση δεν έχουμε την τιμή δ για τις κρυφές μονάδες. Αυτό λύνεται από τον κανόνα αλυσίδας που κάνει το ακόλουθο: διανέμει τα σφάλματα μιας μονάδας εξόδου ο σε όλες τις κρυφές μονάδες που συνδέονται σε αυτή, και έτσι διορθώνονται τα βάρη των ενδιάμεσων συνδέσεων. Με άλλα λόγια, μια κρυφή μονάδα h λαμβάνει μια δέλτα από κάθε μια μονάδα εξόδου ο ίση με την δέλτα αυτή της εξόδου και πολλαπλασιασμένη με το βάρος μεταξύ αυτών των δύο μονάδων. Επίσης το προηγούμενο γινόμενο πολλαπλασιάζεται και με την συνάρτηση ενεργοποίησης της κρυφής αυτής μονάδας, πριν συνεχίσει ο αλγόριθμος back-propagation.

3.3 Δουλεύοντας με το back-propagation

Η εφαρμογή του γενικευμένου κανόνα δέλτα περιλαμβάνει δυο φάσεις: κατά την διάρκεια της πρώτης φάσης η είσοδος x μεταδίδεται μέσω του δικτύου για να υπολογίσει τις τιμές yo

p για κάθε μονάδα εξόδου. Αυτή η έξοδος συγκρίνεται με τις τιμές do, καταλήγοντας στο σήμα σφάλματος δ o

p για κάθε μονάδα εξόδου. Η δεύτερη φάση περιλαμβάνει μια αντίστροφη διαδικασία κατά την οποία το σήμα σφάλματος περνάει σε όλες τις μονάδες του δικτύου και υπολογίζονται οι επιθυμητές αλλαγές στα βάρη.

Προσαρμογή βαρών με σιγμοειδής συναρτήσεις ενεργοποίησης. Τα αποτελέσματα από την προηγούμενη παράγραφο μπορούν να συνοψιστούν σε τρείς εξισώσεις:

Το βάρος της σύνδεσης ρυθμίζεται κατά ένα ποσό ανάλογο του σήματος σφάλματος δ, στο στρώμα k λαμβάνοντας υπ’ όψη την είσοδο και την έξοδο της μονάδας j και στέλνοντας αυτό το σήμα στην σύνδεση:

(3,16)

Αν η μονάδα είναι μονάδα εξόδου, το σήμα σφάλματος δίνεται από

(3,17)

25

και θεωρώντας την συνάρτηση ενεργοποίησης σιγμοειδή έχουμε:

(3,18)

Σε αυτή την περίπτωση η παράγωγος είναι ίση με:

(3,19)

έτσι ώστε το σήμα σφάλματος για μια έξοδο να μπορεί να γραφεί ως:

(3,20)

Το σήμα σφάλματος για μία κρυφή μονάδα καθορίζεται αναδρομικά όσον αφορά τις μονάδες στις οποίες συνδέεται άμεσα και τα βάρη των συνδέσεών τους. Για σιγμοειδή ενεργοποίηση:

(3,21)

Ρυθμός μάθησης και ορμή. Η διαδικασία μάθησης προϋποθέτει ότι η μεταβολή του βάρους είναι ανάλογη με το Για την κατάβαση δυναμικού απαιτείται να ληφθούν απειροελάχιστα μικρά βήματα. Σε αυτό συνεισφέρει ο ρυθμός μάθησης γ. Για πρακτικούς λόγους επιλέγουμε σταθερά αναλογίας όσο το δυνατό πιο μεγάλη χωρίς να οδηγούμαστε σε ταλάντωση. Ένας τρόπος να αποφύγουμε την ταλάντωση για μεγάλα γ, είναι να κάνουμε την αλλαγή στο βάρος να εξαρτάται από την τιμή της αλλαγής του στο παρελθόν με την προσθήκη ενός όρου ορμής:

(3,22)

όπου το t υποδεικνύει το πλήθος των δειγμάτων που έχουν παρουσιαστεί και το α είναι μια σταθερά που καθορίζει την επίδραση της προηγούμενης αλλαγής βάρους.

Ο ρόλος του όρου της ορμής φαίνεται στο σχήμα 3.2. Όταν δεν χρησιμοποιείται όρος ορμής, απαιτείται πολύ ώρα μέχρι να φτάσουμε το ελάχιστο με μικρό ρυθμό μάθησης, ενώ σε μεγάλους ρυθμούς μάθησης το ελάχιστο ποτέ δεν επιτυγχάνεται λόγω των ταλαντώσεων. Όταν προσθέτουμε τον όρο δυναμικού, το ελάχιστο θα επιτευχθεί γρηγορότερα.

26

Σχήμα 3.2: Η κατάβαση σε χώρο των βαρών. α) για μικρό ρυθμό μάθησης β) για μεγάλο ρυθμό μάθησης (παρατηρείστε την ταλάντωση) και γ) για μεγάλο ρυθμό μάθησης με την χρήση της ορμής.

Μάθηση ανά δείγμα. Αν και θεωρητικά ο αλγόριθμος back-propagation εκτελεί μείωση κλίσης στο συνολικό σφάλμα μόνο αν τα βάρη έχουν τροποποιηθεί μετά το πέρας όλης της σειράς των εκπαιδευτικών πρότυπων, πιο συχνά ο κανόνας μάθησης εφαρμόζεται σε κάθε δείγμα ξεχωριστά. Για παράδειγμα: Ένα δείγμα p εφαρμόζεται, υπολογίζουμε το Ep, και προσαρμόζονται τα συναπτικά βάρη (p=1,2,…,P). Η εμπειρία δείχνει ότι αυτή η μέθοδος καταλήγει σε πιο γρήγορη σύγκλιση. Όμως χρειάζεται προσοχή στην σειρά με την οποία θα διδαχτούν τα δείγματα.

3.4 Ελλείψεις του back-propagation

Παρά την προφανή επιτυχία του αλγόριθμου μάθησης back-propagation, υπάρχουν ορισμένες πτυχές του που δεν τον καθιστούν ιδανικό σε γενικευμένη χρήση. Το πιο προβληματικό είναι ο μεγάλη εκπαιδευτική διαδικασία. Αυτό μπορεί να είναι αποτέλεσμα ενός μη βέλτιστου ρυθμού μάθησης και ορμής. Πολλοί προηγμένοι αλγόριθμοι που βασίζονται στον back-propagation χρησιμοποιούν βελτιστοποιημένες μεθόδους για να προσαρμόσουν τους ρυθμούς μάθησης. Αποτυχίες του αλγόριθμου εκπαίδευσης γενικά προέρχονται από δύο πηγές: Παράλυση του δικτύου και τοπικά ελάχιστα.

3.4.1 Παράλυση δικτύου

Καθώς εκπαιδεύεται το δίκτυο, το βάρη μπορεί να προσαρμοστούν σε πολύ μεγάλες τιμές. Τότε το σύνολο των εισόδων μιας κρυφής μονάδας ή μιας μονάδας εξόδου μπορεί να φτάσει πολύ υψηλές τιμές (είτε θετικές είτε αρνητικές), και εξ αιτίας της

27

σιγμοειδής συνάρτησης ενεργοποίησης οι μονάδες να έχουν ενεργοποίηση κοντά στη μονάδα ή κοντά στο μηδέν. Όπως είναι προφανές από τις εξισώσεις (3,20) και (3,21), οι μεταβολές των βαρών που είναι ανάλογες με yk

p(1− ykp) θα είναι κοντά στο μηδέν και η

διαδικασία εκπαίδευσης θα επέλθει σε στασιμότητα.

3.4.2 Τοπικά ελάχιστα

Η επιφάνεια του σφάλματος ενός πολύπλοκου δικτύου είναι γεμάτη από λόφους και κοιλάδες. Εξ αιτίας της μείωσης την κλίσης, το δίκτυο μπορεί να παγιδευτεί σε ένα τοπικό ελάχιστο ενώ υπάρχει ένα βαθύτερο τοπικό ελάχιστο πιο διπλά. Στοχαστικές μέθοδοι μπορούν να βοηθήσουν ώστε να αποφύγουμε αυτή την παγίδα, αλλά τείνουν να είναι αργές. Μια άλλη δυνατότητα που έχουμε είναι να αυξήσουμε το πλήθος των κρυφών μονάδων. Αν και αυτή η διαδικασία θα λειτουργήσει λόγο της μεγαλύτερης διάστασης του χώρου των σφαλμάτων, και η πιθανότητα να παγιδευτεί είναι μικρότερη, φαίνεται ότι υπάρχει ένα ανώτατο όριο από κρυφές μονάδες που όταν υπερβεί, πάλι καταλήγει στο σύστημα να παγιδευτεί σε τοπικό ελάχιστο.

3.5 Προηγμένοι αλγόριθμοι

Πολλοί ερευνητές έχουν επινοήσει βελτιώσεις και επεκτάσεις του βασικού αλγόριθμου back-propagation. Μερικές από αυτές τις μεθόδους εξετάζονται στην παρούσα παράγραφο.

Ίσως η πιο προφανής βελτίωση είναι να αντικαταστήσουμε την μάλλον πρωτόγονη μέθοδο απότομης μείωσης κλίσης, με μια μέθοδο ελαχιστοποίησης της κλίσης ανά κατεύθυνση, παραδείγματος χάριν, την συζευγμένη ελαχιστοποίηση κλίσης (conjugate gradient minimisation). Σημείωση πως η ελαχιστοποίηση κατά την κατεύθυνση u φέρνει την συνάρτηση f σε μία θέση όπου η κλίση της είναι κάθετη στο u (αλλιώς η ελαχιστοποίηση κατά το u δεν έχει τερματιστεί). Αντί να ακολουθούμε την κλίση σε κάθε βήμα, ένα σύνολο από n κατευθύνσεις κατασκευάζεται οι οποίες είναι όλες μεταξύ τους συζευγμένες με τέτοιο τρόπο ώστε η ελαχιστοποίηση σε μια από τις κατευθύνσεις uj να μην χαλάει την ελαχιστοποίηση κατά μήκος της προηγούμενης κατεύθυνσης, δηλαδή οι κατευθύνσεις δεν έχουν διασύνδεση. Όπως μια ελαχιστοποίηση στην κατεύθυνση του ui αρκεί, έτσι n ελαχιστοποιήσεις σε ένα σύστημα με n βαθμούς ελευθερίας φέρνει το σύστημα σε ελάχιστο (δεδομένου ότι το σύστημα είναι δευτεροβάθμιο). Αυτό είναι διαφορετικό από την μέθοδο κατάβασης δυναμικού, η οποία ελαχιστοποιεί άμεσα προς την κατεύθυνση της πιο απότομης μείωσης της κλίσης.

Υποθέτοντας ότι η συνάρτηση προς ελαχιστοποίηση προσεγγίζεται από την σειρά Taylor:

28

(3,23)

όπου Τ συμβολίζει ανάστροφο πίνακα, και

(3,24)

Α είναι ένας συμμετρικός θετικός n x n πίνακας, ο πίνακας hessian της f στο σημείο p. Η κλίση της f είναι

(3,25)

έτσι ώστε η αλλαγή του x να καταλήγει σε αλλαγή της κλίσης

(3,26)

Τώρα υποθέτοντας ότι η f ελαχιστοποιήθηκε στην κατεύθυνση ui σε ένα σημείο όπου η κλήση gi+1 της f είναι κάθετη στο ui, δηλαδή

(3,27)

και αναζητείται καινούρια κατεύθυνση ui+1. Για να βεβαιωθούμε ότι κινούμενοι κατά μήκος του ui+1 δεν καταστρέφουμε την ελαχιστοποίηση κατά μήκος του ui φροντίζουμε η κλίση της f να παραμένει κάθετη στο ui, δηλαδή,

(3,28)

Συνδυάζοντας τις εξισώσεις (3,27) και (3,28), παίρνουμε

(3,29)

Όταν η παραπάνω εξίσωση δεν είναι μηδέν τότε λέμε πως τα ui και ui+1είναι συζευγμένα.

Τώρα ξεκινώντας από το σημείο po, η πρώτη κατεύθυνση ελαχιστοποίησης uo τίθεται ίση με go=−∇ f ( po), καταλήγοντας σε καινούριο σημείο p1. Για i≥0 , υπολογίζουμε

(3,30)

όπου το γ ι επιλέγεται ώστεuiT Aui−1=0 και οι διαδοχικές κλίσεις κάθετες, δηλαδή

(3,31)

29

Στη συνέχεια, υπολογίζουμε τα pi+2=p i+1+λ i+1u i+1 όπου το λ i+1 επιλέγεται ώστε να ελαχιστοποιήσει το f ( pi+2).

Μπορεί να δειχθεί ότι τα u που κατασκευαστήκαν είναι όλα αμοιβαία συζευγμένα. Η παραπάνω μέθοδος είναι γνωστή ως μέθοδος Fletcher-Reeves.

Παρόλο που μόνο n επαναλήψεις απαιτούνται για ένα τετραγωνικό σύστημα με n βαθμούς ελευθερίας , λόγω του γεγονότος ότι δεν ελαχιστοποιούμε τα τετραγωνικά συστήματα, ως αποτέλεσμα των στρογγυλοποιημένων σφαλμάτων, οι n κατευθύνσεις πρέπει να ακολουθηθούν πολλές φορές. Ο Powell εισήγαγε μερικές βελτιώσεις για να διορθώσει τη συμπεριφορά των μη – δευτεροβάθμιων συστημάτων. Το κόστος Ο(n) που προκύπτει είναι σαφώς καλύτερο από την γραμμική σύγκλιση πιο απότομης κατάβασης.

Κάποιες βελτιώσεις του back-propagation έχουν παρουσιαστεί βασισμένες σε ανεξάρτητα προσαρμοστική παράμετρο ρυθμού μάθησης για κάθε βάρος.

Οι Van den Boomgaard και Smeulders δείξανε πως για ένα δίκτυο πρόσθιας τροφοδότησης χωρίς κρυφές μονάδες μια στοιχειώδης διαδικασία να βρεις τον ιδανικό πίνακα W με τα συναπτικά βάρη χρειάζεται προσαρμογή των βαρών σύμφωνα με τη σχέση:

(3,32)

στην οποία το γ δεν είναι σταθερή αλλά μεταβλητή (Ni+1) x (Ni+1) πίνακας που εξαρτάται από το διάνυσμα εισόδου. Χρησιμοποιώντας εκ των προτέρων (a priori) γνώση για το σήμα εισόδου, οι απαιτήσεις χώρου για το γ μπορούν να μειωθούν.

Οι Sylvia και Almeida επίσης έδειξαν τα πλεονεκτήματα ενός ανεξάρτητου μεγέθους βήματος για κάθε βάρος στο δίκτυο. Στον αλγόριθμό τους ο ρυθμός μάθησης προσαρμόζεται μετά από κάθε δείγμα μάθησης:

(3,33)

όπου οι u και d είναι θετικές σταθερές με τιμές λίγο πάνω από την μονάδα, αντίστοιχα. Η ιδέα είναι να μειώνει τον ρυθμό μάθησης σε περίπτωση ταλαντώσεων.

3.6 Πόσο καλά είναι τα πολλαπλών επιπέδων δίκτυα πρόσθιας τροφοδότησης;

Είναι σαφές ότι η σύγκλιση ενός δικτύου δεν είναι τέλεια. Το προκύπτον σφάλμα προσέγγισης επηρεάζεται από:

Τον αλγόριθμο μάθησης και τον αριθμό των επαναλήψεων. Αυτό καθορίζει το πόσο πολύ θα ελαχιστοποιηθεί το σφάλμα κατά την εκπαίδευση.

30

Το πλήθος των δειγμάτων μάθησης. Αυτό καθορίζει το πόσο καλά τα δείγματα εκπαίδευσης αντιπροσωπεύουν την πραγματική συνάρτηση.

Το πλήθος των κρυφών μονάδων. Αυτό καθορίζει την «εκφραστική δύναμη» του δικτύου. Για ομαλές συναρτήσεις μόνο λίγες κρυφές μονάδες αρκούν, για πιο ευμετάβλητες συναρτήσεις πιο πολλές κρυφές μονάδες θα χρειαστούν.

Στις προηγούμενες ενότητες μιλήσαμε για τους κανόνες μάθησης όπως back-propagation και άλλους, και το πρόβλημα εύρεσης του ελάχιστου σφάλματος. Σε αυτή την ενότητα θα ορίσουμε την επίδραση του πλήθους των δειγμάτων καθώς και την επίδραση του πλήθους των κρυφών μονάδων.

Πρώτα χρειάζεται να ορίσουμε ένα μέσο σφάλμα. Όλοι αλγόριθμοι στα νευρωνικά δίκτυα προσπαθούν να ελαχιστοποιήσουν το σφάλμα στο σύνολο από τα δείγματα μάθησης που είναι διαθέσιμα για εκπαίδευση του δικτύου. Το μέσο σφάλμα ανά δείγμα μάθησης ορίζεται ως δείκτης σφάλματος μάθησης:

(3,34)

όπου Ερ είναι η διαφορά μεταξύ της επιθυμητής τιμής εξόδου και πραγματικής εξόδου του δικτύου για τα δείγματα μάθησης:

(3,35)

Αυτό είναι το σφάλμα ου μετριέται κατά την διάρκεια της εκπαίδευσης.Είναι προφανές ότι το πραγματικό σφάλμα του δικτύου θα διαφέρει από το

σφάλμα σε περιοχές των δειγμάτων εκπαίδευσης. Η διαφορά μεταξύ επιθυμητής τιμής εξόδου και πραγματικής τιμής εξόδου θα πρέπει να ολοκληρωθεί σε όλες τις εισόδους για να δώσει πιο ρεαλιστική μέτρηση σφάλματος. Αυτό το ολοκλήρωμα μπορεί να οριστεί εάν έχουμε μεγάλο πλήθος δειγμάτων. Τώρα ορίζουμε τον δείκτη σφάλματος δοκιμής ως το μέσο σφάλμα σε ένα πλήθος δοκιμών.

(3,36)

Στα επόμενα υποκεφάλαια θα μελετήσουμε πως αυτά τα μέτρα σφάλματος επηρεάζονται από το πλήθος των δειγμάτων και των κρυφών μονάδων.

3.6.1 Επίδραση του πλήθους των δειγμάτων μάθησης

31

Ένα απλό πρόβλημα χρησιμοποιείται ως παράδειγμα: μια συνάρτηση y=f (x ) πρέπει να προσεγγιστεί με ένα νευρωνικό δίκτυο πρόσθιας τροφοδότησης. Ένα νευρωνικό δημιουργείται με μια είσοδο, πέντε κρυφές μονάδες με σιγμοειδείς συναρτήσεις ενεργοποίησης και μία γραμμική μονάδα εξόδου. Ας υποθέσουμε ότι έχουμε μόνο έναν μικρό αριθμό από δείγματα μάθησης (πχ 4) και το δίκτυο εκπαιδεύεται με αυτά. Η εκπαίδευση σταματάει όταν το σφάλμα δεν μειώνεται περεταίρω. Η πρότυπη (επιθυμητή) συνάρτηση φαίνεται στο σχήμα 3.3 Α ως διακεκομμένη γραμμή. Τα δείγματα μάθησης και η προσέγγιση του δικτύου εμφανίζονται στο ίδιο σχεδιάγραμμα. Παρατηρούμε πως σε αυτή την περίπτωση το Elearning είναι μικρό ( η έξοδος του δικτύου περνά ακριβώς από τα δείγματα μάθησης) αλλά το Εtest είναι πολύ μεγάλο. Η προσέγγιση που προκύπτει από 20 δείγματα μάθησης φαίνεται στο σχήμα 3.3 Β. Το Εlearning είναι μεγαλύτερο από την περίπτωση των πέντε δειγμάτων μάθησης, αλλά το Etest είναι μικρότερο.

Σχήμα 3.3: Επίδραση του μεγέθους του δείγματος μάθησης στη γενίκευση. Η διακεκομμένη γραμμή δίνει την επιθυμητή συνάρτηση, τα δείγματα μάθησης εμφανίζονται ως κύκλοι και η προσέγγιση από το δίκτυο φαίνεται με συνεχή γραμμή. Χρησιμοποιούνται 5 κρυφές μονάδες. Α) 4 δείγματα μάθησης Β) 20 δείγματα μάθησης.

Αυτό το πείραμα πραγματοποιήθηκε και με άλλα μεγέθη δειγμάτων, όπου για κάθε σετ δειγμάτων το πείραμα επαναλήφθηκε 10 φορές. Το διάγραμμα με τα μέσα σφάλματα μάθησης και δοκιμών σαν συνάρτηση του μεγέθους του σετ δειγμάτων δίνεται στο σχήμα 3.4. Σημειώστε ότι το σφάλμα μάθησης αυξάνεται με την αύξηση του μεγέθους των σετ δειγμάτων, και το σφάλμα δοκιμής μειώνεται καθώς αυξάνεται μέγεθος του σετ δειγμάτων. Ένα μικρό σφάλμα μάθησης σε μικρό πλήθος δειγμάτων μάθησης δεν είναι εγγύηση για καλή λειτουργία του δικτύου! Με αύξηση του πλήθους των δειγμάτων μάθησης τα δύο σφάλματα συγκλίνουν στην ίδια τιμή. Αυτή η τιμή εξαρτάται από την αναπαραστατική ικανότητα του δικτύου: λαμβάνοντας υπ όψη τα βέλτιστα βάρη, πόσο καλή είναι η προσέγγιση. Αυτό το σφάλμα εξαρτάται από το πλήθος των κρυφών μονάδων και την συνάρτηση ενεργοποίησης. Εάν το σφάλμα μάθησης με το σφάλμα δοκιμής δεν συγκλίνουν τότε η διαδικασία μάθησης δεν έχει βρεθεί σε ολικό ελάχιστο.

32

Σχήμα 3.4: Η επίδραση του μεγέθους του συνόλου δειγμάτων μάθησης στον δείκτη σφάλματος.

3.6.2 Η επίδραση του πλήθους των κρυφών μονάδων

Και τώρα χρησιμοποιούμε την ίδια συνάρτηση με την προηγούμενη υποενότητα, αλλά τώρα το πλήθος των κρυφών μονάδων ποικίλει. Η επιθυμητή συνάρτηση, τα δείγματα μάθησης και η προσέγγιση φαίνονται στο σχήμα 3.5 Α για 5 κρυφές μονάδες και στο σχήμα 3.5 Β για 20 κρυφές μονάδες. Το φαινόμενο που παρατηρούμε στο σχήμα 3.5 Β ονομάζεται υπερεκπαίδευση (overtraining). Η έξοδος του δικτύου ταιριάζει απόλυτα με τα δείγματα μάθησης, αλλά λόγο εξ αιτίας του μεγάλου αριθμού κρυφών μονάδων η συνάρτηση αυτή είναι πολύ πιο «άγρια» από την πρωτότυπη.

Σχήμα 3.5: Επίδραση του πλήθους των κρυφών μονάδων στην λειτουργία του δικτυού. Η διακεκομμένη γραμμή μας δίνει την επιθυμητή συνάρτηση, οι κύκλοι υποδηλώνουν τα δείγματα μάθησης και οι συνεχείς γραμμές δίνουν την προσέγγιση του δικτύου. Χρησιμοποιούνται 12 δείγματα μάθησης. Α) 5 κρυφές μονάδες Β) 20 κρυφές μονάδες.

33

Αυτό το παράδειγμα μας δείχνει ότι μεγάλος αριθμός κρυφών μονάδων οδηγεί σε μικρό σφάλμα μάθησης αλλά όχι απαραίτητα μικρό σφάλμα δοκιμών. Προσθέτοντας κρυφές μονάδες θα οδηγεί πάντα σε μείωση του σφάλματος μάθησης (Elearning). Ωστόσο, προσθέτοντας κρυφές μονάδες αρχικά θα οδηγήσει σε μείωση του σφάλματος δοκιμών (Etest), αλλά στη συνέχεια σε αύξησή του. Αυτό ονομάζεται φαινόμενο κορύφωσης (peaking effect). Τα μέσα σφάλματα μάθησης και δοκιμής σαν συνάρτηση του πλήθους των κρυφών μονάδων φαίνεται στο σχήμα 3.6:

Σχήμα 3.6: Το μέσο σφάλμα μάθηση και δοκιμών σαν συνάρτηση του πλήθους των κρυφών μονάδων.

34

4. ΑναδρομικάΔίκτυα

Οι αλγόριθμοι μάθησης που συζητήθηκαν στο προηγούμενο κεφάλαιο εφαρμόζονται σε δίκτυα πρόσθιας τροφοδότησης: όλη η πληροφορία ρέει στο δίκτυο χωρίς την παρουσία ανατροφοδότησης.

Αλλά τι συμβαίνει όταν εισάγουμε μια ανατροφοδότηση; Για παράδειγμα, μπορούμε να συνδέσουμε μια κρυφή μονάδα με τον εαυτό της με μια σύνδεση όπου έχει βάρος, να συνδέσουμε κρυφές μονάδες σε μονάδες εισόδου, ή ακόμα να συνδέσουμε όλες τις μονάδες μεταξύ τους. Αν και όπως ξέρουμε από το προηγούμενο κεφάλαιο, οι προσεγγιστικές δυνατότητες αυτών των δικτύων δεν αυξάνονται, ίσως καταφέρουμε μειωμένη πολυπλοκότητα μέγεθος δικτύων, κ.λπ., για την λύση του ίδιου προβλήματος.

Ένα σημαντικό ζήτημα που πρέπει να εξετάσουμε είναι το εξής: τι θέλουμε να μάθουμε σε ένα αναδρομικό δίκτυο; Και τέλος, όταν κάποιος εξετάζει ένα αναδρομικό δίκτυο είναι δυνατό να ανακυκλώνει τις τιμές ενεργοποίησης επ’ άπειρον, ή μέχρι να φτάσει σε σταθερό σημείο. Όπως θα δούμε στην συνέχεια, υπάρχουν αναδρομικά δίκτυα όπου οι τιμές ενεργοποίησης ανατροφοδοτούνται επανειλημμένα μέχρι να επιτευχθεί ένα σταθερό σημείο και έπειτα γίνεται η προσαρμογή των βαρών, αλλά υπάρχουν επίσης αναδρομικά δίκτυα όπου ο κανόνας μάθησης χρησιμοποιείται μετά από κάθε ανατροφοδότηση της ενεργοποίησης μόνο μια φορά για την προσαρμογή των βαρών, ενώ οι εξωτερικές είσοδοι περιλαμβάνονται σε κάθε ανατροφοδότηση. Σε τέτοια δίκτυα, οι αναδρομικές συνδέσεις μπορούν να θεωρηθούν ως έξτρα είσοδοι στο δίκτυο.

Σε αυτό το κεφάλαιο θα συζητηθεί η επέκταση των αναδρομικών νευρωνικών δικτύων στα δίκτυα πρόσθιας τροφοδότησης που συζητήθηκαν στα προηγούμενα κεφάλαια. Στη συνέχεια κάποια χαρακτηριστικά αναδρομικά δίκτυα θα παρουσιαστούν: Το δίκτυο του Hopfield, που μπορεί να χρησιμοποιηθεί για αναπαράσταση διαδίκων προτύπων και τις μηχανές Boltzmann, που εισάγουν την στοχαστικότητα στα νευρωνικά δίκτυα.

4.1 Ο γενικευμένος κανόνας δέλτα στα αναδρομικά δίκτυα

Ο κανόνας μάθησης back-propagation, που παρουσιάσαμε στο προηγούμενο κεφάλαιο μπορεί εύκολα να χρησιμοποιηθεί για τρόπους εκπαίδευσης σε αναδρομικά δίκτυα. Πριν εξετάσουμε την γενική περίπτωση, θα εξετάσουμε πρώτα δίκτυα όπου κάποιες από τις ενεργοποιήσεις κρυφών μονάδων ανατροφοδοτούνται σαν ένα έξτρα σύνολο εισόδων (το δίκτυο Elman), ή όπου οι τιμές εξόδου ανατροφοδοτούνται σε κρυφές μονάδες (το δίκτυο Jordan).

35

Η τυπική εφαρμογή ενός τέτοιου δικτύου είναι η ακόλουθη. Ας υποθέσουμε ότι έχουμε να κατασκευάσουμε ένα δίκτυο που πρέπει να εκπέμψει μια εντολή ελέγχου ανάλογα με μια εξωτερική είσοδο, όπου είναι μια χρονική σειρά:

x (t ) , x ( t−1 ) , x (t−2 ) ,… .

Με ένα δίκτυο πρόσθιας τροφοδότησης υπάρχουν δύο πιθανές προσεγγίσεις: δημιουργία εισόδων x1 , x2 ,…, xn όπου αποτελούν τις τελευταίες n τιμές του

διανύσματος εισόδου. Έτσι μια «χρονοθυρίδα» του διανύσματος εισόδου είναι η είσοδος του δικτύου.

δημιουργία εισόδων x , x ' , x ' ' ,….Εκτός από το να εισάγουμε το x (t), εισάγουμε επίσης πρώτες, δεύτερες, κτλ παραγώγους του. Φυσικά, ο υπολογισμός αυτών των παραγώγων δεν είναι εύκολο έργο για υψηλής τάξης παραγώγους.

Το μειονέκτημα είναι βέβαια ότι η διάσταση της εισόδου του δικτύου πρόσθιας τροφοδότησης πολλαπλασιάζεται με n, οδηγώντας σε πολύ μεγάλο δίκτυο, που είναι αργό και δύσκολα εκπαιδεύσιμο. Τα δίκτυα Jordan και Elman δίνουν την λύση σε αυτό το πρόβλημα. Λόγω των αναδρομικών συνδέσεων δεν χρειάζεται να εισαχθεί χρονοθυρίδα πια, αντ’αυτού, το δίκτυο καλείται να μάθει την επίδραση των προηγούμενων χρονικών στιγμών από μόνο του.

4.1.1 Το δίκτυο Jordan

Ένα από τα πρώτα αναδρομικά δίκτυα ήταν το δίκτυο Jordan. Η δομή του φαίνεται στο σχήμα:

Σχήμα 4.1: Το Δίκτυο Jordan. Οι ενεργοποιήσεις των εξόδων ανατροφοδοτούνται στο επίπεδο των εισόδων σε ένα σύνολο από νευρώνες που λέγονται μονάδες κατάστασης (state units)

36

Στο δίκτυο Jordan, οι τιμές ενεργοποίησης των μονάδων εξόδου ανατροφοδοτούνται στο επίπεδο των εισόδων σε ένα σύνολο από έξτρα μονάδες που ονομάζονται μονάδες κατάστασης. Υπάρχουν τόσες μονάδες κατάστασης όσες και οι έξοδοι του δικτύου. Οι συνδέσεις μεταξύ των εξόδων και των μονάδων κατάστασης έχουν σταθερό βάρος +1, η μάθηση πραγματοποιείται μόνο μεταξύ των μονάδων εισόδου και κρυφών μονάδων όπως και μεταξύ κρυφών μονάδων και μονάδων εξόδου. Έτσι όλοι οι κανόνες μάθησης που χρησιμοποιούνται για ένα δίκτυο perceptron πολλών στρωμάτων μπορούν να χρησιμοποιηθούν για να εκπαιδευτεί ένα τέτοιο δίκτυο.

4.1.2 Tο δίκτυο Elman

Τo δίκτυο Elman εισήχθη από τον Elman το 1990. Σε αυτό το δίκτυο ένα σύνολο από νευρώνες μνήμης (context units) εισάγονται, που είναι έξτρα μονάδες εισόδου και οι τιμές που τις ενεργοποιούν είναι οι έξοδοι από τις κρυφές μονάδες. Η σχηματική αναπαράσταση του δικτύου φαίνεται στο επόμενο σχήμα:

Σχήμα 4.2: Το δίκτυο Elman.

Πάλι οι κρυφές μονάδες είναι συνδεδεμένες στους νευρώνες μνήμης με προκαθορισμένο βάρος +1.Η μάθηση πραγματοποιείται με τον ακόλουθο αλγόριθμο.1. Οι μονάδες μνήμης αρχικοποιούνται σε μηδενική τιμή. Και t=12. Το δείγμα xt διαλέγεται και οι υπολογισμοί προς την πρόσθια κατεύθυνση

πραγματοποιούνται μια φορά3. Ο κανόνας μάθησης back-propagation εφαρμόζεται4. t←t+1 ; go¿2

37

4.2 Το δίκτυο Hopfield

Το δίκτυο Hopfield αποτελείται από ένα σύνολο από Ν αλληλοσυνδεδεμένους νευρώνες όπως στο σχήμα 4.3 όπου ανανεώνουν τις τιμές ενεργοποίησής τους ασύγχρονα και ανεξάρτητα από τους άλλους νευρώνες. Όλοι οι νευρώνες είναι ταυτόχρονα είσοδοι και έξοδοι. Οι τιμές των ενεργοποιήσεων είναι διαδικοί. Αρχικά ο Hopfield επέλεξε τιμές 0 και 1, αλλά η χρήση τιμών +1 και -1 εμφανίζει μερικά πλεονεκτήματα που θα συζητηθούν παρακάτω.

Σχήμα 4.3: Δομή ενός δικτύου Hopfield

Η κατάσταση του συστήματος δίνεται από τις τιμές ενεργοποίησης y=( yk ). H διέγερση sk (t+1) του k νευρώνα την χρονική στιγμή t+1 είναι το άθροισμα:

(4,1)

Μια απλή συνάρτηση δυναμικού εφαρμόζεται στην είσοδο του δικτύου για να λάβει καινούρια τιμή ενεργοποίησης y t+1 ( t+1 ) την χρονική στιγμή t+1:

(4,2)

δηλαδή yk ( t+1 )=sgn (sk ( t+1 )) .Για λόγους απλότητας έχουμε επιλέξει U k=0 αλλά αυτό δεν είναι υποχρεωτικό.

Ένας νευρώνας k στο δίκτυο Hopfield καλείται σταθερός την χρονική στιγμή t αν, σύμφωνα με τις εξισώσεις (4,1) και (4,2)

(4,3)

38

Μια κατάσταση α καλείται σταθερή αν, όταν το δίκτυο βρίσκεται σε αυτή την κατάσταση όλοι οι νευρώνες είναι στάσιμοι. Ένα δείγμα x p καλείται σταθερό αν, όταν χρησιμοποιείται, όλοι οι νευρώνες είναι σταθεροί.

Όταν θέτουμε τον επιπρόσθετο περιορισμό w jk=wkj, η συμπεριφορά του δικτύου μπορεί να περιγραφεί από την συνάρτηση ενέργειας

(4,4)

Το πλεονέκτημα του μοντέλου +1/-1 σε σχέση με το μοντέλο 1/0 σε αυτή την περίπτωση είναι η συμμετρία των καταστάσεων του δικτύου. Δηλαδή όταν ένα δείγμα είναι σταθερό, το αντίστροφό του είναι σταθερό επίσης. Αντίστοιχα, κάθε δείγμα έχει την ίδια ενέργεια με το αντίστροφό του.

Αφαιρώντας τον παραπάνω περιορισμό το αποτέλεσμα είναι ένα δίκτυο που δεν είναι εγγυημένο ότι θα καταλήξει σε μια σταθερή κατάσταση.

4.2.1 Το δίκτυο Hopfield σαν συσχετιστική μνήμη

Μια βασική εφαρμογή του δικτύου Hopfield είναι η συσχετιστική μνήμη. Σε αυτή την περίπτωση, τα βάρη των συνδέσεων μεταξύ των νευρώνων θα πρέπει να έχουν καθοριστεί έτσι ώστε οι καταστάσεις του συστήματος και τα δείγματα που θα πρέπει να αποθηκευτούν αντίστοιχα να είναι σταθερά. Αυτές οι καταστάσεις μπορούν να παρομοιαστούν με «λακκούβες» στον χώρο των ενεργειών. Όταν το δίκτυο λάβει ένα θορυβώδες ή ελλιπές δοκιμαστικό δείγμα, θα ανακτήσει τα λάθος ή τα ελλιπή δεδομένα μεταβαίνοντας σε μια σταθερή κατάσταση που είναι κατά μια έννοια κοντά σε αυτό το δείγμα.

Ο κανόνας Hebb μπορεί να χρησιμοποιηθεί για να αποθηκεύσεις Pδείγματα:

(4,5)

δηλαδή εάν τα x jp και xk

p είναι ίσα, το w jk αυξάνεται, αλλιώς μειώνεται κατά ένα. Φαίνεται ωστόσο, ότι το δίκτυο έρχεται σε κατάσταση κορεσμού πολύ σύντομα, και ότι περίπου 0,15Ν μνήμες μπορούν να αποθηκευθούν πριν τα λάθη ανάκλησης γίνουν σοβαρά.Υπάρχουν δύο προβλήματα σχετικά με την αποθήκευση πολλών δειγμάτων:● τα αποθηκευμένα δείγματα γίνονται ασταθή● εμφανίζονται ψευδείς καταστάσεις ηρεμίας.

Το πρώτο από αυτά τα προβλήματα μπορεί να λυθεί με τον ακόλουθο αλγόριθμο.

39

Δοθέντος αρχικού πίνακα βαρών W=[w jk ], για κάθε δείγμα x p προς αποθήκευση και κάθε στοιχείο xk

p στο x p ορίζει μια διόρθωση єk τέτοια ώστε

(4,6)

Τώρα τροποποίησε τα w jk κατά Δw jk= y j yk (є j+єk )για j ≠ k. Επανέλαβε αυτή την διαδικασία μέχρι όλα τα δείγματα να είναι σταθερά.

Στην πράξη φαίνεται ότι αυτός ο αλγόριθμος συνήθως συγκλίνει. Υπάρχουν ωστόσο περιπτώσεις όπου ο αλγόριθμος παραμένει να ταλαντώνεται.

Το δεύτερο πρόβλημα που αναφέρθηκε πιο πάνω μπορεί να μετριαστεί με την εφαρμογή του κανόνα Hebb σε αντιστροφή στη ψευδή κατάσταση ηρεμίας, αλλά με χαμηλό συντελεστή μάθησης. Έτσι αυτά τα δείγματα είναι αποθηκευμένα ασθενικά και θα γίνουν ασταθή ξανά.

4.2.2 Νευρώνες με διαβαθμισμένη απόκριση

Το προηγούμενο δίκτυο μπορεί να πραγματοποιηθεί επιτρέποντας και συνεχείς τιμές ενεργοποίησης. Εδώ, η βηματική συνάρτηση δυναμικού αντικαθίσταται από σιγμοειδή. Όπως πριν το σύστημα μπορεί να βρεθεί σε κατάσταση ισορροπίας όταν ένας συμμετρικός πίνακας βαρών χρησιμοποιείται.

4.2.3 Δίκτυα Hopfield για προβλήματα βελτιστοποίησης

Μια ενδιαφέρουσα εφαρμογή του δικτύου Hopfield με διαβαθμισμένη απόκριση προκύπτει στην ευρετική λύση στο NP-complete πρόβλημα του περιπλανώμενου πωλητή (Garey & Johnson, 1979). Σε αυτό το πρόβλημα, μια διαδρομή ελάχιστης απόστασης πρέπει να βρεθεί μεταξύ n πόλεων, έτσι ώστε τα σημεία εκκίνησης και τερματισμού να είναι τα ίδια.

Οι Hopfield και Tank χρησιμοποιούν ένα δίκτυο με nx n νευρώνες. Κάθε γραμμή στον πίνακα αντιπροσωπεύει μια πόλη, ενώ κάθε στήλη της αντιπροσωπεύει την θέση της στην περιοδεία. Όταν το δίκτυο σταθεροποιηθεί, κάθε γραμμή και κάθε στήλη θα πρέπει να έχει μόνο ένα ενεργό νευρώνα, που να δείχνει κάθε πόλη με μια καθορισμένη θέση στην περιοδεία. Οι νευρώνες ενημερώνονται χρησιμοποιώντας τον κανόνα στην εξίσωση (4,2) με μια σιγμοειδή συνάρτηση μεταξύ 0 και 1. Η τιμή ενεργοποίησης y Xj=1 δείχνει ότι η πόλη Χ καταλαμβάνει την j στη θέση στην περιοδεία.

Μια συνάρτηση της ενέργειας που περιγράφει το πρόβλημα μπορεί να οριστεί με τον ακόλουθο τρόπο. Για να εξασφαλίσουμε μια σωστή λύση η ακόλουθη ενέργεια πρέπει να ελαχιστοποιηθεί:

40

(4,7)

όπου τα Α, B και C είναι σταθερές. Ο πρώτος και ο δεύτερος όρος στην προηγούμενη εξίσωση είναι ίσος με μηδέν αν και μόνο αν υπάρχει το πολύ ένας νευρώνας ενεργός σε κάθε γραμμή και στήλη αντίστοιχα. Ο τελευταίος όρος είναι μηδέν αν και μόνο αν υπάρχουν ακριβώς nενεργοί νευρώνες.

Για ελαχιστοποίηση της διαδρομής, ένας επιπλέον όρος

(4,8)

προστίθεται στην ενέργεια, όπου d XY είναι η απόσταση μεταξύ των πόλεων X και Υ και D είναι μια σταθερά.

Τα βάρη ορίζονται ως εξής:

(4,9)

όπου δ jk=1 εάν j=k αλλιώς δ jk=0. Τελικά, κάθε νευρώνας έχει μια εξωτερική είσοδο πόλωσης Cn.

Παρόλο που αυτή η εφαρμογή είναι ενδιαφέρουσα από θεωρητικής άποψης, η εφαρμογή της είναι περιορισμένη. Οι Hopfield και Tank δηλώνουν ότι, σε μια περιοδεία σε 10 πόλεις, το δίκτυο συγκλίνει σε έγκυρη λύση στις 16 από τις 20 δοκιμές ενώ το 50% των λύσεων είναι το καλύτερο δυνατό, ενώ άλλες αναφορές δίνουν λιγότερο ενθαρρυντικά αποτελέσματα. Για παράδειγμα, οι Wilson και Pawley το 1988 βρήκαν ότι μόνο στο 15% των φορών που τρέχει το δίκτυο λαμβάνεται έγκυρο αποτέλεσμα, λίγες από τις οποίες οδηγούν σε βέλτιστη ή κοντά στη βέλτιστη λύση. Το κύριο πρόβλημα είναι η έλλειψη των συνολικών πληροφοριών. Μιας και για ένα πρόβλημα από N πόλεις, υπάρχουν Ν! πιθανές διαδρομές, όπου κάθε μια μπορεί να πραγματοποιηθεί και από τις 2 κατευθύνσεις, καθώς και τα Ν διαφορετικά σημεία εκκίνησης, το πλήθος των διαφορετικών διαδρομών είναι Ν!/2Ν. Διαφορετικά, ο Ν-διάστατος υπερκύβος στον οποίο είναι οι λύσεις έχει 2Ν εκφυλισμένες λύσεις. Ο εκφυλισμός εμφανίζεται ομοιόμορφα μέσα στον υπερκύβο, έτσι ώστε όλες εκτός μιας από τις τελικές 2Ν ρυθμίσεις να απορρίπτονται. Ο ανταγωνισμός μεταξύ των εκφυλισμένων διαδρομών συχνά οδηγεί σε τμηματικά βέλτιστες διαδρομές, αλλά στο σύνολο ανεπαρκείς.

4.3 Μηχανές Boltzmann

41

H μηχανή Boltzmann όπως αρχικά περιγράφηκε από τους Ackley, Hinton και Sejnowski το 1985 είναι ένα νευρωνικό δίκτυο που μπορεί να θεωρηθεί ως επέκταση του δικτύου του Hopfield που περιλαμβάνει κρυφές μονάδες, με στοχαστικό αντί για ντετερμινιστικό κανόνα ενημέρωσης. Τα βάρη εξακολουθούν να είναι συμμετρικά. Η λειτουργία αυτού του δικτύου βασίζεται στη φυσική αρχή της ανόπτησης (annealing). Αυτή είναι μια διαδικασία κατά την οποία ένα υλικό θερμαίνεται και έπειτα ψύχεται πάρα πολύ αργά έως ένα σημείο πήψης. Αυτό έχει σαν αποτέλεσμα το κρυσταλλικό πλέγμα να έχει εξαιρετική διάταξη, χωρίς προσμίξεις, τέτοια ώστε να βρίσκεται σε πολύ χαμηλή ενεργειακή κατάσταση. H μηχανή Boltzmann μιμείται αυτό το σύστημα αλλάζοντας την ντετερμινιστική ενημέρωση της εξίσωσης 4.2 σε μια στοχαστική ενημέρωση, κατά την οποία κάθε νευρώνας ενεργοποιείται με μια πιθανότητα p ,

(4,10)

όπου Τείναι μια παράμετρος συγκρίσιμη με την «θερμοκρασία» του συστήματος. Αυτή η στοχαστική συνάρτηση ενεργοποίησης δεν πρέπει να συγχέεται με τους νευρώνες που έχουν σιγμοειδή ντετερμινιστική συνάρτηση ενεργοποίησης.

Όπως και ένα σύστημα που υπακούει στην κατανομή Boltzmann, το δίκτυο τελικά θα φτάσει σε θερμική ισορροπία και η σχετική πιθανότητα από δυο καταστάσεις α και β θα ακολουθεί την κατανομή Boltzmann

(4,11)

όπου Ρα είναι η πιθανότητα να βρίσκεται στην α κατάσταση, και Eα η ενέργεια αυτής της κατάστασης. Σημειώνεται ότι στην θερμική ισορροπία οι μονάδες ακόμα αλλάζουν καταστάσεις, αλλά η πιθανότητα να βρεθεί σε καθεμία κατάσταση παραμένει ίδια.

Στις χαμηλές θερμοκρασίες το σύστημα τείνει να βρίσκεται σε καταστάσεις με χαμηλή ενέργεια, αλλά ο χρόνος που απαιτείται για να βρεθεί σε ισορροπία ίσως είναι πολύς. Συ υψηλότερες θερμοκρασίες, αυτή η τάση δεν είναι τόσο έντονη, αλλά η ισορροπία επέρχεται πιο γρήγορα. Ένας τρόπος για να κερδίσεις τα πλεονεκτήματα και των δυο θερμοκρασιών είναι να ξεκινήσεις σε υψηλή θερμοκρασία και σταδιακά να την μειώσεις. Σε υψηλές θερμοκρασίες, το σύστημα θα αγνοεί τις μικρές ενεργειακές διαφορές και θα επέρχεται σε κατάσταση ισορροπίας γρήγορα. Με αυτό τον τρόπο, θα πραγματοποιήσει μια χοντρική αναζήτηση στην συνολική δομή του χώρου, και θα βρει το ελάχιστο. Χαμηλώνοντας την θερμοκρασία, θα αρχίσει να επιδρά και με μικρότερες ενεργειακές διαφορές και θα βρει ένα καλύτερο ελάχιστο μέσα στην περιοχή ελαχίστου που είχε βρει για πιο ψηλή θερμοκρασία.

Όπως και στα perceptron πολλών επιπέδων, η μηχανή Boltzmann αποτελείται από μονάδες εισόδου, εξόδου, και ίσως και από κρυφές μονάδες νευρώνων. Εδώ όμως, οι μονάδες δέχονται διαδικές τιμές και ενημερώνονται στοχαστικά και ασύγχρονα. Η απλότητα της κατανομής Boltzmann οδηγεί σε μια απλή διαδικασία μάθησης όπου ρυθμίζει τα βάρη ώστε να χρησιμοποιούνται οι κρυφές μονάδες με τον βέλτιστο τρόπο. Ο αλγόριθμος λειτουργεί με τον ακόλουθο τρόπο.

42

Αρχικά, τοποθετούνται (clamped) τα διανύσματα εισόδου και οι επιθυμητές έξοδοί τους, και παραμένουν για αρκετή ώρα. Έπειτα πραγματοποιείται η διαδικασία ανόπτησης μέχρι το σύστημα να βρεθεί σε θερμική ισορροπία σε θερμοκρασία 0. Στη συνέχεια τρέχει για ένα σταθερό χρονικό διάστημα σε κατάσταση ισορροπίας και σε κάθε ένωση μετρούνται τα χρονικά διαστήματα όπου και οι δύο μονάδες που ενώνει είναι ενεργές. Αυτό επαναλαμβάνεται για όλα τα ζευγάρια εισόδου εξόδου ώστε σε κάθε ένωση να μπορεί να μετρηθεί το ⟨ y j yk ⟩clamped ,η επιθυμητή πιθανότητα, σε μέσο όρο για όλες τις περιπτώσεις, όπου οι μονάδες j και k είναι ταυτόχρονα ενεργές στην θερμική ισορροπία όταν τα διανύσματα εισόδου και εξόδου είναι τοποθετημένα «clamped». Αντίστοιχα, το ⟨ y j yk ⟩ free μετριέται όταν δεν έχουν τοποθετηθεί διανύσματα στις μονάδες εξόδου αλλά οι έξοδοι καθορίζονται από το σύστημα.

Προκειμένου να προσδιοριστούν τα βέλτιστα βάρη στο δίκτυο, πρέπει να προσδιορίσουμε μια συνάρτηση σφάλματος. Τώρα, η πιθανότητα Ρfree( y p) ότι οι ορατές μονάδες είναι στην κατάσταση y p όταν το σύστημα τρέχει ελεύθερο μπορεί να μετρηθεί. Επίσης, η επιθυμητή πιθανότητα Ρclamped ( y p) ότι οι ορατές μονάδες είναι στην κατάσταση y p καθορίζεται εφαρμόζοντας τα διανύσματα επιθυμητών εξόδων και αφήνοντας το σύστημα να τρέξει. Τώρα αν τα βάρη στο δίκτυο είναι σωστά ορισμένα, οι δύο αυτές οι πιθανότητες είναι ίσες μεταξύ τους, και το σφάλμα Ε στο δίκτυο πρέπει να είναι μηδέν. Αλλιώς, το σφάλμα πρέπει να έχει μια θετική τιμή που θα μετρά την διαφορά μεταξύ της εσωτερικής λειτουργίας του δικτύου και του περιβάλλοντος. Γι αυτό τον σκοπό, χρησιμοποιούμε την «ασύμμετρη απόκλιση» ή τις «πληροφορίες Kullback» :

(4,12)

Τώρα, για να μειώσουμε το Ε χρησιμοποιώντας κατάβαση δυναμικού, πρέπει να αλλάξουμε τα βάρη σύμφωνα με την εξίσωση:

(4,13)

Δεν είναι δύσκολο να δείξουμε ότι

(4,14)

Έτσι, κάθε βάρος ανανεώνεται σύμφωνα με

(4,15)

43

5. - Αυτό οργανούμεναδίκτυα

Στα προηγούμενα κεφάλαια συζητήσαμε για ένα πλήθος από δίκτυα που εκπαιδεύονται για να κάνουν χαρτογράφηση F :Rn⟶ Rm παρουσιάζοντας στο δίκτυο «παραδείγματα» (x p , d p) με d p=F (x p) από αυτή την χαρτογράφηση. Ωστόσο, υπάρχουν προβλήματα όταν τέτοιου είδους δεδομένα εκπαίδευσης, που να απαρτίζονται από ζεύγη εισόδων και επιθυμητών εξόδων, δεν είναι διαθέσιμα, αλλά η μόνη διαθέσιμη πληροφορία παρέχεται από ένα σύνολο δειγμάτων εισόδου x p. Σε αυτές τις περιπτώσεις η σχετική πληροφορία θα πρέπει να ληφθεί μέσα από τα δείγματα εκπαίδευσης x p και μόνο.

Μερικά παραδείγματα τέτοιων προβλημάτων είναι: ομαδοποίηση: τα δεδομένα εισόδου μπορούν να ομαδοποιηθούν σε «κλάσεις»

και το σύστημα επεξεργασίας των δεδομένων θα πρέπει να βρει αυτές τις εγγενείς θα δεδομένα εισόδου. Η έξοδος του συστήματος θα πρέπει να δώσει μια ετικέτα κλάσης του δείγματος εισόδου (διακριτή έξοδος).

κβάντωση διανυσμάτων: αυτό το πρόβλημα προκύπτει όταν ένας συνεχής χώρος πρέπει να διακριτοποιηθεί. Η είσοδος του συστήματος είναι ένα n-διάστατο διάνυσμα x, ενώ η έξοδος είναι μια διακριτή αναπαράσταση του χώρου εισόδου. Το σύστημα πρέπει να βρεί την βέλτιστη διακριτοποίηση του χώρου εισόδου.

μείωση των διαστάσεων: τα δεδομένα εισόδου ομαδοποιούνται σε έναν υποχώρο που έχει χαμηλότερη διαστατικότητα από την διαστατικότητα των δεδομένων. Το σύστημα θα πρέπει να βρει μια βέλτιστη χαρτογράφηση, έτσι ώστε το μεγαλύτερο μέρος της διακύμανσης των δεδομένων εισόδου να διατηρείται και στα δεδομένα εξόδου.

εξαγωγή χαρακτηριστικών: το σύστημα αυτό πρέπει να εξάγει τα χαρακτηριστικά γνωρίσματα από το σήμα εισόδου. Αυτό συχνά σημαίνει μείωση διαστάσεων όπως περιγράφηκε παραπάνω.

Σε αυτό το κεφάλαιο θα συζητήσουμε μερικές προσεγγίσεις τέτοιων προβλημάτων με την χρήση νευρωνικών δικτύων. Η εκπαίδευση πραγματοποιείται χωρίς την παρουσία εξωτερικού εκπαιδευτή. Οι αλγόριθμοι προσαρμογής των βαρών συνήθως βασίζονται σε κάποια μορφή καθολικού ανταγωνισμού μεταξύ των νευρώνων.

5.1 Ανταγωνιστική μάθηση

5.1.1 Ομαδοποίηση

Η ανταγωνιστική μάθηση είναι μια διαδικασία μάθησης που χωρίζει ένα σύνολο προτύπων εισόδου σε κλάσεις που είναι συνυφασμένες με τα δεδομένα εισόδου. Σε

45

δίκτυο ανταγωνιστικής μάθησης παρέχεται μόνο ένα διάνυσμα εισόδου x και έτσι εφαρμόζεται μια διαδικασία μη επιβλεπόμενης μάθησης. Θα δείξουμε την ισοδυναμία του με τους παραδοσιακούς αλγόριθμους ομαδοποίησης σύντομα.

Σχήμα 5.1: Ένα απλό ανταγωνιστικής μάθησης δίκτυο. Κάθε μια από τις εξόδους ο είναι συνδεδεμένη σε όλες τις εισόδους i.

Ένα παράδειγμα δικτύου ανταγωνιστικής μάθησης φαίνεται στο σχήμα 5.1. Όλες οι μονάδες εξόδου ο είναι συνδεμένες σε όλες τις μονάδες εισόδου i με βάρη w io. Όταν ένα δείγμα εισόδου xπαρουσιάζεται, μόνο μια μονάδα εξόδου του δικτύου (ο νικητής) θα ενεργοποιηθεί. Σε ένα σωστά εκπαιδευμένο δίκτυο, όλα τα διανύσματα x μίας κλάσης θα έχουν τον ίδιο νικητή. Για τον καθορισμό του νικητή και τον αντίστοιχο κανόνα μάθησης υπάρχουν δυο μέθοδοι.

Επιλογή νικητή: Εσωτερικό γινόμενοΓια την ώρα, θεωρούμε ότι τόσο τα διανύσματα εισόδου xόσο και τα βάρη wo είναι κανονικοποιημένα στη μονάδα. Κάθε μονάδα εξόδου ο υπολογίζει την τιμή ενεργοποίησής της yo σύμφωνα με το εσωτερικό γινόμενο της εισόδου και του διανύσματος βάρους:

(5,1)

Εν συνεχεία, επιλέγεται ο νευρώνας εξόδου k με την μέγιστη ενεργοποίηση

(5,2)

Οι ενεργοποιήσεις επανακαθορίζονται έτσι ώστε yk=1 και yo≠ k=0. Αυτή είναι και η ανταγωνιστική πτυχή του δικτύου, και αναφερόμαστε στο επίπεδο εξόδου ως ο-νικητής-τα-παίρνει-όλα επίπεδο (winner-take-all layer). Αυτό το επίπεδο σε λογισμικό συχνά υλοποιείται απλά επιλέγοντας τον νευρώνα με την μεγαλύτερη τιμή ενεργοποίησης. Αυτή η λειτουργία μπορεί επίσης να πραγματοποιηθεί από ένα νευρωνικό δίκτυο γνωστό ως MAXNET. Στο ΜΑΧΝΕΤ, όλοι οι νευρώνες ο είναι συνδεδεμένοι με άλλες μονάδες ο ' με ανασταλτικούς δεσμούς ενώ με τον εαυτό τους με ενισχυτικό δεσμό:

(5,3)

46

Μπορεί να δειχθεί ότι αυτό το δίκτυο συγκλίνει σε μια κατάσταση όπου μόνο ο νευρώνας με την μεγαλύτερη αρχική κατάσταση επιβιώνει, ενώ οι ενεργοποιήσεις όλων των άλλων νευρώνων συγκλίνουν στο μηδέν. Από τώρα, θα θεωρούμε απλά ότι ο νικητής k επιλέγεται χωρίς να μας απασχολεί ποιος αλγόριθμος χρησιμοποιείται.

Όταν επιλεγεί ο νικητής k , τα βάρη ενημερώνονται σύμφωνα με την σχέση:

(5,4)

όπου ο παρονομαστής εξασφαλίζει ότι όλα τα διανύσματα βάρους θα είναι κανονικοποιημένα. Σημειωτέον ότι μόνο τα βάρη του νικητή kενημερώνονται.

Η ενημέρωση των βαρών που δίνεται στην εξίσωση (5,4) ουσιαστικά περιστρέφει το διάνυσμα βάρους woστην κατεύθυνση του διανύσματος εισόδου x. Κάθε φορά που μία είσοδος x εμφανίζεται, το διάνυσμα βάρους που είναι πιο κοντά σε αυτή την είσοδο επιλέγεται και στη συνέχεια στρέφεται στην κατεύθυνση της εισόδου. Κατά συνέπεια, τα διανύσματα βάρους στρέφονται προς τα εκεί που είναι οι πιο πολλοί είσοδοι: οι κλάσεις στην είσοδο. Αυτή η διαδικασία σχηματοποιείται στο σχήμα 5.2:

Σχήμα 5.2: Παράδειγμα ομαδοποίησης σε τρισδιάστατο χώρο με κανονικοποιημένα διανύσματα, που όλα εφάπτονται σε μοναδιαία σφαίρα. Τα τρία διανύσματα βάρους στρέφονται προς τα «κέντρα βαρύτητας» των τριών κλάσεων των εισόδων.

Επιλογή νικητή: ευκλείδεια απόστασηΠριν θεωρήθηκε ότι τόσο οι είσοδοι xόσο και τα διανύσματα βάρους wείχαν κανονικοποιηθεί. Χρησιμοποιώντας την συνάρτηση ενεργοποίησης που μας δίνει η

47

εξίσωση (5,1) έχουμε μια «βιολογικά πιθανή» λύση. Στο σχήμα 5.3 δείχνεται πως θα αποτύχει ο αλγόριθμος αν μη κανονικοποιημένα διανύσματα χρησιμοποιηθούν.

Σχήμα 5.3: Καθορίζοντας τον νικητή σε ένα ανταγωνιστικό δίκτυο. α) Τρία κανονικοποιημένα διανύσματα. β) Τρία διανύσματα με τις ίδιες κατευθύνσεις με πριν, αλλά με διαφορετικά μήκη. Στο α τα διανύσματα x και w1 είναι πιο κοντά μεταξύ τους και το εσωτερικό γινόμενό τους

xT w1=|x||w1|cos (a) είναι μεγαλύτερο από το εσωτερικό γινόμενο των xκαι w2. Στο β όμως τα

δείγματα και τα διανύσματα βάρους δεν είναι κανονικοποιημένα, και άρα σε αυτή την περίπτωση το w2

θα θεωρηθεί ο «νικητής» όταν εφαρμοστεί το x. Ωστόσο, το εσωτερικό γινόμενο xT w1 είναι ακόμα

μεγαλύτερο από το xT w2.

Για το σκοπό αυτό, ο νικητής νευρώνας k επιλέγεται με το διάνυσμα βάρους του w k που είναι πιο κοντά στο δείγμα εισόδου x , χρησιμοποιώντας την μέτρηση της ευκλείδειας απόστασης:

(5,5)

Μπορεί εύκολα να ελεγχθεί ότι η εξίσωση (5,5) απλοποιείται στις (5,1) και (5,2) αν όλα τα διανύσματα είναι κανονικοποιημένα. Το μέτρο της ευκλείδειας απόστασης επομένως είναι μια πιο γενική περίπτωση των εξισώσεων (5,1) και (5,2). Αντί να περιστρέφουμε το διάνυσμα βάρους προς την είσοδο όπως γίνεται στην εξίσωση (5,4), η ενημέρωση του βάρους πρέπει να αλλάξει με μία μετατόπιση προς την είσοδο:

(5,6)

Και πάλι μόνο τα βάρη του νικητή ενημερώνονται.Ένα σημείο που πρέπει να προσέξουμε σε αυτές τις αναδρομικές τεχνικές

ομαδοποίησης είναι η αρχικοποίηση. Ειδικά αν τα διανύσματα εισόδου προέρχονται από έναν μεγάλο ή πολυδιάστατο χώρο εισόδων, είναι λογικό ότι ένα τυχαίως αρχικοποιημένο διάνυσμα βάρους wo δεν θα επιλεγεί ποτέ νικητής και επομένως δεν θα μετακινηθεί ποτέ και ποτέ δεν θα χρησιμοποιηθεί. Συνεπώς είναι σύνηθες να αρχικοποιούνται τα διανύσματα βάρους από ένα σετ δειγμάτων εισόδου {x } προερχόμενο από το σύνολο των εισόδων τυχαία. Μια άλλη περισσότερο εμπεριστατωμένη προσέγγιση που αποφεύγει αυτά και άλλα προβλήματα στην

48

ανταγωνιστική μάθηση λέγεται μάθηση διαρροής (leaky learning). Αυτό υλοποιείται με την επέκταση της ενημέρωσης βάρους που δίνεται στην εξίσωση (5,6) με

(5,7)

με γ '≪ γ τον ρυθμό μάθησης διαρροής. Μια κάπως παρόμοια μέθοδος είναι γνωστή ως ευαίσθητη σε συχνότητα ανταγωνιστική μάθηση (frequency sensitive competitive learning). Σε αυτόν τον αλγόριθμο, κάθε νευρώνας καταγράφει το πλήθος των φορών που επιλέγεται νικητής. Όσο πιο συχνά κερδίζει, τόσο πιο λίγο ευαίσθητο γίνεται στον ανταγωνισμό. Αντίθετα οι νευρώνες που συστηματικά αποτυγχάνουν να κερδίσουν αυξάνουν τις πιθανότητές τους να επιλεγούν νικητές.

Συνάρτηση κόστουςΠιο πριν ισχυριστήκαμε ότι, ένα ανταγωνιστικό δίκτυο εκτελεί μια διαδικασία ομαδοποίησης στα δεδομένα εισόδου. Δηλαδή, τα δεδομένα εισόδου ξεχωρίζονται σε κλάσεις έτσι ώστε οι ομοιότητες μεταξύ των δειγμάτων εισόδου στην ίδια κλάση να είναι πολύ εντονότερες από ομοιότητες μεταξύ εισόδων σε διαφορετικές κλάσεις. Η ομοιότητα μετριέται από μια συνάρτηση απόστασης στα διανύσματα εισόδου όπως συζητήθηκε πριν. Ένα κοινό κριτήριο για να μετρήσεις την ποιότητα από μια δοθείσα ομαδοποίηση είναι το κριτήριο τετραγωνικού σφάλματος, όπου δίνεται από τη σχέση:

(5,8)

όπου k είναι ο νικητής νευρώνας για το δείγμα x p. Τα βάρη wερμηνεύονται ως κέντρα διασποράς. Δεν είναι δύσκολο να δείξεις ότι η ανταγωνιστική μάθηση όντως ψάχνει να βρει ένα ελάχιστο γι αυτό το τετραγωνικό σφάλμα ακολουθώντας την αρνητική κλήση της συνάρτησης σφάλματος:Θεώρημα: Η συνάρτηση σφάλματος για το δείγμα x p

(5,9)

όπου kείναι η μονάδα νικητής, ελαχιστοποιείται από τον κανόνα ενημέρωσης στην εξίσωση (5,6)Απόδειξη: Όπως και στην εξίσωση (2,12), υπολογίζουμε την επίδραση της αλλαγής του βάρους στην συνάρτηση σφάλματος. Έτσι έχουμε ότι

(5,10)

όπου γ είναι μια σταθερά αναλογίας. Τώρα, πρέπει να καθορίσουμε την μερική παράγωγο του Ep:

(5,11)

έτσι ώστε

49

(5,12)

που είναι η εξίσωση (5,6) γραμμένη για το στοιχείο του wo.Συνεπώς, η εξίσωση (5,8) ελαχιστοποιείται με επανειλημμένες ενημερώσεις του βάρους χρησιμοποιώντας την εξίσωση (5,6).

5.1.2 Κβάντωση διανύσματος

Μια άλλη σημαντική χρήση των δικτύων ανταγωνιστικής μάθησης είναι η κβάντωση διανύσματος. Ένα σύστημα κβάντωσης διανύσματος χωρίζει τον χώρο εισόδου σε έναν αριθμό από ασυνεχείς υποχώρους και αντιπροσωπεύει κάθε διάνυσμα εισόδου x με την ετικέτα του υποχώρου που εμπίπτει (δηλαδή ο δείκτης k του νικητή νευρώνα). Η διαφορά με την ομαδοποίηση είναι ότι δεν ενδιαφερόμαστε τόσο στο να βρούμε κλάσεις με όμοια δεδομένα, αλλά πιο πολύ στο να κβαντώσουμε το σύνολο του χώρου δεδομένων εισόδου. Ο κβαντισμός που εκτελείται από ένα δίκτυο ανταγωνιστικής μάθησης φαίνεται να «παρακολουθεί την συνάρτηση πυκνότητας πιθανότητας της συνάρτησης»: η πυκνότητα των νευρώνων, και άρα των υποχώρων είναι μεγαλύτερη σε περιοχές όπου οι είσοδοι είναι πιο πιθανό να εμφανιστούν, ενώ πιο αραιή κβαντώση πραγματοποιείται σε περιοχές όπου οι είσοδοι είναι λίγες. Ένα παράδειγμα παρακολούθησης της πυκνότητας εισόδου φαίνεται στο σχήμα 5.4:

Σχήμα 5.4: Αυτό το σχήμα απεικονίζει την παρακολούθηση της πυκνότητας εισόδου. Τα δείγματα εισόδου λαμβάνονται από τον R2, όπως και τα διανύσματα βάρους.

50

Η κβάντωση διανύσματος μέσω ανταγωνιστικής μάθησης οδηγεί σε πιο εκλεπτυσμένα αποτελέσματα στις περιοχές του χώρου εισόδων όπου υπήρχαν πιο πολλές είσοδοι στο παρελθόν.

Με αυτόν τον τρόπο, η ανταγωνιστική μάθηση μπορεί να χρησιμοποιηθεί σε εφαρμογές όπου τα δεδομένα πρέπει να συμπτυχθούν όπως στις τηλεπικοινωνίες η για αποθήκευση. Ωστόσο, η ανταγωνιστική μάθηση χρησιμοποιείται σε συνδυασμό με μεθόδους επιβλεπόμενης μάθησης, και εφαρμόζεται σε προβλήματα προσέγγισης συνάρτησης ή ταξινόμησης. Θα περιγράψουμε δύο παραδείγματα: την μέθοδο «counter-propagation» και «learning vector quantization»

Counter-propagationΣε ένα μεγάλο εύρος εφαρμογών, τα δίκτυα που εκτελούν κβάντωση διανυσμάτων συνδυάζονται με άλλα είδη δικτύων προκειμένου να εκτελεστεί η λειτουργία προσέγγισης συνάρτησης. Ένα παράδειγμα ενός τέτοιου δικτύου δίνεται στο σχήμα 5.5.

Σχήμα 5.5: Ένα δίκτυο που συνδυάζει στρώμα κβάντωσης διανύσματος μαζί με ένα στρώμα πρόσθιας τροφοδότησης νευρωνικό δίκτυο. Αυτό το δίκτυο μπορεί να χρησιμοποιηθεί για να προσέγγιση συναρτήσεων από R2σε R2, ο χώρος εισόδου R2 έχει διακριτοποιηθεί σε 5 ξένους υποχώρους.

Αυτό το δίκτυο μπορεί να προσεγγίσει μια συνάρτηση f :Rn⟶ Rm συνδέοντας κάθε νευρώνα ο με μια τιμή της συνάρτησης [w1o ,w2o ,…,wmo ]Τ που είναι κατά κάποιο τρόπο αντιπροσωπευτικές για τις τιμές f (x) των εισόδων x. Αυτός ο τρόπος προσέγγισης μιας συνάρτησης υλοποιεί αποτελεσματικά έναν «πίνακα αναζήτησης δεδομένων»: μια είσοδος x αντιστοιχίζεται σε μια τιμή του πίνακα k όπου

και η τιμή της συνάρτησης [w1k ,w2k ,…,wmk ]Τ σε αυτό τον πίνακα καταχωρήσεων παίρνεται ως προσέγγιση της f (x).

Ανάλογα με την εφαρμογή, κάποιος μπορεί να επιλέξει να εκτελέσει την κβάντωση πριν την διαδικασία μάθησης της προσέγγισης συνάρτησης, ή κάποιος μπορεί να επιλέξει ταυτόχρονη εκτέλεση και των δυο διαδικασιών. Ένα παράδειγμα του

51

τελευταίου, είναι το δίκτυο που φαίνεται στο σχήμα 5.5 που μπορεί να εκπαιδευτεί με επίβλεψη με τον ακόλουθο τρόπο:

1. παρουσίαση στο δίκτυο των εισόδων xκαι των τιμών των συναρτήσεων d=f (x )2. εκτελεί μη επιβλεπόμενο βήμα κβάντωσης. Για κάθε διάνυσμα βάρους,

υπολογίζει την απόσταση από διάνυσμα βάρους στο δείγμα εισόδου και βρίσει τον νικητή k . Ενημερώνει τα βάρη w ih με την εξίσωση (5,6)

3. εκτελεί το επιβλεπόμενο βήμα προσέγγισης:

(5,13)

Αυτό απλοποιεί τον κανόνα-δ με yo=∑h

yhwho=wko όταν k είναι ο νικητής

νευρώνας και η επιθυμητή έξοδος δίνεται από d=f (x ).

Αν ορίσουμε μια συνάρτηση g(x , k ) ως:

(5,14)

μπορεί να δειχτεί ότι αυτή η διαδικασία μάθησης συγκλίνει σε

(5,15)

Δηλαδή, κάθε καταχώρηση του πίνακα συγκλίνει στη μέση τιμή της συνάρτησης από όλες τις εισόδους που αναπαριστούνται από αυτή την θέση του πίνακα. Όπως είδαμε και πριν το σύστημα κβάντωσης παρακολουθεί την συνάρτηση πυκνότητας της συνάρτησης, πράγμα που οδηγεί σε καλύτερη προσέγγιση της συνάρτησης σε εκείνες τις περιοχές όπου οι είσοδοι εμφανίζονται συχνότερα.

Αυτός ο συνδυασμός στρωμάτων κβάντωσης και προσέγγισης δεν λειτουργεί βέλτιστα για όλες τις περιπτώσεις συναρτήσεων. Για παράδειγμα ένας συνδυασμός από ημίτονα και συνημίτονα μπορεί να προσεγγιστεί πολύ καλύτερα από ένα δίκτυο πολλαπλών επιπέδων με back-propagation εάν οι συναρτήσεις ενεργοποίησης έχουν επιλεγεί κατάλληλα. Ωστόσο, αν αναμένουμε η είσοδός μας να είναι ένας υποχώρος από έναν χώρο πολλών διαστάσεων Rnκαι περιμένουμε η συνάρτησή μας f να είναι ασυνεχής σε πολλά σημεία, ο συνδυασμός κβάντωσης και προσέγγισης δεν είναι ασυνήθιστος και ίσως πολύ επαρκής. Φυσικά αυτός ο συνδυασμός επεκτείνεται πολύ περισσότερο από τον συνδυασμό που παρουσιάσαμε με το ένα στρώμα δικτύου ανταγωνιστικής μάθησης και του ενός στρώματος πρόσθιας τροφοδότησης δικτύου. Το τελευταίο μπορεί να αντικατασταθεί από μια διαδικασία ενισχυτικής μάθησης. Το στρώμα κβάντωσης μπορεί να αντικατασταθεί από διάφορα άλλα συστήματα κβάντωσης, όπως τα δίκτυα Kohonen. Στην πραγματικότητα, διάφορες σύγχρονες στατιστικές μέθοδοι προσέγγισης βασίζονται σε αυτή την ιδέα, επεκταμένη και με την δυνατότητα να έχει επιρροή στην κβάντωση και το στρώμα προσέγγισης.

52

Learning Vector QuantizationΚαι αυτή η μέθοδος επίσης εκτελεί μια εργασία ομαδοποίησης ή κβάντωσης και χρησιμοποιεί παρόμοιους κανόνες μάθησης, αλλά έχει εκπαιδευτεί με επίβλεψη και εκτελεί διακριτή ανάλυση και όχι ομαδοποίηση χωρίς επίβλεψη. Αυτά τα δίκτυα προσπαθούν να ορίσουν «όρια απόφασης», αφού τους έχει δοθεί μια σειρά από αποφάσεις παραδείγματα (training set).

Ένας μάλλον μεγάλος αριθμός από ελαφρώς διαφορετικές LVQ μεθόδους εμφανίζεται στη βιβλιογραφία. Όλες βασίζονται στον ακόλουθο βασικό αλγόριθμο.

1. με κάθε νευρώνα εξόδου ο, μια κλάση yo συσχετίζεται2. ένα δείγμα μάθησης αποτελείται από το διάνυσμα εισόδου x p μαζί με την

σωστή ετικέτα της κλάσης yop

3. χρησιμοποιώντας τα μέτρα των αποστάσεων μεταξύ των διανυσμάτων των βαρών wo και του διανύσματος εισόδου x p, καθορίζεται όχι μόνο ο νικητής k 1, αλλά και ο δεύτερος καλύτερος k 2:

4. οι τιμές yk 1p και yk 2

p συγκρίνονται με την d p. O κανόνας ενημέρωσης για τα βάρη που δίνεται από την εξίσωση (5,6) χρησιμοποιείται επιλεκτικά με βάση αυτή την σύγκριση.

Ένα παράδειγμα του τελευταίου βήματος δίνεται από τον ακόλουθο LVQ αλγόριθμο που υιοθετήθηκε από τον Kohonen το 1977 χρησιμοποιώντας την ακόλουθη στρατηγική:

αν yk 1p ≠ dp και d p= yk 2

p και ‖x p−wk 2‖−‖x p−wk 1‖<є

τότε w k 2 ( t+1 )=wk 2+γ (x−wk 2 (t )) και w k 1 ( t+1 )=wk 1 (t )−γ (x−w k1 ( t ))

Δηλαδή, το w k 2 με την σωστή ετικέτα κινείται προς το διάνυσμα εισόδου, ενώ το w k 1 με την λάθος ετικέτα απομακρύνεται από αυτό.

5.2 Το δίκτυο Kohonen

Το δίκτυο Kohonen μπορούμε να το δούμε σαν μια επέκταση στα δίκτυα ανταγωνιστικής μάθησης. Σχηματικά φαίνεται στο σχήμα 5.6:

53

Σχήμα 5.6: Δίκτυο Kohonen

Στο δίκτυο Kohonen, οι μονάδες εξόδου S συχνά είναι ταξινομημένες σε ένα πλέγμα ή πίνακα 2 διαστάσεων, αλλά αυτό εξαρτάται και από την εφαρμογή. Η διάταξη, που επιλέγεται από τον χρήστη, καθορίζει ποιοί νευρώνες είναι γείτονες.

Τώρα, όταν δείγματα μάθησης παρουσιάζονται στο δίκτυο, τα βάρη στις μονάδες εξόδου προσαρμόζονται έτσι ώστε η σειρά που υπάρχει στον χώρο εισόδου RΝ να διατηρείται και στην έξοδο, δηλαδή στους νευρώνες S. Αυτό σημαίνει ότι τα δείγματα μάθησης που είναι κοντά το ένα στο άλλο στον χώρο εισόδου (όπου το κοντά καθορίζεται από το μέτρο της απόστασης που χρησιμοποιείται για την εύρεση της μονάδας νικητή) πρέπει να χαρτογραφηθούν σε μονάδες εξόδου που να είναι επίσης κοντά μεταξύ τους, δηλαδή τις ίδιες ή γειτονικές μονάδες. Έτσι αν οι είσοδοι είναι ομοιόμορφα κατανεμημένοι στον RΝ και σειρά πρέπει να διατηρείται, διαστατικότητα του S πρέπει να είναι τουλάχιστον Ν . Η χαρτογράφηση, η οποία αντιπροσωπεύει την διακριτοποίηση του χώρου εισόδου, λέγεται ότι διατηρεί την τοπολογία. Ωστόσο, αν οι είσοδοι περιορίζονται σε έναν υποχώρο του RΝ, μπορεί να χρησιμοποιηθεί ένα δίκτυο Kohonen χαμηλότερης διαστατικότητας. Για παράδειγμα: δεδομένα με πολλαπλότητα δύο διαστάσεων από ένα χώρο εισόδων μεγάλης διαστατικότητας μπορούν να χαρτογραφηθούν πάνω σε ένα δισδιάστατο δίκτυο Kohonen, το οποίο μπορεί για παράδειγμα να χρησιμοποιηθεί για την οπτικοποίηση των δεδομένων.

Συνήθως, τα δείγματα μάθησης λαμβάνονται τυχαία από τον χώρο RΝ. Την χρονική στιγμή t ,ένα δείγμα x (t) λαμβάνεται και παρουσιάζεται στο δίκτυο. Χρησιμοποιώντας τους ίδιους τύπους όπως στην παράγραφο 5.1, καθορίζεται η μονάδα νικητής k .Στη συνέχεια, τα βάρη σε αυτή την μονάδα νικητή, όπως και στους γείτονές της, αναπροσαρμόζονται χρησιμοποιώντας τον κανόνα μάθησης

(5,16)

Εδώ, η g(o , k ) είναι μια φθίνουσα συνάρτηση της πλεγματικής απόστασης μεταξύ των μονάδων ο και k , έτσι ώστε g (k , k )=1. Για παράδειγμα, για την g(.) μπορεί να χρησιμοποιηθεί μια γκαουσιανή συνάρτηση, έτσι ώστε σε μια διάσταση

g (0 , k )=e−(o−k)2

54

Λόγο αυτού του συλλογικού συστήματος μάθησης, τα σήματα εισόδου που είναι κοντα μεταξύ τους θα χαρτογραφηθούν σε γειτονικούς νευρώνες. Έτσι η τοπολογία που εγγενώς υπάρχει στα σήματα εισόδου θα διατηρηθεί και στην χαρτογράφηση, όπως φαίνεται και στο σχήμα 5.7

Σχήμα 5.7: Τα διανύσματα βάρους από ένα δίκτυο με δύο εισόδους και 8x8 νευρώνες εξόδου, διατεταγμένους σε επίπεδο πλέγμα. Μια γραμμή σε κάθε σχήμα ενώνει τα βάρη w i(o1,01) με τα βάρη w i , (ο1+1 , ο2) και w i ,(i1 , i2+1).Το πιο αριστερό σχήμα δείχνει τα αρχικά βάρη , ενώ το πιο δεξί όταν ο χάρτης είναι σχεδόν σχηματισμένος.

Εάν η ενδογενής διαστατικότητα του S είναι μικρότερη από N ,οι νευρώνες στο σύστημα θα «διπλώνονται» στον χώρο εισόδων, όπως απεικονίζεται στο σχήμα 5.8:

Σχήμα 5.8: Η χαρτογράφηση ενός δισδιάστατου χώρου εισόδων σε ένα μονοδιάστατο δίκτυο Kohonen.

Η ποιότητα της διατήρησης της τοπολογίας αυτού του δικτύου έχει πολλές ομοιότητες με τους βιολογικούς εγκεφάλους. Ο εγκέφαλος είναι οργανωμένος σε πολλά μέρη, έτσι ώστε οι πτυχές των αισθήσεων του περιβάλλοντος να αναπαριστούνται στη μορφή δυσδιάστατων χαρτών. Για παράδειγμα, στο σύστημα όρασης, υπάρχουν αρκετές τοπογραφικές χαρτογραφήσεις του οπτικού χώρου στην επιφάνεια του οπτικού φλοιού. Υπάρχουν οργανωμένες χαρτογραφήσεις της επιφάνειας του σώματος τόσο για τον φλοιό της κίνησης , αλλά και για τις περιοχές αισθήσεων, και χαρτογραφήσεις της συχνότητας του ακουστικού φλοιού. Η χρήση τοπογραφικών αναπαραστάσεων, εκεί όπου κάποια σημαντική πτυχή των αισθήσεών μας σχετίζεται με την φυσική τοποθεσία των κυττάρων στην επιφάνεια, είναι τόσο συνηθισμένη μιας και προσφέρει πολύ σημαντικές πληροφορίες στην επεξεργασία των πληροφοριών.

55

Για να εξηγήσει την αληθοφάνεια μιας παρόμοιας δομής σε βιολογικά δίκτυα, ο Kohonen σχολιάζει ότι η πλευρική αναστολή μεταξύ των νευρώνων θα μπορούσε να αποκτηθεί μέσω επαγωγικών συνδέσεων μεταξύ των εν λόγω νευρώνων. Σε μια διάσταση, αυτές οι δυνάμεις των συνδέσεων έχουν την μορφή του σχήματος 5.9:

Σχήμα 5.9: Η πλευρική αλληλεπίδραση γύρω από ένα νικηφόρο νευρώνα σαν συνάρτηση της απόστασης: διέγερση στους κοντινούς νευρώνες, αναστολή στους μακρύτερους.

5.3 Χεμπιανά μοντέλα μάθησης

Το σημαντικό έργο του Donald Hebb που δημοσιεύτηκε στα τέλη της δεκαετίας του 40 υπήρξε απαρχή για μια σειρά θεωριών μάθησης για τα νευρωνικά δίκτυα οι οποίες βασίστηκαν σε τοπικά μοντέλα αλληλεπίδρασης. Ο Hebb διατύπωσε την ακόλουθη υπόθεση σχετικά με την αυτό-οργάνωση ενός συνόλου νευρώνων.

Αν ο άξονας του κυττάρου Α βρίσκεται αρκετά κοντά έτσι ώστε να διεγείρει το κύτταρο Β και επίμονα και επανειλημμένα λαμβάνει μέρος στην διέγερση του Β τότε λαμβάνει χώρα κάποια διαδικασία ανάπτυξης ή κάποια αλλαγή στο μεταβολισμό στο ένα από τα δυο ή και στα δύο κύτταρα έτσι ώστε η αποτελεσματικότητα του κυττάρου Α στο να διεγείρει το κύτταρο Β αυξάνεται.

Η βασική αυτή υπόθεση υποστηρίζεται σοβαρά από πειραματικά δεδομένα. Το Χεμπιανό μοντέλο έχει προταθεί για την ανάλυση φαινομένων πλαστικότητας σε διάφορα τμήματα του εγκεφάλου. Σύμφωνα με τον Hebb, ο πιο πιθανός τρόπος αύξησης της αποτελεσματικότητας του κυττάρου Α στο να διεγείρει το κύτταρο Β είναι η αύξηση της επιφάνειας του συναπτικού κόμβου που συνδέει τον άξονα Α με τον λαμβάνοντα δενδρίτη του Β. Έτσι ο άξονας του πρώτου κυττάρου είτε αναπτύσσει νέους συναπτικούς κόμβους με το δεύτερο κύτταρο είτε αυξάνει την επιφάνεια των ήδη υπαρχόντων κόμβων. Αυτή η διαδικασία μετάλλαξης δημιουργεί δομικές αλλαγές στο νευρωνικό δίκτυο και αποτελεί ουσιαστικά μια διαδικασία μάθησης.

Αν και ο παραπάνω γενικός κανόνας μάθησης είναι αρκετά ασαφής για να χρησιμοποιηθεί πραγματικά, έχουν αναπτυχθεί μαθηματικές θεωρίες βασισμένες στην Χεμπιανή φιλοσοφία που έχουν αρκτά σαφή μορφή για να χρησιμοποιηθούν στην πράξη.

56

5.3.1 Ανάλυση κύριων Συνιστωσών (Principal Component Analysis)

Τα δίκτυα παρουσιάσαμε στις προηγούμενες παραγράφους μπορούν να θεωρηθούν ως μη γραμμικοί μετασχηματισμοί διανυσμάτων που χαρτογραφούν ένα διάνυσμα εισόδου σε ένα πλήθος από δυαδικά στοιχεία ή νευρώνες. Τα βάρη ρυθμίζονται με τέτοιο τρόπο ώστε να μπορούν να θεωρηθούν ως πρότυπα διανύσματα για τα δείγματα εισόδου για τα οποία ο ανταγωνιστικός νευρώνας κερδίζει. Ο αυτό-οργανούμενος μετασχηματισμός που περιγράφεται στην ενότητα αυτή, περιστρέφει τον χώρο εισόδων με τέτοιο τρόπο ώστε οι νευρώνες εξόδου να είναι όσο το δυνατόν πιο πολύ ασυσχέτιστοι, και η ενέργεια ή η διασπορά από τα πρότυπα δείγματα να συγκεντρώνεται σε όσο το δυνατόν λιγότερους νευρώνες. Ένα παράδειγμα φαίνεται στο σχήμα 5.10:

Σχήμα 5.10: Κατανομή των δειγμάτων εισόδου.

Στο σχήμα απεικονίζονται δείγματα (x1 , x2) δύο διαστάσεων. Φαίνεται εύκολα ότι τα x1 και x2 είναι συσχετισμένα, έτσι ώστε ξέροντας το ένα μπορούμε να κάνουμε μια λογική πρόβλεψη για το άλλο μιας και τα σημεία είναι κεντραρισμένα γύρω από την ευθεία x1=x2. Αν περιστρέψουμε τους άξονες κατά π /4 παίρνουμε τους άξονες (e1 ,e2) όπως φαίνονται στο σχήμα. Εδώ δεν μπορούμε να κάνουμε πρόβλεψη, γιατί οι συντεταγμένες των σημείων είναι ασυσχέτιστες. Μια άλλη ιδιότητα αυτής της περιστροφής είναι ότι η διασπορά ή η ενέργεια των μετασχηματισμένων δειγμάτων μεγιστοποιούνται σε μικρότερη τιμή. Αυτό μπορεί διαισθητικά να επαληθευτεί συγκρίνοντας τα (d x1

, d x2¿ και (de1

,d e2¿ στα σχήματα. Μετά την περιστροφή, η

διακύμανση των δειγμάτων είναι μεγάλη κατά μήκος του άξονα e1 και μικρή κατά μήκος του άξονα e2.

Αυτός ο μετασχηματισμός είναι πολύ στενά συνδεδεμένος με τον μετασχηματισμό ιδιοδιανισμάτων γνωστός από την επεξεργασία εικόνας όπου η εικόνα πρέπει να

57

κωδικοποιηθεί η μετασχηματιστεί σε μικρότερη διάσταση και μετά να ανακατασκευαστεί από έναν άλλο μετασχηματισμό όσο το δυνατόν καλύτερα.

Η επόμενη ενότητα περιγράφει έναν κανόνα μάθησης που λειτουργεί σαν τον Χεμπιανό κανόνα μάθησης, αλλά κανονικοποιεί το μέγεθος του διανύσματος στη μονάδα. Θα δούμε ότι ένας γραμμικός νευρώνας με κανονικοποιημένο Χεμπιανό κανόνα μάθησης συμπεριφέρεται σαν τέτοιος μετασχηματισμός, επεκτείνοντας την θεωρία της προηγούμενης ενότητας σε εξόδους πολλών διαστάσεων.

5.3.2 Κανονικοποιημένος κανόνας Hebb

Το μοντέλο σε αυτό το κεφάλαιο θεωρείται ότι αποτελείται από ένα γραμμικό νευρώνα με βάρη εισόδων w . Η έξοδος yo(t ) αυτού του νευρώνα δίνεται από το συνηθισμένο εσωτερικό γινόμενο του βάρους w και του διανύσματος εισόδου x:

(5.17)

Όπως είδαμε στις προηγούμενες ενότητες, όλα τα μοντέλα βασίζονται σε ένα είδος Χεμπιανής μάθησης. Ωστόσο, ο βασικός Χεμπιανός κανόνας θα κάνει τα βάρη να αυξάνουν αν δεν υπάρχει κάποια συσχέτιση μεταξύ των δειγμάτων εισόδου. Αυτό μπορεί να ξεπεραστεί κανονικοποιώντας το διάνυσμα βάρους σε ένα προκαθορισμένο μήκος, συνήθως την μονάδα, που οδηγεί στον ακόλουθο κανόνα μάθησης.

(5,18)

όπου το L(.) υποδεικνύει έναν τελεστή ο οποίος επιστρέφει το μήκος του διανύσματος, και είναι μια μικρή παράμετρος μάθησης. Συγκρίνουμε αυτόν τον κανόνα μάθησης με τον κανονικοποιημένο κανόνα ανταγωνιστικής μάθησης. Εκεί ο κανόνας δέλτα ήταν κανονικοποιημένος, εδώ είναι ο κανόνας Hebb.

Τώρα ο τελεστής που υπολογίζει το μήκος του διανύσματος, τη νόρμα του, μπορεί να προσεγγιστεί από την επέκτασή του σε σειρά Taylor γύρω από το γ=0:

(5,19)

Όταν αντικαθιστούμε αυτήν την έκφραση για το μήκος του διανύσματος στην εξίσωση (5,18), για μικρό γ έχουμε

(5,20)

Μιας και δ Lδγ

¿γ=0= y (t)2, αφαιρώντας τους υψηλότερης τάξης όρους του γ

οδηγούμαστε στην εξίσωση:

(5,21)

58

που καλείται κανόνας μάθησης του Oja. Αυτός ο κανόνας μάθησης έτσι τροποποιεί το βάρος με την συνήθη έννοια του κανόνα Hebb, όπου ο πρώτος όρος του γινομένου είναι ο κανόνας Hebb yo(t )x (t), αλλά κανονικοποιεί το διάνυσμα βάρους άμεσα με τον δεύτερο όρο του γινομένου − yo( t) y o(t)w( t)

5.3.3 Εξαγωγή σε κύριες συνιστώσες

Έστω ένα Ν-διάστατο σήμα x (t) με μέση τιμή μ=Ε ( x ( t ) ) πίνακα συνδιακύμανσης R=E ¿

Στα επόμενα θεωρούμε ότι η μέση τιμή του σήματος είναι μηδέν, οπότε μ=0Από την εξίσωση (5,21) βλέπουμε ότι η εξαγωγή των βαρών από τον κανόνα

μάθησης Oja ισοδυναμεί

(5,22)

όπου

(5,23)

Θεώρημα Αν τα ιδιοανύσματα e iτου R ταξινομούνται με συσχετισμένες ιδιοτιμές λ i έτσι ώστε λ1> λ2>…> λΝ . Με την εξίσωση (5,23) τα βάρη w (t ) θα συγκλίνουν στο ±e1

5.3.4 Περισσότερα ιδιοανύσματα

Στην προηγούμενη ενότητα δείξαμε ότι τα βάρη ενός μόνου νευρώνα θα συγκλίνουν στο ιδιοάνυσμα με την μέγιστη ιδιοτιμή, δηλαδή, τα βάρη του νευρώνα κατευθύνονται στην κατεύθυνση την υψηλότερης ενέργειας ή διακύμανσης των δειγμάτων εισόδου. Εδώ προκύπτει το ερώτημα του πως βρίσκεις τα υπόλοιπα ιδιοανύσματα του πίνακα συνδιακύμανσης δοθέντος του πρώτου ιδιοανύσματος.

Σκεφτείτε ότι μπορούμε να αναλύσουμε το σήμα xστις βάσεις ιδιοανύσματα e iτου πίνακα συνδιακύμανσης R .

(5,24)

Αν τώρα αφαιρέσουμε την συνιστώσα στην κατεύθυνση e1, η κατεύθυνση στην οποία το σήμα έχει την περισσότερη ενέργεια, από το σήμα x

(5,25)

59

είμαστε σίγουροι ότι όταν αναλύσουμε το ~x στη βάση ιδιοανυσμάτων, η συνιστώσα α 1=0.

Αν τώρα ο δεύτερος νευρώνας εκπαιδευτεί στο σήμα ~x , τότε τα βάρη του θα είναι προς την κατεύθυνση του ιδιοανύσματος με την μεγαλύτερη ιδιοτιμή από τα εναπομείναντα. Όπως και πριν ταξινομούμε τα ιδιοανύσματα με βάση το μέγεθος των ιδιοτιμών έτσι ώστε σύμφωνα με τον ορισμό να βρούμε στο όριο το e2. Μπορούμε να συνεχίσουμε αυτή την στρατηγική και να βρούμε τα Ν ιδιοανύσματα που αντιστοιχούν στο σήμα x .

Σύμφωνα με τα παραπάνω βλέπουμε ότι

(5,26)

μιας και

(5,27)

Έτσι ώστε το άνυσμα ~x να είναι:

(5,28)

Ο όρος που αφαιρείται από το άνυσμα εισόδου μπορεί να θεωρηθεί ως ένα είδος οπίσθιας προβολής ή προσδοκίας.

5.4 Θεωρία προσαρμοστικού συντονισμού

Τα τελευταία μη επιβλεπόμενης μάθησης δίκτυα διαφέρουν από τα προηγούμενα στο γεγονός ότι είναι αναδρομικά. Σε αυτό το κεφάλαιο επίσης τα δεδομένα δεν θα τροφοδοτούνται μόνο μπροστά, αλλά επίσης πίσω από τις εξόδους στις μονάδες εισόδου.

5.4.1 Υπόβαθρο: Θεωρία προσαρμοστικού συντονισμού (ART)

Το 1976, o Grossberg εισήγαγε ένα μοντέλο για να εξηγήσει βιολογικά φαινόμενα. Το μοντέλο είχε τρείς κρίσιμες ιδιότητες:

1. κανονικοποίηση της συνολικής δραστηριότητας. Τα βιολογικά συστήματα είναι πολύ προσαρμοστικά σε μεγάλες αλλαγές στο περιβάλλον τους. Για παράδειγμα, το ανθρώπινο μάτι μπορεί να προσαρμοστεί σε μεγάλες διακυμάνσεις της έντασης του φωτός.

2. αύξηση της αντίθεσης των δειγμάτων εισόδου. Ο εντοπισμός μικρών διαφορών στα δείγματα της εισόδου, μπορεί να είναι πολύ σημαντικός για την επιβίωση. Η διάκριση ενός πάνθηρα που κρύβεται από έναν που απλά ξεκουράζεται κάνει

60

όλη την διαφορά. Ο μηχανισμός που χρησιμοποιείται εδώ είναι η ενίσχυση των διαφορών.

3. βραχυπρόθεσμη μνήμη (short-term memory STM) αποθήκευσης του αυξημένης αντίθεσης δείγματος. Πριν το δείγμα εισόδου αποκωδικοποιηθεί πρέπει να αποθηκευτεί σε μια βραχυπρόθεσμη μνήμη. Η μακροπρόθεσμη (Long-term memory LTM) θέτει σε εφαρμογή έναν μηχανισμό διέγερσης (δηλαδή, ταξινόμηση), ενώ η STM χρησιμοποιείται για να προκαλέσει βαθμιαίες αλλαγές στην LTM.

To σύστημα αποτελείται από δυο στρώματα, F1 και F2, που είναι συνδεδεμένα μεταξύ τους μέσω της LTM όπως φαίνεται στο σχήμα 5.11.

Σχήμα 5.11: Η αρχιτεκτονική ART

Το δείγμα εισόδου το παίρνουμε στο F1, ενώ η ταξινόμηση λαμβάνει χώρα στο F2. Όπως αναφέρθηκε και πριν, το δείγμα δεν ταξινομείται άμεσα. Πρώτα λαμβάνει χώρα ένας χαρακτηρισμός μέσω εξαγωγής χαρακτηριστικών, που προκαλεί ενεργοποίηση στο στρώμα αναπαράστασης χαρακτηριστικών (feature representation field). Οι προσδοκώμενες ιδιότητες, που εμπεριέχονται στις LTM συνδέσεις, μεταφράζουν το δείγμα εισόδου σε μια κατηγορία, στο στρώμα αναπαράστασης κατηγορίας (category representation field). H κατηγοριοποίηση συγκρίνεται με τις προσδοκίες του δικτύου, που βρίσκονται στα LTΜ βάρη από το στρώμα F2 στο F1. Αν ταιριάζουν, οι προσδοκίες ισχυροποιούνται, αλλιώς η κατηγοριοποίηση απορρίπτεται.

5.4.2 ΑΡΤ1: Το απλοποιημένο μοντέλο νευρωνικού δικτύου.

Το ΑRT1 είναι ένα απλοποιημένο μοντέλο που αποτελείται από δύο στρώματα δυαδικών νευρώνων (με τιμές 0 και 1), που ονομάζονται F1 (στρώμα σύγκρισης) και F2 (στρώμα αναγνώρισης) όπως φαίνεται στο σχήμα 5.12:

61

Σχήμα 5.12: Το νευρωνικό δίκτυο ART1

Κάθε νευρώνας στο F1 είναι συνδεδεμένος με όλους τους νευρώνες στο F2 μέσω της πρόσθιας με συνεχείς τιμές LTM W f , και αντίστροφα μέσω της LTM W b που παίρνει δυαδικές τιμές και είναι στην αντίθετη κατεύθυνση η ροή των δεδομένων. Οι υπόλοιπες μονάδες είναι το Gain 1 και 2 (G1 και G2), και η μονάδα επαναφοράς.

Κάθε νευρώνας στο στρώμα σύγκρισης λαμβάνει τρείς εισόδους: μια συνιστώσα του δείγματος εισόδου, μια συνιστώσα του δείγματος ανάδρασης, και του κέρδους G1. Η έξοδος του νευρώνα είναι μονάδα αν και μόνο αν δύο από τις τρείς εισόδους είναι ενεργές: ο «κανόνας των δύο τρίτων».

Ο καθένας από τους νευρώνες στο στρώμα αναγνώρισης υπολογίζει το εσωτερικό γινόμενο από τα εισερχόμενα βάρη (με συνεχείς τιμές) και του δείγματος που στέλνεται μέσω αυτών των συνδέσεων. Ο νικητής νευρώνας τότε απενεργοποιεί όλους τους άλλους νευρώνες μέσω της πλευρικής αναστολής.

Το κέρδος 2 είναι το λογικό “OR” από όλα τα στοιχεία στο πρότυπο εισόδου x .To κέρδος 1 είναι ίσο με το κέρδος 2, εκτός από τις περιπτώσεις όπου το δείγμα

ανάδρασης από το F2 περιέχει μονάδα, που τότε παίρνει την τιμή 0.Τέλος, το σήμα επαναφοράς (reset) στέλνεται στον ενεργό νευρώνα στο F2 αν το

διάνυσμα εισόδου x και η έξοδος του F1 διαφέρουν περισσότερο από ένα επίπεδο επαγρύπνησης.

Λειτουργία

Το δίκτυο ξεκινά τοποθετώντας την είσοδο στο F1. Επειδή η έξοδος του F2 είναι μηδέν, τα G1 και G2 είναι και τα δυο ενεργοποιημένα και η έξοδος του F1 είναι ίση με την είσοδό του.

Το δείγμα στέλνεται στο F2, και εκεί ένας νευρώνας ενεργοποιείται. Αυτό το σήμα τότε στέλνεται πίσω μέσω του LTM, που παράγει ένα δυαδικό δείγμα στο F1. Το κέρδος G1 απενεργοποιείται, και μόνο οι νευρώνες στο F1 που λαμβάνουν «ένα» από τα xκαι F2 παραμένουν ενεργοί.

Χρησιμοποιούμε τον συμβολισμό που υιοθετήθηκε από τον Lippmann.

62

1. Αρχικοποίηση:

όπου Ν είναι ο αριθμός των νευρώνων στο F1, M είναι ο αριθμός των νευρώνων στο F2, 0≤ i≤ N , και 0≤ j ≤M . Επίσης, επιλέγουμε το κατώφλι ενεργοποίησης p , 0≤ p≤1

2. Εφαρμόζουμε καινούριο δείγμα x3. υπολογίζουμε τις τιμές ενεργοποίησης y ' των νευρώνων στο F2:

(5,29)

4. Επιλέγουμε τον νευρώνα νικητή k (0≤k ≤M )5. Τεστ ενεργοποίησης: Αν

(5,30)

(όπου το ∙ συμβολίζει το εσωτερικό γινόμενο) πήγαινε στο βήμα 7, αλλιώς πήγαινε στο βήμα 6. Σημειώστε ότι το w k

b ∙ x είναι κατ’ ουσία το εσωτερικό γινόμενο x¿ ∙ x, που θα είναι μεγαλύτερο αν τα x¿ και x είναι κοντά μεταξύ τους.

6. Ο νευρώνας k απενεργοποιείται από την υπόλοιπη διαδικασία. Πήγαινε στο βήμα 3

7. Βάλε για όλα τα l, 0≤ l≤ N :

8. ξανα-ενεργοποίησε όλους τους νευρώνες στο F2 και πήγαινε στο βήμα 2.

Το σχήμα 5.13 δείχνει ένα παράδειγμα της συμπεριφοράς του δικτύου.

63

Σχήμα 5.13: Ένα παράδειγμα της συμπεριφοράς του δικτύου των Carpenter και Grossberg για δείγματα γραμμάτων. Τα δυαδικά δείγματα εισόδου στα αριστερά εφαρμόστηκαν διαδοχικά. στα δεξιά είναι τα αποθηκευμένα μοτίβα (δηλαδή εμφανίζονται τα βάρη W b των πρώτων τεσσάρων εξόδων.

5.4.3 ΑRT1: Το πρωτότυπο μοντέλο

Σε μεταγενέστερη εργασία, οι Carpenter και Grossberg παρουσίασαν αρκετά μοντέλα νευρωνικών δικτύων για να ενσωματωθούν στη συνέχεια στην συνολική θεωρία. Θα συζητήσουμε μόνο το ART1

To δίκτυο ακολουθεί τον αλγόριθμο ομαδοποίησης (follow the leader). Αυτός ο αλγόριθμος προσπαθεί να ταιριάξει κάθε νέο δείγμα εισόδου σε μια υπάρχουσα κλάση. Αν δεν μπορεί να βρεθεί καμία κλάση που να ταιριάζει, δηλαδή η απόσταση μεταξύ του νέου δείγματος και όλων των υπαρχόντων κλάσεων υπερβαίνει ένα κατώφλι, δημιουργείται μια καινούρια κλάση που περιέχει το καινούριο δείγμα.

Η καινοτομία σε αυτή την προσέγγιση είναι ότι το δίκτυο είναι ικανό να προσαρμοστεί σε καινούρια εισερχόμενα δείγματα, ενώ η προηγούμενη μνήμη δεν καταστρέφεται. Στα περισσότερα νευρωνικά δίκτυα όπως το δίκτυο με back-propagation, όλα τα δείγματα πρέπει να διδάσκονται διαδοχικά, και η διδασκαλία ενός καινούριου δείγματος ίσως αλλοιώσει τα βάρη για τα προηγούμενα πρότυπα που είχε μάθει. Αλλάζοντας την δομή του δικτύου αντί για τα βάρη, το ART1 ξεπερνάει αυτό το πρόβλημα.

64

Κανονικοποίηση

Θα αναφερόμαστε σε ένα κύτταρο στο F1 και F2 με k . Κάθε κύτταρο kστα F1 ή F2 δέχεται μια είσοδο sk και ανταποκρίνεται με ένα επίπεδο ενεργοποίησης yk. Για να εισάγουμε κανονικοποίηση στο μοντέλο, θέτουμε I=∑ sk και αφήνουμε την σχετική ένταση της εισόδου Θk=sk I

−1.Έτσι έχουμε ένα μοντέλο στο οποίο η αλλαγή της απόκρισης yk σε μια είσοδο σε ένα συγκεκριμένο κελί kνα

εξαρτάται ανασταλτικά από όλες τις άλλες εισόδους και την ευαισθησία του

κελιού, δηλαδή, τα γειτονικά κελιά έχουν αρνητική επίπτωση στο κελί − yk∑l ≠ k

sl

έχει διεγερτική απόκριση όλη την ώρα που είναι συνδεδεμένη στο κελί είσοδος +Βsk

έχει ανασταλτική απόκριση για την κανονικοποίηση − yk sk

έχει μια φθορά −A yk

Εδώ τα Α και Β είναι σταθερές. Η διαφορική εξίσωση για τους νευρώνες στα F1 και F2 τώρα είναι:

(5,31)

με 0≤ yk (0)≤B επειδή η ανασταλτική επίδραση μιας εισόδου δεν μπορεί ποτέ να υπερβεί την διεγερτική.

Στην ισορροπία, όταν d yk

dt=0, και με I=∑ sk έχουμε ότι

(5,32)Από τον ορισμό Θk=sk I

−1 παίρνουμε

(5,33)

Ωστόσο, στην κατάσταση ισορροπίας τοyk είναι ανάλογο του Θk, και , μιας και

(5,34)

η συνολική δραστηριότητα y total=∑ yk ποτέ δεν υπερβαίνει το Β: είναι κανονικοποιημένο.

Ενίσχυση της αντίθεσης

Για να κάνουμε το F2 να αντιδρά καλύτερα στις διαφορές των τιμών των νευρώνων στο F1 (ή το αντίστροφο), χρησιμοποιούμε την ενίσχυση της αντίθεσης: οι διαφορές μεταξύ των τιμών των νευρώνων σε ένα στρώμα ενισχύονται. Μπορούμε να δείξουμε ότι η εξίσωση (5,31) δεν επαρκεί πια. Προκειμένου να ενισχύσουμε τις διαφορές, κόβουμε

65

όλα τα ίσα τμήματα στο F1 ή F2. Αυτό μπορεί να γίνει με την προσθήκη μιας επιπλέον ανασταλτικής εισόδου με τις εισόδους από τα άλλα κελιά με έναν παράγοντα C:

(5,35)

Στην ισορροπία, όταν ορίζουμε B=(n−1 ) C όπου n είναι το πλήθος των νευρώνων, έχουμε

(5,36)

Τώρα, όταν μας δίνεται μια είσοδος στην οποία όλα τα sk είναι ίσα, τότε όλα τα yk είναι μηδέν: η επίδραση του C είναι να ενισχύει τις διαφορές. Εάν ορίσουμε B≤ (n+1 )C ή

CB+C

≥1n, τότε μεγαλύτερο μέρος από την είσοδο θα κοπεί.

66

6. ΕνισχυτικήΜάθηση

Στα προηγούμενα κεφάλαια ένα πλήθος από επιβλεπόμενων μεθόδων εκπαίδευσης έχει περιγραφεί στα οποία οι προσαρμογές των βαρών υπολογίζονται χρησιμοποιώντας ένα σύνολο από «δείγματα μάθησης», που αποτελούνται από εισόδους και επιθυμητές τιμές εξόδων. Ωστόσο, δεν είναι δυνατό πάντα να έχουμε ένα τέτοιο δείγμα. Συχνά η μόνη πληροφορία είναι μια βαθμωτή αξιολόγηση r που μας δείχνει πόσο καλά το νευρωνικό δίκτυο λειτουργεί. Η ενισχυτική μάθηση έχει δύο προβλήματα. Το πρώτο είναι ότι η ενίσχυση του σήματος rσυχνά καθυστερεί δεδομένου ότι είναι αποτέλεσμα των εξόδων του δικτύου κατά το παρελθόν. Αυτό το πρόβλημα της χρονικής καθυστέρησης με την εκπαίδευση ενός «κριτικού» δικτύου το οποίο αντιπροσωπεύει μια συνάρτηση κόστους J που προβλέπει μελλοντική ενίσχυση. Το δεύτερο πρόβλημα να βρεθεί μια διαδικασία μάθησης που προσαρμόζει τα βάρη του νευρωνικού δικτύου έτσι ώστε να πραγματοποιηθεί μια χαρτογράφηση που θα ελαχιστοποιεί το J . Αυτά τα προβλήματα θα συζητηθούν στις επόμενες παραγράφους. Στο σχήμα 6.1 παρουσιάζεται ένα δίκτυο ενισχυτικής μάθησης που αλληλεπιδρά με ένα σύστημα.

Σχήμα 6.1: Δομή ενισχυτικής μάθησης

6.1 Η κριτική

Το πρώτο πρόβλημα είναι το πώς θα κατασκευάσουμε μια κριτική που θα είναι σε θέση να αξιολογεί την απόδοση του συστήματος. Αν ο στόχος του δικτύου είναι να ελαχιστοποιήσει μια άμεσα μετρήσιμη ποσότητα r, η πληροφόρηση για την απόδοση είναι απλή και κριτική δεν χρειάζεται. Από την άλλη, το πώς η τωρινή συμπεριφορά θα αξιολογηθεί αν ο στόχος αφορά μελλοντικές επιδόσεις του συστήματος. Η απόδοση για παράδειγμα μπορεί να μετριέται μέσω του μελλοντικού σφάλματος. Οι περισσότεροι

67

μέθοδοι ενισχυτικής μάθησης χρησιμοποιούν τον αλγόριθμο χρονικής διαφοράς για να εκπαιδεύσουν την κριτική.

Ας υποθέσουμε ότι το άμεσο κόστος του συστήματος στο βήμα του χρόνου kμετριέται από την r (xk , uk , k ), σαν συνάρτηση των καταστάσεων του συστήματος xk και των ενεργοποιήσεων ελέγχου (έξοδοι δικτύου) uk . Το άμεσο μέτρο rσυχνά καλείται εξωτερικό σήμα ενίσχυσης σε αντίθεση με το εσωτερικό σήμα ενίσχυσης στο σχήμα 6.1. Ορίζουμε το μέτρο επίδοσης J (xk , uk , k) του συστήματος ως μια εκ των προτέρων συσσώρευση του μελλοντικού κόστους. Το έργο της μονάδας κριτικής είναι να προβλέπει το μέτρο των επιδόσεων:

(6,1)

στο οποίο γ ∈[0,1] και είναι ένας παράγοντας προεξόφλησης (συνήθως ≈ 0,95).Η σχέση μεταξύ δύο διαδοχικών προβλέψεων μπορεί να εκφραστεί:

(6,2)

Αν το δίκτυο είναι σωστά εκπαιδευμένο, η σχέση μεταξύ δύο διαδοχικών εξόδων του δικτύου J θα είναι:

(6,3)

Αν το δίκτυο δεν είναι σωστά εκπαιδευμένο, η χρονική διαφορά δ (k ) μεταξύ δυο διαδοχικών προβλέψεων χρησιμοποιείται για να προσαρμόσει το δίκτυο κριτικής:

(6,4)

Ένας κανόνας εκπαίδευσης για τα βάρη w c (k ), που βασίζεται στην ελαχιστοποίηση του δ 2(k ) μπορεί να εκφραστεί:

(6,5)

όπου α είναι ένας συντελεστής μάθησης

6.2 Ο ελεγκτής του δικτύου

Εάν η κριτική είναι ικανή ντα παρέχει μια άμεση αξιολόγηση των επιδόσεων, ο ελεγκτής του δικτύου μπορεί να προσαρμοστεί έτσι ώστε να βρεθεί η βέλτιστη σχέση μεταξύ των καταστάσεων του συστήματος και τις ενέργειας έλεγχου. Διακρίνονται τρείς προσεγγίσεις:

1. Σε περίπτωση πεπερασμένων ενεργειών U , θα εκτελεστούν εικονικά όλες αυτές οι ενέργειες. Αυτή που θα ελαχιστοποιεί το κριτήριο επίδοσης θα επιλέγεται:

68

(6,6)

η μέθοδος ενισχυτικής μάθησης με αυτόν τον ελεγκτή ονομάζεται Q-learning. Η μέθοδος προσεγγίζει δυναμικό προγραμματισμό που θα συζητηθεί σε επόμενη παράγραφο.

2. Εάν το μέτρο απόδοσης J (xk , uk , k) προβλέπεται με ακρίβεια, τότε η κλίση σε σχέση με τον ελεγκτή εντολών uk μπορεί να υπολογιστεί, υποθέτοντας ότι η κριτική του δικτύου είναι διαφορίσιμη. Εάν το μέτρο είναι να ελαχιστοποιηθεί, τα βάρη του ελεγκτή w k, τα βάρη του ελεγκτή w r προσαρμόζονται στην κατεύθυνση της αρνητικής κλίσης:

(6,7)

με το β να είναι δείκτης μάθησης. 3. Μια άμεση προσέγγιση για την προσαρμογή του ελεγκτή είναι να

χρησιμοποιήσουμε την διαφορά μεταξύ προβλεπόμενου και πραγματικού μέτρου απόδοσης όπως εκφράζεται στην εξίσωση (6,3). Υποθέτουμε ότι το μέτρο απόδοσης πρέπει να ελαχιστοποιηθεί. Για ενέργειες του ελεγκτή που οδηγούν σε αρνητικές διαφορές, δηλαδή η πραγματική απόδοση είναι καλύτερη από την αναμενόμενη, τότε ο ελεγκτής πρέπει να «επιβραβευτεί». Από την άλλη, σε περίπτωση θετικής διαφοράς, τότε ο ελεγκτής πρέπει να «τιμωρηθεί». Η ιδέα είναι να εξερευνούμε ένα σύνολο από πιθανές ενέργειες κατά την διάρκεια της μάθησης και να ενσωματώνονται οι ωφέλιμες στον ελεγκτή.

Γενικά, οι αλγόριθμοι επιλέγουν πιθανοκρατικά ενέργειες από ένα σύνολο από πιθανές ενέργειες και ενημερώνουν τις πιθανότητες των ενεργειών αυτών με βάση την ανάδραση της αξιολόγησης. Οι περισσότεροι από τους αλγόριθμους βασίζονται σε αναπαράσταση ενός πίνακα αναζητήσεως της χαρτογράφησης των καταστάσεων του συστήματος σε ενέργειες. Κάθε πίνακας καταχωρήσεων πρέπει να μάθει ποια δράση ελέγχου είναι καλύτερη όταν προσπελαστεί μια θέση του. Μπορεί να είναι επίσης δυνατόν να χρησιμοποιηθεί μια παραμετρική χαρτογράφηση των καταστάσεων του συστήματος με τις πιθανότητες δράσης.

6.3 Προσέγγιση του Barto: ο συνδυασμός ASE-ACE

Οι Barto, Sutton και Anderson το 1993 διατύπωσαν την ενισχυτική μάθηση σαν μια στρατηγική μάθησης που δεν χρειάζεται ένα σύνολο από παραδείγματα που παρέχονται από εκπαιδευτή. Το σύστημα που περιγράφηκε από τον Barto εξερευνά τον χώρο εναλλακτικής χαρτογράφησης των εισόδων-εξόδων και χρησιμοποιεί μια εναλλακτική ανατροφοδότηση (ενίσχυσης σήματος) στις επιπτώσεις του σήματος ελέγχου (έξοδος δικτύου) στο περιβάλλον. Έχει αποδειχθεί ότι οι εν λόγω αλγόριθμοι

69

ενισχυτικής μάθησης εφαρμόζουν μια on-line, σταδιακή προσέγγιση στη μέθοδο δυναμικού προγραμματισμού για βέλτιστο έλεγχο.

Το βασικό δομικό στοιχείο στο δίκτυο Barto είναι ένα στοιχείο συσχετιστικής αναζήτησης (associative search element ASE) που χρησιμοποιεί μια στοχαστική μέθοδο για να καθορίσει την σωστή σχέση μεταξύ εισόδου και εξόδου και ένα στοιχείο προσαρμοστικής κριτικής (adaptive critic element ACE) που μαθαίνει να δίνει να δίνει σωστή πρόβλεψη για μελλοντική ανταμοιβή ή τιμωρία όπως φαίνεται στο επόμενο σχήμα:

Σχήμα 6.2: Αρχιτεκτονική της ενισχυτικής μάθησης με στοιχείο κριτικής.

Το εξωτερικό σήμα ενίσχυσης rμπορεί να παραχθεί από έναν ειδικό αισθητήρα ή να εξαχθεί από το διάνυσμα κατάστασης. Για παράδειγμα, σε εφαρμογές ελέγχου, όπου η κατάσταση sενός συστήματος πρέπει να μένει σε ένα ορισμένο μέρος του χώρου ελέγχου Α , η ενίσχυση δίνεται από:

(6,8)

6.3.1 Συνειρμική αναζήτηση

Στη πιο στοιχειώδη μορφή του το ASE δίνει μια δυαδική έξοδο yo(t )∈ {0,1 } σαν στοχαστική συνάρτηση ενός διανύσματος εισόδου. Η συνολική είσοδος του ASE είναι παρόμοια με τον νευρώνα που παρουσιάστηκε στο κεφάλαιο 1, το άθροισμα των γινομένων των εισόδων με τα βάρη, με την διαφορά ότι το δυναμικό της εισόδου σε αυτή την περίπτωση είναι μια στοχαστική μεταβλητή Ν με κανονική κατανομή μηδενικής μέσης τιμής:

70

(6,9)

Η συνάρτηση ενεργοποίησης F είναι ένα κατώφλι της μορφής

(6,10)

Για την προσαρμογή των βαρών χρησιμοποιείται ένας κανόνας μάθησης Χεμπιανού τύπου. Ωστόσο, η ενημέρωση παίρνει τιμή από ένα σήμα ενίσχυσης r (t ) και ορίζουμε την «επιλεξιμότητα» e j αντί για το γινόμενο yo(t )x j( t) την εισόδου με την έξοδο:

(6,11)

όπου το α είναι ένας παράγοντας μάθησης. Η επιλεξιμότητα e j δίνεται από

(6,12)

με δ τον ρυθμό φθοράς της επιλεξιμότητας. Η επιλεξιμότητα είναι ένα είδος μνήμης, όπου το e jέχει μεγάλη τιμή αν τα σήματα από την μονάδα εισόδου j και την μονάδα εξόδου συσχετίζονται για πάνω από ένα χρονικό διάστημα.

Χρησιμοποιώντας την r (t ) στην εξίσωση (6,11) έχουμε το αρνητικό ότι η εκπαίδευση λαμβάνει χώρα όταν υπάρχει εξωτερικό σήμα ενίσχυσης. Αντί για το r (t ) συνήθως χρησιμοποιείται ένα συνεχές «εσωτερικό» ενισχυτικό σήμα r (t ) πού δίνεται από το ACE.

Οι Barto και Anandan το 1985 αποδείξανε την σύγκλιση για την περίπτωση μιας δυαδικής εξόδου και ένα σύνολο από γραμμικώς ανεξάρτητα δείγματα x p. Σε εφαρμογές ελέγχου, το διάνυσμα εισόδου είναι το (Ν-διάσταστο) διάνυσμα κατάστασης s του συστήματος. Προκειμένου να λάβουμε ένα σύνολο από γραμμικώς ανεξάρτητα δείγματα x p, συχνά χρησιμοποιείται ένας «αποκωδικοποιητής», που χωρίζει το εύρος καθεμίας από τις μεταβλητές εισόδου si σε έναν αριθμό μικρότερων διαστημάτων. Ο στόχος είναι να χωρίσουμε το χώρο εισόδων σε ένα πλήθος από διακριτούς υποχώρους. Συνεπώς το διάνυσμα εισόδου μπορεί να είναι μόνο σε έναν υποχώρο. Ο αποκωδικοποιητής μετατρέπει το διάνυσμα εισόδου σε ένα δυαδικό διάνυσμα x , με μόνο ένα στοιχείο ίσο με την μονάδα, που δείχνει ποιος υποχώρος έχει προσπελαστεί κάθε στιγμή. Έχει δειχθεί ότι αντί του κβαντισμού του χώρου της εισόδου εκ των προτέρων, μια αυτό-οργανούμενη κβαντοποίηση βασισμένη σε μεθόδους που περιγράφονται σε αυτό το κεφάλαιο, καταλήγει σε καλύτερη απόδοση του συστήματος.

71

6.3.2 Προσαρμοστική κριτική

Το στοιχείο προσαρμοστικής κριτικής είναι βασικά ίδιο, όπως περιγράφεται και στην ενότητα 6.1. Ένα σήμα σφάλματος προέρχεται από την χρονική διαφορά δυο διαδοχικών προβλέψεων και χρησιμοποιείται για να εκπαιδεύσει το ACE:

(6,13)

To p(t ) εφαρμόζεται σαν μια σειρά από βάρη w cj στο ACE τέτοια ώστε

(6,14)

εάν το σύστημα είναι στην κατάσταση k την χρονική στιγμή t , που συμβολίζεται από xk=1. Η συνάρτηση μαθαίνεται ρυθμίζοντας τα wCj σύμφωνα με τον κανόνα δέλτα με σήμα σφάλματος δ που δίνεται από την r (t ):

(6,15)

όπου β είναι μια παράμετρος μάθησης και η h j(t) υποδηλώνει το ίχνος του νευρώνα x j:

(6,16)

Αυτό το ίχνος είναι ένα χαμηλοπερατό φίλτρο, μέσο του οποίου, η συνεισφορά της κατάστασης j αυξάνεται όταν η κατάσταση j είναι ενεργή και μειώνεται εκθετικά όταν παύει να είναι ενεργή.Εάν η r ( t )είναι θετική, η δράση του u στο σύστημα θα οδηγεί σε μεγαλύτερη τιμή ενεργοποίησης, ενώ αρνητική r (t ) υποδηλώνει υποβάθμιση του συστήματος. Η r ( t ) μπορεί να θεωρηθεί σαν εσωτερικό ενισχυτικό σήμα.

6.4 Ενισχυτική μάθηση σε σχέση με τον βέλτιστο έλεγχο

Ο στόχος του βέλτιστου ελέγχου είναι η δημιουργία δράσεων ελέγχου προκειμένου να βελτιστοποιηθεί ένα προκαθορισμένο μέτρο ελέγχου. Μια τεχνική για να βρεθεί μια τέτοια σειρά ενεργειών ελέγχου που να καθορίζει μια βέλτιστη τακτική ελέγχου είναι ο δυναμικός προγραμματισμός (dynamic programming DP). Η μέθοδος βασίζεται στην αρχή της βελτιστοποίησης, που διατυπώθηκε από τον Bellman to 1957: όποια και αν είναι η αρχική κατάσταση του συστήματος, αν η πρώτη δράση ελέγχου ακολουθεί μια πολιτική βέλτιστου ελέγχου, τότε οι υπόλοιπες ενέργειες ελέγχου πρέπει να αποτελούν μια πολιτική βέλτιστου ελέγχου για το πρόβλημα με αρχική κατάσταση του συστήματος, την κατάσταση που δημιουργείται μετά την πρώτη δράση ελέγχου. Οι εξισώσεις του

72

Bellman ακολουθούνται άμεσα από την αρχή βελτιστοποίησης. Η λύση των εξισώσεων προς τα πίσω στον χρόνο ονομάζεται δυναμικός προγραμματισμός.

Ας υποθέσουμε ότι ένα μέτρο απόδοσης είναι J (xk ,uk , k )=∑i=k

N

r (x i , ui ,i), με το rνα

είναι το άμεσο κόστος, και είναι να ελαχιστοποιηθεί. Το ελάχιστο κόστος Jmin του κόστους J μπορεί να εξαχθεί από τις εξισώσεις Bellman του DP. Οι εξισώσεις για την διακριτή περίπτωση είναι:

(6,17)

(6,18)Η στρατηγική για την εύρεση των ενεργειών βέλτιστου ελέγχου είναι να λύσουμε

τις εξισώσεις (6,17) και (6,18) από τις οποίες μπορεί να εξαχθεί το uk. Αυτό μπορούμε να το καταφέρουμε και ανάποδα ξεκινώντας από την κατάσταση xN . Οι προϋποθέσεις είναι ένα οριοθετημένο Ν, και ένα μοντέλο το οποίο υποτίθεται ότι είναι μια ακριβής αναπαράσταση του συστήματος και του περιβάλλοντος. Το μοντέλο πρέπει να παρέχει τη σχέση μεταξύ διαδοχικών καταστάσεων του συστήματος που προκύπτουν από την δυναμική του συστήματος, δράσεις ελέγχου και διαταραχές. Πρακτικά, μια λύση μπορεί να εξαχθεί μόνο για μικρό Ν και απλά συστήματα. Προκειμένου να αντιμετωπίσουμε μεγάλα Ν ή άπειρα, το μέτρο της απόδοσης θα μπορούσε να οριστεί ως ένα προκαθορισμένο σύνολο από μελλοντικά όπως εκφράζεται στην εξίσωση (6,2)

Η ενισχυτική μάθηση (reinforcement learning RL) παρέχει λύση για το πρόβλημα που αναφέρθηκε παραπάνω χωρίς την χρήση του μοντέλου του συστήματος και του περιβάλλοντος. Η RL ως εκ τούτου συχνά ονομάζεται τεχνική «ευρετικού» δυναμικού προγραμματισμού. Η πιο άμεσα συνδεδεμένη RL-τεχνική στον DP είναι η Q-learning. Η βασική ιδέα στη τεχνική Q-learning είναι να εκτιμήσεις μια συνάρτηση, από καταστάσεις και δράσεις, όπου το Q είναι το ελάχιστο άθροισμα από τα μελλοντικά κόστη Jmin (xk ,uk , k ). Για λόγους ευκολίας συνεχίζουμε να χρησιμοποιούμε τον συμβολισμό J:

(6,19)

Ο κανόνας βέλτιστου ελέγχου μπορεί να εκφραστεί με την εξίσωση J σημειώνοντας ότι μια βέλτιστη δράση ελέγχου για την κατάσταση xk είναι οποιαδήποτε δράση uk που ελαχιστοποιεί την J σύμφωνα με την εξίσωση (6,6).

Η εκτίμηση του ελάχιστου κόστους J ενημερώνεται στο χρονικό βήμα k+1 σύμφωνα με την εξίσωση (6,5). Η χρονική διαφορά ε (k ) μεταξύ της πραγματικής και της αναμενόμενης απόδοσης χρησιμοποιείται και πάλι:

(6,20)

73

Ο Watkins έδειξε ότι η συνάρτηση συγκλίνει, κάτω από κάποιες προκαθορισμένες συνθήκες ,στην πρότυπη εξίσωση βελτιστοποίησης του Bellman, οι οποίες είναι :

1. Η μονάδα κριτικής υλοποιείται ως ένας πίνακας αναζητήσεως2. Η παράμετρος μάθησης α πρέπει να συγκλίνει στο μηδέν3. Όλες οι ενέργειες συνεχίζουν να ελέγχονται από όλες τις καταστάσεις.

74

7. Χρήση Υβριδικού Νευρωνικού Δικτύου για

πρόβλεψη ατμοσφαιρικής

Θερμοκρασίας

Σε αυτό το κεφάλαιο θα μελετηθεί η αποτελεσματικότητα των δικτύων perceptron πολλαπλών επιπέδων (MLPs) για την πρόβλεψη της μέγιστης και ελάχιστης θερμοκρασίας που βασίζεται σε πρωθύστερες παρατηρήσεις από διάφορες ατμοσφαιρικές παραμέτρους. Για να λάβουμε υπ όψιν την εποχικότητα των ατμοσφαιρικών δεδομένων, με σκοπό να βελτιώσουμε την ακρίβεια της πρόβλεψης, προτείνουμε μια νέα αρχιτεκτονική που συνδυάζει έναν χάρτη αυτό-οργάνωσης παρατηρήσεων (SOFM) και ΜLPs για την πραγματοποίηση ενός υβριδικού νευρωνικού δικτύου που λέγεται SOFM-MLP με βελτιωμένη απόδοση. Επίσης δείχνουμε πως η χρήση κατάλληλων χαρακτηριστικών όπως η κλίση της θερμοκρασίας μπορεί όχι μόνο να μειώσει το πλήθος που χρησιμοποιούμε, αλλά επίσης να βελτιώσει και την ακρίβεια της πρόβλεψης. Αυτές οι παρατηρήσεις ενέπνευσαν την χρήση ΜLP με δυνατότητα επιλογής χαρακτηριστικών (Feature Selection MLP FSMLP) αντί του MLP, που μπορεί να επιλέξει τα καλά χαρακτηριστικά σε απευθείας σύνδεση, ενώ η εκμάθηση βρίσκεται σε λειτουργία. Το FSMLP χρησιμοποιείται ως προεπεξεργαστής για την επιλογή των «καλών» χαρακτηριστικών. Αυτή η συνδυασμένη χρήση των FSMLP και SOFM-MLP καταλήγει σε ένα σύστημα δικτύου που χρησιμοποιεί πολύ λίγες εισόδους και μπορεί να παράγει καλή πρόβλεψη.

7.1 Εισαγωγή

Η μέτρηση και η πρόβλεψη των παραμέτρων της κατώτερης ατμόσφαιρας είναι απαραίτητη για διάφορα είδη εφαρμογών, όπως ηλεκτρονικά συστήματα, η διασπορά της ρύπανσης, οι επικοινωνίες. Παρόλο που μια τέλεια πρόβλεψη δεν είναι ποτέ εφικτή, τα νευρωνικά δίκτυα μπορούν να χρησιμοποιηθούν και να προσφέρουν αρκετά καλές προβλέψεις σε πολλές περιπτώσεις. Η πρόγνωση του καιρού απαιτεί σωστή εκτίμηση της θερμοκρασίας, της βροχόπτωσης, της υγρασίας, της ταχύτητας του ανέμου και της κατεύθυνσής του, της ατμοσφαιρικής πίεσης, κτλ. εκ των προτέρων. Συχνά είναι πολύ δύσκολο να πάρεις ένα ακριβές αποτέλεσμα πρόβλεψης, εξ αιτίας

75

πολλών άλλων παραγόντων, όπως η τοπογραφία ενός τόπου, γύρω δομές, και η περιβαλλοντική ρύπανση.

Εδώ έχουμε επικεντρωθεί στην πρόβλεψη της θερμοκρασίας με βάση την πρωθύστερη μέτρηση διαφόρων ατμοσφαιρικών παραμέτρων, και ότι οι βραχυπρόθεσμες αλλαγές στο δυναμικό θα συμπεριληφθούν στα δεδομένα για την πρόβλεψη. Φυσιολογικά οι θερμοκρασίες μετριούνται δύο φορές την μέρα σε διαφορετικά ύψη και μέρη, χρησιμοποιώντας τεχνικές ραδιοβόλισης . Άλλες παράμετροι όπως η κατεύθυνση του ανέμου και η ταχύτητά του, μετριούνται επίσης από τους μετεωρολόγους.

Έχουμε συλλέξει τις ακόλουθες πληροφορίες για μια ημέρα από ένα μετεωρολογικό τμήμα: 1) μέση πίεση στο επίπεδο της θάλασσας στις 17:30 και 06:30, 2) πίεση ατμών στις 17:30 και 06:30, 3) σχετική υγρασία στις 17:30 και 06:30, 4) μέγιστη θερμοκρασία στις 17:30, 5) ελάχιστη θερμοκρασία στις 06:30 και 6) βροχόπτωση. Έχουμε ημερήσια παρατήρηση σε αυτές τις μεταβλητές για την περίοδο 1989 μέχρι 1995.

Το υβριδικό δίκτυο συνδυάζει ένα αυτό-οργανούμενο χάρτη χαρακτηριστικών (SOFM) και ένα δίκτυο MLP. Η χρήση μόνο των κατάλληλων παρατηρήσεων μπορεί όχι μόνο να μειώσει το πλήθος των εισόδων, αλλά επίσης να βελτιώσει και την ακρίβεια της πρόβλεψης. Στην συνέχεια παρακινούμενοι από αυτό, χρησιμοποιούμε ένα ΜLP που μπορεί να επιλέξει τα κατάλληλα χαρακτηριστικά ενώ βρίσκεται σε στάδιο εκπαίδευσης της διαδικασίας της πρόβλεψης. Αυτό τελικά οδηγεί σε ένα σύστημα δικτύου που χρησιμοποιεί πολύ λίγες εισόδους και μπορεί να παράγει καλή πρόβλεψη.

7.2 Μερικές Δημοφιλείς Μέθοδοι και η εφαρμογή τους στην πρόγνωση θερμοκρασίας.

Σε αυτή την παράγραφο θα εξετάσουμε τέσσερις μεθόδους πρόβλεψης και θα διερευνήσουμε την αποτελεσματικότητά τους στην πρόβλεψη της μέγιστης και ελάχιστης θερμοκρασίας. Χρησιμοποιούμε το δίκτυο ΜLP , το δίκτυο Συναρτήσεων Βάσης Ακτινικού Τύπου (RBF) καθώς και τα μοντέλα αυτοπαλινδρόμησης (AR) και τα γραμμικά φθίνοντα (LR).

Το δίκτυο MLP αποτελείται από πολλές στρώσεις νευρώνων όπου το πρώτο είναι το στρώμα εισόδου, το τελευταίο είναι το στρώμα εξόδου, και τα εναπομείναντα στρώματα ονομάζονται κρυμμένα επίπεδα. Υπάρχουν ενώσεις μεταξύ όλων των νευρώνων σε διαδοχικά επίπεδα, αλλά δεν υπάρχουν ενώσεις μεταξύ των νευρώνων του ίδιου επιπέδου. Κάθε κόμβος, με εξαίρεση τους κόμβους του στρώματος εισόδου, υπολογίζει το σταθμισμένο άθροισμα των εισροών του στο οποίο εφαρμόζει μια σιγμοειδή συνάρτηση για να υπολογίσει την έξοδό του, η οποία στην συνέχεια μεταβιβάζεται στους κόμβους του επόμενου στρώματος. Ο στόχος της εκπαίδευσης ενός MLP είναι να ρυθμίσει τα βάρη σύνδεσης έτσι ώστε το σφάλμα μεταξύ της εξόδου του δικτύου και της εξόδου να ελαχιστοποιείται. Στο ΑR μοντέλο, η θερμοκρασία ανά ώρα προβλέπεται χρησιμοποιώντας μια γραμμική συνάρτηση των θερμοκρασιών των

76

τελευταίων ημερών, ενώ το μοντέλο LR προβλέπει την θερμοκρασία ως γραμμική συνάρτηση των παρατηρήσεων άλλων παραμέτρων συμπεριλαμβανομένου και της θερμοκρασίας.

Το δίκτυο RBF είναι ένα δίκτυο τριών στρωμάτων: στρώμα εισόδου, στρώμα συνάρτησης βάσης (κρυφό όπως στο MLP) και το στρώμα εξόδου. Κάθε κόμβος στο κρυφό στρώμα αντιπροσωπεύει μια λειτουργία βάσης. Χρησιμοποιούμε Γκαουσιανές συναρτήσεις βάσης για όλους τους κόμβους. Εδώ το στρώμα εισόδου και το κρυφό επίπεδο είναι πλήρως διασυνδεδεμένα. Κάθε κόμβος εξόδου χρησιμοποιεί μια γραμμική συνάρτηση ενεργοποίησης. Με άλλα λόγια κάθε κόμβος εξόδου υπολογίζει το σταθμισμένο άθροισμα των εισροών του. Ας ορίσουμε W RBF

k το διάνυσμα των βαρών των ενώσεων μεταξύ τον κόμβων εισόδου και του kRBF κόμβου. Τότε η έξοδος του kRBF κόμβου είναι:

hRBFk =exp(-

ǁ i−W RBFk ǁ2

σ k2 )

όπου σ kείναι η τυπική απόκλιση της k RBF συνάρτησης και iείναι το διάνυσμα εισόδου. Η έξοδος από τον j κόμβο εξόδου σ RBF

j υπολογίζεται από την σχέση:

σ RBFj =∑

k=1

nh

wokjhRBF

k

όπου wokj είναι το βάρος της σύνδεσης μεταξύ του k RBF κόμβου και του j κόμβου

εξόδου.Χρησιμοποιούμε το ΜΑΤLAB neural network tool box για να πραγματοποιήσουμε

το RBF δίκτυο. Αυτός ο αλγόριθμος εκπαίδευσης για το RBF δίκτυο δεν χρησιμοποιεί μη επιβλεπόμενη διαδικασία όπως κατηγοριοποίηση δεδομένων. Το δίκτυο ξεκινά με έναν κόμβο RBF χρησιμοποιώντας ένα από τα σημεία δεδομένων εκπαίδευσης σαν κέντρο της Γκαουσιανής συνάρτησης. Στην συνέχεια βρίσκει το σημείο των δεδομένων με το μεγαλύτερο σφάλμα, το οποίο χρησιμοποιείται σαν κέντρο ενός νέου κόμβου RBF. Τα συναπτικά βάρη μεταξύ το κρυφό επίπεδο και το επίπεδο εξόδου τροποποιούνται ώστε να ελαχιστοποιηθεί το τετραγωνικό σφάλμα. Η διαδικασία συνεχίζεται μέχρι είτε να επιτευχθεί ο στόχος του σφάλματος σε άθροισμα τετραγωνικών σφαλμάτων (SSE) είτε το πλήθος των RBF κόμβων λάβει μια μέγιστη τιμή. Στο πείραμά μας, το μέγιστο πλήθος από κόμβους έχει οριστεί σε 50, και ο στόχος του (SSE) σε 0,01.

Το μοντέλο αυτοπαλινδρόμησης τάξης p, δηλαδή, AR(p), προβλέπει την τωρινή tτιμή x (t) της μεταβλητής x χρησιμοποιώντας τις pπροηγούμενες παρατηρήσεις όπως x (t−1 ) , x (t−2 ) ,…, x ( t−p ) . Μαθηματικά, το μοντέλο Α R ( p ) μπορεί να γραφεί ως:

x (t )=ao+∑i=1

p

ai x ( t−i ) ,

όπου α ι είναι συντελεστές.

77

Ένα γραμμικό πρότυπο παλινδρόμησης μπορεί να χρησιμοποιηθεί για την πρόβλεψη της θερμοκρασίας της tημέρας ως γραμμική συνάρτηση πολλών άλλων μεταβλητών. Το LR μοντέλο μπορεί να περιγραφεί από την σχέση:

y (t )=ao+∑i=1

q

ai xi ( t−i ) ,

όπου α ι είναι συντελεστές. Εδώ q είναι ο αριθμός των μεταβλητών πρόγνωσης που χρησιμοποιούνται στο LR μοντέλο.

Εδώ χρησιμοποιούμε ένα AR μοντέλο τρίτης τάξης, δηλαδή, το μέγιστο (ή το ελάχιστο) της θερμοκρασίας της t ημέρας προβλέπεται με βάση τις μέγιστες (ή τις ελάχιστες) θερμοκρασίες των τελευταίων τριών ημερών. Η τάξη τρία έχει επιλεγεί έπειτα από πειράματα. Επίσης, σε επόμενη παράγραφο θα δούμε ότι ο μηχανισμός επιλογής χαρακτηριστικών απορρίπτει την πληροφορία της θερμοκρασίας για πάνω από τρείς ημέρες.

7.2.1 Προετοιμασία δεδομένων

ΜLP και RBF δίκτυα: Για μια συγκεκριμένη μέρα t , έχουμε δεδομένα παρατηρήσεων από εννέα μεταβλητές. Ας τις συμβολίσουμε με x (t) ∈R9. Τώρα ας υποθέσουμε πως οι μέγιστες και οι ελάχιστες θερμοκρασίες για την tμέρα, δηλαδή T max(t ) και Τ min (t ) ,καθορίζονται από τις ατμοσφαιρικές παραμέτρους των τελευταίων k ημερών.

Έτσι, προσπαθούμε να προβλέψουμε το (T max (t ) , Τ min (t )) χρησιμοποιώντας Χ ( t )=(x ( t−1 ) , x ( t−2 ) ,…, x ( t−k ) )∈R9k. Εάν k=2 ,τότε χρησιμοποιούμε (x ( t−1 ) , x ( t−2 ) )∈ R18 k για να προβλέψουμε Y t=(T max ( t ) ,Τ min ( t )).

Ας θεωρήσουμε ότι είναι Ν το συνολικό πλήθος των ημερών όπου οι παρατηρήσεις είναι διαθέσιμες. Έτσι μπορούμε να κατασκευάσουμε την είσοδο ( X ) και έξοδο (Y ) των δεδομένων προς εκπαίδευση όπου X={X ( N ) , X ( N−1 ) ,…, X (N−k ) } και Y= {Y (N ) , Y ( N−1 ) …,Y (N−k ) }. Για να εκπαιδεύσουμε το δίκτυο χρησιμοποιούμε ζευγάρια εισόδων εξόδων (X ( i ) ,Y ( i ) ) , i=N ,N−1 ,N−2 ,…,N−k . Σε αυτή την περίπτωση έχουμε N−kζευγάρια. Αφού πάρουμε το ( X ,Y ) , διαμερίζουμε το X (όπως και το Y ) τυχαία σε X tr (Y tr ) και X t e (Y te ) έτσι ώστε X tr∪X t e=Χ , X tr ∩X t e=φ. Τότε το (X ¿¿ tr ,Y tr)¿ χρησιμοποιείται για να εκπαιδευτεί το σύστημα και το (X ¿¿ t e ,Y te)¿ για να δοκιμαστεί το σύστημα. Έτσι το MLP δίκτυό μας έχει 9k κόμβους εισόδου και δύο κόμβους εξόδου. Στην εφαρμογή μας Ν=2555 , X tr=2285 , X t e=270, και χρησιμοποιούμε k=3.

AR μοντέλο: Η μέγιστη (ή ελάχιστη) θερμοκρασία T max ( t )ή [Τ ¿¿min ( t )]¿ από την tημέρα καθορίζεται χρησιμοποιώντας τις μέγιστες (ή ελάχιστες) θερμοκρασίες από τις τρείς προηγούμενες ημέρες.

LR μοντέλο: Η μέγιστη ή ελάχιστη θερμοκρασία T max (t )ή [Τ ¿¿min (t )]¿ από την tημέρα καθορίζεται από τις παρατηρήσεις των προηγούμενων ημερών στην μέγιστη

78

θερμοκρασία, ελάχιστη θερμοκρασία, ατμοσφαιρικής πίεσης, σχετικής υγρασίας, αλλαγή στην θερμοκρασία, αλλαγή στην ατμοσφαιρική πίεση, αλλαγή της σχετικής υγρασίας, και της βροχόπτωσης.

7.2.2 Αποτελέσματα

Τρέξαμε πολλές φορές το MLP δίκτυο με διαφορετικές κρυφές μονάδες. Ο πίνακας 1 δείχνει την μέση απόδοση (σε 10 τρεξίματα) των δοκιμαστικών δεδομένων με πλήθος κρυφών κόμβων nh=10,15,20 , και25. Δείχνει το αθροιστικό ποσοστό πρόβλεψης σε διαφορετικές περιοχές. Για παράδειγμα, η τέταρτη γραμμή από τη max στήλη με nh=10 δείχνει ότι για τα δοκιμαστικά δεδομένα (δείγμα μάθησης) το δίκτυο μπορούσε να κάνει πρόβλεψη με σφάλμα ≤2 C❑

ο το 81,2% των περιπτώσεων. Είναι ενδιαφέρον να σημειώσουμε ότι τα δίκτυα με πλήθος κρυφών κόμβων μέχρι 20 λειτουργούν αρκετά καλά, αλλά η απόδοση πέφτει με αυξανόμενο ρυθμό όσο το πλήθος των κρυφών κόμβων υπερβαίνει το 20. Για σφάλμα ±2 C❑

ο , το καλύτερο αποτέλεσμα που μπορεί να επιτύχει το δίκτυο για την μέγιστη και ελάχιστη θερμοκρασία είναι περίπου 84%.

Ο πίνακας 2 συνοψίζει την απόδοση του δικτύου RBF και των μοντέλων AR(3) και LR. Το δίκτυο RBF (με 50 RBF κόμβους) φαίνεται να παράγει λίγο χειρότερα αποτελέσματα από το MLP. Οι αποδόσεις των συστημάτων AR και LR είναι σχεδόν

79

συγκρίσιμες, και εμφανίζουν λίγο χειρότερη απόδοση από τα δύο μοντέλα με νευρωνικά δίκτυα.

Αν και τα αποτελέσματα των MLP και RBF είναι ικανοποιητικά, δεν είναι πολύ

καλά. Ένας πιθανός λόγος για αυτό μπορεί να είναι η παρουσία της εποχικότητας. Έτσι προτείνεται η παρουσία ενός υβριδικού δικτύου που θα μπορεί να λάβει υπ όψη την εποχικότητα των δεδομένων. Η βασική φιλοσοφία είναι η εξής. Κατηγοριοποιούμε τα διανύσματα σε (Χ ) σε ένα σύνολο από ομογενείς υποκατηγορίες. Έπειτα για κάθε υποκατηγορία εκπαιδεύουμε ένα ξεχωριστό δίκτυο πρόσθιας τροφοδότησης. Για την πρόβλεψη αρχικά θα πρέπει να επιλέξουμε το κατάλληλο εκπαιδευμένο MLP και έπειτα να βάλουμε τις δοκιμαστικές εισόδους για να λάβουμε την πρόβλεψη. Ο διαχωρισμός των δεδομένων εκπαίδευσης καθώς και η επιλογή του επιθυμητού εκπαιδευμένου MLP θα εκτελείται χρησιμοποιώντας έναν αυτοοργανούμενο χάρτη χαρακτηριστικών (SOFM)

7.3 Το δίκτυο SOFM

Ο αυτοοργανούμενος χάρτης χαρακτηριστικών του Kohonen έχει χρησιμοποιηθεί με επιτυχία σε πολλές εφαρμογές. Το SOFM έχει την ενδιαφέρουσα ιδιότητα να

80

καταφέρνει μια κατανομή των διανυσμάτων βάρους που προσεγγίζει την κατανομή των δεδομένων εισόδου. Αυτή η ιδιότητα του SOFM μπορεί να αξιοποιηθεί για την παραγωγή πρωτοτύπων τα οποία με την σειρά τους μπορούν να χωρίσουν τα δεδομένα σε ομογενείς ομάδες.

7.3.1 Αρχιτεκτονική

Ο αυτοοργανούμενος χάρτης χαρακτηριστικών είναι ένας αλγοριθμικός μετασχηματισμός ΑSOFM

D :Rp⟶V (Rq) που συχνά χρησιμοποιείται για την απεικόνιση των τοπολογικών σχέσεων και τις κατανομές πυκνότητας των διανυσμάτων χαρακτηριστικών (σημάτων) Χ={x1 ,…, xN } στον Rp. Το δίκτυο SOFM υλοποιείται μέσω μίας αρχιτεκτονικής νευρωνικού δικτύου όπως φαίνεται στο σχήμα 7.1, και θεωρείται ότι κατά κάποιο τρόπο είναι παρόμοιο με το βιολογικό νευρωνικό δίκτυο. Η οπτική απεικόνιση που παράγεται από το SOFM μπορεί να χρησιμοποιηθεί για να υποθέσουμε την τοπολογική δομή του Χ . Επικεντρωνόμαστε σε (m×n ) απεικονίσεις στο R2, αλλά σε γενικές γραμμές μπορεί να μετατραπεί σε ένα πλέγμα Rq για κάθε q.

Σχήμα 7.1: Αρχιτεκτονική του δικτύου SOFM

81

Όπως φαίνεται στο σχήμα 7.1, τα διανύσματα εισόδου x∈ Rp είναι είναι συνδεδεμένα με τους (m×n ) κόμβους του ανταγωνιστικού επιπέδου. Κάθε κόμβος σε αυτό το επίπεδο έχει ένα δικό του διάνυσμα βάρους . Έστω ότι το Ο p= {v ij }⊂R p χαρακτηρίζει το σύνολο των (m×n ) διανυσμάτων βάρους. Το ΟP είναι λογικά συνδεδεμένο ες ένα πλέγμα οθόνης Ο2⊂V (R2) . Το (i , j) στο σύνολο του δείκτη {1,2 ,…,m }× {1,2 ,…,n } είναι η λογική διεύθυνση ενός κελιού. Υπάρχει μια σχέση ένα-προς-ένα μεταξύ των m×np-διανυσμάτων v ij και των m×nκελιών ( {i , j } ) , δηλαδή O p⟷O2.

Ο αλγόριθμος χαρτογράφησης χαρακτηριστικών ξεκινάει με μια τυχαία αρχικοποίηση των διανυσμάτων των συναπτικών βαρών v ij. Τώρα ας αφήσουμε το x∈ Rpνα εισέλθει στο δίκτυο, και ας ορίσουμε s τον εκάστοτε αριθμό επανάληψης. Βρίσκουμε το vr , s−1 που ταιριάζει καλύτερα με το x υπό την έννοια της ευκλείδειας απόστασης στον Rp . Αυτό το διάνυσμα έχει μια λογική εικόνα πού είναι το κελί στο O2

με δείκτη r . Στη συνέχεια, μια τοπολογική γειτονιά N r (s) κεντραρισμένη στο rορίζεται στον O2 ,καθώς εντοπίζονται οι γείτονες του r . Ένα 3x3 παράθυρο Ν (r ) , κεντραρισμένο στο r αντιστοιχεί στο να ενημερώνει εννέα πρωτότυπα στο Rp . Τελικά, το vr , s−1 και άλλα διανύσματα βαρών συσχετίζονται με κελιά στην χωρική γειτονιά και ενημερώνονται χρησιμοποιώντας τον κανόνα

(7,1)

Εδώ, r είναι ο δείκτης του «νικητή» πρωτότυπου.

(7,2)

Η συνάρτηση H ri (s ) που εκφράζει την ισχύ της αλληλεπίδρασης μεταξύ των κελιών r και i στον O2 συνήθως μειώνεται με το s , και για σταθερό s μειώνεται καθώς η απόσταση του κελιού iαπό το r αυξάνεται. Το H ri(s ) συχνά εκφράζεται ως το γινόμενο από μια παράμετρο μάθησης α s και μιας πλευρικής συνάρτησης ανάδρασης

gs (dist (r , i ) )=e−dist2 (r ,i)

σs2

Τα α s και σ s μειώνονται και τα δύο με αύξηση του s . Το σύστημα αυτό, όταν επαναλαμβάνεται για μεγάλο διάστημα, συνήθως διατηρεί κάποια χωρική διάταξη υπό την έννοια ότι τα διανύσματα βάρους που είναι μετρικά κοντά έχουν κοντινές εικόνες στην προβολή στο πλέγμα. Επαναλαμβάνουμε το SOFM για (500×m×n )βήματα.

7.4 SOFM-MLP Υβριδικό Δίκτυο

82

Η αρχιτεκτονική αυτού του υβριδικού δικτύου φαίνεται στο σχήμα 7.2. Έχει οκτώ επίπεδα. Το πρώτο επίπεδο με κόμβους κλιμακώνει τα δεδομένα: είναι η διεπαφή μεταξύ του χρήστη και του συστήματος. Το δεύτερο και τρίτο επίπεδο αποτελούν το SOFM στρώμα. Η έξοδος από το στρώμα κλιμάκωσης τροφοδοτείται σαν είσοδος στο SOFM στρώμα. Έτσι το δεύτερο επίπεδο έχει κόμβους. Υπάρχουν συνδέσεις μεταξύ των στρωμάτων 2 και 3 όπως τις αναφέραμε νωρίτερα στο δίκτυο SOFM.

Σχήμα 7.2: Υβριδικό Νευρωνικό δίκτυο για πρόβλεψη θερμοκρασίας.

Έστω ότι ο αριθμός των κόμβων στο στρώμα εξόδου του δικτύου SOFM είναι K . Έτσι υπάρχουν K MLP δίκτυα, το καθένα από τα οποία δέχεται p εισόδους. Κατά συνέπεια, το τέταρτο επίπεδο έχει Kpκόμβους. Αυτοί οι Kpκόμβοι αποτελούν στρώμα εισόδου για ένα σύνολο από K MLP δίκτυα. Χωρίς βλάβη της γενικότητας, υποθέτουμε ότι κάθε ένα από τα MLP δίκτυα έχει μόνο ένα κρυφό στρώμα, αν και θα μπορούσαν να έχουν παραπάνω από ένα ή και να διαφέρει το πλήθος σε κάθε MLP δίκτυο. Ας αριθμήσουμε τους κόμβους στο τέταρτο επίπεδο ως N i , i=1,2 ,…,Kp . Οι κόμβοι N1 μέχρι N p θα είναι οι κόμβοι εισόδου για το πρώτο MLP δίκτυο (Μ 1 ), οι κόμβοι N p+1 μέχρι Ν2 p θα είναι κόμβοι εισόδου για το δεύτερο MLP δίκτυο (M 2 ). Όμοια οι κόμβοι N ( K−1 ) p+1μέχρι N Kp θα είναι οι κόμβοι εισόδου για το Κ ΜLP, (M K ). Όπως αναφέραμε και πριν p=9k .

O j κόμβος εισόδου του M i δικτύου MLP παίρνει την j κανονικοποιημένη είσοδο ¿say,x j ¿ και την περνάει στο πρώτο κρυφό επίπεδο του M i. Η έξοδος του i κόμβου του SOFM (say ,oi) είναι συνδεδεμένη με την έξοδο κάθε κόμβου του τελευταίου επιπέδου του M i . Το γινόμενο της εξόδου του MLP και της εξόδου του SOFM πηγαίνει στο επίπεδο 7. Το γινόμενο μπορεί να υπολογιστεί χρησιμοποιώντας ένα πρόσθετο στρώμα

83

με δυο νευρώνες για κάθε MLP. Μιας και μόνο ένας από τους νευρώνες εξόδου του SOFM θα είναι μονάδα, και οι υπόλοιποι θα είναι μηδέν μόνο ένα από τα MLP δίκτυα θα περάσει την έξοδό του στο στρώμα 7 χωρίς απόσβεση. Tα υπόλοιπα (k−1 )MLP θα μεταφέρουν μηδέν στο στρώμα 7.

Δεδομένου ότι θεωρούμε μόνο ένα κρυφό επίπεδο, οι κόμβοι στο στρώμα έξι είναι οι κόμβοι εξόδου για τα δίκτυα MLP. Κάθε MLP, M i θα έχει δυο κόμβους εξόδου. Ας τους ονομάσουμε αυτούς τους κόμβους Οij

6 όπου ο δείκτης iαντιστοιχεί στο iδίκτυο MLP, Μ i και j=1,2 όπου το 1 αντιστοιχεί σε ελάχιστη θερμοκρασία και το 2 σε μέγιστη. Τα στρώματα 4-6 αποτελούν το στρώμα MLP όπως φαίνεται στο σχήμα 7.2. Οι έξοδοι του MLP στρώματος αθροίζονται στο επίπεδο 7 που έχει μόνο 2 κόμβους, έναν για την μέγιστη θερμοκρασία και έναν για την μέγιστη. Ας ονομάσουμε αυτούς του κόμβους με m και M. Τώρα οι κόμβοι Οi1

6 ,∀ i=1,2 ,…,K συνδέονται στον κόμβο m και οι κόμβοι Οi26

,∀ i=1,2 ,…,K συνδέονται στον κόμβο Μ. Όλα τα συναπτικά βάρη μεταξύ των στρωμάτων 6 και 7 ορίζονται μονάδα και οι κόμβοι m και Μ υπολογίζουν το σταθμισμένο άθροισμα όλων των εισόδων όπως έχει περάσει από την έξοδο του στρώματος κλιμάκωσης. Σημειώστε ότι η αρχιτεκτονική του δικτύου εξασφαλίζει ότι η συνολική έξοδος που τροφοδοτείται στο στρώμα κλιμάκωσης δεν είναι τίποτα άλλο παρά η έξοδος του MLP δικτύου που αντιστοιχεί στον κόμβο νικητή του SOFM δικτύου.

Σε αυτό το σημείο ίσως αναρωτιόμαστε γιατί χρησιμοποιούμε το SOFM και όχι έναν αλγόριθμο ομαδοποίησης. Τα πρωτότυπα διανύσματα που δημιουργούνται από το SOFM δεν αντιπροσωπεύουν μόνο την τοπολογία αλλά και την πυκνότητα. Θέλουμε να εκμεταλλευτούμε αυτή την διατήρηση της πυκνότητας σωστά. Λόγο της αντιστοιχίας της ιδιότητας της πυκνότητας στο SOFM, εάν μια συγκεκριμένη περιοχή του χώρου εισόδου περιέχει ερεθίσματα που συμβαίνουν συχνά, θα αντιπροσωπευτεί από μια μεγαλύτερη περιοχή στον χάρτη. Συνεπώς, εάν υπάρχει μια πυκνή περιοχή στην είσοδο του SOFM θα τοποθετήσει περισσότερα πρωτότυπα εκεί. Έτσι θα έχουμε ανταγωνισμό των MLP για τις πυκνές περιοχές. Ως εκ τούτου, μεγαλύτερες λεπτομέρειες στη διαδικασία μπορούν να μοντελοποιηθούν καλύτερα και αυτό να οδηγήσει σε μια ενίσχυση της συνολικής απόδοση.

7.4.1 Εκπαιδεύοντας το υβριδικό SOFM-MLP δίκτυο

Αρχικά το X trκανονικοποιείται με το στρώμα εξομάλυνσης της εισόδου (δηλαδή, κλιμάκωσης). Έπειτα με κανονικοποιημένο το X tr εκπαιδεύεται το SOFM δίκτυο. Μόλις τελειώσει η εκπαίδευση στου SOFM, το X tr χωρίζεται σε Κ υποσύνολα, Χ tr

(l), με l=1,2 ,…, K ως εξής:

Με άλλα λόγια, το Χ tr(l) είναι το σύνολο των διανυσμάτων εισόδου για τα οποία το l

πρωτότυπο, v l για το SOFM γίνεται νικητής. Ας ορίσουμε Y tr(l ) το σύνολο των

διανυσμάτων εξόδου που σχετίζονται με τα διανύσματα Χ tr(l). Τώρα εκπαιδεύουμε τα K

perceptron πολλών επιπέδων M 1 ,M 2 ,…,M K όπου το M l εκπαιδεύεται από (Χ tr(l) , Y tr

(l )).

84

Σημειωτέον ότι κάθε ένα από τα M l l=1,2 ,…, K θα έχει τον ίδιο αριθμό από κόμβους στο στρώμα εισόδου, δηλαδή p=9k και τον ίδιο αριθμό κόμβων στο στρώμα εξόδου, δηλαδή 2. Αλλά το πλήθος των κόμβων στο κρυφό στρώμα θα μπορούσε να είναι διαφορετικό. Αυτή η εκπαίδευση γίνεται εκτός σύνδεσης (offline) και κατά την διάρκεια της εκπαίδευσης δεν λαμβάνουμε υπ’ όψιν την έξοδο του SOFM. Στην πραγματικότητα δεν τροφοδοτούμε την είσοδο του SOFM για την εκπαίδευση του MLP. Όταν τόσο η εκπαίδευση του SOFM όσο και των MLP τελειώσει είμαστε σε θέση να χρησιμοποιήσουμε το υβριδικό δίκτυο για πρόγνωση θερμοκρασιών.

Ας υποθέσουμε ότι ένα διάνυσμα εισόδου X ( t)∈ R9k εισέρχεται (αυτό θα παράγεται με βάση εννέα παρατηρήσεις για κάθε μία από τις τελευταίες μέρες). Τώρα το X ( t )εφαρμόζεται στο πρώτο στρώμα. Το πρώτο στρώμα το κανονικοποιεί, και η κανονικοποιημένη είσοδος πάει στον στρώμα του SOFM. Το X ( t) τροποποιεί την έξοδο μόνο του ενός από τους Κ SOFM κόμβους εξόδου (say , του lκόμβου) σε μονάδα και καθορίζει τις υπόλοιπες ( K−1 ) εξόδους στο μηδέν. ΤΟ κανονικοποιημένο X ( t) και η έξοδος του i κόμβου του SOFM τροφοδοτούνται τώρα στο i MLP M i ,i=1,2 ,…, K . Συνεπώς, μόνο το lMLP θα είναι ενεργό, και τα υπόλοιπα ΜLP θα είναι ανενεργά. Η συνολική έξοδος του ΜLP στρώματος δεν θα είναι τίποτα άλλο παρά η έξοδος του l MLP, που στην συνέχεια θα κλιμακωθεί ξανά πίσω στην κανονική κλίμακα μέσω του στρώματος κλιμάκωσης εξόδου, και θα πάρουμε πρόγνωση για τις μέγιστες και ελάχιστες θερμοκρασίες της ημέρας t+1.


Ο πίνακας 3 απεικονίζει την απόδοση του SOFM-MLP δικτύου σε δοκιμαστικά δεδομένα όταν κάθε ένα από τα K (¿8) MLP χρησιμοποιεί nh=10 , nh=15 , nh=20 κόμβους στο κρυφό επίπεδο.

85

Για το SOFM επίπεδο, έχουμε χρησιμοποιήσει οκτώ κόμβους, κι έτσι τα δεδομένα εκπαίδευσης κατανεμήθηκαν σε οκτώ ομογενή υποομάδες. Γι αυτό το σύνολο δεδομένων, η επιλογή των οκτώ έγινε με βάση κάποια πειράματα. Σε αυτή την περίπτωση, η χρήση παραπάνω από 8 κόμβους οδηγεί σε ομάδες με πάρα πολύ λίγα στοιχεία. Κάθε MLP εκπαιδεύεται 10 φορές με τυχαία αρχικοποίηση και ο πίνακας 3 αντιπροσωπεύει την μέση πρόβλεψη για αυτά τα τρεξίματα. Συγκρίνοντας τον πίνακα 1 με τον πίνακα 3, μέσα στο ±1% C❑

ο σφάλμα, το SOFM-MLP δείχνει μία βελτίωση από 2,7% μέχρι 7,8%σε σχέση με την απ’ ευθείας χρήση του MLP. Αυτή η βελτίωση μειώθηκε στο 2,2%με 7,4% για σφάλμα ±2% C❑

ο . Αν λάβουμε υπ’ όψιν την μέγιστη απόκλιση και την μέση απόκλιση, πάλι βρίσκουμε καλύτερα αποτελέσματα για το SOFM-MLP.

7.5 Πρόβλεψη με υπολογιστικά χαρακτηριστικά

Μέχρι τώρα έχουμε χρησιμοποιήσει το σύνολο της πληροφορίας που είναι διαθέσιμη για τις προηγούμενες 3 μέρες για να προβλέψουμε τις θερμοκρασίες για την επόμενη μέρα. Σαν αποτέλεσμα, το πλήθος των χαρακτηριστικών εισόδου γίνεται 27, κάνοντας το έργο εκπαίδευσης δύσκολο.

Για οποιαδήποτε εργασία μάθησης, η χρήση κατάλληλων χαρακτηριστικών είναι ένα βασικός παράγοντας για τον καθορισμό της επιτυχίας της διαδικασίας μάθησης. Σε αυτή την περίπτωση, επίσης, εάν γίνεται να χρησιμοποιήσουμε κάποια χαρακτηριστικά

86

που ταιριάζουν περισσότερο για το έργο μας, τότε μπορούμε να περιμένουμε καλύτερη πρόβλεψη. Με σκοπό την επίτευξη αυτού του στόχου, έχουμε χρησιμοποιήσει τοπικές κλίσεις της αλλαγής της θερμοκρασίας σαν χαρακτηριστικά. Η τοπική κλίση υπολογίζεται ως εξής. Ας υποθέσουμε T max (t−4 ) ,T max (t−3 ) , Tmax (t−2 ) και T max(t−1) πως είναι οι μέγιστες θερμοκρασίες που καταγράφονται για τις τελευταίες τέσσερις μέρες. Τότε, οι κλίσεις της θερμοκρασίας ή αλλαγές στη θερμοκρασία είναι T max (t−4 )−T max (t−3 ), T max (t−3 ) ,T max (t−2 ) και T max (t−2 ) ,T max (t−1 ). Όμοια, τρία τέτοια στοιχεία μπορούν να υπολογιστούν για την ελάχιστη θερμοκρασία. Εδώ, χρησιμοποιούμε 15 χαρακτηριστικά που περιλαμβάνουν 9 χαρακτηριστικά που δίνουν την ατμοσφαιρική κατάσταση σήμερα (ημέρα t) και 6 που δίνουν τις κλίσεις όπως αναφέραμε πιο πάνω. Το πλεονέκτημα με αυτή την μέθοδο είναι ότι: 1) μειώνει το πλήθος των χαρακτηριστικών εισόδου και 2) δίνει μια ιδέα στο δίκτυο MLP σχετικά με τις μεταβολές στις μέγιστες και ελάχιστες θερμοκρασίες. Αυτό μπορεί να κάνει το έργο της εκπαίδευσης πολύ πιο εύκολο. Τα αποτελέσματά μας στο επόμενο κομμάτι μας το επιβεβαιώνουν αυτό.


Ο πίνακας 4 μας δείχνει την απόδοση του MLP και του SOFM-MLP στο δοκιμαστικό δείγμα με τα νέα χαρακτηριστικά που συζητήθηκαν παραπάνω. Συγκρίνοντας τον πίνακα 4 με τον πίνακα 1, βρίσκουμε ότι με μικρότερη αρχιτεκτονική (μικρότερο πλήθος από εισόδους), η απόδοση του απλού ΜLP είναι σταθερά καλύτερη. Για αποκλίσεις μικρότερες ή ίσες με ±20C , η απόδοση του δικτύου MLP με κλίσεις είναι σταθερά καλύτερη από το αντίστοιχο MLP που χρησιμοποιεί 27 χαρακτηριστικά. Αυτό είναι ξεκάθαρα μια σημαντική βελτίωση διότι με τα καινούρια χαρακτηριστικά χρησιμοποιούμε πολύ μικρότερο δίκτυο.

87

Συγκρίνοντας στήλες από το SOFM–MLP στον πίνακα 4 με τον πίνακα 3, βρίσκουμε ότι για αποκλίσεις μικρότερες ή ίσες με ±1,5οC , το SOFΜ-MLP που χρησιμοποιεί κλίσεις σαν χαρακτηριστικά παρουσιάζει σταθερά καλύτερη απόδοση από το αντίστοιχο SOFM-MLP που χρησιμοποιεί 27 χαρακτηριστικά. Για αποκλίσεις μικρότερες ή ίσες με ±20C , η απόδοση του δικτύου SOFM-MLP πάνω κάτω παραμένει η ίδια. Ο πίνακας 4 επίσης αποκαλύπτει ότι η μέγιστη απόκλιση και η μέση απόκλιση είναι καλύτερη για το SOFM-MLP από την άμεση χρήση του MLP.

7.6 Online επιλογή χαρακτηριστικών και το Υβριδικό δίκτυο

Έχουμε παρατηρήσει δύο πράγματα: το υβριδικό δίκτυο λειτουργεί καλύτερα από το MLP, και η επιλογή των καλών χαρακτηριστικών βελτιώνει την ακρίβεια της πρόβλεψης. Ως εκ τούτου, εάν μπορούμε να κάνουμε ταυτόχρονη επιλογή χαρακτηριστικών, δηλαδή να επιλέγουμε τα καλά χαρακτηριστικά ενώ ταυτόχρονα μαθαίνει το δίκτυο μαθαίνει την διαδικασία πρόβλεψης, ίσως μπορούμε να βελτιώσουμε περαιτέρω την απόδοση του δικτύου, και αυτό μπορεί επίσης να μας πει για πολλά σημαντικά χαρακτηριστικά υπεύθυνα για τις μεταβολές στην θερμοκρασία.

88

7.6.1 Δίκτυο online επιλογής χαρακτηριστικών

Υπήρξαν αρκετές προσπάθειες να χρησιμοποιηθούν νευρωνικά δίκτυα για την επιλογή χαρακτηριστικών. Αυτές οι μέθοδοι είναι offline εκ φύσεως. Εδώ, χρησιμοποιούμε μια μέθοδο οnline επιλογής χαρακτηριστικών. Χρησιμοποιούμε το ακρώνυμο FSMLP (δηλαδή Feature selection MLP).

Σε ένα τυπικό MLP, η επίδραση μερικών χαρακτηριστικών (είσοδοι) μπορεί να εξαλειφθεί με το να μην επιτρέπεις την είσοδό τους στο δίκτυο. Εάν μπορούμε να αναγνωρίσουμε «μερικώς χρήσιμα» χαρακτηριστικά, τότε μπορούμε να τα εξασθενίσουμε ανάλογα με την χρησιμότητά τους. Αυτό μπορεί να πραγματοποιηθεί συνδέοντας μια προσαρμοστική πύλη σε κάθε κόμβο εισόδου. Η πύλη θα πρέπει να μοντελοποιηθεί με τέτοιο τρόπο για ένα καλό χαρακτηριστικό, ώστε να είναι τελείως «ανοιχτή» και το χαρακτηριστικό αυτό να εισέρχεται χωρίς απόσβεση μέσα στο δίκτυο, ενώ για ένα κακό χαρακτηριστικό , η πύλη θα πρέπει να κλείνει τελείως. Από την άλλη πλευρά για ένα μερικώς σημαντικό χαρακτηριστικό, η πύλη θα έπρεπε να είναι μερικώς ανοιχτή. Μαθηματικά η πύλη μοντελοποιείται από μια συνάρτηση F με ρυθμιζόμενη παράμετρο. Ο βαθμός που είναι ανοιχτή η πύλη καθορίζει τον βαθμό χρησιμότητας του χαρακτηριστικού. Πολλαπλασιάζουμε την τιμή των χαρακτηριστικών εισόδου με την τιμή της συνάρτησης πύλης, και η τροποποιημένη τιμή του χαρακτηριστικού περνάει στο δίκτυο. Οι συναρτήσεις πύλης εξασθενούν τα χαρακτηριστικά πριν διαδοθούν μέσα από το δίκτυο, έτσι ώστε να μπορούμε να ονομάσουμε αυτές τις συναρτήσεις πύλης ως συναρτήσεις εξασθένησης. Ένας απλός τρόπος για τον εντοπισμό χρήσιμων συναρτήσεων πύλης είναι να χρησιμοποιήσουμε σιγμοειδούς τύπου συναρτήσεις με μια ρυθμιζόμενη παράμετρο, που θα μπορεί να εκπαιδευτεί χρησιμοποιώντας τα δεδομένα εκπαίδευσης.

Ας είναι η F :R→[0,1] η συνάρτηση εξασθένησης (πύλη) που συνδέεται με τον κόμβο εισόδου. Εάν xείναι ο κόμβος εισόδου τότε xF (γ ) είναι ο κόμβος εξόδου. Επομένως, ηxF (γ i) μπορεί να θεωρηθεί ως η συνάρτηση ενεργοποίησης για τον iκόμβο εισόδου, όπου γ i είναι μια παράμετρος (όχι συναπτικό βάρος) της συνάρτησης ενεργοποίησης. Έτσι, το στρώμα εισόδου λειτουργεί σαν νευρώνες (δηλαδή έχει εσωτερικούς υπολογισμούς). Σημειωτέων ότι όταν το γ i είναι γνωστό, η F (γ i) λειτουργεί σαν σταθερός πολλαπλασιαστής όλων των τιμών εισόδου για το i χαρακτηριστικό.

Η συνάρτηση Fμπορεί να έχει πολλές μορφές. Στα πειράματα που περιγράφονται παρακάτω, χρησιμοποιούμε την συνάρτηση εξασθένησης

F ( γ )= 1

1+e− γ

Έτσι, ο iκόμβος εισόδου εξασθενεί την x i κατά ένα ποσό F ( γi ) ϵ (0,1 ) , όπου η γ i είναι που παράμετρος που πρέπει να μάθει το δίκτυο κατά την διάρκεια της εκπαίδευσης. Εάν η F ( γi ) είναι κοντά στο μηδέν ίσως επιλέξουμε να εξαφανίσουμε το χαρακτηριστικό x i: αυτός είναι ο τρόπος με τον οποίο το FSMLP πραγματοποιεί την επιλογή χαρακτηριστικών. Πώς όμως εκπαιδεύουμε το γ i ; Η μέθοδος backpropagation

89

για το MLP μπορεί να επεκταθεί προς τα πίσω σε αυτό το τροποποιημένο στρώμα εισόδου για να ρυθμίσει το γ i s κατά την διάρκεια της εκπαίδευσης.

Ας ορίσουμε nh το πλήθος των κόμβων του πρώτου κρυφού επιπέδου, μτον ρυθμό μάθησης για την απόσβεση των συναρτήσεων, n τον ρυθμό μάθησης για τα συναπτικά βάρη, :R→[0,1] η συνάρτηση εξασθένησης με παράμετρο γ i για τον iκόμβο, F ' (γ i) η παράγωγος της F στο γ ι, w ji

ih( t) τα βάρη που συνδέουν τον i κόμβο του στρώματος εισόδου με τον j κόμβο του πρώτου κρυφού επιπέδου για tεπανάληψη, και δ j

1 ο όρος σφάλματος για τον j κόμβο του πρώτου κρυφού επιπέδου.Μπορεί εύκολα να δειχθεί ότι ο κανόνας μάθησης για τα συναπτικά βάρη

παραμένει ίδιος για όλα τα στρώματα εκτός από w jiih( t). Ο κανόνας ενημέρωσης για τα

w jiih (t ) και γ i είναι:

(7,3)

(7,4)

Οι γ i ,i=1,1 ,…, p αρχικοποιούνται με τιμές που κάνουν το F ( γi ) να παίρνει τιμές κοντά στο μηδέν για όλα τα i. Κατά συνέπεια, το γινόμενο x iF (γi) είναι μικρό στην αρχή της εκπαίδευσης. Έτσι, το FSMLP επιτρέπει μόνο ένα πολύ μικρό «κλάσμα» από κάθε τιμή των χαρακτηριστικών να περάσει στο τυπικό μέρος του MLP. Καθώς το δίκτυο εκπαιδεύεται, η επιλεκτικότητα επιτρέπει μόνο στα σημαντικά χαρακτηριστικά να είναι ενεργά αυξάνοντας τα βάρη εξασθένησης (και συνεπώς αύξηση των πολλαπλασιαστών με αυτά τα βάρη) όπως υπαγορεύεται από την κατάβαση δυναμικού. Η εκπαίδευση μπορεί να σταματήσει όταν η τιμή του μέσου τετραγωνικού σφάλματος είναι χαμηλή ή όταν το πλήθος των επαναλήψεων φτάσει ένα όριο. Χαρακτηριστικά με χαμηλά βάρη εξασθένησης στη συνέχεια αποβάλλονται από το σύνολο χαρακτηριστικών. Σε αυτή την έρευνα, θεωρούμε μόνο εκείνα τα χαρακτηριστικά των οποίων οι τιμές εξασθένισης στο τέλος της εκπαίδευσης είναι λιγότερο από 90%.


Για να επιλέξουμε τα καλά χαρακτηριστικά, εκπαιδεύουμε το FSMLP χρησιμοποιώντας όλα τα χαρακτηριστικά. Και αφού επιλεγούν τα χαρακτηριστικά, εκπαιδεύουμε το SOFM-MLP με το σύνολο τον επιλεγμένων χαρακτηριστικών. Ο πίνακας 5 μας δείχνει τους παράγοντες εξασθένισης μετά την εκπαίδευση.

Ο πίνακας 5 αποκαλύπτει ότι μόνο 8 από τα 15 χαρακτηριστικά είναι σημαντικά για την πρόγνωση της θερμοκρασίας της επόμενης ημέρας [Τmax (t ) ήΤ min (t )]. Το δίκτυο απορρίπτει την μέγιστη πίεση, ελάχιστη πίεση, την ελάχιστη σχετική υγρασία αλλά όχι την μέγιστη σχετική υγρασία. Είναι πολύ λογικό να περιμένεις ότι η μέγιστη σχετική υγρασία μπορεί να επηρεάζει την διακύμανση της θερμοκρασίας, αλλά όχι η ελάχιστη σχετική υγρασία.

90

Το δίκτυο μπορεί να συλλάβει αυτές τις πληροφορίες. Παρομοίως, από τις 6 κλίσης θερμοκρασίας, το δίκτυο επιλέγει μόνο τις δυο πιο πρόσφατες, δηλαδή, την διαφορά μέγιστης θερμοκρασίας μεταξύ σήμερα και χθες [Tmax (t )−T max (t−1 )] και ελάχιστης θερμοκρασίας μεταξύ σήμερα και χθες [Tmin (t )−T min (t−1 )]. Αυτό μας λέει ότι μόνο πολύ τοπικές μεταβολές( σε σχέση με τον χρόνο) της θερμοκρασίας έχει επίδραση στην πρόβλεψη της θερμοκρασίας. Από τα αποδεκτά χαρακτηριστικά, το FSMLP έχει δώσει την μέγιστη σημασία για την ελάχιστη θερμοκρασία σήμερα [Tmin (t )] και έπειτα για την μέγιστη θερμοκρασία σήμερα [Tmax (t )]. Αυτό επίσης είναι πολύ λογικό μιας και προβλέπουμε μέγιστες και ελάχιστες θερμοκρασίες. Το τρίτο πιο σημαντικό χαρακτηριστικό που επιλέγεται από το δίκτυο, όπως θα περιμένανε οι μετεωρολόγοι, είναι η μέγιστη σημερινή ατμοσφαιρική πίεση.

Στα προηγούμενα πειράματά μας, εμείς δεν χρησιμοποιούμε οποιοδήποτε σύνολο επικύρωσης για την προστασία από το φαινόμενο υπερεκπαίδευσης ή προβλημάτων στην απομνημόνευση του δικτύου. Με σκοπό να αποδείξουμε ότι τα

91

προηγούμενά μας αποτελέσματα δεν πάσχουν από αυτά, χρησιμοποιούμε ένα καινούριο σύνολο επικύρωσης. Τώρα χρησιμοποιούμε 70 σημεία για επικύρωση από 200 σημεία για δοκιμή. Για κάθε δίκτυο, η εκπαίδευση σταματάει όταν το σφάλμα πρόγνωσης στο δείγμα επικύρωσης αρχίζει να αυξάνεται. Έχουμε κάνει 10 πειράματα για κάθε δίκτυο MLP και SOFM-MLP. Είναι ενδιαφέρον, ότι σε όλες εκτός από 2 περιπτώσεις, το σφάλμα εκπαίδευσης και το σφάλμα επικύρωσης παρουσίασαν παρόμοια συμπεριφορά.

Ο πίνακας 6 απεικονίζει τη μέση απόδοση των MLP και SOFM-MLP χρησιμοποιώντας τα επιλεγμένα χαρακτηριστικά, σε συνδυασμό με ένα σετ επικύρωσης. Επειδή σε αυτές τις περιπτώσεις έχουμε χρησιμοποιήσει μόνο 8 χαρακτηριστικά εισόδου, έχουμε περιορίσει τον μέγιστο αριθμό κόμβων στο κρυφό επίπεδο στο 12 μόνο.

Συγκρίνοντας τον πίνακα 6 με τον πίνακα 4, βρίσκουμε ότι και σε αυτή την περίπτωση, υπάρχει μια οριακή βελτίωση στην λειτουργία του SOFM-MLP με επιλεγμένα χαρακτηριστικά. Συγκρίνοντας τις στήλες για το SOFM-MLP με εκείνες για το MLP στον πίνακα 6, πάλι βρίσκουμε ότι το SOFM-MLP ξεπερνά το συμβατικό MLP. Το πιο σημαντικό σημείο είναι ότι μπορούμε να χρησιμοποιήσουμε μόνο λίγα χαρακτηριστικά για να πάρουμε καλά αποτελέσματα.

Το σχήμα 7.3 απεικονίζει το διάγραμμα της προβλεπόμενης μέγιστης θερμοκρασίας μετά από 10 τρεξίματα σε αντιστοιχία με τον πίνακα 6 για τα πρώτα 50 δοκιμαστικά σημεία όταν nh=10

92

Σχήμα 7.3:Προβλεπόμενη μέγιστη θερμοκρασία

Η κάθετη γραμμή δείχνει το μήκος 6σ , (−3σ μέχρι3σ ) όπου σ είναι η τυπική απόκλιση των προβλέψεων για αυτήν την συγκεκριμένη μέρα. Στο σχήμα 3, εμφανίζουμε μόνο 50 σημεία για καλύτερη οπτική σαφήνεια στο σχήμα, τα χαρακτηριστικά στο σχήμα με 200 σημεία παραμένουν ίδια. Τέλος το σχήμα μας δείχνει πως η πρόβλεψη από το SOFM-MLP δίκτυο είναι αρκετά συνεκτική και δεν επηρεάζεται από την αρχικοποίηση του δικτύου.

7.7 Συμπεράσματα

Προτείναμε ένα υβριδικό μοντέλο νευρωνικού δικτύου που συνδυάζει έναν αυτοοργανούμενο χάρτη χαρακτηριστικών και ένα δίκτυο Perceptron πολλών επιπέδων για πρόγνωση θερμοκρασίας. Σε αυτό το πλαίσιο, έχουμε χρησιμοποιήσει κάποια μόνο από τα χαρακτηριστικά, για να ενισχύσουμε την ακρίβεια της πρόβλεψης. Η σημασία της ανάλυσης των χαρακτηριστικών φαίνεται περεταίρω χρησιμοποιώντας την τεχνική online επιλογής χαρακτηριστικών. Η προτεινόμενη μέθοδος έχει συγκριθεί τόσο με τοπικούς όσο και παγκόσμιους παράγοντες πρόβλεψης και έχει βρεθεί να παράγει πολύ καλύτερη πρόβλεψη από άλλα.

93

8. Έναυλικολογισμικό ψηφιακόΝευρωνικό

Δίκτυο για εφαρμογές πρόγνωσης καιρού

Ένα τεχνητό νευρωνικό δίκτυο (ANN), υλοποιείται μέσω ενός FPGA (Field Programmable Gate Array) για πρόβλεψη κλιματικών μεταβλητών μια οριοθετημένη περιοχή. Αυτές οι μεταβλητές (θερμοκρασία, υγρασία εδάφους, ταχύτητα ανέμου…) πρέπει να βρίσκονται υπό έλεγχο και γι αυτό τον σκοπό είναι χρήσιμο να έχουμε μια μονάδα ικανή να προβλέπει τν εξέλιξή τους, σε έναν χρονικό ορίζοντα όσο το δυνατόν ευρύτερο. Μια αρχιτεκτονική για το εν λόγο ψηφιακό νευρωνικό δίκτυο, παραμετροποιήσιμη και προγραμματιζόμενη από τον χρήση, δίνεται σε αυτό το άρθρο, καθώς και η μεθοδολογία για τον σχεδιασμό και προγραμματισμό της, με σκοπό να λάβουμε καινούριες τοπολογίες νευρωνικών δικτύων. Στο τέλος παρουσιάζονται μερικά εργαστηριακά αποτελέσματα σχετικά με την εφαρμογή της με συμπεράσματα.

8.1 Νευρωνικά δίκτυα για πρόγνωση καιρού

Ένα από τα βασικά προβλήματα προς επίλυση στην πρόγνωση καιρού είναι να καταφέρουμε να προβλέψουμε τις χρονοσειρές. Η προσέγγιση με νευρωνικό δίκτυο φαίνεται ελκυστική γι αυτό το σκοπό από πολλές απόψεις. Ουσιαστικά, υπάρχουν ποικίλες αρχιτεκτονικές νευρωνικών δικτύων που είναι ικανές να μάθουν τα εξελικτικά χαρακτηριστικά από ένα σημείο μιας χρονοσειράς, και έτσι, να προβλέπουν τις μελλοντικές καταστάσεις από το παρελθόν μέχρι τώρα. ίσως η πιο χρησιμοποιημένη αρχιτεκτονική για αυτού του είδους την πρόβλεψη είναι το δίκτυο Perceptron πολλών επιπέδων, όπως φαίνεται στο σχήμα 8.1

94

Σχήμα 8.1: Ένα δίκτυο Perceptron πολλών επιπέδων

Το διάνυσμα εισόδου για τέτοια MLP θα αποτελείται από ένα συγκεκριμένο πλήθος από p δείγματα του παρελθόντος της χρονοσειράς, της μορφής:

(8,1)

Η έξοδος του δικτύου θα είναι μια μεταβλητή:

(8,2)

Εάν η φ είναι στατική, τότε οι σχέσεις 8,1 και 8,2 είναι εφαρμόσιμες μόνο σε στατική χρονική σειρά. Αυτό είναι μειονέκτημα για τις προβλέψεις καιρού. στη συνέχεια, μια λογική επιλογή είναι η χρήση κάποιου είδους μνήμης για να αποθηκεύσεις σχετικές χρονικά πληροφορίες, όπως στο δίκτυο Elman ή στο FIR (Finite Impulse Response) νευρωνικό δίκτυο. Το πρώτο χρησιμοποιεί μια θετική ανατροφοδότηση μέσω μονάδες μνήμης που ονομάζονται νευρώνες μνήμης (context memory). Αυτή η μνήμη επιτρέπει την προσθήκη παρελθοντικών συμπεριφορών του δικτύου στην διαδικασία μάθησης. Από την άλλη, στα FIR νευρωνικά δίκτυα, τα φίλτρα FIR αντικαθιστούν τα βασικά συναπτικά βάρη. Αυτή η αλλαγή παράγει μια διανυσματική και χρονική επέκταση του MLP. Φυσικά ανάλογα με την εφαρμογή , αν ο ορίζοντας της πρόβλεψης είναι αρκετά βραχύς, οι χρονοσειρές μπορούν να θεωρηθούν στατικές.

Ένας άλλος βασικός στόχος είναι να λάβουμε μια απλή, χαμηλού κόστους και ευέλικτη αρχιτεκτονική νευρωνικού δικτύου και να την εφαρμόσουμε σε τεχνολογία FPGA.

8.2 Εφαρμογή ψηφιακού νευρωνικού δικτύου σε ένα τσιπ

Το δίκτυο MLP επιλέχτηκε με βάση τις προηγούμενες εκτιμήσεις. Από αυτή την αρχιτεκτονική, ένα μοντέλο ανάδρασης υλοποιήθηκε με το ακόλουθο διάνυσμα παλινδρόμησης:

(8,3)

και η λειτουργία πρόβλεψης είναι της μορφής

(8,4)

όπου θ είναι τα συναπτικά βάρη του διανύσματος και gείναι η μη γραμμική συνάρτηση που έφτιαξε το νευρωνικό δίκτυο.

Προκειμένου να αναλυθεί διεξοδικά η συμπεριφορά διαφορετικών τοπολογιών, και να επιτραπεί η χρήση αυτού του νευρωνικού δικτύου σε πολλαπλές εφαρμογές,

95

αναπτύχτηκε μια παραμετρική δομή. Οι παράμετροι αυτές ήταν: πλήθος σειράς εισόδων, ποσότητα παρελθοντικών δειγμάτων (nk),ποσότητα δειγμάτων του παρελθόντος από την έξοδο προς ανάδραση (n¿¿i)¿, πλήθος κρυφών επιπέδων, και παράμετροι προς μάθηση. Ως εκ τούτου, το νευρωνικό δίκτυο που φτιάχνουμε έχει δύο βασικά χαρακτηριστικά. Από την μια, η διαδρομή των δεδομένων χρησιμοποιεί ξεχωριστά στοιχεία (multiplier, adder, data/results row), που επιτρέπει υψηλή απόδοση του κυκλώματος δεδομένων. Από την άλλη, η δυνατότητα του μικροπρογραμματισμού της διαδρομής των δεδομένων, επιτρέπει μεγάλη ευελιξία στο να εφαρμοστούν διαφορετικές αρχιτεκτονικές νευρωνικών δικτύων πρόσθιας τροφοδότησης, κυκλικά άκυκλα, κτλ. Οι γενικές δομικές μονάδες του κυκλώματος φαίνονται στο σχήμα 8.2:

Σχήμα 8.2: Νευρωνικό δίκτυο ανεπτυγμένο σε δομικά στοιχεία

Όπως μπορεί να φανεί, το προτεινόμενο νευρωνικό δίκτυο αποτελείται από έναν πολλαπλασιαστή δυο εισόδων, κάθε είσοδος με 8 bits και κάθε έξοδος με 16 bits, ένα σύνολο από 360 καταχωρητές και 64 βασικούς καταχωρητές του ενός bit. Αν και αυτή η διαμόρφωση των 8 bit για τα δεδομένα μπορεί να αλλάξει εύκολα, μια νέα διαμόρφωση για περισσότερα bits θα αυξήσει τους πόρους (κόστος) που χρειάζονται για την υλοποίηση του πολλαπλασιαστή με τετραγωνικό παράγοντα. Η αρχιτεκτονική των δεδομένων με 8 bit επιτρέπει ένα καινούριο αποτέλεσμα σε κάθε ρολόι, και αποτελείται από 32 κύκλους καθυστέρηση για κάθε υπολογισμό. Η έξοδος του συσσωρευτή είναι συνδεδεμένη στο κύκλωμα της συνάρτησης ενεργοποίησης.

96

8.2.1 Η συνάρτηση Ενεργοποίησης

Μια κοινή προσέγγιση για την συνάρτηση ενεργοποίησης σε νευρωνικό δίκτυο είναι μια σιγμοειδής συνάρτηση όπως η εξίσωση:

(8,5)

Σε εφαρμογές λογισμικού (software) δεν υπάρχει ιδιαίτερο πρόβλημα να υπολογίσεις την εξίσωση 8,5. Ωστόσο, από την οπτική γωνία του hardware, υπάρχει υψηλό κόστος τόσο στην εφαρμογή πίνακα αναζήτησης για την εκθετική συνάρτηση , όσο και για την λειτουργία της διαίρεσης. Αντ’ αυτού, μια συνήθης προσέγγιση στο hardware είναι:

(8,6)

Αυτή η προσέγγιση, παρόλο που είναι απλούστερη από εκείνη της εξίσωσης 8,5, ακόμα χρειάζεται τον υπολογισμό του μέτρου και της διαίρεσης. Σε αυτό το κεφάλαιο χρησιμοποιείται μια τρίτη πρόταση. Αποτελείται από μια προσέγγιση της εξίσωσης 8,5 με πολλές πολυονυμικές συναρτήσεις δευτέρας τάξης, σχηματίζοντας μια τμηματικά γραμμική συνάρτηση. Ιδιαιτέρως, η είσοδος για το κύκλωμα που σχηματίστηκε ήταν ένας ακέραιος αριθμός από 16bit ∈[−32768…32767], και η έξοδός του ένας ακέραιος αριθμός ∈ [-128…127]. Στο επόμενο πίνακα φαίνονται τα εύρη των έξι εισόδων με τα αντίστοιχα εύρη εξόδου.

Πίνακας 8.1: Πολυονυμικές συναρτήσεις δύναμης του 2 για την προσέγγιση της εκθετικής συνάρτησης.

Στο σχήμα 8,3 απεικονίζεται μια σύγκριση μεταξύ των τριών διακριτών συναρτήσεων ενεργοποίησης προσεγγίσεων για την συνάρτηση ενεργοποίησης ( εξισώσεις 8,5 8,6 και πίνακας 8,1). Μπορεί να φανεί ότι η τρίτη υλοποίηση είναι πιο κοντά στην εξίσωση 8,5 από την εξίσωση 8,6. Στη συνέχεια αυτή η επιλογή χρησιμοποιείται για την παρούσα εφαρμογή. Η επιλεγμένη προσέγγιση, καθώς και τα υπόλοιπα στοιχεία που παρουσιάζονται εδώ περιγράφονται από την VHDL (Vhsic Hardware Description Language).

97

Σχήμα 8.3: Τρεις προσεγγίσεις για την σιγμοειδή συνάρτηση ενεργοποίησης (εξίσωση 8,5 συνεχής γραμμή, εξίσωση 8,6 διακεκομμένη γραμμή πίνακας 8.1, γραμμή από κουκίδες)

8.2.2 Ανάλυση ακρίβειας

όπως και σε κάθε ψηφιακό κύκλωμα, σε αυτή την περίπτωση υπάρχει ένας συμβιβασμός μεταξύ της ακρίβειας και των φυσικών παραμέτρων όπως η περιοχή και η ταχύτητα υπολογισμών. Φαίνεται λοιπόν ενδιαφέρον να αναλύσουμε την συμπεριφορά του νευρωνικού δικτύου όταν εκπαιδεύεται με διαφορετικές σειρές δεδομένων και διαφορετική εσωτερική ακρίβεια (πλήθος bits). Το νευρωνικό δίκτυο μελετήθηκε σε προσομοίωση με την χρήση αναπαραστάσεων για τα βάρη και τα δεδομένα των 20,16,12 και 8 bits. Για παράδειγμα, τα δεδομένα που θα προέλθουν από αισθητήρες θερμοκρασίας και υγρασίας για μια εφαρμογή θερμοκηπίου θα διακριτοποιηθούν σε 8 bits.

8.3 Προγραμματίζοντας ένα Τεχνητό Νευρωνικό Δίκτυο

Η προτεινόμενη αρχιτεκτονική προγραμματίζεται σύμφωνα με δυο κύριες παραμέτρους που έχουν επιλεγεί προηγουμένως. Μόλις αυτό το βήμα ολοκληρωθεί, ένα μικροπρόγραμμα πρέπει να γραφεί για να ελέγχει τους υπολογισμούς του συγκεκριμένου σχεδιασμού.

8.3.1 Ορισμός Παραμέτρων

Η πρώτη παράμετρος που πρέπει να εξεταστεί είναι ο αριθμός των κελιών των γραμμών δεδομένων/αποτελεσμάτων, σύμφωνα με:

(8,7)

98

Όπου Ν είναι το πλήθος των νευρώνων σε δύο γειτονικά επίπεδα. Αυτή η σειρά L θα πρέπει πάντα να είναι σε θέση να αποθηκεύσει τις εξόδους του μόλις υπολογισμένου επιπέδου (data) και επιπλέον τα αποτελέσματα των υπολογισμών το κάθε νευρώνα τα τρέχον επίπεδο. Η δεύτερη παράμετρος είναι το μέγεθος της μνήμης με τα βάρη (Swm ), που θα αποθηκεύσει όλα τα βάρη του νευρωνικού δικτύου.

Παράδειγμα 1: ένα κλασσικό νευρωνικό δίκτυο πρόσθιας τροφοδότησης με εννέα νευρώνες στα κρυφά επίπεδα τέσσερις εισόδους και τρείς εξόδους περιγράφεται σύμφωνα με το σχήμα 8.4:

Σχήμα 8.4: Ορισμός παραμέτρων σε ένα τεχνητό νευρωνικό δίκτυο

8.3.2 Υλοποίηση μικροπρογράμματος

Μεταξύ δύο επιπέδων του μικροπρογράμματος, ένα εργαλείο λογισμικού (assembler) αναπτύχθηκε για να αναλύσει το προβάδισμα των σχέσεων των υπολογισμών που απαιτούνται στο δίκτυο που είναι υπό κατασκευή. Το υψυλότερο επίπεδο του μικροπρογράμματος γενικά περιγράφει το είδος του νευρωνικού δικτύου που είναι υπό ανάπτυξη. Στο παρόν υποστηρίζονται τύποι δικτύων πρόσθιας τροφοδότησης, και δίκτυα Hopfield, σύγχρονα και ασύγχρονα.

Παράδειγμα 2: Το πρόσθιας τροφοδότησης τεχνητό νευρωνικό δίκτυο του σχήματος 8,4 ορίζεται ως:

99

Σχήμα 8.5: Ένα παράδειγμα δικτύου Hopfield

Παράδειγμα 3: Το παραπάνω δίκτυο Hopfield ορίζεται ως:

Η σύγχρονη και η ασύγχρονη λειτουργία του νευρωνικού δικτύου Hopfield επιτυγχάνεται με το να λαμβάνει υπ όψη του το μικροπρόγραμμα αν όλοι οι νευρώνες ενημερώνονται σε κάθε κύκλο ρολογιού ή διαδοχικά αντιστοίχως. Αυτή η περιγραφή σε υψηλό επίπεδο επιτρέπει την παραγωγή απλών νευρωνικών δικτύων, και δεν επιτρέπει να προσδιοριστούν πιο συγκεκριμένες λεπτομέρειες σχετικά με την αλληλεπίδραση των νευρώνων ενός συγκεκριμένου σχεδιασμού.

Στη συνέχεια ένα κατώτερο επίπεδο περιγραφής είναι αναγκαίο, στο οποίο δηλώνονται οι εξαρτήσεις των νευρώνων. Αυτό επιτυγχάνεται προγραμματίζοντας στην μορφή του επόμενου παραδείγματος.

Παράδειγμα 4: Μια πιο λεπτομερής περιγραφή ενός νευρωνικού δικτύου πρόσθιας τροφοδότησης με 4 εισόδους, 2 εξόδους και ένα κρυφό επίπεδο αποτελούμενο από 3 νευρώνες.

100

Η μετάφραση σε γλώσσα μηχανής γίνεται από ένα πρόγραμμα που λέγεται assembler. Σε αυτή την περιγραφή ο assembler μπορεί να εγκαταστήσει τις εισαγόμενες παραμέτρους L ( εξίσωση 7) και Swm όπου για αυτό το παράδειγμα θα είναι 6 και 18 κελιά αντίστοιχα. Το μικροπρόγραμμα βασίζεται χαρακτηρισμούς, που χαρτογραφούν ένα σύνολο από οδηγίες που εξασφαλίζουν ότι η μονάδα ελέγχου αποθηκεύει επιτυχώς στον αντίστοιχο καταχωριτή. Αυτός ο καταχωριτής έχει 2∗L bits, κωδικοποιώντας μια από τις τέσσερις πιθανές λειτουργίες για κάθε κελί της γραμμής των δεδομένων/ αποτελεσμάτων. Αυτές οι λειτουργίες παρουσιάζονται στον πίνακα 8.2

Πίνακας 8.2: Οδηγίες του προγράμματος

Το προκύπτον μικροπρόγραμμα του παραδείγματος 4 φαίνεται εν μέρει στον πίνακα 8.3. Το πρόγραμμα βάζει στην σειρά δεδομένων τα αποτελέσματα των υπολογισμών κάθε νευρώνα, σε τέτοια θέση ώστε αυτή η τιμή να λειτουργεί με το αντίστοιχο βάρος όταν φεύγει από την γραμμή. Για να το καταφέρουμε αυτό, τα βάρη αποθηκεύονται σε μια κυκλική προσωρινή μνήμη (circular buffer) της μνήμης ROM. Με αυτό τον τρόπο το νευρωνικό δίκτυο συμπεριφέρεται σαν συστολικό σύστημα (systolic system), πολλαπλασιάζοντας σε κάθε κύκλο ρολογιού μια τιμή από την γραμμή των δεδομένων/αποτελεσμάτων και το αντίστοιχο συναπτικό βάρος. Αυτό το γινόμενο (ένα

101

μερικό αποτέλεσμα) αποθηκεύεται μέχρι η είσοδος του κάθε νευρώνα να επεξεργαστεί.

Πίνακας 8.3: Μέρος του μικροπρογράμματος του παραδείγματος 4

Όταν λαμβάνεται η έξοδος ενός επεξεργασμένου νευρώνα, περνάει από την συνάρτηση ενεργοποίησης και το αποτέλεσμα αποθηκεύεται στην γραμμή δεδομένων, στο κελί που επισημαίνεται από την τρέχουσα μικροεντολή. Αυτή η διαδικασία απεικονίζεται στο σχήμα 8.6:

Σχήμα 8.6: Ροή δεδομένων στο νευρωνικό δίκτυο.

8.4 Αποτελέσματα και συμπεράσματα

Η παραπάνω διάταξη χρησιμοποιήθηκε για ένα πείραμα σε ένα θερμοκήπιο με διαστάσεις 6x50m, από το οποίο μετριόντουσαν η εσωτερική και εξωτερική θερμοκρασία, υγρασία του εδάφους, ηλιακή ακτινοβολία, ταχύτητα και κατεύθυνση ανέμου. Οι δράσεις ελέγχου είναι πολύ απλές, αποτελούμενες από το άνοιγμα ενός παραθύρου και μιας βαλβίδας παροχής νερού, αλλά αλλάζουν από την μία καλλιέργεια

102

στην άλλη, και είναι συνάρτηση της εποχής, της κατάστασης και της στιγμής της ημέρας.

Το νευρωνικό δίκτυο που παρουσιάστηκε θα χρησιμοποιηθεί για την πρόβλεψη της θερμοκρασίας μέσα σε ένα θερμοκήπιο. Οι μετρήσεις της θερμοκρασίας θα προέλθουν από έναν σειριακό δίαυλο, επίσης συνδεδεμένο στον υπολογιστή, ο οποίος φιλοξενεί την βασισμένη σε γνώση επίβλεψη και εποπτεία του συστήματος. Στη συνέχεια το Νευρωνικό δίκτυο θα παρέχει χρήσιμες γνώσεις για το σύστημα και θα μπορεί να επιτύχει στους μεσοπρόθεσμους και μακροπρόθεσμους στόχους του. Κάποια αποτελέσματα λήφθηκαν από αληθινά δεδομένα θερμοκρασίας. Το δίκτυο που δοκιμάστηκε ήταν ένα MLP με 4 εισόδους ¿), και 5 νευρώνες σε ένα κρυφό επίπεδο. Εκπαιδεύτηκε με χρονική σειρά 250 δειγμάτων χρησιμοποιώντας , τον κλασικό αλγόριθμο backpropagation. Το σχήμα 8.7 δείχνει μια σύγκριση μεταξύ των προβλέψεων που γίνονται με το νευρωνικό δίκτυο και των πραγματικών μετρήσεων.

Σχήμα 8.7: Έξοδος του νευρωνικού δικτύου (διακεκομμένη γραμμή) και πραγματικά δεδομένα (συνεχής γραμμή)

Τα πειράματα πάνω στο προτεινόμενο νευρωνικό δίκτυο απέδωσαν δύο σημαντικά αποτελέσματα. Από την μια, για μια ακόμα φορά τα νευρωνικά δίκτυα έδειξαν ότι είναι ικανά να αντιμετωπίζουν προβλήματα μάθησης και ως εκ τούτου να εκτελούν καθήκοντα πρόβλεψης. Από την άλλη πλευρά, μια μεθοδολογία σχεδιασμού και ανάπτυξης ενός ψηφιακού νευρωνικού δικτύου με την υποστήριξη της τεχνολογίας FPGA, έδειξε υψηλές δυνατότητες και χαρακτηριστικά εξέλιξης. Με αυτή την έννοια, επιτεύχθηκε ένας σημαντικός στόχος: αυτός είναι, η σύνδεση νευρωνικού δικτύου σε FPGA μεσαίου μεγέθους, το XC40 1 OD της οικογένειας XILINX. Η ιδέα πίσω από ένα ψηφιακό νευρωνικό δίκτυο σε FPGA είναι να ανακουφίσει την προσπάθεια της CPU. Με αυτόν τον τρόπο, ένας παλιός υπολογιστής (386,486) μπορεί να χειριστεί το σύστημα που βασίζεται στην γνώση.

103

Βιβλιογραφία

[1]. Haykin, S. – Νευρωνικά Δίκτυα Και Μηχανική Μάθηση (Τρίτη Έκδοση), Pearson Education, 2009

[2]. Διαμαντάρας, Κ. – Τεχνητά Νευρωνικά Δίκτυα, Εκδόσεις Κλειδάριθμος, 2007 [3]. Ben Krose, Patrick Van der Smagt – An introduction to Neural Networks, The

University of Amsterdam, 1996 [4]. Kohonen, T. – Self-Organizing Maps, Springer, 1995 [5]. James A. Freeman, David M. Skapura – Neural Networks: Algorithms, Applications

and Programming Techniques, Addison-Wesley Publishing Company, 1991 [6]. Haykin, S. – Neural Networks: A Comprehensive Foundation (second edition),

Pearson Education, 1999 [7]. Hertz, J., Krogh, A., & Palmer, R. G. – Introduction to the Theory of Neural

Computation, Addison Wesley, 1991 [8]. Acosta, Gerardo, Tosini, Marcelo – A Firmware Digital Neural Network for Climate

Prediction Applications, Proceedings of the 2001 IEEE, International Symposium on Intelligent Control

[9]. Nikhil R. Pal, Srimanta Pal, Jyotirmoy Das and Kausik Majumdar – SOFM-MLP: A Hybrid Neural Network for atmospheric Temperature Prediction, IEEE Transactions on Geoscience And Remote Sensing, Vol 41, No 12, December 2003

104

Νευρωνικά Δίκτυα

Documents

Transcript of Νευρωνικά Δίκτυα