Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the...

25
1992, 12, l Tech. Chron.-B, Greece, 1992, Vol. 12, I Review Artic/e 11 Pcrceptron, Ada- line/Madaline Perceptron Percep tron Artificial Neural Networks 11 G. PAPADOURAKIS, G. BEBIS Abstract In the second part of the paper, the Perce ptron, the Adaline/Madaline, and Per- models are presented. Special emphasis is the learning used train multilayer Perceptron models. Finally, application examples of Neural Networks in various practical and research are described. 11./. 1991 · 28.6./991 Jan. I 1, /991 June 28, 1991

Transcript of Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the...

Page 1: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Γεχν. Χρον. Β, 1992, τόμ. 12, Τεύχος l Tech. Chron.-B, Greece, 1992, Vol. 12, Νο I

Εvημερωτικ6 ·Αρθρο Review Artic/e

Τεχνητά Νευρωνικά Δίκτυα 11

Γ. ΠΑΠΑΔΟΥΡΑΚΗΣ, Γ. ΜΠΕΜΠΗΣ

Περίληψη

Στο δεύτερο μtρος της εργασlας, τα μοντέλα που παροΙJσιάζονται είναι το Pcrceptron, το Ada­line/Madaline και το Perceptron πολλαπλών στρωμάτων. Ιδιαίτερη έμφαση δίνεται στου; βελ­

τιωμένους αλγόριθμους μάθησης οι οποίοι χρησιμοποιούνται για την εκπαίδευση Perceptron πολλαπλών στρωμάτων μοντέλων. Τελικά, περιγράφονται παραδείγματα εφαρμογών των Τε­

χνητών Νευρωνικών Δικτύων (τΝΔ), σε διάφορους πρακτικούς και ερευνητικούς τομείς.

Artificial Neural Networks 11

G. PAPADOURAKIS, G. BEBIS

Abstract

In the second part of the paper, the Perceptron, the Ada line/Madaline, and ιhe mulιilayer Per­cepιron models are presented. Special emphasis is giνen ιο the improνed learning algoriιhms used ιο trai n multilayer Perceptron models. Finally, cerιain application examples of Artifίcia l

Neural Networks (ΑΝΝ), in various practical and research fίelds are described.

Υποβλήθηκε: 11. / . 1991 · Εyιvε δεχrή: 28.6./991

Submirιcd: Jan. I 1, /991 Acccpιcd: June 28, 1991

Page 2: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

108 Τεχν. Χρον. Β, 1992, τόμ. 12, Τεύχος Ι

1. PERCEPTRON ΤΝΔ μοντέλο Η κεντρική ιδέα του μοντέλου του Perceptron είναι η ενσαιμ.άτωση ενός

μηχανισμού μάθησης από τον Rosenblatt [1] στο αρχαιότερο μοντέλο τΝΔ που εισή)α)αV οι McCulloch- Pitts [2], uρί1t0υ το 1943. Ο όρος Perceptron αναφέρεται σε μία με)όλη ιcλάση αλ~ίθμων μάθησης yια νευρΟΜκά μοντέλα. Οι αλ')όριθμοι οι οποίοι αναπτύχθηκαν και μ.ελετήθηιcαν α1tό τον Rosenblatt είναι ώ.ρα 1t0λλοί και ποικίλοι [3]. Εμείς εξετάζουμε ένα αλ')'όριθμο, ο οιtΟίος εξα1rολουθεί να είναι από τους σπουδαιότερους στις μίρες μας ιcαι λέyεται Perceptron Αλ')όριθμος Σύ-yιcλισης (Percepιron Convergcnce Algorithm). Το Σχήμα (1.1) απειιcονίζει τα ιcύρια στοιχεία του Percepι:ron.

· ~ ΜΟΝΑΔΕΣ

Σχήμα 1.1. Το percepιon τΝΔ μοντέλο

Το μοντέλο αmό αποτελείται από ένα στρώμα όπου κάθε είσοδος συνδέεται με κάθε μία μονάδα. Οι τιμές εισόδου είναι συνεχείς και η μάθηση -y(νεται με επίβλεψη. Οι συντελεστές βάρους w;i αναπροσαρμόζονται σύμφωνα με το βαθμό ομοιότητας της πpα;ματιιcής εξόδου ο; και της επιθυμητής εξόδου t;"' του συστήματος. Η διαφορά μεταξύ της πριrιματιιcής και της επιθυμητής εξόδου ορίζεται ως το σφάλμα μάθησης, το οποίο τροφοδοτείται προς τα πίσω yια την ανωτ:ροσαρμο-yή των συντελεστών βάρους, σύμφωνα με το ιcανόνα μάθησης. Το Σχήμα (1 .2) παρουσιάζει τα στάδια του αλ~ίθμου μάθησης ο οποίος περιwάφεται παρακάτω.

ΑΛΓΟΡΙθΜΟΣ ΜΑθΗΣΗΣ

Βήμα!.

Αρχικά, τα βάρη w;i και τα εσωτερικά όρια θ; παίρνουν μιιcρές τυχαίεc; τιμ.έc;.

Βήμα2.

Παρουσιάζεται τυχαiα 1eάποιο πρότυπο (χο.χ 1 , ... .ΧΝ-ι), από το σύνολο προτύπων ειcπαίδευσηc; στην είσοδο του δι!Ctύου.

Page 3: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Tcch. Chron.- Β , Greece, 1992, Vol. 12, Νο Ι

Βήμα3.

Υπολσyίζεται το αποτέλεσμα εξόδου

~I ο;(t)=fιιγ:ιJ w;j(t)xj(t) +θ;) (1.1)

όπου θ; είναι το εσωtεριιcό όρω της μονάδας i. Xj (ι) ε( ναι η τψ:fι της j -ιοστης εισόδου την χρονιχή στι')μή ι και w;j (ι) είναι ο συντελεστής βάρους του συνδέσμου μεταξύ της εισόδου j ιcαι της μονάδας i την χρονική στι')μή ι Η συνάρτηση εξόδου !ιι είναι η οριαιcή συνάρτηση.

ΕillθΥΜΗΊΉ Ε.ΞΟΔΟΣ

, ... '

ΠΡΑΓΜΑΠΚΗ Ε.ΞΟΔΟΣ

ο;(ι)=/.(α;(ι))

ΕΝΕΡΓΌΠΟΙΗΣΗ Ν-Ι

109

ΣΦΑΛΜΑ a;(t)= Σ W;jXj(Ι)+θ; j.C

ΣΊ'ΡΩΜΑ

ΔΙΚΊΎΟΥ

ΑΝΑΠΡΟΣΑΡΜΟΓΉ ΣΥΝΊΈΛΕΣΊ'ΩΝ ΒΑΡΟΥΣ ΕΙΣΟΔΟΣ

Σχήμα 1.2. Perceptron Αλ ")όριθμος ΣUγκλισηι;

Βήμα4.

Οι συντελεστές βάρους των συνδέσμων αναπροσαρμόζονται σύμφωνα με τον παρακάτω ΙαιVόνα

W;j(t)=w;j(t+l) + η[tj'"- Oj(Ι))x; (t) (1.2)

Page 4: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

110 Τεyν. Xpo\•. R. 1992. Τόμ . 12. Τεύχος I -------------------- -------

αιwu η είναι ένας θετικός αρι~ μεταξύ ο χαι ι, χαλιίται ρuθμ.ός μάθηση~ χαι χανονίCει τον ρuθμό αν~~ τειw σwτUισtών βάροuc;. Το t/" είναι η ε1α.θuμητή έξοδος τη~ μονάδα.ςj όταν το χρό'rοπο m παροuσι.άζttαι στο δί1C't'ΟΟ.

Βήμα5.

Επανάληψη πη..,mνοντας στο Βfιμα 2, μqpι μάθηση όλων τειw χροt'όιtων εχπαUiεuσης.

Ας σημειωθεί ότι, αν ένα ιφότυΙtο JtOU ωροοοιάζεται στο δί!Ct'ΟΟ ταξινομηθεί λάθος. τότε επιβάλλεται κάποιο είδος "ποι~ς" στο δίιmχ>, ανωφοσαρμόζοντας τους σuvτελεστtς βάρους ανάλσyα με τις τιμ.tς εισόδου. Αν το πρότυπο εισόδου ταξινομηθεί σωστά, τότε το δ(mχ> "ε1nβραβεύεται" με το '}ε)Ονός ότι δεν πραw,ατοποισύνται αλλα'ιές στους συντελεστές βάροuς. Ο Rosenblatt έχει αποδείξει ότι αν οι ιcλάσεις προτύπων είναι "!Ρ<ψμικά διαχωρίσψες (δηλαδfι, υιι:άρχουν uπιρειι:ίπεδα τα οποία μπορούν να διαχωρίσουν όλα τα ζεύyη των κλάσεων προτύ1WW), τότε ο παραπάνω αλ.,Όριθμος <Jυ'Υ!Cλ(νει σε ένα πειι:ερασμ.ένο αριθμό ειι:αναλήΊj/Uι)ν. Δια+ορετικά, σε μη διαχωρίσιμ.ες περιπτώσεις, οι τιμtς των συντελεστών βάρους μπορεί να μεταβάλλονται χαθ' όλη την διάρκεια της εκτέλεσης του αλΊQΡίθμου.

1. ADALINE ΚΑΙ MADALINE τΝΔ μοντέλο Το adaline μοντέλο ανωm)χθηιcε λί~ μετά την διατύπωση του Perceptron μοντέλου

και οφείλεται στον Windrow και τους σuνqηάτες του [4]. Το μοντέλο αυτό το οποίο απεικονίζεται στο Σχήμα (2.1) αποτελείται από ένα στρώμα το οποίο περιέχει μία μόνο μονάδα. Κάθε είσοδος του δικτΟΟυ συνδέεται με την μονάδα αι.>τfι. Οι τιμtς εισόδου είναι συνεχείς και η μάθηση Ύ(νεται με επίβλεψη.

ο

ΜΟΝΑΔΑ

ΣΥΝΔΕΣΜΟΙ

Χ ο

Σχήμα 2.1. Το adaline τΝΔ μοντέλο

Page 5: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Tcch. C'hron. -Β, Greece, 1992. Vol. 12, Νο Ι

Μία επέιςταση τοu adalίne μovttλou είναι το madali.ne, το oJtOίo χεριέχει πολλές μονάδες στο στρώμα τοu διιctΟΟu. Ο αλ'Ί<>ριθμοι; μάθησης τοu adaline/madaline μοντtλοu ονομάζεται Least mean square (LMS) ιαχι ανΜWχθηιcε ωtό τους Windrow και Hoff [5]. Οπως δηλώνει και το ονομά τοu, η μάθηση οο:nηχάνεται εΛαχιστοωιώντας το μέσο τετριηωνικό σφάλμα μ.εταξΌ της χρσ:,ματι~ς και επιθuμητfις κατάσtασης ενεp'ΊΟfCΟ{ησης. Η ελαχιστοποίηση αυτfι χριr,.ιmοιtΟιdται χρησιμοποιώντας μεθόδους βαθύτατης καθόδου (steepest des<:ent) σε μία επιφάνεια η οJtΟία αντιχροσ~ τον χώρο 't<Ον σuντελεσtών βάρους. Σε κάθε εωνάληψη τοu LMS αλ ')Οpίθμοu, οι σuντελεσtές βάρους τροποιtΟιοονται χρος την κατεύθυνση JtOU καθορίζεται από το διάνυσμα κλίσεως (gradient vector). Το Ιχfιμα (2.2) ωροuσιάζει τα στάδια τοu LMS αλ')Οp(θμοu μάθησης.

EffiθYMHlΉ ΕΞΟΔΟΣ , .. ΔΥΑΔΙΚΗ ΕΞΟΔΟΣ ι

o;=fι,(a;(t))

ΑΝΑΛΟΠΚΗ ΕΞΟΔΟΣ

~

111

tι*-οι(t) ΣΦΑΛΜΑ "ι Ν-\ ~). ENmroΠOmΣH

~ \ \a;(t)a j~ wιjXj{t'}+~;

Σ'Ι'ΡΩΜΑ

ΔΙΚΠΟΥ

/j \ \

ΕΙΣΟΔΟΣ

ΑΝΑΠΡΟΣΑΡΜΟΠΙ ΣΥΝΊ'ΕΛΕΣΊ'ΩΝ ΒΑΡΟΥΣ Xj(t)

(t1*-a1(t))xi(t) W;j(t+l)awij(t)+η Ν-Ι

Σ.Σι><ι>2 ,-ο

Σχήμα 2.2. LMS Αλ')όρι~ μάθηση~

ΑΛΓΟΡΙθΜΟΣ ΜΑθΗΣΗΣ

Βήμαl.

Αρχιιαi. τα /364>η Wij παίρνονν μ.ι~ τυχ~ τψές ιcαι τα εσ(Ι)tερι1Cά όρια θ; χαiρνοuv την 'tψ~ +1.

Page 6: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

11::! _____ Τ_εχ\'. Χι1<1~. /992 Ί!ψ 1:!. Τι:ι I"· Ι

Βήμα2.

Παρουσιάζεται ένα χρόrοιτο (χο.χι .... .ΧΝ-ι). αιώ το σύνολο προτώtων εnαίδεοοηc; στην είσοδο του διιcτύου.

Βήμα3.

Υ JtΟλσyίζεται η 1eατάσταση ενερ-,σΙWίησηc; τηc; μονciδαζ

(2.1)

Βήμα4.

(α). ΥΙWλσy{ζεται το δοοδιιcό αιwτD.εσμα εξόδου Ο; (ι)

ο;(t)=f~ι(αϊ(t)) (2.2)

(β) . Οι συντελεσtέc; βάροuc; των συνδέσμων αναπροσαρμόζονται σύμφωνα με τον παραχάτω χανόνα

(2.3)

όχου η είναι ο ρuθμ.όc; μά&ησηc; χαι t1"' είναι η επιθυμητή έξοδοι; της μονάδαc; j όtαν το πρότυπο m παρουσιάζεται σtο δίιcτοο.

ΒήμαS.

Επανάληljlη πη')Οiνονταc; στο Βήμα 3 μέχρι σύyιώση των συντελεστών βάροuc; Wi; ')'Ι.α το τρέχον πρόrοπο.

Βήμα6.

Επανάληψη πη')Οiνονταc; σtο Βήμα 2, μέχρι μάθηση όλων των 1tp()'tύπων εnαίδεuσης.

Η κύρια διαφορά μεταξύ του adaline/madaline μοντtλλου mι του percepιron είναι ότι στον υπολο"f\σμό του σφάλματος το adaline/madaline μοντέλο σuyιφίνει την mτάσταση ενερ'}Qποίησης της μονάδας ιu; την επιθυμητή έξοδο. Αυτή η σύγιφιση δίνει μία πιό αιφιβή ένδειξη σφάλματος αχό ότι το μοντέλο του perceptron, το οποίο συyιφίνει την δυαδικft έξοδο με την επιθυμητή έξοδο. Επίσης, υπάρχουν JCαL διαφορές στην αναπροσ<14>μο-yή των συντελεστών βάρους. Σuyιcειφιμμtνα, ο LMS αλ")όριθμος προκειμένου να επηρεάσει το μέyεθος της αλλαγής των συvτελεστών βάρους, διαιρεί το σφάλμα ιu; το εσωτερικό -yινόμενο των εισόδων. Αυτή η αναπροσ<14>μοyή εξασφαλίζει ότι η επιθυμητή διόρθωση σφάλματος επιτυγχάνεται ιu; την μικρότερη αλλαγή τιμής στους συντελεστές βάρους. Επιπλέον. οι συντελεστές βάρους αναπροσ<14>μόζονται μέχρι σύyιcλισης ιφατώντας σταθερό κάποιο πρότυπο εnα!δευσης. Τελικά, οι πληροφορίες που έχουν ωτ:οθηχευθεί στο δί1m>0 από την εισtα(δευση προηyουμένων προτύπων, αλλοιώνονται ελάχιστα (minimal disturbance).

3. PERCEP'fRON πολλαπλών στρωμάτων ΤΝΔ μοντέλα Τα perceptron μοντέλα μΕ ένα στρώμα είναι κατάλληλα -yια την ταξινόμιση

προτύπων των οποίων οι ιcλάσεις είναι )1)αμμικά διαχωρίσιμες. Ενα πιό πολύπλοκο

Page 7: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

l cch. Chron.- Β, G reece, 1992, Vol. 12, Νο I

δ{lct'\)o απαιτείται όταν οι κλάσεις προτύιtων δεν είναι wαμμικά διαχωρίσιμ.ες. Μία επέκταση τοu perceptron μοντtλου με ένα στρώμα είναι το perceptron μοντtλο με πολλά στρώματα. Αυτά τα feed-foιward δί1mΧΧ έχοuν την δυνατότητα να αντιμετωπίζουν τους περιορισμούς τοu perceptron μοντέλου με ένα στρώμα, χρησιμοποιώντας επιπλέον ένα ή περισσότερα στρώματα μονάδων.

ο

/\

ο

όΟ f><1

Σχήμα(α)

Σχήμα(β)

Σχήμα(γ)

Σχήμα 3.1. Περιοχές απόφασης σε Ί'ΝΔ με πολλωtλά στρώματα

Το Σχήμα (3.1) παρουσιάζει τους τύποuς των περιοχών απόφασης που δημιουρ"ιQύνται από percepιron μοντέλα ενός και πολλαπλών στρωμάτων, χρησιμοποιώντας δύο εισόδους. Σ' αυτό το σχήμα, οι κλειστές περιοχές Α ιcαι Β είναι οι κατανομtς δύο διαφορετικών κλάσεων δεδομένων. Οι ')Ραμμοσκιασμένες περιοχές. δηλώνουν την περιοχή απόφασης -yια την κλάση Α. Μ{α πιθανή περιοχή απόφασης που δημιουιη.:ί το perceptron μοντέλο -yια την κλάση Α απεικονίζεται στο Σχήμα (3.1 .α). Ενα perccpι.ron μοντέλο με δύο στρώματα μπορεί να δημιουρ'Υήσει κυρτές και πολV)(.Ονικtς

111

Page 8: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

114 Τεχν. Χρο'' R. 1992. Τ<Ίμ. 12. Τciιχο.; I --------------------------------------~~-----

πφιοχές όπως αυτή που φα{νεται στο Σ~μα (3.1.β). Εχιχλέον, μπορε( να αποδειχθεί ότι ένα perceptron μοντtλο με τρία στρdJματα είναι ικανό να δημι~σει μη wαμμιm όρια οποιασδήποτε πολυπλοκότητας, μεταξύ ιcλάσεων πρ~ [6], όπως φαίνεται στο Σχήμα (3.1:y).

Οι ικανότητες των δικτύων αuτών προκύιιτοuν όταν οι συναρτήσεις εξόδου των μονάδων είναι μη wαμμιιcές. Εαν χρησιμοιtοιηθούν wαμμιιcές συναρτήσει~ εξόδου, τότε ένα mτάλληλο επt.λε'yμένο 1'ΝΔ με ένα στρώμα μπορεί να πραyματοποιήσει τους υπολο'yισμούς οποιουδήποτε 1'ΝΔ μοντέλου με πολλά στρώματα [7]. Σε ένα 1'ΝΔ με πολλά στρώματα. κάθε μονάδα ξεχιφιστά έχει την δυνατότητα να πραwατοποιεί μία μόνο wαμμικά διαχωρίσιμη συνάρτηση. Ο συνδυασμός των χαμηλοτtρων επιπέδων εξόδων (φυμμένα στρώματα) επιτρέuι στο δί1m>0 να υπολο)(ζει μη wαμμιιcές λο'yιιcές συναρτήσεις.

Οι τιμές εισόδου στο μοντtλο αuτό είναι συνεχείς και η μάθηση ')'(νεται με επίβλεψη. Οι αλ-,Όριθμοι ειστ:αίδευσης ')\α 1'ΝΔ με πολλά στρώματα διαιρούνται σε δύο φάσεις: την φάση ανάκλησης (retrίeving) και την φάση μάθησης (leaming). Στην φάση ανάκλησης τοu αλ)Ορίθμοu, οι πληροφορίες ρέοuν αιtό την είσοδο τοu διχτύου στην έξοδό τοu, δια μtσω των φυμμένων στραιμ.άτων. ουσιαστικά, σε αυτή την φάση, οι μονάδες υπολο)(ζουν τις νέες mταστάσεις ενερ')Οποίησης και τψις εξόδου τους. Στην φάση μάθησης πριr,ματοποιείται η αναπροσαρμο')(ι των συvtελεσtών βάρους. Οι φάσεις ανάκλησης και μάθησης λειτουρ"JΟ{>ν η μία μετά την άλλη διαδοχι1Cά, έως ότου οι συντελεστές βάρους αποκτfισοuν τιμές που θα εχιτρέπουν στο δ(ιm><> να πρcηματοποιεί την εχιθυμητή ταξινόμιση .

Στο παρελθόν, τα μοντέλα αuτά είχαν ελάχιστη πραιmκή αξία. λ6yω έλλειψης mτάλληλων αλ')Ορίθμων εααίδευσης. Πρόσφατα. έχουν αναπτυχθεί αριcετο( επιτυχείς αuτόματοι αλ-,Όριθμοι εκπαίδευσης, μεταξύ των οποίων ο πιο διαδεδομtνος είναι ο Back Propagation [8].[9].

3.1. Back Propagatlon αλ-,Όριθμος εαα{δευσης Ο Back Propagation αλ-,Όριθμος επεκτείνει την ιδέα της ελαχιστοποίησης του

σφάλματος τοu LMS αλ')Ορίθμου σε δίιmχχ πολλα.ιtλών στρωμάτων. Οταν χρησιμοποιείται ')\α την εαα(δευση ιcάποιοu 1'ΝΔ, τότε οι συναρτήσεις εξόδου των μονάδων τοu 1'ΝΔ πρtπει να είναι συνεχείς και δια+ορίσιμες μη wαμμιιcές συναρτήσεις. Η δια.+ορισιμόtητα των συναρτήσεων εξόδου επιτρtπει τον υπολσyισμό των μερικών παρ~ν ποu αιtα.ιτούνται )\α τον προσδιορισμό των σφαλμάτων κατά την αναπροσαρμο')(ι των συντελεσtών βάρους. Το Σχήμα (3.2) χαροuσιάζει τα στάδια του αλ)Ορίθμοu μάθησης, ο οποίος πφιwά.+εται παρακάτω.

ΑΛΓΟΡΙθΜΟΣ ΜΑθΗΣΗΣ

Βήμαl.

Αρχιιcά, τα βάρη W;J ιcαι τα εσωτφιιcά όρια θ; χαίρνοuν μιιφέ( τuxaW; τιμές.

Βήμα2.

Παροοοιάζεται τuχα!α ιcάιtοιο χρόtuπο <χο.Χι .... .ΧΝ-ι), από το σύνολο πpοτύιτων ειcπαίδευση~ στην είσοδο τοu διιcτύοu.

Βήμα 3. Φ6οη Ανάιcληση~

Υ1rολοyίζονται τα αποτύ.tσματα εξόδου σε ιcάθι στρώμα

(3.1)

Page 9: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Tech. Chron.- Β, G reece, 1992, Vol. 12, Νο Ι

(3.2)

(3.3)

(3.4)

(3.5)

(3.6)

όπου f είναι η μη wαμμι!Cή συνάρτηση εξόδου, {ο/1>ω, l=l,2, ... ,L, είναι το αποτέλεσμα εξόδου της μονάδας i, του στρώματος l την χρονική στιw.ή ι}, (oi<0>ω=xi, δηλαδή, το τρέχον πρότυπο εισόδου }, (α;<1>(ι) είναι η 1eατάσταση ενερ')Qποίησης της μονάδας i του στρώματος l }, {θ; (I) είναι το εσωτερι1Cό όριο της μονάδας i του στρώματος ι) 1eαι {w;/1>ω είναι ο συντελεστής βάρους μεταξύ της μονάδας j του στρώματος ι -l 1eαι της μονάδας i του στρώματος l ) .

Βήμα 4. Φάση Μάθησης

Οι συντελεστές βάρους των συνδέσμων μεταξύ δοο ')ειτονιιαδν στρωμάτων (ι 1eαι l-1) αναπροσαρμόζονται, ξε1eινώντας από το στριψα εξόδου έως το στριψα εισόδου (δηλαδή, ι=L,L-1, ... ,1), όπως παρα1eάτω

(3.7)

όπου η είναι ο ρυθμός μάθησης και δ;{Ι)(ι) είναι το σήμα σφάλματος το οποίο προσδιορίζεται

δi<l)(t) = /'(α;<1>(t))Σδ/1+0(t)wji(Ι+ΙJ(t) 1

(3.8)

(3.9)

όπου/' είναι η παρά')ω')Ος της συνάρτησης εξόδου f, και tim είναι η επιθυμητή έξοδος της μονάδας i του στρώματος εξόδου, όταν το πρότυπο m παροοοιάζεται στο δί~etοο.

Βήμα5.

Επανάληψη πηισίνοντας στο Βήμα 2, μέχρι μάθηση όλων των προτύπων εΙCΠαίδευσης.

ι ι s

Page 10: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

ΙΙ ιΊ

EffiθYMH'fH ΕΞΟΔΟ

ΣΦΑΛΜΑ

! ΑΝΑΠΡΟΣΑΡΜΟΙΉ ΣΎΝΊΈΑΕΣΊ'ΩΝ ΒΑΡΟΥΣ

ΑΝΑΠΡΟΣΑΡΜΟΙΉ ΣΥΝ'fΕΛΕΣΊ'ΩΝ ΒΑΡΟΥΣ

δ1 CΙ>(t) = ο1CΙ>(ι ){1-o1 CΙ>(t ))Σδ1('1>(t )w11 ('1>(ι) J

7

Τεχν. Χρον. Β. 1992. Τόμ. 12, Τεύχος Ι

ΕΞΟΔΟΣ ΣΊ'ΡΩΜΑ

ο1 ('1) = f (α. <2>Χι) ΕΞΟΔΟΥ

ΠΡΑΓΜΑΊΊΚΗ ΕΞΟΔΟΣ

ΕΝΈΡΙΌΠΟΙΗΣΗ Ν,

\\') = ;!;••''<• "'"' ,, ) + .. ~ ΚΡΥΜΜΕΝΟ ΣΊ'ΡΩΜΑ

ΕΞΟΔΟΣ

οιCΙ) = f (α;CI)Xt)

ΠΡΑrΜΑΊΊΚΗ ΕΞΟΔΟΣ

ENEPJVΠOlliΣH

ωι αιCΙ>(Ι)= ~wι1C 1>(ι)o(0)1 (t)+ e,cι>

\\ ΚΡΥΜΜΕΝΟtτ~

FΠΟΔΟΣ ΣΊ'ΡΩΜΑ

ΕΙΣΟΔΟΥ

Σχήμα 3.2. Ο Back-propagation αλ~ιθμος μάθησης -yι.α ένα δίΚ'tUΟ με δΟΟ στριψατα

Page 11: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Tech. Chron. - Β, G reece, 1992, Vo l. ι 2, Ν ο I I ι 7 ----------~--~--~--~--------------------------------------

Η εmλιηή της συνάρτησης εξόδου των μονάδων παίζει σπουδαίο ρόλο στον Back Propagation αλ')όριθμο εισtαίδευσης. Συνήθως, η συνάρτηση εξόδου είναι το sigmoid, δηλαδή

o· <l)(t)=f(σ.;<l)(t))= 1 ' 1 + e-α,OJ(I)

Τότε τα σήματα σφάλματος {δ; <1>(ι)) χαρά)Όνται ως εξής

δ;(Ι>(ι) = o;<1>(tX1-o;<1}(t))Σδ/'+1}(t)wj;<1+1}(t) J

(3.10)

(3.11 )

(3.12)

Τα εσωτερικά όρια θ;<1>, μπορούν να αναπροσαρμοστούν παρόμοια με τους συντελεστές βάρους. Μπορούμε να θεωρήσουμε απλά, ότι τα θ;<Ι) είναι ο συντελεστής βάρους μιας μονάδας η οποία έχει πάντα σταθερή τιμή εισόδου. Είνα εύχ:ολο να αποδειχθεί ότι τα εσωτερικά όρια μπορούν να ανα1ψοσαρμοστούν σύμφωνα με την παρακάτω εξίσωση

(3.13)

Συνήθως, απαιτείται ένας ~ς αριθμός επαναλήψεων )'Ι.α την σύγιcλιση των συντελεστών βάρους. Πειραματικά αποτελέσματα έχουν δείξει ότι ο απαιτούμενος αριθμός επαναλήψεων συνδέεται άμεσα με τον αριθμό των κρυμμένων στρωμάτων και είναι αντιστρόφως ανάλο')Ος με τον αριθμό των κρυμμένων μονάδων ανά στρώμα [10]. Αξίζει να σημειωθεί, ότι στις περισσότερες εφαρμοrtς χρησιμοποιούνται τΝΔ με τρία στρώματα.

3.2. Παραδείwατα χροβλημάτων μάθησης Οι ερευνητές των τΝΔ στην περιοχή των αλ')Ορίθμων μάθησης με εκπαίδευση

έχουν αναπτύξει ένα σύνολο πρότυπων εκπαιδευτικών προβλημάτων, τα οποία χρησιμοποιούνται )'Ι.α την σύyιφιση διαφορετικών αλ')Ορίθμων μάθησης. Κάθε πρόβλημα σχετίζεται με την αντιστοιχία ενός συνόλου δυαδικών προτύπων εισόδου σε ένα σύνολο δυαδικών 1ψοτύπων εξόδου. Αυτά τα προβλήματα έχουν κοινά σημεία με μια με'ιάλη ποικιλία εφαρμΟ'}'ών και αρχιτεκτονικών και έτσι χρησιμοποιούνται )'Ι.α να δώσουν ένα αντι1ψοσωπευτικό μέτρο της ικανότητας των αλ')Ορίθμων μάθησης. Η αποτελεσματικότητα ενός αλ')Ορίθμου μάθησης βασίζεται στον αριθμό των επαναλήψεων που απαιτούνται )'Ι.α την εκπαίδευση του δικτύου σε ένα crοyκεχ:ριμμένο 1ψόβλημα. Em πλέον, η πολυπλοκΌτητα της υλοποίησης ενός αλ')Ορίθμου πρέπει επίσης να συμπεριληφθεί στην εκτίμηση των ικανοτήτων ενός αλ')Ορίθμου μάθησης.

3.2.1. Το exclusive-or χρόβλημα

Είναι το mό κλασσικό 1ψόβλημα το οποίο απαιτεί μία αρχιτεκτονική δικτύου με κρυμμένα στρώματα. Σε πολλές δύσχ:ολες εφαρμ<ηές, το exclusive-or πρόβλημα εμπεριέχεται σαν υποπρόβλημα. Οι είσοδοι και οι αντίστοιχες επιθυμητές έξοδοι του exclusive-or προβλήματος απειχ:ονίζονται στον Πίνακα 1. Μία αρχιτεκτονική δικτύου, η οποία μπορεί να χρησιμοποιηθεί )'Ι.α την λύση του exclusive-or προβλήματος, φαίνεται

Page 12: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

11!1 Τεχν Χρον. Β , 1992. Τ<iμ . 12, Τεύχος I ---"

στο Σmμα (3.3). Χρησιμοποιώντας tνα ρuθμό μάθησης 0.3, ο μέσος αριθμός επαναλήψεων ')'Ι.α την μάθηση του excluslve-or ήταν ιtεpί1tου 6000.

Πίνακας 1. Εfσοδοι mι έξοδοι -yια το exclusίνe-or κρόβλημα

Είσοδοι &οδα: ι ι

ι ο ο ι

ο ο

Υ~ GJ (J

-2.0

1 1 Είσοδος Είσοδος

ο

1 1 ο

Στρώμα Εξόδου

Κρυμένο Στριψα

Στρώμα εισόδου

Σχήμα 3.3. ΑρχιτεχτονιΊCή διχτύοu -yια το exclusiνe-or κρόβλημα

3.2.2. Το multlplexer πρόβλημα Το πρόβλημα αυτό ωtοτελείται από έξι εισόδοuς και μία έξοδο. Οι είσοδοι και οι

επιθυμητοί έξοδοι -yια το multiplexer χρόβλημα αΩιmνίζονται στον Πίνακα 2, όπου οι όροι χ και a αντιπροσωχ.εΟΟυν δυαδι!Ctς τιμές. Δύο από τις εισόδους χρησιμοποιούνται σαν επt.λο)ε(ι; ιcαι ανάλοyα με την τιμή τους, διαβιβάζεται μία ωtό τις τέσσερεις άλλες εισόδους στην έξοδο. Μία αρχιτειcτονιτη JtOυ μπορεί να χρησψοJtΟιηθεί -yια την μάθηση του χροβλήματοι; αυτού ~ίνεται στο Σmμα (3.4). Χρησιμοποιώντας tνα ρυθμό μάθησης Ο. 3, ο μέσος αριθμός επαναλήψεων -yια την μάθηση του multiplexer ήταν περίπου 450.

Page 13: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Tech. Chron. - Β, Greece, 1992, Vol. 12, Νο I 11 9

Πίνακ~ 2. Είσοδοι χαι έξ~ ')\α το mulιiplexer πρόβλημα

Είσοδοι Etoδoc χ χ χ a ο ο a χ χ a χ ο ι a χ a χ χ 1 ο 8

a χ χ χ ι ι a

Ε.ΞΟΔΟΣ

Στρώμα εξόδου

Κρυμμένο στρώμα

f I f f Στρώμα εισόδου

ΕΙΣΟΔΟΙ

Σχήμα 3.4. Αρχιτεχτονιχή διχτοου "J'.α το muWplexer ιφόβλημα

3.2.3. Το blnary to local χρόβλημα Αυτό είναι ένα. από τα. πιό πολύπλοκα. ιcα.ι δύσκολα. προβλftμα.τα., το οποίο

συνίσταται στην μετα.τροπft μίας ιcα.τα.νεμημtνης αναπαράστασης σε μία. τοπική α.να.παράσταση. Μία. αρχιτεκτονική του διιm'>ου, που μπορεί να. χρησιμοποιηθεί ')\α. την μάθηση του προβλftμα:τος αυτού, αποτελείται ωtό τρεις κόμβους εισόδους και οχτώ κόμβους εξόδου, καθώς επίσης ιcα.ι από δύο στρώματα. κρυμμένων μονάδων, όπως απεικονίζεται στο Σχftμα. (3.5). Οι τιμές των εισόδων ιcα.ι των επιθυμητών εξόδων ορίζονται στον Πίνακα. 3.

Page 14: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

120 Τεχ\'. Χρον. Β , 1992, Τόμ. 12, Τεύχος I

Πίνακ~ 3. Είσοδοι και έξοδοι )\α το binary to local πρόβλημα

Είσοδοι Εξοδοι

ο ο 1 1 ο ο ο ο ο ο ο

ο 1 ο ο 1 ο ο ο ο ο ο

ο 1 1 ο ο ι ο ο ο ο ο

1 ο ο ο ο ο 1 ο ο ο ο

1 ο 1 ο ο ο ο 1 ο ο ο 1 1 ο ο ο ο ο ο 1 ο ο 1 1 1 ο ο ο ο ο ο 1 ο ο ο ο ο ο ο ο ο ο ο 1

ΕΞΟΔΟΙ

Στριψα εξόδου

Κρυμμένο στρώμα

Κρυμμένο στριψα

i 1 i Στρώμα εισόδου

ΕΙ ΣΟ ΔΟΙ

Σχήμα 3.5. ΑρχιτεΙCtονιχή διlcrύου )\α binary to local πρόβλημα

θα πρέπει να σημειωθεί ότι το πρώτο φυμμένο στρώμα αποτελείται από ένα μόνο κ:όμβο, το οποίο έχει σαν αποτέλεσμα την δημιουρ')'ία μίας συνάρτησης σφάλματος με πολλές και απότομες καμπυλότητες. Λόγω της χρησιμοποιούμενης αρχιτεκ:τονικ:ής η μάθηση ')'ίνεται πολύ πιό δύσκολα και ο αριθμός των επαναλήψεων που απαιτούνται είναι μ.εyάλος. Χρησιμοποιώντας ένα ρυθμό μάθησης 0.3, ο μέσος αριθμός επαναλήψεων Ίtα την μάθηση του binary to local ήταν περίπου 30000 κ:αι σε ορισμένες περιπτώσεις δεν ήταν δυνατό να επιτευχθεί σύ-yκ:λιση.

)

Page 15: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Tech. Chron.- Β. G reece. 1992. Vol. 12, Νο Ι 121 ----~-------------------------------------

3.3. Βελτιωμένοι αλ')(>ριθμοι επαίδευσης του Back-propagation Εως τώρα, η πιό επιτυχής διαδικασία εισι:αίδεοοης τΝΔ πολλαπλών στρωμάτων

είναι ο Back-propagation αλ)όριθμος. Αuτός ο αλ')όριθμος έχει εφαρμοσθεί σε ένα ευρύ πεδίο τΝΔ εφ<φμΟ){Ον. Το υψηλο χρονοβόρο κόστος εισι:αίδεοοης μεyάλων διιcτύων χρησιμοποιώντας τον Back-propagation θέτει ένα πραΙCtΙ.κό όριο στο~ του διιcτύου. Συγιcεφιμ.ένα, πρόσφατη έρευνα έχει δείξει ότι το ")εΥtκό πρόβλημα εκμάθησης της αντιστοιχίας εισόδου - εξόδου μίας λο)ιιcής (Boo1ean) συνάρτησης χρησιμοχοιώντας τον Back-propagation είναι NP-comp1ete και δεν υπάρχει γνωστή αχοδοτιιcή λύση [11]. Το θέμα είναι να βρεθούν τρόποι )\α την επίσπευση της διαδικασίας εισι:αίδεοοης του Β ack -propagation αλ )Όρίθμου.

Αρκετοί ερευνητές έχουν επινοήσει βελτιώσεις ιcαι t!ιtειcτάσεις του βασικού Back­propagation αλ)Όρίθμου. Η βιβλιοwα+ία είναι αρκετά ειcτενής -yια να καλυφθεί εξ ολοκλήρου σε αuτή τη μελέτη. Επιπλέον, είναι αρκετά νωρίς -yια μία πλήρη αξιολόγηση. Η έρευνα )\α βελτιώσεις και εχειcτάσεις του Back-propagation αλ)Όρίθμου μπορεί να χωριστεί σε έξι χεριοχtς: (1) στην βελτιστοποίηση του αριθμού των μονάδων στα ιcpυμμένα στρώματα, (2) βελτίαιση του ρυθμού μάθησης, (3) επέιcταση της τοπολο)iας, (4) ανάλυση των ιδιοτήτων της pίιcευσης και της κλίμακας. (5) χρησιμοποίηση υψηλότερης τάξης συσχετισμών και αυθαίρετων συναρτήσεων εξόδου ιcαι (6) άλλη έρευνα ιcαι συγιφίσεις. Οι βελτιωμένοι αλ')όριθμοι μάθησης, που θα παρουσιάσουμε αναλυτικά στις επόμενες παριηpάφους ανήκουν στην κατη)Όρία (2) και είναι ο Momentum [9], ο De1ta Bar De1ιa [12], ο Minirnal Disturbance [13]. ο Pre<Hct Back-propagation [14]. Τελικά, θα κάνουμε μία σύντομη αναφορά σε άλλες προη)'Ι!ένες τεχνικές (υπόλοιπες κατη)Όpίες).

3.3.1. Momentum αλ-,Όριθμος Οι Rumelharι, Ηίηιοn ιcαι Williams [9] περηpάφουν μία μέθοδο -yια την βελτίωση του

χρόνου εκπαίδευσης του Back-propagation αλ)Όpίθμου αυξάνοντας ταuτόχρονα την σταθερότητα της διαδικασίας. ΜΕ την μέθοδο αuτή , η οποία ονομάζεται momentum, προστίθεται ένας όρος στην εξίσωση αναχροσαρμ~ς των βαρών ο οποίος είναι ανάλο)Ός του με)'έθους της προη)Όύμ.ενης αλλα)ής των συντελεστών βάρους. Οταν πριηματοποιείται μία αναπροσαρμογή, τότε αυτή "αποθηιcεύεται" και χρησιμοποιείται )'Ι.α την τροποχοίηση όλων των επομένων αναπροσαρμΟ')ών βαρών. Η εξίσωση (3.7) αναπροσαρμογής των συντελεστών βάρους τροποποιείται ως ακολούθως

όπου μ είναι ο συντελεστής momentum όπου Ο<μ<1 και συνήθως καθορίζεται γύρω στο 0.9.

Η εφαρμογή της μεθόδου αυτής δημιουργεί μ.ε-,άλες α.λ.λιηές στους συντελεστtς βάρους αν οι τρέχουσες αλλα)ές τους είναι μεyάλες ενώ οι α.λ.λιηές αυτές ελλατώνονται όταν οι τρέχουσες α.λ.λιηές είναι μιιcpές. Η μέθοδος momentum βοηθά στην επιτάχυνση της σύγιcλισης του αλ )Όρίθμου όταν η επιφάνεια σφάλματος έχει σταθερή κλίση ιcαι έτσι η διάσχισή της μπορεί να γίνει ')ρή)Όpα χρησιμοποιώντας με')άλα βήματα. Αυτή η μέθοδος φαίνεται ότι δουλεύει ιcαλά σε ορισμένα προβλήματα αλλά η αποτελεσματικότητά της είναι ελάχιστη ή αρνητιιcή σε άλλα.

Οι Sejnowski και Rosenberg [15] περι')ράφουν μία μέθοδο που βασίζεται σε ειcθετιιcή ομαλοποίηση και η οποία υπερέχει σε ορισμένες εφαρμογές. Η εξίσωση αναπροσαρμογής των βαρών είναι

Page 16: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

1:!:? __:ι ,,,. \ι'"' R. 1992. l ι ψ~lιi I•'~ I

όπου μ είναι ο συντελεστή~ ομαλαιςοίηση~ με Ο<μ<l. Εάν μ;::Ο, τότε δεν υπάρχει χαθόλοο ομ.αλ01wίηση και η εξίσωση (3.15) dναι ταuτόσημη με την εξίσωση (3.7) τοu αρχι1CΟU Back-propagation αΑ:)Όρίθμοu. Αν μ-:1 τότε η νtα ανωφοσαρμ.σy(ι cχyνοdται ιαn επαναλαμβάνεται η 1φ011"JΟύμενη. Αν το μ είναι μεταξύ Ο και 1 τότε η αναιφοσαρμ~ βαρών ομαλοχοιdται κατά μία χοσότητα ανάλοyη τοu μ.

3.3.2. Delta Bar Delta αλ')Όριθμος Αυτός ο αλ')όριθμος ενσωματώνει ορισμένες ευρηστικtς μεθόδους κατά την

διάρχ:εια της +άσης μάθηση~ τοu Back-propagation, οι οχοίες έχοuν σκοπό την αύξηση της ταχύτητας σ(yyκλιση~ τοu αλ')Ορίθμοu. Η βασική ιδέα τοu αλ-,ορίθμοu dναι, ότι χ:άθε συντελεστής βάρους στο δίΚ100 χρησιμοχοιεί το διχ:ό τοu σuντελεστή μάθησης, ο οχοίος μεταβάλλεται σε ιcάθε εωνάληψη. Στον ιcΛασσιχ:ό Back-propaJation αλ'Ίόριθμο, όλοι οι συντελεστές' βάροuς χρησιμοχοιο<>ν τον ίδιο σuντελεσtή μάθησης. ο οποίος παραμένει σταθερός. Ο χ:ανόνας ανωφοσαρμσyής των συντελεσtών βάροuς -yια τον Delta Bar Delta αλ ')όριθμο "Ι'Ρά+εται ως εξής

(3.16)

οπου η/1 >(t) αντι1φ00ωπεύει την τψ.ή τοu συντελεστή μάθησης, στην επανάληψη t, -yια τον συντελεστή βάρους w;1 υ>. Τα σήματα σ+άλματος δ;<1>(t) uχολο'y(ζονtαι σόμ.φωνα με τις εξισώσεις (3.11) και (3.12). ΕΙtιτρέποντας την αναιφοσαρμο')1'ι των σuντελεστών μάθησης ανά συντελεστή βάρους. σε κάθε βήμα. dναι δυνατόν να πραw.ατοχοιηθούν αναιφοσαρμο')ές σuντελεσtών βάρους οι αιι:ο{ες έχοuν ως αποτtλεσμα μία Ιtιό αχοδοτι κή διαδικασ(α ελαχιστοπο<ησης.

Μια Ιtιθανή 7tpoσtyyιση -yια την αναιφοσαρμ<>"ι'1 τοu συντελεστή μάθησης ενός συντελεστή βάρους dναι δυγατή ειmμώνtας την ιαχμ!tUλότητα της επιφάνειας σ+άλματο~ που σuσχετίζεται με αυτόν τον σuντελεστή βάρους. Ιία παράδει-,.ι.α. αν το πρόσημο της μερικής ωρ<Χ')ώ)οο τοu συντελεστη βάρους σε σχtση με την συνάρτηση σφάλματος 7tαpαμtνει το ίδιο )\α αριcετlς επαναλήψεις, τότε η επιφάνεια σφάλματος έχει σταθερή κλίση προς αυτή την καtεύθuνση )\α mποια απόσταση χ:αι η διάσχισή της μπορεί j'(νει ~-,ορα και με ασφα.Λtς τρόχο χρησιμοποιώνtας ~ βήματα. Ετσι, ο συντελεστής μάθησης αυτού τοu συντελεστή βάρους πρlπει να αυξηθεί. Αντίθετα, εαν το 7tρόσημο της 7tαp<Χ')ώ)οο !Cώroιou σuντελεστή βάρους εναλλάσσεται σε αρχ:ετά διαδοχικά βήματα, τότε η επιφάνεια σ+άλματος έχει αιtότομες ιαχμ!tUλότητες στην περιοχή αuτή, η οποία θα πρέπει να διασχισθεί mo αρ)Q χρησιμοιtοιώντας μιιφά βήματα. Ετσι, ο συντελεσtής μάθησης αυτού τοu συντελεστή βάρους πρέuι να ελαττωθεi.

Ο De1ta Bar De1ta αλ')όριθμος uλοχοιεί αυτtς τις ευρηστικtς ιδέι;ς χρησιμοποιώντας τον ακόλουθο κανόνα αναιφοσαρμσyής των σuντελεστών μάθησης

{

η;/>(ι) +σ αν 'Ε;/1>(ι-1)δ;}'>(ι) >Ο η;J <1>(t+l) = η;/>(1) - φη;/>(t) αν 'E;/'>(1-l)δ;}/>(t) <Ο

η;1 <Ι)(ι ) αλλιαις (3.17)

(3.18)

Page 17: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Tcch. Chron. - Β , Grcece, ι992, Vοι. ι 2, Ν ο ι ι 23

και

(3.19)

Σ' αυτόν τον αλ')όριθμο ο όρος 'f;/'~t) αντιπροσι.αιtεύει μία εκθεtιιcή σειρά (με α την βάση και t τον εκθtτη) των πρόσ+ατων και προη')Όψένων μερικών ωραyrlΥyων της συνάρτησης σφάλματος ως προς τον συντελεστή βάρους w;/>. Ετσι, αν η τρέχουσα παρά)ω)Ός ως προς κάποιο σuντελεστή βάρους και ο εκθετικός μέσος όρος των προη')ΟΟμένων παραyrlΥyων ως προς τον ίδιο συντελεστή βαρους έχουν το ίδιο πρόσημο, τότε ο σuντελεστής μάθησης που αντιστοιχεί ~ε αυτόν το σuντελεστή βάρους αυξάνεται mτά μία σταθερή τιμή σ. Στην περίπτωση που έχουν αντίθετο πρόσημο, τότε ο συντελεστής μάθησης μειώνεται κατά μία αναλο-,<α φ, της τρέχουσας τιμής του. Ετσι, ο αλ')όριθμος αυτός αυξάνει τους συvτελεστές μάθησης -,pαμμιιcά, ενώ τους μειώνει εκθετικά. Επιπλέον, ο κανόνας αναπροσαp~ς των συνtελεστών μάθησης δίνει πάντα θετικές τιμές στους συντελεστές μάθησης, κάτι το οποίο απαιτείται από τον αλ')όριθμο προκειμένου η ελαχιστοποίηση της συνάρτησης σφάλματος να πρ<ηματοποιηθεί με την μtθοδο βαθύτατης καθόδου (steepest descent).

3.4. Ο Mίnimal Disturban~ Back-propaμιion (MDBP) αλyόριθμος Το ιcίνητρο ')'Ι.α την ανώtτυξη του αλ)'Ορίθμου αυτού ήταν να χρησιμοποιηθούν οι

επιθυμητές ιδιότητες του MRII αλ')Όρίθμου [16]. μέσα στο μαθηματικό πλαίσιο που λειτουρ')'εί ο Back.-propagation αλ')όριθμος. Στον MRII αλ')όριθμο, η επιθυμητή ελαχιστοποίηση του σφλάμ.ατος πρ<ηματοποιείται με την χρήση ευρηστικών μεθόδων. που στην χειρότερη περίπτωση mταλή')ΟΟν σε μία εξαντλητική έρευνα. Παρ Όλα αυτά, ο MRII αλ')(>ριθμος έχει επιδείξει τρομακτικά -,pή)Όρους ρυθμούς Ο'ύγιcλισης ')'Ι.α ένα αριθμό προβλημάτων. Η προσtyyιση, η οποία χρησιμοποιείται στον MDBP [13] περιλαμβάνει την ελαχιστοποίηση της ίδιαι; σuνάρτησης σφάλματος η οποία χρησιμοποιείται στον Back.-propagation. Ομως, η ελαχιστοποίηση πρ<ηματοποιείται ως προς τις εισόδους στους ιώμβους του δικτόου αντί ')'Ι.α τους συντελεστές βάρους. Επιπλέον, οι αναπροσαρμ.ο)ές των συντελεστών βάρους -y(νονται ανά στρώμα διαδοχικά. Πιό crοyιcεφιμένα. αρχικά οι σuντελεσttς βάρους στο πρώτο στρώμα αναπροσαρμόζονται. Αν αυτές οι αναπροσαρμιηές επιτρέπουν στο δί1m>ο να πρ<ηματοποιεί την επιθυμητή αντιστοιχία εισόδου - εξόδου ')'Ι.α το τρqον πρότυπο, τότε το επόμενο πρότυπο παρουσιάζεται στο δί1m>ο. Διαφορετικά, οι αναπροσαρμιηές των συντελεστών βάρους πραw,ατοποιούνται στο επόμενο στρώμα και σuνεχίζονται κατ ' αυτό τον τρόπο tως ότου η επιθυμητή αντιστοιχία πριr,ματοποιηθεί ή φθάσουμε στο στρώμα εξόδου. Αν φθάσουμε στο στρώμα εξόδου χωρίς να έχει επιτευχθεί η επιθυμητή αντιστοιχία. τότε οι ανωφοσαpμο)ές των σuντελεσtών βάρους αρχίζουν ξανά από το πρώτο στρώμα. Αυτό επαναλαμβάνεται έως ότου η επιθυμητή αντιστοιχία επιτευχθεί.

θα πρέπει να σημειωθεί ότι οι αναπροσαρμ.ο)ές στους συντελεστές βάρους πρ<ηματοποιούνται κατά τέτοιο τρόπο, ώστε να εξασφαλίζεται ότι η επιθυμητή μείωση σφάλματος ειtι't'U"fΧάνεται με την ελάχιστη δυνατή αναπροσαρμcηή των συντελεστών βάρους. Αυτό εξασφαλίζει ότι η μάθηση προη')Όυμένων προτ\mων επηρεάζεται ελάχιστα από την μάθηση mινούρ')'Ι.ων προτύπων. Επιπλέον, κάθε πρότυπο παραμένει στην είσοδο του δικτόου tως ότου μία σειρά από διαδοχικές αναπροσαρμ<ηές συντελεστών βάρους δώσουν την δυνατότητα στο δίκτυο να πρ<ηματοπ.οιήσει την μάθηση αυτού του προτύπου.

Page 18: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

l •·t' \. 1 1ιιν Β. J9<J2. Ι ιψ. 12. ΊΊ. ί χΩ~ Ι

3.5. Ο Predict Back-propaμtion αλ')όριθμος Στον κλασσιχό Back-propagation αλ)όριθμο, τα πρότυπα εισtαίδεοοης

παρουσιάζονται στο δίιmχ> διαδοχικά ιcατά ένα τυχαίο τρόπο, μέχρι το δίκτυο )'ίνει ιιcανό να τα ταξινομεί σωστά. Προmμένου να αυξηθεί η το;χ\)τητα σύ'yιcλισης του Back-propagation αλ~ίθμου, ο Predict Back-propagation αλ')όριθμος χαρουσιάζει τα πρότυπα ειcπαίδεοοης στο δίκτυο με κώtοια δυναμική σειρά. η οποία εξαρτάται από την "δυσκολία" μάθησης κάθε ιφοτύJW\). οταν κώtοιο πρότυπο ειcπαίδευσης παρουσιάζεται στο δίιmχ>, τότε τα σήματα σφάλματος τα οποία :n:αρά)ονται στο στρώμα εξόδου του δι!Ctύου, δίνουν ένα τρόπο μέτρησης της δυσκολίας μάθησης του :n:ροτύπου αυτού [14]. Εστω ότι ε;<111 > συμβολίζει το σφάλμα το οποίο σχετίζεται με τον t -στο χόμβο του στρώματος εξόδου, όταν το m πρότυπο παρουσιάζεται στο δίιmχ> και το οποίο ορίζεται ως ακολούθως

Ε; (111 b.t; (111 Lo; (L >(ι) (3.20)

Το συνολιχό σφάλμα υπολιη(ζεται χρησιμοποιώντας την άπειρο νόρμα των ε;<111 > ' s, δηλαδή

ε<111hmax; I t; <111 Lo;<L>(t) I (3.21)

για κάθε m = 1,2, ... ,Μ-1, όπου Μ είναι ο συνολιχός αριθμός των προτύπων εκ:n:αίδευσης.

Υπολογ(ζοντας τα συνολιιc:ά σφάλματα ε<111 > και βρίσκοντας το μtyιστο από αυτά, έχει ως αποτέλεσμα την ε:n:ιλΟ'yή του προτύπου εισtαiδευσης )'\α το ΟΠ{){Ο τα σήματα σφάλματος τα οποία περηιρά.φονται από τήν εξίσωση (3.11) (και που έμμεσα εξαρτώνται από τα σήματα σφάλματος τα οποία δίνονται από την εξίσωση (3.12)) παίρνουν την μέγιστη τιμή τους (ως προς την άπειρο νόρμα). Ετσι, σε κάθε επανάληψη του αλ~ίθμου. το πρότυπο ειcπαίδευσης με το με)W.ύτερο συνολιχό σφάλμα επιλέjεtαι και παρουσιάζεται στο δίκτυο.

θα πρέπει να σημειωθεί ότι, κάθε Φορά πού οι συντελεστές ~ους αναπροσαρμόζονται, τα συνολικά σφάλματα f.<111) αλλάζουν. Προκειμένου ο Predict Back-propagation αλ')όριθμος να εφαρμοσθε( αυστηρά, θα πρέπει τα συνολικά σφάλματα ε(ΙΙΙ) να υπολογ(ζονται σε κάθε επανάληψη του αλ~ίθμου. Ομ.ωc;, το υπολο')'tστιιώ κόστος μιας τέτοιας ενέρ)ειας είναι πολύ υψηλό και εχιδρά αρνητικά στην αποδοτικότητα του αλ')Όρίθμου. Ετσι, τα συνολικά σφάλματα ε<111 > δεν υπολογ(ζονται σε κάθε επανάληψη του αλ')Όρίθμου, αλλά μόνο όταν ικανοποιούνται ορισμένες συνθήκες. Συγκεκριμένα. κάθε πρότυπο ειcπαίδευσης παραμένει στην είσοδο του δικτύου μtχρι η μάθηση )'\α αυτό το πρότυπο να έχει επιτευχθεί (ας σημειωθεί όμως οτι πιθανώς να μην έχει ολοκληρωθε{). Στη συνέχεια. τα συνολικά σφάλματα ε:n:ανυπολιη(ζονται και η μάθηση συνεχίζεται παρουσιάζοντας στο δίιmχ> το πρότυπο με το μ.ηαλύτερο συνολικό σφάλμα.

3.5.1. Αλλες ιφοη-yμένες τεχνικές Στην ιcατη')Όρία (1) ανήιcει μία μέθοδος η οποία έχει προταθεί από τον Rumelhan

[17] ο οποίος έχει προσθέσει συναρτήσεις κόστους οι οποίες ελαχιστοποιούν τον αριθμό των συνδέσμων ιcαι τον αριθμό των κρυμένων μονάδων όπως επίσης το συνολικό τετραyωνικό σφάλμα κατά την διάριcεια της ειcπαίδευσης. Τα πρωταρχικά αποτελέσματα τα οποία έδωσε η μέθοδος είναι αριcετά ενθαρυντιιcά αλλά ο χρόνος ειcπαίδευσης του δικτύου αυξάνεται αριcετά. Ο Ash [18] έχει αναπτύξει μία τεχνική η οποία ονομάζεται "δυναμική δημιουρ)'ία κόμβων" (dynamic node creation) η οποία αυξάνει τον αριθμό των κρυμένων μονάδων κατά την διάριcεια της εκπαίδευσης σύμφωνα με κάποια κριτήρια ζήτησης. Οι Hirose, Yamashita ιcαι Hijiya [19] καθώς και οι Krnschke, Movellan [20] έχουν :n:ροτείνει κάποιες ευριστιιcές διαδικασίες )'\α την αφαίρεση κρυμένων μονάδων από την τοπολο)'ία του δικτύου κατά την διάριcεια της

Page 19: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Tech. Chron.- Β, Greece, 1992, Vol. 12, Νο Ι 125 ----------~--~--~--~-------------------------------------

εΊΟtαίδευσης.

Η πιό πιθανή )'εVtκή τοχολ.Ο'yία ενός τΝΔ είναι αυτή η οποία επιτρέπει κάθε μονάδα του διιcrύου να συνδέεται με οχοιαδήποτε άλλη μονάδα. Οι τοπολσyίες αυτές περιiχουν συνδέσμους ανάδρασης (feedback oonections) ιαχι καλούνται συνήθως recurrenι Τέτοια παραδεί)1.1ατα αρχιτειcrονικών έχουν μελετηθεί ιcυρίως από τους Almcida [21], Pineda [22] και Williams και Zipser [23]. Οι μέθοδοι αυτοί ανήκουν στην κατη)Όρία (3).

Μία από τις πιό σημαντικtς περιοχές έρευνας σε Back-propagation αλ')Όρίθμους είναι η ανάλυση των αλ')Όρίθμων αυτών καθώς το μέ)t:θος του προβλfιματος (κλίμακα) με')αλώνει (κατη')Όρία (4)). Ιδιαίτερη δουλειά στην περιοχή αυτή έχει ')(νει από τους Tol­lenaere [24], Fahlman [25], Tesauro [26] και Richards [27). Μία περιοχή εξίσου με)άλης σημασίας, η οχοία αφορά κυρίως ε+αρμ.οyές πραyμ.ατικ:ού χρόνου του Back-propagation αλ')Όρίθμου έχει να κάνει με την ικανότητα του αλ')Όρίθμου να παράyει )Ενtκεύσεις από ένα δοσμένο αριθμό δεδομένων. Ανάμεσα σε αυτούς που έχουν ασχοληθεί με το θέμα είναι και οι Baum [28]. Denker [29] και οι Psaltis με τον Neifield [30].

Οι Rumelhaιt, Hinron και Williams [7) έχουν προτείνει την χρήση υψηλότερων τάξεων συσχετισμών, καλώντας μονάδες οι οποίες συμ.ετtχουν σε αυτούς τους συσχετισμούς sigma-pi μονάδες. Επιπλέον, μερικοί ερευνητές έχουν μελετήσει την επίδραση της χρησιμοποίησης συναρτήσεων εξόδου, διαφορετικών από το sigmoid [25],[31 ].[32]. Οι μέθοδοι αυτοί ανήκουν στην κατη')Όρία (5).

Οι Longsιaff και Cross [33) έχουν αναλύσει την απόδοση του Back-propagation χρησιμοχοιώντας μία προσέγyιση αναyνώρισης προτύπων. Οι Kuczewski, Myers και Crawford [34], έχουν ερευνήσει τις ιδιότητες αυτοορ)άνωσης (se1f-organ.ization propeιtics) του Back-propagation αλ)Ορίθμου. Οι Mclnemy, Haines, Biafore και Hecht-Niclsen [35] έχουν εξετάσει την συνάρτηση σφάλματος μερικών λύσεων του Back-propagation σε προβλfιματα μη-)ραμμικής αντιστοιχίας (nonlinear mapping problems) και έχει αποδείξει την ύπαρξη τοπικών ελαχίστων. Κάμποσες συyιφίσεις έχουν )\νει από αρκετούς ερευνητές μεταξύ των του Back-propagation και άλλων τΝΔ αλ')Όρίθμων. Οι Woods [36] έχουν συyιφίνει την απόδωση του Back-propagation αλ)Ορίθμου με τον counιerpropagation τΝΔ αλ)όριθμο [39]. Ο Bemasconi [37] έχει συyιφίνει την απόδωση του Back-propagation με τον Boltzmann τΝΔ αλ')Qριθμο. Ο Lippmann [6] κ:αι οι Huang και Lippmann [38] έχουν συyιφίνει τον Back-propagation με τον LVQ τΝΔ αλ')όριθμο [39] και άλλες κλασικές τεχνικtς σε προβλήματα ταξινόμισης ήχου. Οι Papadourakis, Bebis και Georgiopoώos [46] έχουν συyιφίνει την ακρίβεια του Back-propagation με τους ARτt, Kohonen και Predict back-propgation ΊΝΔ αλ')όριθμους σε ένα πρόβλημα αναyνώρισης χαραιcτήρων.

4. Εφαρμο-yές των ΤΝΔ Τα τΝΔ αποτελούν μία θεμελιώδη καινούρ'yια προσέ'Υ)'Lση στην επεξερ')αιJία

πληροφοριών και αποτελούν την πρώτη πραιcrική εναλλαιcrική λύση σε σχέση με τις κλασικές πρΟ)ραμματιστικ:ές μεθόδους, οι οποίες χρησιμοποιούνται σε συστήματα αυτόματου ελέγχου, επεξερ)αιήας σημάτων ομιλίας και εικόνων, ανάλυση δεδομένων ή Τεχνητή Νοημοσύνη. Τα τΝΔ δεν είναι ιδιαίτερα ικανά σε εφαρμοyές όπου οι κλασικοί σειριακοί υχολογι.σtές έχουν δείξει ικανοποιητικtς επιδόσεις, όπως στην λύση μαθηματικών προβλημάτων πραyμ.ατοχοιώντας υπολογισμούς υψηλής ακρίβειας. Οταν όμως πρέπει να επιλυθούν προβλήματα τα οποία περιέχουν ελλειπή δεδομένα ή μερικώς αντιφατικtς πληροφορίες, τότε τα τΝΔ θα υπερισχύσουν των κλασικών υπολογιστών, ακόμα και των παράλληλων.

Ενα από τα πιό ενδιαφέροντα παραδεί)1.1ατα εφαρμ<ηών χρησιμοποιώντας τΝΔ είναι το SNOOPE (System for Nuclear On-line Obserνation of Potential Explosivers). Το σύστημα αυτό είναι ένα νευρωνικό δίκτοο, το οποίο εΊΟtαιδεύεται με τον Back­propagation αλ')όριθμο και χρησιμοποιείται )\α την ανίχνευση πλαστικών ειφηιcrικών υλών σε αποσκευές. Αναπτύχθηκε από την εταιρία Science Applicaιions Intemational Corp

Page 20: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

12() ------- __________ Τ....::..εχν. Χρον. Β , 199_3. Tciμ. 12, Τεύχος I

(SAIC), η οχοία εδρεύει στην Σάντα Κλάρα της Καλι+όρνιας των JΠΙΑ και έχει χρησιμοχοιηθε{ με εχιτυχία από τον Ιούνη του 1988 σε 40000 αχοσιcευές στα διεθνή αεροδρόμια του Σαν Φραντσί01rο και του Λος Αντζελες.

Μία άλλη ε+αρμοyή, ό1t00 έχοuν χρησιμοχοιηθεί Ί'ΝΔ, είναι στην αναyνώριση uχοβρύχιων στόχων με sonar. Ι\α αuτή την εφαρμογή, η εταιρία Bandήx Aerospace χριηματοχοίησε μία σόyιφιση χρησιμοχοιιiwτας ένα Ί'ΝΔ και μία ΙCλασι!Cή μέθοδο. Τα αποτελέσματα της σόyιφισης έδειξαν ότι το Ί'ΝΔ ήταν χιό αιφιβές και εχιχλέον, η όλη ε-yιcατάσταση του πριηματοχοιήθηκε μέσα σε λί')"ς ώρες σε σχέση με μ.φικούς μήνε) χου αχαιτούσε η ε-yιcατάσταση ενός σuστήματος ταξινόμισης βασισμένο στην ΙCλασικη μέθοδο.

Η αuτόματη καθοδfι'Υ'lση οχήματος είναι μία ε+αρμσyή, η οχοία, τα τελεuταία χρόνια ιδίως, έχει αχασχολήσει ένα με)Qλο αριθμό ερεuνητών. Στο Πανεχιοτήμιο του Camegie Mellon έχει αναπrοχθε{ ένα σύστημα το οχοίο ονομάζεται ALVINN [40] και οχοίο χρησιμοχοι.είται ')'Ι.α την ~yηση ενός οχήματος εφοδιασμένου με ειδικό εξοχλισμό, του NAVLAB. Το ALVINN λαμβάνει δύο είδη !tληρο+οριών αχό το ΝΑ VLAB. Το χρώτο είναι μία 30 χ 32 εικόνα αχό μία βίντεο - κάμερα, η οχο{α είναι τοποθετημένη στην οροφή του οχήματος. Το δεότερο είναι μία 8 χ 32 εικόνα αχό ένα ανιχνεuτή ttδίou με laser. Τα δύο αuτά είδη δεδομένων χρησιμαιτ:οιούνται σαν είσοδος σε ένα Ί'ΝΔ, το οιrοίο αχοτελείται από ένα ιφuμμένο στρώμα. Η αχόκριση του δικτύου είναι μία ')Ραμμική σuνάρτηση της κατεύθυνσης στην οιι:οία το όχημα χρέχει να κινηθεί προκειμένου να βρίσκεται χάντα στο χtντρο του δρόμου. Η εισtαίδεοοη του δικτόοu -yίνεται χρησιμο11:0ιώντας τον Back-pro~gatίon αλ')όριθμο και είναι αρκετά δύσκολη. Μετά την εαα(δεοοη του δικτΟΟu, το ALVINN μπορεί και καθοδηyε( το ΝΑ VLAB με ταχύτητα ιtερίχου 5 χιλιόμετρα ανά ώρα, κάτω από δια.φοpετικtς καιρικές σuνθήκες και U1tό δια+ορετιχiς ~mtαστάσεις +ιιmσμού. Αξίζει να σημειωθεί ότι η ταχύτητα xou ανωtτύσσει το όχημα είναι δι~α της ταχUτητας χου αναπτύσσει καθοδη')Όύμενο αχό ένα σύστημα το οχοίο χρησιμαιτ:οιεί ΙCλασικtς τεχνικές.

Αν 1eαι έχουν ιφιηματοχοιηθεί 11:0λλές μ.ελtτες ')'Ι.α το διαχωρισμό τοu θορύβοu της μηχανής uχοβρuχίων αχό ψεuδείς θορύβοuς χρησιμο11:0ιώντας sonar, η χιό αιι:οδοτι!Cή λύση έως τώρα βασίζεται στην εμιtειρία ενός εκχαιδεuμένου χρήστη. Προκειμένου να προσομοιωθεί η ανθρώχινη ικανότητα, ένα νευρωνικό δίmχ> έχει χρησιμοχοιηθεί από την τΗΟΜSΟΝ SINΊ'RA ASM (Ί'SASM), το οιrοίο αναyνωρίζει την ύπαρξη ή μη uχοβρuχίων. Ο θόρuβος μηχανής uχοβρuχίων διαχωρίζεται αuτόματα αιι:ό +uσικοUς θορύβους (xou προέρχονται αχό χέτρες, βuθό θάλασσας κλχ.) με 100% επιτυχία, σε ένα σύνολο 200 ειδών θορύβοu.

Τα Ί'ΝΔ έχουν mσης χρησιμοχοιηθεί )\α την αναyνώριση χειρδ)pαφων (handwήt­ten) [41]-[43] και τυιι:ωμένων χαρακτήρων (machine pήnted) [44]-[47]. Η εταφία ΝΈSΊΌR έχcι ανωm'>ξει εφαpμcηtς αναyνώρισης χειρδ)pαφων χαρακτήρων χρησιμοχοιώντας Ί'ΝΔ. Πιό crοyκ:ειφιμένα, ένα σύνολο δεδομένων αιι:οτελούμενο α.πό 7200 χειρδ)pαφοuς χαρακτήρες χρησιμο11:0ιήθη κε κατά την διάρκεια της μάθησης ενός 'ΓΝΔ. Πρ001tαθώντας να ταξινομήσει σωστά 1800 άλλοuς χαρακτήρες (οι οχοίοι δεν χεριtχοντο μέσα στο σύνολο εκχα(δεuοης), είχε χοσοστό εχιτυχίας 97.7% Εφαρμcηtς αuτής της τεχνολο-y(ας εχεκτείνονται ωtό την εχεξερ)ασία εχιτ<ηών έως και την εχεξερ')αιJ{α -yι.αχωνtζικων χαρακτήρων. Ειtίσης, ο Kunihik:o Fuk:ushima, ερεuνητής στα ερ)ασ'tήρια ΝΗΚ του Τόκυο και ο Sei Miyak.e, διεuθuντ1'\ς στο Ερεuνητικό Κέντρο Αmόματων τηλεχικοινωνιών στην Οοάκα, έχουν εχιδείξει ένα 'ΓΝΔ, το neocognitron [48], το ο11:0ίο αναyνωρίζει χειρδ)pαφοuς χαρακτήρες, σε δια+ορετικtς θέσεις και κλιμακες (translauon and scale invaήant) και με μικρά ποσοστά ιι:αραμόρφωσης, με εχιτυχία 95%.

Μία ιι:αραιtλήσια ε+αρμο-yή είναι η εχαλήθεuση uχΟ')Ραφών σε εχιτα-yές. Ένα τέτοιο σύστημα χρησιμο11:0ιήθηκε ωtό την εταιρία ΝΈSτοR ')tα τον διαχωρισμό αληθινών και ιι:λαστών mtΟ')Ραφών, σε διαφορετικούς τύχοuς εχιτα"Jών. Το σύστημα έδειξε ότι είναι ικανό να αναyνωρίζει αληθινές U7t0"1Ραφές με ένα ποσοστό αιφίβειας

Page 21: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Tech . Chron.- Β, Greece, 1992, Vοi ._Ι_:~·_Ν_ο_ι _________________ Ι~"

96%. Αmό το ποσοστό είναι πολύ μεyαλύτερο από το αντίστοιχο ποσοστό το οποίο βασίζεται μέχρι σήμερα στην ανθρ<ίmνη ιmνότητα επιβεβαίωσης.

Τα Ί'ΝΔ έχουν επίσης χρησιμοποιηθεί σε διάφορες ε+αρμ<ηές Ε~ας και Ανάλοοη Εικόνων [49)-[51). Ο Teuvo Kohonen, καθη'ΥΙ1τής και ερευνητής στο Πανεπιστήμιο Τεχνολο'y(ας του Ελσίνcm, έχει χρησιμοποιήσει ένα Ί'ΝΔ [52) ')'Ι.α την αν~ώριση προσώπων σε ψη+ιαιctς εικόνες. Σuyκ:εκριμμένα, έχa δείξει ότι το δίιmχ> μπορεί να αν~ωρίζει ιφόσωω., μέσα από ένα σύνολο 500 διαφορετικών ατόμων, ακόμα και αν αυτά είναι μερικώς ειnmλυπτόμενα. Σε ερευνητικό επίχεδο, έχουν αναπτυχθεί μέθοδοι αν~ώρισης αντιιcειμένων [50),[51], ανεξάρτητα από τη θέση τους, το ~ός τους και τον ιφοσανατολισμό τους, χρησιμοποιώντας Ί'ΝΔ. Οι μέθοδοι έχουν εmδείξει εξαιρετική απόδοση σε σύγιφιση με ιcλ,ασιχές τεχνιχές αναyνώρισης αντιιcειμένων, ιδιαίτερα όταν τα αντιιcείμενα περιέχουν και θόρυβο. Τα Ί'ΝΔ έχουν δώσει επίσης ιmνοποιητικά αJtΟtελέσματα σε εφαρμ<ηές, όJrο>ς στην επανάκτηση εικόνων (image restoration) [53], στην αν~ώριση textures [54) και στην αναyνώριση ΙC\)ρίαρχων σημείων (dominant points) σε χερι')pάμματα αντιιcειμένων [55).

Ενα από τα μεyαλύτερα ιφοβλήματα τα οποία προσπαθούν να αντιμετωπίσουν ποΧλοί ερευνητές, είναι η αν~ώριση ανθρώπινης ομιλίας και η μετατροπή της σε '}Ραπτό ιcείμενο μέσω ενός υπολο-yιστή . Ο Teuvo Kohonen έχει αναπτύξει ένα από τα πιό εmτυ~ συστήματα αναyνώρισης ομιλίας [56] στην περιοχή των Ί'ΝΔ. Το σύστημα αυτό έχει δείξει με'ιόλη ακρίβεια και χεριέχει ένα πολύ με)άλο λεξιλό')'Ι.ο. Αποτελείται από ένα front-end δίκτοο το οποίο αναyνωρίζει +θόηους και ένα back-end δίιmχ> το οποίο αν~ωρίζει λέξεις που αποτελούνται από ΦθόηΌυς. Επίσης, υπάρχει ένα ξεχωριστό υποσύστημα το οποίο διαχωρίζει λέξεις οι οποίες έχουν παρόμοια α1CΟΟΟ't1.κή.

Στον τομέα της σύνθεσης ομιλίας, έχει αναπτυχθεί από τους Τ. Sejnowski και C. Rosenberg ένα σύστημα το οποίο ονομάζεται NEΊ'talk [57] και επιδει!CVύει τις δυνατότητες της τεχνολο'y(ας Ί'ΝΔ. Το σύστημα αυτό μαθαίνει να διαβάζει κείμενα '}Ραμμένα στην αγyλική, τα οποία μετατρέπει σε ομιλία, χωρίς την χρήση γλωσσικών mνόνων. Σε αντίθεση, ιcλασικά συστήματα χρησιμοποιώντας πρΟ')pάμματα Τεχνητής Νοημοσύνης, έχουν προβλήματα στης εκτtλεση αυτής της λειτουργ(ας.

Προβλήματα αυτόματης αναπροσαρ~ς ι:).J:γχου έχουν επιλυθεί χρησιμοποιώντας Ί'ΝΔ εδώ και 25 χρόνια περίπου. Ενα από τα πιό παλιά παραδεί')'Ι.Lατα συστημάτων ι:).J:γχου με Ί'ΝΔ είναι η αναπροσαρμοζόμενη δρομολό'yηση (routing) και διαιcλά&οοη (switching). Τα ιcλασικά Adaline Ί'ΝΔ του Β. Windrow έχουν εφαρμοσθεί στην εξάλειψη της ηχούς σε τηλεφωνικές ')pαμμiς. Επιπλέον, τα Ί'ΝΔ είναι ικανά στην εξάλειψη σ+αλμάτων κατά την διάδωση δεδομένων σε modems.

Τα Ί'ΝΔ είναι αποδοτικά στον χεφισμό πολλών εφαρμ<ryών επεξεργασίας πληροφοριών και ~ώσεως, όπως στη αποθήκεοοη και ανάκτηση πληροφοριών σε με'ιόλες βάσεις δεδομένων και στην ιφοβλεπόμενη μοντελοποίηση. Σε μία ιατρική εφαρ~ με έμπειρα συστήματα, ένα Ί'ΝΔ ειcιtαιδεύτηκε στις λειτουρ')'Ι.κές σχέσεις μεταξύ συμπτωμάτων, δια~ώσεων και θεραπειών. Πειραματικά αποτελέσματα έδειξαν ότι η απόκριση του δικτύου είχε 100% ακρίβεια σε μη διφορούμενες περιπτώσεις, ενώ έδωσε ιmνοποιητικά αποτελtσματα σε διφορούμενες περιπτώσεις.

Αρκετοί ορ)'(Χνισμο( προσπαθούν να εφαρμόσουν τα τΝΔ σε προβλήματα επεξειηασίας πληροφοριών στο εμπόριο και την βιομηχανία, τα οποία έχουν αποδειχτεί ~είριστα με παραδοσιαχiς μεθόδους επίλοοης. Προκαταριmκά αποτελέσματα αmης της προσπάθειας ήταν αρκετά ενθαρρυντικά. Η εταιρία Behavioήstics Inc., του Silver Spήng στο Maryland, έχει επιδείξει ένα Ί'ΝΔ ')'Ι.α τον πρΟ')pαμματισμό αεροπορικών πτήσεων. Οι αεροπορικές εταιρίες Π(ι)λούν εισιτήρια σε διαφορετικές τιμές, οι οποίες εξαρτώνται από την ημερομηνία κράτησης του εισιτηρίου. Το σύστημα, το οποίο ονομάζεται Aidine Marketing Tactician, βελτιστοποιεί σε συνάρτηση με το χρόνο, την κατανομή των θέσεων μεταξύ τιμών έ!CΠ'tωσης και mνονιιcών τιμών, προκειμένουν να με'}'Ι.στοποιηθούν τα κέρδη της εταιρίας. Επίσης τα τΝΔ έχουν χρησιμοποιηθεί στην αξιολό'yηση αιτήσεων ')'Ι.α δάνεια σε τράπεζες. Η εταφία Adaptive Decision System Inc.,

Page 22: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

12R Τι:z\'. ΧJ1Ω\' . Β , 1992. Τι'ψ. 12. Τr.ίιχος I

στο Andover της Μασσαχοοοέτης, έχει ~eατασlCεUάσει ένα σύστημα το οποίο λαμβάνει σχετι~eά δεδομένα από μία ώτηση δανείου 1Cαt φίνει αν ο αιτών είναι αξιόπιστο η όχι άτομο, σύμφωνα με τα παραδείwατα με τα οποία έχει εκπαιδευτεί. Το σύστημα αυτό έχει επιδείξει με-,αλύτερη αφίβεια από ένα ιcλασικό σύστημα το οποίο βασίζεται στο συνδυασμό ενός έμπεφου ~μmος ΙCαt ενός στατιστι!CΟU μοντέλου.

Γενιιαi. πιστεύεται ωtό αριcετούς ερευνητές ότι τα Τεχνητά Νευρωνικά Δί1m>α δεν θα αντιmταστήσουν παραδοσιαιdς μεθόδους uπολιηιισμού, ιrορίως αυτών που σχετίζονται με υψηλής ταχύτητας αριθμητιιcές επεξερ-,.:χσίες, αλλά θα συμπληρώσουν ~eαι θα αυξήσουν την αωδοτιιcότητά τους. Ο συνδυασμός των παραδοσια!Cών υπολσyιστών ΙCαt η μοναδι!Cή ισχUς των τΝΔ, μπορούν να λύσουν προβλήματα τα οποία ~eάτω από άλλες συνθή1reς θα παρέμεναν άλυτα.

ΒΙΒΛΙΟΓΡΑΦΙΑ

[ 1] D. Hebb The organization of the Behaνior, contained ίn J. Α. Anderson and Ε. Rosenfeld Neurocomouting foundations and research. ΜΠ Press, Cambήdge, Massachusetts, 1988.

[2) W. McCulloch and W. Pitts Alogicαl cαlculus of the ideαs immαnent in the nerνous αcιίνίty, Bulletin of Matb. Bioohys .. YoJ. ~ 1943.

[3] F. Rosenblatt Principles of neurodynamics and the theory of brain mechanisms, Spartaη Books <Washinwn 00. 1962.

(4) Β. Widrow and R. Wίnte.r Neurαl Netsfor Adaptiνe Filtering αnd Adaptiνe Paιιern Recogni­tion, ΙΕΕΕ Computer. March, 1988.

[5) Β. Widrow and Μ. Hoff Adaptiνe switching circuits, 1960 IRE WESCON Convenpon Record. Part 4.

[6] R. Lipρmann λn introducιion ιο computing with neural nets, ΙΕΕΕ ASSP magazine. Apήl, 1987.

[7] D. Rumelhart, J.McOelland, and the PDP Research Group Paι:allel Distήbuted Pτocessing (eDP). Exploratϊons in the Microstnιcιure of Cognition. Yol.! : Foundations. ΜΠ Press, Cambήdge, Massachusetts, 1986.

[8] Ρ. Werbos Beyond regression: New tools for prediction αnd analysis in ιhe behaνiorαl sci­ences, Ph.D. thesis. Haryard University, Cambήdge, ΜΑ, 1974.

[9] D. Rumelhart, G. Hίnton and R. Williams Leαrning Representations by baclφropαgating eπors, Nature 323. 1986.

[10) S. Υ. Kung, 1. Hwang and S. Sun Effiι;~nt Modeling for Mulιilayer Feed1orwαrd Neural Nets, Prσceedings of ICASSP. Yol.1. 1988.

[11] S. Judd Leαrning in networks is hαrd, Pτoceedings ofthe ΙΕΕΕ Intemationa1 Conference on Neural Networts. Vol. IL San Diego, CA .• 1987.

[12] R.Jacobs lncreαsed Rates ofConνergence Through Leαrning Rαte λdaptιJtion, ~ Networks. Vol. "1," 1988.

[13] G. Heilrnan, Μ. Georgiopoutos, Η. Myller and G. Papadourakis lmproνed Back Propαgation Leαrning Algorithms for Neurαl Networks, Adνances in Artificial Intel1igence. Yol. b JAI Press (ιο be published).

[14] G. Bebis, G. Papadourakis and Μ. Gcorgiopoulos Back Propαgαtion : /ncreαsing Rαte of Conνergence by Predicιab/e Pαttern Loading, Intelligent Sysιems Review. Yol. .L Νο. ~ 1989.

[15) Τ. Sejnowski and C. Rosenberg Pαral/e/ networks that leαrn to produce English ιeχι, Complex Systems. Yol. .L 1987.

Page 23: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Τ~~:Ι ι Chron. - Β , Grccce, 1992, Vol. Ι 2, Ν ο Ι --'------ 129

[16] Β. Widrow, R. Wmter and R. Baxter Layered Neurαl Netsfor Pαπern Recognition, ΙΕΕΕ Traηsacιions on Acoustics and Signal Pτocessing. Vol. ~ Νο. L July 1988.

[17] D. Rumelhart Tutoriα/12 : PαrαUel distributed processing, IEEE Inιemational Conference on Neura1 Netwoιts. 1988.

[ 18] Τ. Ash Dynamic node creation in baclφropαgαtion networks, ThchnjcaLReoort 8901. lnstiιuιe for Cognitive Science. Uruversity of CaliforιUa aι San Diego, 1988.

[19] Υ. Hirose, Κ. Yamashiιa and S. Hijiya Back-propagαtion Λlgorithm which νaries the Number of Hidden Units, Neural Neιwork$. 1.. 1991.

[20] J. Κruschke and J. Movellan Benefits ofGain : Speethd learning and minimal hidden layers in Back-propαgαtion networks, ΙΕΕΕ Transactions on Sysιems. Man and Cνbemetics. Vol. ll.. Ν ο . .!.

[21] L. Almeida Back-propαgαtion in Perceptrons with F eedb<Jck, In Neυrai Comouιers. Proceedings ofthe ΝΑΙΟ ARW on Neural Comouters. 1987.

[22] F. Pineda Recurrent Back-propagaιion and the Dynamical Λpproach to Λdaptiνe Neural Computation, Neural Comoutation. Vol. .!. 1989.

[23] R. Williams and D. 2Jpser Λ learning algorithm for continually running fully recurrent neurαl networks, Technical Reoort 8805. Institute for Cogniιive Science. University of Cal­iforιUa aι San Diego, 1988.

[24] Τ. Tollenaere SuperSΛB: Fast Λdaptiνe Back-propαgation with Good Scα/ing Properties, Neural Neιworks. Vol. .l.. 1990.

[25] S. Fahlman Λn Empirical Study of Leαrning Speed in Bαck-propagation Networks, CMU-CS-88-162. Departrnent of Compuιer Scicnce. Camegie Mellon Uruversity.

[26] G. Tesauro Scαlίng relationships in baclφropαgation learning, Complex Systems. Vol. .!. 1987.

[27] G. RJchards lnνestigαtion of α layerednetwork as αn associαtiνe memory, Ncura1 Networks Suoolement: JNNS Abstracts. 1. 213. 1988.

[28] Ε. Baum Generαlizing baclφropαgαtion to computation, In J. Denker (Ed.). ΑΙΡ Conference Proceedings 151: Neural Networks forcomputing. Ameήcan Instiιute ofPhysics, 1986.

[29] J. Denker The power of generalization in α baclφropagαtion network: Λ case study, Workshop on Neural Nctwork Devices and Applications. Jet Propulsion Laboratory, 1987.

[30] D. Psaltis and Μ. Neilie1d The emergence of generαlizαtion in networks with constrαined representation, Proceedings of the IEEE Intemational Conference on Neura) Networks, Vol. .!. 1988.

[31 J Μ. Κlassen, Υ -Η Pao and Υ. Chen Characteristics if the functionallink net: Λ higher orthr deltα ru/e net, Proceedings of the ΙΕΕΕ lntemational Conference on Neural Networks. Vol. .!. 1988.

[32] Α. Lapedes and R. Faber How neurai networks work, In D. Anderson (Ed.). Prσceedings of the 1987 ΙΕΕΕ Conference on Neura) Information Systems- Natural and Svnthetic. Ameήcan Instiωιe of Physics, 1988.

(33] Ι. Longsιaff and J. Cross Λ pattern recognition approach to understαnding the multilayer pereceptron, Pattem Recognition LetJers, Vol. .1.. 1987.

[34] R. Kuczewski, Μ. Myers and W. Crawford Exploration of backwαrd error propαgαtion as α se/f-orgαnized sιructure, Proceedings of the ΙΕΕΕ First lntemational Conference on Neural Networks. Vol. !L 1987.

[35] J. Mclnemy, Κ. Haines, S. Biafore and R. Hecht-Nielsen Cαn error surfαces traνersed by baclφropαgαtion haνe local error minima:?, Pιvceedings ofιhe IEEE/INNS lntemationaJ l2.i!ll,ςonference on Neura) Neιworks. in review.

[36] D. Woods Back and counter propαgαtion abberαtions, Prσceedings ofthe JEEE First Inιemational Conference on Neural Networks. Vol. 11988.

Page 24: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

1 ~0 Τr.χν . Χρον. Β. 1992, Τόμ. 12. ΊΊ:i•χο; Ι

[37] J. Bemasconi Analysis and comparison of different leαrning algorithms for pαttern associα­tion problems, ln D. Anderson CEd.). Proceedings of ιhe 1987 ΙΕΕΕ Conferencc on Neural lnfoπnation Systems- Natyra1 and Svnthetic. Ameήcan lnstitute ofPhysics, 1988.

[38] W. Huang and R. Lippmann Neural Networks αnd traditional classi[ιer.r,ln D. Anderson {Ed.). Procee<Ιings of the 1987 ΙΕΕΕ Conference on Neura1 Infonnation Sysιems -- Natural and Svnthetic. Ameήcan lnstitute ofPhysics, 1988.

[39] Ρ. Wasseπnan Neural Computing, Theory αnd Practice, Van Nostraηd Reinho1d. New York:, 1989.

[40] D. Pomeήeau ALVTNN: An Autonomou.r lAJid Vehicle in α Neural Network, In Adyances in Neurallnfoπnatlon Processing Sysιems 1. D. Touretzlc:y ed., San Mateo, CA: Morgan Κauf­mann Publisher, 1989.

[411 D. Β υπ Experi~nt.r on Neurαl Net Recognition of Spolan αnd Written Text, .mim Transactions on AcouS{ics and Signal frocessjng. Vol. ~ Νο. 1.. 1988.

[421 Α. Iwata, Τ. Tohma, Η. Matsuo and Ν. Suzumura Α l.Arge Scαle Neurαl Network "CombNEI" αnd it.r applicαtion ιο Chine.re Character Recognition, Proceedings of the Intemational Neural Neιwork:s Conference. Paήs,Jώy 1990.

[43] Κ. Fukushirna Α Neurαl Networkfor Vi.rua/ Pαttern Recognition, ΙΕΕΕ Computer. March 1988.

[441 Α. Κhotanzad and J. Lu Clas.fjficαtion of lnναriαnt Jmage Repre.rentαtion.r U.ring α Neurαl Network, ΙΕΕΕ Traηs. on Acoustics. Soeech. and Signal PJΌcessing. Vol.lt Νο. 2. 1990.

[45) S. Omatu, Μ. Fukumi and Μ. Teranisi Neural Network Model for Alphabetical Letter Recognίtion, Prσceedings of the Intemational Neura1 Network:s Conference. Paήs, Jώy 1990.

[46] G. Papadourakis, G. Bebis and Μ. Georgiopou1os Machine printed Chαrαcter Recognition u.ring Artifιciα/ Neural Networks, PrΌceedings of the lntemationa! Neural Network:s Conference. Paήs,Jώy 1990.

[47) G. Bebis and G. Papadouralι:.is lmplementation of Character Recognition u.ring Neural Net­works αnd Traditional Classifιers, Pιvceedinκs ofthe NEURONEΊ' Intemationa} Svmoosium on Neura1 Netwot1ts aηd Neural Computing. Prague, September 1990.

[48) Κ. Fuk.ushima and S. Miyake Neocognitron: Α new Algorithm for Pαttern Recognition Tolerαnt of Deformation.r αnd Shift.r in Position.r, Pattem Recoιmjtion. V οΙ. U, Ν ο. 2. 1982.

[49) J. Feldman Connectioni.rt Models and Parαlleli.rm in High Leνel Vi.rion, Comooιer Vision. Gnφhics and Image Pιvcessing. Vol. .11... 1985.

[50) G. Bebis Model-Based Object Recognition U.ring Multiresolution Segmentαtion and Neurαl Network Mode/s, Master Thesis. Department of Computer Science. Uniνersity of Creιe. July 1991.

[51) G. Bebis and G. Papadouralι:.is Object Recognition U.ring lnνariαnt Object Bound/lry Repre.rentαtion αnd Neurαl Network Mode/s, accepted for ooblication to the Pattem Recognition joumal.

[52) Τ. Kohonen Se/f-Organization and A.r.rociαtiνe Memory, Spήnger-Verlag. [53) Υ. Zllou, R. Oιellappa, Α. Vald and Β. Jenkins lmage Re.rtoration U.ring α Neurαl Network,

ΙΕΕΕ Traηsactioηs on Acoustics. and Signa! Pιvcessing. Vol. ~ Νο. 1.. 1988. [54) Α. τirakis, L. Suk.issian and S. Kollias An Adaptiνe Technique for Segmentation and

Clas.rificαtion ofTwured lmage.r, Pιvceedings ofιhe lntemational Neural Networks Conference. Paήs,Jώy 1990.

[55) Ρ. Xiang and D. Lane Finding the Dominant point.r ln 2D Pαttern.r with αn λrtίficiαl Neurαl Network, Procccdings oftbe Jntemational Neural Netwoι1ts Conference. July Paήs, 1990.

[56) Τ. Kohonen The Neural Phonetlc 'rypewriter, ΙΕΕΕ Comouter. March 1988.

Page 25: Artificial Neural Networks 11library.tee.gr/digital/techr/1992/techr_1992_b_12_1_107.pdf · In the second part of the paper, the Perceptron, the Adaline/Madaline, and ιhe mulιilayer

Tech. Chron.- Β, Greece, 1992, Vol. 12, Νο Ι

[57] Τ. Sejnowslά and C. Rosenberg NEΓtalk: α parallel network that learns to read aloud, contained in J. Α. Anderson arιd Ε. Rosenfeld Neurocomputing foundations and research, ΜΠ Press, Cambridge, Massachusetts, 1988.

nι:όρ)Ος Παπαδουράκης Ερευνητής, Ινστιτούτο Πληροφορικής - ΠΕ,

nώρ~ς Μπεμπής ΜεταπτυχιαΙCός φοι τητής, Τμήμα Επιστήμης Υπολογιστών, Πανεπιστήμιο Κρήτης,

131

Ταχ. θυρίδα 1385, Ηράκλειο, ΚΡΙΠΗ Ταχ. θυρίδα 1470, Ηράκλειο, ΚΡΙΠΗ

Επισκέπτης ΙCαθηΎ'lτής, Τμήμα Επιστήμης Υπολογιστών, Πανεπιστήμιο Κρήτης, Ταχ. θυρίδα 1470, Ηράκλειο, ΚΡΗ'fΙ-1