Control of a nonlinear non affine discrete system using neural networks and online training with...

Post on 16-Apr-2017

166 views 1 download

Transcript of Control of a nonlinear non affine discrete system using neural networks and online training with...

Αλγόριθμος Ενισχυτικής Μάθησης Για τη Ρύθμιση Διεργασιών Με

Κατασκευή Νευρωνικών Δικτύων Ακτινικής Βάσης Σε Πραγματικό

Χρόνο

Διπλωματική Εργασία Σχολή Χημικών Μηχανικών Ε.Μ.Π7 Ιουλίου 2015Επιβλέπων: Χ. ΣαρίμβεηςΠαναγιώτης Πετσαγκουράκης

2

Σκοπός•Ρύθμιση μη γραμμικού συστήματος, χωρίς καμία γνώση για τη δυναμική του

•Χρήση νευρωνικών δικτύων ακτινικής βάσης, εκπαιδευόμενα από μεθοδολογία ενισχυτικής μάθησης

•Επίτευξη αλλαγής ακόμα και της δομής των δικτύων σε πραγματικό χρόνο ξεκινώντας από 0 κόμβους

•Εφαρμογή 2 μεθοδολογιών σε διαφορετικά συστήματα με διαφορετική αλλαγή των επιθυμητών τιμών

7/7/2015

3

Περιεχόμενα•Ενισχυτική μάθηση

•Νευρωνικά δίκτυα

•Εισαγωγή στα νευρωνικά δίκτυα ακτινικής βάσης (RBF)

•Αλγόριθμος Ασαφών μέσων• Off-line εκδοχή• On-line εκδοχή

•Αλγόριθμος Ρύθμισης

•Αποτελέσματα (1)

•Τροποποίηση Μεθοδολογίας Ρύθμισης

•Αποτελέσματα (2)

•Συμπεράσματα

7/7/2015

4

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

5

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

6

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

7

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

8

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

9

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

10

Ενισχυτική Μάθηση: Εξίσωση Bellman

•Μορφές αυτής της εξίσωσης μπορεί να είναι:

πεπερασμένου ορίζοντα

𝐽( ) = 𝑘 γ ( + 1) 𝐽 𝑘 + ( ( ), ( )) απείρου ορίζοντα 𝑟 𝑥 𝑘 𝑢 𝑘

7/7/2015

11

Νευρωνικά Δίκτυα

7/7/2015

12

Νευρωνικά δίκτυα ακτινικής βάσης (RBF)

•Τα RBF δίκτυα είναι νευρωνικά δίκτυα πρόσθιας τροφοδότησης αποτελούμενα συνολικά από δύο επίπεδα (two layer network). Το πρώτο επίπεδο (εσωτερικό επίπεδο-hidden layer), αποτελείται από RBF νευρώνες. Ενώ το δεύτερο είναι ένας αθροιστής

•Υπάρχουν πολλά είδη ακτινικών συναρτήσεων βάσης, με τις κυριότερες να είναι η Γκαουσιανή (1), η spline λεπτής πλάκας (TPS) (2).

7/7/2015

13

Νευρωνικά δίκτυα ακτινικής βάσης (RBF)

•Τα RBF δίκτυα είναι νευρωνικά δίκτυα πρόσθιας τροφοδότησης αποτελούμενα συνολικά από δύο επίπεδα (two layer network). Το πρώτο επίπεδο (εσωτερικό επίπεδο-hidden layer), αποτελείται από RBF νευρώνες. Ενώ το δεύτερο είναι ένας αθροιστής

•Υπάρχουν πολλά είδη ακτινικών συναρτήσεων βάσης, με τις κυριότερες να είναι η Γκαουσιανή (1), η spline λεπτής πλάκας (TPS) (2).

(1)

(2)

κέντρο

Πλάτος νευρώνα

7/7/2015

14

Αλγόριθμος Ασαφών Μέσων•Ο αλγόριθμος FM δεν απαιτεί τον εκ των προτέρων καθορισμό του πλήθους των κόμβων της κρυφής στοιβάδας• Για δεδομένο αριθμό ασαφών συνόλων ο αλγόριθμος υπολογίζει μόνος του τη διάσταση της κρυφής

στοιβάδας. • Χρειάζεται μόνο ένα πέρασμα από τα δεδομένα εκπαίδευσης• Επαναληψιμότητα, αφού δεν εμπλέκεται η αρχική τυχαία επιλογή των κέντρων.

7/7/2015

15

• Διαμερισμός του χώρου• Υπολογισμός των

συναρτήσεων συνεισφοράς

• Εύρεση του κοντινότερου κέντρου

7/7/2015

16

• Διαμερισμός του χώρου• Υπολογισμός των

συναρτήσεων συνεισφοράς

• Εύρεση του κοντινότερου κέντρου

7/7/2015

17

• Διαμερισμός του χώρου• Υπολογισμός των

συναρτήσεων συνεισφοράς

• Εύρεση του κοντινότερου κέντρου

7/7/2015

18

Επιλογή ενός εκ των ήδη επιλεγμένων κέντρων ή δημιουργία νέου

Πρώτο κέντρο

Συνάρτηση απόστασης

7/7/2015

19

Αλγόριθμος Online Ασαφών Μέσων

• Αλλαγή του αλγορίθμου για την προσαρμογή και της δομής του δικτύου σε πραγματικό χρόνο

• Χρήση 2 πινάκων • Διάνυσμα ιστορικού ενεργοποίησης

(Activation History Vector - AHV)• Πίνακας τοποθεσίας κέντρων

(Center Location Matrix - CLM)

7/7/2015

20

Μεθοδολογία Ρύθμισης Μη Γραμμικών Συστημάτων Με Ενισχυτική Μάθηση

•Η μεθοδολογία ρύθμισης μη γραμμικών συστημάτων με ενισχυτική μάθηση (reinforcement learning) • Δύο νευρωνικά δίκτυα που αλληλεπιδρούν μεταξύ τους με τρόπο «ενέργειας-κριτικής»• Το πρώτο δίκτυο, επονομαζόμενο και ως ενέργειας (actor)

• Προσεγγίζει το μη γραμμικό κομμάτι του νόμου ελέγχου, παράγοντας έτσι ένα μέρος της ρυθμιστικής δράσης.

• Το δεύτερο δίκτυο, το οποίο ονομάζεται κριτής (critic), προσεγγίζει τη συνάρτηση κόστους με σκοπό να ανανεώνει τα βάρη του δικτύου ενέργειας.

7/7/2015

21

Δυναμικό σύστημα Το σύστημα το οποίο θα πρέπει να ρυθμιστεί είναι διακριτό, μη γραμμικό και περιγράφεται από τις ακόλουθες εξισώσεις

Μεταβλητή εισόδου

Μεταβλητή εξόδου

Τυχαία Διαταραχή

7/7/2015

22

Ορισμός σφάλματος ρύθμισης•Tη χρονική στιγμή k οι επιθυμητές τιμές της μεταβλητής εξόδου για την παρούσα αλλά και για της επόμενες χρονικές στιγμές συμβολίζονται με

•Σφάλμα ανάμεσα στην επιθυμητή τιμή και τη μεταβλητή εξόδου είναι

•Στην περίπτωση όπου ισχύει για κάθε τιμή του από 0 έως τότε ισχύει ότι

7/7/2015

23

Σχεδιασμός Ρυθμιστή (1)•Η σχέση που περιγράφει τη συμπεριφορά της μεταβλητής εξόδου μπορεί να περιγραφεί από μια εξίσωση της μορφής:

•Η μετατροπή της εξίσωσης σε αυτή τη μορφή είναι απαραίτητη για τη συνέχεια του σχεδιασμού

• m λαμβάνει την τιμή n όταν ισχύει η προηγούμενη περίπτωση • διαφορετικά η τιμή είναι 1

• Το σήμα εισόδου ορίζεται ως

ρυθμιστής ανατροφοδότησης που έχει ως στόχο να κάνει ευσταθή τη γραμμικοποιημένη μορφή του σφάλματος

προσαρμοστικός ρυθμιστής που σκοπεύει να προσεγγίσει την συνάρτηση .

7/7/2015

24

Σχεδιασμός Ρυθμιστή (2) Σύμφωνα με τα παραπάνω, η μπορεί να γραφεί ως εξής:

Άρα, επειδή το προσεγγίζει την ισχύει:

Ενώ το ορίζεται ως εξής

με

7/7/2015

25

Σχεδιασμός Ρυθμιστή(3) Οι τιμές του λ επιλέγονται έτσι ώστε να είναι το σύστημα ευσταθές και άρα, βρίσκονται εντός του μοναδιαίου κύκλου

(

Πλέον μπορεί προκύψει εύκολα:

με και

Αν υπάρχει τέτοιο ώστε αγνοώντας τη διαταραχή

•το σύστημα μετατρέπεται σε γραμμικό, και ευσταθές

•οι τιμές του λ έχουν επιλεγεί ώστε ο πίνακας Α να είναι ευσταθής

7/7/2015

26

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(1)

Ορίζεται η συνάρτηση κόστους όπως περιγράφεται από την παρακάτω εξίσωση:

όπου

•βοηθητική συνάρτηση

•αναδεικνύει αν η επίδοση είναι καλή ή όχι

•Νp ο ορίζοντας ρύθμισης

όπου και ε αποτελούν μεταβλητές σχεδιασμού.

7/7/2015

27

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(2):Εξίσωση Bellman

Η συνάρτηση κόστους μπορεί να μετατραπεί σε εξίσωση Bellman

Έτσι, το σφάλμα πρόβλεψης προσδιορίζεται ως εξής:

όπου η έξοδος του δικτύου κριτή.

Στόχος της εκπαίδευσης του δικτύου είναι η ελαχιστοποίηση του σφάλματος:

7/7/2015

28

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(3):gradient decent

Η ελαχιστοποίηση γίνεται μέσω της μεθόδου gradient decent όπου:

με να είναι ο ρυθμός μάθησης. Με βάση την παραπάνω εξίσωση προκύπτει ότι:

7/7/2015

29

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Ενέργειας(1)

•Σφάλμα του δικτύου είναι , με , και επειδή το νευρωνικό δίκτυο έχει ως έξοδο τη προσέγγιση της ισχύει ότι:

Στόχος είναι και πάλι η ελαχιστοποίηση του σφάλματος:

7/7/2015

30

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Ενέργειας(2):gradient decent

Η ελαχιστοποίηση γίνεται μέσω της μεθόδου gradient decent όπου:

με να αποτελεί τον ρυθμό μάθησης. Άρα:

με ,

Ωστόσο η διαταραχή d κατά βάση είναι άγνωστη και θεωρείται 0 για τη διαδικασία της μάθησης. Άρα:

7/7/2015

31

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο:Διαδικασία Εκπαίδευσης

•Η παραπάνω διαδικασία μάθησης χρησιμοποιείται όταν η δομή του νευρωνικού δικτύου (δηλαδή το πλήθος των νευρώνων της εσωτερικής στοιβάδας) παραμένει σταθερή• Η προτεινόμενη μεθοδολογία επιτρέπει τη μεταβολή της δομής

• Στην αρχικοποίηση της μεθοδολογίας δεν υπάρχει καμία γνώση για το σύστημα• Ξεκινάει με μηδέν νευρώνες στην κρυφή στοιβάδα• Η δομή του δικτύου κατασκευάζεται σταδιακά με τη συλλογή πληροφοριών από το σύστημα κατά τη δυναμική λειτουργία του

•Σε περίπτωση που υπάρξει αλλαγή της δομής• Η διαδικασία ανανέωσης των βαρών διαφοροποιείται • Ακολουθούνται δύο διαφορετικές τακτικές ανάλογα με το πρόβλημα:

• ‘παρακολούθησης τροχιάς’ (tracking trajectory)• ‘αλλαγής της επιθυμητής τιμής’

7/7/2015

32

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο:Διαδικασία Εκπαίδευσης

1. Στην πρώτη περίπτωση

•Tα βάρη αναπροσαρμόζονται στα ιστορικά δεδομένα με τη μέθοδο της γραμμικής παλινδρόμησης• αν έχει διαγραφεί νευρώνας της κρυφής στοιβάδας, εφαρμόζεται επιπλέον η μέθοδος gradient decent.

2. Στη δεύτερη περίπτωση

•H εκπαίδευση συνεχίζεται με τη μέθοδο gradient decent• όταν προστίθεται νευρώνας, αυτός αποκτά αρχικά βάρος σύνδεσης με τη στοιβάδα εξόδου, που αντιστοιχεί στο

αμέσως προηγούμενο κέντρο που προστέθηκε στο δίκτυο.

• Στη μεθοδολογία που παρουσιάζεται, αποτελούν παραμέτρους σχεδιασμού• Η χρονική στιγμή Nd, όπου από εκεί και πέρα επιτρέπεται η δυνατότητα αφαίρεσης νευρώνων της κρυφής στοιβάδας• Η χρονική στιγμή Nmax στην οποία σταματούν οι μεταβολές στη δομή των δικτύων• Το πλήθος των ιστορικών δεδομένων Ns που αποθηκεύονται στη περίπτωση που εφαρμόζονται ελάχιστα τετράγωνα• Ο αριθμός των ασαφών υποχώρων s, που ορίζονται σε κάθε μεταβλητή εισόδου

7/7/2015

33

Σχηματικά ο Αλγόριθμος

7/7/2015

34

Σύγκριση σφαλμάτων των δύο μεθόδων

Αξιολόγιση των αποτελεσμάτων έγινε με το άθροισμα των τετραγώνων των σφαλμάτων

sum of squared errors (SSE)

7/7/2015

35

Αποτελέσματα:Εφαρμογή 1

Η προτεινόμενη μεθοδολογία εφαρμόστηκε με επιτυχία σε δύο περιπτώσεις. Η πρώτη περίπτωση αφορά σε ένα πρόβλημα, το οποίο μελετήθηκε από τους X. Yang et al.

όπου η μεταβλητή εκ χειρισμού και η εξωτερική διαταραχή.

Στόχος η ακολούθηση της τροχιάς:

•Παράμετροι σχεδιασμού • λ1=1, λ2=0.25, Νd=300, Ns=300, Nmax=350, s=10, α=2, lc=0.1, lα=0.1• Σημειώνεται ότι και για τα δύο νευρωνικά δίκτυα χρησιμοποιήθηκαν οι ίδιες τιμές των παραμέτρων• Το σύστημα να ξεκινά από την αρχική κατάσταση ,

7/7/2015

36

Παρακολούθηση Τροχιάς (Περίπτωση 1.1) SSE=0.897

0 200 400 600 800 1000 1200 1400 1600 1800 2000-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

k

y

yyd

7/7/2015

37

Σφάλμα & πορεία αλλαγών της δομής

0 200 400 600 800 1000 1200 1400 1600 1800 20001

2

3

4

5

6

7

8

k

L

LactorLcritic

7/7/2015

38

Ίδιες Παράμετροι Μη Συμμετρική Διαμέριση (1.2)

k0 500 1000 1500 2000

y(k)

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8yyd

SSE=0.883

7/7/2015

39

Χρήση περισσότερων κέντρων μεγαλύτερων νευρωνικών δικτύων σε σχέση με πριν

7/7/2015

40

Στο σύστημα αυτό έγινε απόπειρα να ακολουθηθεί διαφορετικές μορφές επιθυμειτών τιμών. Ο αλγόριθμος αναγνωρίζει πότε οι επιθυμειτές τιμές είναι σταθερές ή όχι, μεσω μιας μεταβλητής που αντιλαμβάνεται αν την συγκεκριμένη χρονική στιγμή επιθυμειτή τιμή είνα ίδια με την προηγούμενη στιγμλη

Περίπτωση1.3

7/7/2015

41

Στο σημείο αυτό ο ρυθμιστής προσπαθεί να προσαρμοστεί στην πολύ διαφορετική πορεία των επιθυμειτών τιμών

SSE= 1.19

7/7/2015

42

H προσπάθεια προσαρμογής του ρυθμιστή είναι φανερή και σε αυτό το διάγραμμα, όπου το μέγιστο σφάλμα εμφανίζεται στην απότομη αλλαγή της επιθυμειτής τιμής.

7/7/2015

43

Αποτελέσματα:Εφαρμογή 2

•Η δεύτερη περίπτωση, στην οποία εφαρμόστηκε η προτεινόμενη μεθοδολογία, αφορά σε ένα πρόβλημα ρύθμισης του ενδιάμεσου προϊόντος που παράγεται από έναν αντιδραστήρα CSTR.

• Στον αντιδραστήρα εισέρχονται με διαφορετικές ροές • Το ενδιάμεσο προϊόν (Β) • Το αντιδρών (Α)• Η μεταβλητή εκ χειρισμού είναι η ογκομετρική παροχή του Β• Το Β συμμετέχει στη κινητική της παραγωγής του

7/7/2015

44

Σχηματικά το Εφαρμογή 2

7/7/2015

45

Αποτελέσματα:Εφαρμογή 2

•Τα παραπάνω ισοζύγια καταστρώθηκαν σε συνεχή χρόνο

•Διακριτοποίηση με τη μέθοδο zero order hold (ΖΟΗ) με χρόνο δειγματοληψίας 0.1

•Οι σταθερές τιμές στις παραπάνω εξισώσεις είναι k1=0.5 sec-1, k2=1 sec-1, QA=10 L/sec, CA0=5 mol/L, CB0=10 mol/L, V = 1 L ενώ αρχικά οι συγκεντρώσεις στον αντιδραστήρα είναι CA(0)=0 mol/L, CB(0)=5 mol/L

7/7/2015

46

ΔιαταραχήΔιαχωρήστηκαν 2 προβλήματα ανάλογα με το είδος της διαταραχής. Αρχικά, έγινε θεωρήθηκε μια ημιτονοειδής διαταραχή (περίπτωση 2.1)

d(k)=cos(0.001 k)

Ενώ, θεωρήθηκε, σε άλλο πρόβλημα ότι οι διαταραχές επιλέγονται τυχαία από ομοιόμορφες κατανομές με όρια [0 1] στην περίπτωση της παροχής και [0 0.01] στην περίπτωση των μετρήσεων των συγκεντρώσεων. (περίπτωση 2.2)

7/7/2015

47

Αποτελέσματα συνημιτονειδούς διαταραχής (2.1) SSE= 0.786

k0 200 400 600 800 1000 1200

CB(k)

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1CBCBd

7/7/2015

48

Αποτελέσματα τυχαίας διαταραχής (2.2)SSE= 0.799

k200 400 600 800 1000 1200

L

1

1.5

2

2.5

3

3.5

4Lstory

a

Lstoryc

7/7/2015

49

Τροποποίηση της συνάρτησης κόστους στην μεθοδολογία ενισχυτικής μάθησης•Σε αυτή την ενότητα θα χρησιμοποιηθεί διαφορετική συνάρτηση κόστους. Επίσης, είναι φανερό ότι με τον πρώτο ορισμό

ότι οι αποκρίσεις χωρίζονται απλά σε ικανοποιητικές και μη ικανοποιητικές.

•Πραγματοποιήθηκε αλλαγή στη συνάρτηση r(k) με σκοπό να είναι συνεχείς• Αναδεικνύεται με καλύτερο τρόπο το πόσο καλή είναι η απόκριση του συστήματος• Πλέον δεν χρειάζεται να συμβαίνει αυτό, με τον αλγόριθμο να αποδίδει με πολύ καλό τρόπο.

7/7/2015

50

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής-αλλαγή(1):Εξίσωση Bellman

Συνάρτηση κόστους

𝐽( ( ), ( )) =𝑥 𝑘 𝑢 𝑘Όπου 0<γ≤1 αποτελεί τον εκπτωτικό παράγοντα για προβλήματα απείρου ορίζοντα,

ενώ το r ισχύει

𝑟( ( ), ( )) = ( )𝑥 𝑘 𝑢 𝑘 𝑒 𝑘 T ( ) + ( ( ) − ( − 1))𝑄𝑒 𝑘 𝑢 𝑘 𝑢 𝑘 𝑇 ( ( ) − ( − 1))𝑅 𝑢 𝑘 𝑢 𝑘

7/7/2015

51

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής-αλλαγή(2):Εξίσωση Bellman

𝐽( ) = 𝑘 γ ( + 1) 𝐽 𝑘 + ( ( ), ( ))𝑟 𝑥 𝑘 𝑢 𝑘 Έτσι, το σφάλμα πρόβλεψης προσδιορίζεται ως εξής:

όπου η έξοδος του δικτύου κριτή.

Ελαχιστοποίηση του σφάλματος:

7/7/2015

52

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής -αλλαγή(3):gradient decent

Η ελαχιστοποίηση γίνεται μέσω της μεθόδου gradient decent όπου:

με να είναι ο ρυθμός μάθησης. Με βάση την παραπάνω εξίσωση προκύπτει ότι:

7/7/2015

53

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(4):Διαδικασία Εκπαίδευσης

•Σε περίπτωση που υπάρξει αλλαγή της δομής

•Τα βάρη αναπροσαρμόζονται στα ιστορικά δεδομένα με τη μέθοδο της γραμμικής παλινδρόμησης

•Αν έχει διαγραφεί νευρώνας της κρυφής στοιβάδας, εφαρμόζεται επιπλέον η μέθοδος gradient decent.

7/7/2015

54

Αποτελέσματα: Εφαρμογή 1 Περίπτωση 1.2

7/7/2015

55

Απόκριση και μεταβολή της δομής των δικτύων (1.2) SSE= 0.837

k0 500 1000 1500 2000

L

1

2

3

4

5

6

7

8

9

10Lstory

a

Lstoryc

k0 500 1000 1500 2000

y(k)

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8yyd

7/7/2015

56

Περίπτωση 1.3Στο προηγούμενο κεφάλαιο χρειάστηκε ο αλγόριθμος να αντιλαμβάνεται το είδοςτων επιθυμητών τιμών και να αλλάζει έτσι τον τρόπο εκπαίδευσης, σε αυτή τηνπερίπτωση δεν χρειάζεται να συμβαίνει αυτό, με τον αλγόριθμος να αποδίδει μεπολύ καλό τρόπο.

7/7/2015

57

Περίπτωση 1.3 SSE= 1.05

k0 500 1000 1500 2000

L

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

6Lstory

a

Lstoryc

k0 500 1000 1500 2000

y(k)

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5yyd

7/7/2015

58

Εφαρμογή 2 Εφαρμόζοντας την εν λόγω μεθοδολογία στον αντιδραστήρα

με τις παράλληλες αντιδράσεις, το αποτέλεσμα είναι και εδώ

βελτιωμένο για κάθε μια από τις δύο περιπτώσεις διαταραχών.

7/7/2015

59

Αποτελέσματα συνημιτοειδούς διαταραχής (2.1) SSE= 0.511

k200 400 600 800 1000 1200

L

1

1.5

2

2.5

3

3.5

4Lstory

a

Lstoryc

7/7/2015

60

Αποτελέσματα τυχαίας διαταραχής (2.2)SSE=0.521

k200 400 600 800 1000 1200

L

0

0.5

1

1.5

2

2.5

3

3.5

4Lstory

a

Lstoryc

7/7/2015

61

Χημικός αντιδραστήρας με εξώθερμη αντίδραση (Εφαρμογή 3)

•Η νέα μεθοδολογία ρύθμισης εφαρμόστηκε και σε ένα τρίτο παράδειγμα ρύθμισης της συγκέντρωσης του ρεύματος εξόδου ως προς ένα συστατικό χρησιμοποιώντας ως μεταβλητή εκ χειρισμού τη θερμοκρασία της ροής θερμότητας.

•Χωρίς καμία γνώση για το σύστημα πρέπει η συγκέντρωση να ακολουθήσει τις συνεχόμενες βηματικές επιβολές στις επιθυμητές τιμές

•Θεωρείται ότι υπάρχουν άγνωστες τυχαίες διαταραχές • Στο ίδιο το σύστημα, επιλέγονται τυχαία από ομοιόμορφες κατανομές με όρια [0 0.01] • Στη μέτρηση των μεταβλητών κατάστασης, επιλέγονται τυχαία από ομοιόμορφες κατανομές με όρια [0

0.001]

•Ο χρόνος δειγματοληψίας είναι 0.5 sec. Οι τιμές των παραμέτρων

7/7/2015

62

Χημικός αντιδραστήρας με εξώθερμη αντίδραση (Εφαρμογή 3)

Όπου

•Επίσης η μεταβλητή εξόδου, που επιθυμείται να ρυθμιστεί σε συγκεκριμένη τιμή, μετά την κανονικοποίηση είναι η μετατροπή y=x1 .

7/7/2015

63

Στο παράδειγμα αυτό μελετήθηκε και η περίπτωση όπου μειώνεται το β κατά τη διάρκεια της λειτουργίας του αντιδραστήρα λόγο επικαθήσεων. Το β ξεκινάει να μειώνεται όταν k=500 καιφτάνει την μισή τιμή (0.15) στο τέλος.

7/7/2015

64

Περίπτωση 3.1 SSE=1.12

k200 400 600 800 1000 1200 1400

y(k)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8yyd

k200 400 600 800 1000 1200 1400

L

1

1.5

2

2.5

3

3.5

4

4.5

5Lstory

a

Lstoryc

7/7/2015

65

Περίπτωση 3.2 SSE=1.13

k200 400 600 800 1000 1200 1400

L

1

1.5

2

2.5

3

3.5

4

4.5

5Lstory

a

Lstoryc

k200 400 600 800 1000 1200 1400

y(k)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7yyd

Ξεκινάει να μειώνεται το β

7/7/2015

66

Σύγκριση σφαλμάτων των δύο μεθόδων

Πρώτη Μεθοδολογία Ρύθμισης Τροποποιημένη Μεθοδολογία

Εφαρμογή 1, Περίπτωση 1.1 0.897 -

Εφαρμογή 1, Περίπτωση 1.2 0.883 0.837

Εφαρμογή 1, Περίπτωση 1.3 1.19 1.05

Εφαρμογή 2, Περίπτωση 2.1 0.786 0.511

Εφαρμογή 2, Περίπτωση 2.2 0.799 0.521

Εφαρμογή 3, Περίπτωση 3.1 - 1.12

Εφαρμογή 3, Περίπτωση 3.2 - 1.13

7/7/2015

67

Συμπεράσματα•Παρουσιάστηκαν 2 καινοτόμες μεθοδολογίες για τη ρύθμιση συστημάτων που συνδυάζουν τα τεχνητά νευρωνικά δίκτυα με την αρχή της ενισχυτικής μάθησης.

•Πλεονέκτημα των μεθοδολογιών:• Επιτρέπουν την κατασκευή των δικτύων από μηδενική βάση • Πλήρη αναπροσαρμογή τους με βάση τις πληροφορίες που συλλέγονται κατά τη διάρκεια λειτουργίας του συστήματος • Σε αντίθεση με άλλες μεθοδολογίες που έχουν προταθεί στη βιβλιογραφία-Σταθερή δομή επιλογή από πριν

•Η πρώτη μέθοδος παρουσίασε ένα μειονέκτημα• Σε κάθε περίπτωση έπρεπε να αναγνωρίζει ποίoς είναι ο τρόπος που αλλάζουν οι επιθυμητές τιμές • Να εφαρμόζει διαφορετική τεχνική εκπαίδευσης

• Η δεύτερη μεθοδολογία • Πεδίο τιμών της βοηθητικής συνάρτησης r(k) είναι συνεχές• Ο δεύτερος αλγόριθμος σύμφωνα και με το άθροισμα των τετραγώνων των σφαλμάτων (SSE) βρέθηκε να έχει

καλύτερη συμπεριφορά

7/7/2015

68

Ευχαριστώ πολύ για την προσοχή σας...Ερωτήσεις..??

7/7/2015