Control of a nonlinear non affine discrete system using neural networks and online training with...

68
Αλγόριθμος Ενισχυτικής Μάθησης Για τη Ρύθμιση Διεργασιών Με Κατασκευή Νευρωνικών Δικτύων Ακτινικής Βάσης Σε Πραγματικό Χρόνο Διπλωματική Εργασία Σχολή Χημικών Μηχανικών Ε.Μ.Π 7 Ιουλίου 2015 Επιβλέπων: Χ. Σαρίμβεης Παναγιώτης Πετσαγκουράκης

Transcript of Control of a nonlinear non affine discrete system using neural networks and online training with...

Page 1: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

Αλγόριθμος Ενισχυτικής Μάθησης Για τη Ρύθμιση Διεργασιών Με

Κατασκευή Νευρωνικών Δικτύων Ακτινικής Βάσης Σε Πραγματικό

Χρόνο

Διπλωματική Εργασία Σχολή Χημικών Μηχανικών Ε.Μ.Π7 Ιουλίου 2015Επιβλέπων: Χ. ΣαρίμβεηςΠαναγιώτης Πετσαγκουράκης

Page 2: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

2

Σκοπός•Ρύθμιση μη γραμμικού συστήματος, χωρίς καμία γνώση για τη δυναμική του

•Χρήση νευρωνικών δικτύων ακτινικής βάσης, εκπαιδευόμενα από μεθοδολογία ενισχυτικής μάθησης

•Επίτευξη αλλαγής ακόμα και της δομής των δικτύων σε πραγματικό χρόνο ξεκινώντας από 0 κόμβους

•Εφαρμογή 2 μεθοδολογιών σε διαφορετικά συστήματα με διαφορετική αλλαγή των επιθυμητών τιμών

7/7/2015

Page 3: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

3

Περιεχόμενα•Ενισχυτική μάθηση

•Νευρωνικά δίκτυα

•Εισαγωγή στα νευρωνικά δίκτυα ακτινικής βάσης (RBF)

•Αλγόριθμος Ασαφών μέσων• Off-line εκδοχή• On-line εκδοχή

•Αλγόριθμος Ρύθμισης

•Αποτελέσματα (1)

•Τροποποίηση Μεθοδολογίας Ρύθμισης

•Αποτελέσματα (2)

•Συμπεράσματα

7/7/2015

Page 4: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

4

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

Page 5: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

5

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

Page 6: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

6

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

Page 7: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

7

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

Page 8: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

8

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

Page 9: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

9

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

Page 10: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

10

Ενισχυτική Μάθηση: Εξίσωση Bellman

•Μορφές αυτής της εξίσωσης μπορεί να είναι:

πεπερασμένου ορίζοντα

𝐽( ) = 𝑘 γ ( + 1) 𝐽 𝑘 + ( ( ), ( )) απείρου ορίζοντα 𝑟 𝑥 𝑘 𝑢 𝑘

7/7/2015

Page 11: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

11

Νευρωνικά Δίκτυα

7/7/2015

Page 12: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

12

Νευρωνικά δίκτυα ακτινικής βάσης (RBF)

•Τα RBF δίκτυα είναι νευρωνικά δίκτυα πρόσθιας τροφοδότησης αποτελούμενα συνολικά από δύο επίπεδα (two layer network). Το πρώτο επίπεδο (εσωτερικό επίπεδο-hidden layer), αποτελείται από RBF νευρώνες. Ενώ το δεύτερο είναι ένας αθροιστής

•Υπάρχουν πολλά είδη ακτινικών συναρτήσεων βάσης, με τις κυριότερες να είναι η Γκαουσιανή (1), η spline λεπτής πλάκας (TPS) (2).

7/7/2015

Page 13: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

13

Νευρωνικά δίκτυα ακτινικής βάσης (RBF)

•Τα RBF δίκτυα είναι νευρωνικά δίκτυα πρόσθιας τροφοδότησης αποτελούμενα συνολικά από δύο επίπεδα (two layer network). Το πρώτο επίπεδο (εσωτερικό επίπεδο-hidden layer), αποτελείται από RBF νευρώνες. Ενώ το δεύτερο είναι ένας αθροιστής

•Υπάρχουν πολλά είδη ακτινικών συναρτήσεων βάσης, με τις κυριότερες να είναι η Γκαουσιανή (1), η spline λεπτής πλάκας (TPS) (2).

(1)

(2)

κέντρο

Πλάτος νευρώνα

7/7/2015

Page 14: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

14

Αλγόριθμος Ασαφών Μέσων•Ο αλγόριθμος FM δεν απαιτεί τον εκ των προτέρων καθορισμό του πλήθους των κόμβων της κρυφής στοιβάδας• Για δεδομένο αριθμό ασαφών συνόλων ο αλγόριθμος υπολογίζει μόνος του τη διάσταση της κρυφής

στοιβάδας. • Χρειάζεται μόνο ένα πέρασμα από τα δεδομένα εκπαίδευσης• Επαναληψιμότητα, αφού δεν εμπλέκεται η αρχική τυχαία επιλογή των κέντρων.

7/7/2015

Page 15: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

15

• Διαμερισμός του χώρου• Υπολογισμός των

συναρτήσεων συνεισφοράς

• Εύρεση του κοντινότερου κέντρου

7/7/2015

Page 16: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

16

• Διαμερισμός του χώρου• Υπολογισμός των

συναρτήσεων συνεισφοράς

• Εύρεση του κοντινότερου κέντρου

7/7/2015

Page 17: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

17

• Διαμερισμός του χώρου• Υπολογισμός των

συναρτήσεων συνεισφοράς

• Εύρεση του κοντινότερου κέντρου

7/7/2015

Page 18: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

18

Επιλογή ενός εκ των ήδη επιλεγμένων κέντρων ή δημιουργία νέου

Πρώτο κέντρο

Συνάρτηση απόστασης

7/7/2015

Page 19: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

19

Αλγόριθμος Online Ασαφών Μέσων

• Αλλαγή του αλγορίθμου για την προσαρμογή και της δομής του δικτύου σε πραγματικό χρόνο

• Χρήση 2 πινάκων • Διάνυσμα ιστορικού ενεργοποίησης

(Activation History Vector - AHV)• Πίνακας τοποθεσίας κέντρων

(Center Location Matrix - CLM)

7/7/2015

Page 20: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

20

Μεθοδολογία Ρύθμισης Μη Γραμμικών Συστημάτων Με Ενισχυτική Μάθηση

•Η μεθοδολογία ρύθμισης μη γραμμικών συστημάτων με ενισχυτική μάθηση (reinforcement learning) • Δύο νευρωνικά δίκτυα που αλληλεπιδρούν μεταξύ τους με τρόπο «ενέργειας-κριτικής»• Το πρώτο δίκτυο, επονομαζόμενο και ως ενέργειας (actor)

• Προσεγγίζει το μη γραμμικό κομμάτι του νόμου ελέγχου, παράγοντας έτσι ένα μέρος της ρυθμιστικής δράσης.

• Το δεύτερο δίκτυο, το οποίο ονομάζεται κριτής (critic), προσεγγίζει τη συνάρτηση κόστους με σκοπό να ανανεώνει τα βάρη του δικτύου ενέργειας.

7/7/2015

Page 21: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

21

Δυναμικό σύστημα Το σύστημα το οποίο θα πρέπει να ρυθμιστεί είναι διακριτό, μη γραμμικό και περιγράφεται από τις ακόλουθες εξισώσεις

Μεταβλητή εισόδου

Μεταβλητή εξόδου

Τυχαία Διαταραχή

7/7/2015

Page 22: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

22

Ορισμός σφάλματος ρύθμισης•Tη χρονική στιγμή k οι επιθυμητές τιμές της μεταβλητής εξόδου για την παρούσα αλλά και για της επόμενες χρονικές στιγμές συμβολίζονται με

•Σφάλμα ανάμεσα στην επιθυμητή τιμή και τη μεταβλητή εξόδου είναι

•Στην περίπτωση όπου ισχύει για κάθε τιμή του από 0 έως τότε ισχύει ότι

7/7/2015

Page 23: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

23

Σχεδιασμός Ρυθμιστή (1)•Η σχέση που περιγράφει τη συμπεριφορά της μεταβλητής εξόδου μπορεί να περιγραφεί από μια εξίσωση της μορφής:

•Η μετατροπή της εξίσωσης σε αυτή τη μορφή είναι απαραίτητη για τη συνέχεια του σχεδιασμού

• m λαμβάνει την τιμή n όταν ισχύει η προηγούμενη περίπτωση • διαφορετικά η τιμή είναι 1

• Το σήμα εισόδου ορίζεται ως

ρυθμιστής ανατροφοδότησης που έχει ως στόχο να κάνει ευσταθή τη γραμμικοποιημένη μορφή του σφάλματος

προσαρμοστικός ρυθμιστής που σκοπεύει να προσεγγίσει την συνάρτηση .

7/7/2015

Page 24: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

24

Σχεδιασμός Ρυθμιστή (2) Σύμφωνα με τα παραπάνω, η μπορεί να γραφεί ως εξής:

Άρα, επειδή το προσεγγίζει την ισχύει:

Ενώ το ορίζεται ως εξής

με

7/7/2015

Page 25: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

25

Σχεδιασμός Ρυθμιστή(3) Οι τιμές του λ επιλέγονται έτσι ώστε να είναι το σύστημα ευσταθές και άρα, βρίσκονται εντός του μοναδιαίου κύκλου

(

Πλέον μπορεί προκύψει εύκολα:

με και

Αν υπάρχει τέτοιο ώστε αγνοώντας τη διαταραχή

•το σύστημα μετατρέπεται σε γραμμικό, και ευσταθές

•οι τιμές του λ έχουν επιλεγεί ώστε ο πίνακας Α να είναι ευσταθής

7/7/2015

Page 26: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

26

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(1)

Ορίζεται η συνάρτηση κόστους όπως περιγράφεται από την παρακάτω εξίσωση:

όπου

•βοηθητική συνάρτηση

•αναδεικνύει αν η επίδοση είναι καλή ή όχι

•Νp ο ορίζοντας ρύθμισης

όπου και ε αποτελούν μεταβλητές σχεδιασμού.

7/7/2015

Page 27: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

27

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(2):Εξίσωση Bellman

Η συνάρτηση κόστους μπορεί να μετατραπεί σε εξίσωση Bellman

Έτσι, το σφάλμα πρόβλεψης προσδιορίζεται ως εξής:

όπου η έξοδος του δικτύου κριτή.

Στόχος της εκπαίδευσης του δικτύου είναι η ελαχιστοποίηση του σφάλματος:

7/7/2015

Page 28: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

28

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(3):gradient decent

Η ελαχιστοποίηση γίνεται μέσω της μεθόδου gradient decent όπου:

με να είναι ο ρυθμός μάθησης. Με βάση την παραπάνω εξίσωση προκύπτει ότι:

7/7/2015

Page 29: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

29

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Ενέργειας(1)

•Σφάλμα του δικτύου είναι , με , και επειδή το νευρωνικό δίκτυο έχει ως έξοδο τη προσέγγιση της ισχύει ότι:

Στόχος είναι και πάλι η ελαχιστοποίηση του σφάλματος:

7/7/2015

Page 30: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

30

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Ενέργειας(2):gradient decent

Η ελαχιστοποίηση γίνεται μέσω της μεθόδου gradient decent όπου:

με να αποτελεί τον ρυθμό μάθησης. Άρα:

με ,

Ωστόσο η διαταραχή d κατά βάση είναι άγνωστη και θεωρείται 0 για τη διαδικασία της μάθησης. Άρα:

7/7/2015

Page 31: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

31

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο:Διαδικασία Εκπαίδευσης

•Η παραπάνω διαδικασία μάθησης χρησιμοποιείται όταν η δομή του νευρωνικού δικτύου (δηλαδή το πλήθος των νευρώνων της εσωτερικής στοιβάδας) παραμένει σταθερή• Η προτεινόμενη μεθοδολογία επιτρέπει τη μεταβολή της δομής

• Στην αρχικοποίηση της μεθοδολογίας δεν υπάρχει καμία γνώση για το σύστημα• Ξεκινάει με μηδέν νευρώνες στην κρυφή στοιβάδα• Η δομή του δικτύου κατασκευάζεται σταδιακά με τη συλλογή πληροφοριών από το σύστημα κατά τη δυναμική λειτουργία του

•Σε περίπτωση που υπάρξει αλλαγή της δομής• Η διαδικασία ανανέωσης των βαρών διαφοροποιείται • Ακολουθούνται δύο διαφορετικές τακτικές ανάλογα με το πρόβλημα:

• ‘παρακολούθησης τροχιάς’ (tracking trajectory)• ‘αλλαγής της επιθυμητής τιμής’

7/7/2015

Page 32: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

32

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο:Διαδικασία Εκπαίδευσης

1. Στην πρώτη περίπτωση

•Tα βάρη αναπροσαρμόζονται στα ιστορικά δεδομένα με τη μέθοδο της γραμμικής παλινδρόμησης• αν έχει διαγραφεί νευρώνας της κρυφής στοιβάδας, εφαρμόζεται επιπλέον η μέθοδος gradient decent.

2. Στη δεύτερη περίπτωση

•H εκπαίδευση συνεχίζεται με τη μέθοδο gradient decent• όταν προστίθεται νευρώνας, αυτός αποκτά αρχικά βάρος σύνδεσης με τη στοιβάδα εξόδου, που αντιστοιχεί στο

αμέσως προηγούμενο κέντρο που προστέθηκε στο δίκτυο.

• Στη μεθοδολογία που παρουσιάζεται, αποτελούν παραμέτρους σχεδιασμού• Η χρονική στιγμή Nd, όπου από εκεί και πέρα επιτρέπεται η δυνατότητα αφαίρεσης νευρώνων της κρυφής στοιβάδας• Η χρονική στιγμή Nmax στην οποία σταματούν οι μεταβολές στη δομή των δικτύων• Το πλήθος των ιστορικών δεδομένων Ns που αποθηκεύονται στη περίπτωση που εφαρμόζονται ελάχιστα τετράγωνα• Ο αριθμός των ασαφών υποχώρων s, που ορίζονται σε κάθε μεταβλητή εισόδου

7/7/2015

Page 33: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

33

Σχηματικά ο Αλγόριθμος

7/7/2015

Page 34: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

34

Σύγκριση σφαλμάτων των δύο μεθόδων

Αξιολόγιση των αποτελεσμάτων έγινε με το άθροισμα των τετραγώνων των σφαλμάτων

sum of squared errors (SSE)

7/7/2015

Page 35: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

35

Αποτελέσματα:Εφαρμογή 1

Η προτεινόμενη μεθοδολογία εφαρμόστηκε με επιτυχία σε δύο περιπτώσεις. Η πρώτη περίπτωση αφορά σε ένα πρόβλημα, το οποίο μελετήθηκε από τους X. Yang et al.

όπου η μεταβλητή εκ χειρισμού και η εξωτερική διαταραχή.

Στόχος η ακολούθηση της τροχιάς:

•Παράμετροι σχεδιασμού • λ1=1, λ2=0.25, Νd=300, Ns=300, Nmax=350, s=10, α=2, lc=0.1, lα=0.1• Σημειώνεται ότι και για τα δύο νευρωνικά δίκτυα χρησιμοποιήθηκαν οι ίδιες τιμές των παραμέτρων• Το σύστημα να ξεκινά από την αρχική κατάσταση ,

7/7/2015

Page 36: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

36

Παρακολούθηση Τροχιάς (Περίπτωση 1.1) SSE=0.897

0 200 400 600 800 1000 1200 1400 1600 1800 2000-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

k

y

yyd

7/7/2015

Page 37: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

37

Σφάλμα & πορεία αλλαγών της δομής

0 200 400 600 800 1000 1200 1400 1600 1800 20001

2

3

4

5

6

7

8

k

L

LactorLcritic

7/7/2015

Page 38: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

38

Ίδιες Παράμετροι Μη Συμμετρική Διαμέριση (1.2)

k0 500 1000 1500 2000

y(k)

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8yyd

SSE=0.883

7/7/2015

Page 39: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

39

Χρήση περισσότερων κέντρων μεγαλύτερων νευρωνικών δικτύων σε σχέση με πριν

7/7/2015

Page 40: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

40

Στο σύστημα αυτό έγινε απόπειρα να ακολουθηθεί διαφορετικές μορφές επιθυμειτών τιμών. Ο αλγόριθμος αναγνωρίζει πότε οι επιθυμειτές τιμές είναι σταθερές ή όχι, μεσω μιας μεταβλητής που αντιλαμβάνεται αν την συγκεκριμένη χρονική στιγμή επιθυμειτή τιμή είνα ίδια με την προηγούμενη στιγμλη

Περίπτωση1.3

7/7/2015

Page 41: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

41

Στο σημείο αυτό ο ρυθμιστής προσπαθεί να προσαρμοστεί στην πολύ διαφορετική πορεία των επιθυμειτών τιμών

SSE= 1.19

7/7/2015

Page 42: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

42

H προσπάθεια προσαρμογής του ρυθμιστή είναι φανερή και σε αυτό το διάγραμμα, όπου το μέγιστο σφάλμα εμφανίζεται στην απότομη αλλαγή της επιθυμειτής τιμής.

7/7/2015

Page 43: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

43

Αποτελέσματα:Εφαρμογή 2

•Η δεύτερη περίπτωση, στην οποία εφαρμόστηκε η προτεινόμενη μεθοδολογία, αφορά σε ένα πρόβλημα ρύθμισης του ενδιάμεσου προϊόντος που παράγεται από έναν αντιδραστήρα CSTR.

• Στον αντιδραστήρα εισέρχονται με διαφορετικές ροές • Το ενδιάμεσο προϊόν (Β) • Το αντιδρών (Α)• Η μεταβλητή εκ χειρισμού είναι η ογκομετρική παροχή του Β• Το Β συμμετέχει στη κινητική της παραγωγής του

7/7/2015

Page 44: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

44

Σχηματικά το Εφαρμογή 2

7/7/2015

Page 45: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

45

Αποτελέσματα:Εφαρμογή 2

•Τα παραπάνω ισοζύγια καταστρώθηκαν σε συνεχή χρόνο

•Διακριτοποίηση με τη μέθοδο zero order hold (ΖΟΗ) με χρόνο δειγματοληψίας 0.1

•Οι σταθερές τιμές στις παραπάνω εξισώσεις είναι k1=0.5 sec-1, k2=1 sec-1, QA=10 L/sec, CA0=5 mol/L, CB0=10 mol/L, V = 1 L ενώ αρχικά οι συγκεντρώσεις στον αντιδραστήρα είναι CA(0)=0 mol/L, CB(0)=5 mol/L

7/7/2015

Page 46: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

46

ΔιαταραχήΔιαχωρήστηκαν 2 προβλήματα ανάλογα με το είδος της διαταραχής. Αρχικά, έγινε θεωρήθηκε μια ημιτονοειδής διαταραχή (περίπτωση 2.1)

d(k)=cos(0.001 k)

Ενώ, θεωρήθηκε, σε άλλο πρόβλημα ότι οι διαταραχές επιλέγονται τυχαία από ομοιόμορφες κατανομές με όρια [0 1] στην περίπτωση της παροχής και [0 0.01] στην περίπτωση των μετρήσεων των συγκεντρώσεων. (περίπτωση 2.2)

7/7/2015

Page 47: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

47

Αποτελέσματα συνημιτονειδούς διαταραχής (2.1) SSE= 0.786

k0 200 400 600 800 1000 1200

CB(k)

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1CBCBd

7/7/2015

Page 48: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

48

Αποτελέσματα τυχαίας διαταραχής (2.2)SSE= 0.799

k200 400 600 800 1000 1200

L

1

1.5

2

2.5

3

3.5

4Lstory

a

Lstoryc

7/7/2015

Page 49: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

49

Τροποποίηση της συνάρτησης κόστους στην μεθοδολογία ενισχυτικής μάθησης•Σε αυτή την ενότητα θα χρησιμοποιηθεί διαφορετική συνάρτηση κόστους. Επίσης, είναι φανερό ότι με τον πρώτο ορισμό

ότι οι αποκρίσεις χωρίζονται απλά σε ικανοποιητικές και μη ικανοποιητικές.

•Πραγματοποιήθηκε αλλαγή στη συνάρτηση r(k) με σκοπό να είναι συνεχείς• Αναδεικνύεται με καλύτερο τρόπο το πόσο καλή είναι η απόκριση του συστήματος• Πλέον δεν χρειάζεται να συμβαίνει αυτό, με τον αλγόριθμο να αποδίδει με πολύ καλό τρόπο.

7/7/2015

Page 50: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

50

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής-αλλαγή(1):Εξίσωση Bellman

Συνάρτηση κόστους

𝐽( ( ), ( )) =𝑥 𝑘 𝑢 𝑘Όπου 0<γ≤1 αποτελεί τον εκπτωτικό παράγοντα για προβλήματα απείρου ορίζοντα,

ενώ το r ισχύει

𝑟( ( ), ( )) = ( )𝑥 𝑘 𝑢 𝑘 𝑒 𝑘 T ( ) + ( ( ) − ( − 1))𝑄𝑒 𝑘 𝑢 𝑘 𝑢 𝑘 𝑇 ( ( ) − ( − 1))𝑅 𝑢 𝑘 𝑢 𝑘

7/7/2015

Page 51: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

51

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής-αλλαγή(2):Εξίσωση Bellman

𝐽( ) = 𝑘 γ ( + 1) 𝐽 𝑘 + ( ( ), ( ))𝑟 𝑥 𝑘 𝑢 𝑘 Έτσι, το σφάλμα πρόβλεψης προσδιορίζεται ως εξής:

όπου η έξοδος του δικτύου κριτή.

Ελαχιστοποίηση του σφάλματος:

7/7/2015

Page 52: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

52

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής -αλλαγή(3):gradient decent

Η ελαχιστοποίηση γίνεται μέσω της μεθόδου gradient decent όπου:

με να είναι ο ρυθμός μάθησης. Με βάση την παραπάνω εξίσωση προκύπτει ότι:

7/7/2015

Page 53: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

53

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(4):Διαδικασία Εκπαίδευσης

•Σε περίπτωση που υπάρξει αλλαγή της δομής

•Τα βάρη αναπροσαρμόζονται στα ιστορικά δεδομένα με τη μέθοδο της γραμμικής παλινδρόμησης

•Αν έχει διαγραφεί νευρώνας της κρυφής στοιβάδας, εφαρμόζεται επιπλέον η μέθοδος gradient decent.

7/7/2015

Page 54: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

54

Αποτελέσματα: Εφαρμογή 1 Περίπτωση 1.2

7/7/2015

Page 55: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

55

Απόκριση και μεταβολή της δομής των δικτύων (1.2) SSE= 0.837

k0 500 1000 1500 2000

L

1

2

3

4

5

6

7

8

9

10Lstory

a

Lstoryc

k0 500 1000 1500 2000

y(k)

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8yyd

7/7/2015

Page 56: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

56

Περίπτωση 1.3Στο προηγούμενο κεφάλαιο χρειάστηκε ο αλγόριθμος να αντιλαμβάνεται το είδοςτων επιθυμητών τιμών και να αλλάζει έτσι τον τρόπο εκπαίδευσης, σε αυτή τηνπερίπτωση δεν χρειάζεται να συμβαίνει αυτό, με τον αλγόριθμος να αποδίδει μεπολύ καλό τρόπο.

7/7/2015

Page 57: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

57

Περίπτωση 1.3 SSE= 1.05

k0 500 1000 1500 2000

L

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

6Lstory

a

Lstoryc

k0 500 1000 1500 2000

y(k)

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5yyd

7/7/2015

Page 58: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

58

Εφαρμογή 2 Εφαρμόζοντας την εν λόγω μεθοδολογία στον αντιδραστήρα

με τις παράλληλες αντιδράσεις, το αποτέλεσμα είναι και εδώ

βελτιωμένο για κάθε μια από τις δύο περιπτώσεις διαταραχών.

7/7/2015

Page 59: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

59

Αποτελέσματα συνημιτοειδούς διαταραχής (2.1) SSE= 0.511

k200 400 600 800 1000 1200

L

1

1.5

2

2.5

3

3.5

4Lstory

a

Lstoryc

7/7/2015

Page 60: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

60

Αποτελέσματα τυχαίας διαταραχής (2.2)SSE=0.521

k200 400 600 800 1000 1200

L

0

0.5

1

1.5

2

2.5

3

3.5

4Lstory

a

Lstoryc

7/7/2015

Page 61: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

61

Χημικός αντιδραστήρας με εξώθερμη αντίδραση (Εφαρμογή 3)

•Η νέα μεθοδολογία ρύθμισης εφαρμόστηκε και σε ένα τρίτο παράδειγμα ρύθμισης της συγκέντρωσης του ρεύματος εξόδου ως προς ένα συστατικό χρησιμοποιώντας ως μεταβλητή εκ χειρισμού τη θερμοκρασία της ροής θερμότητας.

•Χωρίς καμία γνώση για το σύστημα πρέπει η συγκέντρωση να ακολουθήσει τις συνεχόμενες βηματικές επιβολές στις επιθυμητές τιμές

•Θεωρείται ότι υπάρχουν άγνωστες τυχαίες διαταραχές • Στο ίδιο το σύστημα, επιλέγονται τυχαία από ομοιόμορφες κατανομές με όρια [0 0.01] • Στη μέτρηση των μεταβλητών κατάστασης, επιλέγονται τυχαία από ομοιόμορφες κατανομές με όρια [0

0.001]

•Ο χρόνος δειγματοληψίας είναι 0.5 sec. Οι τιμές των παραμέτρων

7/7/2015

Page 62: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

62

Χημικός αντιδραστήρας με εξώθερμη αντίδραση (Εφαρμογή 3)

Όπου

•Επίσης η μεταβλητή εξόδου, που επιθυμείται να ρυθμιστεί σε συγκεκριμένη τιμή, μετά την κανονικοποίηση είναι η μετατροπή y=x1 .

7/7/2015

Page 63: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

63

Στο παράδειγμα αυτό μελετήθηκε και η περίπτωση όπου μειώνεται το β κατά τη διάρκεια της λειτουργίας του αντιδραστήρα λόγο επικαθήσεων. Το β ξεκινάει να μειώνεται όταν k=500 καιφτάνει την μισή τιμή (0.15) στο τέλος.

7/7/2015

Page 64: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

64

Περίπτωση 3.1 SSE=1.12

k200 400 600 800 1000 1200 1400

y(k)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8yyd

k200 400 600 800 1000 1200 1400

L

1

1.5

2

2.5

3

3.5

4

4.5

5Lstory

a

Lstoryc

7/7/2015

Page 65: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

65

Περίπτωση 3.2 SSE=1.13

k200 400 600 800 1000 1200 1400

L

1

1.5

2

2.5

3

3.5

4

4.5

5Lstory

a

Lstoryc

k200 400 600 800 1000 1200 1400

y(k)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7yyd

Ξεκινάει να μειώνεται το β

7/7/2015

Page 66: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

66

Σύγκριση σφαλμάτων των δύο μεθόδων

Πρώτη Μεθοδολογία Ρύθμισης Τροποποιημένη Μεθοδολογία

Εφαρμογή 1, Περίπτωση 1.1 0.897 -

Εφαρμογή 1, Περίπτωση 1.2 0.883 0.837

Εφαρμογή 1, Περίπτωση 1.3 1.19 1.05

Εφαρμογή 2, Περίπτωση 2.1 0.786 0.511

Εφαρμογή 2, Περίπτωση 2.2 0.799 0.521

Εφαρμογή 3, Περίπτωση 3.1 - 1.12

Εφαρμογή 3, Περίπτωση 3.2 - 1.13

7/7/2015

Page 67: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

67

Συμπεράσματα•Παρουσιάστηκαν 2 καινοτόμες μεθοδολογίες για τη ρύθμιση συστημάτων που συνδυάζουν τα τεχνητά νευρωνικά δίκτυα με την αρχή της ενισχυτικής μάθησης.

•Πλεονέκτημα των μεθοδολογιών:• Επιτρέπουν την κατασκευή των δικτύων από μηδενική βάση • Πλήρη αναπροσαρμογή τους με βάση τις πληροφορίες που συλλέγονται κατά τη διάρκεια λειτουργίας του συστήματος • Σε αντίθεση με άλλες μεθοδολογίες που έχουν προταθεί στη βιβλιογραφία-Σταθερή δομή επιλογή από πριν

•Η πρώτη μέθοδος παρουσίασε ένα μειονέκτημα• Σε κάθε περίπτωση έπρεπε να αναγνωρίζει ποίoς είναι ο τρόπος που αλλάζουν οι επιθυμητές τιμές • Να εφαρμόζει διαφορετική τεχνική εκπαίδευσης

• Η δεύτερη μεθοδολογία • Πεδίο τιμών της βοηθητικής συνάρτησης r(k) είναι συνεχές• Ο δεύτερος αλγόριθμος σύμφωνα και με το άθροισμα των τετραγώνων των σφαλμάτων (SSE) βρέθηκε να έχει

καλύτερη συμπεριφορά

7/7/2015

Page 68: Control of a nonlinear non affine discrete system using neural networks and  online training with reinforcement learning methods

68

Ευχαριστώ πολύ για την προσοχή σας...Ερωτήσεις..??

7/7/2015