Control of a nonlinear non affine discrete system using neural networks and online training with...

Αλγόριθμος Ενισχυτικής Μάθησης Για τη Ρύθμιση Διεργασιών Με

Κατασκευή Νευρωνικών Δικτύων Ακτινικής Βάσης Σε Πραγματικό

Χρόνο

Διπλωματική Εργασία Σχολή Χημικών Μηχανικών Ε.Μ.Π7 Ιουλίου 2015Επιβλέπων: Χ. ΣαρίμβεηςΠαναγιώτης Πετσαγκουράκης

Σκοπός•Ρύθμιση μη γραμμικού συστήματος, χωρίς καμία γνώση για τη δυναμική του

•Χρήση νευρωνικών δικτύων ακτινικής βάσης, εκπαιδευόμενα από μεθοδολογία ενισχυτικής μάθησης

•Επίτευξη αλλαγής ακόμα και της δομής των δικτύων σε πραγματικό χρόνο ξεκινώντας από 0 κόμβους

•Εφαρμογή 2 μεθοδολογιών σε διαφορετικά συστήματα με διαφορετική αλλαγή των επιθυμητών τιμών

7/7/2015

Περιεχόμενα•Ενισχυτική μάθηση

•Νευρωνικά δίκτυα

•Εισαγωγή στα νευρωνικά δίκτυα ακτινικής βάσης (RBF)

•Αλγόριθμος Ασαφών μέσων• Off-line εκδοχή• On-line εκδοχή

•Αλγόριθμος Ρύθμισης

•Αποτελέσματα (1)

•Τροποποίηση Μεθοδολογίας Ρύθμισης

•Αποτελέσματα (2)

•Συμπεράσματα

7/7/2015

Ενισχυτική Μάθηση•Η ενισχυτική μάθηση αποτελεί ένα πρόβλημα μάθησης συμπεριφοράς.

•Χρησιμοποίηση ενός κριτή που αλληλοεπιδρά με το περιβάλλον του

•Ο κριτής στοχεύει στην επίτευξη της ελαχιστοποίησης μιας συνάρτησης κόστους• Η βελτιστοποίηση αυτή επιτυγχάνεται με την συνύπαρξη αβεβαιοτήτων-άγνωστων διαταραχών

•Αποτελεί πολύ σημαντική τεχνική της μηχανικής μάθησης αφού πολλές φορές καθίσταται αδύνατη η συλλογή απαραίτητου αριθμού δεδομένων εισόδου εξόδου

•Η σύγχρονη προσέγγιση βασίζεται στον Δυναμικό προγραμματισμό• Υπολογιστική τεχνική που χρησιμοποιείται όταν χρειάζεται να γίνει λήψη διαδοχικών αποφάσεων • Βασίζεται στην αρχή της βελτιστότητας κατά Bellman: “μια βέλτιστη πολιτική (συνολική επιλογή

λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση”

7/7/2015

Ενισχυτική Μάθηση: Εξίσωση Bellman

•Μορφές αυτής της εξίσωσης μπορεί να είναι:

πεπερασμένου ορίζοντα

𝐽( ) = 𝑘 γ ( + 1) 𝐽 𝑘 + ( ( ), ( )) απείρου ορίζοντα 𝑟 𝑥 𝑘 𝑢 𝑘

7/7/2015

Νευρωνικά Δίκτυα

7/7/2015

Νευρωνικά δίκτυα ακτινικής βάσης (RBF)

•Τα RBF δίκτυα είναι νευρωνικά δίκτυα πρόσθιας τροφοδότησης αποτελούμενα συνολικά από δύο επίπεδα (two layer network). Το πρώτο επίπεδο (εσωτερικό επίπεδο-hidden layer), αποτελείται από RBF νευρώνες. Ενώ το δεύτερο είναι ένας αθροιστής

•Υπάρχουν πολλά είδη ακτινικών συναρτήσεων βάσης, με τις κυριότερες να είναι η Γκαουσιανή (1), η spline λεπτής πλάκας (TPS) (2).

7/7/2015

Νευρωνικά δίκτυα ακτινικής βάσης (RBF)

•Τα RBF δίκτυα είναι νευρωνικά δίκτυα πρόσθιας τροφοδότησης αποτελούμενα συνολικά από δύο επίπεδα (two layer network). Το πρώτο επίπεδο (εσωτερικό επίπεδο-hidden layer), αποτελείται από RBF νευρώνες. Ενώ το δεύτερο είναι ένας αθροιστής

•Υπάρχουν πολλά είδη ακτινικών συναρτήσεων βάσης, με τις κυριότερες να είναι η Γκαουσιανή (1), η spline λεπτής πλάκας (TPS) (2).

κέντρο

Πλάτος νευρώνα

7/7/2015

Αλγόριθμος Ασαφών Μέσων•Ο αλγόριθμος FM δεν απαιτεί τον εκ των προτέρων καθορισμό του πλήθους των κόμβων της κρυφής στοιβάδας• Για δεδομένο αριθμό ασαφών συνόλων ο αλγόριθμος υπολογίζει μόνος του τη διάσταση της κρυφής

στοιβάδας. • Χρειάζεται μόνο ένα πέρασμα από τα δεδομένα εκπαίδευσης• Επαναληψιμότητα, αφού δεν εμπλέκεται η αρχική τυχαία επιλογή των κέντρων.

7/7/2015

• Διαμερισμός του χώρου• Υπολογισμός των

συναρτήσεων συνεισφοράς

• Εύρεση του κοντινότερου κέντρου

7/7/2015

Επιλογή ενός εκ των ήδη επιλεγμένων κέντρων ή δημιουργία νέου

Πρώτο κέντρο

Συνάρτηση απόστασης

7/7/2015

Αλγόριθμος Online Ασαφών Μέσων

• Αλλαγή του αλγορίθμου για την προσαρμογή και της δομής του δικτύου σε πραγματικό χρόνο

• Χρήση 2 πινάκων • Διάνυσμα ιστορικού ενεργοποίησης

(Activation History Vector - AHV)• Πίνακας τοποθεσίας κέντρων

(Center Location Matrix - CLM)

7/7/2015

Μεθοδολογία Ρύθμισης Μη Γραμμικών Συστημάτων Με Ενισχυτική Μάθηση

•Η μεθοδολογία ρύθμισης μη γραμμικών συστημάτων με ενισχυτική μάθηση (reinforcement learning) • Δύο νευρωνικά δίκτυα που αλληλεπιδρούν μεταξύ τους με τρόπο «ενέργειας-κριτικής»• Το πρώτο δίκτυο, επονομαζόμενο και ως ενέργειας (actor)

• Προσεγγίζει το μη γραμμικό κομμάτι του νόμου ελέγχου, παράγοντας έτσι ένα μέρος της ρυθμιστικής δράσης.

• Το δεύτερο δίκτυο, το οποίο ονομάζεται κριτής (critic), προσεγγίζει τη συνάρτηση κόστους με σκοπό να ανανεώνει τα βάρη του δικτύου ενέργειας.

7/7/2015

Δυναμικό σύστημα Το σύστημα το οποίο θα πρέπει να ρυθμιστεί είναι διακριτό, μη γραμμικό και περιγράφεται από τις ακόλουθες εξισώσεις

Μεταβλητή εισόδου

Μεταβλητή εξόδου

Τυχαία Διαταραχή

7/7/2015

Ορισμός σφάλματος ρύθμισης•Tη χρονική στιγμή k οι επιθυμητές τιμές της μεταβλητής εξόδου για την παρούσα αλλά και για της επόμενες χρονικές στιγμές συμβολίζονται με

•Σφάλμα ανάμεσα στην επιθυμητή τιμή και τη μεταβλητή εξόδου είναι

•Στην περίπτωση όπου ισχύει για κάθε τιμή του από 0 έως τότε ισχύει ότι

7/7/2015

Σχεδιασμός Ρυθμιστή (1)•Η σχέση που περιγράφει τη συμπεριφορά της μεταβλητής εξόδου μπορεί να περιγραφεί από μια εξίσωση της μορφής:

•Η μετατροπή της εξίσωσης σε αυτή τη μορφή είναι απαραίτητη για τη συνέχεια του σχεδιασμού

• m λαμβάνει την τιμή n όταν ισχύει η προηγούμενη περίπτωση • διαφορετικά η τιμή είναι 1

• Το σήμα εισόδου ορίζεται ως

ρυθμιστής ανατροφοδότησης που έχει ως στόχο να κάνει ευσταθή τη γραμμικοποιημένη μορφή του σφάλματος

προσαρμοστικός ρυθμιστής που σκοπεύει να προσεγγίσει την συνάρτηση .

7/7/2015

Σχεδιασμός Ρυθμιστή (2) Σύμφωνα με τα παραπάνω, η μπορεί να γραφεί ως εξής:

Άρα, επειδή το προσεγγίζει την ισχύει:

Ενώ το ορίζεται ως εξής

7/7/2015

Σχεδιασμός Ρυθμιστή(3) Οι τιμές του λ επιλέγονται έτσι ώστε να είναι το σύστημα ευσταθές και άρα, βρίσκονται εντός του μοναδιαίου κύκλου

Πλέον μπορεί προκύψει εύκολα:

με και

Αν υπάρχει τέτοιο ώστε αγνοώντας τη διαταραχή

•το σύστημα μετατρέπεται σε γραμμικό, και ευσταθές

•οι τιμές του λ έχουν επιλεγεί ώστε ο πίνακας Α να είναι ευσταθής

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(1)

Ορίζεται η συνάρτηση κόστους όπως περιγράφεται από την παρακάτω εξίσωση:

όπου

•βοηθητική συνάρτηση

•αναδεικνύει αν η επίδοση είναι καλή ή όχι

•Νp ο ορίζοντας ρύθμισης

όπου και ε αποτελούν μεταβλητές σχεδιασμού.

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(2):Εξίσωση Bellman

Η συνάρτηση κόστους μπορεί να μετατραπεί σε εξίσωση Bellman

Έτσι, το σφάλμα πρόβλεψης προσδιορίζεται ως εξής:

όπου η έξοδος του δικτύου κριτή.

Στόχος της εκπαίδευσης του δικτύου είναι η ελαχιστοποίηση του σφάλματος:

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(3):gradient decent

Η ελαχιστοποίηση γίνεται μέσω της μεθόδου gradient decent όπου:

με να είναι ο ρυθμός μάθησης. Με βάση την παραπάνω εξίσωση προκύπτει ότι:

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Ενέργειας(1)

•Σφάλμα του δικτύου είναι , με , και επειδή το νευρωνικό δίκτυο έχει ως έξοδο τη προσέγγιση της ισχύει ότι:

Στόχος είναι και πάλι η ελαχιστοποίηση του σφάλματος:

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Ενέργειας(2):gradient decent

με να αποτελεί τον ρυθμό μάθησης. Άρα:

με ,

Ωστόσο η διαταραχή d κατά βάση είναι άγνωστη και θεωρείται 0 για τη διαδικασία της μάθησης. Άρα:

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο:Διαδικασία Εκπαίδευσης

•Η παραπάνω διαδικασία μάθησης χρησιμοποιείται όταν η δομή του νευρωνικού δικτύου (δηλαδή το πλήθος των νευρώνων της εσωτερικής στοιβάδας) παραμένει σταθερή• Η προτεινόμενη μεθοδολογία επιτρέπει τη μεταβολή της δομής

• Στην αρχικοποίηση της μεθοδολογίας δεν υπάρχει καμία γνώση για το σύστημα• Ξεκινάει με μηδέν νευρώνες στην κρυφή στοιβάδα• Η δομή του δικτύου κατασκευάζεται σταδιακά με τη συλλογή πληροφοριών από το σύστημα κατά τη δυναμική λειτουργία του

•Σε περίπτωση που υπάρξει αλλαγή της δομής• Η διαδικασία ανανέωσης των βαρών διαφοροποιείται • Ακολουθούνται δύο διαφορετικές τακτικές ανάλογα με το πρόβλημα:

• ‘παρακολούθησης τροχιάς’ (tracking trajectory)• ‘αλλαγής της επιθυμητής τιμής’

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο:Διαδικασία Εκπαίδευσης

1. Στην πρώτη περίπτωση

•Tα βάρη αναπροσαρμόζονται στα ιστορικά δεδομένα με τη μέθοδο της γραμμικής παλινδρόμησης• αν έχει διαγραφεί νευρώνας της κρυφής στοιβάδας, εφαρμόζεται επιπλέον η μέθοδος gradient decent.

2. Στη δεύτερη περίπτωση

•H εκπαίδευση συνεχίζεται με τη μέθοδο gradient decent• όταν προστίθεται νευρώνας, αυτός αποκτά αρχικά βάρος σύνδεσης με τη στοιβάδα εξόδου, που αντιστοιχεί στο

αμέσως προηγούμενο κέντρο που προστέθηκε στο δίκτυο.

• Στη μεθοδολογία που παρουσιάζεται, αποτελούν παραμέτρους σχεδιασμού• Η χρονική στιγμή Nd, όπου από εκεί και πέρα επιτρέπεται η δυνατότητα αφαίρεσης νευρώνων της κρυφής στοιβάδας• Η χρονική στιγμή Nmax στην οποία σταματούν οι μεταβολές στη δομή των δικτύων• Το πλήθος των ιστορικών δεδομένων Ns που αποθηκεύονται στη περίπτωση που εφαρμόζονται ελάχιστα τετράγωνα• Ο αριθμός των ασαφών υποχώρων s, που ορίζονται σε κάθε μεταβλητή εισόδου

7/7/2015

Σχηματικά ο Αλγόριθμος

7/7/2015

Σύγκριση σφαλμάτων των δύο μεθόδων

Αξιολόγιση των αποτελεσμάτων έγινε με το άθροισμα των τετραγώνων των σφαλμάτων

sum of squared errors (SSE)

7/7/2015

Αποτελέσματα:Εφαρμογή 1

Η προτεινόμενη μεθοδολογία εφαρμόστηκε με επιτυχία σε δύο περιπτώσεις. Η πρώτη περίπτωση αφορά σε ένα πρόβλημα, το οποίο μελετήθηκε από τους X. Yang et al.

όπου η μεταβλητή εκ χειρισμού και η εξωτερική διαταραχή.

Στόχος η ακολούθηση της τροχιάς:

•Παράμετροι σχεδιασμού • λ1=1, λ2=0.25, Νd=300, Ns=300, Nmax=350, s=10, α=2, lc=0.1, lα=0.1• Σημειώνεται ότι και για τα δύο νευρωνικά δίκτυα χρησιμοποιήθηκαν οι ίδιες τιμές των παραμέτρων• Το σύστημα να ξεκινά από την αρχική κατάσταση ,

7/7/2015

Παρακολούθηση Τροχιάς (Περίπτωση 1.1) SSE=0.897

0 200 400 600 800 1000 1200 1400 1600 1800 2000-0.6

7/7/2015

Σφάλμα & πορεία αλλαγών της δομής

0 200 400 600 800 1000 1200 1400 1600 1800 20001

LactorLcritic

7/7/2015

Ίδιες Παράμετροι Μη Συμμετρική Διαμέριση (1.2)

k0 500 1000 1500 2000

0.8yyd

SSE=0.883

7/7/2015

Χρήση περισσότερων κέντρων μεγαλύτερων νευρωνικών δικτύων σε σχέση με πριν

7/7/2015

Στο σύστημα αυτό έγινε απόπειρα να ακολουθηθεί διαφορετικές μορφές επιθυμειτών τιμών. Ο αλγόριθμος αναγνωρίζει πότε οι επιθυμειτές τιμές είναι σταθερές ή όχι, μεσω μιας μεταβλητής που αντιλαμβάνεται αν την συγκεκριμένη χρονική στιγμή επιθυμειτή τιμή είνα ίδια με την προηγούμενη στιγμλη

Περίπτωση1.3

7/7/2015

Στο σημείο αυτό ο ρυθμιστής προσπαθεί να προσαρμοστεί στην πολύ διαφορετική πορεία των επιθυμειτών τιμών

SSE= 1.19

7/7/2015

H προσπάθεια προσαρμογής του ρυθμιστή είναι φανερή και σε αυτό το διάγραμμα, όπου το μέγιστο σφάλμα εμφανίζεται στην απότομη αλλαγή της επιθυμειτής τιμής.

7/7/2015

•Η δεύτερη περίπτωση, στην οποία εφαρμόστηκε η προτεινόμενη μεθοδολογία, αφορά σε ένα πρόβλημα ρύθμισης του ενδιάμεσου προϊόντος που παράγεται από έναν αντιδραστήρα CSTR.

• Στον αντιδραστήρα εισέρχονται με διαφορετικές ροές • Το ενδιάμεσο προϊόν (Β) • Το αντιδρών (Α)• Η μεταβλητή εκ χειρισμού είναι η ογκομετρική παροχή του Β• Το Β συμμετέχει στη κινητική της παραγωγής του

7/7/2015

Σχηματικά το Εφαρμογή 2

7/7/2015

•Τα παραπάνω ισοζύγια καταστρώθηκαν σε συνεχή χρόνο

•Διακριτοποίηση με τη μέθοδο zero order hold (ΖΟΗ) με χρόνο δειγματοληψίας 0.1

•Οι σταθερές τιμές στις παραπάνω εξισώσεις είναι k1=0.5 sec-1, k2=1 sec-1, QA=10 L/sec, CA0=5 mol/L, CB0=10 mol/L, V = 1 L ενώ αρχικά οι συγκεντρώσεις στον αντιδραστήρα είναι CA(0)=0 mol/L, CB(0)=5 mol/L

7/7/2015

ΔιαταραχήΔιαχωρήστηκαν 2 προβλήματα ανάλογα με το είδος της διαταραχής. Αρχικά, έγινε θεωρήθηκε μια ημιτονοειδής διαταραχή (περίπτωση 2.1)

d(k)=cos(0.001 k)

Ενώ, θεωρήθηκε, σε άλλο πρόβλημα ότι οι διαταραχές επιλέγονται τυχαία από ομοιόμορφες κατανομές με όρια [0 1] στην περίπτωση της παροχής και [0 0.01] στην περίπτωση των μετρήσεων των συγκεντρώσεων. (περίπτωση 2.2)

7/7/2015

Αποτελέσματα συνημιτονειδούς διαταραχής (2.1) SSE= 0.786

k0 200 400 600 800 1000 1200

1CBCBd

7/7/2015

Αποτελέσματα τυχαίας διαταραχής (2.2)SSE= 0.799

k200 400 600 800 1000 1200

4Lstory

Lstoryc

7/7/2015

Τροποποίηση της συνάρτησης κόστους στην μεθοδολογία ενισχυτικής μάθησης•Σε αυτή την ενότητα θα χρησιμοποιηθεί διαφορετική συνάρτηση κόστους. Επίσης, είναι φανερό ότι με τον πρώτο ορισμό

ότι οι αποκρίσεις χωρίζονται απλά σε ικανοποιητικές και μη ικανοποιητικές.

•Πραγματοποιήθηκε αλλαγή στη συνάρτηση r(k) με σκοπό να είναι συνεχείς• Αναδεικνύεται με καλύτερο τρόπο το πόσο καλή είναι η απόκριση του συστήματος• Πλέον δεν χρειάζεται να συμβαίνει αυτό, με τον αλγόριθμο να αποδίδει με πολύ καλό τρόπο.

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής-αλλαγή(1):Εξίσωση Bellman

Συνάρτηση κόστους

𝐽( ( ), ( )) =𝑥 𝑘 𝑢 𝑘Όπου 0<γ≤1 αποτελεί τον εκπτωτικό παράγοντα για προβλήματα απείρου ορίζοντα,

ενώ το r ισχύει

𝑟( ( ), ( )) = ( )𝑥 𝑘 𝑢 𝑘 𝑒 𝑘 T ( ) + ( ( ) − ( − 1))𝑄𝑒 𝑘 𝑢 𝑘 𝑢 𝑘 𝑇 ( ( ) − ( − 1))𝑅 𝑢 𝑘 𝑢 𝑘

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής-αλλαγή(2):Εξίσωση Bellman

𝐽( ) = 𝑘 γ ( + 1) 𝐽 𝑘 + ( ( ), ( ))𝑟 𝑥 𝑘 𝑢 𝑘 Έτσι, το σφάλμα πρόβλεψης προσδιορίζεται ως εξής:

όπου η έξοδος του δικτύου κριτή.

Ελαχιστοποίηση του σφάλματος:

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής -αλλαγή(3):gradient decent

με να είναι ο ρυθμός μάθησης. Με βάση την παραπάνω εξίσωση προκύπτει ότι:

7/7/2015

Μάθηση Νευρωνικών Δικτύων Σε πραγματικό Χρόνο-Δίκτυο Κριτής(4):Διαδικασία Εκπαίδευσης

•Σε περίπτωση που υπάρξει αλλαγή της δομής

•Τα βάρη αναπροσαρμόζονται στα ιστορικά δεδομένα με τη μέθοδο της γραμμικής παλινδρόμησης

•Αν έχει διαγραφεί νευρώνας της κρυφής στοιβάδας, εφαρμόζεται επιπλέον η μέθοδος gradient decent.

7/7/2015

Αποτελέσματα: Εφαρμογή 1 Περίπτωση 1.2

7/7/2015

Απόκριση και μεταβολή της δομής των δικτύων (1.2) SSE= 0.837

k0 500 1000 1500 2000

10Lstory

Lstoryc

k0 500 1000 1500 2000

0.8yyd

7/7/2015

Περίπτωση 1.3Στο προηγούμενο κεφάλαιο χρειάστηκε ο αλγόριθμος να αντιλαμβάνεται το είδοςτων επιθυμητών τιμών και να αλλάζει έτσι τον τρόπο εκπαίδευσης, σε αυτή τηνπερίπτωση δεν χρειάζεται να συμβαίνει αυτό, με τον αλγόριθμος να αποδίδει μεπολύ καλό τρόπο.

7/7/2015

Περίπτωση 1.3 SSE= 1.05

k0 500 1000 1500 2000

6Lstory

Lstoryc

k0 500 1000 1500 2000

0.5yyd

7/7/2015

Εφαρμογή 2 Εφαρμόζοντας την εν λόγω μεθοδολογία στον αντιδραστήρα

με τις παράλληλες αντιδράσεις, το αποτέλεσμα είναι και εδώ

βελτιωμένο για κάθε μια από τις δύο περιπτώσεις διαταραχών.

7/7/2015

Αποτελέσματα συνημιτοειδούς διαταραχής (2.1) SSE= 0.511

k200 400 600 800 1000 1200

4Lstory

Lstoryc

7/7/2015

Αποτελέσματα τυχαίας διαταραχής (2.2)SSE=0.521

k200 400 600 800 1000 1200

4Lstory

Lstoryc

7/7/2015

Χημικός αντιδραστήρας με εξώθερμη αντίδραση (Εφαρμογή 3)

•Η νέα μεθοδολογία ρύθμισης εφαρμόστηκε και σε ένα τρίτο παράδειγμα ρύθμισης της συγκέντρωσης του ρεύματος εξόδου ως προς ένα συστατικό χρησιμοποιώντας ως μεταβλητή εκ χειρισμού τη θερμοκρασία της ροής θερμότητας.

•Χωρίς καμία γνώση για το σύστημα πρέπει η συγκέντρωση να ακολουθήσει τις συνεχόμενες βηματικές επιβολές στις επιθυμητές τιμές

•Θεωρείται ότι υπάρχουν άγνωστες τυχαίες διαταραχές • Στο ίδιο το σύστημα, επιλέγονται τυχαία από ομοιόμορφες κατανομές με όρια [0 0.01] • Στη μέτρηση των μεταβλητών κατάστασης, επιλέγονται τυχαία από ομοιόμορφες κατανομές με όρια [0

0.001]

•Ο χρόνος δειγματοληψίας είναι 0.5 sec. Οι τιμές των παραμέτρων

7/7/2015

Χημικός αντιδραστήρας με εξώθερμη αντίδραση (Εφαρμογή 3)

Όπου

•Επίσης η μεταβλητή εξόδου, που επιθυμείται να ρυθμιστεί σε συγκεκριμένη τιμή, μετά την κανονικοποίηση είναι η μετατροπή y=x1 .

7/7/2015

Στο παράδειγμα αυτό μελετήθηκε και η περίπτωση όπου μειώνεται το β κατά τη διάρκεια της λειτουργίας του αντιδραστήρα λόγο επικαθήσεων. Το β ξεκινάει να μειώνεται όταν k=500 καιφτάνει την μισή τιμή (0.15) στο τέλος.

7/7/2015

Περίπτωση 3.1 SSE=1.12

k200 400 600 800 1000 1200 1400

0.8yyd

k200 400 600 800 1000 1200 1400

5Lstory

Lstoryc

7/7/2015

Περίπτωση 3.2 SSE=1.13

k200 400 600 800 1000 1200 1400

5Lstory

Lstoryc

k200 400 600 800 1000 1200 1400

0.7yyd

Ξεκινάει να μειώνεται το β

7/7/2015

Σύγκριση σφαλμάτων των δύο μεθόδων

Πρώτη Μεθοδολογία Ρύθμισης Τροποποιημένη Μεθοδολογία

Εφαρμογή 1, Περίπτωση 1.1 0.897 -

Εφαρμογή 1, Περίπτωση 1.2 0.883 0.837

Εφαρμογή 3, Περίπτωση 3.1 - 1.12

Εφαρμογή 3, Περίπτωση 3.2 - 1.13

7/7/2015

Συμπεράσματα•Παρουσιάστηκαν 2 καινοτόμες μεθοδολογίες για τη ρύθμιση συστημάτων που συνδυάζουν τα τεχνητά νευρωνικά δίκτυα με την αρχή της ενισχυτικής μάθησης.

•Πλεονέκτημα των μεθοδολογιών:• Επιτρέπουν την κατασκευή των δικτύων από μηδενική βάση • Πλήρη αναπροσαρμογή τους με βάση τις πληροφορίες που συλλέγονται κατά τη διάρκεια λειτουργίας του συστήματος • Σε αντίθεση με άλλες μεθοδολογίες που έχουν προταθεί στη βιβλιογραφία-Σταθερή δομή επιλογή από πριν

•Η πρώτη μέθοδος παρουσίασε ένα μειονέκτημα• Σε κάθε περίπτωση έπρεπε να αναγνωρίζει ποίoς είναι ο τρόπος που αλλάζουν οι επιθυμητές τιμές • Να εφαρμόζει διαφορετική τεχνική εκπαίδευσης

• Η δεύτερη μεθοδολογία • Πεδίο τιμών της βοηθητικής συνάρτησης r(k) είναι συνεχές• Ο δεύτερος αλγόριθμος σύμφωνα και με το άθροισμα των τετραγώνων των σφαλμάτων (SSE) βρέθηκε να έχει

καλύτερη συμπεριφορά

7/7/2015

Ευχαριστώ πολύ για την προσοχή σας...Ερωτήσεις..??

7/7/2015

Control of a nonlinear non affine discrete system using neural networks and online training with...

Engineering

Transcript of Control of a nonlinear non affine discrete system using neural networks and online training with...

Convex Optimization for Neural Networks

Adaptive Reward-Poisoning Attacks against Reinforcement ...pages.cs.wisc.edu/~jerryzhu/pub/online_attack_on_RL.pdf · Adaptive Reward-Poisoning Attacks against Reinforcement Learning

Quixote: A NetHack Reinforcement Learning Framework and Agentcs229.stanford.edu/proj2019spr/poster/93.pdf · 2019. 6. 18. · Quixote: A NetHack Reinforcement Learning Framework and

Contributions to deep reinforcement learning and its ... · Contributions to deep reinforcement learning and its applications in smartgrids Vincent Francois-Lavet University of Liege,

arXiv:0710.5247v3 [math.RT] 20 Nov 2008 · arXiv:0710.5247v3 [math.RT] 20 Nov 2008 AFFINE DEMAZURE MODULES AND T-FIXED POINT SUBSCHEMES IN THE AFFINE GRASSMANNIAN XINWEN ZHU Abstract.

Viscoelastic Behavior, Curing and Reinforcement …...ORIGINAL PAPER Viscoelastic Behavior, Curing and Reinforcement Mechanism of Various Silica and POSS Filled Methyl-Vinyl Polysiloxane

NEURAL NETWORKS - Home - Τμήμα Μαθηματικών …vpp/lectures/Nn2000.pdf · · 2005-03-131 NEURAL NETWORKS: Basics using MATLAB Neural Network Toolbox By Heikki N.

Introduction to Deep Reinforcement Learningwnzhang.net/teaching/cs420/slides/13-deep-rl.pdf · 2020-06-08 · Deep Reinforcement Learning •Deep Reinforcement Learning •leverages

9. Sur la geometrie projective des espaces a connexion affine.

Anchorage and Development Length. Development Length - Tension Where, α = reinforcement location factor β = reinforcement coating factor γ = reinforcement.

CHAPTER II: AFFINE AND EUCLIDEAN GEOMETRYocw.upm.es/pluginfile.php/638/mod_label/intro/week6_rev.pdf · AFFINE AND PROJECTIVE GEOMETRY, E. Rosado & S.L. Rueda CHAPTER II: AFFINE AND

Neural Firing

Introductionyangwang/Reprints/self-affine-feng.pdf · 2010. 6. 3. · A CLASS OF SELF-AFFINE AND SELF-AFFINE MEASURES DE-JUN FENG AND YANG WANG 1. Introduction Let I= f˚ jgm j=1

Neural Networks: Backpropagation & Regularization

Artificial Neural Networks - ut

Divergence Analysis with Affine Constraints

R:00AUSTRALIABURSTING REINFORCEMENT TO BE USED IN … · Page: BURSTING REINFORCEMENT TO BE USED IN RMS PROJECTS Code: Edition: BR-RMS 1.2 1/7 Drawing 1: Anchorage bursting reinforcement

A Characterization of Locally Testable Affine-Invariant ...

Reinforcement Learning Lecture Temporal Difference Learning

Deep Neural Networks - GitHub Pages