Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά...

47
Μαθημα 4: Βαθειά ενισχυτική μάθηση Ν Καλουπτσίδης

Transcript of Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά...

Page 1: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Μαθημα 4: Βαθειά ενισχυτική μάθηση

Ν Καλουπτσίδης

Page 2: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Επισκόπηση

• Παραμετρικές προσεγγίσεις στην επανάληψη πολιτικής και αξίας

• Επιτηρούμενη μηχανική μάθηση: βασικά ζητήματα

• Βαθειά νευρωνικά δίκτυα

• Συνάρτηση ενεργοποίησης και καθολική προσέγγιση

• Αλγόριθμος στοχαστικής βαθμίδας και ανάδρομη διάδοση (back propagation)

• Προσεγγιστική επανάληψη πολιτικής (βασισμένη και ελεύθερη μοντέλου)

• Προσεγγιστική επανάληψη αξίας, fitted QN, Deep QN (DQ), Double QN

• Μέθοδοι βαθμίδας πολιτικής (policy gradient)

Page 3: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Παραμετρικές προσεγγίσεις

• Αναγκαίες όταν ο αριθμός των καταστάσεων ή/και ενεργειών μεγάλος

• Εφαρμόζονται σε μια απο τις συναρτήσεις αξίας

• 𝑉 𝑥 , 𝑉𝜋 𝑥 , 𝑄 𝑥, 𝑎 , 𝑄𝜋 𝑥, 𝑎

• ή

• στις πολιτικές/κανόνες απόφασης

• 𝜇 𝑥 , 𝜇 𝑥|𝑎

• ή

• σε συνδυασμό των παραπάνω

Page 4: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Παραμετρικές προσεγγίσεις

• Εστω 𝑣(𝑥) μία απο τις συναρτήσεις αξίας και 𝑣(𝑥, 𝑤) η παραμετρική της προσέγγιση.

• Η μορφή της συνάρτησης 𝑣 είναι γνωστή, προσδιορίζεται πλήρως αν καθοριστεί η διανυσματική παράμετρος 𝑤.

• Η 𝑣 ονομάζεται συνάρτηση βαθμού (score function)

• Ακολουθούμε τη μεθοδολογία της στατιστικής συχνοτητων (frequentist statistics): Το διανυσμα 𝑤 είναι ορισμένο αλλά οχι γνωστό, σε αντίθεση με την Μπαεσιανή μέθοδο οπου το 𝑤 είναι τυχαίο διάνυσμα με κάποια κατανομή (prior).

• Ο αριθμός των παραμέτρων είναι πιο μικρός απο τον αριθμό των καταστάσεων/ενεργειών.

• Θα μελετήσουμε στη συνέχεια συνοπτικά το πρόβλημα της συναρτησιακής προσέγγισης με τεχνικές επιτηρούμενης μηχανικής μάθησης και νευρωνικών δικτύων

Page 5: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Βασικά ζητήματα σχεδιασμού

• Eμπειρία, μηχανισμός παραγωγής δεδομένων (data generating process), δείγματα εκπαίδευσης και δείγματα ελέγχου. Το σύνολο εκπαίδευσης (training set) χρησιμοποιείται για την εκτίμηση των παραμέτρων, το σύνολο ελέγχου (test set) για την αξιολόγηση της πρόβλεψης των τιμών της συνάρτησης έξω απο το σύνολο εκπαίδευσης.

• Επιλογή της οικογένειας των συναρτήσεων βαθμού (αρχιτεκτονικές)

• Κριτήριο αξιολόγησης της προσέγγισης της 𝑣(𝑥) απο την 𝑣(𝑥,𝑤)(κάποιο μέτρο του σφάλματος προσέγγισης?)

• Αλγόριθμος εκπαίδευσης, αξιολόγηση της συμπεριφοράς του

Page 6: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Βασικά ζητήματα σχεδιασμού

• Τα δύο σύνολα αποτελούνται απο δείγματα 𝑣, 𝑥 τα οποία παράγονται απο την κατανομή 𝑝𝑑𝑎𝑡𝑎 , 𝑣, 𝑥 ~𝑝𝑑𝑎𝑡𝑎

• Αν τα δείγματα είναι i.i.d τα σύνολα εκπαίδευσης και ελέγχου παρουσιάζουν συνάφεια.

• Για δεδομένο w, το αναμενόμενο σφάλμα πάνω στα δύο σύνολα ταυτίζεται.

• Η προσπάθεια των αλγορίθμων μηχανικής μάθησης αποσκοπεί να:

• Επιτύχει καλό ταίριασμα στις 𝑣(𝑥) και 𝑣(𝑥, 𝑤) με καλή επιλογή της οικογένειας 𝑣 και της παραμέτρου 𝑤 (να ελαττώσει το σφάλμα υποταιριάσματος underfitting)

• Να μικρύνει τη διαφορά μεταξύ σφαλμάτων εκπαίδευσης και ελέγχου (ναμειώσει το σφάλμα γενίκευσης, δηλαδή το σφάλμα προσέγγισης έξω απο το σύνολο εκπαίδευσης, να ελαττώσει το σφάλμα υπερταιριάσματος overfitting)

Page 7: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Underfitting/Overfitting

• Τα δεδομένα παράγονται απο πολυωνυμική συνάρτηση δευτέρου βαθμού

• Αριστερά. Προσέγγιση με γραμμική συνάρτηση

• Κεντρο. Προσέγγιση με πολυωνυμική συνάρτηση δευτέρου βαθμού

• Δεξιά. Προσέγγιση με συνάρτηση βαθμού 9.

Page 8: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Παρατήρηση

• Στο πρόβλημα της ενισχυτικής μάθησης δεν υπάρχουν από τα πρίν δεδομένα ‘στόχου’, δηλαδή δεδομένα για τις τιμές της πρός προσέγγιση συνάρτησης 𝑣(𝑥).

• Αυτά πρέπει να ‘εκτιμηθούν΄ είτε απο την πραγματική εμπειρία (𝑥, 𝑎, 𝑥′, 𝑟, 𝑎′, … . ) είτε να προκύψουν απο εξομείωση με αξιοποίηση των εξισώσεων Bellman (περισσότερα σε επόμενες διαφάνειες).

• Επιπλέον, τα δεδομένα στόχου εξαρτώνται απο τις παραμέτρους (πιο σαφές αργότερα).

Page 9: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Κριτήριο επίδοσης

• Το πλέον κατάλληλο: υπο συνθήκη εκτιμητής μέγιστης πιθανοφάνειας (για i.i.d δείγματα)

• 𝑤𝑀𝐿 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑖=1𝑀 log 𝑃(𝑣 𝑖 | 𝑥 𝑖 ; w)

• Ο εκτιμητής είναι συνεπής: οταν το πλήθος των δεδομένων εκπαίδευσης τείνει στο απειρο, συγκλίνει στη αληθινή τιμή (υπό την προυπόθεση οτι αυτή υπαρχει και είναι μοναδική)

• Συχνά, ιδιαίτερα στην ενισχυτική μάθηση, αντι της κατανομής χρησιμοποιείται κάποια υπο συνθήκη στατιστική της κατανομής και πιο συγκεκριμμενα το μέσο τετραγωνικό σφάλμα

• 𝑤𝑀𝑆𝐸 = 𝑎𝑟𝑔𝑚𝑖𝑛𝐸(𝑣,𝑥)~𝑝𝑑𝑎𝑡𝑎| 𝑣 − 𝑣 𝑥;𝑤 2~

• 𝑎𝑟𝑔𝑚𝑖𝑛1

𝑀 𝑖=1

𝑀 | 𝑣 𝑖 − 𝑣 𝑥 𝑖 ; 𝑤2

Page 10: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Βαθειά νευρωνικά δίκτυα

• Αλλαγή συμβολισμού 𝑦 = 𝑓 𝑥; 𝜃

• Εμπροσθοβαρής (Feedforward) ροή της πληροφορίας σε αντιδιαστολή προς τα αναδρομικά (recurrent NN) οπου υπάρχει ανάδραση.

• Αποτελούν δίκτυα γιατί συνθέτουν πολλές διαφορετικές υπολογιστικές μονάδες

• Σειριακές δομές, οργανωμένες σε επίπεδα (layers) 𝑓3 𝑓2 𝑓1(𝑥); 𝜃1 ; 𝜃2 ; 𝜃3)

• Βάθος: αριθμός επιπέδων

Page 11: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Νευρωνικό δίκτυο ενος κρυφού επιπέδου

Page 12: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Πολυεπίπεδο (βαθύ) νευρωνικό δίκτυο

Page 13: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Βαθειά νευρωνικά δίκτυα

• Η είσοδος εμφανίζεται στο πρώτο επιπεδο, η έξοδος παράγεται στο τελευταίο. Τα ενδιάμεσα επίπεδα ονομάζονται κρυφά (hidden layers).

• Σε κάθε επίπεδο εκτελούνται παράλληλα υπολογισμοί απο ένα πλήθος μονάδων που δέχονται εισόδους απο τις μονάδες του προηγούμενου επιπέδου. Τα αποτελέσματα του επιπέδου παρουσιάζονται ως διάνυσμα που χρησιμοποιείται ως είσοδος στο επόμενο επίπεδο.

• Η αλληλουχία των επιπέδων μπορεί να θεωρηθεί ως διαδοχική βελτίωση εκμάθησης χαρακτηριστικών της εισόδου

• 𝑓3 𝑓2 𝑓1(𝑥); 𝜃1 ; 𝜃2 ; 𝜃3)

• Εχουν ως αφετηρία τα βιολογικά νευρωνικά δίκτυα οπου οι μονάδες στο κάθε επίπεδο αντιστοιχούν σε νευρώνες.

Page 14: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ζητήματα σχεδιασμού νευρωνικών δικτύων

• Συνάρτηση ενεργοποίησης,

• αριθμός επιπέδων (βάθος), αριθμός μονάδων σε κάθε επίπεδο (εύρος),

• συνδεσμολογία μονάδων,

• συνάρτηση κόστους, αλγόριθμος εκπαίδευσης

• ομαλοποίηση (regularization)

Page 15: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ενεργοποίηση

• Εύρος και βάθος: προκύπτουν απο πειραματική επεξεργασία με βάση την επιτήρηση του σφάλματος επαλήθευσης.

• Μονάδες εξόδου:

1. γραμμική συνάρτηση (affine)

• 𝑦 = 𝑊ℎ + 𝑏

2. Ιδιαίτερα χρήσιμη στις προσεγγίσεις τυχαιοποιημένων πολιτικών

• 𝑦 = 𝜎(𝑊ℎ + 𝑏)

• Όπου σ η λογιστική σιγμοειδής συνάρτηση

• 𝜎 𝑥 =1

1+exp(−𝑥)

Page 16: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ενεργοποίηση και καθολική προσέγγιση

• Χρήσιμη και η

• 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑥)𝑖 =exp(𝑥𝑖)

exp(𝑥𝑗)

• Κρυφές μονάδες: η πιο διαδεδομένη συνάρτηση ενεργοποίησης η ευθυγραμμισμένη γραμμική συνάρτηση (rectified linear)

• max 0, 𝑥

Page 17: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ενεργοποίηση και καθολική προσέγγιση

• Ιδιότητα καθολικής προσέγγισης: Καθε (μετρήσιμη) συνάρτηση στον 𝑅𝑛 μπορεί να προσεγγιστεί με ένα νευρωνικό δίκτυο ενός κρυφού επιπέδου με αρκούντως μεγάλο αριθμό μονάδων. Ισχύει για γενικές συναρτήσεις ενεργοποίησης που περιλαμβάνουν την ευθυγραμμισμένη γραμμική συνάρτηση

• Σε κάποιο βαθμό ο μεγάλος αριθμός μονάδων εξομαλύνεται με το μεγαλύτερο βάθος το οποίο οδηγεί και σε μικρότερο σφάλμα γενίκευσης

Page 18: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Αλγόριθμος εκπαίδευσης

• Ο αλγόριθμος στοχαστικής βαθμίδας ο πιο δημοφιλής

• Αντικατάσταση της αναμενόμενης τιμής με το μέσο όρο

• 𝐽 𝜃 =1

𝑀 𝑖=1

𝑀 𝛻𝜃𝐿(𝑥𝑖 , 𝑦 𝑖 ; 𝜃)

• Διατηρώ έναν μόνον όρο απο το άθροισμα (σύγκρινε και με τον αλγόριθμο βηματικής βαθμίδας incremental gradient)

• 𝑔 = 𝛻𝜃𝐿(𝑥𝑖 , 𝑦 𝑖 ; 𝜃)

• Και ανανεώνω

• 𝜃 ← 𝜗 − 𝛾𝑔

• Εναλλακτικά, μπορω να χρησιμοποιήσω ένα μικρο αριθμό δειγμάτων απο το σύνολο εκπαίδευσης (mini batch) οπότε

• 𝑔 =1

𝑀′ 𝑖=1

𝑀′ 𝛻𝜃𝐿(𝑥𝑖 , 𝑦 𝑖 ; 𝜃) , 𝑀′≪ 𝑀

Page 19: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Αλγόριθμος εκπαίδευσης

• Οπισθοδρομική διάδοση

• Αποτελεσματικός τρόπος υπολογισμού της βαθμίδας (gradient).

• Εξυπνη χρήση του κανόνα της αλυσίδας για τη παράγωγο.

Page 20: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Αλγόριθμος εκπαίδευσης

• Απουσία κυρτότητας: Εμφαση στη συνεχή βελτίωση του κόστους,

• Δεν υπάρχει εγγυημένη προσέγγιση στο ολικό ελάχιστο.

• Καλή πρακτική: αρχικοποίηση βαρών απο μικρές τυχαίες τιμές.

Page 21: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ομαλοποίηση regularization

• Επιδιώκει τη μείωση του σφάλματος ελεγχου (test error) έναντι αποδεκτής αύξησης του σφάλματος εκπαίδευσης.

• Εχει τη μορφή επιβολής ποινής (penalty)/περιορισμών (constraints) με σκοπό τη μείωση του υπερταιριάσματος (overfitting).

• Ποινή στο κόστος

• Επιβάλλεται στα βάρη οχι στο σταθερό όρο (offset)

• L2ομαλοποίηση (ridge regression, Tikhonov regularization): J(w)=J(w)+αw’w

• Η υπερπαράμετρος α σταθμίζει τη συμμετοχή της ποινής στο κόστος

Page 22: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ομαλοποίηση

• L1ομαλοποίηση

• 𝐽 𝑤 = 𝐽 𝑤 + | 𝑤 |1 = 𝐽 𝑤 + 𝛼 𝑖 |𝑤𝑖|

• Προάγει την αραιότητα στο w

• Αλλες τεχνικές

1 Επαύξηση δεδομένων: δημιουργία νέων δεδομένων με:

• Θόρυβο στην είσοδο ή στις κρυφές μονάδες

• Θόρυβο στα βάρη, θεωρώντας τα βάρη ως τυχαίες μεταβλητές και ακολουθώντας Μπαεσιανή προσέγγιση

Page 23: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ομαλοποίηση

2. Multitask learning and pooling

• Ένα πλήθος εξόδων (πολλαπλές εργασίες) παράγεται από την ίδια είσοδο, για παράδειγμα η συνάρτηση αξίας κατάστασης και ενέργειας

• Υπόθεση: μεταξύ των παραγόντων που εξηγούν τη διαφορετικότητα των πολλαπλών εργασιών, υπάρχουν ορισμένοι που είναι κοινοί για δύο ή περισσότερες εργασίες.

• Συγκέντρωση μοιραζόμενων χαρακτηριστικών σε μία συνάρτηση και στη συνέχεια διαχωρισμός για τον υπολογισμό των πολλαπλών εργασιών

Page 24: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ομαλοποίηση

Page 25: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ομαλοποίηση

• 3. Επιβολή περιορισμών

• Μηδενισμός παραμέτρων, ισότητα και διαμοιρασμός (parameter sharing)

• Συνελικτικά ή συγκεραστικά δίκτυα (Convolutional networks)

• Η πράξη του συγκερασμού χαρακτηρίζει τη σχέση εισόδου εξόδου ενός χρονικά αναλλοίωτου (αιτατού) γραμμικού συστήματος

• Επίσης η συνάρτηση πυκνότητας πιθανότητας του αθροίσματος δύο ανεξάρτητων τυχαίων μεταβλητών.

Page 26: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ομαλοποίηση

• Στη γενική περίπτωση ενός νευρωνικού δικτύου το διάνυσμα εισόδου στις μονάδες ενεργοποίησης έχει τη μορφή

• 𝑦𝑖 = 𝑊𝑖𝑥 + 𝑏𝑖 , επίπεδο i

• Ο πίνακας 𝑊𝑖 είναι πλήρης.

• Στα συγκεραστικά δίκτυα είναι Toeplitz και συχνά κατω τριγωνικός, οπότε επιβάλλεται ο μηδενισμός παραμέτρων (άνω διαγώνιος) η ισότητα και ο διαμοιρασμός (όλα τα στοιχεία σε κάθε διαγώνιο είναι ίσα)

• Σαφής αναλογία με τους block γραμμικούς και συγκεραστικούς κώδικες

Page 27: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ομαλοποίηση

• 4. Μέθοδοι συνόλου (ensemble methods) και μεσοστάθμιση μοντέλων (bagging bootstrap aggregating)

• Δειγματοληψία με αντικατάσταση: k σύνολα εκπαίδευσης προκύπτουν απο το αρχικό σύνολο κάνοντας χρήση δειγματοληψίας με αντικατάσταση.

• Τα k σύνολα είναι διαφορετικά και οδηγούν σε διαφορετικά μοντέλα.

• Επιλέγεται ο μέσος όρος ή άλλος πρόσφορος συνδυασμός.

Page 28: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ομαλοποίηση

5. Εκπαίδευση με εγκατάλειψη (dropout)

• Για συνθετα νευρωνικά δίκτυα οι μέθοδοι συνόλου είναι υπολογιστικά επιβαρυμένες

• Η εκπαίδευση με εγκατάλειψη αποτελεί πρακτική προσέγγιση: το σύνολο αποτελείται απο όλα τα υποδίκτυα δικτύου βάσης που σχηματίζεται απο την απαλειφή μονάδων διαφορετικών απο την έξοδο. Η απαλειφή επιτυγχάνεται με τον πολλ/μο της εξόδου της μονάδας με 0.

• μ διάνυσμα μάσκας: δυαδικό διάνυσμα που καθορίζει ποιές μονάδες θα διατηρηθούν στο μοντέλο και ποιές θα απαλειφθούν

Page 29: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Εγκατάλειψη

Page 30: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Ομαλοποίηση

• J(w,μ) το κόστος του μοντέλου με παράμετρο w και μάσκα μ. Τότε η εκπαίδευση με εγκατάλειψη επιδιώκει

• min𝑤

𝐸𝜇𝐽(𝑤, 𝜇)

• Λόγω του εκθετικά μεγάλου αριθμού μασκών χρησιμοποιούμε στοχαστική βαθμίδα και δείγματα της μάσκας:

• μ i.i.d οπου οι κρυφές μονάδες διατηρούνται με πιθανότητα ½ και οι μονάδες εισόδου με πιθανότητα 0.8.

Page 31: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Εκπαίδευση με αντιπαλότητα (adversarial training)

Page 32: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Προσεγγιστικοί αλγόριθμοι ενισχυτικής μάθησης1. Μέθοδοι προσεγγιστικής επανάληψης πολιτικής

2. Μέθοδοι προσεγγιστικής επανάληψης αξίας

3. Αλλες προσεγγιστικοί μέθοδοι

Page 33: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Προσεγγιστική επανάληψη πολιτικής

• Γενικό σχήμα

• Εστω πολιτική μ (ταυτίζουμε τη πολιτική π με τον κανόνα απόφασης μ)

1. Αξιολόγησε τη πολιτική με μια προσέγγιση της 𝑉𝜇 𝑥 , 𝑉𝜇 𝑥 , αντί της 𝑉𝜇 𝑥 .

2. Ανανέωσε την πολιτική μ με την άπληστη πολιτική της 𝑉𝜇 𝑥

• 𝜇𝑛𝑒𝑤(𝑥)=argmax𝑎∈𝒜

𝑥′ 𝑃 𝑥′ 𝑥, 𝑎 [𝑟 (𝑥, 𝑎, 𝑥′) + 𝑉𝜇 (𝑥′)]

≡ 𝑔𝑟𝑒𝑒𝑑𝑦( 𝑉𝜇)(x)

Page 34: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Εκδοχή βασισμένη στο υπόδειγμα (model based)• Εστω πολιτική μ.

• Γέννησε μεγάλο αριθμό καταστάσεων 𝑥𝑠, 𝑠 = 1,2, … , 𝑞

• Με αρχική κατάσταση 𝑥𝑠 και πολιτική μ δημιούργησε μια ή περισσότερες καταστατικές τροχιές μήκους Τ: 𝑥𝑡+1~𝑝(∙ |𝑥𝑡 , 𝜇 𝑥𝑡 ),

• και υπολόγισε τη τιμή της σωρευτικής αξίας για αρχική κατάσταση 𝑥𝑠, 𝑣𝑠

• (με εξομείωση MC, χρονικές διαφορές, αραιά δειγματοληπτημένα δενδρα)

• Εκπαίδευσε βαθύ νευρωνικό δίκτυο 𝑣𝜇 𝑥;𝑤 έτσι ώστε

• min𝑤

𝑠=1𝑞

[ 𝑣𝜇 𝑥;𝑤 −𝑣𝑠]2

• Αλγόριθμος εκπαίδευσης

• 𝑤𝑘+1 = 𝑤𝑘 − 𝛾𝑘𝛻 𝑣𝜇 𝑥𝑘; 𝑤𝑘 [ 𝑣𝜇 𝑥𝑘; 𝑤𝑘 −𝑣𝑘]

• Ανανέωση πολιτικής 𝜇 𝑥 = 𝑔𝑟𝑒𝑒𝑑𝑦( 𝑣𝜇 𝑥;𝑤∗ )

Page 35: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Εκδοχή βασισμένη στο υπόδειγμα

• Επιλογές

• Επαναχρησιμοποίηση δειγμάτων στις καταστατικές τροχιές

• Χρήση πολλών τροχιών μικρού μήκους: καλλίτερη εξισορρόπηση μεροληψίας-διασποράς

Page 36: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Επανάληψη πολιτικής με χρήση των συντελεστών Q• Εστω πολιτική μ

1. Αποτίμηση της μ με προσέγγιση της

• 𝑄𝜋(𝑥, 𝑎) = 𝐸[𝑟 𝑥, 𝑎, 𝑥′ + 𝛽Q𝜋 𝑥′, 𝜋(𝑥′ ]

• με κατάλληλη 𝑄𝜋 𝑥, 𝑎; 𝑤

• Ανανέωση της πολιτικής μ με την απληστη πολιτική της 𝑄𝜋 𝑥, 𝑎;𝑤

• 𝜇𝑛𝑒𝑤(𝑥)=𝑚𝑎𝑥𝑎( 𝑄𝜋 𝑥, 𝑎;𝑤 )

Page 37: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Εκδοχή ελεύθερη υποδείγματος

• Εστω πολιτική μ.

• Γέννησε μεγάλο αριθμό καταστάσεων και ενεργειών 𝑥𝑠, 𝑎𝑠, 𝑠 = 1,2,… , 𝑞

• Με αρχική κατάσταση 𝑥𝑠 και πολιτική μ δημιούργησε μια ή περισσότερες καταστατικές τροχιές μήκους Τ: 𝑥𝑡+1~𝑝(∙ |𝑥𝑡 , 𝜇 𝑥𝑡 ), και υπολόγισε τη τιμή της 𝑄𝑠 𝑥𝑠, 𝑎𝑠 με εξομείωση. Eναλλακτικά΄χρησιμοποίησε τις χρονικές διαφορές (βλέπε SARSA):

• 𝑄𝜋 𝑥, 𝑎 ← 𝑄𝜋 𝑥, 𝑎 + 𝛾[𝑟 𝑥, 𝑎, 𝑥′ + 𝛽Q𝜋 𝑥′, 𝜋(𝑥′′ − 𝑄𝜋(𝑥, 𝑎)]

• Εκπαίδευσε βαθύ νευρωνικό δίκτυο 𝑄𝜇 𝑥;𝑤 έτσι ώστε

• min𝑤

𝑠=1𝑞

[ 𝑄𝜇 𝑥𝑠, 𝑎𝑠; 𝑤 −𝑣𝑠]2

• Αλγόριθμος εκπαίδευσης

• 𝑤𝑘+1 = 𝑤𝑘 − 𝛾𝑘𝛻 𝑄𝜇 𝑥𝑘 , 𝑎𝑘; 𝑤𝑘 [ 𝑄𝜇 𝑥𝑘 , 𝑎𝑘; 𝑤𝑘 −𝑣𝑘]

• Ανανέωση πολιτικής 𝜇 𝑥 = max𝑎

( 𝑄𝜇 𝑥, 𝑎;𝑤∗ )

Page 38: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Προσεγγιστική επανάληψη πολιτικής

Page 39: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

• Αρχιτεκτονικές επιλογές για τις προσεγγίσεις των συναρτήσεων αξίας αποτελούν και οι γραμμικές ως προς τις παραμέτρους συναρτήσεις.

• Οδηγούν σε κλειστούς τύπους και ισχυρές εγγυήσεις σύγκλισης.

• Γενικά όμως, τα βαθειά νευρωνικά δίκτυα, παρά την αδυναμία σύγκλισης, έχουν καλίτερη ικανότητα γενίκευσης και πολύ καλύτερα αποτελέσματα στην ανάδειξη αποτελεσματικών πολιτικών.

Page 40: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Προσεγγιστική Q μάθηση, DQN και Double DQN

• Η βασική σχέση ανανέωσης στην Q μάθηση:

• 𝑄𝑡+1 𝑥, 𝑎 =𝑄𝑡 𝑥, 𝑎 + 𝛾𝑡[(𝑟 𝑥, 𝑎, 𝑥′ + 𝛽max𝑎′

𝑄𝑡 𝑥′, 𝑎′ − 𝑄𝑡 𝑥, 𝑎 ]

• Προσεγγιστική εκδοχή με 𝑄𝑡 𝑥, 𝑎 ← 𝑄𝑡 𝑥, 𝑎; 𝑤𝑡

• Η παραπάνω σχέση προτρέπει στη χρήση της

• 𝑟 𝑥, 𝑎, 𝑥′ + 𝛽max𝑎′

𝑄𝑡 𝑥′, 𝑎′

• ως επιθυμητής τιμής (target) και οδηγεί στον ευρυστικό κανόνα ανανέωσης για τις παραμέτρους

• 𝑤𝑡+1 = 𝑤𝑡 + 𝛾𝛻𝑤𝑄 𝑥, 𝑎,𝑤𝑡 [𝑟 𝑥, 𝑎, 𝑥′ + 𝛽 max𝑎′

𝑄𝑡 𝑥′, 𝑎′, 𝑤𝑡 − 𝑄 𝑥, 𝑎, 𝑤𝑡 ]

Page 41: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

DQN και Double DQN

Ζητήματα1. Η ανανέωση των παραμέτρων αλλάζει το στόχο: σταδιακά σωρεύονται

μεγάλα σφάλματα2. Υπερεκτίμηση των τιμών της Q 𝑥, 𝑎 λόγω του max.• Για την αντιμετώπιση του 1, το DQN παγώνει τις παραμέτρους στο στόχο

για C επαναλήψεις• Επίσης το DQN χρησιμοποιει επαναπαιζόμενη μνήμη (replay memory):

αποθηκεύει σε ένα mini batch μήκους Ν τα πιο πρόσφατα δεδομένα (x,a,r,x’) που παράγονται απο την ε-άπληστη πολιτική:

• με πιθανότητα 1-ε επιλέγεται η ενέργεια argmax𝑎

𝑄(𝑥, 𝑎, 𝑤𝑡) και με ε μια

τυχαία ενέργεια

Page 42: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

DQN και double DQN

• Η ανανέωση των παραμέτρων γίνεται με τυχαία επιλογή των (x, a, r, x’) στην επαναπαιζόμενη μνήμη.

• Για την εφαρμογή στο περιβάλλον των Atari games (βλέπε αρθρα στα ‘εγγραφα’) εισάγονται αρκετές σχεδιαστικές λεπτομέρειες απο την εκπαίδευση βαθειών νευρωνικών δικτύων:

• Περιορισμός των ανταμειβών στο [-1 1]

• Προεπεξεργασία για τη μείωση της διάστασης των διανυσμάτων εισόδου

• Χρήση συγκεραστικών επιπέδων στα πρώτα επίπεδα κ.α

• Το διπλο DQN αντιμετωπίζει τη δυσκολία της υπερεκτίμησης λόγω του max διαχωρίζοντας την επιλογής της ενέργειας απο την αποτίμηση (υπολογισμός Q): ο στόχος έχει τη μορφή

• 𝑟 𝑥, 𝑎, 𝑥′ + 𝛽𝑄(𝑥′, 𝑎𝑟𝑔max𝑎′

𝑄𝑡 𝑥′, 𝑎′, 𝑤𝑡 , 𝑤𝑡)

• Οπως και πριν το δεύτερο 𝑤𝑡 παγώνει για ορισμένο αριθμό επαναλήψεων.

Page 43: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Μέθοδοι βαθμίδας πολιτικής (policy gradient)

• Χρησιμοποιούμε προσεγγιστικές παραμετρικές μορφές για την πολιτική αντί της αξίας.

• Αρχικά εξετάζουμε προσεγγίσεις στάσιμων στοχαστικών πολιτικών

• 𝜋 = 𝜇, 𝜇, … , 𝜇(𝑎|𝑥) ≈ 𝜇(𝑎|𝑥, 𝑤)

• 𝑤 παράμετρος

• Μεγιστοποιώ την αξία της πολιτικής 𝑉𝜋(𝑥) ως προς 𝑤 (αντι της αρχικής μεγιστοποίησης ως προς π)

• Χρησιμοποιώ κατάδυση βαθμίδας για την ανανέωση των παραμέτρων 𝑤

• 𝑤𝑡+1 = 𝑤𝑡 + 𝛾𝑡𝛻𝑉𝜋(𝑤)

Page 44: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Υπολογισμος της παραγώγου της αξίας

• Αναμενόμενη αξία της στοχαστικής πολιτικής 𝜋(𝑥|𝑎) στην κατάσταση

• 𝑥0

• 𝑉𝜋 𝑥0 = 𝑥 𝜌𝜋𝛽(𝑥) 𝑎 𝜋(𝑥|𝑎) 𝑥′𝑃 𝑥′ 𝑥, 𝑎 𝑟(𝑥, 𝑎, 𝑥′)

• Όπου

• 𝜌𝜋𝛽(𝑥0) = 𝑡=0

∞ 𝛽𝑡𝑃(𝑥𝑡 = 𝑥|𝑥0, 𝜋)

• η προεξοφλημένη κατανομή κατάστασης. Στη πράξη θεωρούμε οτι κάθε παραμετροποιημένη πολιτική 𝜋(𝑥|𝑎,𝑤) παράγει εργοδική αλυσίδα Markov με μοναδική στάσιμη κατανομή 𝑝𝑤 και χρησιμοποιούμε την 𝑝𝑤 αντί της 𝜌𝜋

𝛽

Page 45: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Υπολογισμός της βαθμίδας της αξίας

• Παράγωγος αξίας

• 𝛻𝑉𝜋 𝑥0 = 𝑥 𝜌𝜋𝑤

𝛽(𝑥) 𝑎 𝛻𝑤𝜋(𝑥|𝑎, 𝑤) 𝑥′𝑃 𝑥′ 𝑥, 𝑎 𝑄𝜋𝑤

(𝑥, 𝑎)

• Η παράγωγος αξίας δεν εξαρτάται απο την παράγωγο της κατανομής 𝜌𝜋

𝛽(𝑥0)

• Επίσης (εκτιμητής βαθμού-score function estimator REINFORCE, Williams 1992)

• 𝛻𝑤𝜋 𝑥 𝑎,𝑤 = 𝜋 𝑥 𝑎,𝑤𝛻𝑤𝜋 𝑥 𝑎, 𝑤𝜋 𝑥 𝑎, 𝑤 = 𝜋 𝑥 𝑎, 𝑤 log 𝛻𝑤𝜋 𝑥 𝑎,𝑤

• Αρα

• 𝛻𝑉𝜋 𝑥0 = Ε𝑥~𝜌𝜋𝑤

𝛽,𝑎~𝜋𝑤

[ log 𝛻𝑤𝜋 𝑥 𝑎, 𝑤 𝑄𝜋𝑤]

Page 46: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Υπολογισμός της παραγώγου της αξίας

• Αρα η μέθοδος πολιτικής βαθμίδας χρειάζεται τη συνάρτηση αξίας 𝑄𝜋𝑤

• Αυτό μπορεί να γίνει με εξομείωση Monte Carlo η ακόμα καλίτερα με αρχιτεκτονικές δρώντος/κριτικού (actor critic) (Konda Tsitsiklis 2000, Mnih et al 2016).

• Δρών: νευρωνικό δίκτυο με τις παραμέτρους της πολιτικής w. Χρησιμοποιεί τις παραγώγους και προσαρμόζει τα w.

• Κριτικός: νευρωνικό δίκτυο με παράμετρους θ, εκτιμά την προσεγγιστική συνάρτηση αξίας 𝑄𝜋𝑤

, 𝑄 𝑥, 𝑎, 𝑤 ≈ 𝑄𝜋𝑤(𝑥, 𝑎)

Page 47: Μαθημα 4 Βαθειά ενισʗʑʐική μάθηση · 2020. 11. 16. · Βασικά ζηʐήμαʐα σʗεδιασμού •α δύο σύνολα αποʐελούνʐαι

Υπολογισμός της παραγώγου της αξίας

• Χρήση ομαλοποιητή εντροπίας

• Αντι της συνάρτησης 𝑄𝜋𝑤, μπορεί να χρησιμοποιηθεί η συνάρτηση

πλεονεκτήματος Α𝜋𝑤x, a = 𝑄𝜋𝑤

(x,a)−𝑉𝜋𝑤(x)

• Οι μικρότερες τιμές του πλεονεκτήματος μειώνουν την διασπορά του εκτιμητή της παραγώγου.