Download - TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Transcript

Page 1: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• TD(0) prediction• Sarsa, On-policy learning• Q-Learning, Off-policy learning

Page 2: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• Actor-Critic

Page 3: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Unified View

Page 4: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

N-step TD Prediction

Page 5: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Page 6: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Forward View

Page 7: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Random Walk

Page 8: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• 19-state random walk

Page 9: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• n-step method is simple version of TD(λ)

• Example: backup average of 2-step and 4-step returns

Page 10: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Forward View, TD(λ)

• Weigh all n-step return backups by λn-1

(time since visitation)• λ-return:

• Backup using λ-return:

Page 11: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Weighting of λ-return

Page 12: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Relationship with TD(0) and MC

Page 13: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Page 14: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Backward View

Page 15: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Book shows forward and backward views are actually equivalent

Page 16: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

On-line, Tabular TD(λ)

Page 17: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• Update rule:

• As before, λ = 0 means TD(0)• Now, when λ = 1, you get MC, but– Can apply to continuing tasks– Works incrementally and on-line!

Page 18: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Control: Sarsa(λ)

Page 19: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Gridworld Example

Page 20: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Watkin’s Q(λ)

• Why isn’t Q-learning as easy as Sarsa?

Page 21: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Watkin’s Q(λ)• Why isn’t Q-learning as easy as Sarsa?

Page 22: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• Accumulating traces– Eligibilities can be greater than 1– Could cause convergence problems

• Replacing traces

Page 23: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Page 24: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• Example: why do accumulating traces do particularly poorly in this task?

Page 25: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Page 26: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Implementation Issues

• Could require significant amounts of computation– But most traces are very close to zero…– We can actually throw them out when they get very

small• Will want to use some type of efficient data

structure• In practice, increases computation only by a

small multiple

Page 27: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• AnonymousFeedback.net Send to [email protected]

1. What’s been most useful to you (and why)?

2. What’s been least useful (and why)?

3. What could students do to improve the class?

4. What could Matt do to improve the class?

Top Related

Policy Gradient with Baselines - cse.buffalo.edu

Policy Gradient with Baselines - cse.buffalo.edu

ECE276B: Planning & Learning in Robotics Lecture 3: The Dynamic Programming Algorithm · 2019. 4. 7. · Dynamic Programming I Objective: construct an optimal policy ˇ (independent

ECE276B: Planning & Learning in Robotics Lecture 3: The Dynamic Programming Algorithm · 2019. 4. 7. · Dynamic Programming I Objective: construct an optimal policy ˇ (independent

Hellenic Immigration Policy

Hellenic Immigration Policy

Policy paper-no17.2013 σακελλαρόπουλος-φίτσιου-4

Policy paper-no17.2013 σακελλαρόπουλος-φίτσιου-4

10703 Deep Reinforcement Learning and Control · 2017. 10. 18. · Policy-Based Reinforcement Learning ‣ So far we approximated the value or action-value function using parameters

10703 Deep Reinforcement Learning and Control · 2017. 10. 18. · Policy-Based Reinforcement Learning ‣ So far we approximated the value or action-value function using parameters

$Tivoli SecureWay Policy Directorpublib.boulder.ibm.com/tividd/td/SW_30/GC32-0737-00/zh... · 2007-09-29 · eÑ Tivoli® Policy Director O⌡µTivoli Policy Director ú Xñ {í ≥$

Tivoli SecureWay Policy Directorpublib.boulder.ibm.com/tividd/td/SW_30/GC32-0737-00/zh... · 2007-09-29 · eÑ Tivoli® Policy Director O⌡µTivoli Policy Director ú Xñ {í ≥

Reinforcement Learning - 4. Model-free reinforcement Learning

Reinforcement Learning - 4. Model-free reinforcement Learning