The Design of Online Learning Algorithms fileThe Design of Online Learning Algorithms Wouter M....

The Design of Online Learning Algorithms

Wouter M. Koolen

Online Learning WorkshopParis, Friday 20th October, 2017

Conclusion

A simple factor (1 + ηrt) stretches surprisingly far.

Outline

1 Coin Betting

2 Defensive Forecasting

3 Squint

4 MetaGrad

Coin Betting

K0 = 1.For t = 1, 2, . . .

Skeptic picks Mt ∈ RReality picks rt ∈ [−1, 1]

Kt = Kt−1 + Mtrt

Pick an event E .Skeptic wins if

1 Kt ≥ 0

2 r1r2 · · · ∈ E or Kt →∞.

Say: Skeptic can force E .

Coin Betting

K0 = 1.For t = 1, 2, . . .

Skeptic picks Mt ∈ RReality picks rt ∈ [−1, 1]

Kt = Kt−1 + Mtrt

Pick an event E .Skeptic wins if

1 Kt ≥ 0

2 r1r2 · · · ∈ E or Kt →∞.

Say: Skeptic can force E .

Forcing The Law of Large Numbers

Fix η ∈ [0, 1/2]. Suppose Skeptic plays Mt = Kt−1η.Then

KT = KT−1 +KT−1ηrT = KT−1(1 + ηrT ) =T∏t=1

(1 + ηrt)

Now say C ≥ KT . Then, using ln(1 + x) ≥ x − x2,

lnC ≥T∑t=1

ln(1 + ηrt) ≥T∑t=1

ηrt − Tη2

Tη≥ 1

T∑t=1

rt − η and so η ≥ lim supT→∞

T∑t=1

(1 + ηrt)

lnC ≥T∑t=1

ln(1 + ηrt) ≥T∑t=1

ηrt − Tη2

Tη≥ 1

T∑t=1

(1 + ηrt)

lnC ≥T∑t=1

ln(1 + ηrt) ≥T∑t=1

ηrt − Tη2

Tη≥ 1

T∑t=1

Forcing The Law of Large NumbersFinally, let Skeptic allocate a fraction γi of his initial K0 = 1 to ηi .Then

KT =∞∑i=1

T∏t=1

(1 + ηi rt)

Now suppose C ≥ KT . Then for each i :

lnC ≥ ln γi +T∑t=1

ln(1 + ηi rt)

So for each i

lim supT→∞

T∑t=1

rt ≤ ηi

and hence

lim supT→∞

T∑t=1

rt ≤ 0

KT =∞∑i=1

T∏t=1

(1 + ηi rt)

ln(1 + ηi rt)

So for each i

lim supT→∞

T∑t=1

rt ≤ ηi

and hence

lim supT→∞

T∑t=1

rt ≤ 0

KT =∞∑i=1

T∏t=1

(1 + ηi rt)

ln(1 + ηi rt)

So for each i

lim supT→∞

T∑t=1

rt ≤ ηi

and hence

lim supT→∞

T∑t=1

rt ≤ 0

What else

Skeptic can force many laws of probability. For example the LIL

lim supT→∞

∑Tt=1 rt√

2T ln lnT≤ 1

Small deviations?

What else

Skeptic can force many laws of probability. For example the LIL

lim supT→∞

∑Tt=1 rt√

2T ln lnT≤ 1

Small deviations?

Outline

1 Coin Betting

3 Squint

4 MetaGrad

Experts

Let’s play the experts game.

Learner picks wt ∈ 4K

Reality picks `t ∈ [0, 1]K

Learner incurs 〈wt , `t〉

Goal: make sure regret compared to any expert k is sublinear.

lim supT→∞

T∑t=1

rkt ≤ 0 where rkt = 〈wt , `t〉 − `kt

Key idea: Defensive Forecasting

1 Fix a strategy for Skeptic that forces this goal.

2 Play wt so that Skeptic does not get rich

Experts

lim supT→∞

T∑t=1

Experts

lim supT→∞

T∑t=1

StategyStragegy for Skeptic:Split capital K0 = 1 over experts k with weights πk and ηi with γi .

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

How to play? Make sure KT does not grow big.

KT+1 −KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi r

=∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi

(〈wT+1, `T+1〉 − `kT+1

when we pick

wkT+1 =

∑i πkγi

∏Tt=1(1 + ηi r

kt )ηi∑

j ,i πjγi∏T

t=1(1 + ηi rjt )ηi

(iProd)

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

KT+1 −KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi r

=∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi

(〈wT+1, `T+1〉 − `kT+1

when we pick

wkT+1 =

∑i πkγi

∏Tt=1(1 + ηi r

kt )ηi∑

j ,i πjγi∏T

(iProd)

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

KT+1 −KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi r

=∑k,i

πkγi

T∏t=1

(1 + ηi rkt )ηi

(〈wT+1, `T+1〉 − `kT+1

when we pick

wkT+1 =

∑i πkγi

∏Tt=1(1 + ηi r

kt )ηi∑

j ,i πjγi∏T

(iProd)

Outline

1 Coin Betting

3 Squint

4 MetaGrad

Squint

wkT+1 =

∑i πkγi

∏Tt=1(1 + ηi r

kt )ηi∑

j ,i πjγi∏T

(iProd)

Needs work:

Rates (how sublinear are the regrets?)

Computation

RatesBy design,

1 = KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

So for each i and k,

− lnπk − ln γi ≥T∑t=1

ln(1 + ηi rkt ) ≥ ηi

T∑t=1

rkt − η2iT∑t=1

(rkt )2

That is, abbreviating vkt = (rkt )2,

T∑t=1

rkt ≤ mini

T∑t=1

vkt +− lnπk − ln γi

Theorem (Koolen and van Erven [2015])

RkT ≤ O

(√V kT

(− lnπk + ln lnV k

RatesBy design,

1 = KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

T∑t=1

rkt − η2iT∑t=1

(rkt )2

T∑t=1

rkt ≤ mini

T∑t=1

RkT ≤ O

(√V kT

RatesBy design,

1 = KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

T∑t=1

rkt − η2iT∑t=1

(rkt )2

T∑t=1

rkt ≤ mini

T∑t=1

RkT ≤ O

(√V kT

RatesBy design,

1 = KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

T∑t=1

rkt − η2iT∑t=1

(rkt )2

T∑t=1

rkt ≤ mini

T∑t=1

RkT ≤ O

(√V kT

Computation

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

We are using ln(1 + r) ≥ r − r2 in the analysis. Put it inalgorithm?

Indeed, we can start from supermartingale

KT ≥ ΦT =∑k,i

πkγi

T∏t=1

eηi rkt −η2i v

∑k,i

πkγieηiR

kT−η

One choice of weights to keep this small:

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

Computation

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

We are using ln(1 + r) ≥ r − r2 in the analysis. Put it inalgorithm?Indeed, we can start from supermartingale

KT ≥ ΦT =∑k,i

πkγi

T∏t=1

eηi rkt −η2i v

∑k,i

πkγieηiR

kT−η

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

Computation

KT =∑k,i

πkγi

T∏t=1

(1 + ηi rkt )

We are using ln(1 + r) ≥ r − r2 in the analysis. Put it inalgorithm?Indeed, we can start from supermartingale

KT ≥ ΦT =∑k,i

πkγi

T∏t=1

eηi rkt −η2i v

∑k,i

πkγieηiR

kT−η

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

Computation, ctd

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

Maybe a continuous prior on η could help? How to make∫ 1/2

0γ(η)eηR

kT−η

2V kT η dη

Conjugate γ(η) ∝ e−aη−bη2. ⇒ Truncated Guassian mean.

Improper γ(η) ∝ 1η . ⇒ Gaussian CDF.

RkT ≤ O

(√V kT (− lnπk + ln lnT )

Computation, ctd

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

0γ(η)eηR

kT−η

2V kT η dη

RkT ≤ O

Computation, ctd

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

0γ(η)eηR

kT−η

2V kT η dη

RkT ≤ O

Computation, ctd

wkT+1 =

∑i πkγie

ηiRkT−η

kT ηi∑

j ,i πjγieηiR

jT−η

jT ηi

(Squint)

0γ(η)eηR

kT−η

2V kT η dη

RkT ≤ O

Squint Conclusion

Computation:

O(1) time per round (like Hedge, Adapt-ML-Prod, . . . )

Library: https://bitbucket.org/wmkoolen/squint

Regret:

Adaptive√V kT (lnK + ln lnT ) bound.

Implies L∗ bound, T bound.

Constant regret in stochastic gap case.

Outline

1 Coin Betting

3 Squint

4 MetaGrad

Online Convex Optimisation

Let’s play the OCO game.For t = 1, 2, . . .

Learner plays wt ∈ U (convex, bounded).

Reality picks ft : U → R (convex, bounded gradient)

Learner incurs f (wt) and observes ∇ft(wt)

Goal: small regret w.r.t. all u ∈ U

T∑t=1

(ft(wt)− ft(u))

Step 1: let’s play a harder game with linearised loss

ft(wt)− ft(u) ≤ 〈wt − u,∇ft(wt)〉 =: rut

T∑t=1

(ft(wt)− ft(u))

T∑t=1

(ft(wt)− ft(u))

iProd/Squint for OCOGoal: keep regret small for all u ∈ U ⇒ prior π on u.

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut ) du dη

Kan we keep this small?

KT+1 −KT

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut )η 〈wT+1 − u,∇fT+1(wT+1)〉 du dη

Need∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut )η (wT+1 − u) du dη = 0

which mandates

wT+1 =

∫ 1/20 γ(η)

∫U π(u)

∏Tt=1(1 + ηrut )ηu du dη∫ 1/2

0 γ(η)∫U π(u)

∏Tt=1(1 + ηrut )η du dη

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut ) du dη

KT+1 −KT

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

Need∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut )η (wT+1 − u) du dη = 0

which mandates

wT+1 =

∫ 1/20 γ(η)

∫U π(u)

0 γ(η)∫U π(u)

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut ) du dη

KT+1 −KT

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

Need∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut )η (wT+1 − u) du dη = 0

which mandates

wT+1 =

∫ 1/20 γ(η)

∫U π(u)

0 γ(η)∫U π(u)

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut ) du dη

KT+1 −KT

∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

Need∫ 1/2

0γ(η)

∫Uπ(u)

T∏t=1

(1 + ηrut )η (wT+1 − u) du dη = 0

which mandates

wT+1 =

∫ 1/20 γ(η)

∫U π(u)

0 γ(η)∫U π(u)

OCO iProd:

wT+1 =

∫ 1/20 γ(η)

∫U π(u)

0 γ(η)∫U π(u)

Work needed:

Picking priors

Computation

Prod bound to the rescue

We might also use

wT+1 =

∫ 1/20 γ(η)

∫U π(u)eηR

uT−η

2VuT ηu du dη∫ 1/2

0 γ(η)∫U π(u)eηR

uT−η2V

uT η du dη

T∑t=1

〈wt − u,∇ft(wt)〉

V uT =

T∑t=1

〈wt − u,∇ft(wt)〉2

linear/quadratic in u. ⇒ suggests π(u) multivariate Normal.

But then wt may end up outside U . And rut not bounded.

We might also use

wT+1 =

∫ 1/20 γ(η)

∫U π(u)eηR

uT−η

uT−η2V

uT η du dη

T∑t=1

V uT =

T∑t=1

We might also use

wT+1 =

∫ 1/20 γ(η)

∫U π(u)eηR

uT−η

uT−η2V

uT η du dη

T∑t=1

V uT =

T∑t=1

MetaGrad

Let’s do it anyway. Turns out it works.

∑i γiηiwi∑i γiηi

γi ← γie−ηi ri−η2i r

whereri = (wi − w)>∇ft

Tilted Exponential Weights

Σi ← (Σ−1i + 2η2i∇ft∇f >t )−1

wi ← ΠU (wi − ηiΣi∇ft (1 + 2ηi ri ))

≈ Online Newton Step

Theorem

The regret of MetaGrad is bounded by

RT = O

{√T ,√V u∗T d lnT

MetaGrad

Let’s do it anyway. Turns out it works.

∑i γiηiwi∑i γiηi

γi ← γie−ηi ri−η2i r

whereri = (wi − w)>∇ft

Tilted Exponential Weights

Σi ← (Σ−1i + 2η2i∇ft∇f >t )−1

wi ← ΠU (wi − ηiΣi∇ft (1 + 2ηi ri ))

≈ Online Newton Step

Theorem

The regret of MetaGrad is bounded by

RT = O

{√T ,√V u∗T d lnT

Consequences

What’s new with√VTd lnT?

Corollary

For α-exp-concave or α-strongly convex losses, MetaGradensures

RT = O (d lnT )

without knowing α.

Corollary (Koolen, Grunwald, and van Erven [2016])

For any β-Bernstein P, MetaGrad keeps the expected regret below

ER∗T ≤ O(

(d lnT )1

2−β T1−β2−β

)without knowing β.

Consequences

Corollary

RT = O (d lnT )

without knowing α.

ER∗T ≤ O(

(d lnT )1

2−β T1−β2−β

Consequences

Corollary

RT = O (d lnT )

without knowing α.

ER∗T ≤ O(

(d lnT )1

2−β T1−β2−β

Conclusion

A simple factor (1 + ηrt) stretches surprisingly far.

The Design of Online Learning Algorithms fileThe Design of Online Learning Algorithms Wouter M....

Documents

Transcript of The Design of Online Learning Algorithms fileThe Design of Online Learning Algorithms Wouter M....

Online Appendix - Curation Algorithms and Filter Bubbles in … · Online Appendix - Curation Algorithms and Filter Bubbles in Social Networks A Robustness to Timing We test the robustness

Message Passing AlMessage Passing Algorithms for Exact Inference - Parameter Learninggorithms for Exact Inference - Parameter Learning

Adaptive Subgradient Methods for Online Learning and

Meta online learning: experiments on a unit commitment problem (ESANN2014)

NIPS2009: Sparse Methods for Machine Learning: Theory and Algorithms

Part IV Generative Learning algorithmskmlee/cs539/cs229-notes2.pdf · Generative Learning algorithms So far, we’ve mainly been talking about learning algorithms that model p(y|x;θ),

GoLab “Global Online Science Labs for Inquiry Learning at School ...2ekfe-anatol.att.sch.gr/PROJECT/GoLab_presentation... · 2013. 12. 23. · Place for your logo G.Mavromanolakis

Part IV Generative Learning algorithmscs229.stanford.edu/notes/cs229-notes2.pdf · CS229Lecturenotes Andrew Ng Part IV Generative Learning algorithms So far, we’ve mainly been talking

Faster and Sample Near-Optimal Algorithms for Proper Learning Mixtures … · Sun. Eﬃcient Density Estimation via Piecewise Polynomial Approximation. •[DL01] Luc Devroye and Gabor

5 Deep Learning Multi-layered feedforward neural networks ... · 5 Deep Learning •Some Topics in Deep Learning: ∗Learning algorithms: ~Back propagation, Stochastic Gradient Descent

Online Discriminative Dictionary Learning for Visual …zhuolin/Publications/oddl_final.pdf · Online Discriminative Dictionary Learning for Visual Tracking ... zhuolin.jiang@huawei.com

Just starting out: Learning and equilibrium in a new market · Online appendix for \Just starting out: Learning and equilibrium in a new market" Ulrich Doraszelski University of Pennsylvania,

CS540 Machine learning Lecture 13 L1 regularizationmurphyk/Teaching/CS540-Fall08/L13.pdf · 2008. 10. 27. · Lecture 13 L1 regularization. Outline • L1 regularization • Algorithms

Part IV Generative Learning algorithms - Stanford Universitycs229.stanford.edu/notes-spring2019/cs229-notes2.pdf · 2019. 4. 17. · or algorithms that try to learn mappings directly

Machine Learning Probabilistic Machine Learning · Machine Learning Probabilistic Machine Learning learning as inference, Bayesian Kernel Ridge regression = Gaussian Processes, Bayesian

Splash: User-friendly Programming Interface for Parallelizing Stochastic Learning Algorithms

Online School FACEtoFACEE-LEARNING ΜΑΘΗΜΑΤΑ ERP SOFT1 ΜΕ ΚΡΑΤΙΚΗ ΠΙΣΤΟΠΟΙΗΣΗ Ε.Ο.Π.Π.Ε.Π Enterprise Resource Planning (ERP), μπορεί να αποδοθεί

Control of a nonlinear non affine discrete system using neural networks and online training with reinforcement learning methods

Online Learning of Non-stationary Sequencespeople.csail.mit.edu/cmontel/rqeTalk.pdf · Online learning framework Upper and lower regret bounds for a class of online learning algorithms

Online Κοινότητες, Online Αγορές!