On the Convergence of SARSA with Linear Function Approximation

要約

タイトル: SARSAによる線形関数近似の収束について
要約:
– SARSAは、強化学習におけるクラシックなオンポリシー制御アルゴリズムであるが、線形関数近似と組み合わせた場合はチャタリングすることが知られている。
– 本論文では、SARSAが制限された範囲内で振動することはあるが発散しないことを示しており、SARSAがその範囲に収束する速度とその範囲の大きさについての問題について取り組んでいる。
– 著者らは、SARSAを射影した場合の収束率を示すことで、この問題に前進した。また、報酬の大きさが適度である限り、SARSAが収束する領域は射影された領域よりもはるかに小さくなることを示している。
– 既存の研究では、リプシッツ定数が小さくなければ、線形SARSAが固定点に収束することが示されている。一方、本論文では任意のリプシッツ定数に適用可能であり、新しい利用範囲における線形SARSAの振る舞いを特徴付けている。

要約(オリジナル)

SARSA, a classical on-policy control algorithm for reinforcement learning, is known to chatter when combined with linear function approximation: SARSA does not diverge but oscillates in a bounded region. However, little is known about how fast SARSA converges to that region and how large the region is. In this paper, we make progress towards this open problem by showing the convergence rate of projected SARSA to a bounded region. Importantly, the region is much smaller than the region that we project into, provided that the magnitude of the reward is not too large. Existing works regarding the convergence of linear SARSA to a fixed point all require the Lipschitz constant of SARSA’s policy improvement operator to be sufficiently small; our analysis instead applies to arbitrary Lipschitz constants and thus characterizes the behavior of linear SARSA for a new regime.

arxiv情報

著者 Shangtong Zhang,Remi Tachet,Romain Laroche
発行日 2023-05-03 13:29:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク