Stability of Q-Learning Through Design and Optimism

要約

Q ラーニングは、1980 年代に Chris Watkins の論文で導入されて以来、強化学習ツールキットの重要な部分となっています。
このペーパーの目的の一部は、確率的近似と Q ラーニングに関するチュートリアルであり、2023 年 6 月にフランスのナンシーで開催された INFORMS APS の最初の応用確率トラスト全体講演に関する詳細を提供します。また、このペーパーでは、安定性と潜在的な可能性を確保するための新しいアプローチも紹介しています。
これらのアルゴリズムでは収束が加速され、他の設定では確率的近似が行われます。
2 つの貢献はまったく新しいものです。 1. 線形関数近似による Q 学習の安定性は、30 年以上にわたって未解決の研究テーマでした。
修正された Gibbs ポリシーの形式で適切な楽観的トレーニングを行うと、予測されたベルマン方程式の解が存在し、アルゴリズムが (有界パラメーター推定の観点から) 安定していることが示されています。
コンバージェンスは、依然として多くの未解決の研究トピックの 1 つです。
2. 新しい Zap Zero アルゴリズムは、行列反転を行わずにニュートン・ラフソン流を近似するように設計されています。
これは、アルゴリズムの平均流れベクトル場に関する穏やかな仮定と、基礎となるマルコフ連鎖に関する互換性のある統計的仮定の下で、安定して収束します。
このアルゴリズムは確率的近似への一般的なアプローチであり、特に非線形関数近似を使用した場合でも「忘却型」トレーニングによる Q 学習に適用されます。

要約(オリジナル)

Q-learning has become an important part of the reinforcement learning toolkit since its introduction in the dissertation of Chris Watkins in the 1980s. The purpose of this paper is in part a tutorial on stochastic approximation and Q-learning, providing details regarding the INFORMS APS inaugural Applied Probability Trust Plenary Lecture, presented in Nancy France, June 2023. The paper also presents new approaches to ensure stability and potentially accelerated convergence for these algorithms, and stochastic approximation in other settings. Two contributions are entirely new: 1. Stability of Q-learning with linear function approximation has been an open topic for research for over three decades. It is shown that with appropriate optimistic training in the form of a modified Gibbs policy, there exists a solution to the projected Bellman equation, and the algorithm is stable (in terms of bounded parameter estimates). Convergence remains one of many open topics for research. 2. The new Zap Zero algorithm is designed to approximate the Newton-Raphson flow without matrix inversion. It is stable and convergent under mild assumptions on the mean flow vector field for the algorithm, and compatible statistical assumption on an underlying Markov chain. The algorithm is a general approach to stochastic approximation which in particular applies to Q-learning with ‘oblivious’ training even with non-linear function approximation.

arxiv情報

著者 Sean Meyn
発行日 2023-08-21 14:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62L20, 68T05, 93E20, 93E35, cs.LG, cs.SY, eess.SY, math.OC パーマリンク