要約
連続状態アクション空間で強化学習 (RL) を分析するための新しいフレームワークを導入し、それを使用してオフラインとオンラインの両方の設定で収束速度が速いことを証明します。
私たちの分析は、価値関数および/または政策の変化がベルマンのオペレーターおよび占有基準にどのように影響するかに関連する 2 つの重要な安定性特性を強調しています。
我々は、これらの特性が多くの連続状態動作マルコフ決定プロセスで満たされることを主張し、線形関数近似法を使用するときにそれらの特性がどのように自然に生じるかを示します。
私たちの分析は、オフラインとオンラインの RL における悲観主義と楽観主義の役割について新たな視点を提供し、オフライン RL と転移学習の間の関係を強調しています。
要約(オリジナル)
We introduce a novel framework for analyzing reinforcement learning (RL) in continuous state-action spaces, and use it to prove fast rates of convergence in both off-line and on-line settings. Our analysis highlights two key stability properties, relating to how changes in value functions and/or policies affect the Bellman operator and occupation measures. We argue that these properties are satisfied in many continuous state-action Markov decision processes, and demonstrate how they arise naturally when using linear function approximation methods. Our analysis offers fresh perspectives on the roles of pessimism and optimism in off-line and on-line RL, and highlights the connection between off-line RL and transfer learning.
arxiv情報
著者 | Yaqi Duan,Martin J. Wainwright |
発行日 | 2024-01-10 16:01:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google