Efficient Exploration in Continuous-time Model-based Reinforcement Learning

要約

強化学習アルゴリズムは通常、基礎となるシステムが時間的に連続である場合でも、離散時間のダイナミクスを考慮します。
この論文では、非線形常微分方程式 (ODE) を使用して連続時間ダイナミクスを表すモデルベースの強化学習アルゴリズムを紹介します。
私たちは、適切に校正された確率モデルを使用して認識論的な不確実性を捉え、探索には楽観的な原理を使用します。
私たちの後悔の限界は、測定選択戦略 (MSS) の重要性を浮き彫りにします。なぜなら、継続的な時間の中で、どのように調査するかだけでなく、基礎となるシステムをいつ観察するかも決定しなければならないからです。
私たちの分析は、等距離サンプリングなどの MSS の一般的な選択に対してガウス過程 (GP) を使用して ODE をモデル化する場合、リグレスが線形未満であることを示しています。
さらに、GP ダイナミクスと組み合わせることで、大幅に少ないサンプルでサブリニアリグレスを実現する、適応型でデータ依存型の実用的な MSS を提案します。
離散時間モデリングに対する連続時間モデリングの利点と、標準ベースラインに対する私たちが提案する適応型 MSS をいくつかのアプリケーションで紹介します。

要約(オリジナル)

Reinforcement learning algorithms typically consider discrete-time dynamics, even though the underlying systems are often continuous in time. In this paper, we introduce a model-based reinforcement learning algorithm that represents continuous-time dynamics using nonlinear ordinary differential equations (ODEs). We capture epistemic uncertainty using well-calibrated probabilistic models, and use the optimistic principle for exploration. Our regret bounds surface the importance of the measurement selection strategy(MSS), since in continuous time we not only must decide how to explore, but also when to observe the underlying system. Our analysis demonstrates that the regret is sublinear when modeling ODEs with Gaussian Processes (GP) for common choices of MSS, such as equidistant sampling. Additionally, we propose an adaptive, data-dependent, practical MSS that, when combined with GP dynamics, also achieves sublinear regret with significantly fewer samples. We showcase the benefits of continuous-time modeling over its discrete-time counterpart, as well as our proposed adaptive MSS over standard baselines, on several applications.

arxiv情報

著者 Lenart Treven,Jonas Hübotter,Bhavya Sukhija,Florian Dörfler,Andreas Krause
発行日 2023-10-30 15:04:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, math.OC パーマリンク