The Virtues of Laziness in Model-based RL: A Unified Objective and Algorithms

要約

モデルベースの強化学習 (MBRL) における 2 つの基本的な課題に対処するための新しいアプローチを提案します。学習したモデルで適切なポリシーを繰り返し見つけることによる計算コストと、モデル フィッティングとポリシー計算の間の目的の不一致です。
私たちの「怠惰な」方法は、真のダイナミクスの下で学習されたポリシーとエキスパートポリシーの間のパフォーマンスの違いを捉えるために、新しい統一された目的であるモデルの利点によるパフォーマンスの違いを活用します。
この目的は、探索分布の下で学習されたモデルで期待されるポリシーの利点を最適化することでポリシーの計算に十分であることを示しており、その結果、従来の計画方法と比較して計算効率が大幅に向上します。
さらに、統合された目的は、ポリシー計算中のモデルの使用法に合わせて、モデル フィッティングに値モーメント マッチング項を使用します。
提案された目的を最適化する 2 つの後悔のないアルゴリズムを提示し、シミュレートされたベンチマークを通じて、既存の MBRL メソッドと比較して統計的および計算上の利点を示します。

要約(オリジナル)

We propose a novel approach to addressing two fundamental challenges in Model-based Reinforcement Learning (MBRL): the computational expense of repeatedly finding a good policy in the learned model, and the objective mismatch between model fitting and policy computation. Our ‘lazy’ method leverages a novel unified objective, Performance Difference via Advantage in Model, to capture the performance difference between the learned policy and expert policy under the true dynamics. This objective demonstrates that optimizing the expected policy advantage in the learned model under an exploration distribution is sufficient for policy computation, resulting in a significant boost in computational efficiency compared to traditional planning methods. Additionally, the unified objective uses a value moment matching term for model fitting, which is aligned with the model’s usage during policy computation. We present two no-regret algorithms to optimize the proposed objective, and demonstrate their statistical and computational gains compared to existing MBRL methods through simulated benchmarks.

arxiv情報

著者 Anirudh Vemula,Yuda Song,Aarti Singh,J. Andrew Bagnell,Sanjiban Choudhury
発行日 2023-03-01 17:42:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク