Improving planning and MBRL with temporally-extended actions

要約

連続時間システムは、多くの場合、個別のタイムダイナミクスを使用してモデル化されますが、これには精度を維持するために小さなシミュレーションステップが必要です。
次に、これには、計算的に厳しい計画の問題とパフォーマンスの低下につながる大規模な計画地平線が必要です。
モデルの自由補強学習における以前の研究は、離散アクション期間を決定するためにポリシーが学習されるアクションリピートを使用して、この問題に部分的に対処されています。
代わりに、一時的に拡張されたアクションを使用し、プランナーにアクションの持続時間を標準のアクション変数とともに追加の最適化変数として扱うことにより、連続決定タイムスケールを直接制御することを提案します。
この追加構造には複数の利点があります。
軌跡のシミュレーション時間を高速化し、重要なことに、プランナーで浅い検索深さを使用しながら、原始的なアクションの観点から深い地平線検索を可能にすることです。
さらに、モデルベースの強化学習(MBRL)設定では、モデル学習から複合エラーを減らし、モデルのトレーニング時間を改善します。
このアイデアは効果的であり、アクション期間の範囲を、マルチアームの盗賊策定を使用して自動的に選択し、MBRLフレームワークに統合できることを示します。
計画とMBRLの両方での広範な実験的評価は、私たちのアプローチがより速い計画、より良い解決策をもたらし、標準式で解決されていない問題に対する解決策を可能にすることを示しています。

要約(オリジナル)

Continuous time systems are often modeled using discrete time dynamics but this requires a small simulation step to maintain accuracy. In turn, this requires a large planning horizon which leads to computationally demanding planning problems and reduced performance. Previous work in model free reinforcement learning has partially addressed this issue using action repeats where a policy is learned to determine a discrete action duration. Instead we propose to control the continuous decision timescale directly by using temporally-extended actions and letting the planner treat the duration of the action as an additional optimization variable along with the standard action variables. This additional structure has multiple advantages. It speeds up simulation time of trajectories and, importantly, it allows for deep horizon search in terms of primitive actions while using a shallow search depth in the planner. In addition, in the model based reinforcement learning (MBRL) setting, it reduces compounding errors from model learning and improves training time for models. We show that this idea is effective and that the range for action durations can be automatically selected using a multi-armed bandit formulation and integrated into the MBRL framework. An extensive experimental evaluation both in planning and in MBRL, shows that our approach yields faster planning, better solutions, and that it enables solutions to problems that are not solved in the standard formulation.

arxiv情報

著者 Palash Chatterjee,Roni Khardon
発行日 2025-05-21 16:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク