要約
現在の強化学習手法は、この新しい最適化問題の構造が現在の手法と互換性がないため、最小コスト到達回避問題を解決して、目標への到達と危険な状態の回避という制約に従って累積コストを最小限に抑えるポリシーを直接学習することができません。
。
代わりに、すべての目的を加重合計で結合する代理問題が解決されます。
ただし、この代替目標は、累積コストを直接最小化しない次善の政策をもたらします。
この研究では、Hamilton-Jacobi 到達可能性への接続を使用して最小コスト到達回避問題を解決するための強化学習ベースの手法である RC-PPO を提案します。
実証結果は、RC-PPO が Mujoco シミュレータ上の一連の最小コスト到達回避ベンチマークで既存の手法と比較して最大 57% 低い累積コストを達成しながら、同等の目標達成率でポリシーを学習することを示しています。
プロジェクト ページは https://oswinso.xyz/rcppo にあります。
要約(オリジナル)
Current reinforcement-learning methods are unable to directly learn policies that solve the minimum cost reach-avoid problem to minimize cumulative costs subject to the constraints of reaching the goal and avoiding unsafe states, as the structure of this new optimization problem is incompatible with current methods. Instead, a surrogate problem is solved where all objectives are combined with a weighted sum. However, this surrogate objective results in suboptimal policies that do not directly minimize the cumulative cost. In this work, we propose RC-PPO, a reinforcement-learning-based method for solving the minimum-cost reach-avoid problem by using connections to Hamilton-Jacobi reachability. Empirical results demonstrate that RC-PPO learns policies with comparable goal-reaching rates to while achieving up to 57% lower cumulative costs compared to existing methods on a suite of minimum-cost reach-avoid benchmarks on the Mujoco simulator. The project page can be found at https://oswinso.xyz/rcppo.
arxiv情報
著者 | Oswin So,Cheng Ge,Chuchu Fan |
発行日 | 2024-10-29 23:45:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google