Safe Policy Exploration Improvement via Subgoals

要約

強化学習は自律ナビゲーションへのアプローチとして広く使用されており、さまざまなタスクやロボットのセットアップでの可能性を示しています。
それでも、安全上の制約が課されると(車輪付きロボットが障害物に近づくことが禁止されるなど)、遠くの目標に到達するのが困難になることがよくあります。
このような設定でパフォーマンスが低下する主な理由の 1 つは、実際には一般的ですが、安全上の制約を尊重する必要があるため、RL エージェントの探索能力が低下することです。
この目的を達成するために、最初の問題を中間目標を介してより小さなサブ問題に分解することに基づいており、一方で累積的な安全制約の制限を尊重する、新しい学習可能なアルゴリズムを導入します — SPEIS(
サブ目標による安全なポリシー探索の改善)。
これは、エンドツーエンドでトレーニングされた 2 つの結合ポリシー (サブゴールと安全) で構成されます。
サブゴール ポリシーは、安全な (メイン) ポリシーのバッファーからの遷移に基づいてサブゴールを生成するようにトレーニングされ、安全なポリシーが遠い目標に到達するのに役立ちます。
同時に、安全ポリシーは、累積的な安全制約の制限に違反しないようにしながら、その報酬を最大化することで、一定レベルの安全性を提供します。
私たちは、POLAMP 環境の自動運転車とセーフティジム環境の車、ポイント、ドック、スイープの 2 つの異なる環境で、さまざまなタイプのロボットが関与する、幅広い困難な (シミュレートされた) 環境で SPEIS を評価します。
私たちは、私たちの手法が常に最先端の競合他社よりも優れたパフォーマンスを発揮し、高い成功率 (最もパフォーマンスの高い手法と比較して 80% 高い) を維持しながら衝突率を大幅に低減できることを実証しました。

要約(オリジナル)

Reinforcement learning is a widely used approach to autonomous navigation, showing potential in various tasks and robotic setups. Still, it often struggles to reach distant goals when safety constraints are imposed (e.g., the wheeled robot is prohibited from moving close to the obstacles). One of the main reasons for poor performance in such setups, which is common in practice, is that the need to respect the safety constraints degrades the exploration capabilities of an RL agent. To this end, we introduce a novel learnable algorithm that is based on decomposing the initial problem into smaller sub-problems via intermediate goals, on the one hand, and respects the limit of the cumulative safety constraints, on the other hand — SPEIS(Safe Policy Exploration Improvement via Subgoals). It comprises the two coupled policies trained end-to-end: subgoal and safe. The subgoal policy is trained to generate the subgoal based on the transitions from the buffer of the safe (main) policy that helps the safe policy to reach distant goals. Simultaneously, the safe policy maximizes its rewards while attempting not to violate the limit of the cumulative safety constraints, thus providing a certain level of safety. We evaluate SPEIS in a wide range of challenging (simulated) environments that involve different types of robots in two different environments: autonomous vehicles from the POLAMP environment and car, point, doggo, and sweep from the safety-gym environment. We demonstrate that our method consistently outperforms state-of-the-art competitors and can significantly reduce the collision rate while maintaining high success rates (higher by 80% compared to the best-performing methods).

arxiv情報

著者 Brian Angulo,Gregory Gorbov,Aleksandr Panov,Konstantin Yakovlev
発行日 2024-08-25 16:12:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク