Reinforcement Learning in a Safety-Embedded MDP with Trajectory Optimization

要約

安全強化学習 (RL) は、RL アルゴリズムを安全性が重要な現実世界のアプリケーションに適用する際に重要な役割を果たし、報酬の最大化と安全制約の遵守との間のトレードオフに対処します。
この研究では、RL と軌道の最適化を組み合わせて、このトレードオフを効果的に管理する新しいアプローチを導入しています。
私たちのアプローチは、修正されたマルコフ決定プロセス (MDP) のアクション空間内に安全制約を埋め込みます。
RL エージェントは、軌道オプティマイザーによって安全な軌道に変換される一連のアクションを生成します。これにより、効果的に安全性が確保され、トレーニングの安定性が向上します。
この新しいアプローチは、安全ジムの困難なタスクでのパフォーマンスに優れており、大幅に高い報酬と推論中の安全違反をほぼゼロに達成します。
この方法の実世界への適用性は、障害物を避けて箱を押す実際のロボットのタスクでの安全かつ効果的な導入を通じて実証されます。

要約(オリジナル)

Safe Reinforcement Learning (RL) plays an important role in applying RL algorithms to safety-critical real-world applications, addressing the trade-off between maximizing rewards and adhering to safety constraints. This work introduces a novel approach that combines RL with trajectory optimization to manage this trade-off effectively. Our approach embeds safety constraints within the action space of a modified Markov Decision Process (MDP). The RL agent produces a sequence of actions that are transformed into safe trajectories by a trajectory optimizer, thereby effectively ensuring safety and increasing training stability. This novel approach excels in its performance on challenging Safety Gym tasks, achieving significantly higher rewards and near-zero safety violations during inference. The method’s real-world applicability is demonstrated through a safe and effective deployment in a real robot task of box-pushing around obstacles.

arxiv情報

著者 Fan Yang,Wenxuan Zhou,Zuxin Liu,Ding Zhao,David Held
発行日 2024-07-14 15:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク