Reducing Safety Interventions in Provably Safe Reinforcement Learning

要約

深層強化学習 (RL) は、複雑なロボットの課題に対処する上で有望であることが示されています。
実際のアプリケーションでは、RL には、壊滅的な事態を回避するための最後の手段として、フェールセーフ コントローラーが伴うことがよくあります。
これらの介入は安全のために必要ですが、急ブレーキや強引なステアリングなどの望ましくない動作を引き起こす可能性があります。
この論文では、プロアクティブ交換とプロアクティブ投影という 2 つの安全介入削減方法を提案します。これらは、潜在的なフェールセーフ介入につながる場合にエージェントの動作を変更します。
これらのアプローチは、OpenAI セーフティ ジム ベンチマークおよび人間とロボットのコラボレーション タスクにおける最先端の制約付き RL と比較されます。
私たちの研究は、私たちの方法と安全性が証明された RL を組み合わせることで、安全違反がゼロでフェイルセーフ介入の数が少ない、高パフォーマンスの政策につながることを示しています。
当社の汎用性の高い手法は、現実世界のさまざまなロボットタスクに適用でき、タスクのパフォーマンスを犠牲にすることなく安全性を効果的に向上できます。

要約(オリジナル)

Deep Reinforcement Learning (RL) has shown promise in addressing complex robotic challenges. In real-world applications, RL is often accompanied by failsafe controllers as a last resort to avoid catastrophic events. While necessary for safety, these interventions can result in undesirable behaviors, such as abrupt braking or aggressive steering. This paper proposes two safety intervention reduction methods: proactive replacement and proactive projection, which change the action of the agent if it leads to a potential failsafe intervention. These approaches are compared to state-of-the-art constrained RL on the OpenAI safety gym benchmark and a human-robot collaboration task. Our study demonstrates that the combination of our method with provably safe RL leads to high-performing policies with zero safety violations and a low number of failsafe interventions. Our versatile method can be applied to a wide range of real-world robotic tasks, while effectively improving safety without sacrificing task performance.

arxiv情報

著者 Jakob Thumm,Guillaume Pelat,Matthias Althoff
発行日 2023-09-25 10:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク