要約
深層強化学習(RL)は、複雑なロボットの課題を解決する上で有望視されている。実世界のアプリケーションでは、RLはしばしば、致命的な事象を回避するための最後の手段としてフェイルセーフコントローラーを伴います。安全のために必要なことではあるが、こうした介入は、急ブレーキや攻撃的なステアリングなど、望ましくない行動を引き起こす可能性がある。本論文では、行動置換と投影という2つの安全介入削減手法を提案し、エージェントの行動が安全でない状態につながる場合、その行動を変更する。これらの手法を、OpenAIセーフティジムベンチマークと人間とロボットの協調タスクにおいて、最先端の制約付きRLと比較する。本研究では、本手法と証明可能安全RLを組み合わせることで、安全違反がゼロでフェイルセーフ介入の回数が少ない、高性能なポリシーが得られることを実証する。我々の汎用性の高い手法は、実世界の様々なロボットタスクに適用でき、タスクのパフォーマンスを犠牲にすることなく、効果的に安全性を向上させることができる。
要約(オリジナル)
Deep Reinforcement Learning (RL) has shown promise in addressing complex robotic challenges. In real-world applications, RL is often accompanied by failsafe controllers as a last resort to avoid catastrophic events. While necessary for safety, these interventions can result in undesirable behaviors, such as abrupt braking or aggressive steering. This paper proposes two safety intervention reduction methods: action replacement and projection, which change the agent’s action if it leads to an unsafe state. These approaches are compared to the state-of-the-art constrained RL on the OpenAI safety gym benchmark and a human-robot collaboration task. Our study demonstrates that the combination of our method with provably safe RL leads to high-performing policies with zero safety violations and a low number of failsafe interventions. Our versatile method can be applied to a wide range of real-world robotics tasks, while effectively improving safety without sacrificing task performance.
arxiv情報
著者 | Jakob Thumm,Guillaume Pelat,Matthias Althoff |
発行日 | 2023-03-06 18:12:54+00:00 |
arxivサイト | arxiv_id(pdf) |