Safe CoR: A Dual-Expert Approach to Integrating Imitation Learning and Safe Reinforcement Learning Using Constraint Rewards

要約

自律エージェントの領域では、複雑で動的な環境において安全性と信頼性を確保することが依然として最重要課題です。
安全強化学習は、安全制約を導入することでこれらの懸念に対処しますが、複雑な運転状況などの複雑な環境をナビゲートする際には依然として課題に直面しています。
これらの課題を克服するために、安全制約報酬 (Safe CoR) フレームワークを紹介します。これは、パフォーマンスの最適化に焦点を当てたエキスパート デモンストレーション $\unicode{x2013}$reward のエキスパート デモンストレーションと、安全性を優先したエキスパート デモンストレーションの 2 種類を利用する新しい方法です。
制約報酬 (CoR) を利用することで、私たちのフレームワークはエージェントが報酬合計のパフォーマンス目標と安全制約のバランスを取るようにガイドします。
私たちは、セーフティ ジム、メタドライブ、real$\unicode{x2013}$world Jackal プラットフォームなど、さまざまな環境で提案されたフレームワークをテストします。
私たちが提案したフレームワークは、現実世界の Jackal プラットフォーム上でアルゴリズムのパフォーマンスを $39\%$ 向上させ、制約違反を $88\%$ 削減し、フレームワークの有効性を示しています。
この革新的なアプローチを通じて、現実世界のパフォーマンスが大幅に向上し、安全で信頼性の高い自律エージェントの領域に変革的な効果がもたらされることが期待されます。

要約(オリジナル)

In the realm of autonomous agents, ensuring safety and reliability in complex and dynamic environments remains a paramount challenge. Safe reinforcement learning addresses these concerns by introducing safety constraints, but still faces challenges in navigating intricate environments such as complex driving situations. To overcome these challenges, we present the safe constraint reward (Safe CoR) framework, a novel method that utilizes two types of expert demonstrations$\unicode{x2013}$reward expert demonstrations focusing on performance optimization and safe expert demonstrations prioritizing safety. By exploiting a constraint reward (CoR), our framework guides the agent to balance performance goals of reward sum with safety constraints. We test the proposed framework in diverse environments, including the safety gym, metadrive, and the real$\unicode{x2013}$world Jackal platform. Our proposed framework enhances the performance of algorithms by $39\%$ and reduces constraint violations by $88\%$ on the real-world Jackal platform, demonstrating the framework’s efficacy. Through this innovative approach, we expect significant advancements in real-world performance, leading to transformative effects in the realm of safe and reliable autonomous agents.

arxiv情報

著者 Hyeokjin Kwon,Gunmin Lee,Junseo Lee,Songhwai Oh
発行日 2024-07-02 13:05:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク