GUARD: A Safe Reinforcement Learning Benchmark

要約

試行錯誤の性質のため、RL アルゴリズムを自動運転、人間とロボットの対話、ロボット操作など、エラーが許容できない安全性が重要な現実世界のアプリケーションに適用することは通常困難です。
最近、エージェントが制約を満たしながら環境を探索する安全な RL (つまり、制約された RL) が文献に急速に登場しています。
アルゴリズムとタスクは多様であるため、既存の安全な RL アルゴリズムを比較することは依然として困難です。
このギャップを埋めるために、一般化された統合 SAfe 強化学習開発ベンチマークである GUARD を導入します。
GUARD には、既存のベンチマークと比較していくつかの利点があります。
まず、GUARD は、さまざまな RL エージェント、タスク、安全制約仕様を備えた一般化されたベンチマークです。
第 2 に、GUARD は、自己完結型の実装で最先端の安全な RL アルゴリズムを包括的にカバーしています。
第三に、GUARD はタスクとアルゴリズムを高度にカスタマイズできます。
GUARD を使用したさまざまなタスク設定における最先端の安全な RL アルゴリズムの比較を示し、将来の作業の基礎となるベースラインを確立します。

要約(オリジナル)

Due to the trial-and-error nature, it is typically challenging to apply RL algorithms to safety-critical real-world applications, such as autonomous driving, human-robot interaction, robot manipulation, etc, where such errors are not tolerable. Recently, safe RL (i.e. constrained RL) has emerged rapidly in the literature, in which the agents explore the environment while satisfying constraints. Due to the diversity of algorithms and tasks, it remains difficult to compare existing safe RL algorithms. To fill that gap, we introduce GUARD, a Generalized Unified SAfe Reinforcement Learning Development Benchmark. GUARD has several advantages compared to existing benchmarks. First, GUARD is a generalized benchmark with a wide variety of RL agents, tasks, and safety constraint specifications. Second, GUARD comprehensively covers state-of-the-art safe RL algorithms with self-contained implementations. Third, GUARD is highly customizable in tasks and algorithms. We present a comparison of state-of-the-art safe RL algorithms in various task settings using GUARD and establish baselines that future work can build on.

arxiv情報

著者 Weiye Zhao,Rui Chen,Yifan Sun,Ruixuan Liu,Tianhao Wei,Changliu Liu
発行日 2023-06-20 21:23:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク