要約
このような試行錯誤の性質から、自律走行、人間とロボットの相互作用、ロボット操作など、安全性が重要視される実世界のアプリケーションにRLアルゴリズムを適用することは、一般的に困難である。近年、安全なRL(すなわち制約付きRL)が急速に文献に登場し、エージェントは制約を満たしながら環境を探索する。アルゴリズムやタスクが多様であるため、既存の安全なRLアルゴリズムを比較することは依然として困難である。このギャップを埋めるために、我々はGUARD(Generalized Unified SAfee Reinforcement Learning Development Benchmark)を紹介する。GUARDは既存のベンチマークと比較していくつかの利点がある。第一に、GUARDは多様なRLエージェント、タスク、安全制約仕様を持つ一般化されたベンチマークである。第二に、GUARDは最先端の安全なRLアルゴリズムを包括的にカバーしており、自己完結型の実装が可能である。第三に、GUARDはタスクとアルゴリズムを高度にカスタマイズ可能である。我々は、GUARDを用いた様々なタスク設定における最先端の安全なRLアルゴリズムの比較を示し、将来の研究が構築できるベースラインを確立する。
要約(オリジナル)
Due to the trial-and-error nature, it is typically challenging to apply RL algorithms to safety-critical real-world applications, such as autonomous driving, human-robot interaction, robot manipulation, etc, where such errors are not tolerable. Recently, safe RL (i.e. constrained RL) has emerged rapidly in the literature, in which the agents explore the environment while satisfying constraints. Due to the diversity of algorithms and tasks, it remains difficult to compare existing safe RL algorithms. To fill that gap, we introduce GUARD, a Generalized Unified SAfe Reinforcement Learning Development Benchmark. GUARD has several advantages compared to existing benchmarks. First, GUARD is a generalized benchmark with a wide variety of RL agents, tasks, and safety constraint specifications. Second, GUARD comprehensively covers state-of-the-art safe RL algorithms with self-contained implementations. Third, GUARD is highly customizable in tasks and algorithms. We present a comparison of state-of-the-art safe RL algorithms in various task settings using GUARD and establish baselines that future work can build on.
arxiv情報
著者 | Weiye Zhao,Rui Chen,Yifan Sun,Ruixuan Liu,Tianhao Wei,Changliu Liu |
発行日 | 2023-06-30 20:28:11+00:00 |
arxivサイト | arxiv_id(pdf) |