要約
固有の不確実性とSIMからリアルのギャップによって駆動される堅牢な強化学習(RL)は、エージェントと環境の連続相互作用の複雑さと変動に対する回復力を改善しようとしています。
多数のRLベンチマークが存在しているにもかかわらず、堅牢なRL用の標準化されたベンチマークが不足しています。
現在の堅牢なRLポリシーは、多くの場合、特定のタイプの不確実性に焦点を当てており、明確な1回限りの環境で評価されます。
この作業では、すべての主要なRLコンポーネントの観察された状態と報酬、エージェントの行動、および環境にわたってさまざまな混乱をサポートする堅牢なRLのために設計された統一されたモジュラーベンチマークである堅牢なジムナシウムを紹介します。
制御とロボット工学、安全なRL、およびマルチエージェントRLにまたがる60を超える多様なタスク環境を提供し、コミュニティが現在の方法を評価し、堅牢なRLアルゴリズムの開発を促進するためのオープンソースとユーザーフレンドリーなツールを提供します。
さらに、このフレームワーク内で既存の標準と堅牢なRLアルゴリズムをベンチマークし、それぞれの重大な欠陥を明らかにし、新しい洞察を提供します。
要約(オリジナル)
Driven by inherent uncertainty and the sim-to-real gap, robust reinforcement learning (RL) seeks to improve resilience against the complexity and variability in agent-environment sequential interactions. Despite the existence of a large number of RL benchmarks, there is a lack of standardized benchmarks for robust RL. Current robust RL policies often focus on a specific type of uncertainty and are evaluated in distinct, one-off environments. In this work, we introduce Robust-Gymnasium, a unified modular benchmark designed for robust RL that supports a wide variety of disruptions across all key RL components-agents’ observed state and reward, agents’ actions, and the environment. Offering over sixty diverse task environments spanning control and robotics, safe RL, and multi-agent RL, it provides an open-source and user-friendly tool for the community to assess current methods and foster the development of robust RL algorithms. In addition, we benchmark existing standard and robust RL algorithms within this framework, uncovering significant deficiencies in each and offering new insights.
arxiv情報
著者 | Shangding Gu,Laixi Shi,Muning Wen,Ming Jin,Eric Mazumdar,Yuejie Chi,Adam Wierman,Costas Spanos |
発行日 | 2025-02-27 00:50:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google