要約
このペーパーでは、オフラインの安全な強化学習 (RL) の課題に合わせた包括的なベンチマーク スイートを紹介し、トレーニングと展開の両方のフェーズで安全な学習アルゴリズムの開発と評価の進歩を促進することを目的としています。
当社のベンチマーク スイートには、1) 専門的に作成された安全なポリシー、2) D4RL スタイルのデータセットと環境ラッパー、3) 高品質のオフラインで安全な RL ベースライン実装の 3 つのパッケージが含まれています。
当社は、高度な安全 RL アルゴリズムを活用した体系的なデータ収集パイプラインを備えており、ロボット制御から自動運転に至る 38 の一般的な安全 RL タスクにわたる多様なデータセットの生成を容易にします。
さらに、各データセットの多様性を変更できる一連のデータ後処理フィルターを導入し、さまざまなデータ収集条件をシミュレートします。
さらに、この分野の研究を加速するために、普及しているオフラインで安全な RL アルゴリズムの洗練された拡張可能な実装を提供します。
50,000 CPU 時間と 800 GPU 時間を超える計算を使用した広範な実験を通じて、収集されたデータセットに対するこれらのベースライン アルゴリズムのパフォーマンスを評価および比較し、その長所、限界、および潜在的な改善領域についての洞察を提供します。
当社のベンチマーク フレームワークは研究者や専門家にとって貴重なリソースとして機能し、セーフティ クリティカルなアプリケーションにおけるより堅牢で信頼性の高いオフラインで安全な RL ソリューションの開発を促進します。
ベンチマーク Web サイトは \url{www.offline-saferl.org} から入手できます。
要約(オリジナル)
This paper presents a comprehensive benchmarking suite tailored to offline safe reinforcement learning (RL) challenges, aiming to foster progress in the development and evaluation of safe learning algorithms in both the training and deployment phases. Our benchmark suite contains three packages: 1) expertly crafted safe policies, 2) D4RL-styled datasets along with environment wrappers, and 3) high-quality offline safe RL baseline implementations. We feature a methodical data collection pipeline powered by advanced safe RL algorithms, which facilitates the generation of diverse datasets across 38 popular safe RL tasks, from robot control to autonomous driving. We further introduce an array of data post-processing filters, capable of modifying each dataset’s diversity, thereby simulating various data collection conditions. Additionally, we provide elegant and extensible implementations of prevalent offline safe RL algorithms to accelerate research in this area. Through extensive experiments with over 50000 CPU and 800 GPU hours of computations, we evaluate and compare the performance of these baseline algorithms on the collected datasets, offering insights into their strengths, limitations, and potential areas of improvement. Our benchmarking framework serves as a valuable resource for researchers and practitioners, facilitating the development of more robust and reliable offline safe RL solutions in safety-critical applications. The benchmark website is available at \url{www.offline-saferl.org}.
arxiv情報
著者 | Zuxin Liu,Zijian Guo,Haohong Lin,Yihang Yao,Jiacheng Zhu,Zhepeng Cen,Hanjiang Hu,Wenhao Yu,Tingnan Zhang,Jie Tan,Ding Zhao |
発行日 | 2023-06-15 17:31:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google