要約
オフラインの目標条件補強学習(GCRL)は、報酬なしで無効なデータから多様な行動と表現を獲得するためのシンプルで監視されていない、ドメインに依存しない方法を提供するため、強化学習(RL)の大きな問題です。
この設定の重要性にもかかわらず、オフラインGCRLアルゴリズムの機能を体系的に評価できる標準ベンチマークがありません。
この作業では、オフラインの目標条件付きRLでのアルゴリズム研究のための新しい高品質のベンチマークであるOgbenchを提案します。
OGBenchは、8種類の環境、85のデータセット、および6つの代表的なオフラインGCRLアルゴリズムの参照実装で構成されています。
これらの挑戦的で現実的な環境とデータセットを設計し、ステッチ、長期の推論、高次元の入力と確率性を処理する能力など、さまざまな機能のさまざまな機能を直接調査しています。
代表的なアルゴリズムは以前のベンチマークで同様にランク付けされる可能性がありますが、実験はこれらの異なる機能の厳しい長所と短所を明らかにし、新しいアルゴリズムを構築するための強力な基盤を提供します。
プロジェクトページ:https://seohong.me/projects/ogbench
要約(オリジナル)
Offline goal-conditioned reinforcement learning (GCRL) is a major problem in reinforcement learning (RL) because it provides a simple, unsupervised, and domain-agnostic way to acquire diverse behaviors and representations from unlabeled data without rewards. Despite the importance of this setting, we lack a standard benchmark that can systematically evaluate the capabilities of offline GCRL algorithms. In this work, we propose OGBench, a new, high-quality benchmark for algorithms research in offline goal-conditioned RL. OGBench consists of 8 types of environments, 85 datasets, and reference implementations of 6 representative offline GCRL algorithms. We have designed these challenging and realistic environments and datasets to directly probe different capabilities of algorithms, such as stitching, long-horizon reasoning, and the ability to handle high-dimensional inputs and stochasticity. While representative algorithms may rank similarly on prior benchmarks, our experiments reveal stark strengths and weaknesses in these different capabilities, providing a strong foundation for building new algorithms. Project page: https://seohong.me/projects/ogbench
arxiv情報
著者 | Seohong Park,Kevin Frans,Benjamin Eysenbach,Sergey Levine |
発行日 | 2025-02-13 18:38:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google