要約
オフライン強化学習(RL)の進歩は、あいまいな問題の定義と絡み合ったアルゴリズム設計によって妨げられており、一貫性のない実装、不十分なアブレーション、不公平な評価をもたらします。
オフラインRLは環境の相互作用を明示的に回避しますが、以前の方法は、ハイパーパラメーターチューニングの広範な文書化されていないオンライン評価を頻繁に採用し、メソッドの比較を複雑にします。
さらに、既存の参照実装は、ボイラープレートコードで大きく異なり、コアアルゴリズムの貢献を不明瞭にします。
最初に、オンラインチューニング予算を明示的に定量化する厳格な分類法と透明な評価プロトコルを導入することにより、これらの課題に対処します。
不透明なアルゴリズム設計を解決するために、さまざまなモデルなしでモデルベースのオフラインRLメソッドのクリーンでミニマルな単一ファイルの実装を提供し、明確さを大幅に向上させ、実質的なスピードアップを達成します。
これらの合理化された実装を活用して、単一の包括的なハイパーパラメーター空間内で多様な以前のアプローチをカプセル化する統一されたアルゴリズムであるUnifloralを提案し、共有ハイパーパラメーター空間でのアルゴリズム開発を可能にします。
厳密な評価プロトコルを使用して単フロラルを使用して、確立されたベースラインを大幅に上回る2つの新しいアルゴリズム – TD3-AWR(モデルフリー)とMOBRAC(モデルベース)を開発します。
私たちの実装は、https://github.com/emptyjackson/unifloralで公開されています。
要約(オリジナル)
Progress in offline reinforcement learning (RL) has been impeded by ambiguous problem definitions and entangled algorithmic designs, resulting in inconsistent implementations, insufficient ablations, and unfair evaluations. Although offline RL explicitly avoids environment interaction, prior methods frequently employ extensive, undocumented online evaluation for hyperparameter tuning, complicating method comparisons. Moreover, existing reference implementations differ significantly in boilerplate code, obscuring their core algorithmic contributions. We address these challenges by first introducing a rigorous taxonomy and a transparent evaluation protocol that explicitly quantifies online tuning budgets. To resolve opaque algorithmic design, we provide clean, minimalistic, single-file implementations of various model-free and model-based offline RL methods, significantly enhancing clarity and achieving substantial speed-ups. Leveraging these streamlined implementations, we propose Unifloral, a unified algorithm that encapsulates diverse prior approaches within a single, comprehensive hyperparameter space, enabling algorithm development in a shared hyperparameter space. Using Unifloral with our rigorous evaluation protocol, we develop two novel algorithms – TD3-AWR (model-free) and MoBRAC (model-based) – which substantially outperform established baselines. Our implementation is publicly available at https://github.com/EmptyJackson/unifloral.
arxiv情報
著者 | Matthew Thomas Jackson,Uljad Berdica,Jarek Liesen,Shimon Whiteson,Jakob Nicolaus Foerster |
発行日 | 2025-04-15 17:59:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google