要約
(自己) 教師あり学習モデルの最近の急速な進歩は、大部分が経験的なスケーリング法則によって予測されています。つまり、モデルのパフォーマンスはそのサイズに比例して拡張されます。
ただし、強化学習ドメインでは、類似のスケーリング則は依然としてとらえどころがありません。ただし、モデルのパラメーター数を増やすと、最終的なパフォーマンスが損なわれることがよくあります。
この論文では、Mixture-of-Expert (MoE) モジュール、特に Soft MoE (Puigcerver et al., 2023) を値ベースのネットワークに組み込むと、パフォーマンスが大幅に向上することから明らかなように、よりパラメーターのスケーラブルなモデルが得られることを実証します。
さまざまなトレーニング計画とモデルサイズにわたって。
したがって、この研究は、強化学習のためのスケーリング則の開発に向けた強力な経験的証拠を提供します。
要約(オリジナル)
The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model’s performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning.
arxiv情報
著者 | Johan Obando-Ceron,Ghada Sokar,Timon Willi,Clare Lyle,Jesse Farebrother,Jakob Foerster,Gintare Karolina Dziugaite,Doina Precup,Pablo Samuel Castro |
発行日 | 2024-06-26 16:50:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google