Mixtures of Experts Unlock Parameter Scaling for Deep RL

要約

(自己) 教師あり学習モデルの最近の急速な進歩は、大部分が経験的なスケーリング法則によって予測されています。つまり、モデルのパフォーマンスはそのサイズに比例して拡張されます。
ただし、強化学習ドメインでは、類似のスケーリング則は依然としてとらえどころがありません。ただし、モデルのパラメーター数を増やすと、最終的なパフォーマンスが損なわれることがよくあります。
この論文では、Mixture-of-Expert (MoE) モジュール、特に Soft MoE (Puigcerver et al., 2023) を値ベースのネットワークに組み込むと、パフォーマンスが大幅に向上することから明らかなように、よりパラメーターのスケーラブルなモデルが得られることを実証します。
さまざまなトレーニング計画とモデルサイズにわたって。
したがって、この研究は、強化学習のためのスケーリング則の開発に向けた強力な経験的証拠を提供します。

要約(オリジナル)

The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model’s performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning.

arxiv情報

著者 Johan Obando-Ceron,Ghada Sokar,Timon Willi,Clare Lyle,Jesse Farebrother,Jakob Foerster,Gintare Karolina Dziugaite,Doina Precup,Pablo Samuel Castro
発行日 2024-06-26 16:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク