Mixture of Experts in a Mixture of RL settings

要約

専門家混合 (MoE) は、推論効率の向上、分散トレーニングへの適応性、およびモジュール性により、(自己) 教師あり学習において注目を集めています。
これまでの研究では、MoE が休眠ニューロンを減らしながらネットワークのパラメーター数を拡大することで、深層強化学習 (DRL) のパフォーマンスを大幅に向上させ、それによってモデルの学習能力と非定常性に対処する能力を強化できることが示されています。
この研究では、非定常性に対処する教育機関の能力にさらに光を当て、マルチタスクトレーニングによって非定常性が「増幅された」DRL設定で教育機関を調査し、教育機関が学習能力を向上させるというさらなる証拠を提供しました。
以前の研究とは対照的に、私たちのマルチタスクの結果により、DRL トレーニングにおける MoE の有益な効果の根本的な原因、さまざまな MoE コンポーネントの影響、およびそれらをアクター批評家に組み込む最善の方法についての洞察をより深く理解できるようになりました。
ベースの DRL ネットワーク。
最後に、以前の作業の結果も確認します。

要約(オリジナル)

Mixtures of Experts (MoEs) have gained prominence in (self-)supervised learning due to their enhanced inference efficiency, adaptability to distributed training, and modularity. Previous research has illustrated that MoEs can significantly boost Deep Reinforcement Learning (DRL) performance by expanding the network’s parameter count while reducing dormant neurons, thereby enhancing the model’s learning capacity and ability to deal with non-stationarity. In this work, we shed more light on MoEs’ ability to deal with non-stationarity and investigate MoEs in DRL settings with ‘amplified’ non-stationarity via multi-task training, providing further evidence that MoEs improve learning capacity. In contrast to previous work, our multi-task results allow us to better understand the underlying causes for the beneficial effect of MoE in DRL training, the impact of the various MoE components, and insights into how best to incorporate them in actor-critic-based DRL networks. Finally, we also confirm results from previous work.

arxiv情報

著者 Timon Willi,Johan Obando-Ceron,Jakob Foerster,Karolina Dziugaite,Pablo Samuel Castro
発行日 2024-06-26 15:15:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク