要約
専門家(MOE)のアーキテクチャの混合は、大規模な機械学習モデルの研究と現実世界の応用の両方で計算効率を大幅に向上させています。
ただし、メモリの制約の下でのスケーラビリティと効率は比較的目立たないままです。
この作業では、アクティブなパラメーターの数、データセットサイズ、専門家の数などの重要な要因を組み込んだ、密集したMOEモデルとMOEモデルの共同スケーリング法則を提示します。
調査結果は、固定メモリと計算予算の下で最適なMOE構成を選択するための原則的なフレームワークを提供します。
驚くべきことに、MOEモデルは、従来の知恵と矛盾する密なモデルよりも記憶効率が高いことを示しています。
スケーリング法の理論的予測を導き出して検証するために、最大2.7Bのアクティブパラメーターと最大5Bの合計パラメーターで280以上の実験を実施します。
これらの結果は、実用的な大規模なトレーニングシナリオでMOEモデルを設計および展開するための実用的な洞察を提供します。
要約(オリジナル)
Mixture of Experts (MoE) architectures have significantly increased computational efficiency in both research and real-world applications of large-scale machine learning models. However, their scalability and efficiency under memory constraints remain relatively underexplored. In this work, we present joint scaling laws for dense and MoE models, incorporating key factors such as the number of active parameters, dataset size, and the number of experts. Our findings provide a principled framework for selecting the optimal MoE configuration under fixed memory and compute budgets. Surprisingly, we show that MoE models can be more memory-efficient than dense models, contradicting conventional wisdom. To derive and validate the theoretical predictions of our scaling laws, we conduct over 280 experiments with up to 2.7B active parameters and up to 5B total parameters. These results offer actionable insights for designing and deploying MoE models in practical large-scale training scenarios.
arxiv情報
著者 | Jan Ludziejewski,Maciej Pióro,Jakub Krajewski,Maciej Stefaniak,Michał Krutul,Jan Małaśnicki,Marek Cygan,Piotr Sankowski,Kamil Adamczewski,Piotr Miłoś,Sebastian Jaszczur |
発行日 | 2025-02-07 18:55:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google