要約
オープンソース コミュニティが専門家混合 (MoE) ベースの大規模言語モデル (LLM) をより深く理解できるよう、完全にオープンソースで再現可能な一連のデコーダ専用 MoE LLM である OpenMoE をトレーニングしてリリースします。
650M から 34B までのパラメータがあり、最大 1T を超えるトークンでトレーニングされています。
私たちの調査では、MoE ベースの LLM が高密度 LLM よりも有利な費用対効果のトレードオフを提供できることが確認され、将来の LLM 開発の潜在的な有効性が強調されています。
この研究のもう 1 つの重要な貢献は、OpenMoE モデル内のルーティング メカニズムの詳細な分析であり、コンテキストに依存しない特殊化、早期ルーティング学習、およびエンドへのドロップという 3 つの重要な発見につながりました。
MoE モデルにおけるルーティングの決定は、主にトークン ID に基づいており、コンテキストの関連性は最小限に抑えられていることがわかりました。
トークンからエキスパートへの割り当ては、トレーニング前の段階の早い段階で決定され、ほとんど変更されません。
この不完全なルーティングにより、特に複数ターンの会話のような連続タスクでは、シーケンスの後半に出現するトークンがドロップされる可能性が高く、パフォーマンスが低下する可能性があります。
最後に、上記の観察と分析に基づいて設計を再考します。
将来の MoE LLM 開発を促進するために、発見された問題を軽減し、既製の MoE LLM 設計をさらに改善するための潜在的な戦略を提案します。
要約(オリジナル)
To help the open-source community have a better understanding of Mixture-of-Experts (MoE) based large language models (LLMs), we train and release OpenMoE, a series of fully open-sourced and reproducible decoder-only MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T tokens. Our investigation confirms that MoE-based LLMs can offer a more favorable cost-effectiveness trade-off than dense LLMs, highlighting the potential effectiveness for future LLM development. One more important contribution of this study is an in-depth analysis of the routing mechanisms within our OpenMoE models, leading to three significant findings: Context-Independent Specialization, Early Routing Learning, and Drop-towards-the-End. We discovered that routing decisions in MoE models are predominantly based on token IDs, with minimal context relevance. The token-to-expert assignments are determined early in the pre-training phase and remain largely unchanged. This imperfect routing can result in performance degradation, particularly in sequential tasks like multi-turn conversations, where tokens appearing later in a sequence are more likely to be dropped. Finally, we rethink our design based on the above-mentioned observations and analysis. To facilitate future MoE LLM development, we propose potential strategies for mitigating the issues we found and further improving off-the-shelf MoE LLM designs.
arxiv情報
著者 | Fuzhao Xue,Zian Zheng,Yao Fu,Jinjie Ni,Zangwei Zheng,Wangchunshu Zhou,Yang You |
発行日 | 2024-03-27 10:21:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google