A Survey on Mixture of Experts in Large Language Models

要約

大規模な言語モデル(LLM)は、自然言語加工からコンピュータービジョン、それ以降に至るまで、多様な分野で前例のない進歩を獲得しています。
LLMSの腕前は、実質的なモデルサイズ、広範囲で多様なデータセット、およびトレーニング中に活用される広大な計算能力によって支えられており、これらはすべて、小さなモデルには存在しないLLMS(例えば、コンテキスト学習)の緊急能力に貢献しています。
このコンテキスト内で、専門家(MOE)の混合は、最小限の計算オーバーヘッドでモデル容量を実質的にスケーリングするための効果的な方法として浮上し、学界や産業から大きな注目を集めています。
その有病率の高まりにもかかわらず、MOEに関する文献の体系的かつ包括的なレビューがありません。
この調査では、そのギャップを埋めることを目指しており、MOEの複雑さを掘り下げている研究者にとって不可欠なリソースとして機能します。
まず、MOE層の構造を簡単に紹介し、その後、MOEの新しい分類法を提案しました。
次に、アルゴリズムと全身の側面の両方を含むさまざまなMOEモデルのコア設計を概要し、利用可能なオープンソースの実装、ハイパーパラメーターの構成、経験的評価のコレクションとともに概要します。
さらに、実際にMOEの多面的なアプリケーションを描き、将来の研究のためのいくつかの潜在的な方向性を概説します。
継続的な更新とMOEの研究における最先端の進歩の共有を促進するために、https://github.com/withinmiaov/a-survey-on-mixture-of-experts-in-llmsにリソースリポジトリを設立しました。

要約(オリジナル)

Large language models (LLMs) have garnered unprecedented advancements across diverse fields, ranging from natural language processing to computer vision and beyond. The prowess of LLMs is underpinned by their substantial model size, extensive and diverse datasets, and the vast computational power harnessed during training, all of which contribute to the emergent abilities of LLMs (e.g., in-context learning) that are not present in small models. Within this context, the mixture of experts (MoE) has emerged as an effective method for substantially scaling up model capacity with minimal computation overhead, gaining significant attention from academia and industry. Despite its growing prevalence, there lacks a systematic and comprehensive review of the literature on MoE. This survey seeks to bridge that gap, serving as an essential resource for researchers delving into the intricacies of MoE. We first briefly introduce the structure of the MoE layer, followed by proposing a new taxonomy of MoE. Next, we overview the core designs for various MoE models including both algorithmic and systemic aspects, alongside collections of available open-source implementations, hyperparameter configurations and empirical evaluations. Furthermore, we delineate the multifaceted applications of MoE in practice, and outline some potential directions for future research. To facilitate ongoing updates and the sharing of cutting-edge advances in MoE research, we have established a resource repository at https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts-in-LLMs.

arxiv情報

著者 Weilin Cai,Juyong Jiang,Fan Wang,Jing Tang,Sunghun Kim,Jiayi Huang
発行日 2025-04-09 13:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク