LaDiMo: Layer-wise Distillation Inspired MoEfier

要約

大規模な言語モデルの出現は自然言語処理に革命をもたらしましたが、その複雑さの増大により、相当なトレーニング コスト、リソースの需要、および環境への影響が生じています。
これに応えて、疎な専門家混合 (MoE) モデルが、密なモデルに代わる有望な代替品として登場しました。
MoE モデルをゼロからトレーニングするのは法外なコストがかかるため、最近の研究では、事前トレーニングされた非 MoE モデルからの知識を活用することが検討されています。
ただし、既存のアプローチには、大量のハードウェア リソースとデータが必要になるなどの制限があります。
我々は、追加のトレーニングコストを最小限に抑えながら、Transformer ベースの非 MoE モデルを MoE モデルに効率的に変換する新しいアルゴリズム LaDiMo を提案します。
LaDiMo は、レイヤーごとの専門家による構築とルーティング ポリシーの決定という 2 つの段階で構成されます。
知識の蒸留の概念を利用することで、モデルを圧縮し、そのパフォーマンスを迅速に回復します。
さらに、ルーティングの重みの分布をプロファイリングし、精度と遅延のバランスをとるレイヤーごとのポリシーを決定することで、推論効率を最適化する適応ルーターを開発します。
わずか 100,000 トークンを使用して LLaMA2-7B モデルを MoE モデルに変換し、精度を維持しながらアクティブ化されたパラメーターを 20% 以上削減することで、この方法の有効性を実証します。
私たちのアプローチは、MoE モデルを構築および展開するための柔軟で効率的なソリューションを提供します。

要約(オリジナル)

The advent of large language models has revolutionized natural language processing, but their increasing complexity has led to substantial training costs, resource demands, and environmental impacts. In response, sparse Mixture-of-Experts (MoE) models have emerged as a promising alternative to dense models. Since training MoE models from scratch can be prohibitively expensive, recent studies have explored leveraging knowledge from pre-trained non-MoE models. However, existing approaches have limitations, such as requiring significant hardware resources and data. We propose a novel algorithm, LaDiMo, which efficiently converts a Transformer-based non-MoE model into a MoE model with minimal additional training cost. LaDiMo consists of two stages: layer-wise expert construction and routing policy decision. By harnessing the concept of Knowledge Distillation, we compress the model and rapidly recover its performance. Furthermore, we develop an adaptive router that optimizes inference efficiency by profiling the distribution of routing weights and determining a layer-wise policy that balances accuracy and latency. We demonstrate the effectiveness of our method by converting the LLaMA2-7B model to a MoE model using only 100K tokens, reducing activated parameters by over 20% while keeping accuracy. Our approach offers a flexible and efficient solution for building and deploying MoE models.

arxiv情報

著者 Sungyoon Kim,Youngjun Kim,Kihyo Moon,Minsung Jang
発行日 2024-08-08 07:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク