Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

要約

私たちは、大規模言語モデル (LLM) をトレーニングして、コーディング、数学的推論、世界知識などの複数の特殊な領域の機能を備えた効率的な方法を研究しています。
Branch-Train-MiX (BTX) と呼ばれる私たちの手法は、シード モデルから始まり、分岐して高スループットで通信コストを削減しながら、恥ずかしいほど並行して専門家をトレーニングします。
個々のエキスパートが非同期でトレーニングされた後、BTX は、混合エキスパート (MoE) レイヤーのエキスパートとしてフィードフォワード パラメーターをまとめて残りのパラメーターを平均し、その後、トークン レベルのルーティングを学習するための MoE 微調整ステージが続きます。
BTX は、ルーティングを学習するための MoE 微調整ステージを持たないブランチ-トレイン-マージ手法と、専門家を非同期でトレーニングするステージを省略するスパース アップサイクルという 2 つの特殊なケースを一般化します。
他のアプローチと比較して、BTX は最高の精度と効率のトレードオフを実現します。

要約(オリジナル)

We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.

arxiv情報

著者 Sainbayar Sukhbaatar,Olga Golovneva,Vasu Sharma,Hu Xu,Xi Victoria Lin,Baptiste Rozière,Jacob Kahn,Daniel Li,Wen-tau Yih,Jason Weston,Xian Li
発行日 2024-03-12 16:54:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク