One Student Knows All Experts Know: From Sparse to Dense

要約

ヒューマン教育システムは、一人の生徒を複数の専門家によって訓練します。
Mixture-of-experts (MoE) は、複数のエキスパートを含む強力なスパース アーキテクチャです。
ただし、スパース MoE モデルはオーバーフィットしやすく、展開が難しく、実務者にとってハードウェア フレンドリーではありません。
人間の教育モデルに触発されたこの作業では、1 つのスパース MoE と同じくらい知識のある高密度の学生モデル (OneS) を取得するために、新しいタスクである知識統合を提案します。
知識の収集と知識の蒸留を含む一般的なトレーニング フレームワークを提案することによって、このタスクを調査します。
具体的には、事前に訓練されたさまざまな専門家から重要な知識を収集するために、最初に、合計、平均化、Top-K 知識収集 (Top-KG)、および特異値分解知識収集 (SVD-KG) という 4 つの異なる知識収集方法を調査します。
) この論文で提案されています。
次に、知識の蒸留によって高密度の学生モデルを改良し、収集によるノイズを相殺します。
ImageNet では、OneS は MoE から $61.7\%$ のメリットを維持し、わずか $15$M のパラメーターで $78.4\%$ のトップ 1 精度の ImageNet を達成します。
4 つの自然言語処理データセットで、OneS は $88.2\%$ の MoE メリットを得て、同じアーキテクチャとトレーニング データを使用して、最高のベースラインを $51.7\%$ 上回っています。
さらに、MoE の対応物と比較して、OneS は計算量が少なく、ハードウェアに適したアーキテクチャであるため、$3.7 \times$ の推論スピードアップを達成できます。

要約(オリジナル)

Human education system trains one student by multiple experts. Mixture-of-experts (MoE) is a powerful sparse architecture including multiple experts. However, sparse MoE model is easy to overfit, hard to deploy, and not hardware-friendly for practitioners. In this work, inspired by the human education model, we propose a novel task, knowledge integration, to obtain a dense student model (OneS) as knowledgeable as one sparse MoE. We investigate this task by proposing a general training framework including knowledge gathering and knowledge distillation. Specifically, to gather key knowledge from different pre-trained experts, we first investigate four different possible knowledge gathering methods, \ie summation, averaging, Top-K Knowledge Gathering (Top-KG), and Singular Value Decomposition Knowledge Gathering (SVD-KG) proposed in this paper. We then refine the dense student model by knowledge distillation to offset the noise from gathering. On ImageNet, our OneS preserves $61.7\%$ benefits from MoE and achieves $78.4\%$ top-1 accuracy ImageNet with only $15$M parameters. On four natural language processing datasets, OneS obtains $88.2\%$ MoE benefits and outperforms the best baseline by $51.7\%$ using the same architecture and training data. In addition, compared with the MoE counterpart, OneS can achieve $3.7 \times$ inference speedup due to less computation and hardware-friendly architecture.

arxiv情報

著者 Fuzhao Xue,Xiaoxin He,Xiaozhe Ren,Yuxuan Lou,Yang You
発行日 2022-10-25 08:07:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク