Residual Mixture of Experts

要約

Mixture of Experts (MoE) は、視覚変換器を効率的にスケールアップすることができる。しかし、大規模なMoE変換器を学習するためには、膨大な計算資源が必要となる。本論文では、セグメンテーションや検出などの下流タスクにおけるMoEビジョン変換器のための効率的な学習パイプラインであるResidual Mixture of Experts (RMoE)を提案する。RMoEは、上限のMoE学習と同等の結果を達成し、下限の非MoE学習パイプラインよりもわずかな追加学習コストしか発生させない。この効率性は、MoE変換器の重みは、入力に依存しないコアと入力に依存する残差に分解できる、という我々の重要な観測によって裏付けられている。重みのコアと比較して、重みの残差は、例えば、下流データの微調整など、より少ない計算資源で効率的に訓練することができる。我々は、現在のMoE学習パイプラインと比較して、30%以上の学習コストを削減しながら同等の結果を得ることができることを示す。また、Swin-T / CvT-13 / Swin-Lといった最新の非MoE変換器と比較すると、ADE20Kセグメンテーションで+1.1 / 0.9 / 1.0 mIoU、MS-COCO物体検出タスクで+1.4 / 1.6 / 0.6 AP利得を得て、追加学習コストは3%未満であることがわかった。

要約(オリジナル)

Mixture of Experts (MoE) is able to scale up vision transformers effectively. However, it requires prohibiting computation resources to train a large MoE transformer. In this paper, we propose Residual Mixture of Experts (RMoE), an efficient training pipeline for MoE vision transformers on downstream tasks, such as segmentation and detection. RMoE achieves comparable results with the upper-bound MoE training, while only introducing minor additional training cost than the lower-bound non-MoE training pipelines. The efficiency is supported by our key observation: the weights of an MoE transformer can be factored into an input-independent core and an input-dependent residual. Compared with the weight core, the weight residual can be efficiently trained with much less computation resource, e.g., finetuning on the downstream data. We show that, compared with the current MoE training pipeline, we get comparable results while saving over 30% training cost. When compared with state-of-the-art non- MoE transformers, such as Swin-T / CvT-13 / Swin-L, we get +1.1 / 0.9 / 1.0 mIoU gain on ADE20K segmentation and +1.4 / 1.6 / 0.6 AP gain on MS-COCO object detection task with less than 3% additional training cost.

arxiv情報

著者 Lemeng Wu,Mengchen Liu,Yinpeng Chen,Dongdong Chen,Xiyang Dai,Lu Yuan
発行日 2022-06-08 07:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク