Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners

要約

マルチタスク学習 (MTL) の最適化は、異なるタスクからの勾配が矛盾する可能性があるため、シングルタスク学習 (STL) よりも困難です。
タスクが関連している場合、いくつかのパラメーターをそれらの間で共有すること (協力) が有益な場合があります。
ただし、一部のタスクでは、特定の種類のデータまたは識別 (専門化) に関する専門知識を備えた追加のパラメーターが必要です。
MTL の課題に対処するために、専門家のグループ (「分隊」) にモジュール化された新しいモデルである Mod-Squad を提案します。
この構造により、専門家とタスクをマッチングするプロセスとして、協力と専門化を形式化することができます。
単一モデルのトレーニング中に、このマッチング プロセスを最適化します。
具体的には、タスクとエキスパート間の相互依存性を組み込んだ新しい損失を使用して、エキスパート (MoE) レイヤーの混合をトランスモデルに組み込みます。
その結果、各タスクに対して少数の専門家のみがアクティブになります。
これにより、すべてのタスク間でバックボーン モデル全体が共有されるのを防ぐことができ、特にトレーニング セットのサイズとタスクの数がスケールアップする場合に、モデルが強化されます。
さらに興味深いことに、タスクごとに、大規模モデルと同じパフォーマンスを維持するスタンドアロン モデルとして少数の専門家のセットを抽出できます。
13 のビジョン タスクを含む Taskonomy データセットと 5 つのビジョン タスクを含む PASCAL-Context データセットに関する広範な実験は、私たちのアプローチの優位性を示しています。

要約(オリジナル)

Optimization in multi-task learning (MTL) is more challenging than single-task learning (STL), as the gradient from different tasks can be contradictory. When tasks are related, it can be beneficial to share some parameters among them (cooperation). However, some tasks require additional parameters with expertise in a specific type of data or discrimination (specialization). To address the MTL challenge, we propose Mod-Squad, a new model that is Modularized into groups of experts (a ‘Squad’). This structure allows us to formalize cooperation and specialization as the process of matching experts and tasks. We optimize this matching process during the training of a single model. Specifically, we incorporate mixture of experts (MoE) layers into a transformer model, with a new loss that incorporates the mutual dependence between tasks and experts. As a result, only a small set of experts are activated for each task. This prevents the sharing of the entire backbone model between all tasks, which strengthens the model, especially when the training set size and the number of tasks scale up. More interestingly, for each task, we can extract the small set of experts as a standalone model that maintains the same performance as the large model. Extensive experiments on the Taskonomy dataset with 13 vision tasks and the PASCAL-Context dataset with 5 vision tasks show the superiority of our approach.

arxiv情報

著者 Zitian Chen,Yikang Shen,Mingyu Ding,Zhenfang Chen,Hengshuang Zhao,Erik Learned-Miller,Chuang Gan
発行日 2022-12-15 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク