要約
専門家混合 (MoE) アーキテクチャは、多くのアプリケーションでディープ モデルをトレーニングする際の多様なタスクに強力な方法であることが証明されています。
ただし、現在の MoE 実装はタスクに依存せず、異なるタスクからのすべてのトークンを同じ方法で扱います。
この研究では、代わりに、共有の動的タスクベースのアダプターを使用して、タスク情報をさまざまな粒度レベルで MoE モデルに組み込む新しい方法を設計します。
私たちの実験と分析は、マルチタスク多言語機械翻訳における高密度で標準的な MoE モデルに対する私たちのアプローチの利点を示しています。
タスク固有のアダプターを使用すると、モデルはさらに新しいタスクに効率的に一般化できます。
要約(オリジナル)
Mixture-of-experts (MoE) architecture has been proven a powerful method for diverse tasks in training deep models in many applications. However, current MoE implementations are task agnostic, treating all tokens from different tasks in the same manner. In this work, we instead design a novel method that incorporates task information into MoE models at different granular levels with shared dynamic task-based adapters. Our experiments and analysis show the advantages of our approaches over the dense and canonical MoE models on multi-task multilingual machine translations. With task-specific adapters, our models can additionally generalize to new tasks efficiently.
arxiv情報
著者 | Hai Pham,Young Jin Kim,Subhabrata Mukherjee,David P. Woodruff,Barnabas Poczos,Hany Hassan Awadalla |
発行日 | 2023-09-11 17:22:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google