要約
専門家混合 (MoE) は、大規模視覚言語モデル (LVLM) の研究においてますます注目を集めています。
疎モデルを使用して密モデルを置き換え、推論中にアクティブにするパラメータを減らしながら同等のパフォーマンスを達成するため、推論コストが大幅に削減されます。
LVLM の既存の MoE メソッドは、さまざまな専門家がさまざまなトークンを処理することを奨励しており、そのためルーターを使用して各トークンのルーティングを予測します。
ただし、予測はサンプルの特徴のみに基づいており、トークンの最適化の方向性を真に明らかにするものではありません。
これにより、エキスパート内の異なるトークン間で深刻な最適化の競合が発生する可能性があります。
この問題に対処するために、この論文ではトークンレベルの勾配分析に基づく新しい方法を提案します。
具体的には、まずトークンレベルの勾配を使用して、エキスパート内で競合するトークンを特定します。
次に、各エキスパート内のトークン間の競合を排除するために調整された特殊な損失を追加します。
私たちの方法は、多様な大規模視覚言語モデルのプラグインとして機能し、広範な実験結果が私たちの方法の有効性を実証しています。
コードは https://github.com/longrongyang/STGC で公開されます。
要約(オリジナル)
The Mixture-of-Experts (MoE) has gained increasing attention in the study of Large Vision-Language Models (LVLMs). It uses a sparse model to replace the dense model, achieving comparable performance while activating fewer parameters during inference, thus significantly reducing the inference cost. Existing MoE methods in LVLMs encourage different experts to handle different tokens, and thus they employ a router to predict the routing for each token. However, the predictions are based solely on sample features and do not truly reveal the optimization direction of tokens. This can lead to severe optimization conflicts between different tokens within an expert. To address this problem, this paper proposes a novel method based on token-level gradient analysis. Specifically, we first use token-level gradients to identify conflicting tokens in experts. Then, we add a specialized loss tailored to eliminate conflicts among tokens within each expert. Our method can serve as a plug-in for diverse Large Vision-Language Models, and extensive experimental results demonstrate the effectiveness of our method. The code will be publicly available at https://github.com/longrongyang/STGC.
arxiv情報
著者 | Longrong Yang,Dong Sheng,Chaoxiang Cai,Fan Yang,Size Li,Di Zhang,Xi Li |
発行日 | 2024-06-28 13:20:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google