Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities

要約

この作業では、2つのコア制約を満たしながら、マルチモーダル生成機能を備えた、事前に訓練されたテキストのみの大手言語モデル(LLMS)の既存の生成機能を強化するという課題を引き受けます。
専用モジュールを追加する現在のアプローチとは対照的に、パラメーターカウントを大幅に増加させると、深いモデルに固有の十分に活用されていない容量を活用する方法を提案します。
具体的には、新しいモダリティを学習するための追加能力のソースとして、混合物(MOE)内のパラメーター冗長性を活用し、より良いパラメーター効率(C1)を可能にします。
さらに、新しいモダリティ(C2)のトークン専用に低ランクの適応を適用することにより、元の言語生成機能を保存します。
さらに、収束とトレーニングの安定性を改善するために、Gromov-Wasserstein距離に基づいた新しいパラメーター初期化スキームを導入します。
ルーティングメカニズムの広範な分析により、マルチモーダル生成能力のロックを効率的に解除できる専門家内のモダリティ固有の経路の出現と冗長性の減少を明らかにします。
全体として、私たちの方法は、幅広い現代LLMSにシームレスに適用され、Uni-Modalからマルチモーダルアーキテクチャに移行するための新しい経路を提供できます。

要約(オリジナル)

In this work, we undertake the challenge of augmenting the existing generative capabilities of pre-trained text-only large language models (LLMs) with multi-modal generation capability while satisfying two core constraints: C1 preserving the preservation of original language generative capabilities with negligible performance degradation, and C2 adhering to a small parameter budget to learn the new modality, ensuring scalability and efficiency. In contrast to current approaches that add dedicated modules, thereby significantly increasing the parameter count, we propose a method that leverages the underutilized capacity inherent in deep models. Specifically, we exploit the parameter redundancy within Mixture-of-Experts (MoEs) as a source of additional capacity for learning a new modality, enabling better parameter efficiency (C1). Moreover, we preserve the original language generation capabilities by applying low-rank adaptation exclusively to the tokens of the new modality (C2). Furthermore, we introduce a novel parameter initialization scheme based on the Gromov-Wasserstein distance to improve convergence and training stability. Through an extensive analysis of the routing mechanism, we uncover the emergence of modality-specific pathways and decreased redundancy within the experts that can efficiently unlock multi-modal generative capabilities. Overall, our method can be seamlessly applied to a wide range of contemporary LLMs, providing a new pathway for transitioning from uni-modal to multi-modal architectures.

arxiv情報

著者 Raman Dutt,Harleen Hanspal,Guoxuan Xia,Petru-Daniel Tudosiu,Alexander Black,Yongxin Yang,Steven McDonagh,Sarah Parisot
発行日 2025-04-01 10:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク