要約
マルチモーダル大規模言語モデル (MLLM) は、マルチモーダルな理解における優れた機能により、大きな注目を集めています。
ただし、既存の手法は広範なモーダル固有の事前トレーニングとジョイントモーダル調整に大きく依存しており、新しいモダリティに拡張する際に大きな計算負荷が生じます。
この論文では、MLLM が $\mathbb{X}$-modal 推論のモダリティを継続的に EVolve できるようにする、モーダル パスの切り替え機能と拡張機能を備えた柔軟でスケーラブルなフレームワークである PathWeave を提案します。
当社は継続学習の概念を活用し、事前トレーニングされた MLLM 上で増分トレーニング戦略を開発し、統合モーダル事前トレーニングを実行せずに、ユニモーダル データを使用して新しいモダリティへの拡張を可能にします。
詳細には、効率的なモダリティの調整とコラボレーションを促進するために、ユニモーダル アダプターとクロスモーダル アダプターがシームレスに統合される、新しいアダプター イン アダプター (AnA) フレームワークが導入されています。
さらに、MoE ベースのゲーティング モジュールが 2 種類のアダプタ間に適用され、マルチモーダル インタラクションがさらに強化されます。
提案された方法を調査するために、画像、ビデオ、オーディオ、深度、点群という 5 つの異なるモダリティからの高品質 QA データで構成されるモダリティの継続学習 (MCL) と呼ばれる挑戦的なベンチマークを確立します。
広範な実験により、提案された AnA フレームワークが学習の可塑性と継続学習中の記憶の安定性に対して有効であることが実証されました。
さらに、PathWeave は最先端の MLLM と同等のパフォーマンスを発揮すると同時に、パラメーター トレーニングの負担を 98.73% 削減します。
私たちのコードは https://github.com/JiazuoYu/PathWeave にあります。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have gained significant attention due to their impressive capabilities in multimodal understanding. However, existing methods rely heavily on extensive modal-specific pretraining and joint-modal tuning, leading to significant computational burdens when expanding to new modalities. In this paper, we propose PathWeave, a flexible and scalable framework with modal-Path sWitching and ExpAnsion abilities that enables MLLMs to continually EVolve on modalities for $\mathbb{X}$-modal reasoning. We leverage the concept of Continual Learning and develop an incremental training strategy atop pre-trained MLLMs, enabling their expansion to new modalities using uni-modal data, without executing joint-modal pretraining. In detail, a novel Adapter-in-Adapter (AnA) framework is introduced, in which uni-modal and cross-modal adapters are seamlessly integrated to facilitate efficient modality alignment and collaboration. Additionally, an MoE-based gating module is applied between two types of adapters to further enhance the multimodal interaction. To investigate the proposed method, we establish a challenging benchmark called Continual Learning of Modality (MCL), which consists of high-quality QA data from five distinct modalities: image, video, audio, depth and point cloud. Extensive experiments demonstrate the effectiveness of the proposed AnA framework on learning plasticity and memory stability during continual learning. Furthermore, PathWeave performs comparably to state-of-the-art MLLMs while concurrently reducing parameter training burdens by 98.73%. Our code locates at https://github.com/JiazuoYu/PathWeave
arxiv情報
著者 | Jiazuo Yu,Haomiao Xiong,Lu Zhang,Haiwen Diao,Yunzhi Zhuge,Lanqing Hong,Dong Wang,Huchuan Lu,You He,Long Chen |
発行日 | 2024-11-12 14:45:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google