要約
マルチモーダル大規模言語モデル (MLLM) は、その多機能性で大きな注目を集めています。
ただし、従来の Transformer アーキテクチャでは、二次的な計算の複雑さにより、重大なオーバーヘッドが発生します。
この問題に対処するために、最新かつ効率的な Mamba-2 モデルを推論に利用するマルチモーダル言語モデルである ML-Mamba を導入します。
Mamba-2 は、線形スケーラビリティと長いシーケンスの高速処理で知られています。
私たちは、Transformer ベースのバックボーンを事前トレーニング済みの Mamba-2 モデルに置き換え、さまざまなビジュアル エンコーダーや Mamba-2 モデルのバリアントも試しながら、2D 視覚選択スキャン メカニズムをマルチモーダル学習に統合する方法を探索します。
さまざまなマルチモーダル ベンチマーク テストにおける広範な実験により、ML-Mamba の競合パフォーマンスが実証され、マルチモーダル タスクにおける状態空間モデルの可能性が強調されます。
実験結果は次のことを示しています: (1) マルチモーダル学習に 2D 視覚選択スキャン メカニズムを効果的に適用する方法を経験的に検討します。
私たちは、表現機能を強化する Mamba-2 Scan Connector (MSC) と呼ばれる新しいマルチモーダル コネクタを提案します。
(2) ML-Mamba は、線形逐次モデリングにより、TinyLaVA や MobileVLM v2 などの最先端の手法に匹敵するパフォーマンスを実現しながら、より高速な推論速度を実現します。
(3) Mamba-1 を利用したマルチモーダル モデルと比較して、Mamba-2 ベースの ML-Mamba は優れた推論パフォーマンスと有効性を示します。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have attracted much attention for their multifunctionality. However, traditional Transformer architectures incur significant overhead due to their secondary computational complexity. To address this issue, we introduce ML-Mamba, a multimodal language model, which utilizes the latest and efficient Mamba-2 model for inference. Mamba-2 is known for its linear scalability and fast processing of long sequences. We replace the Transformer-based backbone with a pre-trained Mamba-2 model and explore methods for integrating 2D visual selective scanning mechanisms into multimodal learning while also trying various visual encoders and Mamba-2 model variants. Our extensive experiments in various multimodal benchmark tests demonstrate the competitive performance of ML-Mamba and highlight the potential of state space models in multimodal tasks. The experimental results show that: (1) we empirically explore how to effectively apply the 2D vision selective scan mechanism for multimodal learning. We propose a novel multimodal connector called the Mamba-2 Scan Connector (MSC), which enhances representational capabilities. (2) ML-Mamba achieves performance comparable to state-of-the-art methods such as TinyLaVA and MobileVLM v2 through its linear sequential modeling while faster inference speed; (3) Compared to multimodal models utilizing Mamba-1, the Mamba-2-based ML-Mamba exhibits superior inference performance and effectiveness.
arxiv情報
著者 | Wenjun Huang,Jianguo Hu |
発行日 | 2024-08-14 11:42:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google