要約
マルチモーダル大規模言語モデル (MLLM) は、その多機能性により多くの注目を集めています。
ただし、従来の Transformer アーキテクチャでは、二次的な計算の複雑さにより、重大なオーバーヘッドが発生します。
この問題に対処するために、最新かつ効率的な Mamba-2 モデルを推論に利用するマルチモーダル言語モデルである ML-Mamba を導入します。
Mamba-2 は、線形拡張と長いシーケンスの高速処理で知られています。
私たちは、Transformer ベースのバックボーンを事前トレーニングされた Mamba-2 モデルに置き換え、2D 視覚選択スキャン メカニズムをマルチモーダル学習に統合する方法を検討します。
また、さまざまなビジュアル エンコーダーや Mamba-2 モデルのバリアントも試します。
さまざまなマルチモーダル ベンチマーク テストで実施された広範な実験により、ML-Mamba の競合パフォーマンスが実証され、マルチモーダル タスクにおける状態空間モデルの可能性が強調されました。
実験結果は次のことを示しています。(1) ML-Mamba は、線形逐次モデリングにより、TinyLaVA や MobileVLM v2 などの最先端の手法に匹敵するパフォーマンスを達成すると同時に、より高速な推論速度を実現します。
(2) ML-Mamba は、クローズド セット ベンチマーク テストで幻視と空間関係の判断において良好なパフォーマンスを示します。
(3) ML-Mamba は、パラメータ数を 40% 削減しながら、LLaVA と同等のパフォーマンスを実現します。 (4) オリジナルの Mamba モデルを使用したマルチモーダル モデルと比較して、Mamba-2 ベースの大規模マルチモーダル言語モデルは推論が強力です
パフォーマンスと有効性。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have attracted much attention due to their multifunctionality. However, traditional Transformer architectures incur significant overhead due to their secondary computational complexity. To address this issue, we introduce ML-Mamba, a multimodal language model that utilizes the latest and efficient Mamba-2 model for inference. Mamba-2 is known for its linear extension and fast processing of long sequences. We replace the Transformer based backbone with a pre-trained Mamba-2 model and explore methods for integrating 2D visual selective scanning mechanisms into multimodal learning. We also try various visual encoders and Mamba-2 model variants. Our extensive experiments conducted in various multimodal benchmark tests have demonstrated the competitive performance of ML-Mamba and highlighted the potential of state space models in multimodal tasks. The experimental results show that: (1) ML-Mamba achieves performance comparable to state-of-the-art methods such as TinyLaVA and MobileVLM v2 through its linear sequential modeling, while also having faster inference speed; (2) ML-Mamba performs well in visual hallucinations and spatial relationship judgment in closed set benchmark tests; (3) ML-Mamba achieves performance comparable to LLaVA while reducing the number of parameters by 40\%.(4) Compared to the multimodal model using the original Mamba model, the Mamba-2 based large-scale multimodal language model has stronger inference performance and effectiveness.
arxiv情報
著者 | Wenjun Huang,Jianguo Hu |
発行日 | 2024-07-29 09:38:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google