要約
この研究では、ビジュアル言語モデル (VLM) のトランスフォーマーを、シーケンス モデリングで有望なパフォーマンスを実証する最近の構造化状態空間モデル (SSM) である Mamba に置き換えることを検討します。
制御された条件下で最大 3B パラメーターのモデルをテストし、Mamba ベースの VLM がキャプション、質問応答、読解の点で Transformers ベースの VLM よりも優れていることを示しました。
ただし、トランスフォーマーは視覚的なグラウンディングにおいて優れたパフォーマンスを達成し、規模が大きくなるにつれてパフォーマンスの差が拡大することがわかりました。
我々は、この現象を説明するための 2 つの仮説を検討します。1) 隠れ状態の更新に対するタスクに依存しない視覚的エンコーディングの影響、2) コンテキスト内マルチモーダル検索の観点から視覚的グラウンディングを実行することの難しさ。
私たちの結果は、タスク認識エンコーディングがグラウンディングで最小限のパフォーマンス向上をもたらすものの、コンテキスト内のマルチモーダル検索では Transformers が Mamba を大幅に上回るパフォーマンスを示していることを示しています。
全体として、Mamba は、正しい出力が画像の概要に依存するタスクでは有望なパフォーマンスを示しますが、コンテキストから明示的な情報を取得する必要がある場合には困難を伴います。
要約(オリジナル)
This study explores replacing Transformers in Visual Language Models (VLMs) with Mamba, a recent structured state space model (SSM) that demonstrates promising performance in sequence modeling. We test models up to 3B parameters under controlled conditions, showing that Mamba-based VLMs outperforms Transformers-based VLMs in captioning, question answering, and reading comprehension. However, we find that Transformers achieve greater performance in visual grounding and the performance gap widens with scale. We explore two hypotheses to explain this phenomenon: 1) the effect of task-agnostic visual encoding on the updates of the hidden states, and 2) the difficulty in performing visual grounding from the perspective of in-context multimodal retrieval. Our results indicate that a task-aware encoding yields minimal performance gains on grounding, however, Transformers significantly outperform Mamba at in-context multimodal retrieval. Overall, Mamba shows promising performance on tasks where the correct output relies on a summary of the image but struggles when retrieval of explicit information from the context is required.
arxiv情報
著者 | Georgios Pantazopoulos,Malvina Nikandrou,Alessandro Suglia,Oliver Lemon,Arash Eshghi |
発行日 | 2024-10-01 08:29:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google