要約
近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。
ただし、多くの下流タスクの基礎モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されており、二次計算の複雑さはあまり効率的ではありません。
このような基本モデルの効率を向上させるために、線形計算量 MLLM である Cobra を提案します。
具体的には、Cobra は効率的な Mamba 言語モデルをビジュアル モダリティに統合します。
さらに、効果的なマルチモーダル Mamba を作成するために、さまざまなモーダル融合スキームを探索および研究します。
広範な実験により、(1) Cobra は、現在の計算効率の高い最先端の手法 (LLaVA-Phi、TinyLLaVA、MobileVLM v2 など) を使用して非常に競争力のあるパフォーマンスを達成し、Cobra の線形逐次モデリングにより高速な速度を実現していることが実証されています。
(2) 興味深いことに、クローズドセットの困難な予測ベンチマークの結果は、コブラが視覚的な錯覚と空間関係の判断を克服するのに優れたパフォーマンスを発揮していることを示しています。
(3) 特に、Cobra はパラメータ数の約 43% で LLaVA と同等のパフォーマンスを達成しています。
私たちは Cobra のすべてのコードをオープンソースにし、提案された方法が MLLM の複雑さの問題に関する将来の研究を促進できることを期待しています。
私たちのプロジェクト ページは https://sites.google.com/view/cobravlm からご覧いただけます。
要約(オリジナル)
In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra’s linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.
arxiv情報
| 著者 | Han Zhao,Min Zhang,Wei Zhao,Pengxiang Ding,Siteng Huang,Donglin Wang | 
| 発行日 | 2024-03-22 16:35:49+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
