Multimodal Instruction Tuning with Hybrid State Space Models

要約

長いコンテキストの処理は、高解像度画像や高フレーム レート ビデオの処理などのアプリケーションにおけるマルチモーダル大規模言語モデル (MLLM) の認識および理解機能を強化するために重要です。
画像の解像度とフレーム レートが向上すると、入力トークンの数が増加するため、計算要求が大幅に増加します。
この課題は、セルフアテンション メカニズムのシーケンス長に関する 2 次の複雑さによってさらに悪化します。
従来の研究のほとんどは、効率の問題を見落として長いコンテキストを使用してモデルを事前トレーニングするか、コンテキスト長を短くするためにダウンサンプリング (たとえば、主要な画像パッチまたはフレームを識別する) によってコンテキスト長を削減しようとするかのいずれかであり、情報損失が生じる可能性があります。
MLLM の顕著な有効性を維持しながらこの問題を回避するために、ハイブリッド トランスフォーマー – MAMBA モデルを使用してマルチモーダル アプリケーションで長いコンテキストを効率的に処理する新しいアプローチを提案します。
当社のマルチモーダル モデルは、100,000 トークンを超える長いコンテキスト入力を効果的に処理でき、さまざまなベンチマークにわたって既存のモデルを上回るパフォーマンスを発揮します。
注目すべきことに、私たちのモデルは、高解像度画像と高フレームレートビデオの推論効率を現在のモデルと比較して約 4 倍向上させ、画像解像度またはビデオフレームが増加するにつれて効率も向上します。
さらに、私たちのモデルは、低解像度の画像や低フレームレートのビデオでトレーニングされた初めてのモデルであり、高解像度の画像や高フレームレートのビデオでも推論できるため、さまざまなシナリオでの推論に柔軟性を提供します。

要約(オリジナル)

Handling lengthy context is crucial for enhancing the recognition and understanding capabilities of multimodal large language models (MLLMs) in applications such as processing high-resolution images or high frame rate videos. The rise in image resolution and frame rate substantially increases computational demands due to the increased number of input tokens. This challenge is further exacerbated by the quadratic complexity with respect to sequence length of the self-attention mechanism. Most prior works either pre-train models with long contexts, overlooking the efficiency problem, or attempt to reduce the context length via downsampling (e.g., identify the key image patches or frames) to decrease the context length, which may result in information loss. To circumvent this issue while keeping the remarkable effectiveness of MLLMs, we propose a novel approach using a hybrid transformer-MAMBA model to efficiently handle long contexts in multimodal applications. Our multimodal model can effectively process long context input exceeding 100k tokens, outperforming existing models across various benchmarks. Remarkably, our model enhances inference efficiency for high-resolution images and high-frame-rate videos by about 4 times compared to current models, with efficiency gains increasing as image resolution or video frames rise. Furthermore, our model is the first to be trained on low-resolution images or low-frame-rate videos while being capable of inference on high-resolution images and high-frame-rate videos, offering flexibility for inference in diverse scenarios.

arxiv情報

著者 Jianing Zhou,Han Li,Shuai Zhang,Ning Xie,Ruijie Wang,Xiaohan Nie,Sheng Liu,Lingyun Wang
発行日 2024-11-13 18:19:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク