DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs

要約

ほとんどの大規模マルチモーダル モデル (LMM) は、ビジュアル トークンをシーケンスとして大規模言語モデル (LLM) の最初の層にフィードすることによって実装されます。
結果として得られるアーキテクチャはシンプルですが、入力層で多数の追加トークンを処理する必要があるため、計算コストとメモリ コストが大幅に増加します。
このペーパーでは、LMM 用の新しいアーキテクチャ DeepStack について説明します。
LMM の言語およびビジョン トランスフォーマーの $N$ 層を考慮して、ビジュアル トークンを $N$ グループにスタックし、各グループをその整列されたトランスフォーマー層 \textit{下から上} にフィードします。
驚くべきことに、この単純な方法により、追加コストを最小限に抑えながら、レイヤー間のビジュアル トークン間の相互作用をモデル化する LMM の能力が大幅に強化されます。
私たちは DeepStack を LMM の言語トランスフォーマーとビジョントランスフォーマーの両方に適用し、広範な実証結果によって DeepStack LMM の有効性を検証します。
同じコンテキスト長を使用すると、DeepStack 7B および 13B のパラメータは、\textbf{9} ベンチマーク全体で平均して、それぞれ対応するパラメータを \textbf{2.7} および \textbf{2.9} 上回りました。
DeepStack はコンテキスト長の 5 分の 1 のみを使用するため、コンテキスト長全体を使用する同等の製品に匹敵します。
これらの向上は、高解像度タスクで特に顕著です。たとえば、LLaVA-1.5-7B と比較して、それぞれ TextVQA、DocVQA、および InfoVQA での \textbf{4.2}、\textbf{11.0}、および \textbf{4.0} の改善が見られます。
さらに DeepStack をビジョン トランスフォーマー層に適用すると、LLaVA-1.5-7B と比較して平均 \textbf{3.8} と同程度の改善が得られます。

要約(オリジナル)

Most large multimodal models (LMMs) are implemented by feeding visual tokens as a sequence into the first layer of a large language model (LLM). The resulting architecture is simple but significantly increases computation and memory costs, as it has to handle a large number of additional tokens in its input layer. This paper presents a new architecture DeepStack for LMMs. Considering $N$ layers in the language and vision transformer of LMMs, we stack the visual tokens into $N$ groups and feed each group to its aligned transformer layer \textit{from bottom to top}. Surprisingly, this simple method greatly enhances the power of LMMs to model interactions among visual tokens across layers but with minimal additional cost. We apply DeepStack to both language and vision transformer in LMMs, and validate the effectiveness of DeepStack LMMs with extensive empirical results. Using the same context length, our DeepStack 7B and 13B parameters surpass their counterparts by \textbf{2.7} and \textbf{2.9} on average across \textbf{9} benchmarks, respectively. Using only one-fifth of the context length, DeepStack rivals closely to the counterparts that use the full context length. These gains are particularly pronounced on high-resolution tasks, e.g., \textbf{4.2}, \textbf{11.0}, and \textbf{4.0} improvements on TextVQA, DocVQA, and InfoVQA compared to LLaVA-1.5-7B, respectively. We further apply DeepStack to vision transformer layers, which brings us a similar amount of improvements, \textbf{3.8} on average compared with LLaVA-1.5-7B.

arxiv情報

著者 Lingchen Meng,Jianwei Yang,Rui Tian,Xiyang Dai,Zuxuan Wu,Jianfeng Gao,Yu-Gang Jiang
発行日 2024-06-06 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク