TokenPacker: Efficient Visual Projector for Multimodal LLM

要約

ビジュアル プロジェクターは、マルチモーダル LLM (MLLM) におけるビジュアル エンコーダーとラージ言語モデル (LLM) の間の重要なブリッジとして機能します。
通常、MLLM は単純な MLP を採用して、1 対 1 の変換を通じてすべての視覚的なコンテキストを保持します。
ただし、ビジュアル トークンは冗長であり、高解像度の画像を扱う場合は大幅に増加する可能性があり、MLLM の効率が大幅に損なわれます。
最近の一部の作品では、結果として生じるビジュアル トークンの数を減らすためにリサンプラーまたはアブストラクターが導入されています。
残念ながら、それらはより詳細な情報を捉えることができず、MLLM の視覚的推論能力を損ないます。
この研究では、粗密スキームを採用して強化された特性を注入して凝縮された視覚トークンを生成する、新しい視覚プロジェクターを提案します。
具体的には、最初に視覚的特徴を低解像度のポイント クエリとして補間し、基礎として全体的な視覚的表現を提供します。
次に、高解像度のマルチレベル領域ベースのキューを詳細な参照キーと値として利用する領域ツーポイント注入モジュールを導入し、対応するローカル コンテキスト領域内で完全に吸収できるようにします。
このステップは、粗いポイント クエリを効果的に更新し、後続の LLM 推論のために強化されたクエリに変換します。
広範な実験により、私たちのアプローチが視覚トークンを 75% ~ 89% 圧縮しながら、大幅に高い効率でさまざまなベンチマークにわたって同等またはそれ以上のパフォーマンスを達成できることが実証されました。
ソース コードは https://github.com/CircleRadon/TokenPacker にあります。

要約(オリジナル)

The visual projector serves as an essential bridge between the visual encoder and the Large Language Model (LLM) in a Multimodal LLM (MLLM). Typically, MLLMs adopt a simple MLP to preserve all visual contexts via one-to-one transformation. However, the visual tokens are redundant and can be considerably increased when dealing with high-resolution images, impairing the efficiency of MLLMs significantly. Some recent works have introduced resampler or abstractor to reduce the number of resulting visual tokens. Unfortunately, they fail to capture finer details and undermine the visual reasoning capabilities of MLLMs. In this work, we propose a novel visual projector, which adopts a coarse-to-fine scheme to inject the enriched characteristics to generate the condensed visual tokens. In specific, we first interpolate the visual features as a low-resolution point query, providing the overall visual representation as the foundation. Then, we introduce a region-to-point injection module that utilizes high-resolution, multi-level region-based cues as fine-grained reference keys and values, allowing them to be fully absorbed within the corresponding local context region. This step effectively updates the coarse point query, transforming it into an enriched one for the subsequent LLM reasoning. Extensive experiments demonstrate that our approach compresses the visual tokens by 75%~89%, while achieves comparable or even better performance across diverse benchmarks with significantly higher efficiency. The source codes can be found at https://github.com/CircleRadon/TokenPacker.

arxiv情報

著者 Wentong Li,Yuqian Yuan,Jian Liu,Dongqi Tang,Song Wang,Jie Qin,Jianke Zhu,Lei Zhang
発行日 2024-08-23 12:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク