要約
高解像度の視覚入力の組み込みにより、実際のタスクの視覚的知覚機能が強化されたマルチモーダル大手言語モデル(MLLM)が装備されています。
ただし、ほとんどの既存の高解像度MLLMは、作物ベースのアプローチに依存して画像を処理するため、断片化された視覚エンコードと冗長トークンの急激な増加につながります。
これらの問題に取り組むために、Falconモデルを提案します。
Falconは、次のように、新しい視覚登録手法を導入します。1)視覚エンコードの段階で冗長トークンを排除します。
Visionエンコーダーの出力に存在する視覚的冗長性に直接対処するために、レジスタベースの表現コンパクト(再コンパクト)メカニズムを提案します。
このメカニズムは、冗長性を破棄しながら、重要な情報を適応的に集約するように設計された一連の学習可能な視覚レジスタを導入します。
エンコーダーは、最小限の数の出力トークンでよりコンパクトな視覚表現を生成できるため、追加の圧縮モジュールが必要になります。
2)視覚エンコーディングの連続性を確保します。
断片化された視覚入力によって引き起こされる潜在的なエンコーディングエラーに対処するために、レジスタインタラクティブな注意(Reatten)モジュールを開発します。
このモジュールは、視覚レジスタ間の相互作用を可能にすることにより、サブイメージ全体の効果的かつ効率的な情報交換を促進します。
エンコード全体の視覚セマンティクスの連続性を保証します。
私たちは、幅広いシナリオで高解像度のベンチマークでファルコンを使用して包括的な実験を行っています。
ファルコンは、視覚トークンの驚くべき9倍と16倍の減少で優れたパフォーマンスを示します。
要約(オリジナル)
The incorporation of high-resolution visual input equips multimodal large language models (MLLMs) with enhanced visual perception capabilities for real-world tasks. However, most existing high-resolution MLLMs rely on a cropping-based approach to process images, which leads to fragmented visual encoding and a sharp increase in redundant tokens. To tackle these issues, we propose the FALCON model. FALCON introduces a novel visual register technique to simultaneously: 1) Eliminate redundant tokens at the stage of visual encoding. To directly address the visual redundancy present in the output of vision encoder, we propose a Register-based Representation Compacting (ReCompact) mechanism. This mechanism introduces a set of learnable visual registers designed to adaptively aggregate essential information while discarding redundancy. It enables the encoder to produce a more compact visual representation with a minimal number of output tokens, thus eliminating the need for an additional compression module. 2) Ensure continuity in visual encoding. To address the potential encoding errors caused by fragmented visual inputs, we develop a Register Interactive Attention (ReAtten) module. This module facilitates effective and efficient information exchange across sub-images by enabling interactions between visual registers. It ensures the continuity of visual semantics throughout the encoding. We conduct comprehensive experiments with FALCON on high-resolution benchmarks across a wide range of scenarios. FALCON demonstrates superior performance with a remarkable 9-fold and 16-fold reduction in visual tokens.
arxiv情報
著者 | Renshan Zhang,Rui Shao,Gongwei Chen,Kaiwen Zhou,Weili Guan,Liqiang Nie |
発行日 | 2025-01-27 18:36:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google