Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models

要約

大規模ビジョン言語モデル (LVLM) は、事前トレーニングされたビジョン エンコーダと大規模言語モデルを統合することにより、幅広いマルチモーダル タスクで目覚ましい成功を収めています。
ただし、現在の LVLM は主にビジョン エンコーダの最終層から抽出された視覚的特徴に依存しており、より浅い層で利用できる補完的な情報は無視されています。
最近のアプローチでは、LVLM での多層ビジュアル機能の使用が検討されていますが、タスクに依存しない傾向があり、特定のタスクに対する階層ビジュアル機能の依存関係を調べることができません。
これらのギャップに対処するために、6 つのタスク カテゴリにまたがる 18 のベンチマークを使用して、さまざまなエンコーダー レイヤーからの視覚的特徴の寄与を体系的に調査します。
私たちの調査結果は、多層機能がさまざまなタスクの依存関係で補完的な強みを提供し、均一な融合が最適なパフォーマンスにつながることを明らかにしました。
これらの洞察に基づいて、ビジュアル トークンの数を増やすことなく、テキストによる指示に基づいてマルチレイヤーのビジュアル機能を動的に統合するモジュールである、指示ガイド付きビジョン アグリゲーターを提案します。
広範な評価により、私たちのメソッドの優れたパフォーマンスが実証されています。
さらに、アグリゲーターの動作を詳細に分析した結果、セマンティックが豊富なタスクにおける中レベルから高レベルの機能の優位性と、きめ細かい認識における低レベルの機能の重要な役割が明らかになりました。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have achieved remarkable success in a wide range of multimodal tasks by integrating pre-trained vision encoders and large language models. However, current LVLMs primarily rely on visual features extracted from the final layers of the vision encoder, overlooking the complementary information available in shallower layers. While recent approaches have explored the use of multilayer visual features in LVLMs, they tend to be task-agnostic and fail to examine the dependencies of hierarchical visual features on specific tasks. To address these gaps, we systematically investigate the contributions of visual features from different encoder layers using 18 benchmarks spanning 6 task categories. Our findings reveal that multilayer features provide complementary strengths with varying task dependencies, and uniform fusion leads to suboptimal performance. Building on these insights, we propose the instruction-guided vision aggregator, a module that dynamically integrates multi-layer visual features based on textual instructions, without increasing the number of visual tokens. Extensive evaluations demonstrate the superior performance of our method. Additionally, an in-depth analysis of the aggregator’s behavior highlights the dominance of mid-to-high-level features in semantic-rich tasks and the critical role of low-level features in fine-grained perception.

arxiv情報

著者 Xu Li,Yi Zheng,Haotian Chen,Xiaolei Chen,Yuxuan Liang,Chenghang Lai,Bin Li,Xiangyang Xue
発行日 2025-01-17 06:33:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク