要約
Large Vision-Language Model (LVLM) は、モデル間タスクでは優れていますが、テキスト情報への過度の依存と視覚的依存の減少により、ロングコンテキスト推論ではパフォーマンスが低下します。
この研究では、長いコンテキスト推論における LVLM を実証的に分析し、コンテキストの長さが増加すると、視覚的な依存性を犠牲にして言語への依存性が高まることを明らかにしました。
この問題に対処するために、重要度の低いテキスト情報を選択的に削除する、トレーニング不要の新しいコンテキスト プルーニング手法を提案します。
私たちのアプローチは、視覚的な依存性を強化し、テキストのノイズを低減することで、ロングコンテキスト推論における LVLM のパフォーマンスを向上させます。
ロングコンテキスト データセットを構築することで手法を検証し、さまざまな LVLM にわたってその有効性を実証します。
さらに、さらなる分析により、さまざまなトークン プルーニング戦略の堅牢性が確認され、プルーニング レートとコンテキスト長の間のスケーリング則が予備的に調査されます。
要約(オリジナル)
Large Vision-Language Models (LVLMs) excel in cross-model tasks but experience performance declines in long-context reasoning due to overreliance on textual information and reduced visual dependency. In this study, we empirically analyze LVLMs in long-context reasoning, revealing that increased context length leads to a higher dependence on language at the expense of visual dependency. To address this issue, we propose a novel training-free context pruning method that selectively removes less critical textual information. Our approach enhances visual dependency and reduces textual noise, thereby improving LVLM performance in long-context reasoning. We validate our method by constructing a long-context dataset, demonstrating its effectiveness across various LVLMs. Moreover, further analysis confirms the robustness of different token pruning strategies and preliminary explores scaling laws between pruning rates and context length.
arxiv情報
著者 | Yucheng Zhou,Zhi Rao,Jun Wan,Jianbing Shen |
発行日 | 2024-12-20 16:19:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google