要約
マルチモーダル大規模言語モデルの最近の進歩により、高解像度の画像入力がモデルの機能、特に粒度の細かいタスクにとって重要であることが実証されました。
ただし、高解像度の画像では、LLM に入力されるビジュアル トークンの数が 2 次的に増加し、大幅な計算コストが発生します。
現在の作業では、多くの場合パフォーマンスを犠牲にして、効率の向上を達成するための視覚的なトークン圧縮方法を開発しています。
私たちは、視覚的な冗長性を取り除くことで、効率とパフォーマンスの両方を同時に向上させることができると主張します。
私たちは、情報密度の低い冗長領域を圧縮するためのビジョンガイド付きサンプラーと、ユーザーの指示と強く相関するビジュアルトークンを選択するためのテキストガイド付きサンプラーを使用して、粗いから細かいまでのビジュアルトークン圧縮方法を構築します。これら 2 つを使用して、
提案された FocusLLaVA は、効率とパフォーマンスの両方の向上を実現します。
私たちは、幅広い評価データセットに対するアプローチの有効性を検証します。
要約(オリジナル)
Recent advances on Multi-modal Large Language Models have demonstrated that high-resolution image input is crucial for model capabilities, especially for fine-grained tasks. However, high-resolution images lead to a quadratic increase in the number of visual tokens input into LLMs, resulting in significant computational costs. Current work develop visual token compression methods to achieve efficiency improvements, often at the expense of performance. We argue that removing visual redundancy can simultaneously improve both efficiency and performance. We build a coarse-to-fine visual token compression method, with a vision-guided sampler for compressing redundant regions with low information density, and a text-guided sampler for selecting visual tokens that are strongly correlated with the user instructions.With these two modules, the proposed FocusLLaVA achieves improvements in both efficiency and performance. We validate the effectiveness of our approach on a wide range of evaluation datasets.
arxiv情報
著者 | Yuke Zhu,Chi Xie,Shuang Liang,Bo Zheng,Sheng Guo |
発行日 | 2024-11-21 15:37:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google