AdaFV: Accelerating VLMs with Self-Adaptive Cross-Modality Attention Mixture

要約

VLM の成功は、多くの場合、入力画像を複数のクロップに適応的に拡張して画像の詳細を保持できる動的な高解像度スキーマに依存します。
ただし、このようなアプローチでは、多数の冗長なビジュアル トークンが生成されるため、VLM の効率が大幅に低下します。
追加のトレーニングコストをかけずに VLM の効率を向上させるために、情報のないビジュアル トークンをフィルタリングしたり、その情報を集約したりすることでビジュアル トークンを削減する多くの研究作業が提案されています。
一部のアプローチでは、VLM の自己注意力に応じて視覚トークンを減らすことが提案されており、バイアスがかかるため、不正確な応答が発生します。
トークン削減アプローチは、視覚的な手がかりのみに依存しており、テキストに依存せず、特にクエリされたオブジェクトが画像に対して顕著ではない場合、質問に最も関連する領域に焦点を当てることができません。
この研究では、最初に実験を行って、元のテキストの埋め込みが、尾部のビジュアル トークンに偏ることなく、ビジュアル トークンと位置合わせされていることを示します。
次に、LLM 前層の視覚的顕著性とテキストと画像の類似性の有効性を動的に活用して、有益な視覚トークンを選択する自己適応型クロスモダリティ注意混合メカニズムを提案します。
広範な実験により、提案されたアプローチが、特に低減率が十分に大きい場合に、トレーニング不要の最先端の VLM 加速パフォーマンスが達成されることが実証されています。

要約(オリジナル)

The success of VLMs often relies on the dynamic high-resolution schema that adaptively augments the input images to multiple crops, so that the details of the images can be retained. However, such approaches result in a large number of redundant visual tokens, thus significantly reducing the efficiency of the VLMs. To improve the VLMs’ efficiency without introducing extra training costs, many research works are proposed to reduce the visual tokens by filtering the uninformative visual tokens or aggregating their information. Some approaches propose to reduce the visual tokens according to the self-attention of VLMs, which are biased, to result in inaccurate responses. The token reduction approaches solely rely on visual cues are text-agnostic, and fail to focus on the areas that are most relevant to the question, especially when the queried objects are non-salient to the image. In this work, we first conduct experiments to show that the original text embeddings are aligned with the visual tokens, without bias on the tailed visual tokens. We then propose a self-adaptive cross-modality attention mixture mechanism that dynamically leverages the effectiveness of visual saliency and text-to-image similarity in the pre-LLM layers to select the visual tokens that are informative. Extensive experiments demonstrate that the proposed approach achieves state-of-the-art training-free VLM acceleration performance, especially when the reduction rate is sufficiently large.

arxiv情報

著者 Jiayi Han,Liang Du,Yiwen Wu,Xiangguo Zhou,Hongwei Du,Weibo Zheng
発行日 2025-01-16 13:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク