HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments

要約

高解像度の視覚言語モデル (VLM) は、詳細な画像情報を保存することで精度を高めるために、マルチモーダル タスクで広く使用されています。
ただし、これらのモデルは、入力画像の複数のパーティションをエンコードするため、過剰なビジュアル トークンを生成することがよくあります。
このような過剰なビジュアル トークンを処理することは、特に汎用 GPU を使用したリソースに制約のある環境では、計算的に困難です。
リソースの制約を満たしながら高解像度の画像をサポートするために、大規模言語モデル (LLM) 段階の前に固定トークン バジェット内で動作するトークン ドロップ スキームである高解像度早期ドロップ (HiRED) を提案します。
HiRED は、優れた精度を維持しながら追加のトレーニングを必要としないため、プラグアンドプレイ方式で既存の高解像度 VLM と統合できます。
最初のレイヤーでビジョン エンコーダーの注意を戦略的に使用して、各画像パーティションのビジュアル コンテンツを評価し、それに応じてトークン バジェットを割り当てます。
次に、最終層のアテンションを使用して、割り当てられた予算内の各パーティションから最も重要なビジュアル トークンを選択し、残りを削除します。
経験的に、NVIDIA TESLA P40 GPU 上の LLaVA-Next-7B に適用すると、20% のトークン バジェットを持つ HiRED はトークン生成のスループットを 4.7 増加させ、最初のトークン生成のレイテンシを 15 秒短縮し、単一の GPU メモリを 2.3 GB 節約します。
推論。

要約(オリジナル)

High-resolution Vision-Language Models (VLMs) have been widely used in multimodal tasks to enhance accuracy by preserving detailed image information. However, these models often generate excessive visual tokens due to encoding multiple partitions of the input image. Processing these excessive visual tokens is computationally challenging, especially in resource-constrained environments with commodity GPUs. To support high-resolution images while meeting resource constraints, we propose High-Resolution Early Dropping (HiRED), a token-dropping scheme that operates within a fixed token budget before the Large Language Model (LLM) stage. HiRED can be integrated with existing high-resolution VLMs in a plug-and-play manner, as it requires no additional training while still maintaining superior accuracy. We strategically use the vision encoder’s attention in the initial layers to assess the visual content of each image partition and allocate the token budget accordingly. Then, using the attention in the final layer, we select the most important visual tokens from each partition within the allocated budget, dropping the rest. Empirically, when applied to LLaVA-Next-7B on NVIDIA TESLA P40 GPU, HiRED with a 20% token budget increases token generation throughput by 4.7, reduces first-token generation latency by 15 seconds, and saves 2.3 GB of GPU memory for a single inference.

arxiv情報

著者 Kazi Hasan Ibn Arif,JinYi Yoon,Dimitrios S. Nikolopoulos,Hans Vandierendonck,Deepu John,Bo Ji
発行日 2024-08-20 15:34:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク