Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck

要約

この作業では、大規模なビジョン言語モデル(LVLM)のビジョントークンを、(a)生成タスクと(b)識別タスクに同時に適した表現に圧縮することを目指しています。
LVLM自体を使用して視覚情報をタスクに依存しない方法で圧縮する新しい圧縮アプローチを提案します。
FWD2BOTのコアには、「二重方向パス」トレーニング戦略が存在します。これにより、最初のフォワードパス中に、LLM(LVLM)は、視覚情報を少数の略式トークンに凝縮することによりボトルネックを作成します。
次に、同じLLMを使用して、2番目のフォワードパスは、画像のものの直接置換として使用される要約トークンとともに言語命令を処理します。
トレーニング信号は2つの損失によって提供されます。2回目のパスの後に適用される自動回帰のものは、圧縮の直接的な最適化目標を提供するものと、最初のパスの後に適用される対照的な損失は、特に識別タスクの表現強度をさらに高めることです。
トレーニングは、ステージ固有のアダプターによってさらに強化されます。
提案された方法には、詳細なアブレーション研究によって伴います。
全体として、FWD2BOTは、生成タスクと識別タスクの両方に適した非常に情報に基づいた圧縮表現をもたらします。
生成タスクの場合、生成機能を損なうことなく2倍高い圧縮率を提供し、新しい最先端の結果を設定します。
差別的なタスクについては、画像の取得と構成性に関する新しい最先端の最先端を設定します。

要約(オリジナル)

In this work, we aim to compress the vision tokens of a Large Vision Language Model (LVLM) into a representation that is simultaneously suitable for (a) generative and (b) discriminative tasks, (c) is nearly lossless, and (d) is storage-efficient. We propose a novel compression approach, called Fwd2Bot, that uses the LVLM itself to compress the visual information in a task-agnostic manner. At the core of Fwd2bot there exists a ‘double-forward pass’ training strategy, whereby, during the first forward pass, the LLM (of the LVLM) creates a bottleneck by condensing the visual information into a small number of summary tokens. Then, using the same LLM, the second forward pass processes the language instruction(s) alongside the summary tokens, used as a direct replacement for the image ones. The training signal is provided by two losses: an autoregressive one applied after the second pass that provides a direct optimization objective for compression, and a contrastive loss, applied after the first pass, that further boosts the representation strength, especially for discriminative tasks. The training is further enhanced by stage-specific adapters. We accompany the proposed method by an in-depth ablation study. Overall, Fwd2Bot results in highly-informative compressed representations suitable for both generative and discriminative tasks. For generative tasks, we offer a 2x higher compression rate without compromising the generative capabilities, setting a new state-of-the-art result. For discriminative tasks, we set a new state-of-the-art on image retrieval and compositionality.

arxiv情報

著者 Adrian Bulat,Yassine Ouali,Georgios Tzimiropoulos
発行日 2025-03-27 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク