Matryoshka Query Transformer for Large Vision-Language Models

要約

Large Vision-Language Model (LVLM) は通常、画像を固定数のビジュアル トークン (例: 576) にエンコードし、これらのトークンを言語モデルで処理します。
LVLM は優れたパフォーマンスにもかかわらず、さまざまな計算上の制約に適応するという課題に直面しています。
これにより、さまざまなタスクや計算リソースに合わせてビジュアル トークンの数を柔軟に設定できるかという疑問が生じます。
私たちはこれにはっきりと「はい」と答えます。
Matryoshka Representation Learning からインスピレーションを得て、推論中に画像を m 個のビジュアル トークンにエンコードできる Matryoshka Query Transformer (MQT) を導入しました。ここで、m は事前定義された最大値までの任意の数です。
これは、M 個の潜在クエリ トークンを持つクエリ トランスフォーマーを使用して視覚的な埋め込みを圧縮することによって実現されます。
各トレーニング ステップ中に、m <= M 個の潜在クエリ トークンをランダムに選択し、最初の m 個のトークンのみを使用してモデルをトレーニングし、残りは破棄します。 MQT と LLaVA を組み合わせることで、単一のモデルを 1 回トレーニングするだけで、トークン数ごとに独立したモデルをトレーニングする場合と比較して、同等以上のパフォーマンスを維持しながら、推論時のビジュアル トークンの数を柔軟かつ大幅に削減できます。 私たちのモデル MQT-LLAVA は、LLaVA の固定トークン 576 ではなく最大 256 トークンを使用して、11 のベンチマーク全体で LLaVA-1.5 のパフォーマンスと一致します。トークンを 16 個に減らしても (TFLOP が 8 倍少なく)、MMBench でパフォーマンスが犠牲になるのは 2.4 ポイントだけです。 ScienceQA や MMMU などの特定のタスクでは、ビジュアル トークンが 2 つだけになり、パフォーマンスがそれぞれわずか 3% と 6% 低下することもあります。 ビジュアル トークンの数によってもたらされる精度と計算コストの間のトレードオフを調査することで、両方の長所を達成するための将来の研究が促進されます。

要約(オリジナル)

Large Vision-Language Models (LVLMs) typically encode an image into a fixed number of visual tokens (e.g., 576) and process these tokens with a language model. Despite their strong performance, LVLMs face challenges in adapting to varying computational constraints. This raises the question: can we achieve flexibility in the number of visual tokens to suit different tasks and computational resources? We answer this with an emphatic yes. Inspired by Matryoshka Representation Learning, we introduce the Matryoshka Query Transformer (MQT), capable of encoding an image into m visual tokens during inference, where m can be any number up to a predefined maximum. This is achieved by employing a query transformer with M latent query tokens to compress the visual embeddings. During each training step, we randomly select m <= M latent query tokens and train the model using only these first m tokens, discarding the rest. Combining MQT with LLaVA, we train a single model once, and flexibly and drastically reduce the number of inference-time visual tokens while maintaining similar or better performance compared to training independent models for each number of tokens. Our model, MQT-LLAVA, matches LLaVA-1.5 performance across 11 benchmarks using a maximum of 256 tokens instead of LLaVA's fixed 576. Reducing to 16 tokens (8x less TFLOPs) only sacrifices the performance by 2.4 points on MMBench. On certain tasks such as ScienceQA and MMMU, we can even go down to only 2 visual tokens with performance drops of just 3% and 6% each. Our exploration of the trade-off between the accuracy and computational cost brought about by the number of visual tokens facilitates future research to achieve the best of both worlds.

arxiv情報

著者 Wenbo Hu,Zi-Yi Dou,Liunian Harold Li,Amita Kamath,Nanyun Peng,Kai-Wei Chang
発行日 2024-05-29 17:39:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク