要約
ビジョン言語モデル (VLM) は、さまざまな視覚的理解と推論タスクにわたって強力な機能を実証してきました。
ただし、実際のデプロイメントでは、LLM による大量の入力トークン (主に画像からの) を処理するために大量の計算が必要となるため、推論中の高い遅延によって制約を受けることがよくあります。
推論コストを削減するには、LLM をダウンサイズするか、入力イメージ トークンの数を減らすことができます。後者は、トークン圧縮に関する最近の多くの研究で焦点を当てています。
ただし、両方の要素が VLM のパフォーマンスに直接影響するため、最適なトレードオフが何であるかは不明です。
まず、これら 2 つの要素によるパフォーマンスの変動を捉えるスケーリング則を確立することにより、ビジュアル トークンの数と LLM パラメーターの間の最適なトレードオフを特徴付けます。
私たちの結果は、驚くべき傾向を明らかにしました。ビジュアル推論タスクの場合、ビジュアル トークン数を最小限に抑えながら、推論バジェット内に収まる最大の LLM を使用すると、VLM の推論に最適な動作、つまり、特定の固定推論コンピューティングにおけるダウンストリーム エラーが最小限に抑えられます。
– 多くの場合、単一のトークンに対して。
トークン削減に関する文献は主に、トークン数を適度に削減する (例: $5-10\times$) ことによって基本モデルのパフォーマンスを維持することに焦点を当てていますが、私たちの結果は、計算最適な推論体制ではさらに高いトークン圧縮率の下で動作する必要があることを示しています。
これらの洞察に基づいて、高トークン圧縮設定に合わせたアプローチの構築に向けていくつかの最初のステップを踏みます。
コードは https://github.com/locuslab/llava-token-compression で入手できます。
要約(オリジナル)
Vision Language Models (VLMs) have demonstrated strong capabilities across various visual understanding and reasoning tasks. However, their real-world deployment is often constrained by high latency during inference due to substantial compute required to process the large number of input tokens (predominantly from the image) by the LLM. To reduce inference costs, one can either downsize the LLM or reduce the number of input image-tokens, the latter of which has been the focus of many recent works around token compression. However, it is unclear what the optimal trade-off is, as both the factors directly affect the VLM performance. We first characterize this optimal trade-off between the number of visual tokens and LLM parameters by establishing scaling laws that capture variations in performance with these two factors. Our results reveal a surprising trend: for visual reasoning tasks, the inference-optimal behavior in VLMs, i.e., minimum downstream error at any given fixed inference compute, is achieved when using the largest LLM that fits within the inference budget while minimizing visual token count – often to a single token. While the token reduction literature has mainly focused on maintaining base model performance by modestly reducing the token count (e.g., $5-10\times$), our results indicate that the compute-optimal inference regime requires operating under even higher token compression ratios. Based on these insights, we take some initial steps towards building approaches tailored for high token compression settings. Code is available at https://github.com/locuslab/llava-token-compression.
arxiv情報
著者 | Kevin Y. Li,Sachin Goyal,Joao D. Semedo,J. Zico Kolter |
発行日 | 2024-11-05 18:54:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google