要約
Large Vision-Language Model (LVLM) では、画像は豊富な情報を運ぶ入力として機能します。
「百聞は一見に如かず」という慣用句が示すように、現在の LVLM で 1 つの画像を表現するには、数百、場合によっては数千のトークンが必要になる場合があります。
その結果、計算コストが大幅に増加し、入力画像の解像度が増加するにつれて二次関数的に増加し、トレーニングと推論の両方の効率に重大な影響を与えます。
これまでのアプローチでは、LVLM の初期層の前または内部でイメージ トークンの数を削減しようとしました。
ただし、これらの戦略では必然的に重要な画像情報が失われ、最終的にはモデルのパフォーマンスが低下します。
この課題に対処するために、私たちは実証研究を実施し、浅いレイヤーの LVLM にはすべてのビジュアル トークンが必要であり、モデルの深いレイヤーではトークンの冗長性が徐々に増加することを明らかにしました。
この目的を達成するために、無視できるパフォーマンス損失でトレーニングと推論の両方の効率を高める LVLM の視覚的な冗長性削減戦略である PyramidDrop を提案します。
具体的には、LVLM をいくつかのステージに分割し、各ステージの最後に事前定義された比率でイメージ トークンの一部をドロップし、モデル レイヤー全体にピラミッド状のビジュアル トークンを作成します。
削除は、時間のオーバーヘッドが無視できる軽量の類似度計算に基づいています。
広範な実験により、PyramidDrop が同等のパフォーマンスで LLaVA-NeXT の 40% のトレーニング時間と 55% の推論 FLOP 加速を達成できることが実証されました。
さらに、PyramidDrop は、トレーニングなしで推論を高速化するためのプラグアンドプレイ戦略としても機能し、対応するものよりも優れたパフォーマンスと低い推論コストを実現できます。
PyramidDrop によって導入された洞察とアプローチが、LVLM におけるイメージ トークンの役割をさらに調査する将来の研究に影響を与えることを願っています。
要約(オリジナル)
In large vision-language models (LVLMs), images serve as inputs that carry a wealth of information. As the idiom ‘A picture is worth a thousand words’ implies, representing a single image in current LVLMs can require hundreds or even thousands of tokens. This results in significant computational costs, which grow quadratically as input image resolution increases, thereby severely impacting the efficiency of both training and inference. Previous approaches have attempted to reduce the number of image tokens either before or within the early layers of LVLMs. However, these strategies inevitably result in the loss of crucial image information, ultimately diminishing model performance. To address this challenge, we conduct an empirical study revealing that all visual tokens are necessary for LVLMs in the shallow layers, and token redundancy progressively increases in the deeper layers of the model. To this end, we propose PyramidDrop, a visual redundancy reduction strategy for LVLMs to boost their efficiency in both training and inference with neglectable performance loss. Specifically, we partition the LVLM into several stages and drop part of the image tokens at the end of each stage with a pre-defined ratio, creating pyramid-like visual tokens across model layers. The dropping is based on a lightweight similarity calculation with a negligible time overhead. Extensive experiments demonstrate that PyramidDrop can achieve a 40% training time and 55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance. Besides, the PyramidDrop could also serve as a plug-and-play strategy for inference acceleration without training, with better performance and lower inference cost than counterparts. We hope that the insights and approach introduced by PyramidDrop will inspire future research to further investigate the role of image tokens in LVLMs.
arxiv情報
著者 | Long Xing,Qidong Huang,Xiaoyi Dong,Jiajie Lu,Pan Zhang,Yuhang Zang,Yuhang Cao,Conghui He,Jiaqi Wang,Feng Wu,Dahua Lin |
発行日 | 2024-10-22 17:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google