Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Models

要約

ビジョン言語ラージ モデル (VLM) は、その優れたパフォーマンスにより、AI の主要なバックボーンとなっています。
ただし、スループットや遅延などの高価な計算コストが、現実のシナリオでの可能性を妨げます。
VLM の高速化を実現するために、既存の手法のほとんどはモデルの観点 (枝刈り、蒸留、定量化) に焦点を当てていますが、データの観点の冗長性は完全に無視されています。
この見落としを埋めるために、この論文はデータ冗長性の深刻さを開拓し、情報度に基づいて視覚データやテキスト データから非効率なトークンを取り除く 1 つのプラグアンドプレイ ターボ モジュールを設計します。
効率とパフォーマンスのトレードオフを追求するため、情報度では相互冗長性と意味的価値という 2 つの重要な要素が考慮されます。
具体的には、前者は連続するトークン間のデータの重複を評価します。
一方、後者は、全体のセマンティクスへの寄与によって各トークンを評価します。
その結果、情報度の高いトークンは冗長性が低く、より強力なセマンティクスを持ちます。
VLM の計算では、Turbo は情報度を参照してデータを並べ替え、コストを節約するためにトップレベルのものだけを利用する使いやすいプラグインとして機能します。
その利点は多面的であり、例えば、理解と世代を超えてさまざまな VLM と一般的に互換性があること、再トレーニングなしで簡単に使用できること、エンジニアリング作業が簡単であることなどです。
複数の公開 VLM ベンチマークで広範な実験を実施し、パフォーマンスの低下が無視できる範囲での Turbo の満足のいく加速を明らかにしました。

要約(オリジナル)

Vision-Language Large Models (VLMs) have become primary backbone of AI, due to the impressive performance. However, their expensive computation costs, i.e., throughput and delay, impede potentials in real-world scenarios. To achieve acceleration for VLMs, most existing methods focus on the model perspective: pruning, distillation, quantification, but completely overlook the data-perspective redundancy. To fill the overlook, this paper pioneers the severity of data redundancy, and designs one plug-and-play Turbo module guided by information degree to prune inefficient tokens from visual or textual data. In pursuit of efficiency-performance trade-offs, information degree takes two key factors into consideration: mutual redundancy and semantic value. Concretely, the former evaluates the data duplication between sequential tokens; while the latter evaluates each token by its contribution to the overall semantics. As a result, tokens with high information degree carry less redundancy and stronger semantics. For VLMs’ calculation, Turbo works as a user-friendly plug-in that sorts data referring to information degree, utilizing only top-level ones to save costs. Its advantages are multifaceted, e.g., being generally compatible to various VLMs across understanding and generation, simple use without retraining and trivial engineering efforts. On multiple public VLMs benchmarks, we conduct extensive experiments to reveal the gratifying acceleration of Turbo, under negligible performance drop.

arxiv情報

著者 Chen Ju,Haicheng Wang,Zeqian Li,Xu Chen,Zhonghua Zhai,Weilin Huang,Shuai Xiao
発行日 2023-12-12 16:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク