VoCo-LLaMA: Towards Vision Compression with Large Language Models

要約

視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて目覚ましい成功を収めているが、高解像度の画像入力や動画を処理する際に、限られたコンテキストウィンドウと高い計算コストがネックとなることが多い。ビジョン圧縮は、ビジョントークンの数を減らすことでこの問題を軽減することができる。これまでのアプローチでは、視覚トークンを外部モジュールで圧縮し、LLMに圧縮されたものを理解させるため、視覚情報が失われる。しかし、LLMの視覚トークン理解パラダイムは、圧縮学習プロセスでは十分に活用されていない。我々はVoCo-LLaMAを提案する。VoCo-LLaMAは、LLMを用いて視覚トークンを圧縮する最初のアプローチである。ビジョン命令チューニング段階でビジョン圧縮トークンを導入し、注意抽出を活用することで、本手法はLLMがビジョン・トークンをどのように理解するかをVoCoトークンの処理に抽出する。VoCo-LLaMAは効果的な視覚圧縮を促進し、推論段階での計算効率を向上させる。具体的には、本手法は576$$倍の圧縮率で最小の性能損失を達成し、最大94.8$%$少ないFLOPsと69.6$%$の推論時間の加速をもたらす。さらに、ビデオフレームの時系列圧縮トークンシーケンスを用いた継続的な学習により、VoCo-LLaMAは、時間的相関を理解する能力を実証し、一般的なビデオ質問応答ベンチマークにおいて、従来の手法を凌駕した。我々のアプローチは、VLMのコンテクスト・ウィンドウの可能性を最大限に引き出し、よりスケーラブルなマルチモーダル・アプリケーションを可能にする有望な方法を提示している。プロジェクトページと関連コードは、https://yxxxb.github.io/VoCo-LLaMA-page/。

要約(オリジナル)

Vision-Language Models (VLMs) have achieved remarkable success in various multi-modal tasks, but they are often bottlenecked by the limited context window and high computational cost of processing high-resolution image inputs and videos. Vision compression can alleviate this problem by reducing the vision token count. Previous approaches compress vision tokens with external modules and force LLMs to understand the compressed ones, leading to visual information loss. However, the LLMs’ understanding paradigm of vision tokens is not fully utilised in the compression learning process. We propose VoCo-LLaMA, the first approach to compress vision tokens using LLMs. By introducing Vision Compression tokens during the vision instruction tuning phase and leveraging attention distillation, our method distill how LLMs comprehend vision tokens into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision compression and improves the computational efficiency during the inference stage. Specifically, our method achieves minimal performance loss with a compression ratio of 576$\times$, resulting in up to 94.8$\%$ fewer FLOPs and 69.6$\%$ acceleration in inference time. Furthermore, through continuous training using time-series compressed token sequences of video frames, VoCo-LLaMA demonstrates the ability to understand temporal correlations, outperforming previous methods on popular video question-answering benchmarks. Our approach presents a promising way to unlock the full potential of VLMs’ contextual window, enabling more scalable multi-modal applications. The project page, along with the associated code, can be accessed via https://yxxxb.github.io/VoCo-LLaMA-page/.

arxiv情報

著者 Xubing Ye,Yukang Gan,Xiaoke Huang,Yixiao Ge,Yansong Tang
発行日 2025-03-03 09:05:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク