要約
長いコンテキスト機能と視覚的理解の統合は、ビジョン言語モデル(VLM)の前例のない可能性を解き放ちます。
ただし、事前に埋める段階での二次注意の複雑さは、実際の展開に対する大きな障害のままです。
この制限を克服するために、長いコンテキストマルチモーダル入力の充填段階を加速する動的なスパース注意方法であるMminference(マルチモダリティミリオントークン推論)を導入します。
まず、私たちの分析により、ビデオ入力の時間的および空間的な局所性が、グリッドパターンであるユニークなスパースパターンにつながることが明らかになりました。
同時に、VLMは異なるモダリティで著しく異なるまばらな分布を示します。
一意のグリッドパターンを活用し、モダリティの境界の問題を処理するための順列ベースの方法を紹介します。
オフラインで、各ヘッドの最適なスパースパターンを検索することにより、mminferenceは入力に基づいて動的にスパース分布を構築します。
また、効率的なスパース計算のために最適化されたGPUカーネルも提供します。
特に、mminferenceは、モデルの変更や微調整なしに、既存のVLMパイプラインにシームレスに統合されます。
ビデオQA、キャプション、Visionniah、およびミックスモダリティのNiah-With最先端のロングコンテキストVLMS(Longvila、Llavavideo、VideoCchat-Flash、QWEN2.5-VL)を含むマルチモーダルベンチマークでの実験は、その維持ステージを維持するために8.3 xを維持することを示しています。
私たちのコードは、https://aka.ms/mminferenceで入手できます。
要約(オリジナル)
The integration of long-context capabilities with visual understanding unlocks unprecedented potential for Vision Language Models (VLMs). However, the quadratic attention complexity during the pre-filling phase remains a significant obstacle to real-world deployment. To overcome this limitation, we introduce MMInference (Multimodality Million tokens Inference), a dynamic sparse attention method that accelerates the prefilling stage for long-context multi-modal inputs. First, our analysis reveals that the temporal and spatial locality of video input leads to a unique sparse pattern, the Grid pattern. Simultaneously, VLMs exhibit markedly different sparse distributions across different modalities. We introduce a permutation-based method to leverage the unique Grid pattern and handle modality boundary issues. By offline search the optimal sparse patterns for each head, MMInference constructs the sparse distribution dynamically based on the input. We also provide optimized GPU kernels for efficient sparse computations. Notably, MMInference integrates seamlessly into existing VLM pipelines without any model modifications or fine-tuning. Experiments on multi-modal benchmarks-including Video QA, Captioning, VisionNIAH, and Mixed-Modality NIAH-with state-of-the-art long-context VLMs (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) show that MMInference accelerates the pre-filling stage by up to 8.3x at 1M tokens while maintaining accuracy. Our code is available at https://aka.ms/MMInference.
arxiv情報
著者 | Yucheng Li,Huiqiang Jiang,Chengruidong Zhang,Qianhui Wu,Xufang Luo,Surin Ahn,Amir H. Abdi,Dongsheng Li,Jianfeng Gao,Yuqing Yang,Lili Qiu |
発行日 | 2025-04-22 17:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google