Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification

要約

マルチモーダル大規模言語モデル(MLLM)は、視覚理解、推論、インタラクションにおいて顕著な成功を収めている。しかし、推論計算とメモリは、デコード中の出力トークンの生成に伴って徐々に増加し、MLLMの有効性に直接影響する。既存の手法では、効率的なMLLMを実現するために、視覚コンテキストの冗長性を減らそうとしている。しかし残念なことに、プリフィル段階でのビジョンコンテキスト削減による効率化の利点は、復号化段階で徐々に減少する。この問題に対処するために、我々は動的なビジョン-言語コンテキストスパース化フレームワークDynamic-LaLVAを提案する。これは、プリフィル段階でビジョンコンテキストの冗長性を動的に削減し、復号化時に生成される言語コンテキストのメモリと計算オーバーヘッドを減少させる。Dynamic-LLaVAは、MLLMの効率的な推論を実現するために、プリフィル、KVキャッシュの有無による復号化など、異なる推論モードに対して調整されたスパース化推論スキームを設計する。実際、Dynamic-LLaVAは、プリフィル段階で計算量を$sim$75%削減できる。一方、Dynamic-LaLVAは、MLLMの生成プロセス全体を通して、KVキャッシュなしでデコードする場合、$sim$50%の計算消費を削減し、KVキャッシュありでデコードする場合、ビジョン言語コンテキストスパース化により、$sim$50%のGPUメモリオーバーヘッドを削減する。また、広範な実験により、Dynamic-LaLVAがMLLMの効率的な推論を達成し、フルコンテキスト推論ベースラインと比較して、理解・生成能力の劣化を無視できる、あるいは性能の向上さえ実現できることが実証された。コードは https://github.com/Osilly/dynamic_llava にある。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have achieved remarkable success in vision understanding, reasoning, and interaction. However, the inference computation and memory increase progressively with the generation of output tokens during decoding, directly affecting the efficacy of MLLMs. Existing methods attempt to reduce the vision context redundancy to achieve efficient MLLMs. Unfortunately, the efficiency benefits of the vision context reduction in the prefill stage gradually diminish during the decoding stage. To address this problem, we proposed a dynamic vision-language context sparsification framework Dynamic-LLaVA, which dynamically reduces the redundancy of vision context in the prefill stage and decreases the memory and computation overhead of the generated language context during decoding. Dynamic-LLaVA designs a tailored sparsification inference scheme for different inference modes, i.e., prefill, decoding with and without KV cache, to achieve efficient inference of MLLMs. In practice, Dynamic-LLaVA can reduce computation consumption by $\sim$75\% in the prefill stage. Meanwhile, throughout the entire generation process of MLLMs, Dynamic-LLaVA reduces the $\sim$50\% computation consumption under decoding without KV cache, while saving $\sim$50\% GPU memory overhead when decoding with KV cache, due to the vision-language context sparsification. Extensive experiments also demonstrate that Dynamic-LLaVA achieves efficient inference for MLLMs with negligible understanding and generation ability degradation or even performance gains compared to the full-context inference baselines. Code is available at https://github.com/Osilly/dynamic_llava .

arxiv情報

著者 Wenxuan Huang,Zijie Zhai,Yunhang Shen,Shaoshen Cao,Fei Zhao,Xiangfeng Xu,Zheyu Ye,Shaohui Lin
発行日 2024-12-03 16:12:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク