Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification

要約

マルチモーダル大規模言語モデル (MLLM) は、ビジョンの理解、推論、および対話において目覚ましい成功を収めています。
ただし、デコード中の出力トークンの生成に伴って推論の計算とメモリが徐々に増加し、MLLM の有効性に直接影響します。
既存の方法では、効率的な MLLM を達成するために、ビジョン コンテキストの冗長性を削減しようとしています。
残念ながら、プレフィル段階でのビジョンコンテキスト削減による効率の利点は、デコード段階では徐々に減少します。
この問題に対処するために、私たちは動的ビジョン言語コンテキスト スパース化フレームワーク Dynamic-LLaVA を提案しました。これは、プレフィル段階でビジョン コンテキストの冗長性を動的に削減し、デコード中に生成された言語コンテキストのメモリと計算のオーバーヘッドを削減します。
Dynamic-LLaVA は、MLLM の効率的な推論を実現するために、さまざまな推論モード (つまり、KV キャッシュの有無にかかわらずプレフィル、デコード) に合わせて調整されたスパース化推論スキームを設計します。
実際には、Dynamic-LLaVA はプレフィル段階で計算消費量を $\sim$75\% 削減できます。
一方、MLLM の生成プロセス全体を通じて、Dynamic-LLaVA は、KV キャッシュを使用しないデコード時の計算消費量を $\sim$50\% 削減し、KV キャッシュを使用したデコード時の GPU メモリ オーバーヘッドを $\sim$50\% 節約します。
-言語コンテキストの希薄化。
また、広範な実験により、Dynamic-LLaVA は、フルコンテキスト推論ベースラインと比較して、無視できる程度の理解と生成能力の低下、さらにはパフォーマンスの向上を伴う MLLM の効率的な推論を実現することも実証されています。
コードは https://github.com/Osilly/dynamic_llava で入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have achieved remarkable success in vision understanding, reasoning, and interaction. However, the inference computation and memory increase progressively with the generation of output tokens during decoding, directly affecting the efficacy of MLLMs. Existing methods attempt to reduce the vision context redundancy to achieve efficient MLLMs. Unfortunately, the efficiency benefits of the vision context reduction in the prefill stage gradually diminish during the decoding stage. To address this problem, we proposed a dynamic vision-language context sparsification framework Dynamic-LLaVA, which dynamically reduces the redundancy of vision context in the prefill stage and decreases the memory and computation overhead of the generated language context during decoding. Dynamic-LLaVA designs a tailored sparsification inference scheme for different inference modes, i.e., prefill, decoding with and without KV cache, to achieve efficient inference of MLLMs. In practice, Dynamic-LLaVA can reduce computation consumption by $\sim$75\% in the prefill stage. Meanwhile, throughout the entire generation process of MLLMs, Dynamic-LLaVA reduces the $\sim$50\% computation consumption under decoding without KV cache, while saving $\sim$50\% GPU memory overhead when decoding with KV cache, due to the vision-language context sparsification. Extensive experiments also demonstrate that Dynamic-LLaVA achieves efficient inference for MLLMs with negligible understanding and generation ability degradation or even performance gains compared to the full-context inference baselines. Code is available at https://github.com/Osilly/dynamic_llava .

arxiv情報

著者 Wenxuan Huang,Zijie Zhai,Yunhang Shen,Shaosheng Cao,Fei Zhao,Xiangfeng Xu,Zheyu Ye,Shaohui Lin
発行日 2024-12-17 14:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク