要約
大規模言語モデル (LLM) により、画像やビデオなどの視覚データの強力な理解を示すマルチモーダル LLM の作成が可能になりました。
ただし、これらのモデルは通常、ビジュアル エンコーダーからの広範なビジュアル トークンに依存しているため、高い計算要求が発生し、リソースに制約のある環境や長いコンテキストのタスクへの適用性が制限されます。
この研究では、最小限のパフォーマンス低下で幅広い効率要件に対応できる、マルチモーダル LLM 用のトレーニング不要の適応推論方法を提案します。
私たちの方法は、a) LLM 前の埋め込み類似性に基づいた反復的なトークンのマージ、および b) マルチモーダル重要度に基づいた LLM 層内でのプログレッシブ トークン プルーニングで構成されます。
最小限の設計により、私たちの方法はビデオと画像の両方の LLM に適用できます。
さまざまなビデオと画像のベンチマークに関する広範な実験により、私たちの方法がビデオと画像の LLM のパフォーマンスを維持しながら、計算負荷を大幅に削減 (例: FLOP の $\textbf{7 倍}$ 削減) することが実証されました。
さらに、同様の計算コストの下で、私たちの方法は、長いビデオの理解において最先端の方法よりも優れています(たとえば、MLVU の $\textbf{+4.6}$)。
さらに、当社の詳細な分析により、トークンの冗長性と LLM 層の動作に関する洞察が得られ、効率的なマルチモーダル LLM を設計する際の将来の研究に指針が提供されます。
私たちのコードは https://github.com/LaVi-Lab/AIM で入手できます。
要約(オリジナル)
Large language models (LLMs) have enabled the creation of multi-modal LLMs that exhibit strong comprehension of visual data such as images and videos. However, these models usually rely on extensive visual tokens from visual encoders, leading to high computational demands, which limits their applicability in resource-constrained environments and for long-context tasks. In this work, we propose a training-free adaptive inference method for multi-modal LLMs that can accommodate a broad range of efficiency requirements with a minimum performance drop. Our method consists of a) iterative token merging based on embedding similarity before LLMs, and b) progressive token pruning within LLM layers based on multi-modal importance. With a minimalist design, our method can be applied to both video and image LLMs. Extensive experiments on diverse video and image benchmarks demonstrate that, our method substantially reduces computation load (e.g., a $\textbf{7-fold}$ reduction in FLOPs) while preserving the performance of video and image LLMs. Further, under a similar computational cost, our method outperforms the state-of-the-art methods in long video understanding (e.g., $\textbf{+4.6}$ on MLVU). Additionally, our in-depth analysis provides insights into token redundancy and LLM layer behaviors, offering guidance for future research in designing efficient multi-modal LLMs. Our code will be available at https://github.com/LaVi-Lab/AIM.
arxiv情報
著者 | Yiwu Zhong,Zhuoming Liu,Yin Li,Liwei Wang |
発行日 | 2024-12-04 11:47:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google