Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models

要約

最近のマルチモーダル大手言語モデル(MLLM)は、大規模なビデオフレームに起因する計算オーバーヘッドによって挑戦されており、多くの場合、圧縮戦略を通じて緩和されています。
ただし、視覚コンテンツはユーザーの命令に等しく貢献していません。既存の戦略(\たとえば、平均プール)は必然的に潜在的に有用な情報の損失につながります。
これに取り組むために、MLLMS(HICOM)での条件付きトークン圧縮のためのハイブリッドレベルの命令注入戦略を提案し、ローカルレベルとグローバルレベルの両方からの圧縮を導く条件として命令を利用します。
これにより、圧縮がユーザー中心の情報の最大量を保持しながら、視覚的なトークンを減らして計算負担を最小限に抑えることが促進されます。
具体的には、命令条件は、ローカルレベルのグループ化された視覚トークンとグローバルレベルでの学習可能なトークンに注入され、条件付き圧縮を完了するために注意メカニズムを実施します。
ハイブリッドレベルの圧縮から、命令関連の視覚部品が強調表示されますが、LLMを理解しやすいように、時間空間構造も保存されます。
HICOMの可能性をさらに解き放つために、提案されたデータセットHICOM-248Kを使用して、新しい条件付きプリトレーニングステージを導入します。
実験では、HICOMがトークンを少なくした顕著なビデオ理解能力を取得し、3つの複数選択QAベンチマークでパフォーマンスを2.43 \%平均増加させ、SOTAメソッドと比較して78.8 \%トークンを節約できることを示しています。
このコードはhttps://github.com/lntzm/hicomで入手できます。

要約(オリジナル)

Recent Multi-modal Large Language Models (MLLMs) have been challenged by the computational overhead resulting from massive video frames, often alleviated through compression strategies. However, the visual content is not equally contributed to user instructions, existing strategies (\eg, average pool) inevitably lead to the loss of potentially useful information. To tackle this, we propose the Hybrid-level Instruction Injection Strategy for Conditional Token Compression in MLLMs (HICom), utilizing the instruction as a condition to guide the compression from both local and global levels. This encourages the compression to retain the maximum amount of user-focused information while reducing visual tokens to minimize computational burden. Specifically, the instruction condition is injected into the grouped visual tokens at the local level and the learnable tokens at the global level, and we conduct the attention mechanism to complete the conditional compression. From the hybrid-level compression, the instruction-relevant visual parts are highlighted while the temporal-spatial structure is also preserved for easier understanding of LLMs. To further unleash the potential of HICom, we introduce a new conditional pre-training stage with our proposed dataset HICom-248K. Experiments show that our HICom can obtain distinguished video understanding ability with fewer tokens, increasing the performance by 2.43\% average on three multiple-choice QA benchmarks and saving 78.8\% tokens compared with the SOTA method. The code is available at https://github.com/lntzm/HICom.

arxiv情報

著者 Zhihang Liu,Chen-Wei Xie,Pandeng Li,Liming Zhao,Longxiang Tang,Yun Zheng,Chuanbin Liu,Hongtao Xie
発行日 2025-03-20 11:09:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク