CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

要約

大規模なマルチモーダルモデル(LMMS)の出現により、多様なデータモダリティ(画像やビデオなど)を処理および解釈するために、大規模な言語モデル(LLM)が大幅に強化されています。
ただし、特に長いビデオシーケンスで入力の複雑さが増加すると、必要なトークンの数が大幅に増加し、2次計算コストにつながります。
これにより、LMMSでのビデオトークンの効率的な圧縮が行われ、緊急の研究課題であるパフォーマンスの完全性を維持しています。
このホワイトペーパーでは、Crosslmmを紹介し、デュアルクロスアテンションメカニズムを介してLMMSから長いビデオシーケンスを切り離し、パフォーマンスの低下で視覚的なトークン量を大幅に減らします。
具体的には、プーリング方法論を通じて、前処理された視覚エンコーダからの大幅なトークン削減を最初に実装します。
次に、LLM層内で、視覚から視覚的な交差に関するメカニズムを採用し、プールされた視覚トークンが元の視覚トークンセットに対するクエリとして機能します。
このモジュールは、細粒の情報忠実度を保持しながら、より効率的なトークン利用を可能にします。
さらに、テキストから視覚的な交差メカニズムを導入します。テキストトークンは、テキストトークンの視覚的理解を豊かにする元の視覚トークンとの相互作用によって強化されます。
包括的な経験的評価は、大幅に少ない計算リソースを利用しているにもかかわらず、私たちのアプローチが多様なビデオベースのLMMベンチマーク全体で同等または優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

The advent of Large Multimodal Models (LMMs) has significantly enhanced Large Language Models (LLMs) to process and interpret diverse data modalities (e.g., image and video). However, as input complexity increases, particularly with long video sequences, the number of required tokens has grown significantly, leading to quadratically computational costs. This has made the efficient compression of video tokens in LMMs, while maintaining performance integrity, a pressing research challenge. In this paper, we introduce CrossLMM, decoupling long video sequences from LMMs via a dual cross-attention mechanism, which substantially reduces visual token quantity with minimal performance degradation. Specifically, we first implement a significant token reduction from pretrained visual encoders through a pooling methodology. Then, within LLM layers, we employ a visual-to-visual cross-attention mechanism, wherein the pooled visual tokens function as queries against the original visual token set. This module enables more efficient token utilization while retaining fine-grained informational fidelity. In addition, we introduce a text-to-visual cross-attention mechanism, for which the text tokens are enhanced through interaction with the original visual tokens, enriching the visual comprehension of the text tokens. Comprehensive empirical evaluation demonstrates that our approach achieves comparable or superior performance across diverse video-based LMM benchmarks, despite utilizing substantially fewer computational resources.

arxiv情報

著者 Shilin Yan,Jiaming Han,Joey Tsai,Hongwei Xue,Rongyao Fang,Lingyi Hong,Ziyu Guo,Ray Zhang
発行日 2025-05-22 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク