Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

要約

現在のマルチモーダル大規模言語モデル (MLLM) はビデオ理解において有望な結果を示していますが、非常に長いビデオを処理することは依然として課題です。
通常、MLLM は、コンテキストの最大長を超える数千のビジュアル トークンの処理に苦労し、トークンの集約による情報の減衰に悩まされます。
もう 1 つの課題は、多数のビデオ トークンに起因する高い計算コストです。
これらの問題に取り組むために、私たちは、時間スケールのビデオを効率的に理解するために設計された超長期ビジョン言語モデルである Video-XL を提案します。
具体的には、LLM は効果的な視覚的凝縮器として適応できると主張し、視覚的コンテキストを非常にコンパクトな形式に凝縮する視覚的コンテキスト潜在要約を提案します。
広範な実験により、私たちのモデルが一般的な長時間ビデオ理解ベンチマークで有望な結果を達成することが実証されました。
たとえば、Video-XL は、VNBench 上の現在の最先端の方法よりも精度が 10% 近く優れています。
さらに、Video-XL は効率と有効性の間の優れたバランスを示し、単一の 80GB GPU で 2048 フレームを処理しながら、Needle-in-a-Haystack の評価でほぼ 95% の精度を達成します。

要約(オリジナル)

Although current Multi-modal Large Language Models (MLLMs) demonstrate promising results in video understanding, processing extremely long videos remains an ongoing challenge. Typically, MLLMs struggle with handling thousands of visual tokens that exceed the maximum context length, and they suffer from the information decay due to token aggregation. Another challenge is the high computational cost stemming from the large number of video tokens. To tackle these issues, we propose Video-XL, an extra-long vision language model designed for efficient hour-scale video understanding. Specifically, we argue that LLMs can be adapted as effective visual condensers and propose Visual Context Latent Summarization which condenses visual contexts into highly compact forms. Extensive experiments demonstrate that our model achieves promising results on popular long video understanding benchmarks. For example, Video-XL outperforms the current state-of-the-art method on VNBench by nearly 10\% in accuracy. Moreover, Video-XL presents an impressive balance between efficiency and effectiveness, processing 2048 frames on a single 80GB GPU while achieving nearly 95% accuracy in the Needle-in-a-Haystack evaluation.

arxiv情報

著者 Yan Shu,Peitian Zhang,Zheng Liu,Minghao Qin,Junjie Zhou,Tiejun Huang,Bo Zhao
発行日 2024-10-18 15:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク