TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

要約

マルチモーダル大規模言語モデル (MLLM) は、短いビデオの理解において優れたパフォーマンスを実証しました。
ただし、MLLM にとって、長い形式のビデオを理解することは依然として困難です。
この論文では、既存の短編ビデオ MLLM を長いビデオの理解に適応させるための新しい設計のコレクションである TimeSuite を提案します。これには、長いビデオ シーケンスを処理するためのシンプルかつ効率的なフレームワーク、MLLM の基礎的な調整のための高品質ビデオ データセット、および
慎重に設計された命令調整タスクにより、従来の QA 形式にグラウンディング監視を明示的に組み込むことができます。
具体的には、VideoChat に基づいて、トークン シャッフルを実装して長いビデオ トークンを圧縮し、Temporal Adaptive Position Encoding (TAPE) を導入して視覚表現の時間的認識を強化することにより、VideoChat-T という造語である長いビデオ MLLM を提案します。
一方、9 つのタスクと 349,000 の高品質のグラウンディング アノテーションで構成される包括的なグラウンディング中心の指導チューニング データセットである TimePro を紹介します。
特に、時間的グラウンデッド キャプションと呼ばれる新しい命令チューニング タスク タイプを設計し、対応するタイムスタンプ予測を使用して詳細なビデオ説明を実行します。
この明示的な時間的位置予測により、MLLM は説明を生成するときに視覚コンテンツに正しく注意できるようになり、LLM によって引き起こされる幻覚のリスクが軽減されます。
実験結果は、当社の TimeSuite が短編 MLLM の長時間ビデオ理解機能を強化する成功したソリューションを提供し、Egoschema と VideoMME のベンチマークでそれぞれ 5.6% と 6.8% の向上を達成したことを示しています。
さらに、VideoChat-T は堅牢なゼロショット時間接地機能を示し、既存の最先端の MLLM を大幅に上回ります。
微調整後は、従来の監視付きエキスパート モデルと同等のパフォーマンスを発揮します。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated impressive performance in short video understanding. However, understanding long-form videos still remains challenging for MLLMs. This paper proposes TimeSuite, a collection of new designs to adapt the existing short-form video MLLMs for long video understanding, including a simple yet efficient framework to process long video sequence, a high-quality video dataset for grounded tuning of MLLMs, and a carefully-designed instruction tuning task to explicitly incorporate the grounding supervision in the traditional QA format. Specifically, based on VideoChat, we propose our long-video MLLM, coined as VideoChat-T, by implementing a token shuffling to compress long video tokens and introducing Temporal Adaptive Position Encoding (TAPE) to enhance the temporal awareness of visual representation. Meanwhile, we introduce the TimePro, a comprehensive grounding-centric instruction tuning dataset composed of 9 tasks and 349k high-quality grounded annotations. Notably, we design a new instruction tuning task type, called Temporal Grounded Caption, to peform detailed video descriptions with the corresponding time stamps prediction. This explicit temporal location prediction will guide MLLM to correctly attend on the visual content when generating description, and thus reduce the hallucination risk caused by the LLMs. Experimental results demonstrate that our TimeSuite provides a successful solution to enhance the long video understanding capability of short-form MLLM, achieving improvement of 5.6% and 6.8% on the benchmarks of Egoschema and VideoMME, respectively. In addition, VideoChat-T exhibits robust zero-shot temporal grounding capabilities, significantly outperforming the existing state-of-the-art MLLMs. After fine-tuning, it performs on par with the traditional supervised expert models.

arxiv情報

著者 Xiangyu Zeng,Kunchang Li,Chenting Wang,Xinhao Li,Tianxiang Jiang,Ziang Yan,Songze Li,Yansong Shi,Zhengrong Yue,Yi Wang,Yali Wang,Yu Qiao,Limin Wang
発行日 2024-10-25 17:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク