要約
マルチモーダル大手言語モデル(MLLMS)は、短いビデオ理解で印象的なパフォーマンスを実証しています。
ただし、長い形式のビデオを理解することは、MLLMにとって依然として困難なままです。
このペーパーでは、長いビデオシーケンスを処理するためのシンプルで効率的なフレームワーク、MLLMSの接地されたチューニングのための高品質のビデオデータセット、およびAを処理するなど、長いビデオ理解のために既存のショートフォームビデオMLLMSを適応させる新しいデザインのコレクションであるTimeSuiteを提案します。
慎重に設計された命令調整タスクは、従来のQA形式に接地監督を明示的に組み込みます。
具体的には、VideoChatに基づいて、ビデオチャット-Tとして造られた長距離MLLMを提案し、長いビデオトークンを圧縮するためにトークンシャッフルを実装し、視覚表現の時間的認識を高めるための時間的適応位置エンコーディング(Tape)を導入します。
一方、9つのタスクと349kの高品質の接地注釈で構成される包括的な接地中心の命令チューニングデータセットであるTimeProを紹介します。
特に、対応するタイムスタンプの予測を使用して詳細なビデオ説明をPEFormするために、PEFORMの詳細なビデオ説明と呼ばれる新しい命令チューニングタスクタイプを設計します。
この明示的な時間的位置予測により、MLLMは説明を生成するときに視覚コンテンツに正しく参加するように導き、したがってLLMSによって引き起こされる幻覚リスクを減らします。
実験結果は、TimeSuiteが短型MLLMの長いビデオ理解能力を高めるための成功したソリューションを提供し、それぞれエゴスケマとVideommeのベンチマークで5.6%と6.8%の改善を達成することを示しています。
さらに、VideoChat-Tは、堅牢なゼロショットの時間的接地機能を示し、既存の最先端のMLLMを大幅に上回っています。
微調整後、従来の監視されている専門家モデルと同等に機能します。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have demonstrated impressive performance in short video understanding. However, understanding long-form videos still remains challenging for MLLMs. This paper proposes TimeSuite, a collection of new designs to adapt the existing short-form video MLLMs for long video understanding, including a simple yet efficient framework to process long video sequence, a high-quality video dataset for grounded tuning of MLLMs, and a carefully-designed instruction tuning task to explicitly incorporate the grounding supervision in the traditional QA format. Specifically, based on VideoChat, we propose our long-video MLLM, coined as VideoChat-T, by implementing a token shuffling to compress long video tokens and introducing Temporal Adaptive Position Encoding (TAPE) to enhance the temporal awareness of visual representation. Meanwhile, we introduce the TimePro, a comprehensive grounding-centric instruction tuning dataset composed of 9 tasks and 349k high-quality grounded annotations. Notably, we design a new instruction tuning task type, called Temporal Grounded Caption, to peform detailed video descriptions with the corresponding time stamps prediction. This explicit temporal location prediction will guide MLLM to correctly attend on the visual content when generating description, and thus reduce the hallucination risk caused by the LLMs. Experimental results demonstrate that our TimeSuite provides a successful solution to enhance the long video understanding capability of short-form MLLM, achieving improvement of 5.6% and 6.8% on the benchmarks of Egoschema and VideoMME, respectively. In addition, VideoChat-T exhibits robust zero-shot temporal grounding capabilities, significantly outperforming the existing state-of-the-art MLLMs. After fine-tuning, it performs on par with the traditional supervised expert models.
arxiv情報
著者 | Xiangyu Zeng,Kunchang Li,Chenting Wang,Xinhao Li,Tianxiang Jiang,Ziang Yan,Songze Li,Yansong Shi,Zhengrong Yue,Yi Wang,Yali Wang,Yu Qiao,Limin Wang |
発行日 | 2025-02-12 16:47:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google