TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding

要約

TimeChatは、特に長時間のビデオ理解のために設計された、時間依存のマルチモーダル大規模言語モデルである。(1)各フレームのタイムスタンプとビジュアルコンテンツを結びつけるタイムスタンプ認識フレームエンコーダと、(2)様々な長さのビデオに対応するため、様々な長さのビデオトークンシーケンスを生成するスライディングビデオQ-Formerである。さらに、6つのタスクと合計125Kインスタンスからなる命令チューニングデータセットを構築し、TimeChatの命令追従性能をさらに向上させる。密なキャプション付け、時間的グラウンディング、ハイライト検出など、様々なビデオ理解タスクにわたる実験結果は、TimeChatの強力なゼロショット時間定位と推論能力を実証している。例えば、YouCook2では+9.2 F1スコアと+2.8 CIDEr、QVHighlightsでは+5.8 HIT@1、Charades-STAでは+27.5 R@1 (IoU=0.5)を最先端のビデオ大規模言語モデルと比較して達成しており、長時間のビデオ理解タスクのための汎用的なビデオアシスタントとして機能し、現実的なユーザの要求を満たす可能性を保持している。

要約(オリジナル)

This work proposes TimeChat, a time-sensitive multimodal large language model specifically designed for long video understanding. Our model incorporates two key architectural contributions: (1) a timestamp-aware frame encoder that binds visual content with the timestamp of each frame, and (2) a sliding video Q-Former that produces a video token sequence of varying lengths to accommodate videos of various durations. Additionally, we construct an instruction-tuning dataset, encompassing 6 tasks and a total of 125K instances, to further enhance TimeChat’s instruction-following performance. Experiment results across various video understanding tasks, such as dense captioning, temporal grounding, and highlight detection, demonstrate TimeChat’s strong zero-shot temporal localization and reasoning capabilities. For example, it achieves +9.2 F1 score and +2.8 CIDEr on YouCook2, +5.8 HIT@1 on QVHighlights, and +27.5 R@1 (IoU=0.5) on Charades-STA, compared to state-of-the-art video large language models, holding the potential to serve as a versatile video assistant for long-form video comprehension tasks and satisfy realistic user requirements.

arxiv情報

著者 Shuhuai Ren,Linli Yao,Shicheng Li,Xu Sun,Lu Hou
発行日 2023-12-04 17:09:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク