Video ReCap: Recursive Captioning of Hour-Long Videos

要約

ほとんどのビデオキャプションモデルは、数秒の短いビデオクリップを処理し、低レベルの視覚概念(オブジェクト、シーン、アトミックアクションなど)を説明するテキストを出力するように設計されています。
ただし、現実世界のほとんどのビデオは数分から数時間続き、さまざまな時間粒度にまたがる複雑な階層構造を持っています。
私たちは、大幅に異なる長さ (1 秒から 2 時間) のビデオ入力を処理し、複数の階層レベルでビデオ キャプションを出力できる再帰的ビデオ キャプション モデルである Video ReCap を提案します。
再帰的なビデオ言語アーキテクチャは、異なるビデオ階層間の相乗効果を活用し、1 時間のビデオを効率的に処理できます。
私たちは、ビデオの階層構造を学習するためにカリキュラム学習トレーニング スキームを利用しています。最初はアトミックなアクションを説明するクリップ レベルのキャプションから始まり、次にセグメント レベルの説明に焦点を当て、最後に 1 時間のビデオの概要の生成で終わります。
さらに、Ego4D を手動で収集した 8,267 の長距離ビデオ概要で強化することにより、Ego4D-HCap データセットを導入します。
私たちの再帰モデルは、さまざまな階層レベルでキャプションを柔軟に生成できると同時に、EgoSchema の VideoQA など、他の複雑なビデオ理解タスクにも役立ちます。
データ、コード、モデルは、https://sites.google.com/view/vidrecap で入手できます。

要約(オリジナル)

Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap

arxiv情報

著者 Md Mohaiminul Islam,Ngan Ho,Xitong Yang,Tushar Nagarajan,Lorenzo Torresani,Gedas Bertasius
発行日 2024-05-10 17:47:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク