V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

要約

ビデオの要約は、長いビデオの短く、正確で、まとまりのある要約を作成することを目的としています。
さまざまなビデオ要約データセットが存在するにもかかわらず、ソース ビデオの量が限られていることが注目すべき制限であり、これが高度なラージ ビジョン言語モデル (VLM) の効果的な微調整を妨げています。
さらに、既存のデータセットのほとんどはビデオ間の要約用に作成されており、マルチモーダルなビデオ コンテンツの要約に対する現代のニーズが無視されています。
最近の取り組みでは、ビデオの要約を単モーダルからマルチモーダルに拡張し、要約のモダリティに基づいてタスクを 3 つのサブタスク (ビデオからビデオ (V2V)、ビデオからテキストへ (V2T)、およびそれらの組み合わせ) に分類しています。
ビデオとテキストの要約 (V2VT)。
ただし、以前のマルチモーダル データセットのテキストによる要約は不十分です。
これらの問題に対処するために、YouTube からソースされた 30,000 の多様なビデオを特徴とするクロスモーダルビデオ要約データセットである Instruct-V2Xum を導入します。長さは 40 ~ 940 秒の範囲で、平均要約率は 16.39\% です。
Instruct-V2Xum の各ビデオ概要は、特定のフレーム インデックスを参照するテキスト概要とペアになっており、位置合わせされたビデオとテキスト概要の生成が容易になります。
さらに、V2Xum-LLM という新しいビデオ要約フレームワークを提案します。
V2Xum-LLM、特にこの研究では V2Xum-LLaMA は、さまざまなビデオ要約タスクを 1 つの大規模言語モデル (LLM) テキスト デコーダーに統合し、一時的なプロンプトとタスク指示を使用してタスク制御可能なビデオ要約を実現する最初のフレームワークです。
実験では、V2Xum-LLaMA が複数のビデオ要約タスクにおいて強力なベースライン モデルよりも優れたパフォーマンスを発揮することが示されています。
さらに、V2V および V2VT 要約タスクの強化された評価指標を提案します。

要約(オリジナル)

Video summarization aims to create short, accurate, and cohesive summaries of longer videos. Despite the existence of various video summarization datasets, a notable limitation is their limited amount of source videos, which hampers the effective fine-tuning of advanced large vision-language models (VLMs). Additionally, most existing datasets are created for video-to-video summarization, overlooking the contemporary need for multimodal video content summarization. Recent efforts have been made to expand from unimodal to multimodal video summarization, categorizing the task into three sub-tasks based on the summary’s modality: video-to-video (V2V), video-to-text (V2T), and a combination of video and text summarization (V2VT). However, the textual summaries in previous multimodal datasets are inadequate. To address these issues, we introduce Instruct-V2Xum, a cross-modal video summarization dataset featuring 30,000 diverse videos sourced from YouTube, with lengths ranging from 40 to 940 seconds and an average summarization ratio of 16.39\%. Each video summary in Instruct-V2Xum is paired with a textual summary that references specific frame indexes, facilitating the generation of aligned video and textual summaries. In addition, we propose a new video summarization framework named V2Xum-LLM. V2Xum-LLM, specifically V2Xum-LLaMA in this study, is the first framework that unifies different video summarization tasks into one large language model’s (LLM) text decoder and achieves task-controllable video summarization with temporal prompts and task instructions. Experiments show that V2Xum-LLaMA outperforms strong baseline models on multiple video summarization tasks. Furthermore, we propose an enhanced evaluation metric for V2V and V2VT summarization tasks.

arxiv情報

著者 Hang Hua,Yunlong Tang,Chenliang Xu,Jiebo Luo
発行日 2024-04-18 17:32:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク