Prompts to Summaries: Zero-Shot Language-Guided Video Summarization

要約

ビデオデータの爆発的な成長により、ドメイン固有のトレーニングデータなしで動作できる柔軟なユーザー制御可能な要約ツールが必要になりました。
既存の方法は、データセットに依存し、一般化を制限するか、自然言語で表現されたユーザーの意図を組み込むことができません。
プロンプトからサマリーを紹介します。最初のゼロショット、テキストクエリ可能なビデオ要約は、既製のビデオ言語モデル(VIDLMS)キャプションを、トレーニングデータをまったく使用せずに、大規模な言語モデル(LLMS)審査を介してユーザー誘導スキムに変換し、監督されていない方法とマッチングのすべての監督の方法を破ります。
パイプライン(i)セグメントの生のビデオ映像を一貫したシーンにセグメント化します。
セグメントは、一貫性(時間的一貫性)と一意性(目新しさ)の2つの新しいメトリックを介してレベルを付け、微調整されたフレームの重要性をもたらします。
SummeとTVSumでは、データフリーのアプローチは、以前のデータに飢えているすべての監視されていない方法を上回ります。
また、トレーニングデータがなく、監督されたフレームレベルの重要性を必要とする競合する方法を使用していないにもかかわらず、クエリ中心のビデオ要約(QFVS)ベンチマークで競合します。
さらなる研究に拍車をかけるために、vidsum-reasonをリリースします。これは、長い尾のある概念とマルチステップの推論を備えた新しいクエリ駆動型のデータセットです。
私たちのフレームワークは、堅牢なF1スコアを達成し、最初の挑戦的なベースラインとして機能します。
全体として、我々の結果は、原則的なプロンプトとスコアの伝播で調整されたときに、前提条件のマルチモダンモデルが、普遍的でテキストクロースのビデオ要約の強力な基盤をすでに提供していることを示しています。

要約(オリジナル)

The explosive growth of video data intensified the need for flexible user-controllable summarization tools that can operate without domain-specific training data. Existing methods either rely on datasets, limiting generalization, or cannot incorporate user intent expressed in natural language. We introduce Prompts-to-Summaries: the first zero-shot, text-queryable video summarizer that converts off-the-shelf video-language models (VidLMs) captions into user-guided skims via large language models (LLMs) judging, without the use of training data at all, beating all unsupervised and matching supervised methods. Our pipeline (i) segments raw video footage into coherent scenes, (ii) generates rich scene-level descriptions through a memory-efficient, batch-style VidLM prompting scheme that scales to hours-long videos on a single GPU, (iii) leverages an LLM as a judge to assign scene-level importance scores under a carefully crafted prompt, and finally, (iv) propagates those scores to short segments level via two new metrics: consistency (temporal coherency) and uniqueness (novelty), yielding fine-grained frame importance. On SumMe and TVSum, our data-free approach surpasses all prior data-hungry unsupervised methods. It also performs competitively on the Query-Focused Video Summarization (QFVS) benchmark, despite using no training data and the competing methods requiring supervised frame-level importance. To spur further research, we release VidSum-Reason, a new query-driven dataset featuring long-tailed concepts and multi-step reasoning; our framework attains robust F1 scores and serves as the first challenging baseline. Overall, our results demonstrate that pretrained multimodal models, when orchestrated with principled prompting and score propagation, already provide a powerful foundation for universal, text-queryable video summarization.

arxiv情報

著者 Mario Barbara,Alaa Maalouf
発行日 2025-06-12 15:23:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク