要約
テキスト プロンプトからビデオ ストーリーを生成するのは複雑な作業です。
ビデオは、高いビジュアル品質を備えていることに加えて、フレーム全体で一貫性を保ちながら、一連のテキスト プロンプトに現実的に準拠している必要があります。
ビデオ生成のベンチマークを作成するには、時間の経過とともに注釈が付けられたデータが必要ですが、これはビデオ データセットでよく使用される単一のキャプションとは対照的です。
このギャップを埋めるために、私たちは 3 つの既存のデータセットに対して包括的な人間によるアノテーションを収集し、今後のテキストからビデオへのモデルを確実に評価するための、新しい挑戦的なマルチタスク ベンチマークである StoryBench を導入しました。
私たちのベンチマークには、難易度が高くなる 3 つのビデオ生成タスクが含まれています。アクションの実行では、コンディショニング ビデオから開始して次のアクションを生成する必要があります。
ストーリーの継続。コンディショニング ビデオから開始して一連のアクションを実行する必要があります。
ストーリー生成では、テキスト プロンプトのみからビデオを生成する必要があります。
私たちは、小さいながらも強力なテキストからビデオへのベースラインを評価し、既存のビデオ キャプションからアルゴリズムで生成されたストーリーのようなデータをトレーニングする利点を示します。
最後に、ビデオ ストーリーを人間が評価するためのガイドラインを確立し、ビデオ生成のためのより優れた自動指標の必要性を再確認します。
StoryBench は、このエキサイティングな新しい分野における将来の研究努力を奨励することを目的としています。
要約(オリジナル)
Generating video stories from text prompts is a complex task. In addition to having high visual quality, videos need to realistically adhere to a sequence of text prompts whilst being consistent throughout the frames. Creating a benchmark for video generation requires data annotated over time, which contrasts with the single caption used often in video datasets. To fill this gap, we collect comprehensive human annotations on three existing datasets, and introduce StoryBench: a new, challenging multi-task benchmark to reliably evaluate forthcoming text-to-video models. Our benchmark includes three video generation tasks of increasing difficulty: action execution, where the next action must be generated starting from a conditioning video; story continuation, where a sequence of actions must be executed starting from a conditioning video; and story generation, where a video must be generated from only text prompts. We evaluate small yet strong text-to-video baselines, and show the benefits of training on story-like data algorithmically generated from existing video captions. Finally, we establish guidelines for human evaluation of video stories, and reaffirm the need of better automatic metrics for video generation. StoryBench aims at encouraging future research efforts in this exciting new area.
arxiv情報
著者 | Emanuele Bugliarello,Hernan Moraldo,Ruben Villegas,Mohammad Babaeizadeh,Mohammad Taghi Saffar,Han Zhang,Dumitru Erhan,Vittorio Ferrari,Pieter-Jan Kindermans,Paul Voigtlaender |
発行日 | 2023-10-12 17:50:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google