VideoAuteur: Towards Long Narrative Video Generation

要約

最近のビデオ生成モデルは、数秒続く高品質のビデオ クリップの生成において有望な結果を示しています。
ただし、これらのモデルは、明確で有益なイベントを伝える長いシーケンスを生成する際に課題に直面しており、一貫したナレーションをサポートする能力が制限されています。
この論文では、料理分野における長編物語の生成を促進するために設計された大規模な料理ビデオ データセットを紹介します。
私たちは、最先端の視覚言語モデル (VLM) とビデオ生成モデルをそれぞれ使用して、視覚的な忠実性とテキスト キャプションの精度の観点から、提案されたデータセットの品質を検証します。
さらに、生成されたビデオの視覚的および意味論的な一貫性を強化する Long Narrative Video Director を導入し、全体的なビデオ品質の向上を達成するために視覚的な埋め込みを調整する役割を強調します。
私たちの方法は、ビデオ生成プロセス内でテキストと画像の埋め込みを統合する微調整技術によってサポートされ、視覚的に詳細で意味的に調整されたキーフレームの生成において大幅な改善を示しています。
プロジェクトページ:https://videoauteur.github.io/

要約(オリジナル)

Recent video generation models have shown promising results in producing high-quality video clips lasting several seconds. However, these models face challenges in generating long sequences that convey clear and informative events, limiting their ability to support coherent narrations. In this paper, we present a large-scale cooking video dataset designed to advance long-form narrative generation in the cooking domain. We validate the quality of our proposed dataset in terms of visual fidelity and textual caption accuracy using state-of-the-art Vision-Language Models (VLMs) and video generation models, respectively. We further introduce a Long Narrative Video Director to enhance both visual and semantic coherence in generated videos and emphasize the role of aligning visual embeddings to achieve improved overall video quality. Our method demonstrates substantial improvements in generating visually detailed and semantically aligned keyframes, supported by finetuning techniques that integrate text and image embeddings within the video generation process. Project page: https://videoauteur.github.io/

arxiv情報

著者 Junfei Xiao,Feng Cheng,Lu Qi,Liangke Gui,Jiepeng Cen,Zhibei Ma,Alan Yuille,Lu Jiang
発行日 2025-01-10 18:52:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク