MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence

要約

ビデオ生成における最近の進歩では、主に短時間コンテンツの拡散モデルが活用されています。
ただし、これらのアプローチでは、複雑な物語をモデリングしたり、映画のような長編ビデオ制作に不可欠な長期間にわたるキャラクターの一貫性を維持したりするには不十分なことがよくあります。
私たちは、自己回帰モデルの長所と拡散ベースのレンダリングを統合した新しい階層フレームワークである MovieDreamer を提案し、複雑なプロットの進行と高い視覚的忠実度を備えた長時間ビデオ生成の先駆者となります。
私たちのアプローチでは、グローバルな物語の一貫性のために自己回帰モデルを利用し、その後拡散レンダリングを通じて高品質のビデオ フレームに変換される一連のビジュアル トークンを予測します。
この方法は、複雑なストーリーを管理しやすいシーン キャプチャに分解する従来の映画制作プロセスに似ています。
さらに、詳細なキャラクター情報とビジュアル スタイルでシーンの説明を充実させ、シーン全体での連続性とキャラクターのアイデンティティを強化するマルチモーダル スクリプトを採用しています。
私たちはさまざまな映画ジャンルにわたる広範な実験を紹介し、私たちのアプローチが優れたビジュアルと物語の品質を達成するだけでなく、生成されたコンテンツの継続時間を現在の能力を大幅に超えて効果的に延長できることを実証しています。
ホームページ: https://aim-uofa.github.io/MovieDreamer/。

要約(オリジナル)

Recent advancements in video generation have primarily leveraged diffusion models for short-duration content. However, these approaches often fall short in modeling complex narratives and maintaining character consistency over extended periods, which is essential for long-form video production like movies. We propose MovieDreamer, a novel hierarchical framework that integrates the strengths of autoregressive models with diffusion-based rendering to pioneer long-duration video generation with intricate plot progressions and high visual fidelity. Our approach utilizes autoregressive models for global narrative coherence, predicting sequences of visual tokens that are subsequently transformed into high-quality video frames through diffusion rendering. This method is akin to traditional movie production processes, where complex stories are factorized down into manageable scene capturing. Further, we employ a multimodal script that enriches scene descriptions with detailed character information and visual style, enhancing continuity and character identity across scenes. We present extensive experiments across various movie genres, demonstrating that our approach not only achieves superior visual and narrative quality but also effectively extends the duration of generated content significantly beyond current capabilities. Homepage: https://aim-uofa.github.io/MovieDreamer/.

arxiv情報

著者 Canyu Zhao,Mingyu Liu,Wen Wang,Jianlong Yuan,Hao Chen,Bo Zhang,Chunhua Shen
発行日 2024-07-23 17:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク