CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition

要約

映画の構成のタスクのための新しいフレームワークであるCineverseを提示します。
従来のマルチショット生成と同様に、私たちのタスクは、フレーム間の一貫性と連続性の必要性を強調しています。
ただし、私たちのタスクは、複数のキャラクター、複雑な相互作用、視覚的な映画効果など、映画製作に固有の課題に対処することにも焦点を当てています。
このようなコンテンツを生成することを学ぶために、最初にCineverseデータセットを作成します。
このデータセットを使用して、提案されている2段階のアプローチをトレーニングします。
まず、タスク固有の指示を備えた大規模な言語モデル(LLM)に、高レベルのシーンの説明を取り入れ、全体的な設定とキャラクター、および個々のショットの詳細な計画を生成します。
次に、テキストからイメージの生成モデルを微調整して、高品質の視覚キーフレームを合成します。
実験結果は、シネバースが視覚的に一貫性のある文脈的に豊富な映画シーンを生成することで有望な改善をもたらし、映画のビデオ統合のさらなる探求への道を開くことを示しています。

要約(オリジナル)

We present CineVerse, a novel framework for the task of cinematic scene composition. Similar to traditional multi-shot generation, our task emphasizes the need for consistency and continuity across frames. However, our task also focuses on addressing challenges inherent to filmmaking, such as multiple characters, complex interactions, and visual cinematic effects. In order to learn to generate such content, we first create the CineVerse dataset. We use this dataset to train our proposed two-stage approach. First, we prompt a large language model (LLM) with task-specific instructions to take in a high-level scene description and generate a detailed plan for the overall setting and characters, as well as the individual shots. Then, we fine-tune a text-to-image generation model to synthesize high-quality visual keyframes. Experimental results demonstrate that CineVerse yields promising improvements in generating visually coherent and contextually rich movie scenes, paving the way for further exploration in cinematic video synthesis.

arxiv情報

著者 Quynh Phung,Long Mai,Fabian David Caba Heilbron,Feng Liu,Jia-Bin Huang,Cusuh Ham
発行日 2025-04-28 15:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク