CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

要約

この作業では、3Dが認識し、制御可能なテキストからビデオへの生成のための新しいフレームワークであるCinemasterを紹介します。
私たちの目標は、プロの映画監督として同等の制御可能性を持つユーザーに力を与えることです。シーン内のオブジェクトの正確な配置、3Dスペースでのオブジェクトとカメラの両方の柔軟な操作、およびレンダリングされたフレームに対する直感的なレイアウト制御です。
これを達成するために、Cinemasterは2つの段階で動作します。
最初の段階では、オブジェクトの境界ボックスを配置し、3Dスペース内でカメラの動きを定義することにより、ユーザーが3Dに目覚める条件付き信号を直感的に構築できるインタラクティブワークフローを設計します。
第2段階では、これらの制御信号(レンダリングされた深さマップ、カメラの軌跡、オブジェクトクラスのラベル)が、テキストからビデオへの拡散モデルのガイダンスとして、ユーザー向けのビデオコンテンツを生成することを保証します。
さらに、3Dオブジェクトの動きとカメラのポーズアノテーションを使用して、野生のデータセットの希少性を克服するために、大規模なビデオデータから3D境界ボックスとカメラの軌道を抽出する自動データアノテーションパイプラインを慎重に確立します。
広範な定性的および定量的実験は、Cinemasterが既存の方法を大幅に上回り、顕著な3Dに目覚めるテキストからビデオへの生成を実装することを示しています。
プロジェクトページ:https://cinemaster-dev.github.io/。

要約(オリジナル)

In this work, we present CineMaster, a novel framework for 3D-aware and controllable text-to-video generation. Our goal is to empower users with comparable controllability as professional film directors: precise placement of objects within the scene, flexible manipulation of both objects and camera in 3D space, and intuitive layout control over the rendered frames. To achieve this, CineMaster operates in two stages. In the first stage, we design an interactive workflow that allows users to intuitively construct 3D-aware conditional signals by positioning object bounding boxes and defining camera movements within the 3D space. In the second stage, these control signals–comprising rendered depth maps, camera trajectories and object class labels–serve as the guidance for a text-to-video diffusion model, ensuring to generate the user-intended video content. Furthermore, to overcome the scarcity of in-the-wild datasets with 3D object motion and camera pose annotations, we carefully establish an automated data annotation pipeline that extracts 3D bounding boxes and camera trajectories from large-scale video data. Extensive qualitative and quantitative experiments demonstrate that CineMaster significantly outperforms existing methods and implements prominent 3D-aware text-to-video generation. Project page: https://cinemaster-dev.github.io/.

arxiv情報

著者 Qinghe Wang,Yawen Luo,Xiaoyu Shi,Xu Jia,Huchuan Lu,Tianfan Xue,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai
発行日 2025-02-12 18:55:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク