SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

要約

ビデオ拡散モデルの最近の進歩により、現実世界のダイナミクスをシミュレートし、3D の一貫性を維持する際に優れた能力が示されています。
この進歩により、私たちは、仮想撮影などのアプリケーションにとって非常に望ましい機能である、さまざまな視点間での動的な一貫性を確保するためのこれらのモデルの可能性を調査するようになりました。
4D 再構成のための単一オブジェクトのマルチビュー生成に焦点を当てた既存の方法とは異なり、私たちの関心は、6 DoF カメラのポーズを組み込んだ、任意の視点からオープンワールド ビデオを生成することにあります。
これを達成するために、マルチカメラビデオ生成用に事前トレーニングされたテキストからビデオへのモデルを強化し、さまざまな視点にわたって一貫したコンテンツを保証するプラグアンドプレイモジュールを提案します。
具体的には、これらの視点間で外観とジオメトリの一貫性を維持するために、マルチビュー同期モジュールを導入します。
高品質のトレーニング データが不足していることを考慮して、マルチカメラ画像と単眼ビデオを活用して、Unreal Engine でレンダリングされたマルチカメラ ビデオを補完するハイブリッド トレーニング スキームを設計します。
さらに、私たちの方法は、新しい視点からビデオを再レンダリングするなど、興味深い拡張を可能にします。
また、SynCamVideo-Dataset という名前のマルチビュー同期ビデオ データセットもリリースします。
プロジェクトページ: https://jianhongbai.github.io/SynCamMaster/。

要約(オリジナル)

Recent advancements in video diffusion models have shown exceptional abilities in simulating real-world dynamics and maintaining 3D consistency. This progress inspires us to investigate the potential of these models to ensure dynamic consistency across various viewpoints, a highly desirable feature for applications such as virtual filming. Unlike existing methods focused on multi-view generation of single objects for 4D reconstruction, our interest lies in generating open-world videos from arbitrary viewpoints, incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play module that enhances a pre-trained text-to-video model for multi-camera video generation, ensuring consistent content across different viewpoints. Specifically, we introduce a multi-view synchronization module to maintain appearance and geometry consistency across these viewpoints. Given the scarcity of high-quality training data, we design a hybrid training scheme that leverages multi-camera images and monocular videos to supplement Unreal Engine-rendered multi-camera videos. Furthermore, our method enables intriguing extensions, such as re-rendering a video from novel viewpoints. We also release a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project page: https://jianhongbai.github.io/SynCamMaster/.

arxiv情報

著者 Jianhong Bai,Menghan Xia,Xintao Wang,Ziyang Yuan,Xiao Fu,Zuozhu Liu,Haoji Hu,Pengfei Wan,Di Zhang
発行日 2024-12-10 18:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク