要約
単一の画像と特定のカメラの軌跡から、シーンのフライスルービデオを生成する方法を提案します。
画像間潜在拡散モデルの上に構築されます。
4つのテクニックを使用して、カメラの軌跡にUNET除去者を条件付けます。
(1)MotionCtrlと同様に、生のカメラ外部のUNETの時間ブロックを条件付けます。
(2)Cameractrlと同様に、カメラの光線と方向を含む画像を使用します。
(3)最初の画像を後続のフレームに非難し、結果のビデオを条件として使用します。
(4)2D <=> 3Dトランスを使用して、カメラのポーズに暗黙的に条件を導入するグローバルな3D表現を導入します。
Contolnetスタイルのアーキテクチャのすべての条件を組み合わせます。
次に、全体的なビデオの品質と、ビューの変更で詳細を保存する能力を評価するメトリックを提案します。これは、個々の条件と複合条件のトレードオフを分析するために使用します。
最後に、条件の最適な組み合わせを特定します。
シーン全体でスケールの一貫性を得るためにデータセットのカメラの位置を調整し、シーンの探索モデルであるcamctrl3dをトレーニングし、最先端の結果を示します。
要約(オリジナル)
We propose a method for generating fly-through videos of a scene, from a single image and a given camera trajectory. We build upon an image-to-video latent diffusion model. We condition its UNet denoiser on the camera trajectory, using four techniques. (1) We condition the UNet’s temporal blocks on raw camera extrinsics, similar to MotionCtrl. (2) We use images containing camera rays and directions, similar to CameraCtrl. (3) We reproject the initial image to subsequent frames and use the resulting video as a condition. (4) We use 2D<=>3D transformers to introduce a global 3D representation, which implicitly conditions on the camera poses. We combine all conditions in a ContolNet-style architecture. We then propose a metric that evaluates overall video quality and the ability to preserve details with view changes, which we use to analyze the trade-offs of individual and combined conditions. Finally, we identify an optimal combination of conditions. We calibrate camera positions in our datasets for scale consistency across scenes, and we train our scene exploration model, CamCtrl3D, demonstrating state-of-theart results.
arxiv情報
著者 | Stefan Popov,Amit Raj,Michael Krainin,Yuanzhen Li,William T. Freeman,Michael Rubinstein |
発行日 | 2025-01-31 17:26:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google