要約
単一の画像と特定のカメラ軌跡からシーンのフライスルー ビデオを生成する方法を提案します。
私たちは画像からビデオへの潜在的な拡散モデルに基づいて構築しています。
4 つの手法を使用して、UNet デノイザーをカメラの軌道に合わせて調整します。
(1) MotionCtrl と同様に、生のカメラ外部機能で UNet の時間ブロックを条件付けします。
(2) CameraCtrl と同様に、カメラの光線と方向を含む画像を使用します。
(3) 最初の画像を後続のフレームに再投影し、結果のビデオを条件として使用します。
(4) 2D<=>3D トランスフォーマを使用してグローバル 3D 表現を導入し、カメラのポーズを暗黙的に条件付けします。
すべての条件を ContolNet スタイルのアーキテクチャで組み合わせます。
次に、全体的なビデオ品質と、ビューの変更で詳細を保持する機能を評価する指標を提案します。これを使用して、個別の条件と組み合わせた条件のトレードオフを分析します。
最後に、条件の最適な組み合わせを特定します。
シーン全体でスケールの一貫性を保つためにデータセット内のカメラの位置を調整し、シーン探索モデル CamCtrl3D をトレーニングして最新の結果を実証します。
要約(オリジナル)
We propose a method for generating fly-through videos of a scene, from a single image and a given camera trajectory. We build upon an image-to-video latent diffusion model. We condition its UNet denoiser on the camera trajectory, using four techniques. (1) We condition the UNet’s temporal blocks on raw camera extrinsics, similar to MotionCtrl. (2) We use images containing camera rays and directions, similar to CameraCtrl. (3) We reproject the initial image to subsequent frames and use the resulting video as a condition. (4) We use 2D<=>3D transformers to introduce a global 3D representation, which implicitly conditions on the camera poses. We combine all conditions in a ContolNet-style architecture. We then propose a metric that evaluates overall video quality and the ability to preserve details with view changes, which we use to analyze the trade-offs of individual and combined conditions. Finally, we identify an optimal combination of conditions. We calibrate camera positions in our datasets for scale consistency across scenes, and we train our scene exploration model, CamCtrl3D, demonstrating state-of-theart results.
arxiv情報
著者 | Stefan Popov,Amit Raj,Michael Krainin,Yuanzhen Li,William T. Freeman,Michael Rubinstein |
発行日 | 2025-01-10 14:37:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google