Controlling Space and Time with Diffusion Models

要約

4DiM は、一般的なシーンの 1 つ以上の画像と、カメラのポーズとタイムスタンプのセットを条件とした 4D ノベル ビュー合成 (NVS) 用のカスケード拡散モデルです。
4D トレーニング データの利用可能性が限られていることによる課題を克服するために、私たちは 3D (カメラ ポーズあり)、4D (ポーズ + 時間)、およびビデオ (時間だがポーズなし) データでの共同トレーニングを提唱し、同じことを可能にする新しいアーキテクチャを提案します。
我々はさらに、メートルスケールカメラ制御のための単眼メートル距離推定器を使用した SfM ポーズデータの校正を提唱します。
モデル評価については、現在の評価スキームの欠点を強化して克服するための新しい指標を導入し、3D NVS の既存の拡散モデルと比較して忠実度と姿勢制御の両方で最先端の結果を実証すると同時に、次の機能を追加します。
時間的なダイナミクスを処理します。
4DiM は、改良されたパノラマ スティッチング、ポーズ条件付きビデオからビデオへの変換、およびその他のいくつかのタスクにも使用されます。
概要については、https://4d-diffusion.github.io を参照してください。

要約(オリジナル)

We present 4DiM, a cascaded diffusion model for 4D novel view synthesis (NVS), conditioned on one or more images of a general scene, and a set of camera poses and timestamps. To overcome challenges due to limited availability of 4D training data, we advocate joint training on 3D (with camera pose), 4D (pose+time) and video (time but no pose) data and propose a new architecture that enables the same. We further advocate the calibration of SfM posed data using monocular metric depth estimators for metric scale camera control. For model evaluation, we introduce new metrics to enrich and overcome shortcomings of current evaluation schemes, demonstrating state-of-the-art results in both fidelity and pose control compared to existing diffusion models for 3D NVS, while at the same time adding the ability to handle temporal dynamics. 4DiM is also used for improved panorama stitching, pose-conditioned video to video translation, and several other tasks. For an overview see https://4d-diffusion.github.io

arxiv情報

著者 Daniel Watson,Saurabh Saxena,Lala Li,Andrea Tagliasacchi,David J. Fleet
発行日 2024-07-10 17:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク