Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos

要約

現在、ほとんどすべての最先端の新規ビューの統合と再構築モデルは、校正カメラまたはトレーニング用の追加の幾何学的事前に依存しています。
これらの前提条件は、それらの適用性を大規模な非調整データに大幅に制限しています。
この要件を緩和し、大規模なキャリブレーションされていないビデオでの自己監視トレーニングの可能性を解き放つために、カメラパラメーターやその他のプライアーを提供することなく、生のビデオフレームまたはマルチビュー画像のみからビュー合成モデルをトレーニングするための新しい2段階戦略を提案します。
最初の段階では、明示的な3D表現に依存することなく、潜在空間でシーンを暗黙的に再構築することを学びます。
具体的には、フレームごとの潜在的なカメラとシーンコンテキスト機能を予測し、明示的なレンダリングのプロキシとしてビュー合成モデルを採用します。
この事前トレーニング段階は、最適化の複雑さを大幅に削減し、ネットワークが自己教師の方法で基礎となる3D一貫性を学習することを奨励します。
学んだ潜在的なカメラと暗黙のシーンの表現は、実際の3Dの世界と比較して大きなギャップを持っています。
このギャップを減らすために、3Dガウスプリミティブを明示的に予測することにより、第2段階のトレーニングを導入します。
さらに、明示的なガウスのスプラットレンダリング損失と深度投影損失を適用して、学習した潜在表現を物理的に接地した3Dジオメトリに合わせます。
このようにして、ステージ1は強力な初期化を提供し、ステージ2は3Dの一貫性を強制します – 2つのステージは補完的で相互に有益です。
広範な実験は、キャリブレーション、ポーズ、または深さ情報を使用して監督を採用する方法と比較して、高品質の新規ビューの合成と正確なカメラポーズ推定を実現し、アプローチの有効性を実証します。
このコードは、https://github.com/dwawayu/pensieveで入手できます。

要約(オリジナル)

Currently almost all state-of-the-art novel view synthesis and reconstruction models rely on calibrated cameras or additional geometric priors for training. These prerequisites significantly limit their applicability to massive uncalibrated data. To alleviate this requirement and unlock the potential for self-supervised training on large-scale uncalibrated videos, we propose a novel two-stage strategy to train a view synthesis model from only raw video frames or multi-view images, without providing camera parameters or other priors. In the first stage, we learn to reconstruct the scene implicitly in a latent space without relying on any explicit 3D representation. Specifically, we predict per-frame latent camera and scene context features, and employ a view synthesis model as a proxy for explicit rendering. This pretraining stage substantially reduces the optimization complexity and encourages the network to learn the underlying 3D consistency in a self-supervised manner. The learned latent camera and implicit scene representation have a large gap compared with the real 3D world. To reduce this gap, we introduce the second stage training by explicitly predicting 3D Gaussian primitives. We additionally apply explicit Gaussian Splatting rendering loss and depth projection loss to align the learned latent representations with physically grounded 3D geometry. In this way, Stage 1 provides a strong initialization and Stage 2 enforces 3D consistency – the two stages are complementary and mutually beneficial. Extensive experiments demonstrate the effectiveness of our approach, achieving high-quality novel view synthesis and accurate camera pose estimation, compared to methods that employ supervision with calibration, pose, or depth information. The code is available at https://github.com/Dwawayu/Pensieve.

arxiv情報

著者 Ruoyu Wang,Yi Ma,Shenghua Gao
発行日 2025-05-19 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク