InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

要約

新規ビュー合成 (NVS) は 3D コンピューター ビジョンで大幅な進歩を遂げましたが、通常、密な視点からのカメラの内部機能と外部機能の初期推定が必要です。
この前処理は通常、Structure-from-Motion (SfM) パイプラインを介して実行されます。この手順は、特に正確な再構築に必要な一致する特徴が不十分なスパース ビュー シナリオでは、時間がかかり信頼性が低い可能性があります。
この研究では、ポイントベースの表現 (3D ガウス スプラッティング、3D-GS など) の長所をエンドツーエンドの高密度ステレオ モデル (DUSt3R) と統合して、制約のない設定での NVS の複雑かつ未解決の問題に取り組みます。
ポーズフリーおよびスパースビューの課題が含まれます。
私たちのフレームワークである InstantSplat は、高密度ステレオ事前分布を 3D-GS と統合し、スパースビューおよびポーズフリーの画像から大規模シーンの 3D ガウスを 1 分以内に構築します。
具体的には、InstantSplat は、事前トレーニングされた高密度ステレオ パイプラインから派生したグローバルに位置合わせされた 3D ポイント マップを利用して、すべてのトレーニング ビューにわたって予備的なシーン構造とカメラ パラメーターを迅速に確立する粗幾何初期化 (CGI) モジュールで構成されています。
これに、Fast 3D-Gaussian Optimization (F-3DGO) モジュールが続きます。これは、3D ガウス属性と初期化されたポーズをポーズ正則化で共同最適化します。
大規模な屋外の Tanks & Temples データセットに対して行われた実験では、InstantSplat が SSIM を大幅に改善 (32%) すると同時に、絶対軌道誤差 (ATE) を 80% 削減することが実証されました。
これらにより、InstantSplat は、ポーズフリーおよびスパースビュー条件を含むシナリオに対する実行可能なソリューションとして確立されます。
プロジェクトページ: instantsplat.github.io。

要約(オリジナル)

While novel view synthesis (NVS) has made substantial progress in 3D computer vision, it typically requires an initial estimation of camera intrinsics and extrinsics from dense viewpoints. This pre-processing is usually conducted via a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and unreliable, particularly in sparse-view scenarios with insufficient matched features for accurate reconstruction. In this work, we integrate the strengths of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved issues in NVS under unconstrained settings, which encompasses pose-free and sparse view challenges. Our framework, InstantSplat, unifies dense stereo priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview & pose-free images in less than 1 minute. Specifically, InstantSplat comprises a Coarse Geometric Initialization (CGI) module that swiftly establishes a preliminary scene structure and camera parameters across all training views, utilizing globally-aligned 3D point maps derived from a pre-trained dense stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO) module, which jointly optimizes the 3D Gaussian attributes and the initialized poses with pose regularization. Experiments conducted on the large-scale outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error (ATE) by 80%. These establish InstantSplat as a viable solution for scenarios involving posefree and sparse-view conditions. Project page: instantsplat.github.io.

arxiv情報

著者 Zhiwen Fan,Wenyan Cong,Kairun Wen,Kevin Wang,Jian Zhang,Xinghao Ding,Danfei Xu,Boris Ivanovic,Marco Pavone,Georgios Pavlakos,Zhangyang Wang,Yue Wang
発行日 2024-03-29 17:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク