InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds

要約

ニューラル 3D 再構成は大幅に進歩していますが、通常、慎重に初期化されたポーズ (COLMAP などを使用) で高密度にキャプチャされたマルチビュー データが必要です。
ただし、特徴一致が制限されるスパース ビュー シナリオでは Structure-from-Motion (SfM) の信頼性が低くなり、累積エラーが発生するため、この要件はその広範な適用性を制限します。
この論文では、わずか 2 ~ 3 枚の画像から正確な 3D 表現を構築する、斬新で超高速な神経再構成システムである InstantSplat を紹介します。
InstantSplat は、ガウス バンドル調整 (GauBA) を使用して 2D 画像と 3D 表現の間のギャップを埋める自己監視型フレームワークを採用しており、エンドツーエンドの方法で最適化できます。
InstantSplat は、高密度のステレオ プリアとフレーム間の相互可視性関係を統合し、冗長性を避けてシーンを徐々に拡張することでピクセル位置合わせされたジオメトリを初期化します。
ガウス バンドル調整は、勾配ベースの測光エラーを最小限に抑えることで、シーン表現とカメラ パラメーターの両方を迅速に適応させるために使用されます。
全体として、InstantSplat は必要な入力ビューの数を減らすことで、わずか数秒で大規模な 3D 再構成を実現します。
再構成で 20 倍以上の高速化を実現し、3D-GS を使用した COLMAP よりも視覚品質 (SSIM) が 0.3755 から 0.7624 に向上し、複数の 3D 表現 (3D-GS、2D-GS、および Mip-Splatting) と互換性があります。

要約(オリジナル)

While neural 3D reconstruction has advanced substantially, it typically requires densely captured multi-view data with carefully initialized poses (e.g., using COLMAP). However, this requirement limits its broader applicability, as Structure-from-Motion (SfM) is often unreliable in sparse-view scenarios where feature matches are limited, resulting in cumulative errors. In this paper, we introduce InstantSplat, a novel and lightning-fast neural reconstruction system that builds accurate 3D representations from as few as 2-3 images. InstantSplat adopts a self-supervised framework that bridges the gap between 2D images and 3D representations using Gaussian Bundle Adjustment (GauBA) and can be optimized in an end-to-end manner. InstantSplat integrates dense stereo priors and co-visibility relationships between frames to initialize pixel-aligned geometry by progressively expanding the scene avoiding redundancy. Gaussian Bundle Adjustment is used to adapt both the scene representation and camera parameters quickly by minimizing gradient-based photometric error. Overall, InstantSplat achieves large-scale 3D reconstruction in mere seconds by reducing the required number of input views. It achieves an acceleration of over 20 times in reconstruction, improves visual quality (SSIM) from 0.3755 to 0.7624 than COLMAP with 3D-GS, and is compatible with multiple 3D representations (3D-GS, 2D-GS, and Mip-Splatting).

arxiv情報

著者 Zhiwen Fan,Kairun Wen,Wenyan Cong,Kevin Wang,Jian Zhang,Xinghao Ding,Danfei Xu,Boris Ivanovic,Marco Pavone,Georgios Pavlakos,Zhangyang Wang,Yue Wang
発行日 2024-12-17 18:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク