3DGS$^2$: Near Second-order Converging 3D Gaussian Splatting

要約

3Dガウススプラッティング(3DG)は、新しいビュー合成と3D再建のための主流のソリューションとして浮上しています。
ガウスカーネルのコレクションを使用して3Dシーンを明示的にエンコードすることにより、3DGSは優れた効率で高品質のレンダリングを実現します。
学習ベースのアプローチとして、3DGSトレーニングは、ほとんどの線形収束を提供する標準の確率勾配降下(SGD)メソッドを扱っています。
したがって、GPU加速度でも、トレーニングには数十分かかることがよくあります。
このペーパーでは、3DGSの(近くの)2次収束トレーニングアルゴリズムを紹介し、独自のプロパティを活用します。
私たちのアプローチは、2つの重要な観察に触発されています。
第一に、ガウスカーネルの属性は、孤立したローカル最適化アルゴリズムを承認する画像空間損失に独立して貢献します。
個々のカーネル属性のレベルで最適化を分割し、各パラメーターグループの小型のニュートンシステムを分析的に構築し、GPUスレッドでこれらのシステムを効率的に解くことにより、これを活用します。
これにより、グローバルなヘシアンに依存することなく、トレーニングイメージごとにニュートンのような収束が実現します。
第二に、カーネルは、入力画像全体にまばらで構造化されたカップリングを示します。
このプロパティにより、空間情報を効果的に利用して、確率的トレーニング中のオーバーシュートを緩和することができます。
私たちの方法は、標準のGPUベースの3DGSトレーニングよりも速く注文を収束し、SGDベースの3DGS再構成と比較した品質を維持または上回りながら、10ドル以上の$ \ $ $ $ iterationsを必要とします。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has emerged as a mainstream solution for novel view synthesis and 3D reconstruction. By explicitly encoding a 3D scene using a collection of Gaussian kernels, 3DGS achieves high-quality rendering with superior efficiency. As a learning-based approach, 3DGS training has been dealt with the standard stochastic gradient descent (SGD) method, which offers at most linear convergence. Consequently, training often requires tens of minutes, even with GPU acceleration. This paper introduces a (near) second-order convergent training algorithm for 3DGS, leveraging its unique properties. Our approach is inspired by two key observations. First, the attributes of a Gaussian kernel contribute independently to the image-space loss, which endorses isolated and local optimization algorithms. We exploit this by splitting the optimization at the level of individual kernel attributes, analytically constructing small-size Newton systems for each parameter group, and efficiently solving these systems on GPU threads. This achieves Newton-like convergence per training image without relying on the global Hessian. Second, kernels exhibit sparse and structured coupling across input images. This property allows us to effectively utilize spatial information to mitigate overshoot during stochastic training. Our method converges an order faster than standard GPU-based 3DGS training, requiring over $10\times$ fewer iterations while maintaining or surpassing the quality of the compared with the SGD-based 3DGS reconstructions.

arxiv情報

著者 Lei Lan,Tianjia Shao,Zixuan Lu,Yu Zhang,Chenfanfu Jiang,Yin Yang
発行日 2025-01-27 15:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク