LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors

要約

私たちは、大規模なビジョン モデルからの事前分布を活用して、3D シーンのスパース ビュー再構築に取り組むことを目指しています。
3D ガウシアン スプラッティング (3DGS) などの最近の進歩は、3D 再構成における目覚ましい成功を実証していますが、これらの方法は通常、基礎となるシーンを密にキャプチャする数百枚の入力画像を必要とするため、時間がかかり、現実世界のアプリケーションには非現実的です。
ただし、スパースビュー再構成は本質的に姿勢が悪く、制約が不十分であるため、多くの場合、劣った不完全な結果が得られます。
これは、初期化の失敗、入力画像のオーバーフィッティング、詳細の欠如などの問題が原因です。
これらの課題を軽減するために、限られた数の画像から高品質の再構成を生成できる手法である LM-Gaussian を導入します。
具体的には、ステレオ事前分布を利用してカメラのポーズと信頼性の高い点群の回復を支援する堅牢な初期化モジュールを提案します。
さらに、拡散ベースの改良を繰り返し適用して、画像拡散プリアをガウス最適化プロセスに組み込み、複雑なシーンの詳細を保存します。
最後に、ビデオ拡散プリアを利用して、レンダリングされたイメージをさらに強化してリアルな視覚効果を実現します。
全体として、私たちのアプローチは、以前の 3DGS 手法と比較して、データ取得要件を大幅に削減します。
私たちは、さまざまな公開データセットでの実験を通じてフレームワークの有効性を検証し、高品質の 360 度シーン再構築の可能性を実証します。
視覚的な結果は当社のウェブサイトに掲載されています。

要約(オリジナル)

We aim to address sparse-view reconstruction of a 3D scene by leveraging priors from large-scale vision models. While recent advancements such as 3D Gaussian Splatting (3DGS) have demonstrated remarkable successes in 3D reconstruction, these methods typically necessitate hundreds of input images that densely capture the underlying scene, making them time-consuming and impractical for real-world applications. However, sparse-view reconstruction is inherently ill-posed and under-constrained, often resulting in inferior and incomplete outcomes. This is due to issues such as failed initialization, overfitting on input images, and a lack of details. To mitigate these challenges, we introduce LM-Gaussian, a method capable of generating high-quality reconstructions from a limited number of images. Specifically, we propose a robust initialization module that leverages stereo priors to aid in the recovery of camera poses and the reliable point clouds. Additionally, a diffusion-based refinement is iteratively applied to incorporate image diffusion priors into the Gaussian optimization process to preserve intricate scene details. Finally, we utilize video diffusion priors to further enhance the rendered images for realistic visual effects. Overall, our approach significantly reduces the data acquisition requirements compared to previous 3DGS methods. We validate the effectiveness of our framework through experiments on various public datasets, demonstrating its potential for high-quality 360-degree scene reconstruction. Visual results are on our website.

arxiv情報

著者 Hanyang Yu,Xiaoxiao Long,Ping Tan
発行日 2024-09-05 12:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク