R3GS: Gaussian Splatting for Robust Reconstruction and Relocalization in Unconstrained Image Collections

要約

制約のないデータセットに合わせて調整された堅牢な再構築と再局在化フレームワークであるR3GSを提案します。
私たちの方法は、トレーニング中にハイブリッド表現を使用します。
各アンカーは、畳み込みニューラルネットワーク(CNN)からのグローバルな特徴と、多溶液ハッシュグリッドによってエンコードされたローカル機能を組み合わせています[2]。
その後、いくつかの浅い多層パーセプトロン(MLP)は、色、不透明度、共分散を含む各ガウスの属性を予測します。
再構成プロセスに対する一時的なオブジェクトの悪影響を緩和するために、軽量のヒト検出ネットワークをfneで調整します。
FFNEがチューニングすると、このネットワークは、さらなる適応の必要性を最小限に抑えて、他の一時的なオブジェクト(ポスター、バナー、車など)に効果的に一般化する可視性マップを生成します。
さらに、屋外シーンでスカイ地域によってもたらされる課題に対処するために、制約として深さを組み込んだ効果的なスカイハンドリング技術を提案します。
これにより、無限に遠くの空を大きな馬鹿げた空の球の表面に表すことができ、空の再構築の誤りによって引き起こされるffoaterを微妙に減少させることができます。
さらに、再構築された3DGSシーン内の特定の画像のカメラポーズを推定しなが​​ら、照明条件の変化に堅牢なままでいる新しい再局在化方法を導入します。
その結果、R3Gはレンダリングのレンダリングを大幅に強化し、トレーニングと効果の両方を改善し、ストレージ要件を削減します。
私たちの方法は、野生のデータセットのベースラインメソッドと比較して、最先端のパフォーマンスを実現します。
コードは、論文の受け入れに続いてオープンソースになります。

要約(オリジナル)

We propose R3GS, a robust reconstruction and relocalization framework tailored for unconstrained datasets. Our method uses a hybrid representation during training. Each anchor combines a global feature from a convolutional neural network (CNN) with a local feature encoded by the multiresolution hash grids [2]. Subsequently, several shallow multi-layer perceptrons (MLPs) predict the attributes of each Gaussians, including color, opacity, and covariance. To mitigate the adverse effects of transient objects on the reconstruction process, we ffne-tune a lightweight human detection network. Once ffne-tuned, this network generates a visibility map that efffciently generalizes to other transient objects (such as posters, banners, and cars) with minimal need for further adaptation. Additionally, to address the challenges posed by sky regions in outdoor scenes, we propose an effective sky-handling technique that incorporates a depth prior as a constraint. This allows the inffnitely distant sky to be represented on the surface of a large-radius sky sphere, signiffcantly reducing ffoaters caused by errors in sky reconstruction. Furthermore, we introduce a novel relocalization method that remains robust to changes in lighting conditions while estimating the camera pose of a given image within the reconstructed 3DGS scene. As a result, R3GS significantly enhances rendering ffdelity, improves both training and rendering efffciency, and reduces storage requirements. Our method achieves state-of-the-art performance compared to baseline methods on in-the-wild datasets. The code will be made open-source following the acceptance of the paper.

arxiv情報

著者 Xu yan,Zhaohui Wang,Rong Wei,Jingbo Yu,Dong Li,Xiangde Liu
発行日 2025-05-21 09:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク