GenS: Generalizable Neural Surface Reconstruction from Multi-View Images

要約

符号付き距離関数 (SDF) と微分可能ボリューム レンダリングを組み合わせることが、3D 監視なしでマルチビュー画像から表面を再構成するための強力なパラダイムとして浮上しました。
ただし、現在の方法は、長時間にわたるシーンごとの最適化が必要なため妨げられており、新しいシーンに一般化することはできません。
この論文では、エンドツーエンドの一般化可能な神経表面再構成モデ​​ルである GenS を紹介します。
シーンごとに個別のネットワークをトレーニングする座標ベースの方法とは異なり、一般化されたマルチスケール ボリュームを構築して、すべてのシーンを直接エンコードします。
既存のソリューションと比較して、私たちの表現はより強力であり、全体的な滑らかさを維持しながら高周波の詳細を復元できます。
一方、我々は、光度測定の一貫性の失敗に対して堅牢な、より識別可能なマルチスケール特徴空間でマルチビューの一貫性を課すために、マルチスケールの特徴と計量の一貫性を導入します。
また、学習可能な機能を自己強化して、マッチング精度を継続的に向上させ、集計の曖昧さを軽減することができます。
さらに、密な入力から疎な入力への幾何学的事前分布を蒸留することで、少数の視点でカバーされる領域に対してモデルがロバストになるようにビュー コントラスト損失を設計します。
人気のベンチマークに関する広範な実験により、私たちのモデルが新しいシーンにうまく一般化でき、グラウンドトゥルースの深度監視を使用する既存の最先端の方法を上回るパフォーマンスを発揮できることが示されています。
コードは https://github.com/prstrive/GenS で入手できます。

要約(オリジナル)

Combining the signed distance function (SDF) and differentiable volume rendering has emerged as a powerful paradigm for surface reconstruction from multi-view images without 3D supervision. However, current methods are impeded by requiring long-time per-scene optimizations and cannot generalize to new scenes. In this paper, we present GenS, an end-to-end generalizable neural surface reconstruction model. Unlike coordinate-based methods that train a separate network for each scene, we construct a generalized multi-scale volume to directly encode all scenes. Compared with existing solutions, our representation is more powerful, which can recover high-frequency details while maintaining global smoothness. Meanwhile, we introduce a multi-scale feature-metric consistency to impose the multi-view consistency in a more discriminative multi-scale feature space, which is robust to the failures of the photometric consistency. And the learnable feature can be self-enhanced to continuously improve the matching accuracy and mitigate aggregation ambiguity. Furthermore, we design a view contrast loss to force the model to be robust to those regions covered by few viewpoints through distilling the geometric prior from dense input to sparse input. Extensive experiments on popular benchmarks show that our model can generalize well to new scenes and outperform existing state-of-the-art methods even those employing ground-truth depth supervision. Code is available at https://github.com/prstrive/GenS.

arxiv情報

著者 Rui Peng,Xiaodong Gu,Luyang Tang,Shihe Shen,Fanqi Yu,Ronggang Wang
発行日 2024-06-04 17:13:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク