ColNeRF: Collaboration for Generalizable Sparse Input Neural Radiance Field

要約

Neural Radiance Fields (NeRF) は、密な入力から新しいビューを合成する際に優れた可能性を示していますが、疎な入力を扱う場合にはその有効性が課題となります。
追加の深さまたはセマンティックな監視を組み込んだ既存のアプローチは、この問題をある程度軽減できます。
ただし、監視収集のプロセスはコストがかかるだけでなく、不正確になる可能性があり、さまざまなシナリオでのパフォーマンスや一般化能力の低下につながります。
私たちの研究では、まばらな入力で動作するように設計された Collaborative Neural Radiance Fields (ColNeRF) という新しいモデルを導入しました。
ColNeRF における連携には、まばらな入力画像間の連携と神経放射線場の出力間の連携の両方が含まれます。
これにより、さまざまなビューからの情報を調整し、同時に自己教師あり制約を課して、ジオメトリと外観の両方におけるマルチビューの一貫性を確保する新しい協調モジュールを構築します。
Collaborative Cross-View Volume Integration module (CCVI) は、複雑なオクルージョンをキャプチャし、オブジェクトの空間的位置を暗黙的に推測するために提案されています。
さらに、複数の方向に投影されるターゲット光線の自己監視を導入し、隣接する領域の幾何学的および色の一貫性を確保します。
ColNeRF は、入力端と出力端での連携の恩恵を受けて、より豊かでより一般化されたシーン表現をキャプチャできるため、新しいビュー合成の高品質な結果が容易になります。
広範な実験により、ColNeRF が最先端のスパース入力の一般化可能な NeRF メソッドよりも優れたパフォーマンスを発揮することが実証されています。
さらに、私たちのアプローチは、新しいシーンに適応するための微調整において優れており、シーンごとに最適化された NeRF ベースの手法と比較して競争力のあるパフォーマンスを達成しながら、計算コストを大幅に削減します。
私たちのコードは https://github.com/eezkni/ColNeRF で入手できます。

要約(オリジナル)

Neural Radiance Fields (NeRF) have demonstrated impressive potential in synthesizing novel views from dense input, however, their effectiveness is challenged when dealing with sparse input. Existing approaches that incorporate additional depth or semantic supervision can alleviate this issue to an extent. However, the process of supervision collection is not only costly but also potentially inaccurate, leading to poor performance and generalization ability in diverse scenarios. In our work, we introduce a novel model: the Collaborative Neural Radiance Fields (ColNeRF) designed to work with sparse input. The collaboration in ColNeRF includes both the cooperation between sparse input images and the cooperation between the output of the neural radiation field. Through this, we construct a novel collaborative module that aligns information from various views and meanwhile imposes self-supervised constraints to ensure multi-view consistency in both geometry and appearance. A Collaborative Cross-View Volume Integration module (CCVI) is proposed to capture complex occlusions and implicitly infer the spatial location of objects. Moreover, we introduce self-supervision of target rays projected in multiple directions to ensure geometric and color consistency in adjacent regions. Benefiting from the collaboration at the input and output ends, ColNeRF is capable of capturing richer and more generalized scene representation, thereby facilitating higher-quality results of the novel view synthesis. Extensive experiments demonstrate that ColNeRF outperforms state-of-the-art sparse input generalizable NeRF methods. Furthermore, our approach exhibits superiority in fine-tuning towards adapting to new scenes, achieving competitive performance compared to per-scene optimized NeRF-based methods while significantly reducing computational costs. Our code is available at: https://github.com/eezkni/ColNeRF.

arxiv情報

著者 Zhangkai Ni,Peiqi Yang,Wenhan Yang,Lin Ma,Sam Kwong
発行日 2023-12-14 16:26:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク