Global-guided Focal Neural Radiance Field for Large-scale Scene Rendering

要約

Neural Radiance Field~(NeRF) は、最近、大規模なシーンのレンダリングに適用されています。
ただし、モデルの容量が限られているため、通常はレンダリング結果がぼやけてしまいます。
既存の大規模 NeRF は、主にシーンをブロックに分割することでこの制限に対処し、その後、ブロックは個別のサブ NeRF によって処理されます。
これらのサブ NeRF は、ゼロからトレーニングされ、個別に処理されるため、シーン全体でジオメトリと外観に不一致が生じます。
その結果、モデルの容量が拡張されたにもかかわらず、レンダリング品質は大幅な向上を示せません。
この研究では、大規模なシーンの高忠実度レンダリングを実現するグローバル ガイド付き焦点神経放射場 (GF-NeRF) を紹介します。
私たちが提案する GF-NeRF は、2 段階 (グローバルおよびフォーカル) アーキテクチャとグローバルにガイドされたトレーニング戦略を利用しています。
グローバル ステージはシーン全体の連続表現を取得し、一方フォーカル ステージはシーンを複数のブロックに分解し、それらを個別のサブエンコーダーでさらに処理します。
この 2 ステージ アーキテクチャを活用することで、サブエンコーダはグローバル エンコーダに基づいた微調整のみが必要となるため、シーン全体の一貫性を維持しながら、フォーカル ステージでのトレーニングの複雑さを軽減できます。
グローバル ステージからの空間情報とエラー情報も、サブエンコーダーが重要な領域に焦点を当て、大規模なシーンの詳細を効果的にキャプチャするのに役立ちます。
特に、私たちのアプローチはターゲットシーンに関する事前知識に依存しておらず、GF-NeRFはストリートビューや航空写真シーンを含むさまざまな大規模シーンタイプに適応できると考えられています。
私たちの方法が、さまざまなタイプの大規模なデータセットに対して忠実度の高い自然なレンダリング結果を達成することを実証します。
私たちのプロジェクトページ: https://shaomq2187.github.io/GF-NeRF/

要約(オリジナル)

Neural radiance fields~(NeRF) have recently been applied to render large-scale scenes. However, their limited model capacity typically results in blurred rendering results. Existing large-scale NeRFs primarily address this limitation by partitioning the scene into blocks, which are subsequently handled by separate sub-NeRFs. These sub-NeRFs, trained from scratch and processed independently, lead to inconsistencies in geometry and appearance across the scene. Consequently, the rendering quality fails to exhibit significant improvement despite the expansion of model capacity. In this work, we present global-guided focal neural radiance field (GF-NeRF) that achieves high-fidelity rendering of large-scale scenes. Our proposed GF-NeRF utilizes a two-stage (Global and Focal) architecture and a global-guided training strategy. The global stage obtains a continuous representation of the entire scene while the focal stage decomposes the scene into multiple blocks and further processes them with distinct sub-encoders. Leveraging this two-stage architecture, sub-encoders only need fine-tuning based on the global encoder, thus reducing training complexity in the focal stage while maintaining scene-wide consistency. Spatial information and error information from the global stage also benefit the sub-encoders to focus on crucial areas and effectively capture more details of large-scale scenes. Notably, our approach does not rely on any prior knowledge about the target scene, attributing GF-NeRF adaptable to various large-scale scene types, including street-view and aerial-view scenes. We demonstrate that our method achieves high-fidelity, natural rendering results on various types of large-scale datasets. Our project page: https://shaomq2187.github.io/GF-NeRF/

arxiv情報

著者 Mingqi Shao,Feng Xiong,Hang Zhang,Shuang Yang,Mu Xu,Wei Bian,Xueqian Wang
発行日 2024-03-19 15:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク