$C^{3}$-NeRF: Modeling Multiple Scenes via Conditional-cum-Continual Neural Radiance Fields

要約

Neural Radiance Field (NeRF) は、単一の 3D シーンに対するシーンごとの最適化を通じて、新しいビューの非常にフォトリアリスティックなレンダリングを示しました。
NeRF とその亜種の人気が高まるにつれて、それらは遍在するようになり、効率的な 3D リソースとして認識されるようになりました。
ただし、シーンごとに個別のモデルを保存する必要があり、新たにシーンが追加されるたびにトレーニング時間が直線的に増加するため、スケーラブルとは程遠いです。
驚くべきことに、複数の 3D シーンを 1 つの NeRF モデルにエンコードするというアイデアは、あまり検討されていません。
この研究では、複数のシーンを単一の神経放射フィールドのパラメータに収容するために、$C^{3}$-NeRF と呼ばれる新しい条件付き連続フレームワークを提案します。
シーンの調整に特徴抽出器と事前トレーニングされた事前変数を利用する従来のアプローチとは異なり、NeRF では単純な擬似シーン ラベルを使用して複数のシーンをモデル化します。
興味深いことに、このフレームワークは本質的に (生成再生を介して) 継続的であり、以前に学習したシーンの忘れは、ないにせよ最小限であることがわかります。
その結果、提案されたフレームワークは、必ずしも古いデータにアクセスすることなく、複数の新しいシーンに適応します。
合成データセットと実際のデータセットを使用した広範な定性的および定量的評価を通じて、パラメーターを追加せずに高品質の新規ビュー レンダリングで複数のシーンに対応する NeRF モデルの固有の能力を実証します。
実装の詳細と結果の動的な視覚化を補足ファイルで提供します。

要約(オリジナル)

Neural radiance fields (NeRF) have exhibited highly photorealistic rendering of novel views through per-scene optimization over a single 3D scene. With the growing popularity of NeRF and its variants, they have become ubiquitous and have been identified as efficient 3D resources. However, they are still far from being scalable since a separate model needs to be stored for each scene, and the training time increases linearly with every newly added scene. Surprisingly, the idea of encoding multiple 3D scenes into a single NeRF model is heavily under-explored. In this work, we propose a novel conditional-cum-continual framework, called $C^{3}$-NeRF, to accommodate multiple scenes into the parameters of a single neural radiance field. Unlike conventional approaches that leverage feature extractors and pre-trained priors for scene conditioning, we use simple pseudo-scene labels to model multiple scenes in NeRF. Interestingly, we observe the framework is also inherently continual (via generative replay) with minimal, if not no, forgetting of the previously learned scenes. Consequently, the proposed framework adapts to multiple new scenes without necessarily accessing the old data. Through extensive qualitative and quantitative evaluation using synthetic and real datasets, we demonstrate the inherent capacity of the NeRF model to accommodate multiple scenes with high-quality novel-view renderings without adding additional parameters. We provide implementation details and dynamic visualizations of our results in the supplementary file.

arxiv情報

著者 Prajwal Singh,Ashish Tiwari,Gautam Vashishtha,Shanmuganathan Raman
発行日 2024-11-29 18:05:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク