ProSGNeRF: Progressive Dynamic Neural Scene Graph with Frequency Modulated Auto-Encoder in Urban Scenes

要約

暗黙的ニューラル表現は、大規模で複雑なシーンのビュー合成において有望な結果を実証しています。
ただし、既存のアプローチでは、高速で移動するオブジェクトをキャプチャできないか、カメラのエゴモーションなしでシーン グラフを構築する必要があるため、シーンの合成ビューが低品質になります。
私たちは、より実用的で挑戦的な、大規模な都市シーンと高速移動車両のビュー合成問題を共同で解決することを目指しています。
この目的を達成するために、まずグラフ構造を活用して、動的オブジェクトと背景のローカル シーン表現を学習します。
次に、時間ウィンドウ内のフレームでトレーニングされた新しいローカル シーン グラフを動的に割り当てるプログレッシブ スキームを設計し、表現を任意の大きなシーンにスケールアップできるようにします。
さらに、都市シーンのトレーニング ビューは比較的まばらであるため、動的オブジェクトの再構成精度が大幅に低下します。
したがって、潜在コードをエンコードし、オブジェクトの周波数範囲を正規化する周波数自動エンコーダー ネットワークを設計します。これにより、動的オブジェクトの表現が向上し、まばらな画像入力の問題に対処できます。
さらに、LIDAR ポイント投影を採用して、大規模な都市シーンでのジオメトリの一貫性を維持します。
実験結果は、私たちの方法が最先端のビュー合成精度、オブジェクト操作、およびシーンローミング能力を達成していることを示しています。
コードは書類が受理され次第、オープンソース化されます。

要約(オリジナル)

Implicit neural representation has demonstrated promising results in view synthesis for large and complex scenes. However, existing approaches either fail to capture the fast-moving objects or need to build the scene graph without camera ego-motions, leading to low-quality synthesized views of the scene. We aim to jointly solve the view synthesis problem of large-scale urban scenes and fast-moving vehicles, which is more practical and challenging. To this end, we first leverage a graph structure to learn the local scene representations of dynamic objects and the background. Then, we design a progressive scheme that dynamically allocates a new local scene graph trained with frames within a temporal window, allowing us to scale up the representation to an arbitrarily large scene. Besides, the training views of urban scenes are relatively sparse, which leads to a significant decline in reconstruction accuracy for dynamic objects. Therefore, we design a frequency auto-encoder network to encode the latent code and regularize the frequency range of objects, which can enhance the representation of dynamic objects and address the issue of sparse image inputs. Additionally, we employ lidar point projection to maintain geometry consistency in large-scale urban scenes. Experimental results demonstrate that our method achieves state-of-the-art view synthesis accuracy, object manipulation, and scene roaming ability. The code will be open-sourced upon paper acceptance.

arxiv情報

著者 Tianchen Deng,Siyang Liu,Xuan Wang,Yejia Liu,Danwei Wang,Weidong Chen
発行日 2023-12-14 16:11:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク