360FusionNeRF: Panoramic Neural Radiance Fields with Joint Guidance

要約

神経放射輝度場 (NeRF) に基づいて、単一の $360^\circ$ パノラマ画像から新しいビューを合成する方法を提示します。
同様の設定での以前の研究は、多層知覚の近傍補間機能に依存して、オクルージョンによって引き起こされた欠落領域を完成させ、予測にアーティファクトをもたらしました。
360FusionNeRF を提案します。これは半教師あり学習フレームワークであり、幾何学的な教師と意味の一貫性を導入して、漸進的なトレーニング プロセスをガイドします。
最初に、入力画像が $360^\circ$ 画像に再投影され、補助深度マップが他のカメラ位置で抽出されます。
NeRF カラー ガイダンスに加えて、深度監視により、合成ビューのジオメトリが改善されます。
さらに、新しいビューの現実的なレンダリングを促進するセマンティックの一貫性の喪失を導入します。
CLIP などの事前にトレーニングされたビジュアル エンコーダーを使用して、これらのセマンティックな特徴を抽出します。CLIP は、自然言語の監視により、Web からマイニングされた何億もの多様な 2D 写真でトレーニングされたビジョン トランスフォーマーです。
実験は、提案された方法が、シーンの特徴を維持しながら、観測されていない領域のもっともらしい補完を生成できることを示しています。
さまざまなシーンでトレーニングした場合、360FusionNeRF は、合成 Structured3D データセット (PSNR~5%、SSIM~3% LPIPS~13%)、現実世界の Matterport3D データセット (PSNR~3%) に転送するときに、一貫して最先端のパフォーマンスを達成します。
、SSIM~3% LPIPS~9%) および Replica360 データセット (PSNR~8%、SSIM~2% LPIPS~18%)。

要約(オリジナル)

We present a method to synthesize novel views from a single $360^\circ$ panorama image based on the neural radiance field (NeRF). Prior studies in a similar setting rely on the neighborhood interpolation capability of multi-layer perceptions to complete missing regions caused by occlusion, which leads to artifacts in their predictions. We propose 360FusionNeRF, a semi-supervised learning framework where we introduce geometric supervision and semantic consistency to guide the progressive training process. Firstly, the input image is re-projected to $360^\circ$ images, and auxiliary depth maps are extracted at other camera positions. The depth supervision, in addition to the NeRF color guidance, improves the geometry of the synthesized views. Additionally, we introduce a semantic consistency loss that encourages realistic renderings of novel views. We extract these semantic features using a pre-trained visual encoder such as CLIP, a Vision Transformer trained on hundreds of millions of diverse 2D photographs mined from the web with natural language supervision. Experiments indicate that our proposed method can produce plausible completions of unobserved regions while preserving the features of the scene. When trained across various scenes, 360FusionNeRF consistently achieves the state-of-the-art performance when transferring to synthetic Structured3D dataset (PSNR~5%, SSIM~3% LPIPS~13%), real-world Matterport3D dataset (PSNR~3%, SSIM~3% LPIPS~9%) and Replica360 dataset (PSNR~8%, SSIM~2% LPIPS~18%).

arxiv情報

著者 Shreyas Kulkarni,Peng Yin,Sebastian Scherer
発行日 2022-09-28 17:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク