要約
Neural Radiance Fields (NeRF)は、新しいビューの合成において目覚ましい成功を収めている。それにもかかわらず、新しいビューのための高品質の画像を生成するタスクは、重要な課題として残っている。既存の取り組みは賞賛に値する進歩を示しているが、複雑なディテールを捉え、テクスチャを強調し、優れたピーク信号対雑音比(PSNR)メトリクスを達成するためには、さらなる注目と進歩が必要である。本研究では、このような課題に対処するため、新しいビュー合成のための革新的な手法であるNeRF-VPTを提案する。提案するNeRF-VPTは、カスケード・ビュー・プロンプト・チューニング・パラダイムを採用しており、先行するレンダリング結果から得られたRGB情報が、後続のレンダリング段階に対する指示的な視覚プロンプトとして機能します。NeRF-VPTは、余分なガイダンスや複雑な技術に頼ることなく、各トレーニング段階で前段階のレンダリングからRGBデータをプライアとしてサンプリングするだけでよい。したがって、我々のNeRF-VPTはプラグアンドプレイであり、既存の手法に容易に統合することができます。Realistic Synthetic 360、Real Forward-Facing、Replicaデータセット、ユーザがキャプチャしたデータセットなど、要求の厳しい実シーンベンチマークにおいて、NeRFベースのアプローチに対する我々のNeRF-VPTの比較分析を実施することで、我々のNeRF-VPTがベースライン性能を大幅に向上させ、比較されたすべての最先端手法よりも高品質な新規ビュー画像を効率的に生成することを実証する。さらに、NeRF-VPTのカスケード学習は、スパース入力のシナリオへの適応性を導入し、スパースビュー新規ビュー合成の精度を大幅に向上させる。ソースコードとデータセットは∮URL{https://github.com/Freedomcls/NeRF-VPT}にあります。
要約(オリジナル)
Neural Radiance Fields (NeRF) have garnered remarkable success in novel view synthesis. Nonetheless, the task of generating high-quality images for novel views persists as a critical challenge. While the existing efforts have exhibited commendable progress, capturing intricate details, enhancing textures, and achieving superior Peak Signal-to-Noise Ratio (PSNR) metrics warrant further focused attention and advancement. In this work, we propose NeRF-VPT, an innovative method for novel view synthesis to address these challenges. Our proposed NeRF-VPT employs a cascading view prompt tuning paradigm, wherein RGB information gained from preceding rendering outcomes serves as instructive visual prompts for subsequent rendering stages, with the aspiration that the prior knowledge embedded in the prompts can facilitate the gradual enhancement of rendered image quality. NeRF-VPT only requires sampling RGB data from previous stage renderings as priors at each training stage, without relying on extra guidance or complex techniques. Thus, our NeRF-VPT is plug-and-play and can be readily integrated into existing methods. By conducting comparative analyses of our NeRF-VPT against several NeRF-based approaches on demanding real-scene benchmarks, such as Realistic Synthetic 360, Real Forward-Facing, Replica dataset, and a user-captured dataset, we substantiate that our NeRF-VPT significantly elevates baseline performance and proficiently generates more high-quality novel view images than all the compared state-of-the-art methods. Furthermore, the cascading learning of NeRF-VPT introduces adaptability to scenarios with sparse inputs, resulting in a significant enhancement of accuracy for sparse-view novel view synthesis. The source code and dataset are available at \url{https://github.com/Freedomcls/NeRF-VPT}.
arxiv情報
著者 | Linsheng Chen,Guangrun Wang,Liuchun Yuan,Keze Wang,Ken Deng,Philip H. S. Torr |
発行日 | 2024-03-02 22:08:10+00:00 |
arxivサイト | arxiv_id(pdf) |