要約
ニューラル レンダリング フィールド (NeRF) での最近の取り組みでは、3D シーンを表現するために暗黙的なニューラル表現を利用することで、新しいビュー合成に関する印象的な結果が示されました。
ボリューム レンダリングのプロセスにより、NeRF の推論速度は非常に遅くなり、モバイル デバイスなどのリソースに制約のあるハードウェアで NeRF を利用するアプリケーション シナリオが制限されます。
NeRF モデルを実行する際の待ち時間を短縮するために、多くの作業が行われてきました。
ただし、それらのほとんどは依然として高速化のためのハイエンド GPU や追加のストレージ メモリを必要とし、これらはすべてモバイル デバイスでは利用できません。
もう 1 つの新たな方向性は、高速化のためにニューラル ライト フィールド (NeLF) を利用します。これは、ピクセルの色を予測するために光線に対して 1 つのフォワード パスのみが実行されるためです。
それにもかかわらず、NeRF と同様のレンダリング品質を達成するために、NeLF のネットワークは集中的な計算で設計されており、モバイルフレンドリーではありません。
この作業では、ニューラル レンダリングのためにモバイル デバイス上でリアルタイムで実行される効率的なネットワークを提案します。
NeLF の設定に従って、ネットワークをトレーニングします。
既存の作品とは異なり、低遅延でサイズの小さいモバイル デバイスで効率的に動作する新しいネットワーク アーキテクチャを紹介します。つまり、MobileNeRF と比較して $15\times \sim 24\times$ ストレージを節約します。
私たちのモデルは、モバイル デバイス上の合成シーンと実世界のシーンの両方に対するリアルタイムの推論を維持しながら、高解像度の生成を実現します。
さらに、NeRF と同様の画質と MobileNeRF よりも優れた画質を実現しています (PSNR $26.15$ 対現実世界の前向きデータセットの $25.91$)。
要約(オリジナル)
Recent efforts in Neural Rendering Fields (NeRF) have shown impressive results on novel view synthesis by utilizing implicit neural representation to represent 3D scenes. Due to the process of volumetric rendering, the inference speed for NeRF is extremely slow, limiting the application scenarios of utilizing NeRF on resource-constrained hardware, such as mobile devices. Many works have been conducted to reduce the latency of running NeRF models. However, most of them still require high-end GPU for acceleration or extra storage memory, which is all unavailable on mobile devices. Another emerging direction utilizes the neural light field (NeLF) for speedup, as only one forward pass is performed on a ray to predict the pixel color. Nevertheless, to reach a similar rendering quality as NeRF, the network in NeLF is designed with intensive computation, which is not mobile-friendly. In this work, we propose an efficient network that runs in real-time on mobile devices for neural rendering. We follow the setting of NeLF to train our network. Unlike existing works, we introduce a novel network architecture that runs efficiently on mobile devices with low latency and small size, i.e., saving $15\times \sim 24\times$ storage compared with MobileNeRF. Our model achieves high-resolution generation while maintaining real-time inference for both synthetic and real-world scenes on mobile devices, e.g., $18.04$ms (iPhone 13) for rendering one $1008\times756$ image of real 3D scenes. Additionally, we achieve similar image quality as NeRF and better quality than MobileNeRF (PSNR $26.15$ vs. $25.91$ on the real-world forward-facing dataset).
arxiv情報
著者 | Junli Cao,Huan Wang,Pavlo Chemerys,Vladislav Shakhrai,Ju Hu,Yun Fu,Denys Makoviichuk,Sergey Tulyakov,Jian Ren |
発行日 | 2022-12-15 18:58:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google