Neural Deformable Voxel Grid for Fast Optimization of Dynamic View Synthesis

要約

最近、Neural Radiance Fields(NeRF)は、その優れたパフォーマンスのために、新しいビュー合成(NVS)のタスクに革命をもたらしています。
ただし、NeRFとそのバリアントは、一般に、多層パーセプトロン(MLP)がキャプチャされた画像に適合される、長いシーンごとのトレーニング手順を必要とします。
課題を解決するために、ボクセルグリッド表現がトレーニングを大幅にスピードアップするために提案されました。
ただし、これらの既存のメソッドは静的シーンのみを処理できます。
効率的で正確な動的ビュー合成方法を開発する方法は、未解決の問題のままです。
静的シーンのメソッドを動的シーンに拡張することは、シーンのジオメトリと外観の両方が時間の経過とともに変化するため、簡単ではありません。
この論文では、ボクセルグリッド最適化の最近の進歩に基づいて構築され、動的シーンを処理するための高速変形可能な放射輝度フィールド法を提案します。
私たちの方法は2つのモジュールで構成されています。
最初のモジュールは、3D動的特徴を格納するための変形グリッドと、補間された特徴を使用して観測空間の3Dポイントを正規空間にマッピングする変形をデコードするための軽量MLPを採用しています。
2番目のモジュールには、シーンのジオメトリと密度をモデル化するための密度とカラーグリッドが含まれています。
オクルージョンは、レンダリング品質をさらに向上させるために明示的にモデル化されています。
実験結果は、私たちの方法がトレーニングにわずか20分を使用してD-NeRFと同等のパフォーマンスを達成することを示しています。これは、D-NeRFより70倍以上高速であり、提案された方法の効率を明確に示しています。

要約(オリジナル)

Recently, Neural Radiance Fields (NeRF) is revolutionizing the task of novel view synthesis (NVS) for its superior performance. However, NeRF and its variants generally require a lengthy per-scene training procedure, where a multi-layer perceptron (MLP) is fitted to the captured images. To remedy the challenge, the voxel-grid representation has been proposed to significantly speed up the training. However, these existing methods can only deal with static scenes. How to develop an efficient and accurate dynamic view synthesis method remains an open problem. Extending the methods for static scenes to dynamic scenes is not straightforward as both the scene geometry and appearance change over time. In this paper, built on top of the recent advances in voxel-grid optimization, we propose a fast deformable radiance field method to handle dynamic scenes. Our method consists of two modules. The first module adopts a deformation grid to store 3D dynamic features, and a light-weight MLP for decoding the deformation that maps a 3D point in observation space to the canonical space using the interpolated features. The second module contains a density and a color grid to model the geometry and density of the scene. The occlusion is explicitly modeled to further improve the rendering quality. Experimental results show that our method achieves comparable performance to D-NeRF using only 20 minutes for training, which is more than 70x faster than D-NeRF, clearly demonstrating the efficiency of our proposed method.

arxiv情報

著者 Xiang Guo,Guanying Chen,Yuchao Dai,Xiaoqing Ye,Jiadai Sun,Xiao Tan,Errui Ding
発行日 2022-06-15 17:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク