ResFields: Residual Neural Fields for Spatiotemporal Signals

要約

高周波信号を表すように訓練されたニューラル ネットワークのカテゴリーであるニューラル フィールドは、複雑な 3D データ、特に大きな神経符号付き距離 (SDF) または放射フィールド (NeRF) をモデリングする際の優れたパフォーマンスにより、近年大きな注目を集めています。
単一の多層パーセプトロン (MLP)。
ただし、MLP で信号を表現する能力とシンプルさにも関わらず、これらの方法は、MLP の容量が限られているため、大規模で複雑な時間信号をモデル化するときに依然として課題に直面しています。
この論文では、複雑な時間信号を効果的に表現するために特別に設計された新しいクラスのネットワークである ResFields と呼ばれるニューラル フィールドに時間残差層を組み込むことで、この制限に対処する効果的なアプローチを提案します。
私たちは、ResFields の特性の包括的な分析を実行し、訓練可能なパラメーターの数を減らし、汎化機能を強化するための行列因数分解手法を提案します。
重要なのは、私たちの定式化は既存の技術とシームレスに統合されており、2D ビデオ近似、時間 SDF による動的形状モデリング、動的 NeRF 再構築など、さまざまな困難なタスクにわたって結果を一貫して改善していることです。
最後に、軽量キャプチャ システムのまばらな感覚入力から動的 3D シーンをキャプチャする際の ResFields の有効性を示すことで、ResFields の実用性を実証します。

要約(オリジナル)

Neural fields, a category of neural networks trained to represent high-frequency signals, have gained significant attention in recent years due to their impressive performance in modeling complex 3D data, especially large neural signed distance (SDFs) or radiance fields (NeRFs) via a single multi-layer perceptron (MLP). However, despite the power and simplicity of representing signals with an MLP, these methods still face challenges when modeling large and complex temporal signals due to the limited capacity of MLPs. In this paper, we propose an effective approach to address this limitation by incorporating temporal residual layers into neural fields, dubbed ResFields, a novel class of networks specifically designed to effectively represent complex temporal signals. We conduct a comprehensive analysis of the properties of ResFields and propose a matrix factorization technique to reduce the number of trainable parameters and enhance generalization capabilities. Importantly, our formulation seamlessly integrates with existing techniques and consistently improves results across various challenging tasks: 2D video approximation, dynamic shape modeling via temporal SDFs, and dynamic NeRF reconstruction. Lastly, we demonstrate the practical utility of ResFields by showcasing its effectiveness in capturing dynamic 3D scenes from sparse sensory inputs of a lightweight capture system.

arxiv情報

著者 Marko Mihajlovic,Sergey Prokudin,Marc Pollefeys,Siyu Tang
発行日 2023-10-01 13:16:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク