DynPoint: Dynamic Neural Point For View Synthesis

要約

ニューラル放射輝度フィールドの導入により、単眼ビデオのビュー合成の効率が大幅に向上しました。
ただし、既存のアルゴリズムは、制御されていないシナリオや長いシナリオを扱う場合に困難に直面しており、新しいシナリオごとに長時間のトレーニング時間が必要です。
これらの制限に対処するために、私たちは制約のない単眼ビデオの新しいビューの迅速な合成を容易にするように設計されたアルゴリズムである DynPoint を提案します。
DynPoint は、シナリオ情報全体を潜在表現にエンコードするのではなく、情報の集約を実現するために隣接するフレーム間の明示的な 3D 対応関係を予測することに集中します。
具体的には、この対応予測は、フレーム全体で一貫した奥行きとシーン フロー情報を推定することによって実現されます。
その後、取得した対応関係を利用して、階層的なニューラル点群を構築することにより、複数の参照フレームからターゲット フレームに情報を集約します。
結果として得られるフレームワークにより、ターゲット フレームの目的のビューに対する迅速かつ正確なビュー合成が可能になります。
得られた実験結果は、従来のアプローチと比較して同等の結果をもたらしながら、私たちの提案した方法によって達成されるトレーニング時間の大幅な短縮 (通常は 1 桁) を示しています。
さらに、私たちの方法は、ビデオコンテンツの正規表現を学習することなく、長時間ビデオを処理する際に強力な堅牢性を示します。

要約(オリジナル)

The introduction of neural radiance fields has greatly improved the effectiveness of view synthesis for monocular videos. However, existing algorithms face difficulties when dealing with uncontrolled or lengthy scenarios, and require extensive training time specific to each new scenario. To tackle these limitations, we propose DynPoint, an algorithm designed to facilitate the rapid synthesis of novel views for unconstrained monocular videos. Rather than encoding the entirety of the scenario information into a latent representation, DynPoint concentrates on predicting the explicit 3D correspondence between neighboring frames to realize information aggregation. Specifically, this correspondence prediction is achieved through the estimation of consistent depth and scene flow information across frames. Subsequently, the acquired correspondence is utilized to aggregate information from multiple reference frames to a target frame, by constructing hierarchical neural point clouds. The resulting framework enables swift and accurate view synthesis for desired views of target frames. The experimental results obtained demonstrate the considerable acceleration of training time achieved – typically an order of magnitude – by our proposed method while yielding comparable outcomes compared to prior approaches. Furthermore, our method exhibits strong robustness in handling long-duration videos without learning a canonical representation of video content.

arxiv情報

著者 Kaichen Zhou,Jia-Xing Zhong,Sangyun Shin,Kai Lu,Yiyuan Yang,Andrew Markham,Niki Trigoni
発行日 2023-10-29 12:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク