MonoNeRF: Learning a Generalizable Dynamic Radiance Field from Monocular Videos

要約

この論文では、単眼ビデオから一般化可能な動的放射輝度場を学習する問題を対象としています。
複数のビューに基づくほとんどの既存の NeRF メソッドとは異なり、単眼ビデオには各タイムスタンプで 1 つのビューしか含まれていないため、ポイント フィーチャとシーン フローを推定する際にビュー方向に沿ったあいまいさに悩まされます。
DynNeRF などの以前の研究では、位置エンコーディングによって点の特徴を明確にしていますが、これは転送できず、汎化能力を大幅に制限します。
その結果、これらの方法はシーンごとに 1 つの独立したモデルをトレーニングする必要があり、現実世界のアプリケーションで増加する単眼ビデオに適用すると、計算コストが高くなります。
これに対処するために、フレーム全体で点の軌跡と特徴の対応制約を使用して、点の特徴とシーン フローを同時に学習する MonoNeRF を提案します。
より具体的には、Neural ODE を使用して時間的特徴から点の軌跡を推定する暗黙的な速度場を学習し、その後にフローベースの特徴集約モジュールを使用して、点の軌跡に沿った空間的特徴を取得します。
ネットワークをエンドツーエンドでトレーニングすることにより、時間的および空間的特徴を共同で最適化します。
実験では、MonoNeRF が複数のシーンから学習し、シーン編集、見えないフレーム合成、新しいシーンの迅速な適応などの新しいアプリケーションをサポートできることが示されています。

要約(オリジナル)

In this paper, we target at the problem of learning a generalizable dynamic radiance field from monocular videos. Different from most existing NeRF methods that are based on multiple views, monocular videos only contain one view at each timestamp, thereby suffering from ambiguity along the view direction in estimating point features and scene flows. Previous studies such as DynNeRF disambiguate point features by positional encoding, which is not transferable and severely limits the generalization ability. As a result, these methods have to train one independent model for each scene and suffer from heavy computational costs when applying to increasing monocular videos in real-world applications. To address this, We propose MonoNeRF to simultaneously learn point features and scene flows with point trajectory and feature correspondence constraints across frames. More specifically, we learn an implicit velocity field to estimate point trajectory from temporal features with Neural ODE, which is followed by a flow-based feature aggregation module to obtain spatial features along the point trajectory. We jointly optimize temporal and spatial features by training the network in an end-to-end manner. Experiments show that our MonoNeRF is able to learn from multiple scenes and support new applications such as scene editing, unseen frame synthesis, and fast novel scene adaptation.

arxiv情報

著者 Fengrui Tian,Shaoyi Du,Yueqi Duan
発行日 2022-12-26 09:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク