要約
単眼の RGB ビデオから基礎となる動的 3D シーン表現を復元することは長い間困難でした。
既存の研究では、単一の動的ビデオに対応する無数の 3D シーン表現が存在する可能性があるという事実を無視して、深度事前分布や強力なジオメトリ制約などのさまざまな制約を追加することによって、この問題を定式化して単一の最も妥当な解決策を見つけています。
このペーパーでは、特定の 3D シーン構成を単に推測するのではなく、入力ビデオに一致するすべての考えられる 3D シーン構成を学習することを目的としています。
この野心的な目標を達成するために、OSN と呼ばれる新しいフレームワークを導入します。
私たちのアプローチの鍵となるのは、すべての動的 3D オブジェクトの正確なスケール範囲を学習するための、シンプルかつ革新的なオブジェクト スケール ネットワークと共同最適化モジュールです。
これにより、できるだけ多くの忠実な 3D シーン構成をサンプリングすることができます。
広範な実験により、私たちの方法がすべてのベースラインを上回り、複数の合成データセットと現実世界のデータセットでの動的新規ビュー合成において優れた精度を達成できることが示されています。
最も注目すべき点は、私たちの方法が、きめ細かい 3D シーン ジオメトリの学習において明らかな利点を示していることです。
コードとデータは https://github.com/vLAR-group/OSN で入手できます。
要約(オリジナル)
It has long been challenging to recover the underlying dynamic 3D scene representations from a monocular RGB video. Existing works formulate this problem into finding a single most plausible solution by adding various constraints such as depth priors and strong geometry constraints, ignoring the fact that there could be infinitely many 3D scene representations corresponding to a single dynamic video. In this paper, we aim to learn all plausible 3D scene configurations that match the input video, instead of just inferring a specific one. To achieve this ambitious goal, we introduce a new framework, called OSN. The key to our approach is a simple yet innovative object scale network together with a joint optimization module to learn an accurate scale range for every dynamic 3D object. This allows us to sample as many faithful 3D scene configurations as possible. Extensive experiments show that our method surpasses all baselines and achieves superior accuracy in dynamic novel view synthesis on multiple synthetic and real-world datasets. Most notably, our method demonstrates a clear advantage in learning fine-grained 3D scene geometry. Our code and data are available at https://github.com/vLAR-group/OSN
arxiv情報
著者 | Ziyang Song,Jinxi Li,Bo Yang |
発行日 | 2024-07-08 05:03:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google