NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos

要約

この論文では、マルチビュー ビデオから 3D シーン ダイナミクスをモデル化することを目的としています。
通常、トレーニング期間内で新しいビューの合成という共通のタスクに焦点を当てている既存の作品の大部分とは異なり、ビデオ フレームのみから 3D シーンのジオメトリ、外観、物理速度を同時に学習することを提案します。これにより、複数の望ましいアプリケーションで学習できるようになります。
将来のフレーム外挿、教師なし 3D セマンティック シーン分解、動的モーション転送などをサポートします。
私たちの手法は、1) キーフレームの動的放射輝度フィールド、2) フレーム間速度フィールド、3) 両方のネットワークを効果的にトレーニングするためのフレームワークの中核となる、キーフレームとフレーム間の結合最適化モジュールという 3 つの主要なコンポーネントで構成されています。
私たちの方法を検証するために、さらに 2 つの動的 3D データセット、1) 動的オブジェクト データセット、および 2) 動的屋内シーン データセットを導入します。
私たちは複数のデータセットに対して広範な実験を実施し、特に将来のフレーム外挿と教師なし 3D セマンティック シーン分解という重要なタスクにおいて、すべてのベースラインにわたってこの方法の優れたパフォーマンスを実証しています。

要約(オリジナル)

In this paper, we aim to model 3D scene dynamics from multi-view videos. Unlike the majority of existing works which usually focus on the common task of novel view synthesis within the training time period, we propose to simultaneously learn the geometry, appearance, and physical velocity of 3D scenes only from video frames, such that multiple desirable applications can be supported, including future frame extrapolation, unsupervised 3D semantic scene decomposition, and dynamic motion transfer. Our method consists of three major components, 1) the keyframe dynamic radiance field, 2) the interframe velocity field, and 3) a joint keyframe and interframe optimization module which is the core of our framework to effectively train both networks. To validate our method, we further introduce two dynamic 3D datasets: 1) Dynamic Object dataset, and 2) Dynamic Indoor Scene dataset. We conduct extensive experiments on multiple datasets, demonstrating the superior performance of our method over all baselines, particularly in the critical tasks of future frame extrapolation and unsupervised 3D semantic scene decomposition.

arxiv情報

著者 Jinxi Li,Ziyang Song,Bo Yang
発行日 2023-12-11 14:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO パーマリンク