DynMF: Neural Motion Factorization for Real-time Dynamic View Synthesis with 3D Gaussian Splatting

要約

動的シーンとモーションを正確かつ効率的にモデリングすることは、時間的ダイナミクスとモーションの複雑さのため、非常に困難なタスクであると考えられています。
これらの課題に対処するために、動的シーンをいくつかの神経軌道に分解するコンパクトで効率的な表現である DynMF を提案します。
私たちは、動的シーンのポイントごとのモーションは、明示的な軌道または学習された軌道の小さなセットに分解できると主張します。
時間内にのみクエリされる学習済みの基底の小さなセットで構成される、慎重に設計されたニューラル フレームワークにより、3D ガウス スプラッティングと同様の 120 FPS を超えるレンダリング速度が可能になり、同時に、静的シーンと比較して 2 倍のストレージしか必要としません。
私たちのニューラル表現は、動的シーンの本質的に制約が不十分なモーション フィールドを適切に制約し、効果的かつ迅速な最適化につながります。
これは、ポイントごとに基本軌道の共有を強制するモーション係数に各ポイントを結合することによって行われます。
モーション係数にスパース性損失を慎重に適用することで、シーンを構成するモーションを解きほぐし、それらを独立して制御し、これまでに見たことのない新しいモーションの組み合わせを生成することができます。
わずか 5 分のトレーニングで最先端のレンダリング品質に達し、30 分以内に優れたフォトリアリスティックな品質でダイナミックなシーンの斬新なビューを合成できます。
私たちの表現は、単眼およびマルチビューのシナリオで、複雑な動的なシーンの動きのリアルタイムビュー合成を提供するのに十分な解釈可能で、効率的で、表現力豊かです。

要約(オリジナル)

Accurately and efficiently modeling dynamic scenes and motions is considered so challenging a task due to temporal dynamics and motion complexity. To address these challenges, we propose DynMF, a compact and efficient representation that decomposes a dynamic scene into a few neural trajectories. We argue that the per-point motions of a dynamic scene can be decomposed into a small set of explicit or learned trajectories. Our carefully designed neural framework consisting of a tiny set of learned basis queried only in time allows for rendering speed similar to 3D Gaussian Splatting, surpassing 120 FPS, while at the same time, requiring only double the storage compared to static scenes. Our neural representation adequately constrains the inherently underconstrained motion field of a dynamic scene leading to effective and fast optimization. This is done by biding each point to motion coefficients that enforce the per-point sharing of basis trajectories. By carefully applying a sparsity loss to the motion coefficients, we are able to disentangle the motions that comprise the scene, independently control them, and generate novel motion combinations that have never been seen before. We can reach state-of-the-art render quality within just 5 minutes of training and in less than half an hour, we can synthesize novel views of dynamic scenes with superior photorealistic quality. Our representation is interpretable, efficient, and expressive enough to offer real-time view synthesis of complex dynamic scene motions, in monocular and multi-view scenarios.

arxiv情報

著者 Agelos Kratimenos,Jiahui Lei,Kostas Daniilidis
発行日 2024-12-05 17:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク