要約
この論文では、3Dシーンのジオメトリ、外観、および基礎となる物理学を純粋にマルチビュービデオからモデル化することを目指しています。
さまざまな統治PDEをPINN損失として適用したり、物理シミュレーションをニューラルネットワークに組み込むことにより、既存の作業は境界で複雑な物理的運動を学習したり、マスクやタイプなどのオブジェクト事前に必要としないことがよくあります。
このホワイトペーパーでは、オブジェクトのプライアーを必要とせずに複雑な動的3Dシーンの物理学を学ぶことをFreegaveに提案します。
私たちのアプローチの鍵は、物理学コードを導入することです。その後、非効率的なPINN損失に依存することなく、ガウスごとの速度フィールドを推定するための慎重に設計された発散フリーモジュールが続くことです。
3つのパブリックデータセットと新しく収集された挑戦的な実世界のデータセットに関する広範な実験は、将来のフレームの外挿とモーションセグメンテーションのための私たちの方法の優れたパフォーマンスを示しています。
最も注目すべきは、学んだ物理コードの調査は、トレーニング中の人間のラベルがない場合に意味のある3D物理運動パターンを本当に学習することを明らかにしています。
要約(オリジナル)
In this paper, we aim to model 3D scene geometry, appearance, and the underlying physics purely from multi-view videos. By applying various governing PDEs as PINN losses or incorporating physics simulation into neural networks, existing works often fail to learn complex physical motions at boundaries or require object priors such as masks or types. In this paper, we propose FreeGave to learn the physics of complex dynamic 3D scenes without needing any object priors. The key to our approach is to introduce a physics code followed by a carefully designed divergence-free module for estimating a per-Gaussian velocity field, without relying on the inefficient PINN losses. Extensive experiments on three public datasets and a newly collected challenging real-world dataset demonstrate the superior performance of our method for future frame extrapolation and motion segmentation. Most notably, our investigation into the learned physics codes reveals that they truly learn meaningful 3D physical motion patterns in the absence of any human labels in training.
arxiv情報
著者 | Jinxi Li,Ziyang Song,Siyuan Zhou,Bo Yang |
発行日 | 2025-06-09 15:31:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google