Learning 3D-Gaussian Simulators from RGB Videos

要約

ビデオデータから物理学の学習シミュレーションには、空間的および時間的一貫性を維持する必要があります。これは、強力な帰納的バイアスまたはグラウンドトゥルース3D情報でしばしば対処される課題 – スケーラビリティと一般化を制限します。
マルチビューRGBビデオからオブジェクトのダイナミクスエンドツーエンドを学習する3D Physicsシミュレーターである3DGSIMを紹介します。
画像を3Dガウス粒子表現にエンコードし、変圧器を介してダイナミクスを伝播し、3Dガウスのスプラッティングを使用してフレームをレンダリングします。
3DGSimememedsの物理的特性を、明示的な接続性の制約を強制せずに、3DGSimememedsの物理的特性をポイントごとの潜在ベクトルに共同でトレーニングすることにより、ダイナミクストランスとの逆レンダリングをトレーニングすることにより。
これにより、モデルは、剛性から弾力性のある布のような相互作用まで、多様な身体的行動をキャプチャし、目に見えないマルチボディの相互作用や新しいシーンの編集にも一般化する現実的な照明効果をキャプチャできます。

要約(オリジナル)

Learning physics simulations from video data requires maintaining spatial and temporal consistency, a challenge often addressed with strong inductive biases or ground-truth 3D information — limiting scalability and generalization. We introduce 3DGSim, a 3D physics simulator that learns object dynamics end-to-end from multi-view RGB videos. It encodes images into a 3D Gaussian particle representation, propagates dynamics via a transformer, and renders frames using 3D Gaussian splatting. By jointly training inverse rendering with a dynamics transformer using a temporal encoding and merging layer, 3DGSimembeds physical properties into point-wise latent vectors without enforcing explicit connectivity constraints. This enables the model to capture diverse physical behaviors, from rigid to elastic and cloth-like interactions, along with realistic lighting effects that also generalize to unseen multi-body interactions and novel scene edits.

arxiv情報

著者 Mikel Zhobro,Andreas René Geist,Georg Martius
発行日 2025-03-31 12:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO パーマリンク