Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling

要約

オブジェクトと対話するロボットのビデオは、オブジェクトのダイナミクスに関する豊富な情報をエンコードします。
ただし、既存のビデオ予測アプローチは通常、ロボットの動作やオブジェクトの 3D 状態などのビデオからの 3D 情報を明示的に考慮しておらず、現実世界のロボット アプリケーションでの使用が制限されています。
この研究では、ロボットの動作軌跡とシーンのダイナミクスに対するその影響を明示的に考慮することにより、マルチビュー RGB ビデオからオブジェクトのダイナミクスを直接学習するフレームワークを導入します。
3D ガウス スプラッティング (3DGS) の 3D ガウス表現を利用して、グラフ ニューラル ネットワークを使用して粒子ベースのダイナミクス モデルをトレーニングします。
このモデルは、密に追跡された 3D ガウス再構成からダウンサンプリングされた疎な制御粒子を操作します。
オフラインのロボットインタラクションデータの神経力学モデルを学習することにより、私たちの方法は、さまざまな初期構成の下でのオブジェクトの動きや目に見えないロボットの動作を予測できます。
ガウシアンの 3D 変換は制御パーティクルの動きから補間できるため、予測される将来のオブジェクトの状態のレンダリングが可能になり、アクション条件付きビデオ予測を実現できます。
ダイナミクス モデルは、オブジェクト操作タスク用のモデルベースの計画フレームワークにも適用できます。
私たちは、ロープ、衣服、動物のぬいぐるみなど、さまざまな種類の変形可能なマテリアルで実験を行い、複雑な形状やダイナミクスをモデル化するフレームワークの能力を実証します。
私たちのプロジェクト ページは https://gs-dynamics.github.io で利用できます。

要約(オリジナル)

Videos of robots interacting with objects encode rich information about the objects’ dynamics. However, existing video prediction approaches typically do not explicitly account for the 3D information from videos, such as robot actions and objects’ 3D states, limiting their use in real-world robotic applications. In this work, we introduce a framework to learn object dynamics directly from multi-view RGB videos by explicitly considering the robot’s action trajectories and their effects on scene dynamics. We utilize the 3D Gaussian representation of 3D Gaussian Splatting (3DGS) to train a particle-based dynamics model using Graph Neural Networks. This model operates on sparse control particles downsampled from the densely tracked 3D Gaussian reconstructions. By learning the neural dynamics model on offline robot interaction data, our method can predict object motions under varying initial configurations and unseen robot actions. The 3D transformations of Gaussians can be interpolated from the motions of control particles, enabling the rendering of predicted future object states and achieving action-conditioned video prediction. The dynamics model can also be applied to model-based planning frameworks for object manipulation tasks. We conduct experiments on various kinds of deformable materials, including ropes, clothes, and stuffed animals, demonstrating our framework’s ability to model complex shapes and dynamics. Our project page is available at https://gs-dynamics.github.io.

arxiv情報

著者 Mingtong Zhang,Kaifeng Zhang,Yunzhu Li
発行日 2024-10-24 17:02:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク