要約
現在の観察と行動から将来の状態を予測する世界モデルに関心が高まるにつれて、部分レベルのダイナミクスの正確なモデリングは、さまざまなアプリケーションにますます関連するようになりました。
Puppet-Masterなどの既存のアプローチは、2Dビデオ表現の制限と遅い処理時間のために、実際の使用を実用的ではない、微調整する大規模な訓練前のビデオ拡散モデルに依存しています。
これらの課題を克服するために、静的オブジェクトのマルチビュー画像からの外観、ジオメトリ、および部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークであるPartrmを提示します。
Partrmは、大規模な3Dガウス再構成モデルに基づいており、静的オブジェクトの外観とジオメトリに関する広範な知識を活用しています。
4Dのデータ不足に対処するために、PARTDRAG-4Dデータセットを導入し、20,000を超える州でパートレベルのダイナミクスのマルチビュー観測を提供します。
さまざまな粒度でダイナミクスをキャプチャするマルチスケールのドラッグ埋め込みモジュールで、相互作用条件のモデルの理解を強化します。
微調整中の壊滅的な忘却を防ぐために、動きと外観の学習に順番に焦点を当てた2段階のトレーニングプロセスを実装します。
実験結果は、Partrmが部分レベルのモーション学習に新しい最先端の最先端を確立し、ロボット工学の操作タスクに適用できることを示しています。
私たちのコード、データ、モデルは、将来の研究を促進するために公開されています。
要約(オリジナル)
As interest grows in world models that predict future states from current observations and actions, accurately modeling part-level dynamics has become increasingly relevant for various applications. Existing approaches, such as Puppet-Master, rely on fine-tuning large-scale pre-trained video diffusion models, which are impractical for real-world use due to the limitations of 2D video representation and slow processing times. To overcome these challenges, we present PartRM, a novel 4D reconstruction framework that simultaneously models appearance, geometry, and part-level motion from multi-view images of a static object. PartRM builds upon large 3D Gaussian reconstruction models, leveraging their extensive knowledge of appearance and geometry in static objects. To address data scarcity in 4D, we introduce the PartDrag-4D dataset, providing multi-view observations of part-level dynamics across over 20,000 states. We enhance the model’s understanding of interaction conditions with a multi-scale drag embedding module that captures dynamics at varying granularities. To prevent catastrophic forgetting during fine-tuning, we implement a two-stage training process that focuses sequentially on motion and appearance learning. Experimental results show that PartRM establishes a new state-of-the-art in part-level motion learning and can be applied in manipulation tasks in robotics. Our code, data, and models are publicly available to facilitate future research.
arxiv情報
著者 | Mingju Gao,Yike Pan,Huan-ang Gao,Zongzheng Zhang,Wenyi Li,Hao Dong,Hao Tang,Li Yi,Hao Zhao |
発行日 | 2025-03-25 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google