InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions

要約

広範囲のオブジェクトと相互作用する人間の現実的なシミュレーションを達成することは、長い間基本的な目標でした。
複雑なヒトとオブジェクトの相互作用(HOI)への物理ベースの運動模倣を拡張することは、複雑なヒトオブジェクトの結合、オブジェクトジオメトリの変動性、および不正確な接触や限られた手の詳細などのモーションキャプチャデータのアーティファクトのために困難です。
Intermimicを導入します。これは、単一のポリシーが、動的および多様なオブジェクトとの多様なフルボディの相互作用をカバーする不完全なMOCAPデータから堅牢に学習することを可能にするフレームワークを導入します。
私たちの重要な洞察は、カリキュラム戦略を採用することです。最初に完璧に、次にスケールアップします。
まず、被写体固有の教師ポリシーを模倣し、リターゲット、およびモーションキャプチャデータを洗練し、洗練させます。
次に、これらの教師を学生ポリシーに蒸留します。教師は、オンライン専門家として直接監督を提供し、高品質の参照を提供します。
特に、RLの微調整を学生ポリシーに組み込み、単なるデモンストレーションの複製を超え、高品質のソリューションを実現します。
我々の実験は、相互微小なものが複数のHOIデータセットにわたって現実的で多様な相互作用を生成することを示しています。
学習したポリシーは、ゼロショットの方法で一般化され、運動学的発電機とシームレスに統合され、フレームワークを単なる模倣から複雑なヒトオブジェクト相互作用の生成モデリングに引き上げます。

要約(オリジナル)

Achieving realistic simulations of humans interacting with a wide range of objects has long been a fundamental goal. Extending physics-based motion imitation to complex human-object interactions (HOIs) is challenging due to intricate human-object coupling, variability in object geometries, and artifacts in motion capture data, such as inaccurate contacts and limited hand detail. We introduce InterMimic, a framework that enables a single policy to robustly learn from hours of imperfect MoCap data covering diverse full-body interactions with dynamic and varied objects. Our key insight is to employ a curriculum strategy — perfect first, then scale up. We first train subject-specific teacher policies to mimic, retarget, and refine motion capture data. Next, we distill these teachers into a student policy, with the teachers acting as online experts providing direct supervision, as well as high-quality references. Notably, we incorporate RL fine-tuning on the student policy to surpass mere demonstration replication and achieve higher-quality solutions. Our experiments demonstrate that InterMimic produces realistic and diverse interactions across multiple HOI datasets. The learned policy generalizes in a zero-shot manner and seamlessly integrates with kinematic generators, elevating the framework from mere imitation to generative modeling of complex human-object interactions.

arxiv情報

著者 Sirui Xu,Hung Yu Ling,Yu-Xiong Wang,Liang-Yan Gui
発行日 2025-02-27 18:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.RO パーマリンク