ADD: Physics-Based Motion Imitation with Adversarial Differential Discriminators

要約

複数の用語の同時最適化を必要とする多目的最適化問題は、多数のアプリケーションで一般的です。
既存の多目的最適化方法は、多くの場合、手動で調整された集約関数に依存して、共同最適化ターゲットを策定します。
このような手で調整された方法のパフォーマンスは、慎重な重量選択、時間のかかる面倒なプロセスに大きく依存しています。
これらの制限は、物理的にシミュレートされたキャラクターの補強学習ベースのモーション追跡の設定でも発生します。ここでは、複雑に作成された報酬機能が通常、高忠実度の結果を達成するために使用されます。
このようなソリューションは、ドメインの専門知識と重要な手動調整を必要とするだけでなく、多様なスキル全体で結果の報酬機能の適用性を制限します。
このギャップを埋めるために、モーショントラッキングを含むさまざまな多目的最適化問題に広く適用できる、新しい敵対的な多目的最適化手法を提示します。
提案されている敵対的な差別装置は、単一の正のサンプルを受け取りますが、最適化プロセスの指導にはまだ効果的です。
当社の手法により、キャラクターはさまざまなアクロバティックでアジャイルな行動を密接に複製できることを実証し、手動で調整された報酬機能に依存することなく、最先端のモーショントラッキング方法に匹敵する品質を達成できます。
結果は、https://youtu.be/rz8byce9e2wを通じて最もよく視覚化されています。

要約(オリジナル)

Multi-objective optimization problems, which require the simultaneous optimization of multiple terms, are prevalent across numerous applications. Existing multi-objective optimization methods often rely on manually tuned aggregation functions to formulate a joint optimization target. The performance of such hand-tuned methods is heavily dependent on careful weight selection, a time-consuming and laborious process. These limitations also arise in the setting of reinforcement-learning-based motion tracking for physically simulated characters, where intricately crafted reward functions are typically used to achieve high-fidelity results. Such solutions not only require domain expertise and significant manual adjustment, but also limit the applicability of the resulting reward function across diverse skills. To bridge this gap, we present a novel adversarial multi-objective optimization technique that is broadly applicable to a range of multi-objective optimization problems, including motion tracking. The proposed adversarial differential discriminator receives a single positive sample, yet is still effective at guiding the optimization process. We demonstrate that our technique can enable characters to closely replicate a variety of acrobatic and agile behaviors, achieving comparable quality to state-of-the-art motion-tracking methods, without relying on manually tuned reward functions. Results are best visualized through https://youtu.be/rz8BYCE9E2w.

arxiv情報

著者 Ziyu Zhang,Sergey Bashkirov,Dun Yang,Michael Taylor,Xue Bin Peng
発行日 2025-05-08 05:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO パーマリンク