要約
タイトル:DiffMimic:可微分物理学を利用した効率的な動作模倣
要約:
– 物理ベースのキャラクターアニメーションにおいて、動作模倣は基礎的なタスクである。
– しかし、既存の動作模倣手法のほとんどは強化学習(RL)に基づいており、報酬工学の難しさ、高い分散、困難な探索と収束の遅さなどの問題を抱えている。
– 特に、単純な動作シーケンスの模倣に数時間または数日ものトレーニングが必要であり、スケーラビリティが悪い。
– 本研究では、可微分物理シミュレーター(DPS)を活用し、DiffMimicと呼ばれる効率的な動作模倣手法を提案している。
– 私たちの主な洞察力は、DPSが、より簡単な状態一致の問題に複雑なポリシー学習タスクを変換することである。
– 特に、DPSは、グラウンドトゥルースの物理的な優先順位による解析的な勾配によって安定したポリシーを学習するため、RLベースの方法よりもはるかに速く、安定して収束する。
– さらに、局所的な最適解から脱出するために、デモンストレーションリプレイメカニズムを利用して、長い時間軸で安定した勾配逆伝播を可能にする。
– 標準的なベンチマーク実験の結果、DiffMimicは、既存の手法(例:DeepMimic)よりもサンプル効率性と時間効率性が高いことが判明した。
– 特に、DiffMimicを使用すると、物理的にシミュレートされたキャラクターは10分でBackflipを学習し、3時間のトレーニングでサイクルすることができるようになります。一方、既存の手法では、Backflipのサイクルに約1日のトレーニングが必要な場合がある。
– さらに、私たちは、将来的な研究において可微分の衣服シミュレーションなどの技術を取り入れたより多くの可微分アニメーションシステムにDiffMimicが役立つことを期待しています。
要約(オリジナル)
Motion mimicking is a foundational task in physics-based character animation. However, most existing motion mimicking methods are built upon reinforcement learning (RL) and suffer from heavy reward engineering, high variance, and slow convergence with hard explorations. Specifically, they usually take tens of hours or even days of training to mimic a simple motion sequence, resulting in poor scalability. In this work, we leverage differentiable physics simulators (DPS) and propose an efficient motion mimicking method dubbed DiffMimic. Our key insight is that DPS casts a complex policy learning task to a much simpler state matching problem. In particular, DPS learns a stable policy by analytical gradients with ground-truth physical priors hence leading to significantly faster and stabler convergence than RL-based methods. Moreover, to escape from local optima, we utilize a Demonstration Replay mechanism to enable stable gradient backpropagation in a long horizon. Extensive experiments on standard benchmarks show that DiffMimic has a better sample efficiency and time efficiency than existing methods (e.g., DeepMimic). Notably, DiffMimic allows a physically simulated character to learn Backflip after 10 minutes of training and be able to cycle it after 3 hours of training, while the existing approach may require about a day of training to cycle Backflip. More importantly, we hope DiffMimic can benefit more differentiable animation systems with techniques like differentiable clothes simulation in future research.
arxiv情報
著者 | Jiawei Ren,Cunjun Yu,Siwei Chen,Xiao Ma,Liang Pan,Ziwei Liu |
発行日 | 2023-04-26 06:29:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI