Adaptive Tracking of a Single-Rigid-Body Character in Various Environments

要約

DeepMimic の導入以来 [Peng et al.
2018]、その後の研究は、さまざまなシナリオにわたってシミュレートされたモーションのレパートリーを拡大することに焦点を当ててきました。
この研究では、この目標に対する代替アプローチである、単一剛体キャラクターのシミュレーションに基づく深層強化学習手法を提案します。
重心ダイナミクスモデル (CDM) を使用して全身キャラクターを単一の剛体 (SRB) として表現し、参照モーションを追跡するポリシーをトレーニングすることで、観測されていないさまざまな環境変化に適応できるポリシーとコントローラーを取得できます。
追加の学習を必要とせずに移行できます。
状態空間とアクション空間の次元が削減されるため、学習プロセスはサンプル効率が高くなります。
最終的な全身モーションは、シミュレートされた SRB キャラクターの状態に基づいて、物理的に妥当な方法で運動学的に生成されます。
SRB シミュレーションは二次計画法 (QP) 問題として定式化され、ポリシーは SRB キャラクターが参照モーションに従うことを可能にするアクションを出力します。
私たちのポリシーは、ウルトラポータブル ラップトップで 30 分以内に効率的にトレーニングされ、平らでない地形での走行や箱を押すなどの学習中に経験したことのない環境や、学習したポリシー間の移行に何もすることなく対処できる能力があることを実証しました。
追加の学習。

要約(オリジナル)

Since the introduction of DeepMimic [Peng et al. 2018], subsequent research has focused on expanding the repertoire of simulated motions across various scenarios. In this study, we propose an alternative approach for this goal, a deep reinforcement learning method based on the simulation of a single-rigid-body character. Using the centroidal dynamics model (CDM) to express the full-body character as a single rigid body (SRB) and training a policy to track a reference motion, we can obtain a policy that is capable of adapting to various unobserved environmental changes and controller transitions without requiring any additional learning. Due to the reduced dimension of state and action space, the learning process is sample-efficient. The final full-body motion is kinematically generated in a physically plausible way, based on the state of the simulated SRB character. The SRB simulation is formulated as a quadratic programming (QP) problem, and the policy outputs an action that allows the SRB character to follow the reference motion. We demonstrate that our policy, efficiently trained within 30 minutes on an ultraportable laptop, has the ability to cope with environments that have not been experienced during learning, such as running on uneven terrain or pushing a box, and transitions between learned policies, without any additional learning.

arxiv情報

著者 Taesoo Kwon,Taehong Gu,Jaewon Ahn,Yoonsang Lee
発行日 2023-08-14 22:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.LG, cs.RO パーマリンク