要約
私たちは、物理学に基づいたヒューマノイド制御のための包括的な運動スキルを網羅する普遍的な運動表現を提示します。
ヒューマノイドの高次元性と強化学習に固有の困難があるため、従来の方法では、特殊なモーション データセットから狭い範囲の動作スタイル (移動、ゲーム キャラクターなど) のスキルの埋め込みを学習することに重点が置かれていました。
この限定された範囲により、複雑なタスクへの適用が妨げられます。
私たちは、モーション表現空間のカバー範囲を大幅に拡大することで、このギャップを埋めます。
これを達成するために、まず、大規模な非構造化モーション データセットから人間の動きをすべて模倣できるモーション イミテーターを学習します。
次に、模倣者から直接スキルを抽出してモーション表現を作成します。
これは、変分情報のボトルネックを持つエンコーダ/デコーダ構造を使用することで実現されます。
さらに、固有受容(ヒューマノイド自身の姿勢と速度)に基づいて条件付けされた事前学習を共同で学習し、下流タスクのモデルの表現力とサンプリング効率を向上させます。
事前サンプリングにより、長く安定した多様な人間の動作を生成できます。
この潜在空間を階層 RL に使用して、ポリシーが人間のような動作を使用してタスクを解決することを示します。
VR コントローラーを使用して生成タスク (ストライク、地形横断など) とモーション トラッキングを解決することで、モーション表現の有効性を実証します。
要約(オリジナル)
We present a universal motion representation that encompasses a comprehensive range of motor skills for physics-based humanoid control. Due to the high dimensionality of humanoids and the inherent difficulties in reinforcement learning, prior methods have focused on learning skill embeddings for a narrow range of movement styles (e.g. locomotion, game characters) from specialized motion datasets. This limited scope hampers their applicability in complex tasks. We close this gap by significantly increasing the coverage of our motion representation space. To achieve this, we first learn a motion imitator that can imitate all of human motion from a large, unstructured motion dataset. We then create our motion representation by distilling skills directly from the imitator. This is achieved by using an encoder-decoder structure with a variational information bottleneck. Additionally, we jointly learn a prior conditioned on proprioception (humanoid’s own pose and velocities) to improve model expressiveness and sampling efficiency for downstream tasks. By sampling from the prior, we can generate long, stable, and diverse human motions. Using this latent space for hierarchical RL, we show that our policies solve tasks using human-like behavior. We demonstrate the effectiveness of our motion representation by solving generative tasks (e.g. strike, terrain traversal) and motion tracking using VR controllers.
arxiv情報
著者 | Zhengyi Luo,Jinkun Cao,Josh Merel,Alexander Winkler,Jing Huang,Kris Kitani,Weipeng Xu |
発行日 | 2024-04-12 03:33:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google