要約
ヒューマノイドの全身制御は、問題の高次元な性質と、二足歩行の形態に固有の不安定性があるため、困難です。
視覚的な観察から学習すると、この困難はさらに悪化します。
この研究では、単純化する仮定、報酬設計、スキルのプリミティブを一切使用せずに、強化学習に基づいた視覚的な全身ヒューマノイド制御への高度なデータ駆動型のアプローチを探求します。
具体的には、高レベルのエージェントが視覚的観察に基づいて低レベルのエージェントが実行するコマンドを生成する階層的世界モデルを提案します。両方のコマンドは報酬でトレーニングされます。
私たちのアプローチは、人間が広く好む動きを合成しながら、シミュレートされた 56-DoF ヒューマノイドを使用して 8 つのタスクで高性能の制御ポリシーを生成します。
コードとビデオ: https://nicklashansen.com/rlpuppeteer
要約(オリジナル)
Whole-body control for humanoids is challenging due to the high-dimensional nature of the problem, coupled with the inherent instability of a bipedal morphology. Learning from visual observations further exacerbates this difficulty. In this work, we explore highly data-driven approaches to visual whole-body humanoid control based on reinforcement learning, without any simplifying assumptions, reward design, or skill primitives. Specifically, we propose a hierarchical world model in which a high-level agent generates commands based on visual observations for a low-level agent to execute, both of which are trained with rewards. Our approach produces highly performant control policies in 8 tasks with a simulated 56-DoF humanoid, while synthesizing motions that are broadly preferred by humans. Code and videos: https://nicklashansen.com/rlpuppeteer
arxiv情報
著者 | Nicklas Hansen,Jyothir S V,Vlad Sobal,Yann LeCun,Xiaolong Wang,Hao Su |
発行日 | 2024-05-31 17:03:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google