要約
連続的な接触を伴うヒューマノイドのアクティビティは、現実世界での複雑なロボットの相互作用や操作にとって重要であり、従来はモデルベースの動作計画によって解決されていましたが、これは時間がかかり、単純化されたダイナミクス モデルに依存することがよくありました。
モデルフリー強化学習 (RL) は、多用途で堅牢な全身ヒューマノイド制御のための強力なツールとなっていますが、依然として面倒なタスク固有の調整とステート マシン設計が必要であり、接触シーケンスを含むタスクでは長期的な探索の問題に悩まされています。
この研究では、タスクを別々の接触段階に自然に分解することにより、連続接触による全身ヒューマノイド制御を学習するための統一フレームワークであるWoCoCo (Whole-Body Control with Sequential Contacts)を提案します。
このような分解により、タスクに依存しない報酬とシミュレーションから現実への設計を通じて、シンプルで一般的なポリシー学習パイプラインが容易になり、タスクごとに 1 つまたは 2 つのタスク関連用語を指定するだけで済みます。
私たちは、WoCoCo でトレーニングされたエンドツーエンドの RL ベースのコントローラーが、モーション プリアなしで現実世界での多様な接触シーケンスを含む 4 つの難しい全身ヒューマノイド タスクを可能にすることを実証しました: 1) 多用途パルクール ジャンプ、2) ボックス ロコ操作、3)
) ダイナミックな手拍子とタップのダンス、および 4) 崖沿いのクライミング。
さらに、WoCoCo を 22 自由度の恐竜ロボットの移動操作タスクに適用することで、WoCoCo がヒューマノイドを超えた一般的なフレームワークであることを示します。
要約(オリジナル)
Humanoid activities involving sequential contacts are crucial for complex robotic interactions and operations in the real world and are traditionally solved by model-based motion planning, which is time-consuming and often relies on simplified dynamics models. Although model-free reinforcement learning (RL) has become a powerful tool for versatile and robust whole-body humanoid control, it still requires tedious task-specific tuning and state machine design and suffers from long-horizon exploration issues in tasks involving contact sequences. In this work, we propose WoCoCo (Whole-Body Control with Sequential Contacts), a unified framework to learn whole-body humanoid control with sequential contacts by naturally decomposing the tasks into separate contact stages. Such decomposition facilitates simple and general policy learning pipelines through task-agnostic reward and sim-to-real designs, requiring only one or two task-related terms to be specified for each task. We demonstrated that end-to-end RL-based controllers trained with WoCoCo enable four challenging whole-body humanoid tasks involving diverse contact sequences in the real world without any motion priors: 1) versatile parkour jumping, 2) box loco-manipulation, 3) dynamic clap-and-tap dancing, and 4) cliffside climbing. We further show that WoCoCo is a general framework beyond humanoid by applying it in 22-DoF dinosaur robot loco-manipulation tasks.
arxiv情報
著者 | Chong Zhang,Wenli Xiao,Tairan He,Guanya Shi |
発行日 | 2024-06-10 04:00:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google