HiLo: Learning Whole-Body Human-like Locomotion with Motion Tracking Controller

要約

ディープ補強学習(RL)は、ヒューマノイドロボットの移動コントローラーを開発する有望な方法として浮上しています。
以前のRLコントローラーによって実証された堅牢で安定した移動にもかかわらず、それらの動作はしばしば、人間中心のシナリオに必要な自然で機敏なモーションパターンを欠いています。
この作業では、Hilo(モーション追跡による人間のような移動)を提案します。これは、人間のような移動を実行するRLポリシーを学習するために設計された効果的なフレームワークです。
人間のような移動の主な課題は、複雑な報酬エンジニアリングとドメインのランダム化です。
Hiloは、RLベースのモーション追跡コントローラーとランダムな力の注入と作用遅延を介して単純なドメインランダム化を開発することにより、これらの問題を克服します。
HILOのフレームワーク内で、全身制御の問題を2つのコンポーネントに分解できます。1つの部分は、オープンループ制御方法を使用して解決され、残差部分はRLポリシーでアドレス指定されます。
摂動ダイナミクスの下での累積報酬の推定を改善することにより、トレーニングプロセスを安定させるために、分布値関数も実装されています。
私たちの実験は、Hiloを使用して訓練されたモーショントラッキングコントローラーが、実際のシステムの外乱に対する回復力を示しながら、自然で機敏な人間のような移動を実行できることを示しています。
さらに、ヒューマノイドロボットのモーションパターンは、微調整せずに残留メカニズムを通じて適応できることを示し、タスク要件を迅速に調整できるようにします。

要約(オリジナル)

Deep Reinforcement Learning (RL) has emerged as a promising method to develop humanoid robot locomotion controllers. Despite the robust and stable locomotion demonstrated by previous RL controllers, their behavior often lacks the natural and agile motion patterns necessary for human-centric scenarios. In this work, we propose HiLo (human-like locomotion with motion tracking), an effective framework designed to learn RL policies that perform human-like locomotion. The primary challenges of human-like locomotion are complex reward engineering and domain randomization. HiLo overcomes these issues by developing an RL-based motion tracking controller and simple domain randomization through random force injection and action delay. Within the framework of HiLo, the whole-body control problem can be decomposed into two components: One part is solved using an open-loop control method, while the residual part is addressed with RL policies. A distributional value function is also implemented to stabilize the training process by improving the estimation of cumulative rewards under perturbed dynamics. Our experiments demonstrate that the motion tracking controller trained using HiLo can perform natural and agile human-like locomotion while exhibiting resilience to external disturbances in real-world systems. Furthermore, we show that the motion patterns of humanoid robots can be adapted through the residual mechanism without fine-tuning, allowing quick adjustments to task requirements.

arxiv情報

著者 Qiyuan Zhang,Chenfan Weng,Guanwu Li,Fulai He,Yusheng Cai
発行日 2025-02-05 12:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク