PreCi: Pretraining and Continual Improvement of Humanoid Locomotion via Model-Assumption-Based Regularization

要約

ヒューマノイドの移動は、その固有の複雑さと高次元のダイナミクス、および多様で予測不可能な環境に適応する必要性のために、困難な作業です。
この作業では、モデルベースのコントローラーの動作を模倣しながら、より困難な地形やより高い速度コマンドなどのより複雑な移動タスクを処理する機能を拡張するヒューマノイド移動ポリシーを効果的にトレーニングするための新しい学習フレームワークを紹介します。
私たちのフレームワークは、モデルベースのコントローラーの模倣による事前トレーニング、補強学習による微調整、および微調整中のモデルと吸収ベースの正規化(MAR)の3つの重要なコンポーネントで構成されています。
特に、MARは、壊滅的な忘却を防ぐためにモデルの仮定が当てはまる状態でのみ、モデルベースのコントローラーからのアクションとポリシーを整合させます。
フルサイズのヒューマノイドロボットでの包括的なシミュレーションテストとハードウェア実験を通じて提案されたフレームワークを評価します。桁、滑りやすい、傾斜、不均一、砂浜など、多様な地形で1.5 m/sの前方速度と堅牢な移動を実証します。

要約(オリジナル)

Humanoid locomotion is a challenging task due to its inherent complexity and high-dimensional dynamics, as well as the need to adapt to diverse and unpredictable environments. In this work, we introduce a novel learning framework for effectively training a humanoid locomotion policy that imitates the behavior of a model-based controller while extending its capabilities to handle more complex locomotion tasks, such as more challenging terrain and higher velocity commands. Our framework consists of three key components: pre-training through imitation of the model-based controller, fine-tuning via reinforcement learning, and model-assumption-based regularization (MAR) during fine-tuning. In particular, MAR aligns the policy with actions from the model-based controller only in states where the model assumption holds to prevent catastrophic forgetting. We evaluate the proposed framework through comprehensive simulation tests and hardware experiments on a full-size humanoid robot, Digit, demonstrating a forward speed of 1.5 m/s and robust locomotion across diverse terrains, including slippery, sloped, uneven, and sandy terrains.

arxiv情報

著者 Hyunyoung Jung,Zhaoyuan Gu,Ye Zhao,Hae-Won Park,Sehoon Ha
発行日 2025-04-14 03:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク