Discovery of skill switching criteria for learning agile quadruped locomotion

要約

このホワイトペーパーでは、適切に調整された多目的移動を学習し、実現できる階層的な学習と最適化フレームワークを開発します。
学習したマルチスキルポリシーは、arbitrarily意的に位置付けられた目標を追跡する際に、スキルを自動的かつ自然に切り替え、迅速に失敗から回復することができます。
提案されたフレームワークは、深い強化学習プロセスと最適化プロセスで構成されています。
まず、連絡先パターンは、他の参照を必要とせずに、さまざまなタイプの歩行を個別のポリシーとして学習するための報酬条件に組み込まれます。
次に、個々のポリシーの重みを生成して、目標追跡タスク設定でマルチスキルの移動を作成するために、より高いレベルのポリシーが学習されます。
スキルは、目標までの距離に応じて自動的かつ自然に切り替えられます。
スキルスイッチングの適切な距離は、高レベルのポリシーを学習するための報酬計算に組み込まれ、学習が進行するにつれて外部最適化ループによって更新されます。
最初に、シミュレートされたUNINTREE A1四足動物ロボットの包括的なタスクにおけるマルチスキルの移動が成功しました。
また、目標の位置が変化するにつれて、速歩、境界、ギャロッピング、およびその自然な移行を示す現実世界で学んだポリシーを展開しました。
さらに、学習したポリシーは、いつでも予期しない障害に反応し、迅速な回復を実行し、移動を正常に再開できます。
現実世界でのギャロッピングへの移行に失敗した単一のスキル間の個別のスイッチと比較して、提案されたアプローチは、よりスムーズで継続的なスキル移行で、学習したすべてのアジャイルスキルを達成します。

要約(オリジナル)

This paper develops a hierarchical learning and optimization framework that can learn and achieve well-coordinated multi-skill locomotion. The learned multi-skill policy can switch between skills automatically and naturally in tracking arbitrarily positioned goals and recover from failures promptly. The proposed framework is composed of a deep reinforcement learning process and an optimization process. First, the contact pattern is incorporated into the reward terms for learning different types of gaits as separate policies without the need for any other references. Then, a higher level policy is learned to generate weights for individual policies to compose multi-skill locomotion in a goal-tracking task setting. Skills are automatically and naturally switched according to the distance to the goal. The proper distances for skill switching are incorporated in reward calculation for learning the high level policy and updated by an outer optimization loop as learning progresses. We first demonstrated successful multi-skill locomotion in comprehensive tasks on a simulated Unitree A1 quadruped robot. We also deployed the learned policy in the real world showcasing trotting, bounding, galloping, and their natural transitions as the goal position changes. Moreover, the learned policy can react to unexpected failures at any time, perform prompt recovery, and resume locomotion successfully. Compared to discrete switch between single skills which failed to transition to galloping in the real world, our proposed approach achieves all the learned agile skills, with smoother and more continuous skill transitions.

arxiv情報

著者 Wanming Yu,Fernando Acero,Vassil Atanassov,Chuanyu Yang,Ioannis Havoutis,Dimitrios Kanoulas,Zhibin Li
発行日 2025-02-10 17:01:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク