要約
データ駆動型学習ベースの手法は、最近、さまざまな非構造化地形に対する堅牢な移動コントローラーの学習に特に成功しています。
これまでの研究では、軌道ジェネレータ (TG) の形で優れた移動事前学習を組み込むことが、複雑な移動スキルを効率的に学習するのに効果的であることが示されています。
ただし、タスク/環境がますます複雑になる中、適切な単一の TG を定義することは、広範な調整が必要であり、以前の TG の有効性が低下するリスクがあるため、依然として困難な問題です。
この論文では、Policies Modulated TG (PMTG) アーキテクチャ内で単一のポリシーを維持しながら、Quality-Diversity アルゴリズムを使用して特殊な移動事前分布の多様なセットを学習する方法である Evolved Environmental Trajectory Generators (EETG) を紹介します。
この結果は、EETG により、四足歩行ロボットが坂道、階段、起伏の多い地形、平均台などの幅広い環境をうまく移動できることを示しています。
私たちの実験では、幅広い環境を扱う場合、特殊な TG 事前分布の多様なセットを学習する方が、単一の固定事前分布を使用するよりも大幅 (5 倍) 効率的であることが示されています。
要約(オリジナル)
Data-driven learning based methods have recently been particularly successful at learning robust locomotion controllers for a variety of unstructured terrains. Prior work has shown that incorporating good locomotion priors in the form of trajectory generators (TGs) is effective at efficiently learning complex locomotion skills. However, defining a good, single TG as tasks/environments become increasingly more complex remains a challenging problem as it requires extensive tuning and risks reducing the effectiveness of the prior. In this paper, we present Evolved Environmental Trajectory Generators (EETG), a method that learns a diverse set of specialised locomotion priors using Quality-Diversity algorithms while maintaining a single policy within the Policies Modulating TG (PMTG) architecture. The results demonstrate that EETG enables a quadruped robot to successfully traverse a wide range of environments, such as slopes, stairs, rough terrain, and balance beams. Our experiments show that learning a diverse set of specialized TG priors is significantly (5 times) more efficient than using a single, fixed prior when dealing with a wide range of environments.
arxiv情報
著者 | Shikha Surana,Bryan Lim,Antoine Cully |
発行日 | 2023-06-22 16:33:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google