要約
このホワイトペーパーでは、脚のロボットのマルチゲートポリシー学習設定のパフォーマンスと一般化に対する目標表現の影響を調べます。
この問題を単独で研究するために、複数の歩行を生成できるモデル予測コントローラーを模倣して、ポリシー学習問題をキャストします。
将来の連絡先スイッチに関する学習ポリシーを条件付けすることは、さまざまな歩行を生成できる単一のポリシーを学習するための適切な目標表現であると仮定します。
私たちの理論的根拠は、連絡先情報に条件付けられたポリシーが異なる歩行間で共有構造を活用できるということです。
私たちの広範なシミュレーション結果は、二足歩行と四葉型ロボットで複数の歩行を学ぶための私たちの仮説の妥当性を示しています。
最も興味深いことに、我々の結果は、トレーニングデータの分布外でロボットがテストされたときに、文献の他の一般的な目標表現よりも連絡先に条件付けされたポリシーがはるかに優れていることを示しています。
要約(オリジナル)
In this paper, we examine the effects of goal representation on the performance and generalization in multi-gait policy learning settings for legged robots. To study this problem in isolation, we cast the policy learning problem as imitating model predictive controllers that can generate multiple gaits. We hypothesize that conditioning a learned policy on future contact switches is a suitable goal representation for learning a single policy that can generate a variety of gaits. Our rationale is that policies conditioned on contact information can leverage the shared structure between different gaits. Our extensive simulation results demonstrate the validity of our hypothesis for learning multiple gaits on a bipedal and a quadrupedal robot. Most interestingly, our results show that contact-conditioned policies generalize much better than other common goal representations in the literature, when the robot is tested outside the distribution of the training data.
arxiv情報
著者 | Michal Ciebielski,Federico Burgio,Majid Khadiv |
発行日 | 2025-03-07 13:31:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google