要約
脚による移動は複雑な制御問題であり、現実世界の課題に対処するための精度と堅牢性の両方が必要です。
脚式システムは伝統的に、逆ダイナミクスによる軌道最適化を使用して制御されてきました。
このような階層モデルベースの手法は、直感的なコスト関数の調整、正確な計画、一般化、そして最も重要なことに、10 年以上にわたる広範な研究から得られた洞察力に富んだ理解により魅力的です。
ただし、モデルの不一致と仮定の違反は、誤った動作の一般的な原因です。
一方、シミュレーションベースの強化学習では、前例のない堅牢性と回復スキルを備えた移動ポリシーが実現します。
しかし、すべての学習アルゴリズムは、隙間や飛び石など、有効な足場が稀な環境から得られるまばらな報酬に苦戦しています。
この研究では、両方の利点を組み合わせて、より優れた堅牢性、足の配置精度、および地形の一般化を同時に達成するハイブリッド制御アーキテクチャを提案します。
私たちのアプローチでは、モデルベースのプランナーを利用して、トレーニング中に参照モーションを展開します。
ディープ ニューラル ネットワーク ポリシーはシミュレーションでトレーニングされ、最適化された足場を追跡することを目的としています。
純粋なデータ駆動型の手法では失敗しやすい、まばらな地形での移動パイプラインの精度を評価します。
さらに、モデルベースの対応物と比較して、滑りやすい地面や変形しやすい地面の存在下でも優れた堅牢性を示します。
最後に、私たちが提案する追跡コントローラーが、トレーニング中には見られなかったさまざまな軌道最適化手法を一般化することを示します。
結論として、私たちの研究は、オンライン計画の予測機能と最適性の保証と、オフライン学習に起因する固有の堅牢性を統合します。
要約(オリジナル)
Legged locomotion is a complex control problem that requires both accuracy and robustness to cope with real-world challenges. Legged systems have traditionally been controlled using trajectory optimization with inverse dynamics. Such hierarchical model-based methods are appealing due to intuitive cost function tuning, accurate planning, generalization, and most importantly, the insightful understanding gained from more than one decade of extensive research. However, model mismatch and violation of assumptions are common sources of faulty operation. Simulation-based reinforcement learning, on the other hand, results in locomotion policies with unprecedented robustness and recovery skills. Yet, all learning algorithms struggle with sparse rewards emerging from environments where valid footholds are rare, such as gaps or stepping stones. In this work, we propose a hybrid control architecture that combines the advantages of both worlds to simultaneously achieve greater robustness, foot-placement accuracy, and terrain generalization. Our approach utilizes a model-based planner to roll out a reference motion during training. A deep neural network policy is trained in simulation, aiming to track the optimized footholds. We evaluate the accuracy of our locomotion pipeline on sparse terrains, where pure data-driven methods are prone to fail. Furthermore, we demonstrate superior robustness in the presence of slippery or deformable ground when compared to model-based counterparts. Finally, we show that our proposed tracking controller generalizes across different trajectory optimization methods not seen during training. In conclusion, our work unites the predictive capabilities and optimality guarantees of online planning with the inherent robustness attributed to offline learning.
arxiv情報
著者 | Fabian Jenelten,Junzhe He,Farbod Farshidian,Marco Hutter |
発行日 | 2024-01-22 17:02:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google