要約
四足ロボットは強化学習により、さまざまな地形で優れた機動性を発揮します。
しかし、足場がまばらであったり、飛び石や平均台などの危険な地形が存在する場合には、転倒を避けるために足を正確に配置する必要があり、モデルベースのアプローチがよく使用されます。
この論文では、エンドツーエンドの強化学習により、ロボットが危険な地形を動的に移動できることを示します。
この目的を達成するために、私たちのアプローチには、無秩序でまばらな踏み台の上で機敏に移動するためのジェネラリスト ポリシーをトレーニングしてから、そこから専門的なポリシーを微調整することによって、その再利用可能な知識をさまざまなより困難な地形に移すことが含まれます。
ロボットがこれらの地形で速度を迅速に適応させる必要があることを考慮して、ロボットの動作を制約する一般的に使用される速度追跡の代わりにタスクをナビゲーション タスクとして定式化し、報酬の少なさを克服して高いロバスト性を達成するための探索戦略を提案します。
まばらな飛び石や狭い平均台上で 2.5 m/s 以上のピーク前進速度を達成する ANYmal-D ロボットのシミュレーションと現実世界の実験を通じて、提案された方法を検証します。
ビデオ: youtu.be/Z5X0J8OH6z4
要約(オリジナル)
Quadruped robots have shown remarkable mobility on various terrains through reinforcement learning. Yet, in the presence of sparse footholds and risky terrains such as stepping stones and balance beams, which require precise foot placement to avoid falls, model-based approaches are often used. In this paper, we show that end-to-end reinforcement learning can also enable the robot to traverse risky terrains with dynamic motions. To this end, our approach involves training a generalist policy for agile locomotion on disorderly and sparse stepping stones before transferring its reusable knowledge to various more challenging terrains by finetuning specialist policies from it. Given that the robot needs to rapidly adapt its velocity on these terrains, we formulate the task as a navigation task instead of the commonly used velocity tracking which constrains the robot’s behavior and propose an exploration strategy to overcome sparse rewards and achieve high robustness. We validate our proposed method through simulation and real-world experiments on an ANYmal-D robot achieving peak forward velocity of >= 2.5 m/s on sparse stepping stones and narrow balance beams. Video: youtu.be/Z5X0J8OH6z4
arxiv情報
| 著者 | Chong Zhang,Nikita Rudin,David Hoeller,Marco Hutter | 
| 発行日 | 2023-11-17 12:32:57+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
