Explosive Jumping with Rigid and Articulated Soft Quadrupeds via Example Guided Reinforcement Learning

要約

四足動物の制御されたジャンプ動作を達成することは、特に機械設計にパッシブコンプライアンスを導入する場合、困難な作業です。
この研究では、進歩的なトレーニングプロセスを備えた模倣ベースのディープ補強学習を介して、この課題に対処します。
まず、モデルベースの軌道最適化によって生成された粗いジャンプ例を模倣することにより、ジャンプスキルを学びます。
その後、学習したポリシーを、前方方向と横方向の両方のさまざまな距離を含む、より広範な状況に一般化し、未知の地面の不均一性で堅牢なジャンプを追求します。
さらに、報酬をあまり調整せずに、並行した弾力性を備えた4倍のジャンプポリシーを学びます。
結果は、提案された方法を使用して、i)ロボットは単一のデモンストレーションからのみ学習することで多用途のジャンプを学習することを示しています。ii)並列コンプライアンスを備えたロボットは、着陸誤差を11.1%削減し、エネルギーコストを15.2%節約し、普通の伸縮性のないロボット(III)でのパラレルエラスターでの範囲外のun(III)を越えて並列式の拡張を行うことができます。
高さ4cmの摂動)固有受容のみのみを使用します。

要約(オリジナル)

Achieving controlled jumping behaviour for a quadruped robot is a challenging task, especially when introducing passive compliance in mechanical design. This study addresses this challenge via imitation-based deep reinforcement learning with a progressive training process. To start, we learn the jumping skill by mimicking a coarse jumping example generated by model-based trajectory optimization. Subsequently, we generalize the learned policy to broader situations, including various distances in both forward and lateral directions, and then pursue robust jumping in unknown ground unevenness. In addition, without tuning the reward much, we learn the jumping policy for a quadruped with parallel elasticity. Results show that using the proposed method, i) the robot learns versatile jumps by learning only from a single demonstration, ii) the robot with parallel compliance reduces the landing error by 11.1%, saves energy cost by 15.2% and reduces the peak torque by 15.8%, compared to the rigid robot without parallel elasticity, iii) the robot can perform jumps of variable distances with robustness against ground unevenness (maximal 4cm height perturbations) using only proprioceptive perception.

arxiv情報

著者 Georgios Apostolides,Wei Pan,Jens Kober,Cosimo Della Santina,Jiatao Ding
発行日 2025-03-20 14:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク