要約
ソフトロボットは、接触に対する本質安全性と適応性のおかげで人気が高まっています。
ただし、自由度は無限にある可能性があるため、モデリングは困難な作業となり、多くの場合、近似的な説明しか得られません。
この課題により、強化学習 (RL) ベースのアプローチは、モデルと実際のプラットフォームの間に大きなドメイン ギャップがあるため、現実的なシナリオに展開すると非効率になります。
この研究では、ドメイン ランダム化 (DR) が次の点でソフト ロボットの RL ポリシーを強化することで、この問題をどのように解決できるかを初めて実証します。
未知のダイナミクスパラメータ。
ii) 学習に大幅に単純化された動的モデルを利用することでトレーニング時間を短縮します。
iii) 最適なパフォーマンスを実現するための環境制約の活用につながる、より良い環境探索。
さらに、変形可能なオブジェクトのダイナミクスパラメータを自動推論するために、以前の適応ドメインランダム化手法に新しいアルゴリズム拡張を導入します。
4 つの異なるタスクと 2 つのソフト ロボット設計に関するシミュレーションで広範な評価を提供し、閉ループ ソフト ロボット制御のための強化学習に関する将来の研究に興味深い展望を開きます。
要約(オリジナル)
Soft robots are gaining popularity thanks to their intrinsic safety to contacts and adaptability. However, the potentially infinite number of Degrees of Freedom makes their modeling a daunting task, and in many cases only an approximated description is available. This challenge makes reinforcement learning (RL) based approaches inefficient when deployed on a realistic scenario, due to the large domain gap between models and the real platform. In this work, we demonstrate, for the first time, how Domain Randomization (DR) can solve this problem by enhancing RL policies for soft robots with: i) robustness w.r.t. unknown dynamics parameters; ii) reduced training times by exploiting drastically simpler dynamic models for learning; iii) better environment exploration, which can lead to exploitation of environmental constraints for optimal performance. Moreover, we introduce a novel algorithmic extension to previous adaptive domain randomization methods for the automatic inference of dynamics parameters for deformable objects. We provide an extensive evaluation in simulation on four different tasks and two soft robot designs, opening interesting perspectives for future research on Reinforcement Learning for closed-loop soft robot control.
arxiv情報
著者 | Gabriele Tiboni,Andrea Protopapa,Tatiana Tommasi,Giuseppe Averta |
発行日 | 2024-01-25 10:31:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google