Behavior evolution-inspired approach to walking gait reinforcement training for quadruped robots

要約

強化学習法は、四足ロボットの歩容生成技術において非常に競争力が高く、その主な理由は、強化訓練における確率的探索が自律歩行の実現に有益であるという事実によるものです。
それにも関わらず、手足の動きに固有の連続性に依存してトレーニングの成功と動きの滑らかさを改善するために増分強化学習が採用されていますが、多様な地形や外乱に歩行方針を適応させるには課題が残っています。
強化学習と動物の運動行動の進化との関連にヒントを得て、基準歩行の自己改善メカニズムがこの論文で導入され、動物の運動行動の進化を模倣するために行動の増分学習と基準行動の自己改善を同時に行うことが可能になります。

さらに、四足歩行の強化トレーニングのための新しいフレームワークを提案します。
このフレームワークでは、遺伝的アルゴリズムが特に採用され、任意の足の軌道の初期値に対して大域的な確率的検索を実行し、より適切な適合性で基準軌道を更新します。
その後、改善された基準歩容は歩容の増分強化学習に使用されます。
以上の処理を交互に繰り返し実行することにより、最終的に歩行方針が学習される。
地形、モデルの寸法、移動条件を考慮した解析はシミュレーションに基づいて詳細に示されており、その結果は、フレームワークが通常の増分強化学習と比較して地形への適応性が大幅に高いことを示しています。

要約(オリジナル)

Reinforcement learning method is extremely competitive in gait generation techniques for quadrupedal robot, which is mainly due to the fact that stochastic exploration in reinforcement training is beneficial to achieve an autonomous gait. Nevertheless, although incremental reinforcement learning is employed to improve training success and movement smoothness by relying on the continuity inherent during limb movements, challenges remain in adapting gait policy to diverse terrain and external disturbance. Inspired by the association between reinforcement learning and the evolution of animal motion behavior, a self-improvement mechanism for reference gait is introduced in this paper to enable incremental learning of action and self-improvement of reference action together to imitate the evolution of animal motion behavior. Further, a new framework for reinforcement training of quadruped gait is proposed. In this framework, genetic algorithm is specifically adopted to perform global probabilistic search for the initial value of the arbitrary foot trajectory to update the reference trajectory with better fitness. Subsequently, the improved reference gait is used for incremental reinforcement learning of gait. The above process is repeatedly and alternatively executed to finally train the gait policy. The analysis considering terrain, model dimensions, and locomotion condition is presented in detail based on simulation, and the results show that the framework is significantly more adaptive to terrain compared to regular incremental reinforcement learning.

arxiv情報

著者 Yu Wang,Wenchuan Jia,Yi Sun,Dong He
発行日 2024-09-25 12:20:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク