要約
我々は、決定においてアプリオリな安全情報を直接考慮できる、四足歩行のための足跡計画ポリシーを提案します。
その中心となる学習プロセスは地形パッチを分析し、運動学的実現可能性、すねの衝突、地形の粗さによって各着地位置を分類します。
次に、この情報は小さなベクトル表現にエンコードされ、追加状態として足跡計画ポリシーに渡され、さらに近接ポリシー最適化 (PPO) アルゴリズムのマスクされたバリアントを適用することによって、安全な足跡位置のみが提案されます。
提案されたアプローチのパフォーマンスは、さまざまな不整地シナリオで歩行する電動四足ロボットの比較シミュレーションによって示されます。
上記の安全条件の違反がトレーニング中とその後のポリシーの展開の両方で大幅に減少し、本質的により安全なフットステップ プランナーが得られることを示します。
さらに、副産物として、ポリシーの動作を形成するために必要な報酬条件が減り、その見返りとして最終パフォーマンスとサンプル効率の両方が向上することを示します。
要約(オリジナル)
We present a footstep planning policy for quadrupedal locomotion that is able to directly take into consideration a-priori safety information in its decisions. At its core, a learning process analyzes terrain patches, classifying each landing location by its kinematic feasibility, shin collision, and terrain roughness. This information is then encoded into a small vector representation and passed as an additional state to the footstep planning policy, which furthermore proposes only safe footstep location by applying a masked variant of the Proximal Policy Optimization (PPO) algorithm. The performance of the proposed approach is shown by comparative simulations on an electric quadruped robot walking in different rough terrain scenarios. We show that violations of the above safety conditions are greatly reduced both during training and the successive deployment of the policy, resulting in an inherently safer footstep planner. Furthermore, we show how, as a byproduct, fewer reward terms are needed to shape the behavior of the policy, which in return is able to achieve both better final performances and sample efficiency
arxiv情報
| 著者 | Shafeef Omar,Lorenzo Amatucci,Victor Barasuol,Giulio Turrisi,Claudio Semini | 
| 発行日 | 2023-07-24 10:10:24+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
