Robust Quadrupedal Locomotion via Risk-Averse Policy Learning

要約

四足歩行ロボットが困難な地形を移動するためには、脚部運動のロバスト性が重要である。近年,強化学習(Reinforcement Learning: RL)が脚式ロコモーションにおいて有望な結果を示しており,様々な手法が特権抽出,シーンモデリング,外部センサを統合し,ロコモーションポリシーの汎化とロバスト性を向上させようとしている.しかし、これらの手法は、地形の急激な変化や予期せぬ外力のような不確実なシナリオを扱うことは困難である。本論文では、脚式ロコモーションのロバスト性を向上させるために、リスクを考慮した新しい視点を検討する。具体的には、環境の不確実性をモデル化するために、分位値回帰によって学習される分布的価値関数を採用し、リスク歪み尺度を介して最悪のシナリオを最適化することによってリスク回避的な政策学習を行う。シミュレーション環境と実際のAliengoロボットの両方を用いた広範な実験により、本手法が様々な外乱を効率的に扱うことができ、その結果得られた政策が、脚式ロコモーションにおける過酷で不確実な状況において、ロバスト性の向上を示すことが実証された。ビデオはhttps://risk-averse-locomotion.github.io/。

要約(オリジナル)

The robustness of legged locomotion is crucial for quadrupedal robots in challenging terrains. Recently, Reinforcement Learning (RL) has shown promising results in legged locomotion and various methods try to integrate privileged distillation, scene modeling, and external sensors to improve the generalization and robustness of locomotion policies. However, these methods are hard to handle uncertain scenarios such as abrupt terrain changes or unexpected external forces. In this paper, we consider a novel risk-sensitive perspective to enhance the robustness of legged locomotion. Specifically, we employ a distributional value function learned by quantile regression to model the aleatoric uncertainty of environments, and perform risk-averse policy learning by optimizing the worst-case scenarios via a risk distortion measure. Extensive experiments in both simulation environments and a real Aliengo robot demonstrate that our method is efficient in handling various external disturbances, and the resulting policy exhibits improved robustness in harsh and uncertain situations in legged locomotion. Videos are available at https://risk-averse-locomotion.github.io/.

arxiv情報

著者 Jiyuan Shi,Chenjia Bai,Haoran He,Lei Han,Dong Wang,Bin Zhao,Mingguo Zhao,Xiu Li,Xuelong Li
発行日 2023-09-01 07:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク