Robust Quadrupedal Locomotion via Risk-Averse Policy Learning

要約

脚での移動の堅牢性は、困難な地形での四足歩行ロボットにとって非常に重要です。
最近、強化学習(RL)が脚の移動において有望な結果を示しており、さまざまな方法が特権蒸留、シーンモデリング、外部センサーを統合して移動ポリシーの一般化と堅牢性を向上させようとしています。
しかし、これらの方法は、急激な地形の変化や予期せぬ外力などの不確実なシナリオに対処するのが困難です。
この論文では、脚の移動の堅牢性を高めるための新しいリスクに敏感な観点を検討します。
具体的には、分位回帰によって学習した分布価値関数を使用して環境の偶然の不確実性をモデル化し、リスクの歪みの尺度を介して最悪のシナリオを最適化することでリスク回避型の政策学習を実行します。
シミュレーション環境と実際の Aliengo ロボットの両方での広範な実験により、私たちの方法がさまざまな外部擾乱を効率的に処理できることが実証され、その結果得られたポリシーは、脚での移動における過酷で不確実な状況におけるロバスト性の向上を示しています。
ビデオは https://risk-averse-locomotion.github.io/ でご覧いただけます。

要約(オリジナル)

The robustness of legged locomotion is crucial for quadrupedal robots in challenging terrains. Recently, Reinforcement Learning (RL) has shown promising results in legged locomotion and various methods try to integrate privileged distillation, scene modeling, and external sensors to improve the generalization and robustness of locomotion policies. However, these methods are hard to handle uncertain scenarios such as abrupt terrain changes or unexpected external forces. In this paper, we consider a novel risk-sensitive perspective to enhance the robustness of legged locomotion. Specifically, we employ a distributional value function learned by quantile regression to model the aleatoric uncertainty of environments, and perform risk-averse policy learning by optimizing the worst-case scenarios via a risk distortion measure. Extensive experiments in both simulation environments and a real Aliengo robot demonstrate that our method is efficient in handling various external disturbances, and the resulting policy exhibits improved robustness in harsh and uncertain situations in legged locomotion. Videos are available at https://risk-averse-locomotion.github.io/.

arxiv情報

著者 Jiyuan Shi,Chenjia Bai,Haoran He,Lei Han,Dong Wang,Bin Zhao,Xiu Li,Xuelong Li
発行日 2023-08-18 09:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク