Learning Risk-Aware Quadrupedal Locomotion using Distributional Reinforcement Learning

要約

危険な環境に配備するには、事故を防ぐためにロボットが自分の行動や動きに関連するリスクを理解する必要があります。
その重要性にもかかわらず、これらのリスクは、現在導入されている脚式ロボットの移動制御装置では明示的にモデル化されていません。
本研究では、安全性を明示的に考慮するための分布強化学習を用いた、リスクに敏感な移動訓練方法を提案します。
値の期待値に依存する代わりに、ロボットと環境との相互作用における不確実性を考慮して、完全な値の分布を推定します。
値の分布は、リスクに敏感な値の推定値を抽出するためにリスク メトリックによって使用されます。
これらは、近接ポリシー最適化 (PPO) に統合され、私たちの手法である分配的近接ポリシー最適化 (DPPO) が派生します。
リスク回避からリスク追求までのリスク選好は単一のパラメータで制御でき、ロボットの動作を動的に調整できます。
重要なのは、私たちのアプローチにより、リスク感度を達成するために追加の報酬関数を調整する必要がなくなるということです。
シミュレーションと四足歩行ロボット ANYmal で、緊急時のリスクに敏感な移動動作を示します。

要約(オリジナル)

Deployment in hazardous environments requires robots to understand the risks associated with their actions and movements to prevent accidents. Despite its importance, these risks are not explicitly modeled by currently deployed locomotion controllers for legged robots. In this work, we propose a risk sensitive locomotion training method employing distributional reinforcement learning to consider safety explicitly. Instead of relying on a value expectation, we estimate the complete value distribution to account for uncertainty in the robot’s interaction with the environment. The value distribution is consumed by a risk metric to extract risk sensitive value estimates. These are integrated into Proximal Policy Optimization (PPO) to derive our method, Distributional Proximal Policy Optimization (DPPO). The risk preference, ranging from risk-averse to risk-seeking, can be controlled by a single parameter, which enables to adjust the robot’s behavior dynamically. Importantly, our approach removes the need for additional reward function tuning to achieve risk sensitivity. We show emergent risk sensitive locomotion behavior in simulation and on the quadrupedal robot ANYmal.

arxiv情報

著者 Lukas Schneider,Jonas Frey,Takahiro Miki,Marco Hutter
発行日 2023-09-25 16:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク