要約
危険な環境にロボットを配置する場合、事故を防ぐためにロボットの行動や動作に関連するリスクを理解する必要があります。その重要性にもかかわらず、現在開発されている脚式ロボットのロコモーションコントローラでは、このようなリスクを明示的にモデル化していない。本研究では、安全性を明示的に考慮するために、分布強化学習を用いたリスクに敏感なロコモーション学習法を提案する。ロボットが環境と相互作用する際の不確実性を考慮するため、期待値に頼るのではなく、完全な値分布を推定する。この値分布は、リスクに敏感な値推定値を抽出するために、リスク指標によって消費される。これらを近接政策最適化(PPO)に統合し、我々の手法である分布近接政策最適化(DPPO)を導き出す。リスク回避からリスク追求までのリスク嗜好は、1つのパラメータで制御することができ、ロボットの行動を動的に調整することができる。重要なことは、我々のアプローチでは、リスク感度を達成するために報酬関数を調整する必要がないことである。我々は、シミュレーションと四足歩行ロボットANYmal上で、出現したリスク感受性のあるロコモーション挙動を示す。実験のビデオとコードはhttps://sites.google.com/leggedrobotics.com/risk-aware-locomotion。
要約(オリジナル)
Deployment in hazardous environments requires robots to understand the risks associated with their actions and movements to prevent accidents. Despite its importance, these risks are not explicitly modeled by currently deployed locomotion controllers for legged robots. In this work, we propose a risk sensitive locomotion training method employing distributional reinforcement learning to consider safety explicitly. Instead of relying on a value expectation, we estimate the complete value distribution to account for uncertainty in the robot’s interaction with the environment. The value distribution is consumed by a risk metric to extract risk sensitive value estimates. These are integrated into Proximal Policy Optimization (PPO) to derive our method, Distributional Proximal Policy Optimization (DPPO). The risk preference, ranging from risk-averse to risk-seeking, can be controlled by a single parameter, which enables to adjust the robot’s behavior dynamically. Importantly, our approach removes the need for additional reward function tuning to achieve risk sensitivity. We show emergent risk sensitive locomotion behavior in simulation and on the quadrupedal robot ANYmal. Videos of the experiments and code are available at https://sites.google.com/leggedrobotics.com/risk-aware-locomotion.
arxiv情報
著者 | Lukas Schneider,Jonas Frey,Takahiro Miki,Marco Hutter |
発行日 | 2024-05-03 04:39:46+00:00 |
arxivサイト | arxiv_id(pdf) |