Handling Long-Term Safety and Uncertainty in Safe Reinforcement Learning

要約

安全性は、現実世界のロボットへの強化学習技術の導入を妨げる重要な問題の 1 つです。
安全な強化学習分野のほとんどのアプローチは、制約やロボットの運動学に関する事前の知識を必要とせず、データのみに依存しますが、それらを複雑な現実世界の設定に導入するのは困難なことがよくあります。
代わりに、制約とダイナミクスに関する事前の知識を学習フレームワークに組み込むモデルベースのアプローチは、学習アルゴリズムを実際のロボットに直接展開できることが証明されています。
残念ながら、ロボットのダイナミクスの近似モデルは多くの場合利用可能ですが、安全制約はタスク固有であり、入手するのが困難です。分析的にエンコードするには複雑すぎたり、計算コストが高すぎたり、または事前に予測するのが難しい場合があります。
長期的な安全要件。
この論文では、長期的な安全性の確保と不確実性の処理に特に重点を置き、学習可能な制約を備えた安全探査手法である ATACOM を拡張することで、このギャップを埋めます。
私たちのアプローチは、トレーニング中のより安全な行動を維持しながら、最終的なパフォーマンスにおいて最先端の方法に匹敵するか、それよりも優れています。

要約(オリジナル)

Safety is one of the key issues preventing the deployment of reinforcement learning techniques in real-world robots. While most approaches in the Safe Reinforcement Learning area do not require prior knowledge of constraints and robot kinematics and rely solely on data, it is often difficult to deploy them in complex real-world settings. Instead, model-based approaches that incorporate prior knowledge of the constraints and dynamics into the learning framework have proven capable of deploying the learning algorithm directly on the real robot. Unfortunately, while an approximated model of the robot dynamics is often available, the safety constraints are task-specific and hard to obtain: they may be too complicated to encode analytically, too expensive to compute, or it may be difficult to envision a priori the long-term safety requirements. In this paper, we bridge this gap by extending the safe exploration method, ATACOM, with learnable constraints, with a particular focus on ensuring long-term safety and handling of uncertainty. Our approach is competitive or superior to state-of-the-art methods in final performance while maintaining safer behavior during training.

arxiv情報

著者 Jonas Günster,Puze Liu,Jan Peters,Davide Tateo
発行日 2024-09-18 15:08:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク