要約
トレーニングタスクポリシーの安全性とその後の補強学習(RL)方法を使用した後続のアプリケーションは、安全なRLの分野の焦点となっています。
この分野における中心的な課題は、学習プロセスと展開プロセスの両方の間に、安全のための理論的保証の確立を依然として依然として依然として示しています。
コントロールバリア機能(CBF)ベースの安全戦略の実装が成功したことを考えると、さまざまなコントロールアフィンロボットシステムに基づく安全戦略があり、CBFベースのSAFE RLは、実際のシナリオでの実用的なアプリケーションに大きな約束を示しています。
ただし、これら2つのアプローチを統合すると、いくつかの課題があります。
第一に、RLトレーニングパイプライン内に安全最適化を埋め込むには、最適化出力が入力パラメーターに対して微分可能である必要があります。これは、一般に微分可能な最適化と呼ばれる条件であり、解決するのは自明ではありません。
第二に、微分可能な最適化フレームワークは、特にマルチコンストラリングの問題に対処する場合、重大な効率の問題に直面しています。
これらの課題に対処するために、このペーパーでは、上記の問題を効果的に軽減するCBFベースの安全なRLアーキテクチャを紹介します。
提案されたアプローチは、単一の複合CBFを使用して、複数の制約の連続的および論理近似を構築します。
この近似を活用することにより、RLのポリシーネットワークに対して二次プログラミングの密接な形式ソリューションが導出され、エンドツーエンドの安全なRLパイプライン内の微分可能な最適化の必要性を回避します。
この戦略は、安全保証を維持しながら閉じた形式のソリューションのため、計算の複雑さを大幅に削減します。
シミュレーション結果は、微分可能な最適化に依存する既存のアプローチと比較して、提案された方法がトレーニングの計算コストを大幅に削減し、トレーニングプロセス全体で証明可能な安全性を確保することを示しています。
要約(オリジナル)
The safety of training task policies and their subsequent application using reinforcement learning (RL) methods has become a focal point in the field of safe RL. A central challenge in this area remains the establishment of theoretical guarantees for safety during both the learning and deployment processes. Given the successful implementation of Control Barrier Function (CBF)-based safety strategies in a range of control-affine robotic systems, CBF-based safe RL demonstrates significant promise for practical applications in real-world scenarios. However, integrating these two approaches presents several challenges. First, embedding safety optimization within the RL training pipeline requires that the optimization outputs be differentiable with respect to the input parameters, a condition commonly referred to as differentiable optimization, which is non-trivial to solve. Second, the differentiable optimization framework confronts significant efficiency issues, especially when dealing with multi-constraint problems. To address these challenges, this paper presents a CBF-based safe RL architecture that effectively mitigates the issues outlined above. The proposed approach constructs a continuous AND logic approximation for the multiple constraints using a single composite CBF. By leveraging this approximation, a close-form solution of the quadratic programming is derived for the policy network in RL, thereby circumventing the need for differentiable optimization within the end-to-end safe RL pipeline. This strategy significantly reduces computational complexity because of the closed-form solution while maintaining safety guarantees. Simulation results demonstrate that, in comparison to existing approaches relying on differentiable optimization, the proposed method significantly reduces training computational costs while ensuring provable safety throughout the training process.
arxiv情報
著者 | Chenggang Wang,Xinyi Wang,Yutong Dong,Lei Song,Xinping Guan |
発行日 | 2025-05-01 17:22:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google