Reduced Policy Optimization for Continuous Control with Hard Constraints

要約

制約付き強化学習 (RL) の最近の進歩により、強化学習には一定の安全性が保証されています。
ただし、一般的なハード制約を持つ連続制御タスクに既存の制約付き RL アルゴリズムを導入することは、特に非凸ハード制約のある状況では依然として困難です。
古典的な制約付き最適化手法である一般化縮小勾配 (GRG) アルゴリズムに触発され、RL と GRG を組み合わせて一般的なハード制約に対処する縮小ポリシー最適化 (RPO) アルゴリズムを提案します。
RPO は、GRG メソッドに従ってアクションを基本アクションと非基本アクションに分割し、基本アクションをポリシー ネットワーク経由で出力します。
次に、RPO は、取得した基本アクションを使用して等式制約に基づいて方程式を解くことにより、非基本アクションを計算します。
次に、ポリシー ネットワークは、基本アクションに関して非基本アクションを暗黙的に区別することによって更新されます。
さらに、減少した勾配に基づいたアクション投影手順を導入し、修正ラグランジュ緩和手法を適用して、不等式制約が確実に満たされるようにします。
私たちの知る限り、RPO は、等式と不等号の両方のハード制約を効率的に処理する方法として RL に GRG を導入した最初の試みです。
現在、複雑なハード制約を備えた RL 環境が不足していることは注目に値します。そのため、2 つのロボット操作タスクとスマート グリッド操作制御タスクという 3 つの新しいベンチマークを開発する動機になっています。
これらのベンチマークを使用すると、累積報酬と制約違反の両方の点で、RPO は以前の制約付き RL アルゴリズムよりも優れたパフォーマンスを達成します。
私たちは、RPO と新しいベンチマークによって、複雑な制約のある現実世界の問題に RL を適用する新たな機会が開かれると信じています。

要約(オリジナル)

Recent advances in constrained reinforcement learning (RL) have endowed reinforcement learning with certain safety guarantees. However, deploying existing constrained RL algorithms in continuous control tasks with general hard constraints remains challenging, particularly in those situations with non-convex hard constraints. Inspired by the generalized reduced gradient (GRG) algorithm, a classical constrained optimization technique, we propose a reduced policy optimization (RPO) algorithm that combines RL with GRG to address general hard constraints. RPO partitions actions into basic actions and nonbasic actions following the GRG method and outputs the basic actions via a policy network. Subsequently, RPO calculates the nonbasic actions by solving equations based on equality constraints using the obtained basic actions. The policy network is then updated by implicitly differentiating nonbasic actions with respect to basic actions. Additionally, we introduce an action projection procedure based on the reduced gradient and apply a modified Lagrangian relaxation technique to ensure inequality constraints are satisfied. To the best of our knowledge, RPO is the first attempt that introduces GRG to RL as a way of efficiently handling both equality and inequality hard constraints. It is worth noting that there is currently a lack of RL environments with complex hard constraints, which motivates us to develop three new benchmarks: two robotics manipulation tasks and a smart grid operation control task. With these benchmarks, RPO achieves better performance than previous constrained RL algorithms in terms of both cumulative reward and constraint violation. We believe RPO, along with the new benchmarks, will open up new opportunities for applying RL to real-world problems with complex constraints.

arxiv情報

著者 Shutong Ding,Jingya Wang,Yali Du,Ye Shi
発行日 2023-12-21 14:38:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク