要約
私たちは、トレーニング前に複数の制約仕様が識別されない、制約付き強化学習 (RL) 問題のクラスを研究します。
報酬最大化の目標と制約満足度の間の未定義のトレードオフは、制約付きの意思決定において普遍的であるため、適切な制約仕様を特定することは困難です。
この問題に取り組むために、ポリシーと制約仕様を一緒に検索する新しい制約付き RL アプローチを提案します。
この方法は、学習目標に導入された緩和コストに従って制約を緩和する適応を特徴としています。
この特徴は、生態系が操作を変更することで混乱にどのように適応するかを模倣するため、私たちのアプローチは復元力のある制約付き RL と呼ばれます。
具体的には、復元力のある均衡の概念で制約満足と報酬の最大化のバランスを取る十分条件のセットを提供し、この均衡を最適解とする復元力のある制約付きポリシー最適化の扱いやすい定式化を提案し、2 つの復元力のある制約付きポリシー検索アルゴリズムを提唱します。
非漸近収束により、最適性ギャップと制約満足度が保証されます。
さらに、計算実験におけるアプローチの利点と有効性を実証します。
要約(オリジナル)
We study a class of constrained reinforcement learning (RL) problems in which multiple constraint specifications are not identified before training. It is challenging to identify appropriate constraint specifications due to the undefined trade-off between the reward maximization objective and the constraint satisfaction, which is ubiquitous in constrained decision-making. To tackle this issue, we propose a new constrained RL approach that searches for policy and constraint specifications together. This method features the adaptation of relaxing the constraint according to a relaxation cost introduced in the learning objective. Since this feature mimics how ecological systems adapt to disruptions by altering operation, our approach is termed as resilient constrained RL. Specifically, we provide a set of sufficient conditions that balance the constraint satisfaction and the reward maximization in notion of resilient equilibrium, propose a tractable formulation of resilient constrained policy optimization that takes this equilibrium as an optimal solution, and advocate two resilient constrained policy search algorithms with non-asymptotic convergence guarantees on the optimality gap and constraint satisfaction. Furthermore, we demonstrate the merits and the effectiveness of our approach in computational experiments.
arxiv情報
著者 | Dongsheng Ding,Zhengyan Huan,Alejandro Ribeiro |
発行日 | 2023-12-28 18:28:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google