要約
制約付き強化学習(RL)に関する既存の研究では、訓練環境では良好な性能が得られるかもしれない。しかし、実環境に導入された場合、訓練環境と実環境の間にモデルの不一致が存在する可能性があるため、本来訓練時に満たされていた制約に容易に違反する可能性がある。上記の課題に対処するため、モデルの不確実性の下での制約付きRLとして問題を定式化し、報酬を最適化すると同時に、モデルの不一致の下での制約を満たす良いポリシーを学習することを目標とする。我々は、ロバスト制約付き政策最適化(RCPO)アルゴリズムを開発する。これは、大規模/連続的な状態空間に適用可能であり、学習中の各反復において、最悪ケースの報酬改善と制約違反に対する理論的保証を持つ初めてのアルゴリズムである。本アルゴリズムの有効性を、制約条件付きRLタスクのセットで実証する。
要約(オリジナル)
Existing studies on constrained reinforcement learning (RL) may obtain a well-performing policy in the training environment. However, when deployed in a real environment, it may easily violate constraints that were originally satisfied during training because there might be model mismatch between the training and real environments. To address the above challenge, we formulate the problem as constrained RL under model uncertainty, where the goal is to learn a good policy that optimizes the reward and at the same time satisfy the constraint under model mismatch. We develop a Robust Constrained Policy Optimization (RCPO) algorithm, which is the first algorithm that applies to large/continuous state space and has theoretical guarantees on worst-case reward improvement and constraint violation at each iteration during the training. We demonstrate the effectiveness of our algorithm on a set of RL tasks with constraints.
arxiv情報
著者 | Zhongchang Sun,Sihong He,Fei Miao,Shaofeng Zou |
発行日 | 2024-05-03 17:24:11+00:00 |
arxivサイト | arxiv_id(pdf) |