要約
シミュレーション環境における強化学習(RL)アルゴリズムの大きな成功にもかかわらず、RLを実世界のアプリケーションに適用することは、まだ多くの課題に直面している。主な関心事は安全性、別の言葉で言えば制約充足です。状態制約(state-wise constraints)は、実世界のアプリケーションで最も一般的な制約の1つであり、安全なRLで最も困難な制約の1つです。状態制約を強制することは、自律走行やロボット操作のような多くの困難なタスクに必要かつ不可欠である。本稿では、RLにおける状態制約を扱う既存のアプローチを包括的にレビューする。状態ワイズ制約付きマルコフ決定過程(SCMDP)の枠組みの下で、(i)安全性の保証とスケーラビリティ、(ii)安全性と報酬性能、(iii)収束後の安全性と学習中の安全性の観点から、既存のアプローチの関連性、相違点、トレードオフについて議論する。また、現在の手法の限界を整理し、将来的な方向性について議論する。
要約(オリジナル)
Despite the tremendous success of Reinforcement Learning (RL) algorithms in simulation environments, applying RL to real-world applications still faces many challenges. A major concern is safety, in another word, constraint satisfaction. State-wise constraints are one of the most common constraints in real-world applications and one of the most challenging constraints in Safe RL. Enforcing state-wise constraints is necessary and essential to many challenging tasks such as autonomous driving, robot manipulation. This paper provides a comprehensive review of existing approaches that address state-wise constraints in RL. Under the framework of State-wise Constrained Markov Decision Process (SCMDP), we will discuss the connections, differences, and trade-offs of existing approaches in terms of (i) safety guarantee and scalability, (ii) safety and reward performance, and (iii) safety after convergence and during training. We also summarize limitations of current methods and discuss potential future directions.
arxiv情報
著者 | Weiye Zhao,Tairan He,Rui Chen,Tianhao Wei,Changliu Liu |
発行日 | 2023-06-30 19:12:31+00:00 |
arxivサイト | arxiv_id(pdf) |