A Review of Safe Reinforcement Learning: Methods, Theory and Applications

要約

強化学習 (RL) は、多くの複雑な意思決定タスクで大きな成功を収めています。
実世界での RL の展開に関しては、通常、安全性に関する懸念が提起されるため、自動運転やロボット工学のシナリオなどで、安全な RL アルゴリズムに対する需要が高まっています。
安全制御には長い歴史がありますが、安全な RL アルゴリズムの研究はまだ初期段階にあります。
このスレッドでの将来の研究のための優れた基盤を確立するために、この論文では、方法、理論、およびアプリケーションの観点から安全な RL のレビューを提供します。
まず、安全な RL の進歩を 5 つの次元からレビューし、「2H3W」と呼ばれる現実世界のアプリケーションに安全な RL を展開するために重要な 5 つの問題を考え出します。
次に、「2H3W」の問題に答えるという観点から、理論とアルゴリズムの進歩を分析します。
次に、安全な RL 手法のサンプルの複雑さを確認して説明し、続いて安全な RL アルゴリズムのアプリケーションとベンチマークを紹介します。
最後に、このスレッドに関する将来の研究をさらに刺激することを期待して、安全な RL の挑戦的な問題の議論を開始します。
安全な RL アルゴリズムの研究を進めるために、主要な安全な RL アルゴリズムの実装を含むオープンソースのリポジトリであるベンチマーク スイートと、リンクのチュートリアルをリリースします: https://github.com/chauncygu/Safe-Reinforcement-
Learning-Baselines.git.

要約(オリジナル)

Reinforcement learning (RL) has achieved tremendous success in many complex decision making tasks. When it comes to deploying RL in the real world, safety concerns are usually raised, leading to a growing demand for safe RL algorithms, such as in autonomous driving and robotics scenarios. While safety control has a long history, the study of safe RL algorithms is still in the early stages. To establish a good foundation for future research in this thread, in this paper, we provide a review for safe RL from the perspectives of methods, theory and applications. Firstly, we review the progress of safe RL from five dimensions and come up with five problems that are crucial for safe RL being deployed in real-world applications, coined as ‘2H3W’. Secondly, we analyze the theory and algorithm progress from the perspectives of answering the ‘2H3W’ problems. Then, the sample complexity of safe RL methods is reviewed and discussed, followed by an introduction of the applications and benchmarks of safe RL algorithms. Finally, we open the discussion of the challenging problems in safe RL, hoping to inspire more future research on this thread. To advance the study of safe RL algorithms, we release a benchmark suite, an open-sourced repository containing the implementations of major safe RL algorithms, along with tutorials at the link: https://github.com/chauncygu/Safe-Reinforcement-Learning-Baselines.git.

arxiv情報

著者 Shangding Gu,Long Yang,Yali Du,Guang Chen,Florian Walter,Jun Wang,Yaodong Yang,Alois Knoll
発行日 2023-02-20 10:34:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク