On practical robust reinforcement learning: adjacent uncertainty set and double-agent algorithm

要約

ロバスト強化学習(RL)は、不確実性集合に対して最悪性能を最適化する方針を学習することを目的とする。学習用サンプルを生成する名目マルコフ決定過程(N-MDP)が与えられた場合、その集合はN-MDPにいくつかの摂動を加えて得られるMDPを含む。本論文では、既存の集合よりも現実的なMDPを含む新しい不確実性集合を導入する。この不確実性セットを用いて、表形式のケースに対するARQ-Learningと名付けられた頑健なRLを提示する。また、有限時間誤差の境界を特徴付け、実際のアプリケーションに対してより優れたロバスト性を提供しながら、Q-LearningやロバストQ-Learning(すなわち、最先端のロバストRL手法)と同程度に速く収束することを証明する。我々は、ARQ-Learningを大規模または連続的な状態空間に拡張するための重要なボトルネックに効率的に取り組む{em pessimistic agent}を提案する。この手法を用いて、まずPRQ-Learningを提案する。次に、これをDQNとDDPGと組み合わせて、それぞれPR-DQNとPR-DDPGを開発する。本技術は、他の一般的なモデルフリー手法と容易に組み合わせることができることを強調する。実験により、モデルの不確実性がある様々なRLアプリケーションにおいて、提案手法の優位性を実証する。

要約(オリジナル)

Robust reinforcement learning (RL) aims at learning a policy that optimizes the worst-case performance over an uncertainty set. Given nominal Markov decision process (N-MDP) that generates samples for training, the set contains MDPs obtained by some perturbations from N-MDP. In this paper, we introduce a new uncertainty set containing more realistic MDPs in practice than the existing sets. Using this uncertainty set, we present a robust RL, named ARQ-Learning, for tabular cases. Also, we characterize the finite-time error bounds and prove that it converges as fast as Q-Learning and robust Q-Learning (i.e., the state-of-the-art robust RL method) while providing better robustness for real applications. We propose {\em pessimistic agent} that efficiently tackles the key bottleneck for the extension of ARQ-Learning into large or continuous state spaces. Using this technique, we first propose PRQ-Learning. To the next, combining this with DQN and DDPG, we develop PR-DQN and PR-DDPG, respectively. We emphasize that our technique can be easily combined with the other popular model-free methods. Via experiments, we demonstrate the superiority of the proposed methods in various RL applications with model uncertainties.

arxiv情報

著者 Ukjo Hwang,Songnam Hong
発行日 2023-05-11 08:52:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク