要約
平均報酬マルコフ意思決定プロセス (MDP) は、不確実性の下での逐次的な意思決定のための基礎的なフレームワークを提供します。
しかし、平均報酬型 MDP は強化学習 (RL) 設定ではほとんど研究されておらず、RL ベースの取り組みの大部分が一時的および割引 MDP に割り当てられてきました。
この研究では、平均報酬 MDP のユニークな構造特性を研究し、それを利用して報酬拡張差分 (または RED) 強化学習を導入します。これは、平均報酬でさまざまなサブタスクを同時に効果的かつ効率的に解決するために使用できる新しい RL フレームワークです。
・報酬設定。
表形式の場合の実証済みの収束アルゴリズムを含む、予測と制御のための RED 学習アルゴリズムのファミリーを紹介します。
次に、よく知られている条件付きバリューアットリスク (CVaR) リスク尺度を初めて完全オンラインで最適化するポリシーを学習するためにアルゴリズムを使用する方法を実証することで、これらのアルゴリズムの威力を示します。
明示的なバイレベル最適化スキームまたは拡張された状態空間の使用。
要約(オリジナル)
Average-reward Markov decision processes (MDPs) provide a foundational framework for sequential decision-making under uncertainty. However, average-reward MDPs have remained largely unexplored in reinforcement learning (RL) settings, with the majority of RL-based efforts having been allocated to episodic and discounted MDPs. In this work, we study a unique structural property of average-reward MDPs and utilize it to introduce Reward-Extended Differential (or RED) reinforcement learning: a novel RL framework that can be used to effectively and efficiently solve various subtasks simultaneously in the average-reward setting. We introduce a family of RED learning algorithms for prediction and control, including proven-convergent algorithms for the tabular case. We then showcase the power of these algorithms by demonstrating how they can be used to learn a policy that optimizes, for the first time, the well-known conditional value-at-risk (CVaR) risk measure in a fully-online manner, without the use of an explicit bi-level optimization scheme or an augmented state-space.
arxiv情報
著者 | Juan Sebastian Rojas,Chi-Guhn Lee |
発行日 | 2024-12-09 15:26:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google