要約
平均報酬マルコフ決定過程(MDP)は、不確実性の下で逐次的な意思決定を行うための基礎的な枠組みを提供する。しかしながら、平均報酬型MDPは強化学習(RL)においてはほとんど未解明のままであり、RLに基づく取り組みの大部分はエピソード型MDPや割引型MDPに割り当てられてきた。本研究では、平均報酬型MDPのユニークな構造特性を研究し、それを利用して、平均報酬型設定において様々なサブタスクを同時に効果的かつ効率的に解くことができる新しいRLフレームワークである報酬拡張差分(RED)強化学習を導入する。本論文では、予測および制御のためのRED学習アルゴリズムのファミリーを紹介する。そして、これらのアルゴリズムが、よく知られた条件付きバリューアットリスク(CVaR)リスク尺度を、明示的な2値最適化スキームや拡張された状態空間を用いることなく、完全オンライン方式で最適化するポリシーを学習するために初めて用いられることを実証することで、その威力を示す。
要約(オリジナル)
Average-reward Markov decision processes (MDPs) provide a foundational framework for sequential decision-making under uncertainty. However, average-reward MDPs have remained largely unexplored in reinforcement learning (RL) settings, with the majority of RL-based efforts having been allocated to episodic and discounted MDPs. In this work, we study a unique structural property of average-reward MDPs and utilize it to introduce Reward-Extended Differential (or RED) reinforcement learning: a novel RL framework that can be used to effectively and efficiently solve various subtasks simultaneously in the average-reward setting. We introduce a family of RED learning algorithms for prediction and control, including proven-convergent algorithms for the tabular case. We then showcase the power of these algorithms by demonstrating how they can be used to learn a policy that optimizes, for the first time, the well-known conditional value-at-risk (CVaR) risk measure in a fully-online manner, without the use of an explicit bi-level optimization scheme or an augmented state-space.
arxiv情報
著者 | Juan Sebastian Rojas,Chi-Guhn Lee |
発行日 | 2024-12-03 16:26:09+00:00 |
arxivサイト | arxiv_id(pdf) |