Reward is enough for convex MDPs

要約

マルコフ決定過程(MDP)において、マルコフかつ定常的、すなわち、状態-動作の組に対して定義され、時間に依存しない累積報酬関数を最大化することは、多くの種類の目標を捉えるのに十分である。しかし、すべてのゴールをこの方法で捕らえることができるわけではない。本論文では、目標を定常分布の凸関数として表現する凸型MDPを研究し、定常報酬関数を用いて定式化できないことを明らかにする。凸MDPは、標準的な強化学習(RL)問題の定式化を、徒弟学習、制約MDP、いわゆる「純粋探索」など、多くの教師あり・教師なしRL問題を含むより大きな枠組みへと一般化する。我々のアプローチは、凸MDP問題を、Fenchel二重性を用いて、政策とコスト(負の報酬)の「プレーヤー」を含むミニマックスゲームとして再定義することである。この問題を解くためのメタアルゴリズムを提案し、それが文献にある多くの既存のアルゴリズムを統合することを示す。

要約(オリジナル)

Maximising a cumulative reward function that is Markov and stationary, i.e., defined over state-action pairs and independent of time, is sufficient to capture many kinds of goals in a Markov decision process (MDP). However, not all goals can be captured in this manner. In this paper we study convex MDPs in which goals are expressed as convex functions of the stationary distribution and show that they cannot be formulated using stationary reward functions. Convex MDPs generalize the standard reinforcement learning (RL) problem formulation to a larger framework that includes many supervised and unsupervised RL problems, such as apprenticeship learning, constrained MDPs, and so-called `pure exploration’. Our approach is to reformulate the convex MDP problem as a min-max game involving policy and cost (negative reward) `players’, using Fenchel duality. We propose a meta-algorithm for solving this problem and show that it unifies many existing algorithms in the literature.

arxiv情報

著者 Tom Zahavy,Brendan O’Donoghue,Guillaume Desjardins,Satinder Singh
発行日 2023-06-02 12:04:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク