Reinforcement Learning with Delayed, Composite, and Partially Anonymous Reward

要約

タイトル:遅れた、複合的、部分的匿名報酬を伴う強化学習
要約:
– 遅れと報酬の複合機能により、ある状態における行動の結果生成される報酬が異なる構成要素に分割され、遅れて順次実現される。
– 部分匿名属性は、学習者が、ある状態において過去に異なる行動を取った結果生成された報酬要素の合計のみを観察できることを意味する。
– この設定に対して、$\mathrm{DUCRL2}$ というアルゴリズムを提案し、近似最適政策を得ることができることを示し、$\tilde{\mathcal{O}}\left(DS\sqrt{AT} + d (SA)^3\right)$という失望境界を達成することを示す。
– このことは、時間の順序において優れた結果を示し、遅延の影響に加えて、失望の影響を考慮していることを示している。

要約(オリジナル)

We investigate an infinite-horizon average reward Markov Decision Process (MDP) with delayed, composite, and partially anonymous reward feedback. The delay and compositeness of rewards mean that rewards generated as a result of taking an action at a given state are fragmented into different components, and they are sequentially realized at delayed time instances. The partial anonymity attribute implies that a learner, for each state, only observes the aggregate of past reward components generated as a result of different actions taken at that state, but realized at the observation instance. We propose an algorithm named $\mathrm{DUCRL2}$ to obtain a near-optimal policy for this setting and show that it achieves a regret bound of $\tilde{\mathcal{O}}\left(DS\sqrt{AT} + d (SA)^3\right)$ where $S$ and $A$ are the sizes of the state and action spaces, respectively, $D$ is the diameter of the MDP, $d$ is a parameter upper bounded by the maximum reward delay, and $T$ denotes the time horizon. This demonstrates the optimality of the bound in the order of $T$, and an additive impact of the delay.

arxiv情報

著者 Washim Uddin Mondal,Vaneet Aggarwal
発行日 2023-05-04 03:31:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク