Reinforcement Learning with Delayed, Composite, and Partially Anonymous Reward

要約

遅延、複合、部分的に匿名の報酬フィードバックを使用して、無限の水平線の平均報酬マルコフ決定プロセス (MDP) を調査します。
報酬の遅延と複合性は、特定の状態でアクションをとった結果として生成される報酬がさまざまな要素に断片化され、遅延した時間インスタンスで順次実現されることを意味します。
部分的匿名性属性は、学習者が状態ごとに、その状態で行われたさまざまなアクションの結果として生成されたが、観察インスタンスで実現された過去の報酬コンポーネントの集合体のみを観察することを意味します。
この設定に対して最適に近いポリシーを取得する $\mathrm{DUCRL2}$ という名前のアルゴリズムを提案し、それが $\tilde{\mathcal{O}}\left(DS\sqrt{AT}) のリグレス限界を達成することを示します。
+ d (SA)^3\right)$ ここで、$S$ と $A$ はそれぞれ状態空間とアクション空間のサイズ、$D$ は MDP の直径、$d$ はパラメータの上限です。
最大報酬遅延、$T$ は時間軸を示します。
これは、$T$ のオーダーでの境界の最適性と、遅延の相加的な影響を示しています。

要約(オリジナル)

We investigate an infinite-horizon average reward Markov Decision Process (MDP) with delayed, composite, and partially anonymous reward feedback. The delay and compositeness of rewards mean that rewards generated as a result of taking an action at a given state are fragmented into different components, and they are sequentially realized at delayed time instances. The partial anonymity attribute implies that a learner, for each state, only observes the aggregate of past reward components generated as a result of different actions taken at that state, but realized at the observation instance. We propose an algorithm named $\mathrm{DUCRL2}$ to obtain a near-optimal policy for this setting and show that it achieves a regret bound of $\tilde{\mathcal{O}}\left(DS\sqrt{AT} + d (SA)^3\right)$ where $S$ and $A$ are the sizes of the state and action spaces, respectively, $D$ is the diameter of the MDP, $d$ is a parameter upper bounded by the maximum reward delay, and $T$ denotes the time horizon. This demonstrates the optimality of the bound in the order of $T$, and an additive impact of the delay.

arxiv情報

著者 Washim Uddin Mondal,Vaneet Aggarwal
発行日 2023-08-28 15:52:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク