要約
我々は、すべてのポリシーについて、ある頻繁な状態 $s_0$ を訪問する予想時間は有限であり、上限は $H$ であるという基礎的な MDP に関する追加の仮定の下で、平均報酬強化学習における後悔を最小化するための楽観的 Q 学習アルゴリズムを提示します。
私たちの設定はエピソード設定を厳密に一般化しており、平均報酬設定におけるモデルフリー アルゴリズムに関するこれまでのほとんどの文献で作成された、制限されたヒット時間 {\it for all states} の仮定よりも制限が大幅に緩和されています。
$\tilde{O}(H^5 S\sqrt{AT})$ のリグレス限界を示します。ここで、$S$ と $A$ は状態とアクションの数、$T$ は地平線です。
私たちの研究の重要な技術的な新しさは、 $\overline{L} v = \frac{1}{H} \sum_{h=1}^H L^h v$ として定義される $\overline{L}$ 演算子を導入したことです。
$L$ はベルマン演算子を示します。
与えられた仮定の下で、$\overline{L}$ 演算子は平均報酬設定においても (スパン内で) 厳密に短縮されることを示します。
次に、私たちのアルゴリズム設計では、エピソード Q 学習からのアイデアを使用して、この演算子を反復的に推定して適用します。
したがって、独立した関心を持つ可能性のあるエピソード的および非エピソード的設定における後悔の最小化に関する統一されたビューを提供します。
要約(オリジナル)
We present an optimistic Q-learning algorithm for regret minimization in average reward reinforcement learning under an additional assumption on the underlying MDP that for all policies, the expected time to visit some frequent state $s_0$ is finite and upper bounded by $H$. Our setting strictly generalizes the episodic setting and is significantly less restrictive than the assumption of bounded hitting time {\it for all states} made by most previous literature on model-free algorithms in average reward settings. We demonstrate a regret bound of $\tilde{O}(H^5 S\sqrt{AT})$, where $S$ and $A$ are the numbers of states and actions, and $T$ is the horizon. A key technical novelty of our work is to introduce an $\overline{L}$ operator defined as $\overline{L} v = \frac{1}{H} \sum_{h=1}^H L^h v$ where $L$ denotes the Bellman operator. We show that under the given assumption, the $\overline{L}$ operator has a strict contraction (in span) even in the average reward setting. Our algorithm design then uses ideas from episodic Q-learning to estimate and apply this operator iteratively. Therefore, we provide a unified view of regret minimization in episodic and non-episodic settings that may be of independent interest.
arxiv情報
著者 | Priyank Agrawal,Shipra Agrawal |
発行日 | 2024-07-18 17:49:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google