要約
分布補強学習は、環境の確率性を捉えることでパフォーマンスを向上させますが、その有効性の包括的な理論的理解はとらえどころのないままです。
さらに、分布の無限の次元の扱いにくい要素は見落とされています。
このホワイトペーパーでは、有限のエピソードマルコフ決定プロセスの設定で、一般的な値関数近似を伴う分布補強学習の後悔分析を提示します。
最初に、$ \ textit {bellman unviasedness} $の重要な概念を紹介します。
無限の次元のリターン分布を表すためのあらゆるタイプの統計的機能の中で、我々の理論的結果は、モーメント機能のみが統計情報を正確にキャプチャできることを示しています。
第二に、$ \ tilde {o}(d_e h^{\ frac {3} {2}}}}} \ sqrt {k})の厳しい後悔の境界を達成する、$ \ tildtt {sf-lsvi} $を達成する$ \ texttt {sf-lsvi} $を提案します。
関数クラスのEveruderディメンションです。
要約(オリジナル)
Distributional reinforcement learning improves performance by capturing environmental stochasticity, but a comprehensive theoretical understanding of its effectiveness remains elusive. In addition, the intractable element of the infinite dimensionality of distributions has been overlooked. In this paper, we present a regret analysis of distributional reinforcement learning with general value function approximation in a finite episodic Markov decision process setting. We first introduce a key notion of $\textit{Bellman unbiasedness}$ which is essential for exactly learnable and provably efficient distributional updates in an online manner. Among all types of statistical functionals for representing infinite-dimensional return distributions, our theoretical results demonstrate that only moment functionals can exactly capture the statistical information. Secondly, we propose a provably efficient algorithm, $\texttt{SF-LSVI}$, that achieves a tight regret bound of $\tilde{O}(d_E H^{\frac{3}{2}}\sqrt{K})$ where $H$ is the horizon, $K$ is the number of episodes, and $d_E$ is the eluder dimension of a function class.
arxiv情報
著者 | Taehyun Cho,Seungyub Han,Kyungjae Lee,Seokhun Ju,Dohyeong Kim,Jungwoo Lee |
発行日 | 2025-05-06 15:02:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google