Achieving Constant Regret in Linear Markov Decision Processes

要約

私たちは強化学習 (RL) における継続的な後悔の保証を研究します。
私たちの目的は、高い確率で無限のエピソードに対して有限の後悔だけを引き起こすアルゴリズムを設計することです。
我々は、遷移カーネルと報酬関数の両方を誤った仕様レベル $\zeta$ まで何らかの線形関数で近似できる、誤った仕様の線形マルコフ決定プロセス (MDP) 用のアルゴリズム Cert-LSVI-UCB を導入します。
Cert-LSVI-UCB の中核となるのは、多段階の値をターゲットとした回帰のきめ細かい濃度分析を容易にする革新的なメソッドであり、これにより、インスタンス依存のリグレス限界を確立することができます。
エピソード数。
具体的には、最小の準最適性ギャップ $\Delta$ によって特徴付けられる線形 MDP の場合、Cert-LSVI-UCB には $\tilde{\mathcal{O}}(d^3H^5/\Delta) の累積リグアロングがあることを示します。
誤指定レベル $\zeta$ が $\tilde{\mathcal{O}}(\Delta /
(\sqrt{d}H^2))$。
ここで、$d$ は特徴空間の次元であり、$H$ は地平線です。
注目すべきことに、この後悔の限界はエピソード $K$ の数とは無関係です。
私たちの知る限り、Cert-LSVI-UCB は、事前の分布仮定に依存せずに線形関数近似を使用して RL で拘束された一定のインスタンス依存の高確率リグレスを達成する最初のアルゴリズムです。

要約(オリジナル)

We study the constant regret guarantees in reinforcement learning (RL). Our objective is to design an algorithm that incurs only finite regret over infinite episodes with high probability. We introduce an algorithm, Cert-LSVI-UCB, for misspecified linear Markov decision processes (MDPs) where both the transition kernel and the reward function can be approximated by some linear function up to misspecification level $\zeta$. At the core of Cert-LSVI-UCB is an innovative \method, which facilitates a fine-grained concentration analysis for multi-phase value-targeted regression, enabling us to establish an instance-dependent regret bound that is constant w.r.t. the number of episodes. Specifically, we demonstrate that for a linear MDP characterized by a minimal suboptimality gap $\Delta$, Cert-LSVI-UCB has a cumulative regret of $\tilde{\mathcal{O}}(d^3H^5/\Delta)$ with high probability, provided that the misspecification level $\zeta$ is below $\tilde{\mathcal{O}}(\Delta / (\sqrt{d}H^2))$. Here $d$ is the dimension of the feature space and $H$ is the horizon. Remarkably, this regret bound is independent of the number of episodes $K$. To the best of our knowledge, Cert-LSVI-UCB is the first algorithm to achieve a constant, instance-dependent, high-probability regret bound in RL with linear function approximation without relying on prior distribution assumptions.

arxiv情報

著者 Weitong Zhang,Zhiyuan Fan,Jiafan He,Quanquan Gu
発行日 2024-12-12 17:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク