Settling Constant Regrets in Linear Markov Decision Processes


私たちは強化学習 (RL) における継続的な後悔の保証を研究します。
我々は、遷移カーネルと報酬関数の両方を誤った仕様レベル $\zeta$ まで何らかの線形関数で近似できる、誤った仕様の線形マルコフ決定プロセス (MDP) 用のアルゴリズム Cert-LSVI-UCB を導入します。
Cert-LSVI-UCB の中核となるのは、革新的な認定推定ツールです。これにより、多段階の値をターゲットとした回帰のきめ細かい濃度分析が容易になり、インスタンス依存のリグレス限界を確立できます。
具体的には、最小の準最適性ギャップ $\Delta$ によって特徴付けられる MDP の場合、Cert-LSVI-UCB には $\tilde{\mathcal{O}}(d^3H^5/\Delta)$ の累積的後悔があることを示します。
高い確率で、誤指定レベル $\zeta$ が $\tilde{\mathcal{O}}(\Delta / (\sqrt{d}H^2))$ 未満であることが条件となります。
注目すべきことに、この後悔の限界はエピソード $K$ の数に対して一定のままです。
私たちの知る限り、Cert-LSVI-UCB は、事前の分布仮定に依存せずに、無限実行に対する線形関数近似を使用して、RL で一定の​​インスタンス依存の高確率リグレスバウンドを達成する最初のアルゴリズムです。
これは、仕様ミスをモデル化するための Cert-LSVI-UCB の堅牢性を強調するだけでなく、独立して興味深い新しいアルゴリズム設計と分析手法も導入します。


We study the constant regret guarantees in reinforcement learning (RL). Our objective is to design an algorithm that incurs only finite regret over infinite episodes with high probability. We introduce an algorithm, Cert-LSVI-UCB, for misspecified linear Markov decision processes (MDPs) where both the transition kernel and the reward function can be approximated by some linear function up to misspecification level $\zeta$. At the core of Cert-LSVI-UCB is an innovative certified estimator, which facilitates a fine-grained concentration analysis for multi-phase value-targeted regression, enabling us to establish an instance-dependent regret bound that is constant w.r.t. the number of episodes. Specifically, we demonstrate that for an MDP characterized by a minimal suboptimality gap $\Delta$, Cert-LSVI-UCB has a cumulative regret of $\tilde{\mathcal{O}}(d^3H^5/\Delta)$ with high probability, provided that the misspecification level $\zeta$ is below $\tilde{\mathcal{O}}(\Delta / (\sqrt{d}H^2))$. Remarkably, this regret bound remains constant relative to the number of episodes $K$. To the best of our knowledge, Cert-LSVI-UCB is the first algorithm to achieve a constant, instance-dependent, high-probability regret bound in RL with linear function approximation for infinite runs without relying on prior distribution assumptions. This not only highlights the robustness of Cert-LSVI-UCB to model misspecification but also introduces novel algorithmic designs and analytical techniques of independent interest.


著者 Weitong Zhang,Zhiyuan Fan,Jiafan He,Quanquan Gu
発行日 2024-04-16 17:23:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG パーマリンク