Horizon-Free and Instance-Dependent Regret Bounds for Reinforcement Learning with General Function Approximation

要約

一般関数近似を使用した強化学習における長い計画期間の問題に取り組むために、多項式を排除するため \emph{期間なし} と \emph{インスタンス依存} の両方を達成する、UCRL-WVTR と呼ばれる最初のアルゴリズムを提案します。
計画期間への依存。
導出されたリグレス限界は、対数因数までの線形混合 MDP に特化した場合のミニマックス下限と一致するため、 \emph{sharp} とみなされます。
さらに、UCRL-WVTR は回帰オラクルにアクセスできるため、 \emph{計算効率} が高くなります。
このようなホライズンフリー、インスタンス依存、および明確なリグレットバウンドの達成は、(i) 新しいアルゴリズム設計、つまり一般関数近似のコンテキストにおける重み付けされた値を対象とした回帰および高次モーメント推定器にかかっています。
(ii) 詳細な分析: 重み付けされた非線形最小二乗法の新しい濃度限界と、厳密なインスタンス依存限界をもたらす洗練された分析。
また、理論的発見を裏付けるために包括的な実験も実施します。

要約(オリジナル)

To tackle long planning horizon problems in reinforcement learning with general function approximation, we propose the first algorithm, termed as UCRL-WVTR, that achieves both \emph{horizon-free} and \emph{instance-dependent}, since it eliminates the polynomial dependency on the planning horizon. The derived regret bound is deemed \emph{sharp}, as it matches the minimax lower bound when specialized to linear mixture MDPs up to logarithmic factors. Furthermore, UCRL-WVTR is \emph{computationally efficient} with access to a regression oracle. The achievement of such a horizon-free, instance-dependent, and sharp regret bound hinges upon (i) novel algorithm designs: weighted value-targeted regression and a high-order moment estimator in the context of general function approximation; and (ii) fine-grained analyses: a novel concentration bound of weighted non-linear least squares and a refined analysis which leads to the tight instance-dependent bound. We also conduct comprehensive experiments to corroborate our theoretical findings.

arxiv情報

著者 Jiayi Huang,Han Zhong,Liwei Wang,Lin F. Yang
発行日 2023-12-07 17:35:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク