Tackling Heavy-Tailed Rewards in Reinforcement Learning with Function Approximation: Minimax Optimal and Instance-Dependent Regret Bounds

要約

多くの研究が、均一に制限された報酬を伴う強化学習 (RL) の効率的なアルゴリズムを考案することに焦点を当ててきましたが、報酬が \emph{heavy-
tailed}、つまり、いくつかの $\epsilon\in(0,1]$ に対して有限の $(1+\epsilon)$ 番目のモーメントのみを使用します。この研究では、線形関数近似を使用して RL におけるそのような報酬の課題に対処します。
. まず、ヘビーテール線形バンディット用のアルゴリズム \textsc{Heavy-OFUL} を設計し、 \emph{インスタンス依存} $T$ ラウンドの $\tilde{O}\big(d T^
{\frac{1-\epsilon}{2(1+\epsilon)}} \sqrt{\sum_{t=1}^T \nu_t^2} + d T^{\frac{1-\epsilon}{
2(1+\epsilon)}}\big)$、この種の \emph{first} です。ここで、$d$ は特徴の次元であり、$\nu_t^{1+\epsilon}$ は $(
$t$ 回目のラウンドにおける報酬の 1+\epsilon)$ 回目の中心モーメント さらに、確率的および決定論的な線形バンディットの最悪の場合のインスタンスに適用すると、上記の限界がミニマックス最適であることを示します。
次に、このアルゴリズムを線形関数近似を使用して RL 設定に拡張します。
\textsc{Heavy-LSVI-UCB} と呼ばれる私たちのアルゴリズムは、$\tilde{O}(d \sqrt{H
\mathcal{U}^*} K^\frac{1}{1+\epsilon} + d \sqrt{H \mathcal{V}^* K})$。
ここで、$H$ はエピソードの長さ、$\mathcal{U}^*、\mathcal{V}^*$ はそれぞれ報酬関数と価値関数の中心モーメントに応じてスケーリングするインスタンス依存の量です。
また、最悪の場合のアルゴリズムの最適性を示すために、一致するミニマックス下限 $\Omega(d H K^{\frac{1}{1+\epsilon}} + d \sqrt{H^3 K})$ も提供します。
場合。
私たちの結果は、一般的なオンライン回帰問題におけるヘビーテールノイズの処理において独立した興味深い可能性がある、新しい堅牢な自己正規化濃度不等式によって達成されます。

要約(オリジナル)

While numerous works have focused on devising efficient algorithms for reinforcement learning (RL) with uniformly bounded rewards, it remains an open question whether sample or time-efficient algorithms for RL with large state-action space exist when the rewards are \emph{heavy-tailed}, i.e., with only finite $(1+\epsilon)$-th moments for some $\epsilon\in(0,1]$. In this work, we address the challenge of such rewards in RL with linear function approximation. We first design an algorithm, \textsc{Heavy-OFUL}, for heavy-tailed linear bandits, achieving an \emph{instance-dependent} $T$-round regret of $\tilde{O}\big(d T^{\frac{1-\epsilon}{2(1+\epsilon)}} \sqrt{\sum_{t=1}^T \nu_t^2} + d T^{\frac{1-\epsilon}{2(1+\epsilon)}}\big)$, the \emph{first} of this kind. Here, $d$ is the feature dimension, and $\nu_t^{1+\epsilon}$ is the $(1+\epsilon)$-th central moment of the reward at the $t$-th round. We further show the above bound is minimax optimal when applied to the worst-case instances in stochastic and deterministic linear bandits. We then extend this algorithm to the RL settings with linear function approximation. Our algorithm, termed as \textsc{Heavy-LSVI-UCB}, achieves the \emph{first} computationally efficient \emph{instance-dependent} $K$-episode regret of $\tilde{O}(d \sqrt{H \mathcal{U}^*} K^\frac{1}{1+\epsilon} + d \sqrt{H \mathcal{V}^* K})$. Here, $H$ is length of the episode, and $\mathcal{U}^*, \mathcal{V}^*$ are instance-dependent quantities scaling with the central moment of reward and value functions, respectively. We also provide a matching minimax lower bound $\Omega(d H K^{\frac{1}{1+\epsilon}} + d \sqrt{H^3 K})$ to demonstrate the optimality of our algorithm in the worst case. Our result is achieved via a novel robust self-normalized concentration inequality that may be of independent interest in handling heavy-tailed noise in general online regression problems.

arxiv情報

著者 Jiayi Huang,Han Zhong,Liwei Wang,Lin F. Yang
発行日 2024-03-07 15:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク