Kernelized Reinforcement Learning with Order Optimal Regret Bounds

要約

強化学習 (RL) は、複雑なモデルと大規模な状態アクション空間を使用するさまざまな現実世界の設定で経験的に成功を示しています。
ただし、既存の分析結果は通常、少数の状態アクションまたは線形モデル化された状態アクション値関数などの単純なモデルを含む設定に焦点を当てています。
より一般的な値関数を使用して大規模な状態アクション空間を効率的に処理する RL ポリシーを導出するために、いくつかの最近の研究では、カーネル リッジ回帰を使用した非線形関数近似が考慮されています。
状態アクション値関数が RKHS で表される場合、最小二乗値反復の楽観的修正である $\pi$-KRVI を提案します。
一般的な設定の下で、一次最適後悔保証を証明します。
私たちの結果は、エピソード数が最新技術よりも大幅に改善されたことを示しています。
特に、高度に滑らかではないカーネル (ニューラル タンジェント カーネルや一部の Mat\’ern カーネルなど) では、既存の結果は些細な (エピソード数において超線形な) リグレス限界につながります。
リグレスの下限が既知である Mat\’ern カーネルの場合に最適な次数の線形リグレス限界を示します。

要約(オリジナル)

Reinforcement learning (RL) has shown empirical success in various real world settings with complex models and large state-action spaces. The existing analytical results, however, typically focus on settings with a small number of state-actions or simple models such as linearly modeled state-action value functions. To derive RL policies that efficiently handle large state-action spaces with more general value functions, some recent works have considered nonlinear function approximation using kernel ridge regression. We propose $\pi$-KRVI, an optimistic modification of least-squares value iteration, when the state-action value function is represented by an RKHS. We prove the first order-optimal regret guarantees under a general setting. Our results show a significant polynomial in the number of episodes improvement over the state of the art. In particular, with highly non-smooth kernels (such as Neural Tangent kernel or some Mat\’ern kernels) the existing results lead to trivial (superlinear in the number of episodes) regret bounds. We show a sublinear regret bound that is order optimal in the case of Mat\’ern kernels where a lower bound on regret is known.

arxiv情報

著者 Sattar Vakili,Julia Olkhovskaya
発行日 2023-06-13 13:01:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク