Open Problem: Order Optimal Regret Bounds for Kernel-Based Reinforcement Learning

要約

強化学習 (RL) は、さまざまなアプリケーション領域で大きな成功を経験的に示しています。
この問題の理論的側面は、特に表形式および線形マルコフ決定プロセス構造の下で、過去数十年にわたって広範囲に研究されてきました。
最近、カーネルベースの予測を使用した非線形関数近似が注目を集めています。
このアプローチは、線形構造を自然に拡張し、無限幅制限におけるニューラル ネットワーク ベースのモデルの動作を説明するのに役立つため、特に興味深いものです。
ただし、分析結果は、この場合のパフォーマンス保証に適切に対応していません。
この未解決の問題に焦点を当て、既存の部分的な結果を概観し、関連する課題について説明します。

要約(オリジナル)

Reinforcement Learning (RL) has shown great empirical success in various application domains. The theoretical aspects of the problem have been extensively studied over past decades, particularly under tabular and linear Markov Decision Process structures. Recently, non-linear function approximation using kernel-based prediction has gained traction. This approach is particularly interesting as it naturally extends the linear structure, and helps explain the behavior of neural-network-based models at their infinite width limit. The analytical results however do not adequately address the performance guarantees for this case. We will highlight this open problem, overview existing partial results, and discuss related challenges.

arxiv情報

著者 Sattar Vakili
発行日 2024-06-21 15:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク