Linear Bellman Completeness Suffices for Efficient Online Reinforcement Learning with Few Actions

要約

関数近似を使用した強化学習 (RL) への最も自然なアプローチの 1 つは値反復です。これは、一連の回帰問題を解くことによって最適な値関数への近似値を帰納的に生成します。
値の反復を確実に成功させるには、通常、ベルマン完全性が維持されると想定されます。これにより、これらの回帰問題が適切に指定されることが保証されます。
線形関数近似を使用した RL のオンライン モデルにおけるベルマン完全性の下で最適なポリシーを学習する問題を研究します。
線形設定では、ベルマン完全性の下で統計的に効率的なアルゴリズムが知られていますが (例: Jiang et al. (2017); Zanette et al. (2020))、これらのアルゴリズムはすべて、非凸最適化を解く必要がある大域的楽観主義の原則に依存しています。
問題。
特に、計算効率の高いアルゴリズムが存在するかどうかについては不明なままである。
この論文では、アクションの数が一定である場合の、線形ベルマン完全性の下での RL の最初の多項式時間アルゴリズムを提供します。

要約(オリジナル)

One of the most natural approaches to reinforcement learning (RL) with function approximation is value iteration, which inductively generates approximations to the optimal value function by solving a sequence of regression problems. To ensure the success of value iteration, it is typically assumed that Bellman completeness holds, which ensures that these regression problems are well-specified. We study the problem of learning an optimal policy under Bellman completeness in the online model of RL with linear function approximation. In the linear setting, while statistically efficient algorithms are known under Bellman completeness (e.g., Jiang et al. (2017); Zanette et al. (2020)), these algorithms all rely on the principle of global optimism which requires solving a nonconvex optimization problem. In particular, it has remained open as to whether computationally efficient algorithms exist. In this paper we give the first polynomial-time algorithm for RL under linear Bellman completeness when the number of actions is any constant.

arxiv情報

著者 Noah Golowich,Ankur Moitra
発行日 2024-06-18 04:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク