Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL

要約

ポリシー最適化アルゴリズムは、強化学習 (RL) の最近の実証的成功において重要な役割を果たしていますが、ポリシー最適化に関する既存の理論的理解はかなり限られたままです。アルゴリズムは表形式の MDP に限定されているか、特にオンラインでは最適とは言えないサンプルの複雑さのいずれかです。
探索が必要な RL。
この論文では、シンプルで効率的なポリシー最適化フレームワーク、つまりオンライン RL 用の Optimistic NPG を提案します。
楽観的 NPG は、古典的な自然政策勾配 (NPG) アルゴリズム [Kakade, 2001] と探索を促進する楽観的政策評価サブルーチンを単純に組み合わせたものとみなすことができます。
$d$ 次元の線形 MDP の場合、Optimistic NPG は計算効率が高く、$\tilde{O}(d^2/\varepsilon^3)$ サンプル内で $\varepsilon$-optimal ポリシーを学習します。これは計算上初めてのことです。
サンプルの複雑さが最適な次元依存性 $\tilde{\Theta}(d^2)$ を持つ効率的なアルゴリズム。
また、ポリシー最適化アルゴリズムの最先端の結果 [Zanette et al., 2021] よりも $d$ 倍向上します。
線形 MDP を包含する一般関数近似の場合、私たちの知る限り、Optimistic NPG は、最適に近いポリシーを学習するための多項式サンプルの複雑さを実現する最初のポリシー最適化アルゴリズムでもあります。

要約(オリジナル)

While policy optimization algorithms have played an important role in recent empirical success of Reinforcement Learning (RL), the existing theoretical understanding of policy optimization remains rather limited — they are either restricted to tabular MDPs or suffer from highly suboptimal sample complexity, especial in online RL where exploration is necessary. This paper proposes a simple efficient policy optimization framework — Optimistic NPG for online RL. Optimistic NPG can be viewed as simply combining of the classic natural policy gradient (NPG) algorithm [Kakade, 2001] with optimistic policy evaluation subroutines to encourage exploration. For $d$-dimensional linear MDPs, Optimistic NPG is computationally efficient, and learns an $\varepsilon$-optimal policy within $\tilde{O}(d^2/\varepsilon^3)$ samples, which is the first computationally efficient algorithm whose sample complexity has the optimal dimension dependence $\tilde{\Theta}(d^2)$. It also improves over state-of-the-art results of policy optimization algorithms [Zanette et al., 2021] by a factor of $d$. For general function approximation that subsumes linear MDPs, Optimistic NPG, to our best knowledge, is also the first policy optimization algorithm that achieves the polynomial sample complexity for learning near-optimal policies.

arxiv情報

著者 Qinghua Liu,Gellért Weisz,András György,Chi Jin,Csaba Szepesvári
発行日 2023-05-18 15:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク