要約
タイトル:強化学習のための立方体正則化ポリシーニュートンアルゴリズム
要約:
– 強化学習(RL)の制御問題を扱う。
– ポリシーグラディエントアルゴリズムは、値関数の定常点に収束することが通常示されており、この問題の人気の解決策の1つである。
– 立方体正則化を組み込んだ2つのポリシーニュートンアルゴリズムを提案する。
– どちらのアルゴリズムも、サンプル軌跡を使用して値関数の勾配とヘッシアンの推定を形成するために尤度比法を使用する。
– 1つ目のアルゴリズムは、各反復で立方体正則化された問題の正確な解を必要とするが、2つ目のアルゴリズムは、効率的な勾配降下ベースの近似を用いる。
– 提案されたアルゴリズムが値関数の二次定常点(SOSP)に収束することを確立し、鞍点のようなトラップを回避する。特に、ε-SOSPを見つけるためのサンプル複雑度は、O(ε^ -3.5)であり、これはO(ε^ -4.5)の最新サンプル複雑度より改善されている。
要約(オリジナル)
We consider the problem of control in the setting of reinforcement learning (RL), where model information is not available. Policy gradient algorithms are a popular solution approach for this problem and are usually shown to converge to a stationary point of the value function. In this paper, we propose two policy Newton algorithms that incorporate cubic regularization. Both algorithms employ the likelihood ratio method to form estimates of the gradient and Hessian of the value function using sample trajectories. The first algorithm requires an exact solution of the cubic regularized problem in each iteration, while the second algorithm employs an efficient gradient descent-based approximation to the cubic regularized problem. We establish convergence of our proposed algorithms to a second-order stationary point (SOSP) of the value function, which results in the avoidance of traps in the form of saddle points. In particular, the sample complexity of our algorithms to find an $\epsilon$-SOSP is $O(\epsilon^{-3.5})$, which is an improvement over the state-of-the-art sample complexity of $O(\epsilon^{-4.5})$.
arxiv情報
著者 | Mizhaan Prajit Maniyar,Akash Mondal,Prashanth L. A.,Shalabh Bhatnagar |
発行日 | 2023-04-21 13:43:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI