要約
強化学習における値推定のための勾配ベースの方法は、有利な安定性特性を持っていますが、通常、時間差 (TD) 学習方法よりもはるかに低速です。
我々は、この遅さの根本原因を研究し、平均二乗ベルマン誤差 (MSBE) がヘッセ行列の条件数が大きいという意味で条件の悪い損失関数であることを示します。
勾配ベースの方法に対する MSBE の不十分なコンディショニングの悪影響を解決するために、ガウス-ニュートン方向にほぼ従う、パラメータ化に対して漸近的にロバストである、複雑さの低いバッチフリー近似法を提案します。
RANS と呼ばれる私たちの主なアルゴリズムは、計算量がほぼ同じでありながら残差勾配法よりも大幅に高速であるという意味で効率的であり、テストした古典的な問題では TD と競合します。
要約(オリジナル)
Gradient-based methods for value estimation in reinforcement learning have favorable stability properties, but they are typically much slower than Temporal Difference (TD) learning methods. We study the root causes of this slowness and show that Mean Square Bellman Error (MSBE) is an ill-conditioned loss function in the sense that its Hessian has large condition-number. To resolve the adverse effect of poor conditioning of MSBE on gradient based methods, we propose a low complexity batch-free proximal method that approximately follows the Gauss-Newton direction and is asymptotically robust to parameterization. Our main algorithm, called RANS, is efficient in the sense that it is significantly faster than the residual gradient methods while having almost the same computational complexity, and is competitive with TD on the classic problems that we tested.
arxiv情報
著者 | Arsalan Sharifnassab,Richard Sutton |
発行日 | 2023-06-06 14:28:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google