要約
私たちは、有名な時間差 (TD) 学習アルゴリズムの収束動作を研究します。
最適化のレンズを通してアルゴリズムを見ることによって、最初に、TD は最小化される関数が反復ごとに変化する反復最適化アルゴリズムとみなすことができると主張します。
古典的な反例で TD によって示される発散を注意深く調査することにより、アルゴリズムの収束または発散の動作を決定する 2 つの力を特定します。
次に、二次損失を伴う線形 TD 設定での発見を形式化し、TD の収束がこれら 2 つの力の相互作用に依存することを証明します。
この最適化の観点を拡張して、単なる線形近似と二乗損失よりもはるかに幅広い設定で TD の収束を証明します。
私たちの結果は、強化学習における TD の適用の成功に対する理論的な説明を提供します。
要約(オリジナル)
We study the convergence behavior of the celebrated temporal-difference (TD) learning algorithm. By looking at the algorithm through the lens of optimization, we first argue that TD can be viewed as an iterative optimization algorithm where the function to be minimized changes per iteration. By carefully investigating the divergence displayed by TD on a classical counter example, we identify two forces that determine the convergent or divergent behavior of the algorithm. We next formalize our discovery in the linear TD setting with quadratic loss and prove that convergence of TD hinges on the interplay between these two forces. We extend this optimization perspective to prove convergence of TD in a much broader setting than just linear approximation and squared loss. Our results provide a theoretical explanation for the successful application of TD in reinforcement learning.
arxiv情報
著者 | Kavosh Asadi,Shoham Sabach,Yao Liu,Omer Gottesman,Rasool Fakoor |
発行日 | 2023-06-30 16:01:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google