要約
この論文では、線形関数近似、オフポリシー学習、およびブートストラップを特徴とする「致命的なトライアド」シナリオ内のマルチステップ TD 学習アルゴリズムを分析します。
特に、サンプリング範囲 n が十分に増加するにつれて、n ステップの TD 学習アルゴリズムが解に収束することを証明します。
この論文は 2 つの部分に分かれています。
最初の部分では、予測値反復、勾配降下法アルゴリズム、制御理論的アプローチなど、モデルベースの決定論的対応物の基本特性を包括的に検証します。これらは、プロトタイプの決定論的アルゴリズムとみなすことができ、その分析が理解する上で極めて重要な役割を果たします。
そしてモデルフリーの強化学習に相当するものを開発しています。
特に、n が十分に大きい場合、これらのアルゴリズムは意味のある解に収束することを証明します。
これらの発見に基づいて、2 つの n ステップ TD 学習アルゴリズムが提案および分析されます。これらは、勾配および制御理論アルゴリズムのモデルフリー強化学習対応物と見なすことができます。
要約(オリジナル)
This paper analyzes multi-step TD-learning algorithms within the `deadly triad’ scenario, characterized by linear function approximation, off-policy learning, and bootstrapping. In particular, we prove that n-step TD-learning algorithms converge to a solution as the sampling horizon n increases sufficiently. The paper is divided into two parts. In the first part, we comprehensively examine the fundamental properties of their model-based deterministic counterparts, including projected value iteration, gradient descent algorithms, and the control theoretic approach, which can be viewed as prototype deterministic algorithms whose analysis plays a pivotal role in understanding and developing their model-free reinforcement learning counterparts. In particular, we prove that these algorithms converge to meaningful solutions when n is sufficiently large. Based on these findings, two n-step TD-learning algorithms are proposed and analyzed, which can be seen as the model-free reinforcement learning counterparts of the gradient and control theoretic algorithms.
arxiv情報
著者 | Donghwan Lee |
発行日 | 2024-04-08 17:45:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google