Revisiting a Design Choice in Gradient Temporal Difference Learning

要約

オフポリシー学習により、強化学習(RL)エージェントは、実行されておらず、RLで最も重要なアイデアの1つであるポリシーについて反論的に推論することができます。
ただし、関数近似とブートストラップと組み合わせると、大規模な強化学習のための2つの間違いなく不可欠な成分と組み合わせると、不安定性につながる可能性があります。
これは悪名高い致命的なトライアドです。
Sutton et al。
(2008)先駆者の勾配時間違い学習(GTD)致命的なトライアドの最初の解決策として、その後大成功を収めました。
GTDの派生中に、$ a^\ top $ tdと呼ばれるいくつかの中間アルゴリズムが発明されましたが、すぐに劣っていると見なされます。
この論文では、この$ a^\ top $ tdを再訪し、$ a_t^\ top $ tdと呼ばれる$ a^\ top $ tdのバリアントが致命的なトライアドに対する効果的なソリューションであることを証明します。
さらに、この$ A_T^\ TOP $ TDには、パラメーターのセットと1つの学習レートのみが必要です。
対照的に、GTDには2つのセットのパラメーターと2つの学習率があり、実際には調整が難しくなっています。
$ a^\ top_t $ tdの漸近分析と、さらに投影演算子を含む$ a^\ top_t $ tdのバリアントの有限サンプル分析を提供します。
このバリアントの収束速度は、標準的なオンポリシーの時間的差異学習と同等です。

要約(オリジナル)

Off-policy learning enables a reinforcement learning (RL) agent to reason counterfactually about policies that are not executed and is one of the most important ideas in RL. It, however, can lead to instability when combined with function approximation and bootstrapping, two arguably indispensable ingredients for large-scale reinforcement learning. This is the notorious deadly triad. The seminal work Sutton et al. (2008) pioneers Gradient Temporal Difference learning (GTD) as the first solution to the deadly triad, which has enjoyed massive success thereafter. During the derivation of GTD, some intermediate algorithm, called $A^\top$TD, was invented but soon deemed inferior. In this paper, we revisit this $A^\top$TD and prove that a variant of $A^\top$TD, called $A_t^\top$TD, is also an effective solution to the deadly triad. Furthermore, this $A_t^\top$TD only needs one set of parameters and one learning rate. By contrast, GTD has two sets of parameters and two learning rates, making it hard to tune in practice. We provide asymptotic analysis for $A^\top_t$TD and finite sample analysis for a variant of $A^\top_t$TD that additionally involves a projection operator. The convergence rate of this variant is on par with the canonical on-policy temporal difference learning.

arxiv情報

著者 Xiaochi Qian,Shangtong Zhang
発行日 2025-02-28 16:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク