Direct Gradient Temporal Difference Learning

要約

オフポリシー学習により、強化学習 (RL) エージェントは、実行されないポリシーについて反事実的な推論を行うことができます。これは、RL で最も重要なアイデアの 1 つです。
ただし、大規模な強化学習におそらく不可欠な 2 つの要素である関数近似とブートストラップと組み合わせると、不安定性が生じる可能性があります。
これは悪名高い致命的なトライアドです。
勾配時間差 (GTD) は、致命的なトライアドを解決するための強力なツールの 1 つです。
その成功は、重みの重複またはフェンケル双対性を使用して間接的に 2 倍サンプリングの問題を解決した結果です。
この論文では、代わりに、ギャップが増加するマルコフ データ ストリーム内の 2 つのサンプルを単純に使用することによって、二重サンプリングの問題を解決する直接的な方法を提案します。
結果として得られるアルゴリズムは、GTD と同様に計算効率が高くなりますが、GTD の余分な重みが取り除かれています。
私たちが支払う唯一の代償は、時間の経過とともに対数的に増加するメモリです。
漸近サンプル分析と有限サンプル分析の両方を提供しており、収束率は標準的なポリシー上の時間差分学習と同等です。
私たちの分析の鍵となるのは、制限 ODE の新しく洗練された離散化です。

要約(オリジナル)

Off-policy learning enables a reinforcement learning (RL) agent to reason counterfactually about policies that are not executed and is one of the most important ideas in RL. It, however, can lead to instability when combined with function approximation and bootstrapping, two arguably indispensable ingredients for large-scale reinforcement learning. This is the notorious deadly triad. Gradient Temporal Difference (GTD) is one powerful tool to solve the deadly triad. Its success results from solving a doubling sampling issue indirectly with weight duplication or Fenchel duality. In this paper, we instead propose a direct method to solve the double sampling issue by simply using two samples in a Markovian data stream with an increasing gap. The resulting algorithm is as computationally efficient as GTD but gets rid of GTD’s extra weights. The only price we pay is a logarithmically increasing memory as time progresses. We provide both asymptotic and finite sample analysis, where the convergence rate is on-par with the canonical on-policy temporal difference learning. Key to our analysis is a novel refined discretization of limiting ODEs.

arxiv情報

著者 Xiaochi Qian,Shangtong Zhang
発行日 2023-08-02 14:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク