Temporal Difference Learning with Experience Replay

要約

時間差分 (TD) 学習は、強化学習 (RL) で最も人気のあるアルゴリズムの 1 つとして広く考えられています。
広く使用されているにもかかわらず、研究者が平均二乗誤差やサンプルの複雑さに関する有限時間の限界など、その有限時間の動作を積極的に研究し始めたのはごく最近のことです。
経験的な側面では、経験のリプレイはディープ RL アルゴリズムの成功の重要な要素ですが、RL に対する理論的な影響はまだ完全には理解されていません。
この論文では、マルコフ ノイズ項の簡単な分解を提示し、経験の再生による TD 学習の有限時間誤差限界を提供します。
具体的には、マルコフ観測モデルの下では、平均反復ケースと最終反復ケースの両方で、一定のステップ サイズによって引き起こされる誤差項が、再生バッファーと、再生バッファーからサンプリングされたミニバッチのサイズによって効果的に制御できることを実証します。
エクスペリエンスリプレイバッファ。

要約(オリジナル)

Temporal-difference (TD) learning is widely regarded as one of the most popular algorithms in reinforcement learning (RL). Despite its widespread use, it has only been recently that researchers have begun to actively study its finite time behavior, including the finite time bound on mean squared error and sample complexity. On the empirical side, experience replay has been a key ingredient in the success of deep RL algorithms, but its theoretical effects on RL have yet to be fully understood. In this paper, we present a simple decomposition of the Markovian noise terms and provide finite-time error bounds for TD-learning with experience replay. Specifically, under the Markovian observation model, we demonstrate that for both the averaged iterate and final iterate cases, the error term induced by a constant step-size can be effectively controlled by the size of the replay buffer and the mini-batch sampled from the experience replay buffer.

arxiv情報

著者 Han-Dong Lim,Donghwan Lee
発行日 2023-06-16 10:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク