要約
強化学習におけるリーセンシーヒューリスティックは、獲得された報酬に近い時間で発生した刺激はより強く強化されるべきであるという仮定です。
リーセンシー ヒューリスティックは、TD($\lambda$) によって行われる重要な仮定の 1 つであり、指数関数的に減衰する重み付けに従って最近の経験を強化します。
実際、$n$-step リターンなど、TD 学習に広く使用されている他のリターン推定量はすべて、より弱い (つまり、非単調な) リーセンシー ヒューリスティックを満たしています。
リーセンシーヒューリスティックが一時的なクレジットの割り当てに有効なのはなぜですか?
このヒューリスティックに違反する方法でクレジットが割り当てられた場合はどうなりますか?
この論文では、TD 学習にリーセンシー ヒューリスティックを採用することの具体的な数学的意味を分析します。
我々は、このヒューリスティックを満たすリターン推定量はどれも、1) 正しい値関数に収束することが保証され、2) 収縮率が比較的速く、3) 効果的なクレジット割り当ての長いウィンドウを持ちながら、最悪の場合の分散が制限されていることを証明します。
また、リーセンシ ヒューリスティックに違反するポリシー上の表形式の TD メソッドが分岐する反例も示します。
私たちの結果は、最新のヒューリスティックに基づいた単位の割り当てが学習を促進するという最初の理論的証拠の一部を提供します。
要約(オリジナル)
The recency heuristic in reinforcement learning is the assumption that stimuli that occurred closer in time to an acquired reward should be more heavily reinforced. The recency heuristic is one of the key assumptions made by TD($\lambda$), which reinforces recent experiences according to an exponentially decaying weighting. In fact, all other widely used return estimators for TD learning, such as $n$-step returns, satisfy a weaker (i.e., non-monotonic) recency heuristic. Why is the recency heuristic effective for temporal credit assignment? What happens when credit is assigned in a way that violates this heuristic? In this paper, we analyze the specific mathematical implications of adopting the recency heuristic in TD learning. We prove that any return estimator satisfying this heuristic: 1) is guaranteed to converge to the correct value function, 2) has a relatively fast contraction rate, and 3) has a long window of effective credit assignment, yet bounded worst-case variance. We also give a counterexample where on-policy, tabular TD methods violating the recency heuristic diverge. Our results offer some of the first theoretical evidence that credit assignment based on the recency heuristic facilitates learning.
arxiv情報
著者 | Brett Daley,Marlos C. Machado,Martha White |
発行日 | 2024-08-26 11:33:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google