n-Step Temporal Difference Learning with Optimal n


タイトル:n-Step Temporal Difference Learning with Optimal n
– n-step TDアルゴリズムにおける最適なnの値を見つける問題を考慮する。
– 同時摂動確率近似(SPSA)のモデルフリー最適化技術に頼ることにより、最適なnを見つける。
– 点滅摂動シーケンスを組み込んだ従来の連続最適化の1シミュレーションSPSA手法を、離散最適化のフレームワークに適応する。
– 提案されたアルゴリズム、SDPSAが収束することを証明し、n-step TDにおける最適なnの値を見つけることができることを示す。
– 実験を通じて、任意の初期値に対してSDPSAが最適なnの値を実現することを示す。


We consider the problem of finding the optimal value of n in the n-step temporal difference (TD) algorithm. We find the optimal n by resorting to the model-free optimization technique of simultaneous perturbation stochastic approximation (SPSA). We adopt a one-simulation SPSA procedure that is originally for continuous optimization to the discrete optimization framework but incorporates a cyclic perturbation sequence. We prove the convergence of our proposed algorithm, SDPSA, and show that it finds the optimal value of n in n-step TD. Through experiments, we show that the optimal value of n is achieved with SDPSA for any arbitrary initial value of the same.


著者 Lakshmi Mandal,Shalabh Bhatnagar
発行日 2023-04-12 14:38:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク