n-Step Temporal Difference Learning with Optimal n

要約

タイトル:Optimal nを用いたn-Step Temporal Difference学習

要約:

– n-step temporal difference(TD)学習アルゴリズムにおいて、最適なnの値の決定を考える。
– モデルフリー最適化技術である、一つのシミュレーション同時摂動確率的近似(SPSA)ベースの手順を使用し、ランダムプロジェクションアプローチを用いて離散最適化設定に適用することにより、最適なnを見つける。
– 差分包含法により、提案されたアルゴリズムSDPSAの収束が証明され、n-step TDで最適なnの値を見つけることができることが示される。
– 実験により、SDPSAで任意の初期値でも最適なnの値が得られることが示される。

要約(オリジナル)

We consider the problem of finding the optimal value of n in the n-step temporal difference (TD) learning algorithm. We find the optimal n by resorting to a model-free optimization technique involving a one-simulation simultaneous perturbation stochastic approximation (SPSA) based procedure that we adopt to the discrete optimization setting by using a random projection approach. We prove the convergence of our proposed algorithm, SDPSA, using a differential inclusions approach and show that it finds the optimal value of n in n-step TD. Through experiments, we show that the optimal value of n is achieved with SDPSA for arbitrary initial values.

arxiv情報

著者 Lakshmi Mandal,Shalabh Bhatnagar
発行日 2023-04-13 09:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク