n-Step Temporal Difference Learning with Optimal n

要約

n ステップの時間差分 (TD) 学習アルゴリズムにおける n の最適値を見つける問題を考えます。
最適化問題の目的関数は、平均二乗平均平方根誤差 (RMSE) です。
1 回のシミュレーションによる同時摂動確率近似 (SPSA) ベースの手順を含むモデルフリーの最適化手法を利用して、最適な n を見つけます。
SPSA は 0 次の連続最適化手順ですが、ランダム射影演算子を使用して離散最適化設定に適応させます。
0 次の確率的勾配探索を使用して取得された n 更新のシーケンスが、関連する微分包含の内部連鎖推移的不変集合にほぼ確実に収束することを示すことにより、再帰の漸近収束を証明します。
これにより、離散パラメータ シーケンスが n ステップ TD で最適な n に収束します。
実験を通じて、任意の初期値に対して SDPSA アルゴリズムを使用して n の最適値が達成されることを示します。
さらに、数値評価を使用して、SDPSA が、ベンチマーク RL タスクにおいて最先端の離散パラメーター確率的最適化アルゴリズムである Optimal Computing Budget Allocation (OCBA) よりも優れていることを示します。

要約(オリジナル)

We consider the problem of finding the optimal value of n in the n-step temporal difference (TD) learning algorithm. Our objective function for the optimization problem is the average root mean squared error (RMSE). We find the optimal n by resorting to a model-free optimization technique involving a one-simulation simultaneous perturbation stochastic approximation (SPSA) based procedure. Whereas SPSA is a zeroth-order continuous optimization procedure, we adapt it to the discrete optimization setting by using a random projection operator. We prove the asymptotic convergence of the recursion by showing that the sequence of n-updates obtained using zeroth-order stochastic gradient search converges almost surely to an internally chain transitive invariant set of an associated differential inclusion. This results in convergence of the discrete parameter sequence to the optimal n in n-step TD. Through experiments, we show that the optimal value of n is achieved with our SDPSA algorithm for arbitrary initial values. We further show using numerical evaluations that SDPSA outperforms the state-of-the-art discrete parameter stochastic optimization algorithm Optimal Computing Budget Allocation (OCBA) on benchmark RL tasks.

arxiv情報

著者 Lakshmi Mandal,Shalabh Bhatnagar
発行日 2024-07-17 15:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク