要約
Double Q 学習アルゴリズムに触発された Double-DQN (DDQN) アルゴリズムは、元々は元の DQN アルゴリズムの過大評価の問題に対処するために提案されました。
DDQN は、目標値の計算におけるアクションの評価と選択の観点からデカップリングの重要性を理論的にも経験的にも示すことに成功しました。
ただし、著者が言及したように、DQN アルゴリズムに最小限の変更を加えただけで、すべての利点が得られました。
それにもかかわらず、ターゲットの移動と、ターゲットの移動による不安定性という深刻な問題に取り組むことを期待して、最初に DQN によって撤回されたポリシー ネットワークのパラメーターがターゲット値関数に再び出現したため、DDQN の提案されたアルゴリズムにはロールバックがあるように見えます。
それは学習の過程で(つまり、ターゲットを移動することによって)行われます。
したがって、この論文では、安定性と過大評価の両方の観点からパフォーマンスを維持することを期待して、DDQN アルゴリズムに対する 3 つの修正を提案します。
これらの修正は、目標値関数における最適なアクションの選択と評価を分離するロジックと、移動目標の問題に取り組むロジックに焦点を当てています。
これらの各変更には、他の変更と比較して独自の長所と短所があります。
言及された長所と短所は、主に、対応するアルゴリズムに必要な実行時間と、対応するアルゴリズムによって提供される安定性を指します。
また、過大評価の観点からは、どの変更も元の DDQN を上回るパフォーマンスではないにしても、パフォーマンスを下回っているようには見えません。
提案された修正の有効性を評価する目的で、理論的実験とともに複数の実証実験が実施されました。
得られた結果については、この記事で説明および説明します。
要約(オリジナル)
Inspired by Double Q-learning algorithm, the Double-DQN (DDQN) algorithm was originally proposed in order to address the overestimation issue in the original DQN algorithm. The DDQN has successfully shown both theoretically and empirically the importance of decoupling in terms of action evaluation and selection in computation of target values; although, all the benefits were acquired with only a simple adaption to DQN algorithm, minimal possible change as it was mentioned by the authors. Nevertheless, there seems a roll-back in the proposed algorithm of DDQN since the parameters of policy network are emerged again in the target value function which were initially withdrawn by DQN with the hope of tackling the serious issue of moving targets and the instability caused by it (i.e., by moving targets) in the process of learning. Therefore, in this paper three modifications to the DDQN algorithm are proposed with the hope of maintaining the performance in the terms of both stability and overestimation. These modifications are focused on the logic of decoupling the best action selection and evaluation in the target value function and the logic of tackling the moving targets issue. Each of these modifications have their own pros and cons compared to the others. The mentioned pros and cons mainly refer to the execution time required for the corresponding algorithm and the stability provided by the corresponding algorithm. Also, in terms of overestimation, none of the modifications seem to underperform compared to the original DDQN if not outperform it. With the intention of evaluating the efficacy of the proposed modifications, multiple empirical experiments along with theoretical experiments were conducted. The results obtained are represented and discussed in this article.
arxiv情報
著者 | Shervin Halat,Mohammad Mehdi Ebadzadeh,Kiana Amani |
発行日 | 2024-10-29 14:06:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google