要約
深層強化学習における最適値関数を近似するタスクに焦点を当てます。
この反復プロセスは、目的関数が反復ごとに変化する可能性がある一連の最適化問題を近似的に解くことで構成されます。
この問題を解決する一般的なアプローチは、Adam などの確率的勾配降下法アルゴリズムの最新の変形を採用することです。
これらのオプティマイザーは、勾配の 1 次モーメントと 2 次モーメントの推定値などの独自の内部パラメーターを維持し、時間の経過とともにこれらのパラメーターを更新します。
したがって、前の反復で取得された情報は、現在の反復で最適化問題を解決するために使用されます。
以前の反復の最適化状況が現在の反復と大きく異なる状況では、これにより、使用されているオプティマイザーの内部パラメーターが汚染される可能性があると仮説を立てます。
この影響を回避するための簡単なアイデアは、新しい反復の開始時にオプティマイザの内部パラメータをリセットすることです。
私たちは、Rainbow アルゴリズムと組み合わせてさまざまなオプティマイザーを使用することにより、このリセット戦略を経験的に調査します。
この単純な変更により、最新のオプティマイザーの真の可能性が解放され、Atari ベンチマークでのディープ RL のパフォーマンスが大幅に向上することを実証します。
要約(オリジナル)
We focus on the task of approximating the optimal value function in deep reinforcement learning. This iterative process is comprised of approximately solving a sequence of optimization problems where the objective function can change per iteration. The common approach to solving the problem is to employ modern variants of the stochastic gradient descent algorithm such as Adam. These optimizers maintain their own internal parameters such as estimates of the first and the second moment of the gradient, and update these parameters over time. Therefore, information obtained in previous iterations is being used to solve the optimization problem in the current iteration. We hypothesize that this can contaminate the internal parameters of the employed optimizer in situations where the optimization landscape of the previous iterations is quite different from the current iteration. To hedge against this effect, a simple idea is to reset the internal parameters of the optimizer when starting a new iteration. We empirically investigate this resetting strategy by employing various optimizers in conjunction with the Rainbow algorithm. We demonstrate that this simple modification unleashes the true potential of modern optimizers, and significantly improves the performance of deep RL on the Atari benchmark.
arxiv情報
著者 | Kavosh Asadi,Rasool Fakoor,Shoham Sabach |
発行日 | 2023-06-30 17:53:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google