要約
Adamのような適応方法のメモリオーバーヘッドとハイパーパラメーターの複雑さに対処する、メモリ効率の高い条件付きのステートレスオプティマイザーであるAlphagradを紹介します。
Alphagradは、テンソルごとのL2勾配の正規化を介してスケール不変性を強制し、それに続いて滑らかな双曲線の接線変換、$ g ‘= \ tanh(\ alpha \ cdot \ tilde {g})$、単一の急勾配パラメーター$ \ alpha $によって制御されます。
私たちの貢献には、次のものが含まれます。(1)アルファグラードアルゴリズムの定式化。
(2)定常性を保証する正式な非凸収束分析。
(3)多様なRLベンチマーク(DQN、TD3、PPO)に関する広範な経験的評価。
Adamと比較して、Alphagradは、コンテキスト依存性の高いパフォーマンスプロファイルを示しています。
オフポリシーDQNで不安定性を示している間、TD3(慎重な$ \ alpha $チューニングが必要)で競争力のある結果を伴うトレーニング安定性の向上を提供し、オンポリシーPPOで実質的に優れたパフォーマンスを達成します。
これらの結果は、経験的な$ \ alpha $選択の重要な重要性を強調し、オプティマイザーのダイナミクスと基礎となるRLアルゴリズムとの強い相互作用を明らかにします。
Alphagradは、メモリが制約されたシナリオに魅力的な代替オプティマイザーを提示し、その安定性と効率の利点が特に影響を与える可能性のあるポリシー学習体制に大きな約束を示しています。
要約(オリジナル)
We introduce AlphaGrad, a memory-efficient, conditionally stateless optimizer addressing the memory overhead and hyperparameter complexity of adaptive methods like Adam. AlphaGrad enforces scale invariance via tensor-wise L2 gradient normalization followed by a smooth hyperbolic tangent transformation, $g’ = \tanh(\alpha \cdot \tilde{g})$, controlled by a single steepness parameter $\alpha$. Our contributions include: (1) the AlphaGrad algorithm formulation; (2) a formal non-convex convergence analysis guaranteeing stationarity; (3) extensive empirical evaluation on diverse RL benchmarks (DQN, TD3, PPO). Compared to Adam, AlphaGrad demonstrates a highly context-dependent performance profile. While exhibiting instability in off-policy DQN, it provides enhanced training stability with competitive results in TD3 (requiring careful $\alpha$ tuning) and achieves substantially superior performance in on-policy PPO. These results underscore the critical importance of empirical $\alpha$ selection, revealing strong interactions between the optimizer’s dynamics and the underlying RL algorithm. AlphaGrad presents a compelling alternative optimizer for memory-constrained scenarios and shows significant promise for on-policy learning regimes where its stability and efficiency advantages can be particularly impactful.
arxiv情報
著者 | Soham Sane |
発行日 | 2025-04-23 01:25:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google