要約
凸凹関数の鞍点を見つけるための確率的一次法の性能を研究します。
このような方法が直面する悪名高い課題は、最適化中に勾配が任意に大きくなる可能性があり、その結果、不安定性や発散が生じる可能性があることです。
この論文では、反復を安定させ、ドメインと勾配ノイズが反復のサイズに応じて線形にスケールする (したがって潜在的に制限がない) 場合でも、反復を安定させ、意味のあるパフォーマンス保証をもたらす、シンプルで効果的な正則化手法を提案します。
一連の一般的な結果を提供するだけでなく、アルゴリズムを強化学習の特定の問題にも適用します。このアルゴリズムは、バイアス スパンの事前知識がなくても、平均報酬 MDP で最適に近いポリシーを見つけるパフォーマンスの保証につながります。
要約(オリジナル)
We study the performance of stochastic first-order methods for finding saddle points of convex-concave functions. A notorious challenge faced by such methods is that the gradients can grow arbitrarily large during optimization, which may result in instability and divergence. In this paper, we propose a simple and effective regularization technique that stabilizes the iterates and yields meaningful performance guarantees even if the domain and the gradient noise scales linearly with the size of the iterates (and is thus potentially unbounded). Besides providing a set of general results, we also apply our algorithm to a specific problem in reinforcement learning, where it leads to performance guarantees for finding near-optimal policies in an average-reward MDP without prior knowledge of the bias span.
arxiv情報
著者 | Gergely Neu,Nneka Okolo |
発行日 | 2024-06-07 14:31:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google