Dealing with unbounded gradients in stochastic saddle-point optimization

要約

凸凹関数の鞍点を見つけるための確率的一次法の性能を研究します。
このような方法が直面する悪名高い課題は、最適化中に勾配が任意に大きくなる可能性があり、その結果、不安定性や発散が生じる可能性があることです。
この論文では、反復を安定させ、ドメインと勾配ノイズが反復のサイズに応じて線形にスケールする (したがって潜在的に制限がない) 場合でも、反復を安定させ、意味のあるパフォーマンス保証をもたらす、シンプルで効果的な正則化手法を提案します。
一連の一般的な結果を提供することに加えて、アルゴリズムを強化学習の特定の問題にも適用します。このアルゴリズムは、バイアス スパンの事前知識がなくても、平均報酬 MDP で最適に近いポリシーを見つけるパフォーマンスの保証につながります。

要約(オリジナル)

We study the performance of stochastic first-order methods for finding saddle points of convex-concave functions. A notorious challenge faced by such methods is that the gradients can grow arbitrarily large during optimization, which may result in instability and divergence. In this paper, we propose a simple and effective regularization technique that stabilizes the iterates and yields meaningful performance guarantees even if the domain and the gradient noise scales linearly with the size of the iterates (and is thus potentially unbounded). Besides providing a set of general results, we also apply our algorithm to a specific problem in reinforcement learning, where it leads to performance guarantees for finding near-optimal policies in an average-reward MDP without prior knowledge of the bias span.

arxiv情報

著者 Gergely Neu,Nneka Okolo
発行日 2024-02-21 16:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク