要約
通信が重要な役割を果たす大規模な機械学習の問題では、遅延と非同期は避けられません。
そのため、いくつかの研究で、遅延勾配を使用した確率的最適化が広範囲に分析されています。
しかし、私たちが知る限り、最小最大最適化に利用できる類似の理論はありません。最小最大最適化は、敵対的ロバスト性、ゲーム理論、強化学習への応用により最近人気が高まっているトピックです。
このギャップを動機として、勾配更新を遅らせた標準的な最小-最大最適化アルゴリズムのパフォーマンスを調べます。
まず、遅延がなければ \texttt{EG} が収束を保証する単純なインスタンスでは、たとえ小さな遅延でも Extra-gradient (\texttt{EG}) のような顕著なアルゴリズムが発散する可能性があることを (経験的に) 示します。
したがって、私たちの実証研究は、min-max 最適化アルゴリズムの遅延バージョンを注意深く分析する必要があることを示唆しています。
したがって、適切な技術的仮定の下で、遅延更新を伴う勾配降下上昇 (\texttt{GDA}) および \texttt{EG} が、凸-凹および強い凸-強い凹の設定の鞍点への収束を保証し続けることを証明します。
複雑さの限界は、遅延によって引き起こされる収束の遅れを透明性のある方法で明らかにします。
要約(オリジナル)
Delays and asynchrony are inevitable in large-scale machine-learning problems where communication plays a key role. As such, several works have extensively analyzed stochastic optimization with delayed gradients. However, as far as we are aware, no analogous theory is available for min-max optimization, a topic that has gained recent popularity due to applications in adversarial robustness, game theory, and reinforcement learning. Motivated by this gap, we examine the performance of standard min-max optimization algorithms with delayed gradient updates. First, we show (empirically) that even small delays can cause prominent algorithms like Extra-gradient (\texttt{EG}) to diverge on simple instances for which \texttt{EG} guarantees convergence in the absence of delays. Our empirical study thus suggests the need for a careful analysis of delayed versions of min-max optimization algorithms. Accordingly, under suitable technical assumptions, we prove that Gradient Descent-Ascent (\texttt{GDA}) and \texttt{EG} with delayed updates continue to guarantee convergence to saddle points for convex-concave and strongly convex-strongly concave settings. Our complexity bounds reveal, in a transparent manner, the slow-down in convergence caused by delays.
arxiv情報
著者 | Arman Adibi,Aritra Mitra,Hamed Hassani |
発行日 | 2023-08-25 03:14:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google