要約
複数の結合シーケンスを含む確率的近似 (SA) は、マルチシーケンス SA (MSSA) として知られ、信号処理と機械学習の分野でさまざまな用途に使用されます。
ただし、MSSA の既存の理論的理解には限界があります。マルチタイムスケール解析は収束速度が遅いことを意味しますが、単一タイムスケール解析は厳格な固定点の滑らかさの仮定に依存しています。
この論文では、固定点の滑らかさを仮定せずに、MSSA のより厳密な単一タイムスケール分析を確立します。
私たちの理論的発見は、関係するすべての演算子が非常に単調である場合、MSSA は $\tilde{\mathcal{O}}(K^{-1})$ の速度で収束することを明らかにしています。ここで、$K$ は反復の総数を示します
。
さらに、主要な演算子を除いて、関係するすべての演算子が単調性が高い場合、MSSA は $\mathcal{O}(K^{-\frac{1}{2}})$ の速度で収束します。
これらの理論的発見は、単一配列 SA について確立された理論的発見と一致しています。
これらの理論的発見をバイレベル最適化と通信効率の高い分散学習に適用すると、数値実験で検証されたように、緩和された仮定やパフォーマンスが保証されたより単純なアルゴリズムが提供されます。
要約(オリジナル)
Stochastic approximation (SA) that involves multiple coupled sequences, known as multiple-sequence SA (MSSA), finds diverse applications in the fields of signal processing and machine learning. However, existing theoretical understandings {of} MSSA are limited: the multi-timescale analysis implies a slow convergence rate, whereas the single-timescale analysis relies on a stringent fixed point smoothness assumption. This paper establishes tighter single-timescale analysis for MSSA, without assuming smoothness of the fixed points. Our theoretical findings reveal that, when all involved operators are strongly monotone, MSSA converges at a rate of $\tilde{\mathcal{O}}(K^{-1})$, where $K$ denotes the total number of iterations. In addition, when all involved operators are strongly monotone except for the main one, MSSA converges at a rate of $\mathcal{O}(K^{-\frac{1}{2}})$. These theoretical findings align with those established for single-sequence SA. Applying these theoretical findings to bilevel optimization and communication-efficient distributed learning offers relaxed assumptions and/or simpler algorithms with performance guarantees, as validated by numerical experiments.
arxiv情報
著者 | Yue Huang,Zhaoxian Wu,Shiqian Ma,Qing Ling |
発行日 | 2024-10-17 16:39:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google