要約
この論文では、非凸および非滑らかな目的関数を使用した分散最適化問題、特に非滑らかなニューラル ネットワークの分散トレーニングに焦点を当てます。
分散型確率的部分勾配法のグローバル収束を分析するために、DSM という名前の統一フレームワークを導入します。
生成されたシーケンスがその関連する微分包含の軌跡に漸近的に近似することを確立することにより、穏やかな条件下で提案したフレームワークの大域的収束を証明します。
さらに、提案したフレームワークが、分散確率的部分勾配降下法 (DSGD)、勾配追跡技術を使用した DSGD (DSGD-T)、および運動量を使用した DSGD (DSGDm) を含む、既存の効率的な分散型部分勾配法を広範囲に包含していることを確立します。
さらに、DSGDm の更新方向を正規化するためにサイン マップを使用する SignSGD を紹介し、それが提案するフレームワークに含まれていることを示します。
その結果、我々の収束結果は、滑らかでない非凸の対物レンズに適用された場合に、これらの方法の全体的な収束を初めて確立します。
予備的な数値実験により、私たちが提案するフレームワークが、非滑らかなニューラル ネットワークの学習において収束保証を備えた高効率な分散型部分勾配法を生成することが実証されています。
要約(オリジナル)
In this paper, we concentrate on decentralized optimization problems with nonconvex and nonsmooth objective functions, especially on the decentralized training of nonsmooth neural networks. We introduce a unified framework, named DSM, to analyze the global convergence of decentralized stochastic subgradient methods. We prove the global convergence of our proposed framework under mild conditions, by establishing that the generated sequence asymptotically approximates the trajectories of its associated differential inclusion. Furthermore, we establish that our proposed framework encompasses a wide range of existing efficient decentralized subgradient methods, including decentralized stochastic subgradient descent (DSGD), DSGD with gradient-tracking technique (DSGD-T), and DSGD with momentum (DSGDm). In addition, we introduce SignSGD employing the sign map to regularize the update directions in DSGDm, and show it is enclosed in our proposed framework. Consequently, our convergence results establish, for the first time, global convergence of these methods when applied to nonsmooth nonconvex objectives. Preliminary numerical experiments demonstrate that our proposed framework yields highly efficient decentralized subgradient methods with convergence guarantees in the training of nonsmooth neural networks.
arxiv情報
著者 | Siyuan Zhang,Nachuan Xiao,Xin Liu |
発行日 | 2024-03-18 08:35:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google