Convergence of SGD for Training Neural Networks with Sliced Wasserstein Losses

要約

Optimal Transport は近年、特に確率尺度を比較する幾何学的に合理的で直感的な方法を提供する Wasserstein 距離のおかげで、強い関心を集めています。
計算上の理由から、スライス ワッサーシュタイン (SW) 距離がワッサーシュタイン距離の代替として導入され、生成ニューラル ネットワーク (NN) のトレーニングに使用されています。
このような環境では確率的勾配降下法 (SGD) の収束が実際に観察されていますが、我々の知る限り、この観察に対する理論的な保証はありません。
Bianchi らによる非平滑関数および非凸関数での SGD の収束に関する最近の研究を活用します。
(2022) では、その知識のギャップを埋め、NN パラメータでの SW 損失の固定ステップ SGD 軌道が収束する現実的なコンテキストを提供することを目指しています。
より正確には、ステップが減少するにつれて、軌道が一連の (サブ) 勾配流れ方程式に近づくことを示します。
より厳密な仮定の下では、ノイズが含まれ、投影された SGD スキームのはるかに強力な収束結果が示されます。つまり、軌跡の長期限界が損失関数の一般化された臨界点のセットに近づくということです。

要約(オリジナル)

Optimal Transport has sparked vivid interest in recent years, in particular thanks to the Wasserstein distance, which provides a geometrically sensible and intuitive way of comparing probability measures. For computational reasons, the Sliced Wasserstein (SW) distance was introduced as an alternative to the Wasserstein distance, and has seen uses for training generative Neural Networks (NNs). While convergence of Stochastic Gradient Descent (SGD) has been observed practically in such a setting, there is to our knowledge no theoretical guarantee for this observation. Leveraging recent works on convergence of SGD on non-smooth and non-convex functions by Bianchi et al. (2022), we aim to bridge that knowledge gap, and provide a realistic context under which fixed-step SGD trajectories for the SW loss on NN parameters converge. More precisely, we show that the trajectories approach the set of (sub)-gradient flow equations as the step decreases. Under stricter assumptions, we show a much stronger convergence result for noised and projected SGD schemes, namely that the long-run limits of the trajectories approach a set of generalised critical points of the loss function.

arxiv情報

著者 Eloi Tanguy
発行日 2024-01-30 16:24:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.PR パーマリンク