要約
本論文では、ワッサーシュタイン生成逆境ネットワーク(WGAN)を見るための新しい理論的レンズを提案する。真のデータ分布と我々の推定値との間のWasserstein-1距離を最小化するために、Wasserstein-1損失の勾配フローを表す分布依存常微分方程式(ODE)を導出し、ODEの前方オイラー離散化が収束することを示す。これにより、永続的学習を自然に統合する新しいクラスの生成モデル(W1-FEと呼ぶ)が着想された。パーシステント・トレーニングをオフにした場合、W1-FEはWGANに縮退することを証明する。持続的学習を強化すると、W1-FEは低次元から高次元までの学習実験において、収束速度と学習結果の両面でWGANを上回ることが示される。興味深いことに、永続的な訓練がODEの観点を通して注意深く統合された場合にのみ、その利点を享受することができる。数値的に実証されたように、WGANに(我々のODEフレームワークに頼らずに)素朴に永続的学習を組み込むと、学習結果を著しく悪化させる可能性がある。
要約(オリジナル)
This paper proposes a new theoretical lens to view Wasserstein generative adversarial networks (WGANs). To minimize the Wasserstein-1 distance between the true data distribution and our estimate of it, we derive a distribution-dependent ordinary differential equation (ODE) which represents the gradient flow of the Wasserstein-1 loss, and show that a forward Euler discretization of the ODE converges. This inspires a new class of generative models that naturally integrates persistent training (which we call W1-FE). When persistent training is turned off, we prove that W1-FE reduces to WGAN. When we intensify persistent training, W1-FE is shown to outperform WGAN in training experiments from low to high dimensions, in terms of both convergence speed and training results. Intriguingly, one can reap the benefits only when persistent training is carefully integrated through our ODE perspective. As demonstrated numerically, a naive inclusion of persistent training in WGAN (without relying on our ODE framework) can significantly worsen training results.
arxiv情報
著者 | Zachariah Malik,Yu-Jui Huang |
発行日 | 2025-02-04 16:37:43+00:00 |
arxivサイト | arxiv_id(pdf) |