Existence and Estimation of Critical Batch Size for Training Generative Adversarial Networks with Two Time-Scale Update Rule

要約

タイトル:Two Time-Scale Update Ruleを使用したGenerative Adversarial Networksのトレーニングのためのクリティカルバッチサイズの存在と推定
要約:

– Two Time-Scale Update Rule (TTUR)は、定数の異なるレートや減衰する異なるレートを使用することで、理論的にも実際にもGenerative Adversarial Networks(GAN)のトレーニングに役立つことが以前の研究で示されています。
– 学習率だけでなく、バッチサイズもTTURでGANをトレーニングするために重要であり、両方がトレーニングに必要なステップ数に影響を与えます。
– この論文では、定数の学習率を使用したTTURでGANをトレーニングする際のバッチサイズとトレーニングに必要なステップ数の関係を研究しています。
– 理論的には、TTURにおいては、バッチサイズが増加すると、識別器と生成器の損失関数の定常点を見つけるために必要なステップ数が減少することを示しており、確率的第一勾配オラクル(SFO)の複雑さを最小化するクリティカルバッチサイズが存在することを示しています。
– その後、Fr’echet inception距離(FID)をトレーニングの性能評価尺度として使用し、バッチサイズが増加するとFIDスコアを低くするために必要なステップ数が減少し、測定されたクリティカルバッチサイズを超えるとSFO複雑性が増加することを示す数値結果を提供しています。
– さらに、測定されたクリティカルバッチサイズは、理論的結果から推定したサイズに近いことを示しています。

要約(オリジナル)

Previous results have shown that a two time-scale update rule (TTUR) using different learning rates, such as different constant rates or different decaying rates, is useful for training generative adversarial networks (GANs) in theory and in practice. Moreover, not only the learning rate but also the batch size is important for training GANs with TTURs and they both affect the number of steps needed for training. This paper studies the relationship between batch size and the number of steps needed for training GANs with TTURs based on constant learning rates. We theoretically show that, for a TTUR with constant learning rates, the number of steps needed to find stationary points of the loss functions of both the discriminator and generator decreases as the batch size increases and that there exists a critical batch size minimizing the stochastic first-order oracle (SFO) complexity. Then, we use the Fr’echet inception distance (FID) as the performance measure for training and provide numerical results indicating that the number of steps needed to achieve a low FID score decreases as the batch size increases and that the SFO complexity increases once the batch size exceeds the measured critical batch size. Moreover, we show that measured critical batch sizes are close to the sizes estimated from our theoretical results.

arxiv情報

著者 Naoki Sato,Hideaki Iiduka
発行日 2023-05-02 14:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, math.OC パーマリンク