Existence and Estimation of Critical Batch Size for Training Generative Adversarial Networks with Two Time-Scale Update Rule

要約

タイトル:二つの時間尺度更新ルールを使った生成的対抗ネットワークのトレーニングにおけるクリティカルバッチサイズの存在と推定

要約:

– 二つの時間尺度更新規則(TTUR)は、学習率が異なる定数率または減衰率である場合に、理論的にも実践的にも作用することが先行研究で示されている。
– TTURを使用してGANをトレーニングする場合、学習率だけでなくバッチサイズも重要であり、両方がトレーニングに必要なステップ数に影響を与える。
– 定数学習率をベースにしたTTURで、バッチサイズとトレーニングに必要なステップ数の関係を調べた。
– 理論的には、定数学習率を使用したTTURの場合、判別器とジェネレータの損失関数の定常点を見つけるために必要なステップ数は、バッチサイズが増加するにつれて減少し、確率的一次勾配情報(SFO)の複雑さを最小化するクリティカルバッチサイズが存在することを示す。
– Fr’echet inception distance(FID)をパフォーマンス測定として使用し、数値結果を提供することで、FIDスコアを低くするために必要なステップ数がバッチサイズが増加するにつれて減少し、測定されたクリティカルバッチサイズを超えるとSFO複雑性が増加することを示す。
– さらに、測定されたクリティカルバッチサイズが、理論的結果から推定されたバッチサイズと近いことを示す。

要約(オリジナル)

Previous results have shown that a two time-scale update rule (TTUR) using different learning rates, such as different constant rates or different decaying rates, is useful for training generative adversarial networks (GANs) in theory and in practice. Moreover, not only the learning rate but also the batch size is important for training GANs with TTURs and they both affect the number of steps needed for training. This paper studies the relationship between batch size and the number of steps needed for training GANs with TTURs based on constant learning rates. We theoretically show that, for a TTUR with constant learning rates, the number of steps needed to find stationary points of the loss functions of both the discriminator and generator decreases as the batch size increases and that there exists a critical batch size minimizing the stochastic first-order oracle (SFO) complexity. Then, we use the Fr’echet inception distance (FID) as the performance measure for training and provide numerical results indicating that the number of steps needed to achieve a low FID score decreases as the batch size increases and that the SFO complexity increases once the batch size exceeds the measured critical batch size. Moreover, we show that measured critical batch sizes are close to the sizes estimated from our theoretical results.

arxiv情報

著者 Naoki Sato,Hideaki Iiduka
発行日 2023-05-03 02:47:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, math.OC パーマリンク