Spider GAN: Leveraging Friendly Neighbors to Accelerate GAN Training


Generative adversarial networks (GANs)を安定的に学習させることは、困難な課題である。GANの生成器は、典型的なガウス分布のノイズベクトルを、画像のような現実的なデータに変換する。本論文では、画像を入力としてGANを訓練するための新しいアプローチを提案するが、ペアワイズ制約を強制することはない。直感的には、画像はノイズよりも構造化されており、生成器はこれを利用してより頑健な変換を学習することができる。このプロセスは、密接に関連するデータセット、つまりターゲット分布の「友好的な近隣」(Spider GANという名称の由来)を特定することで効率化することができる。データセット間の近接性を利用してフレンドリーネイバーフッドを定義するために、我々はポリハーモニックカーネルに着想を得た符号付きインセプション距離(SID)と呼ばれる新しい尺度を提案する。Spider GANは、一見無関係に見えるデータセット間、例えばTiny-ImageNetとCelebA faceの間の対応関係を発見することができるため、収束が速くなることを示す。さらに、Spider GANをカスケード接続することで、事前に訓練されたGAN生成器の出力分布を、後続のネットワークの入力として使用することができます。また、Spider GANのカスケード学習では、事前に学習させたGAN生成器の出力分布を、後続のネットワークの入力として使用します。我々は、DCGAN、条件付きGAN、PGGAN、StyleGAN2、StyleGAN3において、Spiderアプローチの有効性を実証する。提案手法は、MetFaces、Ukiyo-E Faces、AFHQ-Catsといった高解像度の小規模データセットにおいて、ベースラインと比較して、5分の1の学習反復で最先端のFrechet inception distance (FID) 値を達成することができました。


Training Generative adversarial networks (GANs) stably is a challenging task. The generator in GANs transform noise vectors, typically Gaussian distributed, into realistic data such as images. In this paper, we propose a novel approach for training GANs with images as inputs, but without enforcing any pairwise constraints. The intuition is that images are more structured than noise, which the generator can leverage to learn a more robust transformation. The process can be made efficient by identifying closely related datasets, or a “friendly neighborhood” of the target distribution, inspiring the moniker, Spider GAN. To define friendly neighborhoods leveraging proximity between datasets, we propose a new measure called the signed inception distance (SID), inspired by the polyharmonic kernel. We show that the Spider GAN formulation results in faster convergence, as the generator can discover correspondence even between seemingly unrelated datasets, for instance, between Tiny-ImageNet and CelebA faces. Further, we demonstrate cascading Spider GAN, where the output distribution from a pre-trained GAN generator is used as the input to the subsequent network. Effectively, transporting one distribution to another in a cascaded fashion until the target is learnt — a new flavor of transfer learning. We demonstrate the efficacy of the Spider approach on DCGAN, conditional GAN, PGGAN, StyleGAN2 and StyleGAN3. The proposed approach achieves state-of-the-art Frechet inception distance (FID) values, with one-fifth of the training iterations, in comparison to their baseline counterparts on high-resolution small datasets such as MetFaces, Ukiyo-E Faces and AFHQ-Cats.


著者 Siddarth Asokan,Chandra Sekhar Seelamantula
発行日 2023-05-12 17:03:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク