要約
テキスト記述を通じて生成モデルをガイドすることにより、高品質画像のテキストから画像へのモデルを合成することは、革新的かつ困難なタスクです。
近年では、GANの学習を誘導するためのAttnitionメカニズムに基づくAttnGAN、自己蒸留技術を採用してジェネレータの性能と画像生成の品質を向上させるSD-GAN、そして段階的に画像生成の品質を向上させるStack-GAN++が提案されています。
複数のジェネレーターとディスクリミネーターをスタックすることで、画像の詳細と品質を向上させます。
ただし、GAN に対する一連の改善はすべてある程度の冗長性を備えており、生成パフォーマンスと複雑さにある程度の影響を与えます。
私たちは、人気のあるシンプルで効果的なアイデア (1) を使用して、冗長構造を削除し、AttnGAN のバックボーン ネットワークを改善します。
(2) DAMSM の複数の損失を統合して再構築する。
私たちの改善により、モデルのパフォーマンスが変わらないことを保証しながら、モデルのサイズとトレーニング効率が大幅に向上し、最終的に \textbf{SEAttnGAN} が提案されました。
コードは https://github.com/jmyissb/SEAttnGAN で入手できます。
要約(オリジナル)
Synthesising a text-to-image model of high-quality images by guiding the generative model through the Text description is an innovative and challenging task. In recent years, AttnGAN based on the Attention mechanism to guide GAN training has been proposed, SD-GAN, which adopts a self-distillation technique to improve the performance of the generator and the quality of image generation, and Stack-GAN++, which gradually improves the details and quality of the image by stacking multiple generators and discriminators. However, this series of improvements to GAN all have redundancy to a certain extent, which affects the generation performance and complexity to a certain extent. We use the popular simple and effective idea (1) to remove redundancy structure and improve the backbone network of AttnGAN. (2) to integrate and reconstruct multiple losses of DAMSM. Our improvements have significantly improved the model size and training efficiency while ensuring that the model’s performance is unchanged and finally proposed our \textbf{SEAttnGAN}. Code is avalilable at https://github.com/jmyissb/SEAttnGAN.
arxiv情報
著者 | Mingyu Jin,Chong Zhang,Qinkai Yu,Haochen Xue,Xiaobo Jin,Xi Yang } |
発行日 | 2023-06-26 13:55:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google