The Nuts and Bolts of Adopting Transformer in GANs

要約

Transformer は、コンピュータ ビジョン、特に高レベルのビジョン タスクで普及しています。
ただし、敵対的生成ネットワーク (GAN) フレームワークに Transformer を採用することは、依然として未解決ながらも困難な問題です。
この論文では、高忠実度の画像合成のための GAN の Transformer の特性を調査するための包括的な実証研究を実施します。
局所性のメリットは分類タスクではよく知られていますが、私たちの分析では、画像生成における特徴の局所性の重要性が強調され、再確認されています。
おそらくもっと興味深いのは、セルフアテンション層の残留接続が、Transformer ベースの弁別器と条件付きジェネレータの学習に有害であることがわかります。
私たちはその影響を慎重に調査し、悪影響を軽減するための効果的な方法を提案します。
私たちの研究は、GAN におけるトランスフォーマーの新しい代替設計につながります。これは、STrans-G と呼ばれる畳み込みニューラル ネットワーク (CNN) フリーのジェネレーターであり、無条件画像生成と条件付き画像生成の両方で競争力のある結果を達成します。
Transformer ベースの弁別器である STrans-D も、CNN ベースの弁別器とのギャップを大幅に縮小します。

要約(オリジナル)

Transformer becomes prevalent in computer vision, especially for high-level vision tasks. However, adopting Transformer in the generative adversarial network (GAN) framework is still an open yet challenging problem. In this paper, we conduct a comprehensive empirical study to investigate the properties of Transformer in GAN for high-fidelity image synthesis. Our analysis highlights and reaffirms the importance of feature locality in image generation, although the merits of the locality are well known in the classification task. Perhaps more interestingly, we find the residual connections in self-attention layers harmful for learning Transformer-based discriminators and conditional generators. We carefully examine the influence and propose effective ways to mitigate the negative impacts. Our study leads to a new alternative design of Transformers in GAN, a convolutional neural network (CNN)-free generator termed as STrans-G, which achieves competitive results in both unconditional and conditional image generations. The Transformer-based discriminator, STrans-D, also significantly reduces its gap against the CNN-based discriminators.

arxiv情報

著者 Rui Xu,Xiangyu Xu,Kai Chen,Bolei Zhou,Chen Change Loy
発行日 2023-06-13 15:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク