要約
Generative Adversarial Network(GAN)を反転すると、事前にトレーニングされたジェネレーターを使用して、さまざまな画像編集タスクが容易になります。
既存の方法は通常、GANの潜在空間を反転空間として使用しますが、空間の詳細の回復が不十分であることを観察します。
この作業では、空間情報で潜在空間を補完するために、ジェネレータのパディング空間を含めることを提案します。
具体的には、畳み込みレイヤーで使用される定数パディング(通常はゼロなど)をインスタンス対応の係数に置き換えます。
このようにして、事前にトレーニングされたモデルで想定される誘導バイアスを、個々の画像に合うように適切に適合させることができます。
慎重に設計されたエンコーダーを学習することで、定性的および定量的に反転品質を向上させ、既存の代替品を上回ります。
次に、そのようなスペース拡張がネイティブGAN多様体にほとんど影響を与えないことを示します。したがって、GANによって学習された事前知識をさまざまなダウンストリームアプリケーションに再利用できます。
先行技術で探求された編集タスクを超えて、私たちのアプローチは、顔の輪郭と顔の詳細の個別の制御など、より柔軟な画像操作を可能にし、ユーザーが自分の操作を非常に効率的にカスタマイズできる新しい編集方法を可能にします。
要約(オリジナル)
Inverting a Generative Adversarial Network (GAN) facilitates a wide range of image editing tasks using pre-trained generators. Existing methods typically employ the latent space of GANs as the inversion space yet observe the insufficient recovery of spatial details. In this work, we propose to involve the padding space of the generator to complement the latent space with spatial information. Concretely, we replace the constant padding (e.g., usually zeros) used in convolution layers with some instance-aware coefficients. In this way, the inductive bias assumed in the pre-trained model can be appropriately adapted to fit each individual image. Through learning a carefully designed encoder, we manage to improve the inversion quality both qualitatively and quantitatively, outperforming existing alternatives. We then demonstrate that such a space extension barely affects the native GAN manifold, hence we can still reuse the prior knowledge learned by GANs for various downstream applications. Beyond the editing tasks explored in prior arts, our approach allows a more flexible image manipulation, such as the separate control of face contour and facial details, and enables a novel editing manner where users can customize their own manipulations highly efficiently.
arxiv情報
著者 | Qingyan Bai,Yinghao Xu,Jiapeng Zhu,Weihao Xia,Yujiu Yang,Yujun Shen |
発行日 | 2022-07-27 13:49:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google