Spatial Steerability of GANs via Self-Supervision from Discriminator

要約

生成モデルは、近年、フォトリアリスティックな画像合成に大きな進歩を遂げています。
人間が画像生成プロセスを操作し、出力をカスタマイズできるようにするために、多くの研究で GAN の潜在空間の解釈可能な次元が調査されています。
既存の方法では、特定の方向に沿って潜在コードを変更することにより、方向や配色などの出力画像の属性を編集します。
ただし、これらの方法は通常、事前トレーニング済みのモデルごとに追加のヒューマン アノテーションを必要とし、主にグローバル属性の編集に重点を置いています。
この作業では、潜在空間で操縦可能な方向を検索したり、追加の注釈を必要としたりすることなく、GAN の空間操縦性を改善するための自己教師ありアプローチを提案します。
具体的には、空間誘導バイアスとして生成モデルの中間層にエンコードされるように、ランダムにサンプリングされたガウス ヒートマップを設計します。
GAN モデルをゼロからトレーニングすることに加えて、これらのヒートマップは、自己教師あり学習方式で GAN の弁別器の注目を集めています。
推論中、人間のユーザーは空間ヒートマップを直感的に操作して、シーン レイアウトの変更やシーン内のオブジェクトの移動など、出力画像を編集できます。
広範な実験により、提案された方法は、人間の顔、動物の顔、屋外シーン、および複雑な屋内シーンの空間編集を可能にするだけでなく、合成品質の向上ももたらすことが示されています。

要約(オリジナル)

Generative models make huge progress to the photorealistic image synthesis in recent years. To enable human to steer the image generation process and customize the output, many works explore the interpretable dimensions of the latent space in GANs. Existing methods edit the attributes of the output image such as orientation or color scheme by varying the latent code along certain directions. However, these methods usually require additional human annotations for each pretrained model, and they mostly focus on editing global attributes. In this work, we propose a self-supervised approach to improve the spatial steerability of GANs without searching for steerable directions in the latent space or requiring extra annotations. Specifically, we design randomly sampled Gaussian heatmaps to be encoded into the intermediate layers of generative models as spatial inductive bias. Along with training the GAN model from scratch, these heatmaps are being aligned with the emerging attention of the GAN’s discriminator in a self-supervised learning manner. During inference, human users can intuitively interact with the spatial heatmaps to edit the output image, such as varying the scene layout or moving objects in the scene. Extensive experiments show that the proposed method not only enables spatial editing over human faces, animal faces, outdoor scenes, and complicated indoor scenes, but also brings improvement in synthesis quality.

arxiv情報

著者 Jianyuan Wang,Ceyuan Yang,Yinghao Xu,Yujun Shen,Hongdong Li,Bolei Zhou
発行日 2023-01-20 07:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク