Generative Fields: Uncovering Hierarchical Feature Control for StyleGAN via Inverted Receptive Fields

要約

スタイルガンは、GANがランダムノイズから想像上の人々の非常に現実的な顔を合成する能力を実証しています。
GANベースの画像生成の1つの制限は、低次元の潜在空間の強い絡み合いにより、生成された画像の特徴を制御することの難しさです。
画像またはテキストプロンプトを使用してStyleGanを制御することを目的とした以前の作業は、Z潜在スペースよりも表現力がある潜在的な空間でサンプリングを変調しました。
ただし、W Spaceには、特徴合成を直接制御しないため、依然として制限された表現率があります。
また、Wスペースに埋め込まれる機能には、スタイル信号を再構築するためのトレーニング前のプロセスが必要で、アプリケーションが制限されます。
このペーパーでは、「生成フィールド」の概念を紹介して、畳み込みニューラルネットワーク(CNNS)の受容フィールドに触発されたStyleganの階層的特徴の合成を説明します。
さらに、生成フィールド理論とチャネルワイズスタイルの潜在スペースを使用して、スタイルガンのパイプラインを編集する新しい画像を提案します。これは、CNNSの本質的な構造的特徴を利用して、合成時に特徴合成のデアンタングルの制御を実現します。

要約(オリジナル)

StyleGAN has demonstrated the ability of GANs to synthesize highly-realistic faces of imaginary people from random noise. One limitation of GAN-based image generation is the difficulty of controlling the features of the generated image, due to the strong entanglement of the low-dimensional latent space. Previous work that aimed to control StyleGAN with image or text prompts modulated sampling in W latent space, which is more expressive than Z latent space. However, W space still has restricted expressivity since it does not control the feature synthesis directly; also the feature embedding in W space requires a pre-training process to reconstruct the style signal, limiting its application. This paper introduces the concept of ‘generative fields’ to explain the hierarchical feature synthesis in StyleGAN, inspired by the receptive fields of convolution neural networks (CNNs). Additionally, we propose a new image editing pipeline for StyleGAN using generative field theory and the channel-wise style latent space S, utilizing the intrinsic structural feature of CNNs to achieve disentangled control of feature synthesis at synthesis time.

arxiv情報

著者 Zhuo He,Paul Henderson,Nicolas Pugeault
発行日 2025-04-24 16:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク