Improving Few-shot Image Generation by Structural Discrimination and Textural Modulation

要約

少数ショット画像生成は、1 つのカテゴリからいくつかの画像が与えられた場合に、そのカテゴリに対してもっともらしく多様な画像を生成することを目的としており、幅広い注目を集めています。
既存のアプローチは、異なる画像をグローバルに補間するか、事前定義された係数を使用してローカルな表現を融合します。
ただし、このような画像/特徴の直感的な組み合わせでは、最も関連性の高い情報のみが生成に利用されるため、多様性が乏しく、意味の融合が粗くなります。
これを解決するために、この論文では、外部の意味論的な信号を内部のローカル表現に注入する新しいテクスチャ変調 (TexMod) メカニズムを提案します。
弁別器からのフィードバックによってパラメータ化された TexMod は、合成の忠実度を維持しながら、よりきめの細かいセマンティック インジェクションを可能にします。
さらに、グローバル構造ディスクリミネーター (StructD) が開発され、合理的なレイアウトとアウトラインを備えた画像を生成するようにモデルを明示的にガイドします。
さらに、モデルが周波数信号を区別できるようにすることで、モデルの周波数認識が強化されます。
これらの技術と合わせて、少数ショット画像生成のための斬新で効果的なモデルを構築します。
私たちのモデルの有効性は、3 つの人気のあるデータセットとさまざまな設定での広範な実験によって確認されています。
これらのデータセットで最先端の合成パフォーマンスを達成するだけでなく、私たちが提案した手法は既存のモデルにシームレスに統合して、パフォーマンスをさらに向上させることができます。

要約(オリジナル)

Few-shot image generation, which aims to produce plausible and diverse images for one category given a few images from this category, has drawn extensive attention. Existing approaches either globally interpolate different images or fuse local representations with pre-defined coefficients. However, such an intuitive combination of images/features only exploits the most relevant information for generation, leading to poor diversity and coarse-grained semantic fusion. To remedy this, this paper proposes a novel textural modulation (TexMod) mechanism to inject external semantic signals into internal local representations. Parameterized by the feedback from the discriminator, our TexMod enables more fined-grained semantic injection while maintaining the synthesis fidelity. Moreover, a global structural discriminator (StructD) is developed to explicitly guide the model to generate images with reasonable layout and outline. Furthermore, the frequency awareness of the model is reinforced by encouraging the model to distinguish frequency signals. Together with these techniques, we build a novel and effective model for few-shot image generation. The effectiveness of our model is identified by extensive experiments on three popular datasets and various settings. Besides achieving state-of-the-art synthesis performance on these datasets, our proposed techniques could be seamlessly integrated into existing models for a further performance boost.

arxiv情報

著者 Mengping Yang,Zhe Wang,Wenyi Feng,Qian Zhang,Ting Xiao
発行日 2023-08-30 16:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク