TAGE: Trustworthy Attribute Group Editing for Stable Few-shot Image Generation

要約

Generative Adversarial Networks (GAN) は、画像編集タスクの顕著な研究対象として浮上しており、GAN フレームワークの強力な画像生成機能を活用して顕著な結果を生み出しています。しかし、普及しているアプローチは、広範なトレーニング データセットと明示的な監視に依存しており、重要な問題を引き起こしています。
入手可能なサンプルが限られている中で、新しい画像クラスの多様な属性を操作するという課題。
このハードルを克服するために、コードブック学習モジュール (CLM)、コード予測モジュール (CPM)、およびプロンプト駆動型セマンティック モジュール (PSM) の 3 つの統合モジュールで構成される革新的な画像生成ネットワークである TAGE を導入します。
CPM モジュールは、カテゴリーに依存しない属性の意味論的次元を詳しく調べ、それらを個別のコードブック内にカプセル化します。
このモジュールは、画像は属性の集合であるという概念に基づいており、カテゴリに依存しない属性を編集することで、理論的には目に見えないカテゴリから画像を生成することが可能です。
その後、CPM モジュールは、コードブック内のカテゴリに依存しない属性ベクトルのインデックスを予測することで、自然な画像編集を容易にします。
さらに、PSM モジュールは、CPM の Transformer アーキテクチャにシームレスに統合されるセマンティック キューを生成し、編集対象の属性に対するモデルの理解を強化します。
これらのセマンティック キューを使用すると、サンプル数が限られている場合でも、モデルは元のカテゴリの完全性を維持しながら、必要な属性をより顕著に強調する画像を生成できます。
私たちは、動物の顔、花、VGGFaces データセットを利用して広範な実験を実施しました。
これらの実験結果は、提案手法が他の少枚数画像生成手法と比較して優れた性能を達成するだけでなく、高い安定性を示すことを示しています。

要約(オリジナル)

Generative Adversarial Networks (GANs) have emerged as a prominent research focus for image editing tasks, leveraging the powerful image generation capabilities of the GAN framework to produce remarkable results.However, prevailing approaches are contingent upon extensive training datasets and explicit supervision, presenting a significant challenge in manipulating the diverse attributes of new image classes with limited sample availability. To surmount this hurdle, we introduce TAGE, an innovative image generation network comprising three integral modules: the Codebook Learning Module (CLM), the Code Prediction Module (CPM) and the Prompt-driven Semantic Module (PSM). The CPM module delves into the semantic dimensions of category-agnostic attributes, encapsulating them within a discrete codebook. This module is predicated on the concept that images are assemblages of attributes, and thus, by editing these category-independent attributes, it is theoretically possible to generate images from unseen categories. Subsequently, the CPM module facilitates naturalistic image editing by predicting indices of category-independent attribute vectors within the codebook. Additionally, the PSM module generates semantic cues that are seamlessly integrated into the Transformer architecture of the CPM, enhancing the model’s comprehension of the targeted attributes for editing. With these semantic cues, the model can generate images that accentuate desired attributes more prominently while maintaining the integrity of the original category, even with a limited number of samples. We have conducted extensive experiments utilizing the Animal Faces, Flowers, and VGGFaces datasets. The results of these experiments demonstrate that our proposed method not only achieves superior performance but also exhibits a high degree of stability when compared to other few-shot image generation techniques.

arxiv情報

著者 Ruicheng Zhang,Guoheng Huang,Yejing Huo,Xiaochen Yuan,Zhizhen Zhou,Xuhang Chen,Guo Zhong
発行日 2024-10-23 13:26:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク