Zero-shot Generative Model Adaptation via Image-specific Prompt Learning

要約

タイトル: イメージ固有プロンプト学習によるゼロショット生成モデル適応
要約:
– CLIPによる画像合成は、事前学習されたソースドメインジェネレーターを未知のターゲットドメインに適応させる上で魅力的なパフォーマンスを発揮している。
– ターゲットドメインのサンプルは必要なく、テキストドメインラベルだけで十分であり、効率的に学習を行うことができる。
– しかし、既存の方法には、生成された画像の質やモード崩壊の問題に対する制約がある。
– これは、すべてのクロスドメイン画像ペアに固定された適応方向が適用されるため、同一のスーパーバイズ信号が生成される。
– この問題に対処するために、画像固有のプロンプト学習(IPL)を提案する。これにより、それぞれのソースドメイン画像に対して特定のプロンプトベクトルが学習され、より正確な適応方向が生成される。
– IPLは、ターゲットドメインジェネレーターに大幅に向上した柔軟性を持たせ、生成された画像の質と多様性を効果的に向上させ、モード崩壊を緩和することができる。
– さらに、IPLは生成モデルの構造(GANや拡散モデルなど)に依存しない。
– コードはhttps://github.com/Picsart-AI-Research/IPL-Zero-Shot-Generative-Model-Adaptationで入手可能。

要約(オリジナル)

Recently, CLIP-guided image synthesis has shown appealing performance on adapting a pre-trained source-domain generator to an unseen target domain. It does not require any target-domain samples but only the textual domain labels. The training is highly efficient, e.g., a few minutes. However, existing methods still have some limitations in the quality of generated images and may suffer from the mode collapse issue. A key reason is that a fixed adaptation direction is applied for all cross-domain image pairs, which leads to identical supervision signals. To address this issue, we propose an Image-specific Prompt Learning (IPL) method, which learns specific prompt vectors for each source-domain image. This produces a more precise adaptation direction for every cross-domain image pair, endowing the target-domain generator with greatly enhanced flexibility. Qualitative and quantitative evaluations on various domains demonstrate that IPL effectively improves the quality and diversity of synthesized images and alleviates the mode collapse. Moreover, IPL is independent of the structure of the generative model, such as generative adversarial networks or diffusion models. Code is available at https://github.com/Picsart-AI-Research/IPL-Zero-Shot-Generative-Model-Adaptation.

arxiv情報

著者 Jiayi Guo,Chaofei Wang,You Wu,Eric Zhang,Kai Wang,Xingqian Xu,Shiji Song,Humphrey Shi,Gao Huang
発行日 2023-04-06 14:48:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク