Learning Disentangled Prompts for Compositional Image Synthesis

要約

私たちは、構成的な画像合成をよりよく理解するために、ドメイン適応型画像合成、つまり、わずか 1 枚の画像から新しいスタイルやコンセプトを事前学習済みの画像生成モデルに教えて新しい画像を合成する問題を研究します。
事前トレーニングされたクラス条件付き生成モデルと視覚的なプロンプト調整を活用するフレームワークを紹介します。
具体的には、いくつかの画像からセマンティック (クラスなど) とドメイン (スタイルなど) のもつれを解いたプロンプトを学習する、新しいソース クラスを抽出した視覚的プロンプトを提案します。
学習されたドメイン プロンプトは、ターゲット ドメインのスタイルで任意のクラスのイメージを合成するために使用されます。
私たちは、1枚から数枚、あるいは多数の画像までのさまざまな対象領域について研究を実施し、私たちの方法の構成的な一般化を示す定性的な結果を示します。
さらに、私たちの方法がゼロショットドメイン適応分類精度の向上に役立つことを示します。

要約(オリジナル)

We study domain-adaptive image synthesis, the problem of teaching pretrained image generative models a new style or concept from as few as one image to synthesize novel images, to better understand the compositional image synthesis. We present a framework that leverages a pretrained class-conditional generation model and visual prompt tuning. Specifically, we propose a novel source class distilled visual prompt that learns disentangled prompts of semantic (e.g., class) and domain (e.g., style) from a few images. Learned domain prompt is then used to synthesize images of any classes in the style of target domain. We conduct studies on various target domains with the number of images ranging from one to a few to many, and show qualitative results which show the compositional generalization of our method. Moreover, we show that our method can help improve zero-shot domain adaptation classification accuracy.

arxiv情報

著者 Kihyuk Sohn,Albert Shaw,Yuan Hao,Han Zhang,Luisa Polania,Huiwen Chang,Lu Jiang,Irfan Essa
発行日 2023-06-01 14:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク