AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

要約

ゼロショット生成モデル適応(ZSGM)は、テキストガイダンスのみを使用してターゲットドメインからサンプルなしで、事前に訓練されたジェネレーターをターゲットドメインに適応させることを目指しています。
最近のZSGMアプローチの中心は、クリップなどのビジョン言語モデルの埋め込みスペースに画像オフセットをテキストオフセットに合わせるという形でテキストガイダンスを使用する方向性の損失です。
これは、NLPの類似の推論に似ています。1つの単語のペア間のオフセットを使用して、これら2つのペア間でオフセットを整列させることにより、別のペアの欠落要素を識別します。
ただし、既存のZSGMメソッドの主な制限は、学習目標が、クリップ埋め込みスペースの画像オフセットとテキストオフセットの完全な整合を想定し、生成された画像に品質が低下することです。
私たちの仕事は2つの主な貢献をしています。
NLPでのオフセットの不整合研究に触発され、最初の貢献として、さまざまな大規模に利用可能なデータセットのためのクリップ埋め込みスペースのテキストオフセットと画像オフセットの不整合を分析するための経験的研究を実施します。
私たちの重要な発見は、クリップ埋め込みスペースのオフセットの不整合が概念の距離と相関していることです。つまり、密接な概念はオフセットの不整合が少ないことです。
現在のアプローチの制限に対処するために、2番目の貢献として、オフセットの不整合に関する新しい洞察に基づいてターゲットドメインの画質を改善することに焦点を当てる最初のZSGMアプローチである反復洗練(AIR)による適応を提案します。
追加の実験はsuppにあります。

要約(オリジナル)

Zero-shot generative model adaptation (ZSGM) aims to adapt a pre-trained generator to a target domain using only text guidance and without any samples from the target domain. Central to recent ZSGM approaches are directional loss which use the text guidance in the form of aligning the image offset with text offset in the embedding space of a vision-language model like CLIP. This is similar to the analogical reasoning in NLP where the offset between one pair of words is used to identify a missing element in another pair by aligning the offset between these two pairs. However, a major limitation of existing ZSGM methods is that the learning objective assumes the complete alignment between image offset and text offset in the CLIP embedding space, resulting in quality degrade in generated images. Our work makes two main contributions. Inspired by the offset misalignment studies in NLP, as our first contribution, we perform an empirical study to analyze the misalignment between text offset and image offset in CLIP embedding space for various large publicly available datasets. Our important finding is that offset misalignment in CLIP embedding space is correlated with concept distance, i.e., close concepts have a less offset misalignment. To address the limitations of the current approaches, as our second contribution, we propose Adaptation with Iterative Refinement (AIR) which is the first ZSGM approach to focus on improving target domain image quality based on our new insight on offset misalignment.Qualitative, quantitative, and user study in 26 experiment setups consistently demonstrate the proposed AIR approach achieves SOTA performance. Additional experiments are in Supp.

arxiv情報

著者 Guimeng Liu,Milad Abdollahzadeh,Ngai-Man Cheung
発行日 2025-06-12 17:00:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク