要約
生成ドメインの適応は目覚ましい進歩を遂げ、事前トレーニングされたジェネレーターを新しいターゲット ドメインに適応できるようになりました。
ただし、既存の方法はジェネレーターを単一のターゲット ドメインに適合させるだけであり、テキスト駆動型または画像駆動型の単一のモダリティに限定されます。
さらに、ドメイン固有の属性を過剰適合させる傾向があり、必然的にドメイン間の一貫性が損なわれます。
この論文では、複数のドメインからのマルチモーダル参照を使用した生成ハイブリッド ドメイン適応のための統合された汎用フレームワークである UniHDA を提案します。
CLIP エンコーダを使用して、マルチモーダル参照を統一された埋め込み空間に投影し、複数のターゲット ドメインからの方向ベクトルを線形補間して、ハイブリッド ドメイン適応を実現します。
クロスドメインの一貫性を確保するために、ソース ジェネレーターとターゲット ジェネレーターの間の詳細な空間構造情報を維持する新しいクロスドメイン空間構造 (CSS) 損失を提案します。
実験により、適応されたジェネレータがさまざまな属性構成を備えたリアルな画像を合成できることが示されました。
さらに、私たちのフレームワークは、StyleGAN2 や拡散モデルなどの複数のジェネレーターに多用途です。
要約(オリジナル)
Generative domain adaptation has achieved remarkable progress, enabling us to adapt a pre-trained generator to a new target domain. However, existing methods simply adapt the generator to a single target domain and are limited to a single modality, either text-driven or image-driven. Moreover, they are prone to overfitting domain-specific attributes, which inevitably compromises cross-domain consistency. In this paper, we propose UniHDA, a unified and versatile framework for generative hybrid domain adaptation with multi-modal references from multiple domains. We use CLIP encoder to project multi-modal references into a unified embedding space and then linear interpolate the direction vectors from multiple target domains to achieve hybrid domain adaptation. To ensure the cross-domain consistency, we propose a novel cross-domain spatial structure (CSS) loss that maintains detailed spatial structure information between source and target generator. Experiments show that the adapted generator can synthesise realistic images with various attribute compositions. Additionally, our framework is versatile to multiple generators, \eg, StyleGAN2 and Diffusion Models.
arxiv情報
著者 | Hengjia Li,Yang Liu,Yuqi Lin,Zhanwei Zhang,Yibo Zhao,weihang Pan,Tu Zheng,Zheng Yang,Yuchun Jiang,Boxi Wu,Deng Cai |
発行日 | 2024-01-23 09:49:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google