要約
拡散モデルは、テキストから画像への合成において目覚ましい進歩を遂げました。
ただし、このような大規模モデル (安定拡散など) を最初からトレーニングするには、高い計算コストと大量の高品質のテキストと画像のペアが必要となり、他の言語では手が届きません。
この課題に対処するために、英語の安定した普及を中国語に移すためのシンプルだが効果的な方法である IAP を提案します。
IAP は、中国語のセマンティクス空間を CLIP の英語の空間に合わせるために固定された他のすべてのパラメータを使用して、個別の中国語テキスト エンコーダのみを最適化します。
これを達成するために、私たちは革新的に画像をピボットとして扱い、画像と各言語間の相互注意から生成される注意深い特徴の距離を最小限に抑えます。
このようにして、IAP は、CLIP の埋め込みスペースで中国語、英語、および視覚的セマンティクスの接続を効率的に確立し、直接中国語のプロンプトを使用して生成される画像の品質を向上させます。
実験結果は、私たちの方法がわずか5%〜10%のトレーニングデータを使用したいくつかの強力な中国拡散モデルよりも優れていることを示しています。
要約(オリジナル)
Diffusion models have made impressive progress in text-to-image synthesis. However, training such large-scale models (e.g. Stable Diffusion), from scratch requires high computational costs and massive high-quality text-image pairs, which becomes unaffordable in other languages. To handle this challenge, we propose IAP, a simple but effective method to transfer English Stable Diffusion into Chinese. IAP optimizes only a separate Chinese text encoder with all other parameters fixed to align Chinese semantics space to the English one in CLIP. To achieve this, we innovatively treat images as pivots and minimize the distance of attentive features produced from cross-attention between images and each language respectively. In this way, IAP establishes connections of Chinese, English and visual semantics in CLIP’s embedding space efficiently, advancing the quality of the generated image with direct Chinese prompts. Experimental results show that our method outperforms several strong Chinese diffusion models with only 5%~10% training data.
arxiv情報
著者 | Jinyi Hu,Xu Han,Xiaoyuan Yi,Yutong Chen,Wenhao Li,Zhiyuan Liu,Maosong Sun |
発行日 | 2023-05-19 09:20:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google