要約
想像上の創造における前例のない能力に加えて、大規模なテキストから画像へのモデルは、画像生成においてカスタマイズされたコンセプトを採用することが期待されています。
既存の作品は一般に、最適化ベースの方法でそのような概念を学習しますが、それでも過度の計算やメモリの負担が生じます。
この論文では、代わりに、高速かつ正確にカスタマイズされたテキストから画像への生成を行うためのグローバル マッピング ネットワークとローカル マッピング ネットワークで構成される学習ベースのエンコーダーを提案します。
具体的には、グローバル マッピング ネットワークは、特定の画像の階層的特徴を、テキスト単語埋め込み空間内の複数の新しい単語、つまり編集可能な概念を表す 1 つの主要単語と、無関係な妨害 (背景など) を除外するその他の補助単語に投影します。
その一方で、ローカル マッピング ネットワークは、エンコードされたパッチの特徴をクロス アテンション レイヤーに注入して、主要な概念の編集可能性を犠牲にすることなく、省略された詳細を提供します。
我々の手法を、さまざまなユーザー定義の概念に関する既存の最適化ベースのアプローチと比較し、我々の手法が大幅に高速なエンコードプロセスで高忠実度の反転とより堅牢な編集可能性を可能にすることを実証します。
私たちのコードは https://github.com/csyxwei/ELITE で公開されています。
要約(オリジナル)
In addition to the unprecedented ability in imaginary creation, large text-to-image models are expected to take customized concepts in image generation. Existing works generally learn such concepts in an optimization-based manner, yet bringing excessive computation or memory burden. In this paper, we instead propose a learning-based encoder, which consists of a global and a local mapping networks for fast and accurate customized text-to-image generation. In specific, the global mapping network projects the hierarchical features of a given image into multiple new words in the textual word embedding space, i.e., one primary word for well-editable concept and other auxiliary words to exclude irrelevant disturbances (e.g., background). In the meantime, a local mapping network injects the encoded patch features into cross attention layers to provide omitted details, without sacrificing the editability of primary concepts. We compare our method with existing optimization-based approaches on a variety of user-defined concepts, and demonstrate that our method enables high-fidelity inversion and more robust editability with a significantly faster encoding process. Our code is publicly available at https://github.com/csyxwei/ELITE.
arxiv情報
| 著者 | Yuxiang Wei,Yabo Zhang,Zhilong Ji,Jinfeng Bai,Lei Zhang,Wangmeng Zuo | 
| 発行日 | 2023-08-18 17:12:13+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
