要約
想像上の創造における前例のない能力にもかかわらず、大規模なテキストから画像へのモデルは、カスタマイズされた概念を表現することがさらに期待されています。
既存の作品は、通常、最適化ベースの方法でそのような概念を学習しますが、過度の計算やメモリの負担をもたらします。
この論文では、代わりに、グローバルおよびローカルマッピングネットワークで構成される、高速で正確なコンセプトのカスタマイズのための学習ベースのエンコーダーを提案します。
具体的には、グローバルマッピングネットワークは、与えられた画像の階層的特徴を、テキストの単語埋め込み空間内の複数の「新しい」単語に別々に投影します。つまり、適切に編集可能な概念を表す 1 つの主要な単語と、無関係な妨害を排除するための他の補助的な単語です (
例:背景)。
その間、ローカル マッピング ネットワークは、主要な概念の編集可能性を犠牲にすることなく、省略された詳細を提供するために、エンコードされたパッチ フィーチャをクロス アテンション レイヤーに挿入します。
さまざまなユーザー定義の概念に関する以前の最適化ベースのアプローチと私たちの方法を比較し、私たちの方法がより忠実度の高い反転と堅牢な編集性を大幅に高速なエンコーディングプロセスで可能にすることを示します。
コードは https://github.com/csyxwei/ELITE で公開されます。
要約(オリジナル)
Despite unprecedented ability in imaginary creation, large text-to-image models are further expected to express customized concepts. Existing works generally learn such concepts in an optimization-based manner, yet bringing excessive computation or memory burden. In this paper, we instead propose a learning-based encoder for fast and accurate concept customization, which consists of global and local mapping networks. In specific, the global mapping network separately projects the hierarchical features of a given image into multiple “new” words in the textual word embedding space, i.e., one primary word for well-editable concept and other auxiliary words to exclude irrelevant disturbances (e.g., background). In the meantime, a local mapping network injects the encoded patch features into cross attention layers to provide omitted details, without sacrificing the editability of primary concepts. We compare our method with prior optimization-based approaches on a variety of user-defined concepts, and demonstrate that our method enables more high-fidelity inversion and robust editability with a significantly faster encoding process. Our code will be publicly available at https://github.com/csyxwei/ELITE.
arxiv情報
著者 | Yuxiang Wei,Yabo Zhang,Zhilong Ji,Jinfeng Bai,Lei Zhang,Wangmeng Zuo |
発行日 | 2023-02-27 14:49:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google