T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

要約

大規模な text-to-image (T2I) モデルの信じられないほどの生成能力は、複雑な構造と意味のあるセマンティクスを学習する強力な力を実証しています。
ただし、テキスト プロンプトだけに頼っていては、特に柔軟で正確な制御 (色や構造など) が必要な場合に、モデルによって学習された知識を十分に活用することはできません。
この論文では、T2I モデルが暗黙のうちに学習した機能を「掘り出し」、それらを明示的に使用して生成をより細かく制御することを目指しています。
具体的には、元の大規模な T2I モデルを凍結しながら、T2I モデルの内部知識を外部制御信号と一致させるために、シンプルで軽量な T2I アダプターを学習することを提案します。
このように、さまざまな条件に応じてさまざまなアダプターをトレーニングし、生成結果の色と構造に豊富な制御と編集効果を実現できます。
さらに、提案された T2I-Adapter には、構成可能性や一般化機能など、実用的な価値のある魅力的な特性があります。
広範な実験により、当社の T2I-Adapter が有望な生成品質と幅広いアプリケーションを備えていることが実証されています。

要約(オリジナル)

The incredible generative ability of large-scale text-to-image (T2I) models has demonstrated strong power of learning complex structures and meaningful semantics. However, relying solely on text prompts cannot fully take advantage of the knowledge learned by the model, especially when flexible and accurate controlling (e.g., color and structure) is needed. In this paper, we aim to “dig out’ the capabilities that T2I models have implicitly learned, and then explicitly use them to control the generation more granularly. Specifically, we propose to learn simple and lightweight T2I-Adapters to align internal knowledge in T2I models with external control signals, while freezing the original large T2I models. In this way, we can train various adapters according to different conditions, achieving rich control and editing effects in the color and structure of the generation results. Further, the proposed T2I-Adapters have attractive properties of practical value, such as composability and generalization ability. Extensive experiments demonstrate that our T2I-Adapter has promising generation quality and a wide range of applications.

arxiv情報

著者 Chong Mou,Xintao Wang,Liangbin Xie,Yanze Wu,Jian Zhang,Zhongang Qi,Ying Shan,Xiaohu Qie
発行日 2023-03-20 10:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク