Attention Calibration for Disentangled Text-to-Image Personalization

要約

大規模なテキストから画像への (T2I) モデルにおける最近のスリリングな進歩により、画像生成、3D、ビデオ合成など、AI 生成コンテンツ (AIGC) の前例のない合成品質が解放されました。
さらに、パーソナライズされた技術により、数枚の画像を参考にするだけで、新しいコンセプトを魅力的にカスタマイズした制作が可能になります。
ただし、興味深い問題が残ります。1 つの参照画像から複数の新しいコンセプトをキャプチャすることは可能でしょうか?
この論文では、既存のアプローチでは参照画像との視覚的な一貫性を維持できず、概念からの相互影響を排除できないことを確認しました。
これを軽減するために、T2I モデルの概念レベルの理解を向上させる注意力調整メカニズムを提案します。
具体的には、まず、複数の概念の属性を取得するために、クラスにバインドされた新しい学習可能な修飾子を導入します。
次に、クロスアテンション操作の活性化後にクラスが分離および強化され、包括的で自己完結型の概念が確保されます。
さらに、異なるクラスの注意の活性化を抑制して、概念間の相互影響を軽減します。
私たちが提案する DisenDiff と呼ばれる方法は、単一の画像から複数の概念を解きほぐして学習し、学習した概念を使用して新しいカスタマイズされた画像を生成することができます。
私たちは、私たちの方法が定性的評価と定量的評価の両方で現在の最先端技術を上回っていることを実証します。
さらに重要なのは、私たちが提案する手法は LoRA および修復パイプラインと互換性があり、よりインタラクティブなエクスペリエンスを可能にすることです。

要約(オリジナル)

Recent thrilling progress in large-scale text-to-image (T2I) models has unlocked unprecedented synthesis quality of AI-generated content (AIGC) including image generation, 3D and video composition. Further, personalized techniques enable appealing customized production of a novel concept given only several images as reference. However, an intriguing problem persists: Is it possible to capture multiple, novel concepts from one single reference image? In this paper, we identify that existing approaches fail to preserve visual consistency with the reference image and eliminate cross-influence from concepts. To alleviate this, we propose an attention calibration mechanism to improve the concept-level understanding of the T2I model. Specifically, we first introduce new learnable modifiers bound with classes to capture attributes of multiple concepts. Then, the classes are separated and strengthened following the activation of the cross-attention operation, ensuring comprehensive and self-contained concepts. Additionally, we suppress the attention activation of different classes to mitigate mutual influence among concepts. Together, our proposed method, dubbed DisenDiff, can learn disentangled multiple concepts from one single image and produce novel customized images with learned concepts. We demonstrate that our method outperforms the current state of the art in both qualitative and quantitative evaluations. More importantly, our proposed techniques are compatible with LoRA and inpainting pipelines, enabling more interactive experiences.

arxiv情報

著者 Yanbing Zhang,Mengping Yang,Qin Zhou,Zhe Wang
発行日 2024-04-11 14:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク