要約
タイトル:Key-Locked Rank One Editing for Text-to-Image Personalization
要約:
– Text-to-Image(T2I)モデルは、自然言語での誘導を通じて創造的なプロセスをガイドすることができるため、新しい柔軟性を提供します。
– しかし、ユーザー提供の視覚的概念に合わせてこれらのモデルを個人化することは難しい問題であり、特に、高い視覚的信頼性を保ちながら創造的な制御を許容する、複数の個人化された概念を1つの画像に組み合わせる、小さなモデルサイズを維持するなどの困難があります。
– この論文では、PerfusionというT2Iの個人化方法が紹介されます。動的ランク1のアップデートを使用して、これらの課題に対処することができます。
– Perfusionは、新しいメカニズムを導入することで過剰適合を避け、新しい概念のクロスアテンションキーを、それらの上位カテゴリーにロックすることで、新しい概念に対応しています。
– 加えて、ゲート型ランク1アプローチを開発することで、推論時に学習された概念の影響を制御し、複数の概念を組み合わせることができます。
– これにより、視覚的信頼性とテキストによるアラインメントのバランスを維持し、単一の100KBトレーニング済みモデルで、現在の最先端のものより5桁も小さいモデルサイズを実現することができます。
– さらに、Perfusionは追加トレーニングなしにParetoフロントの異なる操作ポイントに跨って展開できます。また、Perfusionは、定量的、定性的に強力なベースラインを上回ることが示されています。
– 重要なことに、キーロックは従来の手法とは異なる新しい結果をもたらすため、一度のショットなど、前例のない方法で個人化されたオブジェクトの相互作用を描写することができます。
要約(オリジナル)
Text-to-image models (T2I) offer a new level of flexibility by allowing users to guide the creative process through natural language. However, personalizing these models to align with user-provided visual concepts remains a challenging problem. The task of T2I personalization poses multiple hard challenges, such as maintaining high visual fidelity while allowing creative control, combining multiple personalized concepts in a single image, and keeping a small model size. We present Perfusion, a T2I personalization method that addresses these challenges using dynamic rank-1 updates to the underlying T2I model. Perfusion avoids overfitting by introducing a new mechanism that ‘locks’ new concepts’ cross-attention Keys to their superordinate category. Additionally, we develop a gated rank-1 approach that enables us to control the influence of a learned concept during inference time and to combine multiple concepts. This allows runtime-efficient balancing of visual-fidelity and textual-alignment with a single 100KB trained model, which is five orders of magnitude smaller than the current state of the art. Moreover, it can span different operating points across the Pareto front without additional training. Finally, we show that Perfusion outperforms strong baselines in both qualitative and quantitative terms. Importantly, key-locking leads to novel results compared to traditional approaches, allowing to portray personalized object interactions in unprecedented ways, even in one-shot settings.
arxiv情報
著者 | Yoad Tewel,Rinon Gal,Gal Chechik,Yuval Atzmon |
発行日 | 2023-05-02 17:56:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI