LCM-Lookahead for Encoder-based Text-to-Image Personalization

要約

最近の拡散モデルの進歩により、わずか1~数ステップのノイズ除去で高品質な画像を効果的に生成できる高速サンプリング手法が導入されている。興味深いことに、これらが既存の拡散モデルから抽出された場合、元のモデルとの整合が保たれることが多く、同様のプロンプトやシードに対して同様の出力を保持する。これらの特性は、ショートカットメカニズムとして高速サンプリング法を活用する機会を提供し、画像空間の損失をバックプロパゲートすることができるノイズ除去出力のプレビューを作成するために使用する。この研究では、このようなショートカット・メカニズムを利用して、特定の顔のアイデンティティに対するテキスト画像モデルのパーソナライゼーションを導く可能性を探る。エンコーダーベースのパーソナライゼーションアプローチに焦点を当て、ルックアヘッドアイデンティティロスでチューニングすることにより、レイアウトの多様性やプロンプトアライメントを犠牲にすることなく、より高いアイデンティティ忠実度を達成できることを実証する。さらに、パーソナライゼーションのタスクに対する注意共有メカニズムと一貫したデータ生成の利用を探求し、エンコーダのトレーニングがその両方から利益を得ることができることを発見する。

要約(オリジナル)

Recent advancements in diffusion models have introduced fast sampling methods that can effectively produce high-quality images in just one or a few denoising steps. Interestingly, when these are distilled from existing diffusion models, they often maintain alignment with the original model, retaining similar outputs for similar prompts and seeds. These properties present opportunities to leverage fast sampling methods as a shortcut-mechanism, using them to create a preview of denoised outputs through which we can backpropagate image-space losses. In this work, we explore the potential of using such shortcut-mechanisms to guide the personalization of text-to-image models to specific facial identities. We focus on encoder-based personalization approaches, and demonstrate that by tuning them with a lookahead identity loss, we can achieve higher identity fidelity, without sacrificing layout diversity or prompt alignment. We further explore the use of attention sharing mechanisms and consistent data generation for the task of personalization, and find that encoder training can benefit from both.

arxiv情報

著者 Rinon Gal,Or Lichter,Elad Richardson,Or Patashnik,Amit H. Bermano,Gal Chechik,Daniel Cohen-Or
発行日 2024-04-04 17:43:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク