要約
拡散モデルを使用したパーソナライズされたテキストから画像への生成が最近登場し、大きな関心を集めています。
このタスクでは、少数の画像で示された新しいコンセプト (ユニークなおもちゃなど) を学習して、視覚的な詳細をキャプチャし、テキストの埋め込みに基づいてフォトリアリスティックな画像を生成する生成モデルを学習します。
この論文では、視覚状態をパーソナライズされたテキストから画像への生成にシームレスに統合する、新しい軽量のプラグアンドプレイ手法である ViCo を紹介します。
ViCo は、元の拡散モデルのパラメータを微調整する必要がないという独自の機能で際立っており、これにより、より柔軟でスケーラブルなモデルの展開が容易になります。
この重要な利点により、部分的または完全な拡散の微調整が必要なほとんどの既存モデルと ViCo は区別されます。
ViCo には、パッチ単位の視覚セマンティクスに基づいて拡散プロセスを条件付ける画像アテンション モジュールと、アテンション モジュールから追加コストなしで提供されるアテンション ベースのオブジェクト マスクが組み込まれています。
ViCo は、軽いパラメーター トレーニング (普及 U-Net と比較して約 6%) のみを必要とするにもかかわらず、定性的および定量的の両方で、すべての最先端のモデルと同等、またはそれを上回るパフォーマンスを提供します。
これは ViCo の有効性を強調しており、拡散モデルの微調整を必要とせずに、パーソナライズされたテキストから画像への生成を実現する非常に有望なソリューションとなっています。
コード: https://github.com/haoosz/ViCo
要約(オリジナル)
Personalized text-to-image generation using diffusion models has recently emerged and garnered significant interest. This task learns a novel concept (e.g., a unique toy), illustrated in a handful of images, into a generative model that captures fine visual details and generates photorealistic images based on textual embeddings. In this paper, we present ViCo, a novel lightweight plug-and-play method that seamlessly integrates visual condition into personalized text-to-image generation. ViCo stands out for its unique feature of not requiring any fine-tuning of the original diffusion model parameters, thereby facilitating more flexible and scalable model deployment. This key advantage distinguishes ViCo from most existing models that necessitate partial or full diffusion fine-tuning. ViCo incorporates an image attention module that conditions the diffusion process on patch-wise visual semantics, and an attention-based object mask that comes at no extra cost from the attention module. Despite only requiring light parameter training (~6% compared to the diffusion U-Net), ViCo delivers performance that is on par with, or even surpasses, all state-of-the-art models, both qualitatively and quantitatively. This underscores the efficacy of ViCo, making it a highly promising solution for personalized text-to-image generation without the need for diffusion model fine-tuning. Code: https://github.com/haoosz/ViCo
arxiv情報
著者 | Shaozhe Hao,Kai Han,Shihao Zhao,Kwan-Yee K. Wong |
発行日 | 2023-12-07 17:49:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google