ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation

要約

最近、拡散モデルを使用したパーソナライズされたテキストから画像への生成が提案され、多くの注目を集めています。
新しいコンセプト (ユニークなおもちゃなど) を含む少数の画像が与えられた場合、生成モデルを調整して、新しいコンセプトの詳細な視覚的詳細をキャプチャし、テキスト条件に従ってフォトリアリスティックな画像を生成することを目指します。
高速かつ軽量のパーソナライズされた生成のための、ViCo という名前のプラグイン メソッドを紹介します。
具体的には、パッチごとの視覚セマンティクスに基づいて拡散プロセスを条件付ける画像注意モジュールを提案します。
アテンション モジュールからほぼ無料で提供されるアテンション ベースのオブジェクト マスクを導入します。
さらに、テキストと画像のアテンション マップの固有の特性に基づいて単純な正則化を設計し、一般的な過学習による劣化を軽減します。
多くの既存のモデルとは異なり、私たちの方法では元の拡散モデルのパラメータを微調整しません。
これにより、より柔軟で移行可能なモデルの展開が可能になります。
軽いパラメーター トレーニング (拡散 U-Net の約 6%) だけで、私たちの手法は定性的および定量的の両方で、すべての最先端のモデルと同等またはそれ以上のパフォーマンスを達成します。

要約(オリジナル)

Personalized text-to-image generation using diffusion models has recently been proposed and attracted lots of attention. Given a handful of images containing a novel concept (e.g., a unique toy), we aim to tune the generative model to capture fine visual details of the novel concept and generate photorealistic images following a text condition. We present a plug-in method, named ViCo, for fast and lightweight personalized generation. Specifically, we propose an image attention module to condition the diffusion process on the patch-wise visual semantics. We introduce an attention-based object mask that comes almost at no cost from the attention module. In addition, we design a simple regularization based on the intrinsic properties of text-image attention maps to alleviate the common overfitting degradation. Unlike many existing models, our method does not finetune any parameters of the original diffusion model. This allows more flexible and transferable model deployment. With only light parameter training (~6% of the diffusion U-Net), our method achieves comparable or even better performance than all state-of-the-art models both qualitatively and quantitatively.

arxiv情報

著者 Shaozhe Hao,Kai Han,Shihao Zhao,Kwan-Yee K. Wong
発行日 2023-06-01 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク