要約
適切なテキスト プロンプトを備えた、事前トレーニングされた大規模な Text-to-Image (T2I) モデルは、カスタマイズされた画像生成分野での関心が高まっています。
ただし、壊滅的な忘却の問題により、学習したスタイル間で満足のいく結果を維持しながら、新しいユーザー提供のスタイルを継続的に合成することが困難になります。
本稿では、カスタマイズされた一連のスタイルに従って無限に画像を合成し、これらの創造的な芸術作品を美術館として段階的に蓄積できる手法、MuseumMakerを提案します。
新しいカスタマイズ スタイルに直面した場合、データセット全体のスタイルを画像の生成に転送するためのスタイル蒸留損失モジュールを開発します。
画像の内容によって引き起こされる学習バイアスを最小限に抑え、ショット数の少ない画像によって引き起こされる致命的なオーバーフィッティングの問題に対処できます。
過去に学習したスタイルの壊滅的な忘却に対処するために、モデル更新の方向を最適化する共有 LoRA モジュールの二重正則化を考案しました。これにより、それぞれ重みと特徴の両方の側面から拡散モデルを正則化できます。
一方、この新しいスタイルに対応する固有のトークン埋め込みは、タスクごとのトークン学習モジュールによって学習され、LoRA パラメーター量の制限付きで過去のスタイルからの履歴知識を保存できます。
ユーザーが提供する新しいスタイルが出現すると、MuseumMaker は学習したスタイルの詳細を維持しながら、新しいスタイルのニュアンスを捉えることができます。
多様なスタイルのデータセットに関する実験結果は、私たちが提案した MuseumMaker メソッドの有効性を検証し、さまざまなシナリオにわたるその堅牢性と汎用性を示しています。
要約(オリジナル)
Pre-trained large text-to-image (T2I) models with an appropriate text prompt has attracted growing interests in customized images generation field. However, catastrophic forgetting issue make it hard to continually synthesize new user-provided styles while retaining the satisfying results amongst learned styles. In this paper, we propose MuseumMaker, a method that enables the synthesis of images by following a set of customized styles in a never-end manner, and gradually accumulate these creative artistic works as a Museum. When facing with a new customization style, we develop a style distillation loss module to transfer the style of the whole dataset into generation of images. It can minimize the learning biases caused by content of images, and address the catastrophic overfitting issue induced by few-shot images. To deal with catastrophic forgetting amongst past learned styles, we devise a dual regularization for shared-LoRA module to optimize the direction of model update, which could regularize the diffusion model from both weight and feature aspects, respectively. Meanwhile, a unique token embedding corresponding to this new style is learned by a task-wise token learning module, which could preserve historical knowledge from past styles with the limitation of LoRA parameter quantity. As any new user-provided style come, our MuseumMaker can capture the nuances of the new styles while maintaining the details of learned styles. Experimental results on diverse style datasets validate the effectiveness of our proposed MuseumMaker method, showcasing its robustness and versatility across various scenarios.
arxiv情報
著者 | Chenxi Liu,Gan Sun,Wenqi Liang,Jiahua Dong,Can Qin,Yang Cong |
発行日 | 2024-04-25 13:51:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google