要約
テキストから画像への拡散のための生涯にわたる数ショットのカスタマイズは、古い知識を維持しながら、最小限のデータで新しいタスク用に既存のモデルを継続的に一般化することを目的としています。
現在のカスタマイズ普及モデルは、数回のタスクでは優れていますが、生涯にわたる世代における壊滅的な忘却の問題に悩まされています。
この研究では、壊滅的な忘却の問題を、関連する概念の忘却と以前の概念の忘却という 2 つに分類し、分類しました。
これらの課題に対処するために、私たちはまず、関連する概念の忘却に対処するために、データを使用しない知識の蒸留戦略を考案します。
追加の実データや元の概念データのオフライン再生に依存する既存の方法とは異なり、私たちのアプローチは、以前のデータにアクセスすることなく、新しい概念を学習しながら、オンザフライで知識を蒸留することを可能にします。
次に、入力された視覚コンテキストに基づいて拡散モデルを条件付けできるインコンテキスト生成 (ICGen) パラダイムを開発します。これにより、少数ショットの生成が容易になり、以前の概念の忘却の問題が軽減されます。
広範な実験により、提案された生涯少数ショット拡散(LFS-Diffusion)法が、以前に学習した知識を維持しながら、高品質で正確な画像を生成できることが示されています。
要約(オリジナル)
Lifelong few-shot customization for text-to-image diffusion aims to continually generalize existing models for new tasks with minimal data while preserving old knowledge. Current customization diffusion models excel in few-shot tasks but struggle with catastrophic forgetting problems in lifelong generations. In this study, we identify and categorize the catastrophic forgetting problems into two folds: relevant concepts forgetting and previous concepts forgetting. To address these challenges, we first devise a data-free knowledge distillation strategy to tackle relevant concepts forgetting. Unlike existing methods that rely on additional real data or offline replay of original concept data, our approach enables on-the-fly knowledge distillation to retain the previous concepts while learning new ones, without accessing any previous data. Second, we develop an In-Context Generation (ICGen) paradigm that allows the diffusion model to be conditioned upon the input vision context, which facilitates the few-shot generation and mitigates the issue of previous concepts forgetting. Extensive experiments show that the proposed Lifelong Few-Shot Diffusion (LFS-Diffusion) method can produce high-quality and accurate images while maintaining previously learned knowledge.
arxiv情報
| 著者 | Nan Song,Xiaofeng Yang,Ze Yang,Guosheng Lin |
| 発行日 | 2024-11-08 12:58:48+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google