Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters

要約

最近の研究では、各概念に対していくつかのサンプル画像を提供するだけで、テキストから画像への拡散モデルを複数のきめの細かい概念に合わせて逐次的 (つまり、連続的) にカスタマイズする驚くべき能力を実証しました。
この設定は連続拡散として知られています。
ここで、私たちは質問をします。これらのメソッドを忘れることなく、より長い概念シーケンスに拡張できるか?
以前の研究は以前に学習した概念の忘れを軽減しますが、新しいタスクを学習する能力が長いシーケンスでは飽和に達することを示しています。
私たちは、低ランクのアテンション マスクされたアダプターとカスタマイズされた MLP トークンで構成される新しいメソッド STack-And-Mask INcremental Adapters (STAMINA) を導入することで、この課題に対処します。
STAMINA は、低ランク MLP でパラメータ化された学習可能なハード アテンション マスクを介した逐次概念学習のための LoRA の堅牢な微調整特性を強化するように設計されており、スパース適応による正確でスケーラブルな学習を可能にします。
特に、導入されたすべてのトレーニング可能なパラメーターはトレーニング後にモデルに折り返すことができ、追加の推論パラメーターのコストが発生しません。
保存されたリプレイ データを使用せず、ランドマークと人間の顔で構成される 50 コンセプトのベンチマークで、テキストから画像への継続的なカスタマイズの設定に関して、STAMINA が以前の SOTA よりも優れていることを示します。
さらに、画像分類の継続学習の設定まで手法を拡張し、この標準ベンチマークでの成果が最先端のパフォーマンスにも反映されることを実証しました。

要約(オリジナル)

Recent work has demonstrated a remarkable ability to customize text-to-image diffusion models to multiple, fine-grained concepts in a sequential (i.e., continual) manner while only providing a few example images for each concept. This setting is known as continual diffusion. Here, we ask the question: Can we scale these methods to longer concept sequences without forgetting? Although prior work mitigates the forgetting of previously learned concepts, we show that its capacity to learn new tasks reaches saturation over longer sequences. We address this challenge by introducing a novel method, STack-And-Mask INcremental Adapters (STAMINA), which is composed of low-ranked attention-masked adapters and customized MLP tokens. STAMINA is designed to enhance the robust fine-tuning properties of LoRA for sequential concept learning via learnable hard-attention masks parameterized with low rank MLPs, enabling precise, scalable learning via sparse adaptation. Notably, all introduced trainable parameters can be folded back into the model after training, inducing no additional inference parameter costs. We show that STAMINA outperforms the prior SOTA for the setting of text-to-image continual customization on a 50-concept benchmark composed of landmarks and human faces, with no stored replay data. Additionally, we extended our method to the setting of continual learning for image classification, demonstrating that our gains also translate to state-of-the-art performance in this standard benchmark.

arxiv情報

著者 James Seale Smith,Yen-Chang Hsu,Zsolt Kira,Yilin Shen,Hongxia Jin
発行日 2023-11-30 18:04:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク