Concept-centric Personalization with Large-scale Diffusion Priors

要約

大規模な拡散モデルは多様なオープンワールド コンテンツを生成する能力が高いにもかかわらず、コンセプト固有のジェネレーターのフォトリアリズムと忠実性に匹敵するのに依然として苦労しています。
この研究では、コンセプト中心のパーソナライゼーションとして、特定のコンセプトに合わせて大規模な拡散事前分布をカスタマイズするタスクを提示します。
私たちの目標は、オープンワールドモデル特有の多彩な制御性を維持しながら、高品質のコンセプト中心の画像を生成し、コンセプト中心の様式化や画像変換などのさまざまなタスクへのアプリケーションを可能にすることです。
これらの課題に取り組むために、私たちは拡散事前分布からの誘導予測の壊滅的な忘却を根本的な問題として特定しました。
その結果、私たちは、このタスクに対処するために特別に設計された、ガイダンスを分離したパーソナライゼーション フレームワークを開発しました。
私たちは、フレームワークの基礎理論として一般化分類子なしガイダンス (GCFG) を提案します。
このアプローチは、分類子なしガイダンス (CFG) を拡張して、さまざまな条件やモデルから得られる任意の数のガイダンスに対応します。
GCFG を採用すると、条件付きガイダンスを 2 つの異なるコンポーネント (忠実度に関するコンセプト ガイダンスと制御性に関するコントロール ガイダンス) に分離することができます。
この分割により、制御と無条件のガイダンスの両方をそのまま維持しながら、概念ガイダンスに特化したモデルをトレーニングすることが可能になります。
次に、テキスト注釈を必要とせずにコンセプトのガイダンスを学習するためのコンセプト固有のジェネレーターとして、ヌルテキストのコンセプト中心の普及モデルを提示します。
コードは https://github.com/PRIV-Creation/Concept-centric-Personalization で入手できます。

要約(オリジナル)

Despite large-scale diffusion models being highly capable of generating diverse open-world content, they still struggle to match the photorealism and fidelity of concept-specific generators. In this work, we present the task of customizing large-scale diffusion priors for specific concepts as concept-centric personalization. Our goal is to generate high-quality concept-centric images while maintaining the versatile controllability inherent to open-world models, enabling applications in diverse tasks such as concept-centric stylization and image translation. To tackle these challenges, we identify catastrophic forgetting of guidance prediction from diffusion priors as the fundamental issue. Consequently, we develop a guidance-decoupled personalization framework specifically designed to address this task. We propose Generalized Classifier-free Guidance (GCFG) as the foundational theory for our framework. This approach extends Classifier-free Guidance (CFG) to accommodate an arbitrary number of guidances, sourced from a variety of conditions and models. Employing GCFG enables us to separate conditional guidance into two distinct components: concept guidance for fidelity and control guidance for controllability. This division makes it feasible to train a specialized model for concept guidance, while ensuring both control and unconditional guidance remain intact. We then present a null-text Concept-centric Diffusion Model as a concept-specific generator to learn concept guidance without the need for text annotations. Code will be available at https://github.com/PRIV-Creation/Concept-centric-Personalization.

arxiv情報

著者 Pu Cao,Lu Yang,Feng Zhou,Tianrui Huang,Qing Song
発行日 2023-12-13 14:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク