Create Your World: Lifelong Text-to-Image Diffusion

要約

テキストから画像への生成モデルは、テキスト プロンプトを使用して概念のさまざまな高品質画像を生成でき、画像生成、画像変換などで優れた能力を実証しています。この研究では、使用者自身の概念のインスタンス化を合成する問題を研究します。
つまり、ユーザーからの新しい概念をいくつかの例ですぐに学習できる、自分だけの世界を作成します。
この目標を達成するために、生涯にわたるテキストから画像への拡散モデル (L2DM) を提案します。これは、過去に遭遇した概念に対する知識の「壊滅的な忘却」と、テキスト プロンプト内の 1 つ以上の概念に対する意味論的な「壊滅的な無視」を克服することを目的としています。

「壊滅的な忘却」という知識に関して、私たちの L2DM フレームワークは、タスク認識記憶強化モジュールと弾性概念蒸留モジュールを考案し、それぞれ以前の概念と過去の個別化された概念の両方の知識を保護できます。
ユーザー テキスト プロンプトを使用して画像を生成する場合、意味論的な「壊滅的な無視」に対する解決策は、コンセプト アテンション アーティスト モジュールがコンセプトの側面から意味論的な無視を緩和し、直交注意モジュールが属性の側面から意味論的な束縛を軽減できることです。
最終的に、私たちのモデルは、関連する最先端のモデルと比較した場合、定性的および定量的メトリクスの両方の観点から、一連の継続的なテキスト プロンプトにわたってより忠実な画像を生成できます。
コードは https://wenqiliang.github.io/ で公開されます。

要約(オリジナル)

Text-to-image generative models can produce diverse high-quality images of concepts with a text prompt, which have demonstrated excellent ability in image generation, image translation, etc. We in this work study the problem of synthesizing instantiations of a use’s own concepts in a never-ending manner, i.e., create your world, where the new concepts from user are quickly learned with a few examples. To achieve this goal, we propose a Lifelong text-to-image Diffusion Model (L2DM), which intends to overcome knowledge ‘catastrophic forgetting’ for the past encountered concepts, and semantic ‘catastrophic neglecting’ for one or more concepts in the text prompt. In respect of knowledge ‘catastrophic forgetting’, our L2DM framework devises a task-aware memory enhancement module and a elastic-concept distillation module, which could respectively safeguard the knowledge of both prior concepts and each past personalized concept. When generating images with a user text prompt, the solution to semantic ‘catastrophic neglecting’ is that a concept attention artist module can alleviate the semantic neglecting from concept aspect, and an orthogonal attention module can reduce the semantic binding from attribute aspect. To the end, our model can generate more faithful image across a range of continual text prompts in terms of both qualitative and quantitative metrics, when comparing with the related state-of-the-art models. The code will be released at https://wenqiliang.github.io/.

arxiv情報

著者 Gan Sun,Wenqi Liang,Jiahua Dong,Jun Li,Zhengming Ding,Yang Cong
発行日 2023-09-08 16:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク