要約
テキストから画像への拡散モデルは、高品質の画像を生成することでアーティストに利益をもたらします。
しかし、その確率的な性質により、芸術家が同じ主題の一貫したイメージを作成することが困難になります。
既存の方法では、この課題に取り組み、さまざまな方法で一貫したコンテンツを生成しようとしています。
ただし、それらは外部の制限されたデータに依存するか、拡散モデルの高価な調整が必要になります。
この問題に対して、OneActor と呼ばれる新しいワンショット調整パラダイムを提案します。
学習されたセマンティック ガイダンスを介したプロンプトのみによって駆動される一貫した主題の生成を効率的に実行し、骨の折れるバックボーンの調整を回避します。
私たちは、クラスタリングの観点から一貫した被験者生成の目的を形式化する方法を先導し、クラスター条件付きモデルを設計します。
ワンショット調整パイプラインに共通する過剰適合の課題を軽減するために、補助サンプルで調整を強化し、セマンティック補間とクラスター ガイダンスという 2 つの推論戦略を考案します。
これらの技術は後に、生成品質を大幅に向上させることが検証されました。
包括的な実験により、私たちの方法は、満足のいく被験者の一貫性、優れた即時適合性、および高画質でさまざまなベースラインを上回っていることが示されています。
私たちの方法は複数の主題の生成が可能であり、一般的な拡散拡張と互換性があります。
さらに、チューニングベースのベースラインよりも 4 倍速いチューニング速度を達成し、必要に応じて推論時間の増加を回避します。
さらに、私たちの知る限りでは、拡散モデルの意味空間が潜在空間と同じ補間特性を持つことを初めて証明しました。
この特性は、微細な生成制御のためのもう 1 つの有望なツールとして機能します。
要約(オリジナル)
Text-to-image diffusion models benefit artists with high-quality image generation. Yet their stochastic nature hinders artists from creating consistent images of the same subject. Existing methods try to tackle this challenge and generate consistent content in various ways. However, they either depend on external restricted data or require expensive tuning of the diffusion model. For this issue, we propose a novel one-shot tuning paradigm, termed as OneActor. It efficiently performs consistent subject generation solely driven by prompts via a learned semantic guidance to bypass the laborious backbone tuning. We lead the way to formalize the objective of consistent subject generation from a clustering perspective, and thus design a cluster-conditioned model. To mitigate the overfitting challenge shared by one-shot tuning pipelines, we augment the tuning with auxiliary samples and devise two inference strategies: semantic interpolation and cluster guidance. These techniques are later verified to significantly enhance the generation quality. Comprehensive experiments show that our method outperforms a variety of baselines with satisfactory subject consistency, superior prompt conformity as well as high image quality. Our method is capable of multi-subject generation and compatible with popular diffusion extensions. Besides, we achieve a 4 times faster tuning speed than tuning-based baselines and, if desired, avoid increasing inference time. Furthermore, to our best knowledge, we are the first to prove that the semantic space of the diffusion model has the same interpolation property as the latent space does. This property can serve as another promising tool for fine generation control.
arxiv情報
著者 | Jiahao Wang,Caixia Yan,Haonan Lin,Weizhan Zhang,Mengmeng Wang,Tieliang Gong,Guang Dai,Hao Sun |
発行日 | 2024-07-12 13:03:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google