要約
ControlNet などの最近のアプローチでは、テキストから画像への (T2I) 拡散モデルに対するきめ細かい空間制御がユーザーに提供されます。
ただし、補助モジュールは、空間条件、モデル アーキテクチャ、チェックポイントの種類ごとにトレーニングする必要があり、人間のデザイナーがコンテンツ作成プロセス中に AI モデルに伝えたい多様な意図や好みとは相反するものになります。
この研究では、複数の条件、アーキテクチャ、チェックポイントを同時にサポートする、制御可能な T2I 生成のためのトレーニング不要のアプローチである FreeControl を紹介します。
FreeControl は、ガイダンス画像との構造の位置合わせを容易にする構造ガイダンスと、同じシードを使用して生成された画像間での外観の共有を可能にする外観ガイダンスを設計します。
広範な定性的および定量的実験により、さまざまな事前トレーニング済み T2I モデルにわたる FreeControl の優れたパフォーマンスが実証されています。
特に、FreeControl は、さまざまなアーキテクチャやチェックポイントに対するトレーニング不要の便利な制御を容易にし、既存のトレーニング不要メソッドのほとんどが失敗する困難な入力条件を可能にし、トレーニングベースのアプローチで競争力のある合成品質を実現します。
要約(オリジナル)
Recent approaches such as ControlNet offer users fine-grained spatial control over text-to-image (T2I) diffusion models. However, auxiliary modules have to be trained for each type of spatial condition, model architecture, and checkpoint, putting them at odds with the diverse intents and preferences a human designer would like to convey to the AI models during the content creation process. In this work, we present FreeControl, a training-free approach for controllable T2I generation that supports multiple conditions, architectures, and checkpoints simultaneously. FreeControl designs structure guidance to facilitate the structure alignment with a guidance image, and appearance guidance to enable the appearance sharing between images generated using the same seed. Extensive qualitative and quantitative experiments demonstrate the superior performance of FreeControl across a variety of pre-trained T2I models. In particular, FreeControl facilitates convenient training-free control over many different architectures and checkpoints, allows the challenging input conditions on which most of the existing training-free methods fail, and achieves competitive synthesis quality with training-based approaches.
arxiv情報
著者 | Sicheng Mo,Fangzhou Mu,Kuan Heng Lin,Yanli Liu,Bochen Guan,Yin Li,Bolei Zhou |
発行日 | 2023-12-12 18:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google