Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance

要約

FreeControl や Diffusion Self-guidance などの最近の制御可能な生成アプローチは、補助モジュールをトレーニングすることなく、テキストから画像への (T2I) 拡散モデルにきめ細かい空間制御と外観制御をもたらします。
ただし、これらの方法では、拡散ステップが長くなり、スコア関数のタイプごとに潜在的な埋め込みが最適化されるため、生成プロセスに時間がかかり、柔軟性と使用が制限されます。
この研究では、追加のトレーニングやガイダンスを必要とせずに、構造と外観を制御する T2I 拡散のためのシンプルなフレームワークである Ctrl-X を紹介します。
Ctrl-X はフィードフォワード構造制御を設計し、構造画像との構造の位置合わせと、ユーザー入力画像からの外観の転送を容易にする意味論を意識した外観の転送を可能にします。
広範な定性的および定量的実験により、さまざまな条件入力およびモデル チェックポイントにおける Ctrl-X の優れたパフォーマンスが実証されています。
特に、Ctrl-X は、あらゆるモダリティの任意の条件の画像で新しい構造と外観の制御をサポートし、既存の作品と比較して優れた画質と外観の転送を示し、あらゆる T2I およびテキストからビデオへのインスタント プラグ アンド プレイ機能を提供します。
(T2V)の普及モデル。
結果の概要については、プロジェクト ページを参照してください: https://genforce.github.io/ctrl-x

要約(オリジナル)

Recent controllable generation approaches such as FreeControl and Diffusion Self-guidance bring fine-grained spatial and appearance control to text-to-image (T2I) diffusion models without training auxiliary modules. However, these methods optimize the latent embedding for each type of score function with longer diffusion steps, making the generation process time-consuming and limiting their flexibility and use. This work presents Ctrl-X, a simple framework for T2I diffusion controlling structure and appearance without additional training or guidance. Ctrl-X designs feed-forward structure control to enable the structure alignment with a structure image and semantic-aware appearance transfer to facilitate the appearance transfer from a user-input image. Extensive qualitative and quantitative experiments illustrate the superior performance of Ctrl-X on various condition inputs and model checkpoints. In particular, Ctrl-X supports novel structure and appearance control with arbitrary condition images of any modality, exhibits superior image quality and appearance transfer compared to existing works, and provides instant plug-and-play functionality to any T2I and text-to-video (T2V) diffusion model. See our project page for an overview of the results: https://genforce.github.io/ctrl-x

arxiv情報

著者 Kuan Heng Lin,Sicheng Mo,Ben Klingher,Fangzhou Mu,Bolei Zhou
発行日 2024-06-11 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク