Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image Generation

要約

テキスト条件付き拡散モデルは、多様なコンテンツを含む忠実度の高い画像を生成できます。
ただし、言語表現では、想定される客観的イメージのあいまいな説明が頻繁に示されるため、テキスト誘導拡散モデルの有効性を強化するために追加の制御信号を組み込む必要があります。
この研究では、さまざまなモダリティを 1 つの埋め込みに混合するパイプラインである Cocktail を提案します。このパイプラインには、一般化された ControlNet (gControlNet)、制御可能な正規化 (ControlNorm)、および空間誘導サンプリング手法が融合されており、マルチモーダルで空間的に洗練されたものを実現します。
テキスト条件付き拡散モデルのコントロール。
具体的には、異なるモダリティからの制御信号の事前トレーニング済み拡散モデルへの調整と注入に特化したハイパーネットワーク gControlNet を導入します。
gControlNet は、柔軟なモダリティ信号を受け入れることができ、モダリティ信号の任意の組み合わせの同時受信や、複数のモダリティ信号の補足的な融合を包含します。
次に、制御信号は融合され、私たちが提案する ControlNorm に従ってバックボーン モデルに注入されます。
さらに、当社の高度な空間誘導サンプリング手法は、指定された領域に制御信号を巧みに組み込むことで、生成された画像内に望ましくないオブジェクトが現れることを回避します。
さまざまなモダリティを制御する方法の結果を実証し、複数の外部信号に対する高品質の合成と忠実性を証明します。

要約(オリジナル)

Text-conditional diffusion models are able to generate high-fidelity images with diverse contents. However, linguistic representations frequently exhibit ambiguous descriptions of the envisioned objective imagery, requiring the incorporation of additional control signals to bolster the efficacy of text-guided diffusion models. In this work, we propose Cocktail, a pipeline to mix various modalities into one embedding, amalgamated with a generalized ControlNet (gControlNet), a controllable normalisation (ControlNorm), and a spatial guidance sampling method, to actualize multi-modal and spatially-refined control for text-conditional diffusion models. Specifically, we introduce a hyper-network gControlNet, dedicated to the alignment and infusion of the control signals from disparate modalities into the pre-trained diffusion model. gControlNet is capable of accepting flexible modality signals, encompassing the simultaneous reception of any combination of modality signals, or the supplementary fusion of multiple modality signals. The control signals are then fused and injected into the backbone model according to our proposed ControlNorm. Furthermore, our advanced spatial guidance sampling methodology proficiently incorporates the control signal into the designated region, thereby circumventing the manifestation of undesired objects within the generated image. We demonstrate the results of our method in controlling various modalities, proving high-quality synthesis and fidelity to multiple external signals.

arxiv情報

著者 Minghui Hu,Jianbin Zheng,Daqing Liu,Chuanxia Zheng,Chaoyue Wang,Dacheng Tao,Tat-Jen Cham
発行日 2023-06-01 17:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク