ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

要約

テキストから画像への拡散モデルの制御性を高めるために、ControlNet などの既存の取り組みには画像ベースの条件付き制御が組み込まれています。
この論文では、既存の方法が画像条件制御に合わせた画像を生成する際に依然として大きな課題に直面していることを明らかにします。
この目的を達成するために、生成された画像と条件付き制御の間のピクセルレベルのサイクルの一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチである ControlNet++ を提案します。
具体的には、入力条件付き制御の場合、事前にトレーニングされた判別報酬モデルを使用して、生成された画像の対応する条件を抽出し、入力条件付き制御と抽出された条件の間の一貫性損失を最適化します。
単純な実装では、ランダム ノイズから画像を生成し、一貫性の損失を計算しますが、そのようなアプローチでは、複数のサンプリング タイムステップの勾配を保存する必要があり、かなりの時間とメモリのコストがかかります。
これに対処するために、ノイズを追加することで入力画像を意図的に妨害し、シングルステップでノイズ除去された画像を報酬の微調整に使用する効率的な報酬戦略を導入します。
これにより、画像サンプリングに伴う多大なコストが回避され、より効率的な報酬の微調整が可能になります。
広範な実験により、ControlNet++ がさまざまな条件付き制御の下で制御性を大幅に向上させることが示されています。
たとえば、セグメンテーション マスク、ラインアート エッジ、および深さの条件において、ControlNet と比較して、それぞれ 7.9% mIoU、13.4% SSIM、および 7.6% RMSE の向上が達成されています。

要約(オリジナル)

To enhance the controllability of text-to-image diffusion models, existing efforts like ControlNet incorporated image-based conditional controls. In this paper, we reveal that existing methods still face significant challenges in generating images that align with the image conditional controls. To this end, we propose ControlNet++, a novel approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency between generated images and conditional controls. Specifically, for an input conditional control, we use a pre-trained discriminative reward model to extract the corresponding condition of the generated images, and then optimize the consistency loss between the input conditional control and extracted condition. A straightforward implementation would be generating images from random noises and then calculating the consistency loss, but such an approach requires storing gradients for multiple sampling timesteps, leading to considerable time and memory costs. To address this, we introduce an efficient reward strategy that deliberately disturbs the input images by adding noise, and then uses the single-step denoised images for reward fine-tuning. This avoids the extensive costs associated with image sampling, allowing for more efficient reward fine-tuning. Extensive experiments show that ControlNet++ significantly improves controllability under various conditional controls. For example, it achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE, respectively, for segmentation mask, line-art edge, and depth conditions.

arxiv情報

著者 Ming Li,Taojiannan Yang,Huafeng Kuang,Jie Wu,Zhaoning Wang,Xuefeng Xiao,Chen Chen
発行日 2024-04-11 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク