ControlNet-XS: Rethinking the Control of Text-to-Image Diffusion Models as Feedback-Control Systems

要約

画像合成の分野は、ここ数年で大きく進歩しました。
テキスト プロンプトを使用して目的の出力イメージを定義することに加えて、直感的なアプローチは、深度マップなどのイメージの形式で空間ガイダンスを追加で使用することです。
最先端のアプローチでは、このガイダンスは、潜在拡散モデルなど、事前トレーニングされた画像生成ネットワークを制御する別の制御モデルによって実現されます。
このプロセスを制御システムの観点から理解すると、制御モジュールが生成プロセスからフィードバック信号を受信し、修正信号を送り返すフィードバック制御システムを形成していることがわかります。
既存のシステムを分析すると、フィードバック信号が適時にまばらであり、ビット数が少ないことがわかります。
結果として、新たに生成された特徴と、これらの特徴に対するそれぞれの補正信号との間に長い遅延が生じる可能性がある。
この遅延は、あらゆる制御システムにとって最も望ましくない側面であることが知られています。
この研究では、既存の制御ネットワーク (ControlNet) を利用し、制御ネットワークと生成プロセス間の通信を高頻度かつ広帯域になるように変更します。
そうすることで、生成される画像の品質と制御の忠実度を大幅に向上させることができます。
また、制御ネットワークに必要なパラメータが大幅に少なくなるため、推論およびトレーニング時間は約 2 倍高速になります。
小型モデルのもう 1 つの利点は、分野の民主化に役立ち、理解しやすいことです。
私たちが提案するネットワークを ControlNet-XS と呼びます。
最先端のアプローチと比較すると、深度、キャニーエッジ、セマンティックセグメンテーションなどのピクセルレベルのガイダンスではそれらを上回り、人間のポーズの緩やかなキーポイントガイダンスでは同等のパフォーマンスを発揮します。
すべてのコードと事前トレーニングされたモデルは公開されます。

要約(オリジナル)

The field of image synthesis has made tremendous strides forward in the last years. Besides defining the desired output image with text-prompts, an intuitive approach is to additionally use spatial guidance in form of an image, such as a depth map. In state-of-the-art approaches, this guidance is realized by a separate controlling model that controls a pre-trained image generation network, such as a latent diffusion model. Understanding this process from a control system perspective shows that it forms a feedback-control system, where the control module receives a feedback signal from the generation process and sends a corrective signal back. When analysing existing systems, we observe that the feedback signals are timely sparse and have a small number of bits. As a consequence, there can be long delays between newly generated features and the respective corrective signals for these features. It is known that this delay is the most unwanted aspect of any control system. In this work, we take an existing controlling network (ControlNet) and change the communication between the controlling network and the generation process to be of high-frequency and with large-bandwidth. By doing so, we are able to considerably improve the quality of the generated images, as well as the fidelity of the control. Also, the controlling network needs noticeably fewer parameters and hence is about twice as fast during inference and training time. Another benefit of small-sized models is that they help to democratise our field and are likely easier to understand. We call our proposed network ControlNet-XS. When comparing with the state-of-the-art approaches, we outperform them for pixel-level guidance, such as depth, canny-edges, and semantic segmentation, and are on a par for loose keypoint-guidance of human poses. All code and pre-trained models will be made publicly available.

arxiv情報

著者 Denis Zavadski,Johann-Friedrich Feiden,Carsten Rother
発行日 2024-08-12 14:52:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク