Self-Guided Diffusion Models

要約

拡散モデルは、特にガイダンスを使用して生成プロセスを制御する場合に、画像生成の品質が著しく向上したことを示しています。
ただし、ガイダンスにはトレーニング用に大量の画像と注釈のペアが必要であるため、それらの可用性、正確性、公平性に依存します。
このホワイトペーパーでは、代わりに自己監視信号の柔軟性を活用して自己誘導型拡散モデルのフレームワークを設計することにより、このような注釈の必要性を排除します。
特徴抽出機能と自己注釈機能を活用することにより、私たちの方法は、全体的な画像のレベルからオブジェクトボックス、さらにはセグメンテーションマスクまで、さまざまな画像粒度でガイダンス信号を提供します。
単一ラベルおよび複数ラベルの画像データセットに関する私たちの実験は、自己ラベル付けされたガイダンスが常にガイダンスなしの拡散モデルよりも優れており、特にバランスの取れていないデータでは、グラウンド トゥルース ラベルに基づくガイダンスを上回る可能性さえあることを示しています。
自己管理型のボックスまたはマスクの提案を装備すると、クラス、ボックス、またはセグメント ラベルの注釈を必要とせずに、視覚的に多様でありながら意味的に一貫した画像をさらに生成します。
自己誘導型の拡散はシンプルで柔軟性があり、大規模な展開から利益を得ることが期待されています。

要約(オリジナル)

Diffusion models have demonstrated remarkable progress in image generation quality, especially when guidance is used to control the generative process. However, guidance requires a large amount of image-annotation pairs for training and is thus dependent on their availability, correctness and unbiasedness. In this paper, we eliminate the need for such annotation by instead leveraging the flexibility of self-supervision signals to design a framework for self-guided diffusion models. By leveraging a feature extraction function and a self-annotation function, our method provides guidance signals at various image granularities: from the level of holistic images to object boxes and even segmentation masks. Our experiments on single-label and multi-label image datasets demonstrate that self-labeled guidance always outperforms diffusion models without guidance and may even surpass guidance based on ground-truth labels, especially on unbalanced data. When equipped with self-supervised box or mask proposals, our method further generates visually diverse yet semantically consistent images, without the need for any class, box, or segment label annotation. Self-guided diffusion is simple, flexible and expected to profit from deployment at scale.

arxiv情報

著者 Vincent Tao Hu,David W Zhang,Yuki M. Asano,Gertjan J. Burghouts,Cees G. M. Snoek
発行日 2022-10-12 17:57:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク