要約
拡散モデルは、特に生成プロセスを制御するためにガイダンスが使用される場合に、画像生成の品質において顕著な進歩を示しています。
ただし、ガイダンスにはトレーニング用に大量の画像とアノテーションのペアが必要であるため、その可用性、正確さ、不偏性に依存します。
この論文では、代わりに自己監視信号の柔軟性を活用して自己誘導拡散モデルのフレームワークを設計することにより、このようなアノテーションの必要性を排除します。
特徴抽出機能と自己アノテーション機能を活用することで、私たちの方法は、全体像のレベルからオブジェクト ボックス、さらにはセグメンテーション マスクに至るまで、さまざまな画像粒度でガイダンス信号を提供します。
単一ラベルおよび複数ラベルの画像データセットに関する実験では、自己ラベル付きガイダンスが常にガイダンスなしの拡散モデルよりも優れたパフォーマンスを示し、特に不均衡なデータではグラウンドトゥルース ラベルに基づくガイダンスを上回る可能性さえあることを示しています。
自己監視ボックスまたはマスク提案を装備すると、私たちの方法はさらに、クラス、ボックス、またはセグメントラベルの注釈を必要とせずに、視覚的に多様でありながら意味的に一貫した画像を生成します。
自主的な普及はシンプルかつ柔軟であり、大規模な導入から利益が期待できます。
ソースコードはhttps://taohu.me/sgdm/にあります。
要約(オリジナル)
Diffusion models have demonstrated remarkable progress in image generation quality, especially when guidance is used to control the generative process. However, guidance requires a large amount of image-annotation pairs for training and is thus dependent on their availability, correctness and unbiasedness. In this paper, we eliminate the need for such annotation by instead leveraging the flexibility of self-supervision signals to design a framework for self-guided diffusion models. By leveraging a feature extraction function and a self-annotation function, our method provides guidance signals at various image granularities: from the level of holistic images to object boxes and even segmentation masks. Our experiments on single-label and multi-label image datasets demonstrate that self-labeled guidance always outperforms diffusion models without guidance and may even surpass guidance based on ground-truth labels, especially on unbalanced data. When equipped with self-supervised box or mask proposals, our method further generates visually diverse yet semantically consistent images, without the need for any class, box, or segment label annotation. Self-guided diffusion is simple, flexible and expected to profit from deployment at scale. Source code will be at: https://taohu.me/sgdm/
arxiv情報
著者 | Vincent Tao Hu,David W Zhang,Yuki M. Asano,Gertjan J. Burghouts,Cees G. M. Snoek |
発行日 | 2023-11-27 18:30:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google