Self-Guided Diffusion Models

要約

タイトル:セルフガイド拡散モデル
要約:
– 拡散モデルは、生成プロセスを制御するためにガイダンスを使用すると、特に画像生成の品質において目覚ましい進展を遂げています。
– しかし、ガイダンスは、トレーニングに多くの画像アノテーションペアが必要であり、その可用性、正確性、偏りに依存するため、当面は問題がある。
– この論文では、代わりにセルフスーパーバイズ信号の柔軟性を活用して、自己ガイド拡散モデルのフレームワークを設計することによって、そのような注釈の必要性を除去します。
– 特徴抽出機能と自己アノテーション機能を活用することにより、霧散モデルには、ホリスティック画像からオブジェクトボックス、さらにはセグメンテーションマスクのレベルまでのさまざまな画像粒度でガイダンス信号が提供されます。
– 単一ラベルおよびマルチラベルの画像データセットに対する実験では、自己ラベル付きガイダンスは、ガイダンスのない拡散モデルを常に上回り、特に不均衡なデータにおいては、グラウンドトゥルースラベルに基づくガイダンスをさらに上回ることもあります。
– 自己スーパーバイズボックスまたはマスク提案を装備すると、クラス、ボックスまたはセグメントラベルアノテーションの必要がなく、視覚的に多様ながら意味的に整合した画像を生成します。
– セルフガイド拡散は、シンプルで柔軟であり、スケール展開からも利益を得ることが期待されます。

要約(オリジナル)

Diffusion models have demonstrated remarkable progress in image generation quality, especially when guidance is used to control the generative process. However, guidance requires a large amount of image-annotation pairs for training and is thus dependent on their availability, correctness and unbiasedness. In this paper, we eliminate the need for such annotation by instead leveraging the flexibility of self-supervision signals to design a framework for self-guided diffusion models. By leveraging a feature extraction function and a self-annotation function, our method provides guidance signals at various image granularities: from the level of holistic images to object boxes and even segmentation masks. Our experiments on single-label and multi-label image datasets demonstrate that self-labeled guidance always outperforms diffusion models without guidance and may even surpass guidance based on ground-truth labels, especially on unbalanced data. When equipped with self-supervised box or mask proposals, our method further generates visually diverse yet semantically consistent images, without the need for any class, box, or segment label annotation. Self-guided diffusion is simple, flexible and expected to profit from deployment at scale.

arxiv情報

著者 Vincent Tao Hu,David W Zhang,Yuki M. Asano,Gertjan J. Burghouts,Cees G. M. Snoek
発行日 2023-04-03 08:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク