要約
大規模なデータ コーパスから学習した事前トレーニング済みモデルは、最近では目覚ましい進歩を遂げています。
一般的な生成事前トレーニングとして、拡散モデルは低レベルの視覚的知識と高レベルの意味関係の両方をキャプチャします。
この論文では、このような知識豊富な拡散モデルを主流の識別タスク、つまり教師なしオブジェクトの発見、つまり顕著性のセグメンテーションとオブジェクトのローカリゼーションに活用することを提案します。
ただし、生成モデルと識別モデルには構造上の違いが 1 つあるため、直接的な使用が制限されるため、課題が存在します。
さらに、明示的にラベル付けされたデータがないため、監視されていない設定でのパフォーマンスが大幅に制限されます。
これらの問題に取り組むために、DiffusionSeg を導入します。これは、2 段階の戦略を含む、新しい統合と活用のフレームワークです。
データ不足を軽減するために、豊富な画像を合成し、最初の合成段階でマスクを取得するための新しいトレーニング不要の AttentionCut を提案します。
利用の第 2 段階では、構造上のギャップを埋めるために、反転手法を使用して、指定された画像を拡散機能にマッピングし直します。
これらの機能は、ダウンストリーム アーキテクチャで直接使用できます。
広範な実験とアブレーション研究により、教師なしオブジェクトの発見に拡散を適応させることの優位性が実証されています。
要約(オリジナル)
Learning from a large corpus of data, pre-trained models have achieved impressive progress nowadays. As popular generative pre-training, diffusion models capture both low-level visual knowledge and high-level semantic relations. In this paper, we propose to exploit such knowledgeable diffusion models for mainstream discriminative tasks, i.e., unsupervised object discovery: saliency segmentation and object localization. However, the challenges exist as there is one structural difference between generative and discriminative models, which limits the direct use. Besides, the lack of explicitly labeled data significantly limits performance in unsupervised settings. To tackle these issues, we introduce DiffusionSeg, one novel synthesis-exploitation framework containing two-stage strategies. To alleviate data insufficiency, we synthesize abundant images, and propose a novel training-free AttentionCut to obtain masks in the first synthesis stage. In the second exploitation stage, to bridge the structural gap, we use the inversion technique, to map the given image back to diffusion features. These features can be directly used by downstream architectures. Extensive experiments and ablation studies demonstrate the superiority of adapting diffusion for unsupervised object discovery.
arxiv情報
著者 | Chaofan Ma,Yuhuan Yang,Chen Ju,Fei Zhang,Jinxiang Liu,Yu Wang,Ya Zhang,Yanfeng Wang |
発行日 | 2023-03-17 07:47:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google