Masked Diffusion as Self-supervised Representation Learner

要約

ノイズ除去拡散確率モデルは最近、最先端の生成パフォーマンスを実証し、強力なピクセルレベル表現学習器として使用されています。
この論文は、拡散モデルに固有の生成能力と表現学習能力の間の相互関係を分解します。
従来の拡散の従来の加法ガウス ノイズをマスキング メカニズムで置き換える、スケーラブルな自己教師あり表現学習器であるマスク拡散モデル (MDM) を紹介します。
私たちが提案したアプローチは、以前のベンチマークを確実に上回り、特に数ショットのシナリオのコンテキスト内で、医療画像と自然画像の両方のセマンティック セグメンテーション タスクにおいて顕著な進歩を示しています。

要約(オリジナル)

Denoising diffusion probabilistic models have recently demonstrated state-of-the-art generative performance and been used as strong pixel-level representation learners. This paper decomposes the interrelation between the generative capability and representation learning ability inherent in diffusion models. We present masked diffusion model (MDM), a scalable self-supervised representation learner that substitutes the conventional additive Gaussian noise of traditional diffusion with a masking mechanism. Our proposed approach convincingly surpasses prior benchmarks, demonstrating remarkable advancements in both medical and natural image semantic segmentation tasks, particularly within the context of few-shot scenario.

arxiv情報

著者 Zixuan Pan,Jianxu Chen,Yiyu Shi
発行日 2023-08-10 16:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク