要約
表現学習用に設計された自己教師あり拡散モデルである SODA を紹介します。
このモデルには、ソース ビューをコンパクトな表現に抽出する画像エンコーダーが組み込まれており、これにより、関連する新しいビューの生成がガイドされます。
エンコーダとノイズ除去デコーダの間に緊密なボトルネックを課し、自己教師ありの目的として新しいビュー合成を活用することで、拡散モデルを教師なしの方法で視覚的セマンティクスをキャプチャできる強力な表現学習器に変えることができることを示します。
私たちの知る限り、SODA は ImageNet の線形プローブ分類に成功した最初の拡散モデルであり、同時に広範囲のデータセットにわたって再構成、編集、および合成タスクを実行します。
さらなる調査により、その出現する潜在空間のもつれが解けた性質が明らかになり、モデルが生成した画像を制御および操作するための効果的なインターフェイスとして機能します。
全体として、私たちは、画像生成だけでなく、豊かで堅牢な表現の学習においても、拡散モデルの刺激的で有望な可能性を明らかにすることを目指しています。
要約(オリジナル)
We introduce SODA, a self-supervised diffusion model, designed for representation learning. The model incorporates an image encoder, which distills a source view into a compact representation, that, in turn, guides the generation of related novel views. We show that by imposing a tight bottleneck between the encoder and a denoising decoder, and leveraging novel view synthesis as a self-supervised objective, we can turn diffusion models into strong representation learners, capable of capturing visual semantics in an unsupervised manner. To the best of our knowledge, SODA is the first diffusion model to succeed at ImageNet linear-probe classification, and, at the same time, it accomplishes reconstruction, editing and synthesis tasks across a wide range of datasets. Further investigation reveals the disentangled nature of its emergent latent space, that serves as an effective interface to control and manipulate the model’s produced images. All in all, we aim to shed light on the exciting and promising potential of diffusion models, not only for image generation, but also for learning rich and robust representations.
arxiv情報
著者 | Drew A. Hudson,Daniel Zoran,Mateusz Malinowski,Andrew K. Lampinen,Andrew Jaegle,James L. McClelland,Loic Matthey,Felix Hill,Alexander Lerchner |
発行日 | 2023-11-29 18:53:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google