要約
この研究では、もともと画像生成を目的としたノイズ除去拡散モデル (DDM) の表現学習能力を調べます。
私たちの哲学は、DDM を解体し、徐々に古典的なノイズ除去オートエンコーダー (DAE) に変換することです。
この脱構築的な手順により、最新の DDM のさまざまなコンポーネントが自己教師あり表現学習にどのような影響を与えるかを調査できます。
優れた表現を学習するために重要な最新のコンポーネントはごく少数であり、他の多くのコンポーネントは必須ではないことがわかります。
私たちの研究は最終的に、非常に単純化され、古典的な DAE にかなり似たアプローチに到達しました。
私たちの研究が、現代の自己教師あり学習の領域における古典的な手法への関心を再燃させることを願っています。
要約(オリジナル)
In this study, we examine the representation learning abilities of Denoising Diffusion Models (DDM) that were originally purposed for image generation. Our philosophy is to deconstruct a DDM, gradually transforming it into a classical Denoising Autoencoder (DAE). This deconstructive procedure allows us to explore how various components of modern DDMs influence self-supervised representation learning. We observe that only a very few modern components are critical for learning good representations, while many others are nonessential. Our study ultimately arrives at an approach that is highly simplified and to a large extent resembles a classical DAE. We hope our study will rekindle interest in a family of classical methods within the realm of modern self-supervised learning.
arxiv情報
著者 | Xinlei Chen,Zhuang Liu,Saining Xie,Kaiming He |
発行日 | 2024-01-25 18:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google