要約
過去10年間の拡散ベースの生成モデルの開発は、表現学習の進歩とは独立して主に進行してきました。
これらの拡散モデルは通常、回帰ベースの目標に依存しており、一般に明示的な正則化がありません。
この作業では、拡散ベースの生成モデルを効果的に改善する単純なプラグアンドプレイライザーである\ TextIT {分散型損失}を提案します。
私たちの損失関数は、内部表現が隠された空間で分散することを奨励します。これは、対照的な自己監視学習に類似しており、正のサンプルペアを必要としないため、回帰に使用されるサンプリングプロセスを妨げないという重要な区別があります。
最近の表現調整方法(Repa)と比較して、私たちのアプローチは自己完結型でミニマリストであり、トレーニング前、追加のパラメーター、外部データも必要ありません。
さまざまなモデル全体でImagENetデータセットの分散損失を評価し、広く使用されているベースラインよりも一貫した改善を報告します。
私たちの仕事が、生成モデリングと表現学習の間のギャップを埋めるのに役立つことを願っています。
要約(オリジナル)
The development of diffusion-based generative models over the past decade has largely proceeded independently of progress in representation learning. These diffusion models typically rely on regression-based objectives and generally lack explicit regularization. In this work, we propose \textit{Dispersive Loss}, a simple plug-and-play regularizer that effectively improves diffusion-based generative models. Our loss function encourages internal representations to disperse in the hidden space, analogous to contrastive self-supervised learning, with the key distinction that it requires no positive sample pairs and therefore does not interfere with the sampling process used for regression. Compared to the recent method of representation alignment (REPA), our approach is self-contained and minimalist, requiring no pre-training, no additional parameters, and no external data. We evaluate Dispersive Loss on the ImageNet dataset across a range of models and report consistent improvements over widely used and strong baselines. We hope our work will help bridge the gap between generative modeling and representation learning.
arxiv情報
著者 | Runqian Wang,Kaiming He |
発行日 | 2025-06-10 17:53:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google