Generalization in diffusion models arises from geometry-adaptive harmonic representations

要約

画像のノイズ除去用にトレーニングされたディープ ニューラル ネットワーク (DNN) は、スコアベースの逆拡散アルゴリズムを使用して高品質のサンプルを生成できます。
これらの優れた機能は、次元の呪いから逃れることを暗示しているように見えますが、トレーニング セットの暗記に関する最近の報告により、これらのネットワークがデータの「真の」連続密度を学習しているかどうかという疑問が生じています。
ここでは、トレーニング画像の数が十分に大きい場合、データセットの重複しないサブセットでトレーニングされた 2 つの DNN がほぼ同じスコア関数を学習し、したがって同じ密度を学習することを示します。
この強い一般化の領域では、拡散生成画像はトレーニング セットとは異なり、視覚的な品質が高く、DNN の帰納的バイアスがデータ密度とよく一致していることを示唆しています。
学習したノイズ除去関数を分析し、誘導バイアスが基礎となる画像に適応した基底で縮小操作を引き起こすことを示します。
これらの基底を調べると、輪郭に沿って均一な領域で振動する調和構造が明らかになります。
トレーニングされたデノイザーは、ネットワークが写真画像でトレーニングされた場合だけでなく、高調波基底が適用される低次元多様体でサポートされる画像クラスでトレーニングされた場合にも生じるため、トレーニングされたデノイザーがこれらのジオメトリ適応高調波基底に対して帰納的に偏ることを示します。
最適ではない。
最後に、最適な基底がジオメトリ適応性と調和であることがわかっている通常の画像クラスでトレーニングすると、ネットワークのノイズ除去パフォーマンスがほぼ最適になることを示します。

要約(オリジナル)

Deep neural networks (DNNs) trained for image denoising are able to generate high-quality samples with score-based reverse diffusion algorithms. These impressive capabilities seem to imply an escape from the curse of dimensionality, but recent reports of memorization of the training set raise the question of whether these networks are learning the ‘true’ continuous density of the data. Here, we show that two DNNs trained on non-overlapping subsets of a dataset learn nearly the same score function, and thus the same density, when the number of training images is large enough. In this regime of strong generalization, diffusion-generated images are distinct from the training set, and are of high visual quality, suggesting that the inductive biases of the DNNs are well-aligned with the data density. We analyze the learned denoising functions and show that the inductive biases give rise to a shrinkage operation in a basis adapted to the underlying image. Examination of these bases reveals oscillating harmonic structures along contours and in homogeneous regions. We demonstrate that trained denoisers are inductively biased towards these geometry-adaptive harmonic bases since they arise not only when the network is trained on photographic images, but also when it is trained on image classes supported on low-dimensional manifolds for which the harmonic basis is suboptimal. Finally, we show that when trained on regular image classes for which the optimal basis is known to be geometry-adaptive and harmonic, the denoising performance of the networks is near-optimal.

arxiv情報

著者 Zahra Kadkhodaie,Florentin Guth,Eero P. Simoncelli,Stéphane Mallat
発行日 2024-04-12 15:48:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク