Ambient Diffusion: Learning Clean Distributions from Corrupted Data

要約

我々は、高度に破損したサンプルのみを使用して未知の分布を学習できる最初の拡散ベースのフレームワークを紹介します。
この問題は、破損していないサンプルへのアクセスが不可能であるか、入手に費用がかかる科学用途で発生します。
私たちのアプローチのもう 1 つの利点は、クリーンなトレーニング データを決して観察しないため、個々のトレーニング サンプルを記憶する可能性が低い生成モデルをトレーニングできることです。
私たちの主なアイデアは、拡散プロセス中に追加の測定歪みを導入し、さらに破損した画像から元の破損した画像を予測することをモデルに要求することです。
この追加の測定の破損を考慮して、私たちの方法が破損していない完全な画像の条件付き期待を学習するモデルにつながることを証明します。
これは、いくつかの技術的条件を満たすあらゆる破損プロセスに当てはまります (特に、修復と圧縮センシングが含まれます)。
標準ベンチマーク (CelebA、CIFAR-10、AFHQ) でモデルをトレーニングし、すべてのトレーニング サンプルでピクセルの $90\%$ が欠落している場合でも分布を学習できることを示しました。
また、小さな破損したデータセット (ブロック破損のある MRI スキャンなど) で基礎モデルを微調整し、トレーニング セットを記憶することなくクリーンな分布を学習できることも示します。

要約(オリジナル)

We present the first diffusion-based framework that can learn an unknown distribution using only highly-corrupted samples. This problem arises in scientific applications where access to uncorrupted samples is impossible or expensive to acquire. Another benefit of our approach is the ability to train generative models that are less likely to memorize individual training samples since they never observe clean training data. Our main idea is to introduce additional measurement distortion during the diffusion process and require the model to predict the original corrupted image from the further corrupted image. We prove that our method leads to models that learn the conditional expectation of the full uncorrupted image given this additional measurement corruption. This holds for any corruption process that satisfies some technical conditions (and in particular includes inpainting and compressed sensing). We train models on standard benchmarks (CelebA, CIFAR-10 and AFHQ) and show that we can learn the distribution even when all the training samples have $90\%$ of their pixels missing. We also show that we can finetune foundation models on small corrupted datasets (e.g. MRI scans with block corruptions) and learn the clean distribution without memorizing the training set.

arxiv情報

著者 Giannis Daras,Kulin Shah,Yuval Dagan,Aravind Gollakota,Alexandros G. Dimakis,Adam Klivans
発行日 2023-05-30 17:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IT, cs.LG, math.IT パーマリンク