Boomerang: Local sampling on image manifolds using diffusion models

要約

拡散モデルは、高次元の潜在空間内の点を低次元の学習多様体 (通常は画像多様体) にマッピングするものと見なすことができます。
潜在空間と画像多様体の間の中間値は、事前トレーニング中に使用されるノイズ スケジューリング スキームによって決定されるノイズ画像として解釈できます。
この解釈を利用して、拡散モデルのダイナミクスを使用したローカル イメージ マニホールド サンプリング アプローチであるブーメランを導入します。
最初に入力画像にノイズを追加し、それを潜在空間に近づけてから、拡散ダイナミクスを介して画像空間に戻すため、これをブーメランと呼びます。
この方法を使用して、画像多様体の元の入力画像に似ているが同一ではない画像を生成します。
追加するノイズの量に基づいて、生成された画像が元の画像にどれだけ近いかを設定できます。
さらに、生成された画像にはある程度の確率性があるため、繰り返しなしで何度でもローカルでサンプリングできます。
Boomerang を使用できる 3 つのアプリケーションを示します。
まず、制御可能な匿名性を持つプライバシー保護データセットを構築するためのフレームワークを提供します。
次に、画像多様体にとどまりながら、ブーメランをデータ拡張に使用する方法を示します。
3 番目に、8 倍のアップサンプリングによる画像超解像のフレームワークを紹介します。
Boomerang は、拡散モデルのトレーニングに変更を加える必要がなく、単一の安価な GPU で事前トレーニング済みのモデルとともに使用できます。

要約(オリジナル)

Diffusion models can be viewed as mapping points in a high-dimensional latent space onto a low-dimensional learned manifold, typically an image manifold. The intermediate values between the latent space and image manifold can be interpreted as noisy images which are determined by the noise scheduling scheme employed during pre-training. We exploit this interpretation to introduce Boomerang, a local image manifold sampling approach using the dynamics of diffusion models. We call it Boomerang because we first add noise to an input image, moving it closer to the latent space, then bring it back to the image space through diffusion dynamics. We use this method to generate images which are similar, but nonidentical, to the original input images on the image manifold. We are able to set how close the generated image is to the original based on how much noise we add. Additionally, the generated images have a degree of stochasticity, allowing us to locally sample as many times as we want without repetition. We show three applications for which Boomerang can be used. First, we provide a framework for constructing privacy-preserving datasets having controllable degrees of anonymity. Second, we show how to use Boomerang for data augmentation while staying on the image manifold. Third, we introduce a framework for image super-resolution with 8x upsampling. Boomerang does not require any modification to the training of diffusion models and can be used with pretrained models on a single, inexpensive GPU.

arxiv情報

著者 Lorenzo Luzi,Ali Siahkoohi,Paul M Mayer,Josue Casco-Rodriguez,Richard Baraniuk
発行日 2022-10-21 16:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク