Going beyond compositional generalization, DDPMs can produce zero-shot interpolation

要約

ノイズ除去拡散確率モデル (DDPM) は画像生成において顕著な機能を示し、トレーニング データから学習した潜在的な要素を構成することで一般化できることが研究によって示唆されています。
この研究では、さらに進んで、潜在因子のサポートに大きなギャップがあるデータ分布の厳密に別々のサブセットでトレーニングされた DDPM を研究します。
我々は、このようなモデルが分布の未調査の中間領域で画像を効果的に生成できることを示します。
たとえば、明らかに笑っている顔と笑っていない顔をトレーニングした場合、参照画像なしでわずかに笑った顔を生成できるサンプリング手順 (ゼロショット補間) を示します。
これらの結果を他の属性や他のデータセットについても再現します。
$\href{https://github.com/jdeschena/ddpm-zero-shot-interpolation}{\text{コードは GitHub で入手できます。}}$

要約(オリジナル)

Denoising Diffusion Probabilistic Models (DDPMs) exhibit remarkable capabilities in image generation, with studies suggesting that they can generalize by composing latent factors learned from the training data. In this work, we go further and study DDPMs trained on strictly separate subsets of the data distribution with large gaps on the support of the latent factors. We show that such a model can effectively generate images in the unexplored, intermediate regions of the distribution. For instance, when trained on clearly smiling and non-smiling faces, we demonstrate a sampling procedure which can generate slightly smiling faces without reference images (zero-shot interpolation). We replicate these findings for other attributes as well as other datasets. $\href{https://github.com/jdeschena/ddpm-zero-shot-interpolation}{\text{Our code is available on GitHub.}}$

arxiv情報

著者 Justin Deschenaux,Igor Krawczuk,Grigorios Chrysos,Volkan Cevher
発行日 2024-05-29 15:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.NE パーマリンク