Do Diffusion Models Learn Semantically Meaningful and Efficient Representations?

要約

拡散モデルは、宇宙飛行士が月面で馬に乗り、影が適切に配置されているような、珍しい並置を持つ印象的な画像生成の偉業が可能である。これらの出力は、構図の汎化を行う能力を示しているが、モデルはどのようにして汎化を行うのだろうか?我々は、指定された$x$位置と$y$位置を中心とする2次元球状ガウスバンプを生成することを学習する条件付きDDPMの制御実験を行った。その結果、意味的に意味のある潜在表現が出現することが、高い性能を達成する鍵であることがわかった。学習が成功する過程で、モデルは潜在表現の3つの異なる段階を通過する:(段階A)潜在構造なし、(段階B)無秩序状態の2次元多様体、(段階C)2次元秩序多様体。これらの各段階に対応して、我々は質的に異なる生成挙動を特定する:1)複数のバンプが生成される、2)1つのバンプが生成されるが、$x$と$y$の位置が不正確である、3)正しい$x$と$y$の位置にバンプが生成される。さらに、特徴量($x$-と$y$-の位置)が偏った頻度で表現されるような不均衡なデータセットにおいても、$x$と$y$の学習過程は因数分解ではなく結合であることを示し、単純なバニラ風味の拡散モデルでは、$x$と$y$の定位を別々の1次元タスクに因数分解した効率的な表現を学習できないことを示す。これらの結果は、生成モデルがよりデータ効率の良い領域に移行するために必要となる、因数分解可能な独立構造を発見し利用するように、生成モデルを後押しする帰納的バイアスを見つける今後の研究の必要性を示唆している。

要約(オリジナル)

Diffusion models are capable of impressive feats of image generation with uncommon juxtapositions such as astronauts riding horses on the moon with properly placed shadows. These outputs indicate the ability to perform compositional generalization, but how do the models do so? We perform controlled experiments on conditional DDPMs learning to generate 2D spherical Gaussian bumps centered at specified $x$- and $y$-positions. Our results show that the emergence of semantically meaningful latent representations is key to achieving high performance. En route to successful performance over learning, the model traverses three distinct phases of latent representations: (phase A) no latent structure, (phase B) a 2D manifold of disordered states, and (phase C) a 2D ordered manifold. Corresponding to each of these phases, we identify qualitatively different generation behaviors: 1) multiple bumps are generated, 2) one bump is generated but at inaccurate $x$ and $y$ locations, 3) a bump is generated at the correct $x$ and y location. Furthermore, we show that even under imbalanced datasets where features ($x$- versus $y$-positions) are represented with skewed frequencies, the learning process for $x$ and $y$ is coupled rather than factorized, demonstrating that simple vanilla-flavored diffusion models cannot learn efficient representations in which localization in $x$ and $y$ are factorized into separate 1D tasks. These findings suggest the need for future work to find inductive biases that will push generative models to discover and exploit factorizable independent structures in their inputs, which will be required to vault these models into more data-efficient regimes.

arxiv情報

著者 Qiyao Liang,Ziming Liu,Ila Fiete
発行日 2024-02-05 18:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク