Do Diffusion Models Learn Semantically Meaningful and Efficient Representations?

要約

拡散モデルは、月面で馬に乗って適切に配置された影を持つ宇宙飛行士など、珍しい配置で画像を生成するという印象的な偉業を実現できます。
これらの出力は、構成的一般化を実行できることを示していますが、モデルはどのようにそれを行うのでしょうか?
指定された $x$- および $y$- 位置を中心とする 2D 球状ガウス バンプを生成することを学習する条件付き DDPM に対して制御された実験を実行します。
私たちの結果は、意味的に意味のある潜在表現の出現が高いパフォーマンスを達成する鍵であることを示しています。
学習によるパフォーマンスが成功するまでの過程で、モデルは潜在表現の 3 つの異なるフェーズを通過します: (フェーズ A) 潜在構造なし、(フェーズ B) 無秩序な状態の 2D 多様体、および (フェーズ C) 2D 秩序多様体。
これらの各フェーズに対応して、定性的に異なる生成動作を特定します。1) 複数のバンプが生成される、2) 1 つのバンプが生成されるが、$x$ および $y$ の位置が不正確、3) バンプが正しい $x で生成される
$ と y の位置。
さらに、特徴 ($x$- 対 $y$-位置) が偏った周波数で表される不均衡なデータセットの下でも、$x$ と $y$ の学習プロセスは因数分解されずに結合されることを示し、単純なバニラが
フレーバー付き拡散モデルは、$x$ と $y$ の局在化が別々の 1D タスクに因数分解される効率的な表現を学習できません。
これらの発見は、生成モデルが入力内の因数分解可能な独立構造を発見して活用するよう促す帰納的バイアスを見つける将来の研究の必要性を示唆しています。これは、これらのモデルをよりデータ効率の高い領域に保管するために必要となります。

要約(オリジナル)

Diffusion models are capable of impressive feats of image generation with uncommon juxtapositions such as astronauts riding horses on the moon with properly placed shadows. These outputs indicate the ability to perform compositional generalization, but how do the models do so? We perform controlled experiments on conditional DDPMs learning to generate 2D spherical Gaussian bumps centered at specified $x$- and $y$-positions. Our results show that the emergence of semantically meaningful latent representations is key to achieving high performance. En route to successful performance over learning, the model traverses three distinct phases of latent representations: (phase A) no latent structure, (phase B) a 2D manifold of disordered states, and (phase C) a 2D ordered manifold. Corresponding to each of these phases, we identify qualitatively different generation behaviors: 1) multiple bumps are generated, 2) one bump is generated but at inaccurate $x$ and $y$ locations, 3) a bump is generated at the correct $x$ and y location. Furthermore, we show that even under imbalanced datasets where features ($x$- versus $y$-positions) are represented with skewed frequencies, the learning process for $x$ and $y$ is coupled rather than factorized, demonstrating that simple vanilla-flavored diffusion models cannot learn efficient representations in which localization in $x$ and $y$ are factorized into separate 1D tasks. These findings suggest the need for future work to find inductive biases that will push generative models to discover and exploit factorizable independent structures in their inputs, which will be required to vault these models into more data-efficient regimes.

arxiv情報

著者 Qiyao Liang,Ziming Liu,Ila Fiete
発行日 2024-04-30 14:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク