How compositional generalization and creativity improve as diffusion models are trained

要約

自然データは、多くの場合、機能の階層的な構成として編成されます。
組み合わせ数の新しいデータを生成するために、組成ルールを学習するために生成モデルはいくつのサンプルが必要ですか?
データのどのシグナルが学習するために悪用されますか?
これらの質問を理論的および経験的に調査します。
理論的には、言語や画像などのデータの構造を表すために使用される、単純な確率的コンテキストのない文法で訓練された拡散モデルを検討します。
拡散モデルは、統計的に類似したコンテキストを持つクラスタリング機能に必要なサンプルの複雑さで構成ルールを学習することを実証します。これは、Word2VECアルゴリズムと同様のプロセスです。
ただし、このクラスタリングは階層的に登場します。より長いコンテキストに関連する高レベルでより抽象的な機能には、より多くのデータを特定する必要があります。
このメカニズムは、上記のコンテキストサイズとともに多項式に拡大するサンプルの複雑さにつながります。
その結果、中間データセットサイズでトレーニングされた拡散モデルは、特定のスケールまで一貫性のあるデータを生成しますが、グローバルな一貫性がありません。
これらの予測をさまざまなドメインでテストし、顕著な一致を見つけます。生成されたテキストと画像の両方が、トレーニング時間またはデータセットサイズが大きくなるにつれて徐々に大きなコヒーレンスの長さを実現します。
ここで紹介する階層的クラスタリングメカニズムと物理学の繰り込みグループとの間のつながりについて説明します。

要約(オリジナル)

Natural data is often organized as a hierarchical composition of features. How many samples do generative models need to learn the composition rules, so as to produce a combinatorial number of novel data? What signal in the data is exploited to learn? We investigate these questions both theoretically and empirically. Theoretically, we consider diffusion models trained on simple probabilistic context-free grammars – tree-like graphical models used to represent the structure of data such as language and images. We demonstrate that diffusion models learn compositional rules with the sample complexity required for clustering features with statistically similar context, a process similar to the word2vec algorithm. However, this clustering emerges hierarchically: higher-level, more abstract features associated with longer contexts require more data to be identified. This mechanism leads to a sample complexity that scales polynomially with the said context size. As a result, diffusion models trained on intermediate dataset size generate data coherent up to a certain scale, but that lacks global coherence. We test these predictions in different domains, and find remarkable agreement: both generated texts and images achieve progressively larger coherence lengths as the training time or dataset size grows. We discuss connections between the hierarchical clustering mechanism we introduce here and the renormalization group in physics.

arxiv情報

著者 Alessandro Favero,Antonio Sclocchi,Francesco Cagnetta,Pascal Frossard,Matthieu Wyart
発行日 2025-02-17 18:06:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク