要約
最新の生成モデルは、非常に現実的なデータを生成する前例のない機能を発揮します。
ただし、現実世界の固有の構成性を考慮すると、実際のアプリケーションでこれらのモデルを確実に使用するには、新しい概念のセットを構成して、トレーニング データ セットには見られない出力を生成する機能をモデルが示す必要があります。
これまでの研究では、最近の拡散モデルが興味深い構成的一般化能力を示しているものの、予期せぬ失敗もしていることが実証されています。
これを動機として、私たちは、合成設定における条件付き拡散モデルの構成的一般化を理解するための対照研究を実行し、トレーニング データのさまざまな属性を変化させ、分布外のサンプルを生成するモデルの能力を測定します。
私たちの結果は次のことを示しています。(i) コンセプトからサンプルを生成し、それらを構成する能力が出現する順序は、基礎となるデータ生成プロセスの構造によって支配されます。
(ii) 構成タスクのパフォーマンスは、構成タスクのパフォーマンスへの乗法的依存により突然の「出現」を示し、生成モデルで見られる創発現象を部分的に説明します。
(iii) トレーニング データ内の頻度が低い概念を構成して分布外サンプルを生成するには、分布内サンプルを生成する場合と比較して、かなり多くの最適化ステップが必要になります。
全体として、私たちの研究は、データ中心の観点から生成モデルの機能と構成性を理解するための基礎を築きます。
要約(オリジナル)
Modern generative models exhibit unprecedented capabilities to generate extremely realistic data. However, given the inherent compositionality of the real world, reliable use of these models in practical applications requires that they exhibit the capability to compose a novel set of concepts to generate outputs not seen in the training data set. Prior work demonstrates that recent diffusion models do exhibit intriguing compositional generalization abilities, but also fail unpredictably. Motivated by this, we perform a controlled study for understanding compositional generalization in conditional diffusion models in a synthetic setting, varying different attributes of the training data and measuring the model’s ability to generate samples out-of-distribution. Our results show: (i) the order in which the ability to generate samples from a concept and compose them emerges is governed by the structure of the underlying data-generating process; (ii) performance on compositional tasks exhibits a sudden ‘emergence’ due to multiplicative reliance on the performance of constituent tasks, partially explaining emergent phenomena seen in generative models; and (iii) composing concepts with lower frequency in the training data to generate out-of-distribution samples requires considerably more optimization steps compared to generating in-distribution samples. Overall, our study lays a foundation for understanding capabilities and compositionality in generative models from a data-centric perspective.
arxiv情報
| 著者 | Maya Okawa,Ekdeep Singh Lubana,Robert P. Dick,Hidenori Tanaka |
| 発行日 | 2023-12-29 15:29:28+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google