Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation

要約

テキストから画像への生成に関する文献は、関係を持つエンティティを忠実に構成するという問題に悩まされています。
しかし、エンティティ関係の構成を効果的に学習する方法については正式な理解が不足しています。
さらに、問題の構造を有意義に反映する根本的な現象空間が明確に定義されていないため、大規模な事前トレーニングから一般化が現れることを期待して、大量のデータをめぐる軍拡競争が生じています。
私たちは、根底にある現象学的範囲が比例的に拡大されておらず、一般化を損なう提示された現象の偏りをもたらしていると仮説を立てます。
私たちは、リレーショナル学習のためのデータセットの言語的および視覚的な偏りを定量化する統計的メトリクスを導入し、テキストから画像への生成の汎化の失敗が、不完全または不均衡な現象論的範囲の直接の結果であることを示します。
まず合成ドメインで実験を実行し、体系的に制御されたメトリクスが汎化パフォーマンスを強力に予測できることを実証します。
次に、自然画像に移り、私たちの理論に照らした単純な分布の摂動が、絶対的なデータ サイズを拡大することなく一般化を促進することを示します。
この研究は、絶対サイズのスケールアップと直交するデータの多様性またはバランスの品質向上に向けた重要な方向性を知らせます。
私たちの議論では、1) 生成されたエンティティと関係の構成の評価、2) 抽象的な関係を推論するためのより良いモデルに関する重要な未解決の疑問が指摘されています。

要約(オリジナル)

The literature on text-to-image generation is plagued by issues of faithfully composing entities with relations. But there lacks a formal understanding of how entity-relation compositions can be effectively learned. Moreover, the underlying phenomenon space that meaningfully reflects the problem structure is not well-defined, leading to an arms race for larger quantities of data in the hope that generalization emerges out of large-scale pretraining. We hypothesize that the underlying phenomenological coverage has not been proportionally scaled up, leading to a skew of the presented phenomenon which harms generalization. We introduce statistical metrics that quantify both the linguistic and visual skew of a dataset for relational learning, and show that generalization failures of text-to-image generation are a direct result of incomplete or unbalanced phenomenological coverage. We first perform experiments in a synthetic domain and demonstrate that systematically controlled metrics are strongly predictive of generalization performance. Then we move to natural images and show that simple distribution perturbations in light of our theories boost generalization without enlarging the absolute data size. This work informs an important direction towards quality-enhancing the data diversity or balance orthogonal to scaling up the absolute size. Our discussions point out important open questions on 1) Evaluation of generated entity-relation compositions, and 2) Better models for reasoning with abstract relations.

arxiv情報

著者 Yingshan Chang,Yasi Zhang,Zhiyuan Fang,Yingnian Wu,Yonatan Bisk,Feng Gao
発行日 2024-10-25 13:56:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク