要約
近年、テキストから画像への変換は目覚ましい発展を遂げているが、生成モデルは、代表性の低い属性組成のデータ分布を捉えることが困難である一方、代表性の高い属性組成を過剰に記憶してしまうため、その頑健性と公平性に社会的な懸念が持たれている。この課題に取り組むため、我々は属性中心型テキストから画像への生成フレームワークACTIGを提案する。このフレームワークでは、属性に基づく特徴量の増強と、画像に依存しない新しい学習スキームを用いることで、属性に依存しない画像生成の能力を大幅に向上させる。さらに、過剰に表現された属性への過剰適合を避けるために、属性中心の対照損失を提案する。我々はCelebA-HQとCUBのデータセットで我々のフレームワークを検証する。広範な実験により、ACTIGの構成的汎化は傑出しており、我々のフレームワークは画質とテキストと画像の整合性の点で先行研究を凌駕していることが示される。
要約(オリジナル)
Despite the recent impressive breakthroughs in text-to-image generation, generative models have difficulty in capturing the data distribution of underrepresented attribute compositions while over-memorizing overrepresented attribute compositions, which raises public concerns about their robustness and fairness. To tackle this challenge, we propose ACTIG, an attribute-centric compositional text-to-image generation framework. We present an attribute-centric feature augmentation and a novel image-free training scheme, which greatly improves model’s ability to generate images with underrepresented attributes. We further propose an attribute-centric contrastive loss to avoid overfitting to overrepresented attribute compositions. We validate our framework on the CelebA-HQ and CUB datasets. Extensive experiments show that the compositional generalization of ACTIG is outstanding, and our framework outperforms previous works in terms of image quality and text-image consistency.
arxiv情報
著者 | Yuren Cong,Martin Renqiang Min,Li Erran Li,Bodo Rosenhahn,Michael Ying Yang |
発行日 | 2023-01-04 03:03:08+00:00 |
arxivサイト | arxiv_id(pdf) |