Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image Generation

要約

困難なタスクとして、テキストから画像への生成は、指定されたテキストの説明に従って、写真のようにリアルで意味的に一貫した画像を生成することを目的としています。
既存の方法は、主に 1 つの文からテキスト情報を抽出して画像を表現し、テキスト表現は生成される画像の品質に大きく影響します。
ただし、1 つの文に含まれる限られた情報を直接利用すると、画像を正確に説明するための重要な要素であるいくつかの重要な属性の説明が失われます。
上記の問題を軽減するために、属性情報の補完による効果的なテキスト表現方法を提案します。
まず、テキストから画像への生成を文入力と共同で制御するための属性メモリを構築します。
次に、一般化された属性メモリを動的に最適化するために、サンプル認識メカニズムとサンプルジョイントメカニズムの 2 つの更新メカニズムを調べます。
さらに、クロスモーダルネットワークトレーニングを促進する複数の表現間で特徴埋め込みを調整するために、属性-文-ジョイント条件付きジェネレーター学習スキームを設計します。
実験結果は、提案された方法が CUB (14.81 から 8.57 への FID) と COCO (21.42 から 12.39 への FID) データセットの両方で大幅なパフォーマンスの向上を実現することを示しています。

要約(オリジナル)

As a challenging task, text-to-image generation aims to generate photo-realistic and semantically consistent images according to the given text descriptions. Existing methods mainly extract the text information from only one sentence to represent an image and the text representation effects the quality of the generated image well. However, directly utilizing the limited information in one sentence misses some key attribute descriptions, which are the crucial factors to describe an image accurately. To alleviate the above problem, we propose an effective text representation method with the complements of attribute information. Firstly, we construct an attribute memory to jointly control the text-to-image generation with sentence input. Secondly, we explore two update mechanisms, sample-aware and sample-joint mechanisms, to dynamically optimize a generalized attribute memory. Furthermore, we design an attribute-sentence-joint conditional generator learning scheme to align the feature embeddings among multiple representations, which promotes the cross-modal network training. Experimental results illustrate that the proposed method obtains substantial performance improvements on both the CUB (FID from 14.81 to 8.57) and COCO (FID from 21.42 to 12.39) datasets.

arxiv情報

著者 Xintian Wu,Hanbin Zhao,Liangli Zheng,Shouhong Ding,Xi Li
発行日 2022-09-28 12:28:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク