ALR-GAN: Adaptive Layout Refinement for Text-to-Image Synthesis



– テキストから画像を生成するにあたり、補助情報を必要とせずに合成画像のレイアウトを適応的に微調整するAdaptive Layout Refinement Generative Adversarial Network(ALR-GAN)を提案。
– ALR-GANは、Adaptive Layout Refinement(ALR)モジュールとLayout Visual Refinement(LVR)損失を含む。
– ALRモジュールは、合成された画像のレイアウト構造(オブジェクトや背景の位置を指す)を、対応する実画像のレイアウト構造に合わせる。
– ALRモジュールでは、困難な特徴と簡単な特徴のマッチングをバランスさせるAdaptive Layout Refinement(ALR)損失を提案し、より効率的なレイアウト構造のマッチングを実現する。
– 洗練されたレイアウト構造に基づいて、LVR損失はさらにレイアウトエリア内の視覚的表現を微調整する。
– 2つの広く使用されているデータセットでの実験結果により、ALR-GANはテキストから画像を生成するタスクで競争力があることが示された。


We propose a novel Text-to-Image Generation Network, Adaptive Layout Refinement Generative Adversarial Network (ALR-GAN), to adaptively refine the layout of synthesized images without any auxiliary information. The ALR-GAN includes an Adaptive Layout Refinement (ALR) module and a Layout Visual Refinement (LVR) loss. The ALR module aligns the layout structure (which refers to locations of objects and background) of a synthesized image with that of its corresponding real image. In ALR module, we proposed an Adaptive Layout Refinement (ALR) loss to balance the matching of hard and easy features, for more efficient layout structure matching. Based on the refined layout structure, the LVR loss further refines the visual representation within the layout area. Experimental results on two widely-used datasets show that ALR-GAN performs competitively at the Text-to-Image generation task.


著者 Hongchen Tan,Baocai Yin,Kun Wei,Xiuping Liu,Xin Li
発行日 2023-04-13 07:07:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV パーマリンク