DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image Inpainting

要約

近年、テキストガイドによる画像修復に関連する研究に大きな焦点が当てられています。
ただし、画像とテキストの位置合わせを確実にすること、破損した領域と破損していない領域間の分布の一貫性を維持することなど、いくつかの制約があるため、この作業は依然として困難です。
したがって、この論文では、テキストガイドによる修復の意味的一貫性を維持するために、デュアルアフィン変換敵対的生成ネットワーク (DAFT-GAN) を提案します。
DAFT-GAN は 2 つのアフィン変換ネットワークを統合し、デコード ブロックごとにテキストと画像の特徴を段階的に結合します。
さらに、マスクされた画像の破損した領域と破損していない領域を個別にエンコードすることで、破損していない特徴の情報漏洩を最小限に抑え、きめの細かい画像を生成します。
私たちが提案したモデルは、テキストガイド付き画像修復のための 3 つのベンチマーク データセット (MS-COCO、CUB、および Oxford) を使用した定性的および定量的評価の両方で、既存の GAN ベースのモデルよりも優れています。

要約(オリジナル)

In recent years, there has been a significant focus on research related to text-guided image inpainting. However, the task remains challenging due to several constraints, such as ensuring alignment between the image and the text, and maintaining consistency in distribution between corrupted and uncorrupted regions. In this paper, thus, we propose a dual affine transformation generative adversarial network (DAFT-GAN) to maintain the semantic consistency for text-guided inpainting. DAFT-GAN integrates two affine transformation networks to combine text and image features gradually for each decoding block. Moreover, we minimize information leakage of uncorrupted features for fine-grained image generation by encoding corrupted and uncorrupted regions of the masked image separately. Our proposed model outperforms the existing GAN-based models in both qualitative and quantitative assessments with three benchmark datasets (MS-COCO, CUB, and Oxford) for text-guided image inpainting.

arxiv情報

著者 Jihoon Lee,Yunhong Min,Hwidong Kim,Sangtae Ahn
発行日 2024-08-09 09:28:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク