A Diffusion-based Method for Multi-turn Compositional Image Generation


タイトル: 複数のターンにわたる構成画像生成のための拡散ベースの方法
– 複数のターンにわたって、参照画像を変更テキストで反復的に操作するという、複数のターンにわたる構成画像生成(M-CIG)は、困難なタスクである。
– 既存のM-CIGのほとんどは、生成的敵対的ネットワーク(GAN)に基づいているが、画像生成の最近の進歩は、拡散モデルの優越性をGANに対して示している。
– 本論文では、条件付きノイズ拡散と画像構成マッチング(CDD-ICM)という拡散ベースの方法を提案する。
– 我々は、画像とテキストのエンコーダのバックボーンとしてCLIPを利用し、質問応答のために最初に提唱されたゲート付き融合メカニズムを導入して、M-CIGの各ターンで参照画像と変更テキストを構成的に融合する。
– 我々は、融合結果に基づいて目標画像を生成するための調整スキームを導入する。生成されたターゲット画像の意味的品質を優先するために、CDD目的とともに、補助的な画像構成マッチ(ICM)目的をマルチタスク学習フレームワークで学習する。
– さらに、我々はICMガイダンスと分類器フリーガイダンスも行い、パフォーマンスを向上させる。実験結果は、CDD-ICMがM-CIGの2つのベンチマークデータセット、CoDrawとi-CLEVRで最先端の結果を達成していることを示している。


Multi-turn compositional image generation (M-CIG) is a challenging task that aims to iteratively manipulate a reference image given a modification text. While most of the existing methods for M-CIG are based on generative adversarial networks (GANs), recent advances in image generation have demonstrated the superiority of diffusion models over GANs. In this paper, we propose a diffusion-based method for M-CIG named conditional denoising diffusion with image compositional matching (CDD-ICM). We leverage CLIP as the backbone of image and text encoders, and incorporate a gated fusion mechanism, originally proposed for question answering, to compositionally fuse the reference image and the modification text at each turn of M-CIG. We introduce a conditioning scheme to generate the target image based on the fusion results. To prioritize the semantic quality of the generated target image, we learn an auxiliary image compositional match (ICM) objective, along with the conditional denoising diffusion (CDD) objective in a multi-task learning framework. Additionally, we also perform ICM guidance and classifier-free guidance to improve performance. Experimental results show that CDD-ICM achieves state-of-the-art results on two benchmark datasets for M-CIG, i.e., CoDraw and i-CLEVR.


著者 Chao Wang,Xiaoyu Yang,Jinmiao Huang,Kevin Ferreira
発行日 2023-04-05 02:13:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク