DiffX: Guide Your Layout to Cross-Modal Generative Modeling

要約

拡散モデルは、言語主導およびレイアウト主導の画像生成において大きな進歩を遂げました。
ただし、ほとんどの拡散モデルは可視 RGB 画像の生成に限定されています。
実際、人間の世界認識は、色のコントラスト、熱照明、奥行き情報などの多様な視点によって豊かになります。
この論文では、DiffX と呼ばれる、一般的なレイアウトに基づくクロスモーダル生成のための新しい拡散モデルを紹介します。
特に、DiffX は、モダリティ共有の潜在空間で拡散およびノイズ除去プロセスを実行する、シンプルかつ効果的なクロスモーダル生成モデリング パイプラインを提供します。
さらに、ゲート アテンション メカニズムを組み込むことで、レイアウトとテキスト条件の間の相互作用を強化するための Joint-Modality Embedder (JME) を導入します。
一方、ユーザー指示のための長い字幕の埋め込みには、高度なLong-CLIPが採用されています。
ユーザー指示の生成トレーニングを容易にするために、ラージ マルチモーダル モデル (LMM) の支援による詳細なテキスト キャプションを備えたクロスモーダル画像データセットを構築します。
広範な実験を通じて、DiffX は、さまざまなレイアウト条件に基づいて、FLIR、MFNet、COME15K の 3 つの「RGB+X」データセットにわたるクロスモーダル生成の堅牢性を実証しました。
また、COME15K および MCXFace データセット上で「RGB+X+Y+Z」画像やより多様なモダリティを適応的に生成できる可能性も示しています。
私たちのコードと構築されたクロスモーダル画像データセットは、https://github.com/zeyuwang-zju/DiffX で入手できます。

要約(オリジナル)

Diffusion models have made significant strides in language-driven and layout-driven image generation. However, most diffusion models are limited to visible RGB image generation. In fact, human perception of the world is enriched by diverse viewpoints, such as chromatic contrast, thermal illumination, and depth information. In this paper, we introduce a novel diffusion model for general layout-guided cross-modal generation, called DiffX. Notably, DiffX presents a simple yet effective cross-modal generative modeling pipeline, which conducts diffusion and denoising processes in the modality-shared latent space. Moreover, we introduce the Joint-Modality Embedder (JME) to enhance interaction between layout and text conditions by incorporating a gated attention mechanism. Meanwhile, the advanced Long-CLIP is employed for long caption embedding for user instruction. To facilitate the user-instructed generative training, we construct the cross-modal image datasets with detailed text captions assisted by the Large-Multimodal Model (LMM). Through extensive experiments, DiffX demonstrates robustness in cross-modal generation across three “RGB+X” datasets: FLIR, MFNet, and COME15K, guided by various layout conditions. It also shows the potential for the adaptive generation of “RGB+X+Y+Z” images or more diverse modalities on COME15K and MCXFace datasets. Our code and constructed cross-modal image datasets are available at https://github.com/zeyuwang-zju/DiffX.

arxiv情報

著者 Zeyu Wang,Jingyu Lin,Yifei Qian,Yi Huang,Shicen Tian,Bosong Chai,Juncan Deng,Lan Du,Cunjian Chen,Yufei Guo,Kejie Huang
発行日 2024-08-06 12:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク