GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

要約

拡散プロセスに基づくテキストから画像 (T2I) モデルは、ユーザー提供のキャプションを使用した制御可能な画像生成において目覚ましい成功を収めました。
ただし、T2I モデルの現在のテキスト エンコーダーと画像デコーダーの間の密接な結合により、交換またはアップグレードが困難になります。
このような変更には、多くの場合、法外な費用をかけて大規模な微調整やゼロからのトレーニングが必要になります。
この問題に対処するために、GlueGen を提案します。これは、新しく提案された GlueNet モデルを適用して、シングルモーダルまたはマルチモーダル エンコーダーの機能を既存の T2I モデルの潜在空間に合わせます。
このアプローチは、並列コーパスを活用して異なるエンコーダーの表現空間を調整する新しいトレーニング目標を導入します。
経験的な結果は、GlueNet が効率的にトレーニングでき、以前の最先端のモデルを超えたさまざまな機能を可能にすることを示しています。
英語以外のキャプションからの画像。
2) GlueNet は、AudioCLIP などのマルチモーダル エンコーダーを Stable Diffusion モデルに合わせて、サウンドからイメージへの生成を可能にします。
3) 潜在拡散モデルの現在のテキスト エンコーダーをアップグレードして、困難なケース生成を行うこともできます。
GlueNet では、さまざまな機能表現を調整することで、新しい機能を既存の T2I モデルに柔軟かつ効率的に統合し、X-to-image (X2I) 生成に光を当てることができます。

要約(オリジナル)

Text-to-image (T2I) models based on diffusion processes have achieved remarkable success in controllable image generation using user-provided captions. However, the tight coupling between the current text encoder and image decoder in T2I models makes it challenging to replace or upgrade. Such changes often require massive fine-tuning or even training from scratch with the prohibitive expense. To address this problem, we propose GlueGen, which applies a newly proposed GlueNet model to align features from single-modal or multi-modal encoders with the latent space of an existing T2I model. The approach introduces a new training objective that leverages parallel corpora to align the representation spaces of different encoders. Empirical results show that GlueNet can be trained efficiently and enables various capabilities beyond previous state-of-the-art models: 1) multilingual language models such as XLM-Roberta can be aligned with existing T2I models, allowing for the generation of high-quality images from captions beyond English; 2) GlueNet can align multi-modal encoders such as AudioCLIP with the Stable Diffusion model, enabling sound-to-image generation; 3) it can also upgrade the current text encoder of the latent diffusion model for challenging case generation. By the alignment of various feature representations, the GlueNet allows for flexible and efficient integration of new functionality into existing T2I models and sheds light on X-to-image (X2I) generation.

arxiv情報

著者 Can Qin,Ning Yu,Chen Xing,Shu Zhang,Zeyuan Chen,Stefano Ermon,Yun Fu,Caiming Xiong,Ran Xu
発行日 2023-03-17 15:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク