GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

要約

拡散プロセスに基づくテキストから画像への (T2I) モデルは、ユーザーが提供したキャプションを使用した制御可能な画像生成において目覚ましい成功を収めています。
ただし、T2I モデルでは現在のテキスト エンコーダーと画像デコーダーが緊密に結合しているため、交換またはアップグレードが困難になります。
このような変更には、大規模な微調整や、法外な出費を伴うゼロからのトレーニングが必要になることがよくあります。
この問題に対処するために、私たちは GlueGen を提案します。これは、新しく提案された GlueNet モデルを適用して、シングルモーダルまたはマルチモーダル エンコーダーからの特徴を既存の T2I モデルの潜在空間に合わせます。
このアプローチでは、並列コーパスを活用してさまざまなエンコーダーの表現空間を調整する新しいトレーニング目標が導入されます。
実証結果は、GlueNet が効率的にトレーニングでき、以前の最先端モデルを超えたさまざまな機能を可能にすることを示しています。 1) XLM-Roberta などの多言語言語モデルを既存の T2I モデルと連携させることができ、高品質な言語モデルの生成が可能になります。
英語以外のキャプションからの画像。
2) GlueNet は、AudioCLIP などのマルチモーダル エンコーダを安定拡散モデルと調整して、サウンドから画像への生成を可能にします。
3) 潜在拡散モデルの現在のテキスト エンコーダをアップグレードして、困難なケース生成を行うこともできます。
GlueNet は、さまざまな特徴表現を調整することにより、既存の T2I モデルへの新しい機能の柔軟かつ効率的な統合を可能にし、X-to-image (X2I) 生成に光を当てます。

要約(オリジナル)

Text-to-image (T2I) models based on diffusion processes have achieved remarkable success in controllable image generation using user-provided captions. However, the tight coupling between the current text encoder and image decoder in T2I models makes it challenging to replace or upgrade. Such changes often require massive fine-tuning or even training from scratch with the prohibitive expense. To address this problem, we propose GlueGen, which applies a newly proposed GlueNet model to align features from single-modal or multi-modal encoders with the latent space of an existing T2I model. The approach introduces a new training objective that leverages parallel corpora to align the representation spaces of different encoders. Empirical results show that GlueNet can be trained efficiently and enables various capabilities beyond previous state-of-the-art models: 1) multilingual language models such as XLM-Roberta can be aligned with existing T2I models, allowing for the generation of high-quality images from captions beyond English; 2) GlueNet can align multi-modal encoders such as AudioCLIP with the Stable Diffusion model, enabling sound-to-image generation; 3) it can also upgrade the current text encoder of the latent diffusion model for challenging case generation. By the alignment of various feature representations, the GlueNet allows for flexible and efficient integration of new functionality into existing T2I models and sheds light on X-to-image (X2I) generation.

arxiv情報

著者 Can Qin,Ning Yu,Chen Xing,Shu Zhang,Zeyuan Chen,Stefano Ermon,Yun Fu,Caiming Xiong,Ran Xu
発行日 2023-11-02 15:19:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク