UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

要約

既存のテキストから画像への拡散モデルは、主にテキスト プロンプトから画像を生成します。
ただし、テキストによる説明は本質的に簡潔であるため、特定のエンティティやシーンなど、複雑な詳細を含む画像を忠実に合成する際に課題が生じます。
この論文では、単純なマルチモーダル条件付き拡散フレームワークである \textbf{UNIMO-G} を紹介します。このフレームワークは、インターリーブされたテキスト入力と視覚入力を備えたマルチモーダル プロンプト上で動作し、テキスト駆動型と主題駆動型の両方の画像生成の統合された機能を実証します。
UNIMO-G は、マルチモーダル プロンプトをエンコードするマルチモーダル大規模言語モデル (MLLM) と、エンコードされたマルチモーダル入力に基づいて画像を生成する条件付きノイズ除去拡散ネットワークの 2 つのコア コンポーネントで構成されます。
私たちは 2 段階のトレーニング戦略を活用してフレームワークを効果的にトレーニングします。まず、大規模なテキストと画像のペアで事前トレーニングして条件付き画像生成機能を開発し、次にマルチモーダル プロンプトを使用した命令調整を行って、統一された画像生成の習熟度を達成します。
マルチモーダル プロンプトを構築するために、言語の基礎と画像のセグメンテーションを含む適切に設計されたデータ処理パイプラインが採用されています。
UNIMO-G は、テキストから画像への生成とゼロショットの被写体駆動合成の両方に優れており、複数の画像エンティティを含む複雑なマルチモーダルなプロンプトから高忠実度の画像を生成する際に特に効果的です。

要約(オリジナル)

Existing text-to-image diffusion models primarily generate images from text prompts. However, the inherent conciseness of textual descriptions poses challenges in faithfully synthesizing images with intricate details, such as specific entities or scenes. This paper presents \textbf{UNIMO-G}, a simple multimodal conditional diffusion framework that operates on multimodal prompts with interleaved textual and visual inputs, which demonstrates a unified ability for both text-driven and subject-driven image generation. UNIMO-G comprises two core components: a Multimodal Large Language Model (MLLM) for encoding multimodal prompts, and a conditional denoising diffusion network for generating images based on the encoded multimodal input. We leverage a two-stage training strategy to effectively train the framework: firstly pre-training on large-scale text-image pairs to develop conditional image generation capabilities, and then instruction tuning with multimodal prompts to achieve unified image generation proficiency. A well-designed data processing pipeline involving language grounding and image segmentation is employed to construct multi-modal prompts. UNIMO-G excels in both text-to-image generation and zero-shot subject-driven synthesis, and is notably effective in generating high-fidelity images from complex multimodal prompts involving multiple image entities.

arxiv情報

著者 Wei Li,Xue Xu,Jiachen Liu,Xinyan Xiao
発行日 2024-01-24 11:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク