DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion Models

要約

この研究では、スケッチ、ボックス、カラーパレット、スタイルの埋め込みなど、テキストの記述を超えた多様なモダリティを単一のモデル内に組み込むことにより、拡散ベースのテキストから画像への (T2I) 生成モデルの機能を拡張することを目的としています。
そこで、条件のチャネルを画像形式、空間トークン、非空間トークンの 3 種類に分離することにより、DiffBlender という造語のマルチモーダル T2I 拡散モデルを設計します。
DiffBlender の独自のアーキテクチャにより、新しい入力モダリティの追加が容易になり、条件付き画像生成のためのスケーラブルなフレームワークの先駆けとなります。
特に、既存の生成モデルである安定拡散のパラメーターを変更せずに、部分コンポーネントを更新するだけでこれを実現します。
私たちの研究は、既存の条件付き発電方法との定量的および定性的な比較を通じて、マルチモーダル発電の新しいベンチマークを確立します。
DiffBlender が提供されたすべての情報を忠実にブレンドすることを実証し、詳細な画像合成におけるそのさまざまなアプリケーションを紹介します。

要約(オリジナル)

In this study, we aim to extend the capabilities of diffusion-based text-to-image (T2I) generation models by incorporating diverse modalities beyond textual description, such as sketch, box, color palette, and style embedding, within a single model. We thus design a multimodal T2I diffusion model, coined as DiffBlender, by separating the channels of conditions into three types, i.e., image forms, spatial tokens, and non-spatial tokens. The unique architecture of DiffBlender facilitates adding new input modalities, pioneering a scalable framework for conditional image generation. Notably, we achieve this without altering the parameters of the existing generative model, Stable Diffusion, only with updating partial components. Our study establishes new benchmarks in multimodal generation through quantitative and qualitative comparisons with existing conditional generation methods. We demonstrate that DiffBlender faithfully blends all the provided information and showcase its various applications in the detailed image synthesis.

arxiv情報

著者 Sungnyun Kim,Junsoo Lee,Kibeom Hong,Daesik Kim,Namhyuk Ahn
発行日 2023-12-21 12:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク