DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion Models

要約

拡散ベースのテキストから画像への生成モデルの最近の進歩により、テキストの説明を条件付けすることで生成機能が大幅に拡張されました。
ただし、テキスト プロンプトのみに依存すると、きめ細かいカスタマイズがまだ制限されるため、条件付き生成の境界を拡張して、スケッチ、ボックス、スタイルの埋め込みなどのさまざまなタイプのモダリティを同時に組み込むことを目指しています。
したがって、DiffBlender という造語で、少数の小さなハイパーネットワークのみをトレーニングすることで前述の目標を 1 つのモデルで達成する、マルチモーダルなテキストから画像への拡散モデルを設計します。
DiffBlender は、確立された知識を維持するために既存の大規模な生成モデルのパラメーターを変更することなく、入力モダリティの便利なスケーリングを容易にします。
さらに、私たちの研究は、既存のアプローチとの定量的および定性的な比較を行うことにより、マルチモーダル発電の新しい基準を設定します。
DiffBlender は、コンディショニング モダリティのチャネルを多様化することで、提供された情報を忠実に反映し、情報がない場合には想像力豊かな生成を生み出します。

要約(オリジナル)

The recent progress in diffusion-based text-to-image generation models has significantly expanded generative capabilities via conditioning the text descriptions. However, since relying solely on text prompts is still restrictive for fine-grained customization, we aim to extend the boundaries of conditional generation to incorporate diverse types of modalities, e.g., sketch, box, and style embedding, simultaneously. We thus design a multimodal text-to-image diffusion model, coined as DiffBlender, that achieves the aforementioned goal in a single model by training only a few small hypernetworks. DiffBlender facilitates a convenient scaling of input modalities, without altering the parameters of an existing large-scale generative model to retain its well-established knowledge. Furthermore, our study sets new standards for multimodal generation by conducting quantitative and qualitative comparisons with existing approaches. By diversifying the channels of conditioning modalities, DiffBlender faithfully reflects the provided information or, in its absence, creates imaginative generation.

arxiv情報

著者 Sungnyun Kim,Junsoo Lee,Kibeom Hong,Daesik Kim,Namhyuk Ahn
発行日 2023-05-24 14:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク