Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion Models

要約

タイトル: 複合的な制約を満たすプラグアンドプレイのマルチモーダル合成における拡散モデルの使用による団結と征服
要約:
– 複数の制約を満たす画像を生成することは、コンテンツ制作産業において幅広く有用である。しかし、すべてのモダリティ(つまり制約)とそれに対応する出力からなるペアデータが必要であるという問題がある。更に、既存の方法では新しい条件を導入するために、全てのモダリティにわたるペアデータを使用して再トレーニングする必要がある。本研究では、雑音削減拡散確率モデル(DDPMs)に基づく問題の解決策を提案している。DDPMの柔軟な内部構造から、他の生成モデルよりも拡散モデルを選択した。DDPM内の各サンプリングステップがガウス分布に従うため、様々な制約を持つ画像を生成するためのクローズドフォームの解が存在することを示した。複数のサブタスクでトレーニングされた複数の拡散モデルを統合し、提案されたサンプリング戦略により、複合タスクを征服する方法を提供する。また、様々なデータセットでトレーニングされた既存の拡散モデルを使用して、単にサンプリング時間にガイドするための新しい信頼性パラメータを導入する。私たちは、様々な標準的なマルチモーダルタスクで実験を行い、提案手法の有効性を示した。詳細はhttps://nithin-gk.github.io/projectpages/Multidiff/index.htmlに記載されている。

要約(オリジナル)

Generating photos satisfying multiple constraints find broad utility in the content creation industry. A key hurdle to accomplishing this task is the need for paired data consisting of all modalities (i.e., constraints) and their corresponding output. Moreover, existing methods need retraining using paired data across all modalities to introduce a new condition. This paper proposes a solution to this problem based on denoising diffusion probabilistic models (DDPMs). Our motivation for choosing diffusion models over other generative models comes from the flexible internal structure of diffusion models. Since each sampling step in the DDPM follows a Gaussian distribution, we show that there exists a closed-form solution for generating an image given various constraints. Our method can unite multiple diffusion models trained on multiple sub-tasks and conquer the combined task through our proposed sampling strategy. We also introduce a novel reliability parameter that allows using different off-the-shelf diffusion models trained across various datasets during sampling time alone to guide it to the desired outcome satisfying multiple constraints. We perform experiments on various standard multimodal tasks to demonstrate the effectiveness of our approach. More details can be found in https://nithin-gk.github.io/projectpages/Multidiff/index.html

arxiv情報

著者 Nithin Gopalakrishnan Nair,Wele Gedara Chaminda Bandara,Vishal M. Patel
発行日 2023-04-20 15:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク