Unite and Conquer: Cross Dataset Multimodal Synthesis using Diffusion Models

要約

複数の制約を満たす写真を生成することは、コンテンツ作成業界で広く利用されています。
このタスクを達成するための重要なハードルは、すべてのモダリティ (つまり、制約) とそれに対応する出力で構成されるペア データの必要性です。
さらに、既存の方法では、新しい状態を導入するために、すべてのモダリティにわたってペア データを使用して再トレーニングする必要があります。
この論文では、ノイズ除去拡散確率モデル (DDPM) に基づくこの問題の解決策を提案します。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来します。
DDPM の各サンプリング ステップはガウス分布に従うため、さまざまな制約が与えられた画像を生成するための閉じた形式のソリューションが存在することを示します。
私たちの方法は、複数のサブタスクでトレーニングされた複数の拡散モデルを結合し、提案されたサンプリング戦略を通じて結合されたタスクを克服できます。
また、サンプリング時間だけでさまざまなデータセットにわたってトレーニングされたさまざまな市販の拡散モデルを使用して、複数の制約を満たす目的の結果に導くことを可能にする、新しい信頼性パラメーターを導入します。
さまざまな標準的なマルチモーダル タスクで実験を行い、アプローチの有効性を実証します。
詳細については、https://nithin-gk.github.io/projectpages/Multidiff/index.html を参照してください。

要約(オリジナル)

Generating photos satisfying multiple constraints find broad utility in the content creation industry. A key hurdle to accomplishing this task is the need for paired data consisting of all modalities (i.e., constraints) and their corresponding output. Moreover, existing methods need retraining using paired data across all modalities to introduce a new condition. This paper proposes a solution to this problem based on denoising diffusion probabilistic models (DDPMs). Our motivation for choosing diffusion models over other generative models comes from the flexible internal structure of diffusion models. Since each sampling step in the DDPM follows a Gaussian distribution, we show that there exists a closed-form solution for generating an image given various constraints. Our method can unite multiple diffusion models trained on multiple sub-tasks and conquer the combined task through our proposed sampling strategy. We also introduce a novel reliability parameter that allows using different off-the-shelf diffusion models trained across various datasets during sampling time alone to guide it to the desired outcome satisfying multiple constraints. We perform experiments on various standard multimodal tasks to demonstrate the effectiveness of our approach. More details can be found in https://nithin-gk.github.io/projectpages/Multidiff/index.html

arxiv情報

著者 Nithin Gopalakrishnan Nair,Wele Gedara Chaminda Bandara,Vishal M. Patel
発行日 2022-12-01 18:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク