MagicMix: Semantic Mixing with Diffusion Models

要約

コーギーに似たコーヒーマシンやトラに似たウサギがどのように見えるか想像したことがありますか?
この作業では、セマンティック ミキシングと呼ばれる新しいタスクを調査することで、これらの質問に答えようとします。これは、2 つの異なるセマンティクスをブレンドして新しい概念を作成することを目的としています (例: コーギー + コーヒー マシン — > コーギーに似たコーヒー マシン)。
画像の内容を変更せずに参照スタイルに従って画像のスタイルを設定するスタイル転送とは異なり、セマンティック ブレンディングでは、2 つの異なる概念をセマンティックな方法で混合して、空間レイアウトとジオメトリを維持しながら新しい概念を合成します。
この目的のために、事前トレーニング済みのテキスト条件付き拡散モデルに基づくシンプルで効果的なソリューションである MagicMix を紹介します。
レイアウト/形状が初期のノイズ除去ステップで出現し、意味的に意味のある詳細がノイズ除去プロセス中の後のステップで現れる拡散モデルのプログレッシブ生成プロパティに動機付けられて、私たちの方法は最初に粗いレイアウトを取得します(画像を破損するか、純粋なガウス分布からノイズを除去することによって)
テキスト プロンプトが与えられたノイズ) に続いて、セマンティック ミキシングのための条件付きプロンプトが挿入されます。
私たちの方法は、空間マスクや再トレーニングを必要とせず、忠実度の高い新しいオブジェクトを合成できます。
ミキシングの品質を向上させるために、合成されたコンテンツの制御と柔軟性を向上させる 2 つの簡単な戦略をさらに考案しました。
私たちの方法では、セマンティックスタイルの転送、新しいオブジェクトの合成、品種の混合、概念の削除など、さまざまなダウンストリームアプリケーションで結果を提示し、方法の柔軟性を示しています。
その他の結果は、プロジェクト ページ https://magicmix.github.io で確認できます。

要約(オリジナル)

Have you ever imagined what a corgi-alike coffee machine or a tiger-alike rabbit would look like? In this work, we attempt to answer these questions by exploring a new task called semantic mixing, aiming at blending two different semantics to create a new concept (e.g., corgi + coffee machine — > corgi-alike coffee machine). Unlike style transfer, where an image is stylized according to the reference style without changing the image content, semantic blending mixes two different concepts in a semantic manner to synthesize a novel concept while preserving the spatial layout and geometry. To this end, we present MagicMix, a simple yet effective solution based on pre-trained text-conditioned diffusion models. Motivated by the progressive generation property of diffusion models where layout/shape emerges at early denoising steps while semantically meaningful details appear at later steps during the denoising process, our method first obtains a coarse layout (either by corrupting an image or denoising from a pure Gaussian noise given a text prompt), followed by injection of conditional prompt for semantic mixing. Our method does not require any spatial mask or re-training, yet is able to synthesize novel objects with high fidelity. To improve the mixing quality, we further devise two simple strategies to provide better control and flexibility over the synthesized content. With our method, we present our results over diverse downstream applications, including semantic style transfer, novel object synthesis, breed mixing, and concept removal, demonstrating the flexibility of our method. More results can be found on the project page https://magicmix.github.io

arxiv情報

著者 Jun Hao Liew,Hanshu Yan,Daquan Zhou,Jiashi Feng
発行日 2022-10-28 11:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク