要約
最近、拡散モデルは画像翻訳タスクにおいて大きな進歩を示しています。
ただし、その確率的な性質により、スタイルの変換とコンテンツの保存の間にはトレードオフが生じることがよくあります。
現在の戦略は、スタイルとコンテンツの絡み合いを解消し、ソース画像の構造を維持しながら、テキストまたはワンショット画像の条件下でソースからターゲット ドメインに正常に移行することを目的としています。
しかし、これらの方法では、多くの場合、拡散モデルや追加のニューラル ネットワークの計算量の多い微調整が必要になります。
これらの課題に対処するために、ここでは非対称勾配ガイダンスを適用することで拡散サンプリングの逆プロセスをガイドするアプローチを紹介します。
これにより、テキストガイドによる画像翻訳と画像ガイドによる画像翻訳の両方で、より迅速かつ安定した画像操作が可能になります。
私たちのモデルの適応性により、画像拡散モデルと潜在拡散モデルの両方で実装することができます。
実験では、私たちの方法が画像翻訳タスクにおいてさまざまな最先端のモデルよりも優れていることが示されています。
要約(オリジナル)
Diffusion models have shown significant progress in image translation tasks recently. However, due to their stochastic nature, there’s often a trade-off between style transformation and content preservation. Current strategies aim to disentangle style and content, preserving the source image’s structure while successfully transitioning from a source to a target domain under text or one-shot image conditions. Yet, these methods often require computationally intense fine-tuning of diffusion models or additional neural networks. To address these challenges, here we present an approach that guides the reverse process of diffusion sampling by applying asymmetric gradient guidance. This results in quicker and more stable image manipulation for both text-guided and image-guided image translation. Our model’s adaptability allows it to be implemented with both image- and latent-diffusion models. Experiments show that our method outperforms various state-of-the-art models in image translation tasks.
arxiv情報
著者 | Gihyun Kwon,Jong Chul Ye |
発行日 | 2023-06-07 12:56:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google