要約
一貫性モデルは、拡散モデルに代わる有望なモデルとして登場し、シングルステップのサンプル生成により高品質な生成能力を提供している。しかし、クロスモーダル翻訳や低照度画像強調などのマルチドメイン画像翻訳タスクへの応用はまだほとんど研究されていない。本論文では、条件入力を追加することで、マルチドメイン画像翻訳のための条件付き整合性モデル(CCM)を導入する。我々は、ノイズ除去プロセスを導くタスク固有の条件入力を導入することで、これらの修正を実装し、生成された出力が対応する入力ドメインからの構造的・文脈的情報を保持することを保証する。10種類のデータセットでCCMを評価し、複数のドメインにわたって高品質な翻訳画像を生成する有効性を実証する。コードはhttps://github.com/amilbhagat/Conditional-Consistency-Models。
要約(オリジナル)
Consistency models have emerged as a promising alternative to diffusion models, offering high-quality generative capabilities through single-step sample generation. However, their application to multi-domain image translation tasks, such as cross-modal translation and low-light image enhancement remains largely unexplored. In this paper, we introduce Conditional Consistency Models (CCMs) for multi-domain image translation by incorporating additional conditional inputs. We implement these modifications by introducing task-specific conditional inputs that guide the denoising process, ensuring that the generated outputs retain structural and contextual information from the corresponding input domain. We evaluate CCMs on 10 different datasets demonstrating their effectiveness in producing high-quality translated images across multiple domains. Code is available at https://github.com/amilbhagat/Conditional-Consistency-Models.
arxiv情報
著者 | Amil Bhagat,Milind Jain,A. V. Subramanyam |
発行日 | 2025-01-03 17:30:10+00:00 |
arxivサイト | arxiv_id(pdf) |