Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation

要約

最近、大規模なテキストからイメージ(T2I)拡散モデルが画像間翻訳(I2I)の強力なツールとして浮上しており、ユーザーが提供するテキストプロンプトを介してオープンドメインの画像翻訳を可能にします。
このペーパーでは、周波数誘導ベースのフレームワークである周波数拡散ベースのフレームワークである周波数誘導拡散モデル(FCDiffusion)を提案します。
私たちのフレームワークの中心にあるのは、DCTドメインのソース画像の潜在的な特徴をフィルタリングする離散コサイン変換に基づく機能空間周波数ドメインフィルタリングモジュールであり、異なるDCTスペクトルバンドを持つフィルタリングされた画像機能を、事前に訓練された潜在的拡散モデルへの異なる制御信号として生成します。
異なるDCTスペクトルバンドの制御信号は、ソース画像とT2I生成画像を異なる相関(例えば、スタイル、構造、レイアウト、輪郭など)で橋渡しし、したがって、スタイルガイド付きコンテンツの作成、イメージセマンティックマニピュレーション、イメージシーンの翻訳、イメージスタイルの翻訳など、さまざまなI2I相関を強調する汎用性の高いI2Iアプリケーションを可能にすることが明らかになります。
関連するアプローチとは異なるFCDiffusionは、推論時に異なる周波数制御分岐を切り替えるだけで、多様な画像翻訳タスクに適した統一されたテキスト誘導I2Iフレームワークを確立します。
テキスト誘導I2Iのための当社の方法の有効性と優位性は、定性的および定量的に広範な実験で実証されています。
当社のプロジェクトは、https://xianggao1102.github.io/fcdiffusion/で公開されています。

要約(オリジナル)

Recently, large-scale text-to-image (T2I) diffusion models have emerged as a powerful tool for image-to-image translation (I2I), allowing open-domain image translation via user-provided text prompts. This paper proposes frequency-controlled diffusion model (FCDiffusion), an end-to-end diffusion-based framework that contributes a novel solution to text-guided I2I from a frequency-domain perspective. At the heart of our framework is a feature-space frequency-domain filtering module based on Discrete Cosine Transform, which filters the latent features of the source image in the DCT domain, yielding filtered image features bearing different DCT spectral bands as different control signals to the pre-trained Latent Diffusion Model. We reveal that control signals of different DCT spectral bands bridge the source image and the T2I generated image in different correlations (e.g., style, structure, layout, contour, etc.), and thus enable versatile I2I applications emphasizing different I2I correlations, including style-guided content creation, image semantic manipulation, image scene translation, and image style translation. Different from related approaches, FCDiffusion establishes a unified text-guided I2I framework suitable for diverse image translation tasks simply by switching among different frequency control branches at inference time. The effectiveness and superiority of our method for text-guided I2I are demonstrated with extensive experiments both qualitatively and quantitatively. Our project is publicly available at: https://xianggao1102.github.io/FCDiffusion/.

arxiv情報

著者 Xiang Gao,Zhengbo Xu,Junhan Zhao,Jiaying Liu
発行日 2025-03-27 16:36:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク