要約
拡散モデルは、テキスト誘導画像翻訳のための多様で高品質の画像の合成において優れた性能を実証しています。
ただし、テキストプロンプトの定式化と参照画像コンテンツの保存の両方に改善の余地が残っています。
第一に、ターゲットテキストプロンプトのバリエーションは、生成された画像の品質に大きく影響する可能性があり、ユーザーが入力画像のコンテンツを完全にキャプチャする最適なプロンプトを作成することはしばしば困難です。
第二に、既存のモデルは参照画像の特定の領域に望ましい変更を導入できますが、変更されていない領域の意図しない変化を頻繁に誘導します。
これらの課題に対処するために、パッチごとの対照的な損失を活用することにより追加のトレーニングの必要性を排除するゼロショット拡散ベースの方法であるPIX2PIX-ZEROCONを提案します。
具体的には、参照画像とターゲットプロンプトに基づいて、テキストの埋め込みスペースの編集方向を自動的に決定します。
さらに、編集された画像で正確なコンテンツと構造的保存を確保するために、事前に訓練された拡散モデル内の生成されたおよび元の画像埋め込みの間に、相互参加ガイドの損失とパッチごとの対照的な損失を導入します。
特に、私たちのアプローチには追加のトレーニングが必要であり、事前に訓練されたテキストからイメージまでの拡散モデルで直接動作します。
広範な実験は、私たちの方法が画像間翻訳の既存のモデルを上回り、忠実度と制御性の向上を達成することを示しています。
要約(オリジナル)
The diffusion model has demonstrated superior performance in synthesizing diverse and high-quality images for text-guided image translation. However, there remains room for improvement in both the formulation of text prompts and the preservation of reference image content. First, variations in target text prompts can significantly influence the quality of the generated images, and it is often challenging for users to craft an optimal prompt that fully captures the content of the input image. Second, while existing models can introduce desired modifications to specific regions of the reference image, they frequently induce unintended alterations in areas that should remain unchanged. To address these challenges, we propose pix2pix-zeroCon, a zero-shot diffusion-based method that eliminates the need for additional training by leveraging patch-wise contrastive loss. Specifically, we automatically determine the editing direction in the text embedding space based on the reference image and target prompts. Furthermore, to ensure precise content and structural preservation in the edited image, we introduce cross-attention guiding loss and patch-wise contrastive loss between the generated and original image embeddings within a pre-trained diffusion model. Notably, our approach requires no additional training and operates directly on a pre-trained text-to-image diffusion model. Extensive experiments demonstrate that our method surpasses existing models in image-to-image translation, achieving enhanced fidelity and controllability.
arxiv情報
著者 | Qi Si,Bo Wang,Zhao Zhang |
発行日 | 2025-03-26 12:15:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google