要約
タイトル:Delta Denoising Score
要約:
– Delta Denoising Score (DDS)は、テキストに基づく画像編集において、入力画像を目標指示に記述されたコンテンツに向かって最小限の修正に導く新しいスコアリング・関数です。
– DDSは、テキストから画像拡散モデルの豊富な生成的先例を利用し、最適化問題における損失項として使用することができ、テキストによって指示される望ましい方向に画像を誘導することができます。
– DDSは、画像編集のためのスコア蒸留サンプリング(SDS)メカニズムを利用します。ただし、SDSだけを使用すると、ノイズのために非詳細でぼやけた出力が生成されることがよくあります。この問題を解決するために、DDSは、入力された画像に一致するプロンプトを使用して、SDSの望ましくない誤った方向を特定して取り除くようにしています。
– DDSが、テキストに基づく画像間翻訳のための信頼性が高いことを示す分析を行いました。さらに、DDSを使用して、ゼロショット画像翻訳モデルを効果的にトレーニングすることができることを示しました。
– 実験結果により、DDSが安定性と品質の面で既存の手法を上回ることがわかり、テキストに基づく画像編集における実世界の応用の可能性を示しました。
要約(オリジナル)
We introduce Delta Denoising Score (DDS), a novel scoring function for text-based image editing that guides minimal modifications of an input image towards the content described in a target prompt. DDS leverages the rich generative prior of text-to-image diffusion models and can be used as a loss term in an optimization problem to steer an image towards a desired direction dictated by a text. DDS utilizes the Score Distillation Sampling (SDS) mechanism for the purpose of image editing. We show that using only SDS often produces non-detailed and blurry outputs due to noisy gradients. To address this issue, DDS uses a prompt that matches the input image to identify and remove undesired erroneous directions of SDS. Our key premise is that SDS should be zero when calculated on pairs of matched prompts and images, meaning that if the score is non-zero, its gradients can be attributed to the erroneous component of SDS. Our analysis demonstrates the competence of DDS for text based image-to-image translation. We further show that DDS can be used to train an effective zero-shot image translation model. Experimental results indicate that DDS outperforms existing methods in terms of stability and quality, highlighting its potential for real-world applications in text-based image editing.
arxiv情報
著者 | Amir Hertz,Kfir Aberman,Daniel Cohen-Or |
発行日 | 2023-04-14 12:22:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI