Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

要約

大規模なテキストから画像への生成モデルの最近の進歩にもかかわらず、これらのモデルを使用して実際の画像を操作することは依然として困難な問題です。
既存の編集方法の主な制限は、広範囲の画像編集で一貫した品質で実行できないこと、または入力画像の画像固有の外観を維持するために時間のかかるハイパーパラメータ調整または拡散モデルの微調整が必​​要になることです。

我々は、誘導メカニズムを介して修正された拡散サンプリングプロセスに基づいて構築された新しいアプローチを提案します。
この研究では、入力画像の全体的な構造と編集すべきではない局所領域の外観を保存するための自己誘導手法を検討します。
特に、ソース画像のローカルおよびグローバル構造を保存することを目的としたレイアウト保存エネルギー関数を明示的に導入します。
さらに、生成中に分類子を使用しないガイダンスと提案されたガイダーの基準のバランスを取ることにより、ノイズ分布を保存できるノイズ再スケーリング メカニズムを提案します。
このような誘導アプローチでは、拡散モデルや正確な反転プロセスを微調整する必要はありません。
その結果、提案された方法は高速かつ高品質な編集メカニズムを提供します。
私たちの実験では、人間による評価と定量的な分析を通じて、提案した方法が人間にとってより好ましい編集を実現できること、また編集品質と元の画像の保存の間のより良いトレードオフを達成できることを示しました。
私たちのコードは https://github.com/FusionBrainLab/Guide-and-Rescale で入手できます。

要約(オリジナル)

Despite recent advances in large-scale text-to-image generative models, manipulating real images with these models remains a challenging problem. The main limitations of existing editing methods are that they either fail to perform with consistent quality on a wide range of image edits or require time-consuming hyperparameter tuning or fine-tuning of the diffusion model to preserve the image-specific appearance of the input image. We propose a novel approach that is built upon a modified diffusion sampling process via the guidance mechanism. In this work, we explore the self-guidance technique to preserve the overall structure of the input image and its local regions appearance that should not be edited. In particular, we explicitly introduce layout-preserving energy functions that are aimed to save local and global structures of the source image. Additionally, we propose a noise rescaling mechanism that allows to preserve noise distribution by balancing the norms of classifier-free guidance and our proposed guiders during generation. Such a guiding approach does not require fine-tuning the diffusion model and exact inversion process. As a result, the proposed method provides a fast and high-quality editing mechanism. In our experiments, we show through human evaluation and quantitative analysis that the proposed method allows to produce desired editing which is more preferable by humans and also achieves a better trade-off between editing quality and preservation of the original image. Our code is available at https://github.com/FusionBrainLab/Guide-and-Rescale.

arxiv情報

著者 Vadim Titov,Madina Khalmatova,Alexandra Ivanova,Dmitry Vetrov,Aibek Alanov
発行日 2024-09-09 17:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク