Differential Diffusion: Giving Each Pixel Its Strength

要約

近年、テキストベースの画像編集が大幅に進歩しました。
普及モデルの台頭により、テキストによる指示による画像編集が普及しました。
残念ながら、現在のモデルにはピクセルごとまたは画像フラグメントごとの変更量をカスタマイズする機能がなく、画像全体を同じ量で変更するか、バイナリ マスクを使用して特定の領域を編集する必要があります。
この論文では、ユーザーが各画像フラグメントの変化量をカスタマイズできるようにする新しいフレームワークを提案します。これにより、最新の拡散モデルの柔軟性と冗長性が強化されます。
私たちのフレームワークはモデルのトレーニングや微調整を必要とせず、代わりに推論時にすべてを実行するため、既存のモデルに簡単に適用できます。
私たちは、この方法により制御性が向上し、既存のモデルでは達成できない結果を生み出すことができることを定性的および定量的に示しました。
私たちのコードはhttps://github.com/exx8/fferential-diffusionから入手できます。

要約(オリジナル)

Text-based image editing has advanced significantly in recent years. With the rise of diffusion models, image editing via textual instructions has become ubiquitous. Unfortunately, current models lack the ability to customize the quantity of the change per pixel or per image fragment, resorting to changing the entire image in an equal amount, or editing a specific region using a binary mask. In this paper, we suggest a new framework which enables the user to customize the quantity of change for each image fragment, thereby enhancing the flexibility and verbosity of modern diffusion models. Our framework does not require model training or fine-tuning, but instead performs everything at inference time, making it easily applicable to an existing model. We show both qualitatively and quantitatively that our method allows better controllability and can produce results which are unattainable by existing models. Our code is available at: https://github.com/exx8/differential-diffusion

arxiv情報

著者 Eran Levin,Ohad Fried
発行日 2023-06-01 17:47:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, I.3.3 パーマリンク