要約
前後に編集された画像のペアであるVisual Promptは、説明できない画像変換を伝え、画像編集で繁栄することができます。
ただし、現在の視覚的なプロンプトメソッドは、テキストから画像へのモデルを再トレーニングするための画像の前後のテキストのトリプレットを必要とする、事前に処理されたテキスト誘導画像から画像から画像間モデルに依存しています。
このようなクラフトトリプレットと再訓練プロセスは、編集のスケーラビリティと一般化を制限します。
このホワイトペーパーでは、明示的な画像から画像間モデルに依存することなく、単一のテキストから画像モデルに基づいたフレームワークを提示し、一般化可能性とスケーラビリティを向上させます。
具体的には、確率フローの通常方程式を活用することにより、テキストガイダンスの下で前後の画像間の分布を伝達するために拡散ブリッジを構築します。
ブリッジを介してテキストを最適化することにより、フレームワークは、視覚的なプロンプトによって伝えられた編集変換を他のモデルなしでテキスト埋め込みに適応的にテキスト化します。
一方、テキストの最適化中に微分注意制御を導入します。テキストの最適化は、前後の画像の不変性からテキストの埋め込みを解き放ち、繊細な変換のみをキャプチャし、さまざまな画像を編集するために一般化します。
実際の画像の実験では、視覚プロンプトとして1つの画像ペアを使用して、繊細な編集の一般化、コンテキストコヒーレンス、および高い忠実度に関する競合結果を検証します。
要約(オリジナル)
Visual prompt, a pair of before-and-after edited images, can convey indescribable imagery transformations and prosper in image editing. However, current visual prompt methods rely on a pretrained text-guided image-to-image generative model that requires a triplet of text, before, and after images for retraining over a text-to-image model. Such crafting triplets and retraining processes limit the scalability and generalization of editing. In this paper, we present a framework based on any single text-to-image model without reliance on the explicit image-to-image model thus enhancing the generalizability and scalability. Specifically, by leveraging the probability-flow ordinary equation, we construct a diffusion bridge to transfer the distribution between before-and-after images under the text guidance. By optimizing the text via the bridge, the framework adaptively textualizes the editing transformation conveyed by visual prompts into text embeddings without other models. Meanwhile, we introduce differential attention control during text optimization, which disentangles the text embedding from the invariance of the before-and-after images and makes it solely capture the delicate transformation and generalize to edit various images. Experiments on real images validate competitive results on the generalization, contextual coherence, and high fidelity for delicate editing with just one image pair as the visual prompt.
arxiv情報
| 著者 | Pengcheng Xu,Qingnan Fan,Fei Kou,Shuai Qin,Hong Gu,Ruoyu Zhao,Charles Ling,Boyu Wang | 
| 発行日 | 2025-01-27 11:22:55+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
