要約
大規模なテキスト画像生成モデルは、多様で高品質な画像を合成するための顕著な能力を示しています。しかし、これらのモデルを実画像の編集に直接適用することは、2つの理由からまだ困難である。第一に、ユーザが入力画像の視覚的な細部まで正確に描写する完璧なテキストプロンプトを考え出すことは困難である。また、既存モデルは特定の領域に望ましい変化をもたらすことができる一方で、入力内容を劇的に変化させ、不要な領域に予期せぬ変化をもたらすことがしばしばある。本研究では、手動でプロンプトを表示することなく、元画像の内容を保持できる画像間変換手法であるpix2pix-zeroを提案する。まず、テキスト埋め込み空間において、希望する編集を反映した編集方向を自動的に発見する。さらに、編集後の一般的なコンテンツ構造を保持するために、入力画像のクロスアテンションマップを拡散プロセスを通して保持することを目的としたクロスアテンションガイドを提案する。さらに、本手法はこれらの編集のために追加の学習を必要とせず、既存の学習済みのテキストから画像への拡散モデルを直接利用することが可能である。我々は広範な実験を行い、実画像と合成画像の編集において、本手法が既存の作品や同時進行の作品を凌駕することを示す。
要約(オリジナル)
Large-scale text-to-image generative models have shown their remarkable ability to synthesize diverse and high-quality images. However, it is still challenging to directly apply these models for editing real images for two reasons. First, it is hard for users to come up with a perfect text prompt that accurately describes every visual detail in the input image. Second, while existing models can introduce desirable changes in certain regions, they often dramatically alter the input content and introduce unexpected changes in unwanted regions. In this work, we propose pix2pix-zero, an image-to-image translation method that can preserve the content of the original image without manual prompting. We first automatically discover editing directions that reflect desired edits in the text embedding space. To preserve the general content structure after editing, we further propose cross-attention guidance, which aims to retain the cross-attention maps of the input image throughout the diffusion process. In addition, our method does not need additional training for these edits and can directly use the existing pre-trained text-to-image diffusion model. We conduct extensive experiments and show that our method outperforms existing and concurrent works for both real and synthetic image editing.
arxiv情報
著者 | Gaurav Parmar,Krishna Kumar Singh,Richard Zhang,Yijun Li,Jingwan Lu,Jun-Yan Zhu |
発行日 | 2023-02-06 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |