要約
テキストから画像への拡散モデル (DPM) の成功に基づいて構築された画像編集は、AI が生成したコンテンツと人間の対話を可能にする重要なアプリケーションです。
さまざまな編集方法の中でも、プロンプト スペース内での編集は、セマンティクスを制御できる容量と簡単さにより、より注目を集めています。
ただし、一般に拡散モデルは説明的なテキスト キャプションで事前トレーニングされているため、テキスト プロンプト内の単語を直接編集すると、通常はまったく異なる画像が生成され、画像編集の要件に違反します。
一方、既存の編集方法では、通常、未編集領域のアイデンティティを保持するために空間マスクの導入が考慮されますが、これは通常 DPM によって無視されるため、不調和な編集結果が生じます。
これら 2 つの課題をターゲットとして、この研究では、包括的な画像プロンプト インタラクションをいくつかのアイテム プロンプト インタラクションに分解し、各項目を特別に学習したプロンプトにリンクすることを提案します。
結果として得られる D-Edit と呼ばれるフレームワークは、クロスアテンション層のもつれが解消された事前トレーニング済みの拡散モデルに基づいており、アイテムとプロンプトの関連付けを構築するために 2 段階の最適化を採用しています。
対応するプロンプトを操作することで、特定のアイテムに多彩な画像編集を適用できます。
画像ベース、テキストベース、マスクベースの編集、アイテム削除を含む 4 種類の編集操作における最先端の結果を実証し、ほとんどの種類の編集アプリケーションをすべて単一の統一フレームワーク内でカバーします。
特に、D-Edit は、(1) マスク編集によるアイテム編集を実現し、(2) 画像とテキストベースの編集を組み合わせることができる最初のフレームワークです。
多様な画像コレクションに対する編集結果の品質と汎用性を、定性的評価と定量的評価の両方を通じて実証します。
要約(オリジナル)
Building on the success of text-to-image diffusion models (DPMs), image editing is an important application to enable human interaction with AI-generated content. Among various editing methods, editing within the prompt space gains more attention due to its capacity and simplicity of controlling semantics. However, since diffusion models are commonly pretrained on descriptive text captions, direct editing of words in text prompts usually leads to completely different generated images, violating the requirements for image editing. On the other hand, existing editing methods usually consider introducing spatial masks to preserve the identity of unedited regions, which are usually ignored by DPMs and therefore lead to inharmonic editing results. Targeting these two challenges, in this work, we propose to disentangle the comprehensive image-prompt interaction into several item-prompt interactions, with each item linked to a special learned prompt. The resulting framework, named D-Edit, is based on pretrained diffusion models with cross-attention layers disentangled and adopts a two-step optimization to build item-prompt associations. Versatile image editing can then be applied to specific items by manipulating the corresponding prompts. We demonstrate state-of-the-art results in four types of editing operations including image-based, text-based, mask-based editing, and item removal, covering most types of editing applications, all within a single unified framework. Notably, D-Edit is the first framework that can (1) achieve item editing through mask editing and (2) combine image and text-based editing. We demonstrate the quality and versatility of the editing results for a diverse collection of images through both qualitative and quantitative evaluations.
arxiv情報
著者 | Aosong Feng,Weikang Qiu,Jinbin Bai,Xiao Zhang,Zhen Dong,Kaicheng Zhou,Rex Ying,Leandros Tassiulas |
発行日 | 2024-05-28 15:34:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google