要約
画像生成は最近、驚異的な進歩を遂げており、拡散モデルにより、多種多様なテキスト プロンプトに対して説得力のある画像を合成できます。
この記事では、DiffEdit を提案します。これは、テキスト クエリに基づいて画像を編集することを目標とするセマンティック画像編集のタスクに、テキスト条件付き拡散モデルを利用する方法です。
セマンティック画像編集は、画像生成の拡張であり、生成された画像は特定の入力画像にできるだけ似ている必要があるという追加の制約があります。
拡散モデルに基づく現在の編集方法では通常、マスクを提供する必要があり、条件付きの修復タスクとして扱うことでタスクがはるかに簡単になります。
対照的に、私たちの主な貢献は、さまざまなテキストプロンプトで条件付けられた拡散モデルの予測を対比することにより、編集が必要な入力画像の領域を強調表示するマスクを自動的に生成できます。
さらに、これらの関心領域のコンテンツを保持し、マスクベースの拡散との優れた相乗効果を示すために、潜在的な推論に依存しています。
DiffEdit は、ImageNet 上で最先端の編集パフォーマンスを実現します。
さらに、COCO データセットの画像とテキストベースで生成された画像を使用して、より困難な設定でセマンティック画像編集を評価します。
要約(オリジナル)
Image generation has recently seen tremendous advances, with diffusion models allowing to synthesize convincing images for a large variety of text prompts. In this article, we propose DiffEdit, a method to take advantage of text-conditioned diffusion models for the task of semantic image editing, where the goal is to edit an image based on a text query. Semantic image editing is an extension of image generation, with the additional constraint that the generated image should be as similar as possible to a given input image. Current editing methods based on diffusion models usually require to provide a mask, making the task much easier by treating it as a conditional inpainting task. In contrast, our main contribution is able to automatically generate a mask highlighting regions of the input image that need to be edited, by contrasting predictions of a diffusion model conditioned on different text prompts. Moreover, we rely on latent inference to preserve content in those regions of interest and show excellent synergies with mask-based diffusion. DiffEdit achieves state-of-the-art editing performance on ImageNet. In addition, we evaluate semantic image editing in more challenging settings, using images from the COCO dataset as well as text-based generated images.
arxiv情報
著者 | Guillaume Couairon,Jakob Verbeek,Holger Schwenk,Matthieu Cord |
発行日 | 2022-10-20 17:16:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google