要約
最近の研究では、拡散モデルを使用したテキストガイドによる画像編集が検討され、テキスト プロンプトに基づいて編集画像が生成されました。
ただし、モデルは編集対象の領域を正確に特定し、正確な編集を忠実に実行するのに苦労しています。
この研究では、ユーザーの指示に基づいてきめ細かい編集を行うことができる InstructEdit と呼ばれるフレームワークを提案します。
私たちが提案するフレームワークには、言語プロセッサ、セグメンタ、画像エディタという 3 つのコンポーネントがあります。
最初のコンポーネントである言語プロセッサは、大規模な言語モデルを使用してユーザー命令を処理します。
この処理の目的は、ユーザーの指示を解析し、セグメンターのプロンプトと画像エディターのキャプションを出力することです。
このステップでは ChatGPT とオプションで BLIP2 を採用します。
2 番目のコンポーネントであるセグメンタは、言語プロセッサによって提供されるセグメンテーション プロンプトを使用します。
最先端のセグメンテーション フレームワークである Ground Segment Anything を採用し、セグメンテーション プロンプトに基づいて高品質のマスクを自動的に生成します。
3 番目のコンポーネントである画像エディターは、言語プロセッサからのキャプションとセグメンターからのマスクを使用して、編集された画像を計算します。
この目的のために、安定した拡散と DiffEdit からのマスクガイド生成を採用します。
実験では、入力画像に複雑なオブジェクトまたは複数のオブジェクトが含まれるきめ細かい編集アプリケーションにおいて、私たちの方法が以前の編集方法よりも優れていることが示されています。
DiffEdit よりもマスクの品質が向上し、編集された画像の品質が向上します。
また、フレームワークが複数の形式のユーザー指示を入力として受け入れることができることも示します。
コードは https://github.com/QianWangX/InstructEdit で提供されています。
要約(オリジナル)
Recent works have explored text-guided image editing using diffusion models and generated edited images based on text prompts. However, the models struggle to accurately locate the regions to be edited and faithfully perform precise edits. In this work, we propose a framework termed InstructEdit that can do fine-grained editing based on user instructions. Our proposed framework has three components: language processor, segmenter, and image editor. The first component, the language processor, processes the user instruction using a large language model. The goal of this processing is to parse the user instruction and output prompts for the segmenter and captions for the image editor. We adopt ChatGPT and optionally BLIP2 for this step. The second component, the segmenter, uses the segmentation prompt provided by the language processor. We employ a state-of-the-art segmentation framework Grounded Segment Anything to automatically generate a high-quality mask based on the segmentation prompt. The third component, the image editor, uses the captions from the language processor and the masks from the segmenter to compute the edited image. We adopt Stable Diffusion and the mask-guided generation from DiffEdit for this purpose. Experiments show that our method outperforms previous editing methods in fine-grained editing applications where the input image contains a complex object or multiple objects. We improve the mask quality over DiffEdit and thus improve the quality of edited images. We also show that our framework can accept multiple forms of user instructions as input. We provide the code at https://github.com/QianWangX/InstructEdit.
arxiv情報
著者 | Qian Wang,Biao Zhang,Michael Birsak,Peter Wonka |
発行日 | 2023-05-29 12:24:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google