Inst-Inpaint: Instructing to Remove Objects with Diffusion Models

要約

タイトル:Inst-Inpaint:拡散モデルを使用してオブジェクトを削除するための指示

要約:

– 画像インペイントタスクは、画像から不要なピクセルを消去し、意味的に整合性があり、現実的な方法でその領域を塗りつぶすことを指します。
– 従来、消去したいピクセルはバイナリマスクで定義されていました。応用面から言えば、ユーザーは削除したいオブジェクトのためのマスクを生成する必要があり、時間がかかり、誤りが発生する可能性があります。
– 本研究では、自然言語入力に基づいて削除されるべきオブジェクトを推定し、同時に削除する画像インペイントアルゴリズムに興味があります。
– そのために、まず、このタスク向けにGQA-Inpaintという名前のデータセットを構築し、近日中に公開します。
– 2つ目に、テキストプロンプトとして与えられた指示に基づいて画像からオブジェクトを削除することができる新しいインペイントフレームワークであるInst-Inpaintを紹介します。
– 合成および実際の画像データセットで実験を実施し、GANおよび拡散ベースのベースラインを設定し、異なる評価指標で方法を比較し、モデルの品質と精度を測定して、定量的および定性的な改善を示します。

要約(オリジナル)

Image inpainting task refers to erasing unwanted pixels from images and filling them in a semantically consistent and realistic way. Traditionally, the pixels that are wished to be erased are defined with binary masks. From the application point of view, a user needs to generate the masks for the objects they would like to remove which can be time-consuming and prone to errors. In this work, we are interested in an image inpainting algorithm that estimates which object to be removed based on natural language input and also removes it, simultaneously. For this purpose, first, we construct a dataset named GQA-Inpaint for this task which will be released soon. Second, we present a novel inpainting framework, Inst-Inpaint, that can remove objects from images based on the instructions given as text prompts. We set various GAN and diffusion-based baselines and run experiments on synthetic and real image datasets. We compare methods with different evaluation metrics that measure the quality and accuracy of the models and show significant quantitative and qualitative improvements.

arxiv情報

著者 Ahmet Burak Yildirim,Vedat Baday,Erkut Erdem,Aykut Erdem,Aysegul Dundar
発行日 2023-04-06 17:29:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク