SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model

要約

一般的な画像の修復は、周囲の情報を借りて破損した画像を完成させることを目的としていますが、これはほとんど新しいコンテンツを生成しません。
対照的に、マルチモーダル修復では、修復されたコンテンツに対してより柔軟で便利なコントロールが提供されます。たとえば、テキスト プロンプトを使用してより豊富な属性を持つオブジェクトを記述したり、マスクを使用して修復されたオブジェクトの形状を制約したりできます。
不足している領域としてのみ考慮されるよりも。
テキストと形状ガイダンスの両方を使用して、不足している領域をオブジェクトで完成させるために、SmartBrush という名前の新しい拡散ベースのモデルを提案します。
DALLE-2 や Stable Diffusion などの以前の作業では、テキスト ガイド付きの inapinting を実行できますが、形状ガイダンスをサポートしておらず、生成されたオブジェクトの周囲の背景テクスチャを変更する傾向があります。
私たちのモデルには、正確な制御を備えたテキストと形状の両方のガイダンスが組み込まれています。
バックグラウンドをより適切に維持するために、オブジェクトマスク予測で拡散 U-net を拡張することにより、新しいトレーニングおよびサンプリング戦略を提案します。
最後に、修復とテキストから画像への生成を共同でトレーニングして、より多くのトレーニング データを活用するマルチタスク トレーニング戦略を紹介します。
私たちは大規模な実験を行い、視覚的な品質、マスクの制御性、および背景の保存に関して、モデルがすべてのベースラインよりも優れていることを示しています。

要約(オリジナル)

Generic image inpainting aims to complete a corrupted image by borrowing surrounding information, which barely generates novel content. By contrast, multi-modal inpainting provides more flexible and useful controls on the inpainted content, \eg, a text prompt can be used to describe an object with richer attributes, and a mask can be used to constrain the shape of the inpainted object rather than being only considered as a missing area. We propose a new diffusion-based model named SmartBrush for completing a missing region with an object using both text and shape-guidance. While previous work such as DALLE-2 and Stable Diffusion can do text-guided inapinting they do not support shape guidance and tend to modify background texture surrounding the generated object. Our model incorporates both text and shape guidance with precision control. To preserve the background better, we propose a novel training and sampling strategy by augmenting the diffusion U-net with object-mask prediction. Lastly, we introduce a multi-task training strategy by jointly training inpainting with text-to-image generation to leverage more training data. We conduct extensive experiments showing that our model outperforms all baselines in terms of visual quality, mask controllability, and background preservation.

arxiv情報

著者 Shaoan Xie,Zhifei Zhang,Zhe Lin,Tobias Hinz,Kun Zhang
発行日 2022-12-09 18:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク