要約
近年、大規模なテキストから画像への拡散モデルの成功と、高品質の画像を生成するその驚くべき可能性が目の当たりにされています。
画像の編集可能性の向上をさらに追求することにより、画像内の指定された領域内のテキスト プロンプトによって記述された新しいオブジェクトを修復するという下流タスクへの大きな関心が呼び起こされました。
それにもかかわらず、この問題は 2 つの側面からすると簡単ではありません。1) 単一の U-Net だけに依存して、すべてのノイズ除去タイムステップにわたってテキスト プロンプトとビジュアル オブジェクトを位置合わせするだけでは、目的のオブジェクトを生成するには不十分です。
2) 拡散モデルの複雑なサンプリング空間ではオブジェクト生成の制御性が保証されない。
この論文では、典型的な 1 段階のオブジェクト修復を 2 つのカスケード プロセスに分解することを提案します。1) マルチモーダル特徴空間内の目的のオブジェクトの意味論的特徴を推論する意味論的事前修復。
2) そのような塗り付けられた意味論的特徴を中心とする拡散潜在空間における高フィールドオブジェクトの生成。
これを実現するために、Transformer ベースのセマンティック インペインタとオブジェクト修復拡散モデルをカスケードし、テキスト ガイドによるオブジェクト修復のための新しい CAscaded Transformer-Diffusion (CAT-Diffusion) フレームワークを実現します。
技術的には、セマンティック インペインターは、マスクされていないコンテキストとテキスト プロンプトに基づいてターゲット オブジェクトのセマンティック特徴を予測するようにトレーニングされています。
セマンティック インペインターの出力は、参照アダプター層を介して高フィールド オブジェクトの生成をガイドする有益な視覚的プロンプトとして機能し、制御可能なオブジェクト インペインティングにつながります。
OpenImages-V6 および MSCOCO に関する広範な評価により、最先端の手法に対する CAT-Difffusion の優位性が検証されています。
コードは \url{https://github.com/Nnn-s/CATdiffusion} で入手できます。
要約(オリジナル)
Recent years have witnessed the success of large text-to-image diffusion models and their remarkable potential to generate high-quality images. The further pursuit of enhancing the editability of images has sparked significant interest in the downstream task of inpainting a novel object described by a text prompt within a designated region in the image. Nevertheless, the problem is not trivial from two aspects: 1) Solely relying on one single U-Net to align text prompt and visual object across all the denoising timesteps is insufficient to generate desired objects; 2) The controllability of object generation is not guaranteed in the intricate sampling space of diffusion model. In this paper, we propose to decompose the typical single-stage object inpainting into two cascaded processes: 1) semantic pre-inpainting that infers the semantic features of desired objects in a multi-modal feature space; 2) high-fieldity object generation in diffusion latent space that pivots on such inpainted semantic features. To achieve this, we cascade a Transformer-based semantic inpainter and an object inpainting diffusion model, leading to a novel CAscaded Transformer-Diffusion (CAT-Diffusion) framework for text-guided object inpainting. Technically, the semantic inpainter is trained to predict the semantic features of the target object conditioning on unmasked context and text prompt. The outputs of the semantic inpainter then act as the informative visual prompts to guide high-fieldity object generation through a reference adapter layer, leading to controllable object inpainting. Extensive evaluations on OpenImages-V6 and MSCOCO validate the superiority of CAT-Diffusion against the state-of-the-art methods. Code is available at \url{https://github.com/Nnn-s/CATdiffusion}.
arxiv情報
著者 | Yifu Chen,Jingwen Chen,Yingwei Pan,Yehao Li,Ting Yao,Zhineng Chen,Tao Mei |
発行日 | 2024-09-12 17:55:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google