Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance

要約

これまでの研究では、テキストまたは主題画像のいずれかに基づいて画像修復が大幅に進歩しました。
しかし、彼らの指導を組み合わせた編集に関する研究はまだ初期段階にあります。
この課題に取り組むために、テキストのプロンプトと指定された主題の両方を組み込んで、マスクされたシーン画像のシームレスな修復を可能にする画像修復の新しいアプローチである LAR-Gen を紹介します。
私たちのアプローチは、主題の同一性の保持と局所的な意味の一貫性を確保するために、粗い方法から細かい方法までを採用しています。
このプロセスには、(i) 位置特定: ノイズをマスクされたシーン画像と連結して正確な領域編集を実現する、(ii) 割り当て: 分離されたクロスアテンション メカニズムを採用してマルチモーダル ガイダンスに対応する、および (iii) リファイン: 新しい RefineNet を使用して、
主題の詳細を補足します。
さらに、トレーニング データが不足しているという問題に対処するために、新しいデータ構築パイプラインを導入します。
このパイプラインは、公開されている大規模モデルを活用して、ローカル テキスト プロンプトと対応するビジュアル インスタンスからなるデータの実質的なペアを膨大な画像データセットから抽出します。
広範な実験とさまざまなアプリケーション シナリオにより、ID の保持とテキストの意味の一貫性の両方の点で LAR-Gen の優位性が実証されています。
プロジェクト ページは \url{https://ali-vilab.github.io/largen-page/} にあります。

要約(オリジナル)

Prior studies have made significant progress in image inpainting guided by either text or subject image. However, the research on editing with their combined guidance is still in the early stages. To tackle this challenge, we present LAR-Gen, a novel approach for image inpainting that enables seamless inpainting of masked scene images, incorporating both the textual prompts and specified subjects. Our approach adopts a coarse-to-fine manner to ensure subject identity preservation and local semantic coherence. The process involves (i) Locate: concatenating the noise with masked scene image to achieve precise regional editing, (ii) Assign: employing decoupled cross-attention mechanism to accommodate multi-modal guidance, and (iii) Refine: using a novel RefineNet to supplement subject details. Additionally, to address the issue of scarce training data, we introduce a novel data construction pipeline. This pipeline extracts substantial pairs of data consisting of local text prompts and corresponding visual instances from a vast image dataset, leveraging publicly available large models. Extensive experiments and varied application scenarios demonstrate the superiority of LAR-Gen in terms of both identity preservation and text semantic consistency. Project page can be found at \url{https://ali-vilab.github.io/largen-page/}.

arxiv情報

著者 Yulin Pan,Chaojie Mao,Zeyinzi Jiang,Zhen Han,Jingfeng Zhang
発行日 2024-03-28 16:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク