A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting

要約

ユーザーが指定した領域がユーザーの意図に従ってもっともらしいコンテンツで埋められる、高品質で多用途な画像修復を実現することは、大きな課題となります。
既存の方法では、必要とされる個別の最適なトレーニング戦略により、コンテキスト認識型の画像修復とテキストガイドによるオブジェクト修復を同時に扱うことが困難に直面しています。
この課題を克服するために、両方のタスクに優れた初の高品質で多用途な修復モデルである PowerPaint を導入します。
まず、モデルの焦点をさまざまな修復ターゲットに明示的に導くための、カスタマイズされた微調整戦略とともに、学習可能なタスク プロンプトを導入します。
これにより、PowerPaint はさまざまなタスク プロンプトを利用してさまざまな修復タスクを実行できるようになり、最先端のパフォーマンスが得られます。
次に、オブジェクト削除の否定的なプロンプトとしての有効性を示すことで、PowerPaint のタスク プロンプトの多用途性を示します。
さらに、プロンプト補間技術を活用して、制御可能な形状ガイド付きオブジェクトの修復を可能にします。
最後に、さまざまな修復ベンチマークで PowerPaint を広範囲に評価し、多用途の画像修復における優れたパフォーマンスを実証します。
コードとモデルはプロジェクト ページ https://powerpaint.github.io/ でリリースされています。

要約(オリジナル)

Achieving high-quality versatile image inpainting, where user-specified regions are filled with plausible content according to user intent, presents a significant challenge. Existing methods face difficulties in simultaneously addressing context-aware image inpainting and text-guided object inpainting due to the distinct optimal training strategies required. To overcome this challenge, we introduce PowerPaint, the first high-quality and versatile inpainting model that excels in both tasks. First, we introduce learnable task prompts along with tailored fine-tuning strategies to guide the model’s focus on different inpainting targets explicitly. This enables PowerPaint to accomplish various inpainting tasks by utilizing different task prompts, resulting in state-of-the-art performance. Second, we demonstrate the versatility of the task prompt in PowerPaint by showcasing its effectiveness as a negative prompt for object removal. Additionally, we leverage prompt interpolation techniques to enable controllable shape-guided object inpainting. Finally, we extensively evaluate PowerPaint on various inpainting benchmarks to demonstrate its superior performance for versatile image inpainting. We release our codes and models on our project page: https://powerpaint.github.io/.

arxiv情報

著者 Junhao Zhuang,Yanhong Zeng,Wenran Liu,Chun Yuan,Kai Chen
発行日 2023-12-06 16:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク