要約
テキストから画像への拡散モデルの前例のない成功に基づいた、テキストガイドによる画像修復の最近の進歩により、非常に現実的で視覚的に妥当な結果が得られました。
ただし、現在のテキストから画像への修復モデルには、特に修復領域をユーザーのプロンプトに合わせて調整したり、高解像度の修復を実行したりするなど、改善の余地がまだ大きくあります。
したがって、このホワイト ペーパーでは、プロンプトに正確に従い、高解像度の画像修復に一貫してスケールする、完全にトレーニング不要のアプローチである HD-Painter を紹介します。
この目的を達成するために、プロンプト情報によって自己注意スコアを強化し、より適切なテキスト配置生成を実現する Prompt-Aware Introverted tention (PAIntA) レイヤーを設計します。
プロンプト一貫性をさらに向上させるために、分布外の潜在的なシフトを防ぐために、ポストホック サンプリング戦略を一般形式の DDIM にシームレスに統合する再重み付けアテンション スコア ガイダンス (RASG) メカニズムを導入します。
さらに、HD-Painter は、修復用にカスタマイズされた特殊な超解像度技術を導入することで、より大きなスケールへの拡張を可能にし、最大 2K 解像度の画像の欠落領域を補完することができます。
私たちの実験では、HD-Painter が既存の最先端のアプローチを定性的および定量的に上回っており、生成精度が 61.4% 対 51.9% という驚異的な向上を達成していることが実証されました。
コードは https://github.com/Picsart-AI-Research/HD-Painter で公開します。
要約(オリジナル)
Recent progress in text-guided image inpainting, based on the unprecedented success of text-to-image diffusion models, has led to exceptionally realistic and visually plausible results. However, there is still significant potential for improvement in current text-to-image inpainting models, particularly in better aligning the inpainted area with user prompts and performing high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a completely training-free approach that accurately follows to prompts and coherently scales to high-resolution image inpainting. To this end, we design the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention scores by prompt information and resulting in better text alignment generations. To further improve the prompt coherence we introduce the Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a post-hoc sampling strategy into general form of DDIM to prevent out-of-distribution latent shifts. Moreover, HD-Painter allows extension to larger scales by introducing a specialized super-resolution technique customized for inpainting, enabling the completion of missing regions in images of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses existing state-of-the-art approaches qualitatively and quantitatively, achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We will make the codes publicly available at: https://github.com/Picsart-AI-Research/HD-Painter
arxiv情報
著者 | Hayk Manukyan,Andranik Sargsyan,Barsegh Atanyan,Zhangyang Wang,Shant Navasardyan,Humphrey Shi |
発行日 | 2023-12-21 18:09:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google