ZITS++: Image Inpainting by Improving the Incremental Transformer on Structural Priors

要約

画像の修復には、破損した画像の欠落領域を埋めることが含まれます。
最近目覚ましい結果が達成されているにもかかわらず、鮮明なテクスチャと合理的な構造の両方を備えた画像を復元することは依然として大きな課題です。
これまでの方法では、畳み込みニューラル ネットワーク (CNN) の受容野が限られていたため、全体的な構造は無視されながら、主に通常のテクスチャに対処していました。
この目的を達成するために、私たちは、カンファレンスでの成果である ZITS を改良したモデルである、ゼロ初期化残差加算ベースの構造事前分布型インクリメンタル トランスフォーマー (ZITS++) の学習を研究します。
具体的には、1 つの破損した画像が与えられた場合、Transformer Structure Restorer (TSR) モジュールを使用して、低画像解像度で全体的な構造事前分布を復元します。これは、Simple Structure Upsampler (SSU) モジュールによってより高い画像解像度にさらにアップサンプリングされます。
画像テクスチャの詳細を復元するには、フーリエ CNN テクスチャ復元 (FTR) モジュールを使用します。これは、フーリエおよびラージカーネル アテンション コンボリューションによって強化されています。
さらに、FTR を強化するために、TSR からアップサンプリングされた構造事前分布は構造特徴エンコーダー (SFE) によってさらに処理され、ゼロ初期化残差加算 (ZeroRA) で段階的に最適化されます。
さらに、大きな不規則なマスクを符号化するために、新しいマスキング位置符号化が提案されています。
ZITS と比較して、ZITS++ はいくつかの技術により FTR の安定性と修復能力を向上させます。
さらに重要なのは、修復のためのさまざまな画像事前分布の効果を包括的に調査し、広範な実験によって高解像度画像修復に対処するためにそれらを利用する方法を調査することです。
この調査は、ほとんどの修復アプローチとは直交するものであるため、コミュニティに多大な利益をもたらすことができます。
コードとモデルは https://github.com/ewrfcas/ZITS-PlusPlus でリリースされます。

要約(オリジナル)

Image inpainting involves filling missing areas of a corrupted image. Despite impressive results have been achieved recently, restoring images with both vivid textures and reasonable structures remains a significant challenge. Previous methods have primarily addressed regular textures while disregarding holistic structures due to the limited receptive fields of Convolutional Neural Networks (CNNs). To this end, we study learning a Zero-initialized residual addition based Incremental Transformer on Structural priors (ZITS++), an improved model upon our conference work, ZITS. Specifically, given one corrupt image, we present the Transformer Structure Restorer (TSR) module to restore holistic structural priors at low image resolution, which are further upsampled by Simple Structure Upsampler (SSU) module to higher image resolution. To recover image texture details, we use the Fourier CNN Texture Restoration (FTR) module, which is strengthened by Fourier and large-kernel attention convolutions. Furthermore, to enhance the FTR, the upsampled structural priors from TSR are further processed by Structure Feature Encoder (SFE) and optimized with the Zero-initialized Residual Addition (ZeroRA) incrementally. Besides, a new masking positional encoding is proposed to encode the large irregular masks. Compared with ZITS, ZITS++ improves the FTR’s stability and inpainting ability with several techniques. More importantly, we comprehensively explore the effects of various image priors for inpainting and investigate how to utilize them to address high-resolution image inpainting with extensive experiments. This investigation is orthogonal to most inpainting approaches and can thus significantly benefit the community. Codes and models will be released in https://github.com/ewrfcas/ZITS-PlusPlus.

arxiv情報

著者 Chenjie Cao,Qiaole Dong,Yanwei Fu
発行日 2023-05-24 16:19:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク