Wavelet Prior Attention Learning in Axial Inpainting Network

要約

画像インペインティングは、画像のマスクされた領域や未知の領域を視覚的にリアルな内容で埋めるタスクであり、近年、Deep Neural Networks(DNNs)によって著しく改善されてきている。基本的に、逆問題として、インペインティングは、テクスチャアーチファクトなしで意味的に一貫した結果を再構築するという根本的な課題を有している。多くの先行研究は、エッジやセマンティックセグメンテーションなどの注意メカニズムや事前知識を利用することで行われてきました。しかし、これらの研究は、学習可能な事前パラメータが山ほどあることと、計算負荷が非常に高いことから、実用上まだ限界がある。このため、我々は、エンコーダ、デコーダ、ウェーブレット画像事前注意(WPA)、積層型多層軸変換器(AT)を生成部に持つ、新しいモデル — Wavelet prior attention learning in Axial Inpainting Network (WAIN) を提案する。特にWPAは、マルチスケール周波数領域での高次特徴量の集約を誘導し、テキストアーチファクトを緩和する。また、積層型ATは、マスクされていない手がかりを用い、水平・垂直軸の低レベル特徴に加え、合理的な特徴のモデル化を支援し、意味の一貫性を向上させる。Celeba-HQとPlaces2データセットに対する広範な定量的・定性的実験を行い、我々のWAINが競合他社に対して最先端の性能を達成できることを検証する。コードとモデルは公開される予定です。

要約(オリジナル)

Image inpainting is the task of filling masked or unknown regions of an image with visually realistic contents, which has been remarkably improved by Deep Neural Networks (DNNs) recently. Essentially, as an inverse problem, the inpainting has the underlying challenges of reconstructing semantically coherent results without texture artifacts. Many previous efforts have been made via exploiting attention mechanisms and prior knowledge, such as edges and semantic segmentation. However, these works are still limited in practice by an avalanche of learnable prior parameters and prohibitive computational burden. To this end, we propose a novel model — Wavelet prior attention learning in Axial Inpainting Network (WAIN), whose generator contains the encoder, decoder, as well as two key components of Wavelet image Prior Attention (WPA) and stacked multi-layer Axial-Transformers (ATs). Particularly, the WPA guides the high-level feature aggregation in the multi-scale frequency domain, alleviating the textual artifacts. Stacked ATs employ unmasked clues to help model reasonable features along with low-level features of horizontal and vertical axes, improving the semantic coherence. Extensive quantitative and qualitative experiments on Celeba-HQ and Places2 datasets are conducted to validate that our WAIN can achieve state-of-the-art performance over the competitors. The codes and models will be released.

arxiv情報

著者 Chenjie Cao,Chengrong Wang,Yuntao Zhang,Yanwei Fu
発行日 2022-06-07 08:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク