要約
画像の修復は、マスクを含む不完全な画像に基づいて、欠落または破損した画像コンテンツを回復する不適切な問題です。
以前の研究では、通常、補助構造 (エッジ、セグメンテーション、輪郭など) を予測して、視覚的にリアルなパッチを多段階で埋めるのに役立ちます。
ただし、不正確な補助事前確率は、偏った修復結果をもたらす可能性があります。
その上、複雑なニューラル ネットワークの複数の段階によって実装されるいくつかのメソッドには時間がかかります。
この問題を解決するために、セマンティック セグメンテーションとエッジ テクスチャ用の 1 つの修復ブランチと 2 つの補助ブランチを含む、エンドツーエンドのマルチモダリティ ガイド付きトランスフォーマー ネットワークを開発します。
各変換ブロック内で、提案されたマルチスケールの空間認識アテンション モジュールは、補助的な非正規化を介して効率的にマルチモーダル構造の特徴を学習できます。
偏った事前分布からの直接的なガイダンスに依存する以前の方法とは異なり、私たちの方法は、複数のモダリティからの識別的な相互作用情報に基づいて、画像内の意味的に一貫したコンテキストを充実させます。
いくつかの挑戦的な画像修復データセットに関する包括的な実験は、私たちの方法がさまざまな規則的/不規則なマスクを効率的に処理する最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Image inpainting is an ill-posed problem to recover missing or damaged image content based on incomplete images with masks. Previous works usually predict the auxiliary structures (e.g., edges, segmentation and contours) to help fill visually realistic patches in a multi-stage fashion. However, imprecise auxiliary priors may yield biased inpainted results. Besides, it is time-consuming for some methods to be implemented by multiple stages of complex neural networks. To solve this issue, we develop an end-to-end multi-modality guided transformer network, including one inpainting branch and two auxiliary branches for semantic segmentation and edge textures. Within each transformer block, the proposed multi-scale spatial-aware attention module can learn the multi-modal structural features efficiently via auxiliary denormalization. Different from previous methods relying on direct guidance from biased priors, our method enriches semantically consistent context in an image based on discriminative interplay information from multiple modalities. Comprehensive experiments on several challenging image inpainting datasets show that our method achieves state-of-the-art performance to deal with various regular/irregular masks efficiently.
arxiv情報
著者 | Yongsheng Yu,Dawei Du,Libo Zhang,Tiejian Luo |
発行日 | 2022-08-25 03:13:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google