要約
複雑なセマンティック環境と破損した画像の多様な穴パターンを完了するための入力の画像は、大規模なデータでトレーニングされた最先端の学習ベースの入力方法であっても挑戦的です。
破損した画像の同じシーンをキャプチャする参照画像は、破損した画像の穴と同様のテクスチャと構造の事前を共有するため、破損した画像を完成させるための有益なガイダンスを提供します。
この作業では、参照ガイド付き画像の開始用にトランスベースのエンコーダデコーダーネットワーク、TransRefという名前のネットワークを提案します。
具体的には、ガイダンスは参照埋め込み手順を通じて徐々に行われます。この手順では、その後、参照機能が破損した画像の機能と融合し、融合します。
ガイダンスのための参照機能を正確に利用するために、参照パッチアラインメント(REF-PA)モジュールが提案され、参照画像と破損した画像のパッチ機能を整列させ、スタイルの違いを調和させ、参照パッチトランス(REF-PT)
)埋め込まれた参照機能を改良するモジュールが提案されています。
さらに、参照ガイド付き画像修復タスクの研究を容易にするために、50Kペアの入力画像と参照画像を含む公開可能なベンチマークデータセットを構築します。
定量的評価と定性的評価の両方が、複雑な穴を完成させる際の最先端の方法に対する参照情報の有効性と提案された方法を示しています。
コードとデータセットはhttps://github.com/cameltr/transrefでアクセスできます。
要約(オリジナル)
Image inpainting for completing complicated semantic environments and diverse hole patterns of corrupted images is challenging even for state-of-the-art learning-based inpainting methods trained on large-scale data. A reference image capturing the same scene of a corrupted image offers informative guidance for completing the corrupted image as it shares similar texture and structure priors to that of the holes of the corrupted image. In this work, we propose a transformer-based encoder-decoder network, named TransRef, for reference-guided image inpainting. Specifically, the guidance is conducted progressively through a reference embedding procedure, in which the referencing features are subsequently aligned and fused with the features of the corrupted image. For precise utilization of the reference features for guidance, a reference-patch alignment (Ref-PA) module is proposed to align the patch features of the reference and corrupted images and harmonize their style differences, while a reference-patch transformer (Ref-PT) module is proposed to refine the embedded reference feature. Moreover, to facilitate the research of reference-guided image restoration tasks, we construct a publicly accessible benchmark dataset containing 50K pairs of input and reference images. Both quantitative and qualitative evaluations demonstrate the efficacy of the reference information and the proposed method over the state-of-the-art methods in completing complex holes. Code and dataset can be accessed at https://github.com/Cameltr/TransRef.
arxiv情報
著者 | Taorong Liu,Liang Liao,Delin Chen,Jing Xiao,Zheng Wang,Chia-Wen Lin,Shin’ichi Satoh |
発行日 | 2025-02-11 15:55:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google