TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting

要約

複雑なセマンティック環境や破損した画像の多様なホール パターンを完成させるための画像修復は、大規模データでトレーニングされた最先端の学習ベースの修復手法であっても困難です。
破損した画像の同じシーンをキャプチャした参照画像は、破損した画像の穴よりも前の同様のテクスチャと構造を共有するため、破損した画像を完成させるための有益なガイダンスを提供します。
この研究では、参照ガイド付き画像修復のために、TransRef という名前のトランスフォーマベースのエンコーダ/デコーダ ネットワークを提案します。
具体的には、ガイダンスは参照埋め込み手順を通じて段階的に実行され、参照特徴がその後位置合わせされ、破損した画像の特徴と融合されます。
リファレンス フィーチャをガイダンスとして正確に利用するために、リファレンス パッチ アライメント (Ref-PA) モジュールが、リファレンス イメージと破損したイメージのパッチ フィーチャを調整し、スタイルの違いを調和させるために提案されています。
) モジュールは、埋め込み参照機能を改良するために提案されています。
さらに、参照ガイドに基づく画像復元タスクの研究を促進するために、入力画像と参照画像の 50,000 ペアを含む、公的にアクセス可能なベンチマーク データセットを構築します。
定量的評価と定性的評価の両方で、複雑な穴の完成において、最先端の方法よりも参考情報と提案された方法の有効性が実証されています。
コードとデータセットには https://github.com/Cameltr/TransRef からアクセスできます。

要約(オリジナル)

Image inpainting for completing complicated semantic environments and diverse hole patterns of corrupted images is challenging even for state-of-the-art learning-based inpainting methods trained on large-scale data. A reference image capturing the same scene of a corrupted image offers informative guidance for completing the corrupted image as it shares similar texture and structure priors to that of the holes of the corrupted image. In this work, we propose a transformer-based encoder-decoder network, named TransRef, for reference-guided image inpainting. Specifically, the guidance is conducted progressively through a reference embedding procedure, in which the referencing features are subsequently aligned and fused with the features of the corrupted image. For precise utilization of the reference features for guidance, a reference-patch alignment (Ref-PA) module is proposed to align the patch features of the reference and corrupted images and harmonize their style differences, while a reference-patch transformer (Ref-PT) module is proposed to refine the embedded reference feature. Moreover, to facilitate the research of reference-guided image restoration tasks, we construct a publicly accessible benchmark dataset containing 50K pairs of input and reference images. Both quantitative and qualitative evaluations demonstrate the efficacy of the reference information and the proposed method over the state-of-the-art methods in completing complex holes. Code and dataset can be accessed at https://github.com/Cameltr/TransRef.

arxiv情報

著者 Liang Liao,Taorong Liu,Delin Chen,Jing Xiao,Zheng Wang,Chia-Wen Lin
発行日 2023-06-20 13:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク