要約
参照ベースの超解像度 (Ref-SR) は、追加の高解像度 (HR) 参照画像を導入することで、低解像度 (LR) 入力画像またはビデオを強化する有望なパラダイムとして最近登場しました。
既存の Ref-SR メソッドは、入力画像の情報損失を補うために、参照画像から HR テクスチャを借用する暗黙的な対応マッチングにほとんど依存しています。
ただし、ローカル転送の実行は、入力イメージと参照イメージの間に 2 つのギャップがあるため困難です。変換ギャップ (スケールと回転など) と解像度ギャップ (HR と LR など) です。
これらの課題に取り組むために、この作業で C2 マッチングを提案します。これは、明示的なロバスト マッチング交差変換と解決を実行します。
1) 変換のギャップを埋めるために、入力画像の拡張ビューを使用して変換に強い対応を学習する、対照的な対応ネットワークを提案します。
2) 解決のギャップに対処するために、教師と生徒の相関蒸留を採用します。これは、より簡単な HR-HR マッチングから知識を抽出して、よりあいまいな LR-HR マッチングを導きます。
3) 最後に、動的集約モジュールを設計して、入力画像と参照画像の間の潜在的なずれの問題に対処します。
さらに、現実的な設定で参照ベースの画像超解像度のパフォーマンスを忠実に評価するために、実際の使用シナリオを模倣した Webly-Referenced SR (WR-SR) データセットを提供します。
また、C2 マッチングを参照ベースのビデオ超解像度タスクに拡張します。このタスクでは、同様のシーンで撮影された画像が HR 参照画像として機能します。
広範な実験により、提案された C2-Matching が標準の CUFED5 ベンチマークで最先端技術を大幅に上回り、C2-Matching コンポーネントをビデオ SR パイプラインに組み込むことでビデオ SR のパフォーマンスも向上することが実証されました。
要約(オリジナル)
Reference-based Super-Resolution (Ref-SR) has recently emerged as a promising paradigm to enhance a low-resolution (LR) input image or video by introducing an additional high-resolution (HR) reference image. Existing Ref-SR methods mostly rely on implicit correspondence matching to borrow HR textures from reference images to compensate for the information loss in input images. However, performing local transfer is difficult because of two gaps between input and reference images: the transformation gap (e.g., scale and rotation) and the resolution gap (e.g., HR and LR). To tackle these challenges, we propose C2-Matching in this work, which performs explicit robust matching crossing transformation and resolution. 1) To bridge the transformation gap, we propose a contrastive correspondence network, which learns transformation-robust correspondences using augmented views of the input image. 2) To address the resolution gap, we adopt teacher-student correlation distillation, which distills knowledge from the easier HR-HR matching to guide the more ambiguous LR-HR matching. 3) Finally, we design a dynamic aggregation module to address the potential misalignment issue between input images and reference images. In addition, to faithfully evaluate the performance of Reference-based Image Super-Resolution under a realistic setting, we contribute the Webly-Referenced SR (WR-SR) dataset, mimicking the practical usage scenario. We also extend C2-Matching to Reference-based Video Super-Resolution task, where an image taken in a similar scene serves as the HR reference image. Extensive experiments demonstrate that our proposed C2-Matching significantly outperforms state of the arts on the standard CUFED5 benchmark and also boosts the performance of video SR by incorporating the C2-Matching component into Video SR pipelines.
arxiv情報
著者 | Yuming Jiang,Kelvin C. K. Chan,Xintao Wang,Chen Change Loy,Ziwei Liu |
発行日 | 2022-12-19 16:15:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google