Learning from History: Task-agnostic Model Contrastive Learning for Image Restoration

要約

対比学習は、高レベルの視覚タスクの一般的なパラダイムとして出現しました。適切なネガティブ サンプルを導入することで、低レベルの視覚タスクにも利用され、その不適切な性質を考慮したコンパクトな最適化空間を実現しています。
ただし、既存の方法は手動で事前定義されたタスク指向のネガに依存しており、タスク固有の顕著なバイアスが現れることがよくあります。
この課題に対処するために、私たちの論文では、ターゲット モデル自体からネガティブ サンプルを動的に生成する、「履歴からの学習」と呼ばれる革新的な方法を紹介します。
画像復元のためのモデル対照学習 (MCLIR) と名付けられた私たちのアプローチは、待ち時間モデルをネガティブ モデルとして若返らせ、さまざまな画像復元タスクと互換性を持たせます。
それを可能にするための自己事前誘導ネガティブ損失(SPN)を提案します。
このアプローチは、提案されたモデルの対照パラダイムで再トレーニングすると、既存のモデルを大幅に強化します。
結果は、さまざまなタスクやアーキテクチャにわたって画像復元が大幅に改善されたことを示しています。
たとえば、SPN で再トレーニングされたモデルは、画像のかすみ除去に関して、RESIDE 屋内データセットで元の FFANet および DehazeFormer よりも 3.41 dB および 0.57 dB 優れています。
同様に、画像ディレインに関しては IDT を介した SPA-Data で 0.47 dB、軽量 SwinIR に対して 4 倍スケールの超解像度に関してはマンガ 109 で 0.12 dB という顕著な改善をそれぞれ達成しています。
コードと再トレーニングされたモデルは https://github.com/Aitical/MCLIR で入手できます。

要約(オリジナル)

Contrastive learning has emerged as a prevailing paradigm for high-level vision tasks, which, by introducing properly negative samples, has also been exploited for low-level vision tasks to achieve a compact optimization space to account for their ill-posed nature. However, existing methods rely on manually predefined and task-oriented negatives, which often exhibit pronounced task-specific biases. To address this challenge, our paper introduces an innovative method termed ‘learning from history’, which dynamically generates negative samples from the target model itself. Our approach, named Model Contrastive Learning for Image Restoration (MCLIR), rejuvenates latency models as negative models, making it compatible with diverse image restoration tasks. We propose the Self-Prior guided Negative loss (SPN) to enable it. This approach significantly enhances existing models when retrained with the proposed model contrastive paradigm. The results show significant improvements in image restoration across various tasks and architectures. For example, models retrained with SPN outperform the original FFANet and DehazeFormer by 3.41 dB and 0.57 dB on the RESIDE indoor dataset for image dehazing. Similarly, they achieve notable improvements of 0.47 dB on SPA-Data over IDT for image deraining and 0.12 dB on Manga109 for a 4x scale super-resolution over lightweight SwinIR, respectively. Code and retrained models are available at https://github.com/Aitical/MCLIR.

arxiv情報

著者 Gang Wu,Junjun Jiang,Kui Jiang,Xianming Liu
発行日 2024-01-25 15:35:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク