Multi-task Image Restoration Guided By Robust DINO Features

要約

マルチタスクの画像復元は、シングルタスクの対応物と比較して、その固有の多用途性と効率性により、大きな関心を集めています。
ただし、タスクの数が増加するとパフォーマンスの低下が観察されます。これは主に、異なる性質を持つさまざまなタスクを同時に処理するという復元モデルの課題に起因します。
したがって、さまざまな劣化タスク間の劣化に影響されない意味論的な共通性を調査することを目的とした視点が現れました。
このペーパーでは、DINOv2 の機能がセマンティック情報を効果的にモデル化でき、劣化要因に依存しないことを観察しました。
この観察を動機として、DINOv2 から抽出された堅牢な特徴を利用してマルチタスク画像復元を同時に解決するマルチタスク画像復元アプローチである \mbox{\textbf{DINO-IR}} を提案します。
まず、ピクセルレベルの情報を含むDINOV2の浅い特徴と、劣化に依存しない意味情報を含む深い特徴を動的に融合するピクセルセマンティック融合(PSF)モジュールを提案します。
DINOv2 の機能を使用して修復モデルをガイドするために、PSF からの融合された特徴のチャネルを調整し、修復モデルの特徴と統合するための DINO-Restore 適応および融合モジュールを開発します。
これらのモジュールを統合された深層モデルに定式化することにより、モデルのトレーニングを制約する DINO 知覚対比損失を提案します。
広範な実験結果により、当社の DINO-IR は、さまざまなタスクにおいて既存のマルチタスク画像復元アプローチに対して大幅に有利に機能することが実証されています。
ソースコードとトレーニング済みモデルが利用可能になります。

要約(オリジナル)

Multi-task image restoration has gained significant interest due to its inherent versatility and efficiency compared to its single-task counterpart. However, performance decline is observed with an increase in the number of tasks, primarily attributed to the restoration model’s challenge in handling different tasks with distinct natures at the same time. Thus, a perspective emerged aiming to explore the degradation-insensitive semantic commonalities among different degradation tasks. In this paper, we observe that the features of DINOv2 can effectively model semantic information and are independent of degradation factors. Motivated by this observation, we propose \mbox{\textbf{DINO-IR}}, a multi-task image restoration approach leveraging robust features extracted from DINOv2 to solve multi-task image restoration simultaneously. We first propose a pixel-semantic fusion (PSF) module to dynamically fuse DINOV2’s shallow features containing pixel-level information and deep features containing degradation-independent semantic information. To guide the restoration model with the features of DINOv2, we develop a DINO-Restore adaption and fusion module to adjust the channel of fused features from PSF and then integrate them with the features from the restoration model. By formulating these modules into a unified deep model, we propose a DINO perception contrastive loss to constrain the model training. Extensive experimental results demonstrate that our DINO-IR performs favorably against existing multi-task image restoration approaches in various tasks by a large margin. The source codes and trained models will be made available.

arxiv情報

著者 Xin Lin,Jingtong Yue,Kelvin C. K. Chan,Lu Qi,Chao Ren,Jinshan Pan,Ming-Hsuan Yang
発行日 2024-08-16 14:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク