Controlling Vision-Language Models for Multi-Task Image Restoration

要約

CLIP などのビジョン言語モデルは、ゼロショットまたはラベルフリー予測のさまざまな下流タスクに大きな影響を与えています。
ただし、画像復元などの低レベルのビジョンに関しては、入力の破損によりパフォーマンスが大幅に低下します。
この論文では、画像復元のためのマルチタスク フレームワークとして、事前トレーニングされた視覚言語モデルを低レベルの視覚タスクに適切に転送するための、劣化を考慮した視覚言語モデル (DA-CLIP) を紹介します。
より具体的には、DA-CLIP は、高品質の特徴埋め込みを予測するために固定 CLIP 画像エンコーダーを適応させる追加のコントローラーをトレーニングします。
クロスアテンションを介して埋め込みを画像復元ネットワークに統合することで、モデルを試行して高忠実度の画像再構成を学習することができます。
コントローラー自体も、入力の実際の破損に一致する劣化特徴を出力し、さまざまな劣化タイプに対する自然な分類子を生成します。
さらに、DA-CLIP トレーニング用に合成キャプションを含む混合劣化データセットを構築します。
私たちのアプローチは、\emph{劣化固有} タスクと \emph{統合された} 画像復元タスクの両方で最先端のパフォーマンスを向上させ、大規模な事前学習済み視覚言語モデルを使用して画像復元を促す有望な方向性を示しています。
私たちのコードは https://github.com/Algolzw/daclip-uir で入手できます。

要約(オリジナル)

Vision-language models such as CLIP have shown great impact on diverse downstream tasks for zero-shot or label-free predictions. However, when it comes to low-level vision such as image restoration their performance deteriorates dramatically due to corrupted inputs. In this paper, we present a degradation-aware vision-language model (DA-CLIP) to better transfer pretrained vision-language models to low-level vision tasks as a multi-task framework for image restoration. More specifically, DA-CLIP trains an additional controller that adapts the fixed CLIP image encoder to predict high-quality feature embeddings. By integrating the embedding into an image restoration network via cross-attention, we are able to pilot the model to learn a high-fidelity image reconstruction. The controller itself will also output a degradation feature that matches the real corruptions of the input, yielding a natural classifier for different degradation types. In addition, we construct a mixed degradation dataset with synthetic captions for DA-CLIP training. Our approach advances state-of-the-art performance on both \emph{degradation-specific} and \emph{unified} image restoration tasks, showing a promising direction of prompting image restoration with large-scale pretrained vision-language models. Our code is available at https://github.com/Algolzw/daclip-uir.

arxiv情報

著者 Ziwei Luo,Fredrik K. Gustafsson,Zheng Zhao,Jens Sjölund,Thomas B. Schön
発行日 2024-02-28 14:28:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク