UniProcessor: A Text-induced Unified Low-level Image Processor

要約

画像復元、画像強調などの画像処理には、劣化した入力から高品質できれいな画像を生成することが含まれます。
深層学習ベースの手法は、単一タスク条件の観点から、さまざまな画像処理タスクに対して優れたパフォーマンスを示しています。
ただし、さまざまな劣化やレベルに応じて個別のモデルをトレーニングする必要があるため、これらのモデルの汎化能力が制限され、現実世界での応用が制限されます。
この論文では、UniProcessor と呼ばれる、低レベル視覚タスク用のテキスト誘導統合画像プロセッサを提案します。これは、さまざまな劣化の種類とレベルを効果的に処理し、マルチモーダル制御をサポートできます。
具体的には、UniProcessor は、サブジェクト プロンプトで劣化固有の情報をエンコードし、操作プロンプトで劣化を処理します。
これらのコンテキスト制御機能は、処理手順を制御するために、クロスアテンションを介して UniProcessor バックボーンに挿入されます。
自動主題プロンプト生成のために、命令調整技術を介して、汎用の低レベル劣化知覚のための視覚言語モデルをさらに構築します。
当社の UniProcessor は 30 の劣化タイプをカバーしており、広範な実験により、当社の UniProcessor が追加のトレーニングや調整なしでこれらの劣化を適切に処理でき、他の競合手法よりも優れたパフォーマンスを発揮することが実証されています。
さらに、劣化を認識したコンテキスト制御の助けを借りて、当社の UniProcessor は、複数の劣化のある画像内の単一の歪みを個別に処理する機能を初めて示しました。

要約(オリジナル)

Image processing, including image restoration, image enhancement, etc., involves generating a high-quality clean image from a degraded input. Deep learning-based methods have shown superior performance for various image processing tasks in terms of single-task conditions. However, they require to train separate models for different degradations and levels, which limits the generalization abilities of these models and restricts their applications in real-world. In this paper, we propose a text-induced unified image processor for low-level vision tasks, termed UniProcessor, which can effectively process various degradation types and levels, and support multimodal control. Specifically, our UniProcessor encodes degradation-specific information with the subject prompt and process degradations with the manipulation prompt. These context control features are injected into the UniProcessor backbone via cross-attention to control the processing procedure. For automatic subject-prompt generation, we further build a vision-language model for general-purpose low-level degradation perception via instruction tuning techniques. Our UniProcessor covers 30 degradation types, and extensive experiments demonstrate that our UniProcessor can well process these degradations without additional training or tuning and outperforms other competing methods. Moreover, with the help of degradation-aware context control, our UniProcessor first shows the ability to individually handle a single distortion in an image with multiple degradations.

arxiv情報

著者 Huiyu Duan,Xiongkuo Min,Sijing Wu,Wei Shen,Guangtao Zhai
発行日 2024-07-30 16:06:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク