要約
画像復元には優れたソリューションが数多くありますが、それらは単一の画像復元タスク専用に設計されているため、他のタイプの画像復元タスクでは最先端 (SOTA) にならない可能性があります。
一部のアプローチでは複数の画像復元タスクを考慮する必要がありますが、現実世界の要件にはまだ十分ではなく、タスクの混乱の問題が発生する可能性があります。
この作業では、水切り、除雪、曇り除去、ぼけ除去、ノイズ除去、低照度補正などの複数の画像復元タスクのための統合された効果的なソリューションの設計に焦点を当てています。
上記の目的に基づいて、U-Net アーキテクチャを備えた Transformer network Restorer を提案します。
複数の画像復元タスクで劣化した情報を効果的に処理するには、より包括的な注意メカニズムが必要です。
したがって、ステレオ埋め込みと 3D 畳み込みを通じて全軸アテンション (AAA) を設計します。これにより、空間次元とチャネル次元の両方で長距離の依存関係を同時にモデル化し、すべての軸間の潜在的な相関関係を捉えることができます。
さらに、テキストのプロンプトに基づいた Restorer を提案します。
学習可能なクエリを使用する以前の方法と比較して、テキスト プロンプトは明示的なタスクの事前情報をもたらし、学習可能なクエリから生じるタスクの混乱の問題を解決し、対話性を導入します。
これらの設計に基づいて、Restorer は、複数の画像復元タスクにおいて、これらの個々のタスク用に特別に設計された汎用画像復元フレームワークや手法と比較して、SOTA または同等のパフォーマンスを実証します。
一方、Restorer は推論中は高速です。
上記の結果と実際のテスト結果は、Restorer が複数の実世界のイメージ復元タスクのバックボーンとして機能する可能性があることを示しています。
要約(オリジナル)
Although there are many excellent solutions in image restoration, the fact that they are specifically designed for a single image restoration task may prevent them from being state-of-the-art (SOTA) in other types of image restoration tasks. While some approaches require considering multiple image restoration tasks, they are still not sufficient for the requirements of the real world and may suffer from the task confusion issue. In this work, we focus on designing a unified and effective solution for multiple image restoration tasks including deraining, desnowing, defogging, deblurring, denoising, and low-light enhancement. Based on the above purpose, we propose a Transformer network Restorer with U-Net architecture. In order to effectively deal with degraded information in multiple image restoration tasks, we need a more comprehensive attention mechanism. Thus, we design all-axis attention (AAA) through stereo embedding and 3D convolution, which can simultaneously model the long-range dependencies in both spatial and channel dimensions, capturing potential correlations among all axis. Moreover, we propose a Restorer based on textual prompts. Compared to previous methods that employ learnable queries, textual prompts bring explicit task priors to solve the task confusion issue arising from learnable queries and introduce interactivity. Based on these designs, Restorer demonstrates SOTA or comparable performance in multiple image restoration tasks compared to universal image restoration frameworks and methods specifically designed for these individual tasks. Meanwhile, Restorer is faster during inference. The above results along with the real-world test results show that Restorer has the potential to serve as a backbone for multiple real-world image restoration tasks.
arxiv情報
著者 | Jiawei Mao,Xuesong Yin,Yuanqi Chang |
発行日 | 2024-06-18 13:18:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google