DiffIR: Efficient Diffusion Model for Image Restoration

要約

拡散モデル (DM) は、画像合成プロセスをノイズ除去ネットワークのシーケンシャル アプリケーションにモデル化することにより、SOTA パフォーマンスを達成しました。
ただし、ゼロから各ピクセルを生成する画像合成とは異なり、画像復元 (IR) のほとんどのピクセルが与えられます。
したがって、IR の場合、大規模なモデルで大規模な反復を実行して画像全体または特徴マップを推定する従来の DM は非効率的です。
この問題に対処するために、コンパクトな IR 事前抽出ネットワーク (CPEN)、動的 IR トランスフォーマー (DIRformer)、およびノイズ除去ネットワークで構成される IR 用の効率的な DM (DiffIR) を提案します。
具体的には、DiffIR には、事前トレーニングとトレーニング DM という 2 つのトレーニング ステージがあります。
事前トレーニングでは、グラウンド トゥルース イメージを CPEN$_{S1}$ に入力して、コンパクトな IR 事前表現 (IPR) をキャプチャし、DIRformer をガイドします。
第 2 段階では、DM をトレーニングして、LQ 画像のみを使用して事前トレーニング済みの CPEN$_{S1}$ と同じ IRP を直接推定します。
IPR はコンパクトなベクトルにすぎないため、DiffIR は従来の DM よりも少ない反復回数で正確な推定を取得し、より安定した現実的な結果を生成できることがわかります。
反復回数が少ないため、DiffIR は CPEN$_{S2}$、DIRformer、およびノイズ除去ネットワークの共同最適化を採用でき、推定誤差の影響をさらに減らすことができます。
いくつかの IR タスクで大規模な実験を行い、計算コストを抑えながら SOTA パフォーマンスを達成します。

要約(オリジナル)

Diffusion model (DM) has achieved SOTA performance by modeling the image synthesis process into a sequential application of a denoising network. However, different from image synthesis generating each pixel from scratch, most pixels of image restoration (IR) are given. Thus, for IR, traditional DMs running massive iterations on a large model to estimate whole images or feature maps is inefficient. To address this issue, we propose an efficient DM for IR (DiffIR), which consists of a compact IR prior extraction network (CPEN), dynamic IR transformer (DIRformer), and denoising network. Specifically, DiffIR has two training stages: pretraining and training DM. In pretraining, we input ground-truth images into CPEN$_{S1}$ to capture a compact IR prior representation (IPR) to guide DIRformer. In the second stage, we train the DM to directly estimate the same IRP as pretrained CPEN$_{S1}$ only using LQ images. We observe that since the IPR is only a compact vector, DiffIR can use fewer iterations than traditional DM to obtain accurate estimations and generate more stable and realistic results. Since the iterations are few, our DiffIR can adopt a joint optimization of CPEN$_{S2}$, DIRformer, and denoising network, which can further reduce the estimation error influence. We conduct extensive experiments on several IR tasks and achieve SOTA performance while consuming less computational costs.

arxiv情報

著者 Bin Xia,Yulun Zhang,Shiyin Wang,Yitong Wang,Xinglong Wu,Yapeng Tian,Wenming Yang,Luc Van Gool
発行日 2023-03-16 16:47:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク