要約
我々は、タスクに合わせてカスタマイズされた拡散事前分布を備えた革新的な汎用圧縮画像復元 (CIR) 手法である MoE-DiffIR を紹介します。
これは、既存の CIR 方式の 2 つの極めて重要な課題に対処することを目的としています。(i) 異なる画像コーデック (JPEG や WebP など) に対する適応性と汎用性が欠けている。
(ii) 特に低ビットレートでのテクスチャ生成能力が低い。
具体的には、当社の MoE-DiffIR は、強力な専門家混合 (MoE) プロンプト モジュールを開発します。このモジュールでは、いくつかの基本的なプロンプトが連携して、各圧縮タスクの安定拡散 (SD) からタスクにカスタマイズされた拡散事前分布を発掘します。
さらに、基本的なプロンプトの柔軟な割り当てを可能にする、劣化を認識したルーティング メカニズムが提案されています。
SD に先立ってクロスモダリティ生成を有効にして再利用するために、MoE-DiffIR 用のビジュアルからテキストへのアダプターを設計します。これは、視覚領域からテキスト領域への低品質画像の埋め込みをテキストガイダンスとして適応させることを目的としています。
SD の場合、より一貫性のある合理的なテクスチャ生成が可能になります。
また、ユニバーサル CIR 用の 1 つの包括的なベンチマーク データセットを構築し、7 つの一般的な従来型および学習済みコーデックからの 21 種類の劣化をカバーします。
ユニバーサル CIR に関する広範な実験により、私たちが提案した MoE-DiffIR の優れた堅牢性とテクスチャ復元能力が実証されました。
プロジェクトは https://renyulin-f.github.io/MoE-DiffIR.github.io/ にあります。
要約(オリジナル)
We present MoE-DiffIR, an innovative universal compressed image restoration (CIR) method with task-customized diffusion priors. This intends to handle two pivotal challenges in the existing CIR methods: (i) lacking adaptability and universality for different image codecs, e.g., JPEG and WebP; (ii) poor texture generation capability, particularly at low bitrates. Specifically, our MoE-DiffIR develops the powerful mixture-of-experts (MoE) prompt module, where some basic prompts cooperate to excavate the task-customized diffusion priors from Stable Diffusion (SD) for each compression task. Moreover, the degradation-aware routing mechanism is proposed to enable the flexible assignment of basic prompts. To activate and reuse the cross-modality generation prior of SD, we design the visual-to-text adapter for MoE-DiffIR, which aims to adapt the embedding of low-quality images from the visual domain to the textual domain as the textual guidance for SD, enabling more consistent and reasonable texture generation. We also construct one comprehensive benchmark dataset for universal CIR, covering 21 types of degradations from 7 popular traditional and learned codecs. Extensive experiments on universal CIR have demonstrated the excellent robustness and texture restoration capability of our proposed MoE-DiffIR. The project can be found at https://renyulin-f.github.io/MoE-DiffIR.github.io/.
arxiv情報
著者 | Yulin Ren,Xin Li,Bingchen Li,Xingrui Wang,Mengxi Guo,Shijie Zhao,Li Zhang,Zhibo Chen |
発行日 | 2024-07-15 15:43:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google