要約
一般化は、実世界の画像復元において長い間中心的な課題でした。
テキストから画像へのモデルから生成事前分布を利用する最近の拡散ベースの復元手法は、より現実的な詳細を復元する点で進歩していますが、配布外の実世界データに適用すると、依然として「生成機能の無効化」に遭遇します。
これに対処するために、これらのモデルの生成機能を再アクティブ化する補助的な不変式表現としてテキストを使用することを提案します。
まず、テキスト入力の 2 つの重要なプロパティである豊富さと関連性を特定し、モデルのパフォーマンスに対するそれぞれの影響を調べます。
これらの洞察に基づいて、画像コンテンツと劣化レベルに合わせて強化されたテキスト説明を生成し、応答エラーを効果的に軽減するモジュールである Res-Captioner を紹介します。
さらに、現実世界の多様なシナリオをキャプチャするために設計された新しいベンチマークである RealIR を紹介します。
広範な実験により、Res-Captioner が完全なプラグアンドプレイを維持しながら、拡散ベースの復元モデルの一般化能力を大幅に強化することが実証されました。
要約(オリジナル)
Generalization has long been a central challenge in real-world image restoration. While recent diffusion-based restoration methods, which leverage generative priors from text-to-image models, have made progress in recovering more realistic details, they still encounter ‘generative capability deactivation’ when applied to out-of-distribution real-world data. To address this, we propose using text as an auxiliary invariant representation to reactivate the generative capabilities of these models. We begin by identifying two key properties of text input: richness and relevance, and examine their respective influence on model performance. Building on these insights, we introduce Res-Captioner, a module that generates enhanced textual descriptions tailored to image content and degradation levels, effectively mitigating response failures. Additionally, we present RealIR, a new benchmark designed to capture diverse real-world scenarios. Extensive experiments demonstrate that Res-Captioner significantly enhances the generalization abilities of diffusion-based restoration models, while remaining fully plug-and-play.
arxiv情報
著者 | Haoze Sun,Wenbo Li,Jiayue Liu,Kaiwen Zhou,Yongqiang Chen,Yong Guo,Yanwei Li,Renjing Pei,Long Peng,Yujiu Yang |
発行日 | 2024-12-06 17:14:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google