XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution

要約

強力な生成事前確率を備えた拡散ベースの手法は、画像超解像度 (ISR) において最近ますます注目を集めています。
ただし、低解像度 (LR) 画像は深刻な劣化を受けることが多いため、ISR モデルがセマンティック情報と劣化情報を認識するのは困難であり、その結果、不正確なコンテンツや非現実的なアーティファクトを含む復元画像が生成されます。
これらの問題に対処するために、\textit{超解像度のためのクロスモーダル事前分布 (XPSR)} フレームワークを提案します。
XPSR 内では、拡散モデルの正確かつ包括的な意味論的条件を取得するために、最先端のマルチモーダル大規模言語モデル (MLLM) が利用されます。
クロスモーダル事前のより良い融合を促進するために、\textit{Semantic-Fusion Attendance} が提起されます。
望ましくない劣化の代わりに意味的に保存された情報を抽出するために、\textit{劣化のない制約} が LR とその高解像度 (HR) 対応物の間に付加されます。
定量的および定性的な結果は、XPSR が合成データセットと実世界のデータセットにわたって高忠実度で高リアリズムの画像を生成できることを示しています。
コードは \url{https://github.com/qyp2000/XPSR} でリリースされています。

要約(オリジナル)

Diffusion-based methods, endowed with a formidable generative prior, have received increasing attention in Image Super-Resolution (ISR) recently. However, as low-resolution (LR) images often undergo severe degradation, it is challenging for ISR models to perceive the semantic and degradation information, resulting in restoration images with incorrect content or unrealistic artifacts. To address these issues, we propose a \textit{Cross-modal Priors for Super-Resolution (XPSR)} framework. Within XPSR, to acquire precise and comprehensive semantic conditions for the diffusion model, cutting-edge Multimodal Large Language Models (MLLMs) are utilized. To facilitate better fusion of cross-modal priors, a \textit{Semantic-Fusion Attention} is raised. To distill semantic-preserved information instead of undesired degradations, a \textit{Degradation-Free Constraint} is attached between LR and its high-resolution (HR) counterpart. Quantitative and qualitative results show that XPSR is capable of generating high-fidelity and high-realism images across synthetic and real-world datasets. Codes are released at \url{https://github.com/qyp2000/XPSR}.

arxiv情報

著者 Yunpeng Qu,Kun Yuan,Kai Zhao,Qizhi Xie,Jinhua Hao,Ming Sun,Chao Zhou
発行日 2024-07-19 16:31:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク