Adaptive Multi-modal Fusion of Spatially Variant Kernel Refinement with Diffusion Model for Blind Image Super-Resolution

要約

画像生成に利用される事前トレーニング済みの拡散モデルには、複雑なテクスチャに関するアプリオリな知識の実質的な貯蔵庫がカプセル化されています。
画像の超解像度のコンテキストでこのアプリオリな知識を活用する可能性を活用することは、魅力的な手段となります。
それにもかかわらず、普及している拡散ベースの方法論は現在、拡散プロセスに対する劣化情報によって課せられる制約を見落としています。
さらに、これらの方法では、モーション ジッターやオープン環境のシナリオにおける焦点が合っていない要素などの要因に起因する、推定されたブラー カーネルに固有の空間変動を考慮できません。
この見落としにより、画像の超解像効果が基本的な現実から著しく逸脱する結果になります。
これらの懸念に対処するために、ブラインド画像 \textbf{S}uper-\textbf{R}esolution (SSR) 用の拡散モデルを使用した \textbf{S} 空間バリアント カーネル改良の適応型マルチモーダル フュージョンとして知られるフレームワークを導入します。
SSR フレームワーク内で、Spatially Variant Kernel Refinement (SVKR) モジュールを提案します。
SVKR は、深度情報を考慮し、空間的に変化する深度情報カーネルを推定します。
さらに、SVKR は LR 画像から取得した深度情報の精度を向上させ、深度マップとブラー カーネル推定間の相互強化を可能にします。
最後に、低解像度画像、深度マップ、ブラー カーネルの 3 つのモダリティからの情報を調整するためのアダプティブ マルチモーダル フュージョン (AMF) モジュールを紹介します。
この調整により、より本物の SR 結果を生成するように拡散モデルを制約できます。

要約(オリジナル)

Pre-trained diffusion models utilized for image generation encapsulate a substantial reservoir of a priori knowledge pertaining to intricate textures. Harnessing the potential of leveraging this a priori knowledge in the context of image super-resolution presents a compelling avenue. Nonetheless, prevailing diffusion-based methodologies presently overlook the constraints imposed by degradation information on the diffusion process. Furthermore, these methods fail to consider the spatial variability inherent in the estimated blur kernel, stemming from factors such as motion jitter and out-of-focus elements in open-environment scenarios. This oversight results in a notable deviation of the image super-resolution effect from fundamental realities. To address these concerns, we introduce a framework known as Adaptive Multi-modal Fusion of \textbf{S}patially Variant Kernel Refinement with Diffusion Model for Blind Image \textbf{S}uper-\textbf{R}esolution (SSR). Within the SSR framework, we propose a Spatially Variant Kernel Refinement (SVKR) module. SVKR estimates a Depth-Informed Kernel, which takes the depth information into account and is spatially variant. Additionally, SVKR enhance the accuracy of depth information acquired from LR images, allowing for mutual enhancement between the depth map and blur kernel estimates. Finally, we introduce the Adaptive Multi-Modal Fusion (AMF) module to align the information from three modalities: low-resolution images, depth maps, and blur kernels. This alignment can constrain the diffusion model to generate more authentic SR results.

arxiv情報

著者 Junxiong Lin,Yan Wang,Zeng Tao,Boyang Wang,Qing Zhao,Haorang Wang,Xuan Tong,Xinji Mai,Yuxuan Lin,Wei Song,Jiawen Yu,Shaoqi Yan,Wenqiang Zhang
発行日 2024-07-09 15:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク