DiffStereo: High-Frequency Aware Diffusion Model for Stereo Image Restoration


拡散モデル (DM) は、画像復元において有望なパフォーマンスを達成していますが、ステレオ画像については検討されていません。
ステレオ画像復元における DM の適用は、一連の課題に直面しています。
2 つの画像を再構成する必要があるため、DM の計算コストが増大します。
さらに、既存の潜在 DM は通常、意味情報に焦点を当て、潜在圧縮中に冗長性として高周波の詳細を削除します。これはまさに画像復元にとって重要なことです。
上記の問題に対処するために、この領域における DM の最初の試みとして、ステレオ画像復元のための高周波認識拡散モデル DiffStereo を提案します。
具体的には、DiffStereo はまず、HQ 画像の潜在高周波表現 (LHFR) を学習します。
次に、DM は学習空間でトレーニングされ、ステレオ画像の LHFR を推定します。LHFR は、対応する HQ 画像の有益な高周波情報を提供するトランスベースのステレオ画像復元ネットワークに融合されます。
LHFR の解像度は入力画像と同じに保たれるため、歪みから固有のテクスチャが維持されます。
また、チャネルの圧縮により、DM の計算負荷が軽減されます。
さらに、LHFR を復元ネットワークに統合するときに位置エンコード方式を考案し、復元ネットワークのさまざまな深さで独特のガイダンスを可能にします。
包括的な実験により、DiffStereo は、生成 DM とトランスフォーマーを組み合わせることで、最先端の方法と比較して、より高い再構成精度と、ステレオ超解像、ぼけ除去、および低照度強調におけるより高い知覚品質の両方を達成することが検証されています。


Diffusion models (DMs) have achieved promising performance in image restoration but haven’t been explored for stereo images. The application of DM in stereo image restoration is confronted with a series of challenges. The need to reconstruct two images exacerbates DM’s computational cost. Additionally, existing latent DMs usually focus on semantic information and remove high-frequency details as redundancy during latent compression, which is precisely what matters for image restoration. To address the above problems, we propose a high-frequency aware diffusion model, DiffStereo for stereo image restoration as the first attempt at DM in this domain. Specifically, DiffStereo first learns latent high-frequency representations (LHFR) of HQ images. DM is then trained in the learned space to estimate LHFR for stereo images, which are fused into a transformer-based stereo image restoration network providing beneficial high-frequency information of corresponding HQ images. The resolution of LHFR is kept the same as input images, which preserves the inherent texture from distortion. And the compression in channels alleviates the computational burden of DM. Furthermore, we devise a position encoding scheme when integrating the LHFR into the restoration network, enabling distinctive guidance in different depths of the restoration network. Comprehensive experiments verify that by combining generative DM and transformer, DiffStereo achieves both higher reconstruction accuracy and better perceptual quality on stereo super-resolution, deblurring, and low-light enhancement compared with state-of-the-art methods.


著者 Huiyun Cao,Yuan Shi,Bin Xia,Xiaoyu Jin,Wenming Yang
発行日 2025-01-17 17:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク