FUSION: Frequency-guided Underwater Spatial Image recOnstructioN

要約

水中画像は、色の歪み、視界の低下、波長依存性の減衰と散乱による構造の詳細の喪失など、重度の劣化に苦しんでいます。
既存の強化方法は、主に空間ドメイン処理に焦点を当て、グローバルな色分布と長距離依存関係をキャプチャする周波数領域の可能性を無視します。
これらの制限に対処するために、空間および周波数ドメイン情報を共同で活用するデュアルドメインの深い学習フレームワークであるFusionを提案します。
融合は、空間ドメインのマルチスケール畳み込みカーネルと適応的注意メカニズムを介して各RGBチャネルを独立して処理し、同時にFFTベースの周波数注意を介してグローバルな構造情報を抽出します。
周波数ガイド付き融合モジュールは、両方のドメインの補完的な機能を統合し、その後、チャネル間融合と適応チャネルの再調整が続き、バランスの取れた色の分布を確保します。
ベンチマークデータセット(UIEB、EUVP、SUIM-E)に関する広範な実験は、融合が再構成の忠実度(UIEBで0.883の23.717 DBおよびSSIMの最高のPSNR)で一貫して最先端のパフォーマンスを達成し、一貫して既存の方法を上回ることを示しています。
UIEBの3.414のUIQM)、パラメーターが大幅に少ない(0.28m)と計算の複雑さが低いことが必要であり、リアルタイムの水中イメージングアプリケーションへの適合性を示しています。

要約(オリジナル)

Underwater images suffer from severe degradations, including color distortions, reduced visibility, and loss of structural details due to wavelength-dependent attenuation and scattering. Existing enhancement methods primarily focus on spatial-domain processing, neglecting the frequency domain’s potential to capture global color distributions and long-range dependencies. To address these limitations, we propose FUSION, a dual-domain deep learning framework that jointly leverages spatial and frequency domain information. FUSION independently processes each RGB channel through multi-scale convolutional kernels and adaptive attention mechanisms in the spatial domain, while simultaneously extracting global structural information via FFT-based frequency attention. A Frequency Guided Fusion module integrates complementary features from both domains, followed by inter-channel fusion and adaptive channel recalibration to ensure balanced color distributions. Extensive experiments on benchmark datasets (UIEB, EUVP, SUIM-E) demonstrate that FUSION achieves state-of-the-art performance, consistently outperforming existing methods in reconstruction fidelity (highest PSNR of 23.717 dB and SSIM of 0.883 on UIEB), perceptual quality (lowest LPIPS of 0.112 on UIEB), and visual enhancement metrics (best UIQM of 3.414 on UIEB), while requiring significantly fewer parameters (0.28M) and lower computational complexity, demonstrating its suitability for real-time underwater imaging applications.

arxiv情報

著者 Jaskaran Singh Walia,Shravan Venkatraman,Pavithra LK
発行日 2025-04-01 23:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク