要約
クロスドメイン画像変換の進歩にも関わらず、SAR から光学への変換やスケッチからインスタンスへの変換など、詳細度の低いドメインからより豊富なコンテンツを含むデータへのデータ変換を伴う非対称タスクには課題が残っています。
従来の CNN ベースの手法は、細部のキャプチャには効果的ですが、全体的な構造に問題があり、画像領域の望ましくない結合につながります。
これに対処するために、CNN-Swin ハイブリッド ネットワーク (CSHNet) を提案します。これは、Swin Embedded CNN (SEC) と CNN Embedded Swin (CES) の 2 つの主要モジュールを組み合わせて、SEC-CES-Bottleneck (SCB) を形成します。
SEC は、Swin Transformer の構造バイアスを統合しながら、CNN の詳細な特徴抽出を活用します。
CES は、Swin Transformer のグローバルな完全性を維持し、CNN の構造重視の欠如を補います。
さらに、CSHNet には、クロスドメインの情報保持を強化するために設計された 2 つのコンポーネントが含まれています。それは、SEC と CES 間の動的な情報交換を可能にする Interactive Guided Connection (IGC) と、変換中に構造境界を維持する Adaptive Edge Perception Loss (AEPL) です。
実験結果は、CSHNet がシーン レベルとインスタンス レベルのデータセット全体で、視覚的な品質とパフォーマンスの両方の指標において既存の方法よりも優れていることを示しています。
私たちのコードは https://github.com/XduShi/CSHNet で入手できます。
要約(オリジナル)
Despite advancements in cross-domain image translation, challenges persist in asymmetric tasks such as SAR-to-Optical and Sketch-to-Instance conversions, which involve transforming data from a less detailed domain into one with richer content. Traditional CNN-based methods are effective at capturing fine details but struggle with global structure, leading to unwanted merging of image regions. To address this, we propose the CNN-Swin Hybrid Network (CSHNet), which combines two key modules: Swin Embedded CNN (SEC) and CNN Embedded Swin (CES), forming the SEC-CES-Bottleneck (SCB). SEC leverages CNN’s detailed feature extraction while integrating the Swin Transformer’s structural bias. CES, in turn, preserves the Swin Transformer’s global integrity, compensating for CNN’s lack of focus on structure. Additionally, CSHNet includes two components designed to enhance cross-domain information retention: the Interactive Guided Connection (IGC), which enables dynamic information exchange between SEC and CES, and Adaptive Edge Perception Loss (AEPL), which maintains structural boundaries during translation. Experimental results show that CSHNet outperforms existing methods in both visual quality and performance metrics across scene-level and instance-level datasets. Our code is available at: https://github.com/XduShi/CSHNet.
arxiv情報
著者 | Xi Yang,Haoyuan Shi,Zihan Wang,Nannan Wang,Xinbo Gao |
発行日 | 2025-01-17 13:44:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google