Accelerating Diffusion for SAR-to-Optical Image Translation via Adversarial Consistency Distillation

要約

合成開口レーダー (SAR) は全天候型の高解像度イメージング機能を提供しますが、その独自のイメージング メカニズムは専門家の解釈を必要とすることが多く、その広範な適用性は制限されています。
拡散モデルを使用して SAR 画像をより認識しやすい光学画像に変換することは、この課題に対処するのに役立ちます。
ただし、拡散モデルは多数の反復推論による高い遅延に悩まされますが、敵対的生成ネットワーク (GAN) は 1 回の反復で画像変換を達成できますが、多くの場合画質が犠牲になります。
これらの問題を克服するために、両方のアプローチの長所を組み合わせた、SAR から光学画像への変換のための新しいトレーニング フレームワークを提案します。
私たちの方法では、一貫性蒸留を採用して反復推論ステップを削減し、敵対的学習を統合して画像の鮮明さを確保し、色の変化を最小限に抑えます。
さらに、当社のアプローチは品質と速度の間のトレードオフを可能にし、アプリケーション要件に基づいた柔軟性を提供します。
SEN12 および GF3 データセットで実験を行い、ピーク信号対雑音比 (PSNR)、構造類似性指数 (SSIM)、およびフレシェ開始距離 (FID) を使用した定量的評価を実行し、推論レイテンシーを計算しました。
結果は、私たちのアプローチが、生成された画像の視覚的品質を維持しながら推論速度を 131 倍大幅に向上させ、SAR から光学画像への変換のための堅牢で効率的なソリューションを提供することを示しています。

要約(オリジナル)

Synthetic Aperture Radar (SAR) provides all-weather, high-resolution imaging capabilities, but its unique imaging mechanism often requires expert interpretation, limiting its widespread applicability. Translating SAR images into more easily recognizable optical images using diffusion models helps address this challenge. However, diffusion models suffer from high latency due to numerous iterative inferences, while Generative Adversarial Networks (GANs) can achieve image translation with just a single iteration but often at the cost of image quality. To overcome these issues, we propose a new training framework for SAR-to-optical image translation that combines the strengths of both approaches. Our method employs consistency distillation to reduce iterative inference steps and integrates adversarial learning to ensure image clarity and minimize color shifts. Additionally, our approach allows for a trade-off between quality and speed, providing flexibility based on application requirements. We conducted experiments on SEN12 and GF3 datasets, performing quantitative evaluations using Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM), and Frechet Inception Distance (FID), as well as calculating the inference latency. The results demonstrate that our approach significantly improves inference speed by 131 times while maintaining the visual quality of the generated images, thus offering a robust and efficient solution for SAR-to-optical image translation.

arxiv情報

著者 Xinyu Bai,Feng Xu
発行日 2024-07-08 16:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク