CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation

要約

グレースケールデータと深度データを道路検査ロボットに統合すると、道路状況評価の精度、信頼性、包括性が向上し、メンテナンス戦略の改善とより安全なインフラストラクチャにつながる可能性があります。
ただし、これらのデータ ソースは、舗装からの重大なバックグラウンド ノイズによって損なわれることがよくあります。
拡散確率モデル (DPM) の最近の進歩は、SegDiff \cite{amit2021segdiff} などの研究で証明されているように、画像セグメンテーション タスクで目覚ましい成功を収め、強力なノイズ除去機能を示しています。
これらの進歩にもかかわらず、現在の DPM ベースのセグメンタは元の画像データの可能性を十分に活用していません。
この論文では、グレースケール画像と距離/深さ画像を独自に融合する、CrackSegDiff と呼ばれる亀裂セグメンテーションのための新しい DPM ベースのアプローチを提案します。
この方法は、DPM によるローカル特徴抽出とグローバル特徴抽出の間の相互作用を強化することにより、逆拡散プロセスを強化します。
グローバル機能に Transformer を利用する従来の方法とは異なり、私たちのアプローチでは Vm-unet \cite{ruan2024vm} を採用して、元のデータの長距離情報を効率的にキャプチャします。
機能の統合は、Channel Fusion Module (CFM) と Shallow Feature Compensation Module (SFCM) という 2 つの革新的なモジュールを通じてさらに洗練されています。
FIND データセット内の 3 クラスの亀裂画像セグメンテーション タスクに関する実験的評価では、CrackSegDiff が最先端の方法よりも優れた性能を発揮し、特に浅い亀裂の検出に優れていることが実証されました。
コードは https://github.com/sky-visionX/CrackSegDiff で入手できます。

要約(オリジナル)

Integrating grayscale and depth data in road inspection robots could enhance the accuracy, reliability, and comprehensiveness of road condition assessments, leading to improved maintenance strategies and safer infrastructure. However, these data sources are often compromised by significant background noise from the pavement. Recent advancements in Diffusion Probabilistic Models (DPM) have demonstrated remarkable success in image segmentation tasks, showcasing potent denoising capabilities, as evidenced in studies like SegDiff \cite{amit2021segdiff}. Despite these advancements, current DPM-based segmentors do not fully capitalize on the potential of original image data. In this paper, we propose a novel DPM-based approach for crack segmentation, named CrackSegDiff, which uniquely fuses grayscale and range/depth images. This method enhances the reverse diffusion process by intensifying the interaction between local feature extraction via DPM and global feature extraction. Unlike traditional methods that utilize Transformers for global features, our approach employs Vm-unet \cite{ruan2024vm} to efficiently capture long-range information of the original data. The integration of features is further refined through two innovative modules: the Channel Fusion Module (CFM) and the Shallow Feature Compensation Module (SFCM). Our experimental evaluation on the three-class crack image segmentation tasks within the FIND dataset demonstrates that CrackSegDiff outperforms state-of-the-art methods, particularly excelling in the detection of shallow cracks. Code is available at https://github.com/sky-visionX/CrackSegDiff.

arxiv情報

著者 Xiaoyan Jiang,Licheng Jiang,Anjie Wang,Kaiying Zhu,Yongbin Gao
発行日 2024-10-10 16:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク