Complex Wavelet Mutual Information Loss: A Multi-Scale Loss Function for Semantic Segmentation

要約

深いニューラルネットワークの最近の進歩により、セマンティックセグメンテーションのパフォーマンスが大幅に向上しました。
ただし、クラスの不均衡とインスタンスの不均衡は、より小さなインスタンスと薄い境界がより大きな構造によって隠されていることが多い持続的な課題のままです。
セグメント化されたオブジェクトのマルチスケールの性質に対処するために、さまざまなモデルには、空間的注意や特徴のピラミッドネットワークなどのメカニズムが組み込まれています。
これらの進歩にもかかわらず、ほとんどの損失関数は依然として主にピクセルごとにありますが、地域および境界に焦点を当てた損失関数は、しばしば高い計算コストが発生するか、小規模地域に制限されています。
この制限に対処するために、複雑なウェーブレット相互情報(CWMI)損失を提案します。これは、複雑な操縦可能なピラミッドによって分解されたサブバンド画像から相互情報を活用する新しい損失関数です。
複雑な操縦可能なピラミッドは、複数の方向にわたって機能をキャプチャし、スケール間で構造的な類似性を保持します。
一方、相互情報は、高次元の方向性の特徴をキャプチャするのに適しており、より大きなノイズの堅牢性を提供します。
多様なセグメンテーションデータセットでの広範な実験は、CWMIの損失が最新の方法と比較してピクセルごとの精度とトポロジーメトリックの両方で大幅な改善を達成し、最小限の計算オーバーヘッドを導入することを示しています。
私たちのコードは、https://github.com/lurenhaothu/cwmiで入手できます

要約(オリジナル)

Recent advancements in deep neural networks have significantly enhanced the performance of semantic segmentation. However, class imbalance and instance imbalance remain persistent challenges, where smaller instances and thin boundaries are often overshadowed by larger structures. To address the multiscale nature of segmented objects, various models have incorporated mechanisms such as spatial attention and feature pyramid networks. Despite these advancements, most loss functions are still primarily pixel-wise, while regional and boundary-focused loss functions often incur high computational costs or are restricted to small-scale regions. To address this limitation, we propose the complex wavelet mutual information (CWMI) loss, a novel loss function that leverages mutual information from subband images decomposed by a complex steerable pyramid. The complex steerable pyramid captures features across multiple orientations and preserves structural similarity across scales. Meanwhile, mutual information is well-suited to capturing high-dimensional directional features and offers greater noise robustness. Extensive experiments on diverse segmentation datasets demonstrate that CWMI loss achieves significant improvements in both pixel-wise accuracy and topological metrics compared to state-of-the-art methods, while introducing minimal computational overhead. Our code is available at https://github.com/lurenhaothu/CWMI

arxiv情報

著者 Renhao Lu
発行日 2025-05-28 16:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, eess.IV パーマリンク