要約
医療画像セグメンテーションの現在の方法は、主に画像全体の観点からコンテキスト機能情報を抽出することに焦点を当てています。
これらの方法は効果的なパフォーマンスを示していますが、クラスのピクセル数が少ない境界と領域のピクセルのピクセルは、他のクラスからより多くのコンテキスト機能情報をキャプチャし、不平等なコンテキスト機能情報によるピクセルの誤分類につながるという事実を考慮していません。
このホワイトペーパーでは、画像レベルの均等化機能情報とクラスレベルのイコライゼーション機能情報によってピクセル機能表現を増強することを目的とした、SWINトランスと畳み込みニューラルネットワークのハイブリッドアーキテクチャに基づいたデュアルフィーチャーイコライゼーションネットワークを提案します。
まず、画像レベルの特徴イコライゼーションモジュールは、画像内のピクセルのコンテキスト情報を均等化するように設計されています。
第二に、同じクラスの領域を集約して、クラスレベルの特徴イコライゼーションモジュールごとに対応するクラスのピクセル特徴表現を均等にします。
最後に、画像レベルのイコライゼーション機能情報とクラスレベルのイコライゼーション機能情報を学習することにより、ピクセル機能表現が強化されます。
さらに、SWINトランスはエンコーダーとデコーダーの両方として利用されているため、モデルが長距離依存関係と空間相関をキャプチャする能力を強化します。
乳房超音波画像(BUSI)、国際的なスキンイメージングコラボレーション(ISIC2017)、自動心臓診断チャレンジ(ACDC)、およびpH $^2 $データセットに関する広範な実験を実施しました。
実験結果は、私たちの方法が最先端のパフォーマンスを達成したことを示しています。
私たちのコードは、https://github.com/jianjianyin/dfenで公開されています。
要約(オリジナル)
Current methods for medical image segmentation primarily focus on extracting contextual feature information from the perspective of the whole image. While these methods have shown effective performance, none of them take into account the fact that pixels at the boundary and regions with a low number of class pixels capture more contextual feature information from other classes, leading to misclassification of pixels by unequal contextual feature information. In this paper, we propose a dual feature equalization network based on the hybrid architecture of Swin Transformer and Convolutional Neural Network, aiming to augment the pixel feature representations by image-level equalization feature information and class-level equalization feature information. Firstly, the image-level feature equalization module is designed to equalize the contextual information of pixels within the image. Secondly, we aggregate regions of the same class to equalize the pixel feature representations of the corresponding class by class-level feature equalization module. Finally, the pixel feature representations are enhanced by learning weights for image-level equalization feature information and class-level equalization feature information. In addition, Swin Transformer is utilized as both the encoder and decoder, thereby bolstering the ability of the model to capture long-range dependencies and spatial correlations. We conducted extensive experiments on Breast Ultrasound Images (BUSI), International Skin Imaging Collaboration (ISIC2017), Automated Cardiac Diagnosis Challenge (ACDC) and PH$^2$ datasets. The experimental results demonstrate that our method have achieved state-of-the-art performance. Our code is publicly available at https://github.com/JianJianYin/DFEN.
arxiv情報
著者 | Jianjian Yin,Yi Chen,Chengyu Li,Zhichao Zheng,Yanhui Gu,Junsheng Zhou |
発行日 | 2025-05-09 09:38:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google