CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation

要約

自動かつ正確な医用画像セグメンテーション (MIS) は、臨床診断と分析にとって非常に重要です。
現在の MIS 手法は、主に畳み込みニューラル ネットワーク (CNN) またはセルフ アテンション メカニズム (Transformer) に基づいて特徴モデリングを行っています。
ただし、CNN ベースの方法では、グローバルな依存関係が限られているため、位置特定が不正確になるという問題があります。一方、Transformer ベースの方法では、ローカル強調が欠如しているため、常に粗い境界が表示されます。
一部の CNN と Transformer のハイブリッド手法は、パフォーマンスを向上させるために相補的なローカル情報とグローバル情報を合成するように設計されていますが、CNN と Transformer を組み合わせると多数のパラメーターが導入され、計算コストが増加します。
この目的を達成するために、この論文では、MIS タスクのためのより強力な CNN ベースと Transformer ベースのモデルを、それらの間の双方向の知識伝達を介して学習するための CNN-Transformer 修正協調学習 (CTRCL) フレームワークを提案します。
具体的には、ロジット空間で正確な知識を伝達するために、生徒のソフトラベルの間違った領域を適応的に選択して修正するグラウンドトゥルースを導入する修正ロジットワイズ協調学習(RLCL)戦略を提案します。
また、中間特徴にカテゴリ認識の同様の機能を与えることで、特徴空間内の CNN ベースのモデルと Transformer ベースのモデルの間で効果的な知識伝達を実現する、クラス認識特徴ごとの協調学習 (CFCL) 戦略も提案します。
3 つの一般的な MIS ベンチマークに関する広範な実験により、当社の CTRCL が、さまざまな評価基準の下でほとんどの最先端の協調学習方法よりも優れていることが実証されました。

要約(オリジナル)

Automatic and precise medical image segmentation (MIS) is of vital importance for clinical diagnosis and analysis. Current MIS methods mainly rely on the convolutional neural network (CNN) or self-attention mechanism (Transformer) for feature modeling. However, CNN-based methods suffer from the inaccurate localization owing to the limited global dependency while Transformer-based methods always present the coarse boundary for the lack of local emphasis. Although some CNN-Transformer hybrid methods are designed to synthesize the complementary local and global information for better performance, the combination of CNN and Transformer introduces numerous parameters and increases the computation cost. To this end, this paper proposes a CNN-Transformer rectified collaborative learning (CTRCL) framework to learn stronger CNN-based and Transformer-based models for MIS tasks via the bi-directional knowledge transfer between them. Specifically, we propose a rectified logit-wise collaborative learning (RLCL) strategy which introduces the ground truth to adaptively select and rectify the wrong regions in student soft labels for accurate knowledge transfer in the logit space. We also propose a class-aware feature-wise collaborative learning (CFCL) strategy to achieve effective knowledge transfer between CNN-based and Transformer-based models in the feature space by granting their intermediate features the similar capability of category perception. Extensive experiments on three popular MIS benchmarks demonstrate that our CTRCL outperforms most state-of-the-art collaborative learning methods under different evaluation metrics.

arxiv情報

著者 Lanhu Wu,Miao Zhang,Yongri Piao,Zhenyan Yao,Weibing Sun,Feng Tian,Huchuan Lu
発行日 2024-08-27 16:11:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク