要約
畳み込みネットワーク、トランス、ハイブリッドモデル、およびMambaベースのアーキテクチャは、さまざまな医療画像分類タスクで強力なパフォーマンスを実証しています。
ただし、これらの方法は、主にラベル付きデータを使用してクリーン画像を分類するように設計されています。
対照的に、実際の臨床データには、多くの場合、マルチセンター研究に固有の画像腐敗が含まれ、メーカー全体のイメージング機器のバリエーションに由来します。
このホワイトペーパーでは、一般化された医療画像分類を目指して、Kolmogorov-Arnold Network(Kan)層を初めて変圧器アーキテクチャに組み込んだ新しいアーキテクチャであるMedical Vision Transformer(MedVitv2)を紹介します。
元のMedVitの精度を高めながら、計算負荷を減らすための効率的なKanブロックを開発しました。
さらに、メドビットの脆弱性を拡大したときに、強化された拡張近隣の注意(DINA)、グローバルなコンテキストをキャプチャし、受容フィールドを拡大してモデルを効果的かつ拡大できる拡張ドットプロダクト注意カーネルの適応を提案します。
機能の崩壊の問題に対処します。
さらに、階層的なハイブリッド戦略が導入され、ローカル機能の知覚とグローバルな特徴の知覚ブロックを効率的な方法で積み重ね、ローカルおよびグローバルな特徴の知覚をバランスしてパフォーマンスを高めます。
17の医療画像分類データセットと12の破損した医療画像データセットに関する広範な実験は、MedVitv2が計算の複雑さを減らした29の実験のうち27で最先端の結果を達成したことを示しています。
MedVitv2は、以前のバージョンよりも計算上効率が高く、精度を大幅に向上させ、MedMnistで4.6 \%、非ムニストで5.8 \%、MedMnist-C Benchmarkで13.4 \%の改善を達成します。
要約(オリジナル)
Convolutional networks, transformers, hybrid models, and Mamba-based architectures have demonstrated strong performance across various medical image classification tasks. However, these methods were primarily designed to classify clean images using labeled data. In contrast, real-world clinical data often involve image corruptions that are unique to multi-center studies and stem from variations in imaging equipment across manufacturers. In this paper, we introduce the Medical Vision Transformer (MedViTV2), a novel architecture incorporating Kolmogorov-Arnold Network (KAN) layers into the transformer architecture for the first time, aiming for generalized medical image classification. We have developed an efficient KAN block to reduce computational load while enhancing the accuracy of the original MedViT. Additionally, to counteract the fragility of our MedViT when scaled up, we propose an enhanced Dilated Neighborhood Attention (DiNA), an adaptation of the efficient fused dot-product attention kernel capable of capturing global context and expanding receptive fields to scale the model effectively and addressing feature collapse issues. Moreover, a hierarchical hybrid strategy is introduced to stack our Local Feature Perception and Global Feature Perception blocks in an efficient manner, which balances local and global feature perceptions to boost performance. Extensive experiments on 17 medical image classification datasets and 12 corrupted medical image datasets demonstrate that MedViTV2 achieved state-of-the-art results in 27 out of 29 experiments with reduced computational complexity. MedViTV2 is 44\% more computationally efficient than the previous version and significantly enhances accuracy, achieving improvements of 4.6\% on MedMNIST, 5.8\% on NonMNIST, and 13.4\% on the MedMNIST-C benchmark.
arxiv情報
著者 | Omid Nejati Manzari,Hojat Asgariandehkordi,Taha Koleilat,Yiming Xiao,Hassan Rivaz |
発行日 | 2025-02-19 13:05:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google