HiFuse: Hierarchical Multi-Scale Feature Fusion Network for Medical Image Classification

要約

医用画像分類は、畳み込みニューラル ネットワーク (CNN) の推進力の下で急速に発展しました。
畳み込みカーネルの受容野のサイズが固定されているため、医用画像の全体的な特徴をキャプチャすることは困難です。
自己注意ベースの Transformer は長期的な依存関係をモデル化できますが、計算の複雑さが高く、局所的な誘導バイアスがありません。
多くの研究により、グローバルおよびローカルの特徴が画像分類に重要であることが実証されています。
ただし、医用画像には、ノイズが多く、散在する特徴、クラス内変動、およびクラス間の類似性が多数あります。
この論文は、新しい方法として医用画像分類のための HiFuse と呼ばれる 3 分岐の階層的マルチスケール特徴融合ネットワーク構造を提案します。
それぞれのモデリングを破壊することなく、マルチスケール階層から Transformer と CNN の利点を融合して、さまざまな医用画像の分類精度を向上させることができます。
ローカルおよびグローバル機能ブロックの並列階層は、さまざまなスケールでモデル化する柔軟性と、画像サイズに関連する線形計算の複雑さを備えた、さまざまなセマンティック スケールでローカル機能とグローバル表現を効率的に抽出するように設計されています。
さらに、適応階層的特徴融合ブロック (HFF ブロック) は、異なる階層レベルで取得された特徴を包括的に利用するように設計されています。
HFF ブロックには、空間アテンション、チャネル アテンション、残差反転 MLP、および各分岐のさまざまなスケール機能間でセマンティック情報を適応的に融合するためのショートカットが含まれています。
ISIC2018 データセットで提案されたモデルの精度は、ベースラインより 7.6% 高く、Covid-19 データセットで 21.5%、Kvasir データセットで 10.4% です。
他の上級モデルと比較して、HiFuse モデルが最高のパフォーマンスを発揮します。
私たちのコードはオープンソースであり、https://github.com/huoxiangzuo/HiFuse から入手できます。

要約(オリジナル)

Medical image classification has developed rapidly under the impetus of the convolutional neural network (CNN). Due to the fixed size of the receptive field of the convolution kernel, it is difficult to capture the global features of medical images. Although the self-attention-based Transformer can model long-range dependencies, it has high computational complexity and lacks local inductive bias. Much research has demonstrated that global and local features are crucial for image classification. However, medical images have a lot of noisy, scattered features, intra-class variation, and inter-class similarities. This paper proposes a three-branch hierarchical multi-scale feature fusion network structure termed as HiFuse for medical image classification as a new method. It can fuse the advantages of Transformer and CNN from multi-scale hierarchies without destroying the respective modeling so as to improve the classification accuracy of various medical images. A parallel hierarchy of local and global feature blocks is designed to efficiently extract local features and global representations at various semantic scales, with the flexibility to model at different scales and linear computational complexity relevant to image size. Moreover, an adaptive hierarchical feature fusion block (HFF block) is designed to utilize the features obtained at different hierarchical levels comprehensively. The HFF block contains spatial attention, channel attention, residual inverted MLP, and shortcut to adaptively fuse semantic information between various scale features of each branch. The accuracy of our proposed model on the ISIC2018 dataset is 7.6% higher than baseline, 21.5% on the Covid-19 dataset, and 10.4% on the Kvasir dataset. Compared with other advanced models, the HiFuse model performs the best. Our code is open-source and available from https://github.com/huoxiangzuo/HiFuse.

arxiv情報

著者 Xiangzuo Huo,Gang Sun,Shengwei Tian,Yan Wang,Long Yu,Jun Long,Wendong Zhang,Aolun Li
発行日 2022-09-21 09:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク