要約
多くの医療イメージングタスクでは、畳み込みニューラルネットワーク(CNNS)がローカル機能を階層的に効率的に抽出します。
より最近では、ビジョントランス(VITS)は、自己関節メカニズムを使用してグローバルな依存関係を捉えているが、畳み込みの固有の空間局在化がない人気を獲得しています。
したがって、CNNとVITを組み合わせたハイブリッドモデルが開発され、両方のアーキテクチャの強度を組み合わせています。
ただし、このようなハイブリッドCNN-vitモデルは解釈が困難であり、医療イメージングへの応用を妨げます。
この作業では、医療画像分類のために、解釈可能なハイブリッド完全畳み込みCNN変換装置アーキテクチャを紹介します。
VITの広く使用されている事後顕著性方法とは異なり、私たちのアプローチは、モデルの決定プロセスを直接反映する忠実でローカライズされた証拠マップを生成します。
Color Fundus画像を使用して、2つの医療画像分類タスクで方法を評価しました。
私たちのモデルは、ブラックボックスモデルと解釈可能なモデルの両方に比べて最先端の予測パフォーマンスを達成するだけでなく、単一のフォワードパスでクラス固有のスパースエビデンスマップを提供します。
このコードは、https://anonymous.4open.science/r/expl-cnn-transformer/で入手できます。
要約(オリジナル)
In many medical imaging tasks, convolutional neural networks (CNNs) efficiently extract local features hierarchically. More recently, vision transformers (ViTs) have gained popularity, using self-attention mechanisms to capture global dependencies, but lacking the inherent spatial localization of convolutions. Therefore, hybrid models combining CNNs and ViTs have been developed to combine the strengths of both architectures. However, such hybrid CNN-ViT models are difficult to interpret, which hinders their application in medical imaging. In this work, we introduce an interpretable-by-design hybrid fully convolutional CNN-Transformer architecture for medical image classification. Unlike widely used post-hoc saliency methods for ViTs, our approach generates faithful and localized evidence maps that directly reflect the model’s decision process. We evaluated our method on two medical image classification tasks using color fundus images. Our model not only achieves state-of-the-art predictive performance compared to both black-box and interpretable models but also provides class-specific sparse evidence maps in a single forward pass. The code is available at: https://anonymous.4open.science/r/Expl-CNN-Transformer/.
arxiv情報
著者 | Kerol Djoumessi,Samuel Ofosu Mensah,Philipp Berens |
発行日 | 2025-04-11 12:15:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google