要約
我々は、医用画像解析のための解釈可能な表現を学習する新しいディープニューラルネットワークアーキテクチャを提案する。本アーキテクチャは、関心領域に対するグローバルな注意を生成し、次に局所的な注意を用いてbag of words形式の深い特徴埋め込みを学習する。このグローバル特徴マップとローカル特徴マップを現代の変換器アーキテクチャを用いて組み合わせることで、超音波画像から高精度に胆嚢癌を検出することができる。我々の実験によれば、我々のモデルの検出精度は人間の放射線技師をも凌駕しており、GBC診断の第二のリーダーとして使用することを提唱している。また、Bag of wordsを埋め込むことで、医学文献で報告されているGBC検出のための解釈可能な説明文を生成することが可能となる。また、提案するモデルは、ニューラルネットワークモデルの判断の理解に役立つだけでなく、GBCの診断に関連する新しい視覚的特徴の発見を助けることを示す。ソースコードとモデルは https://github.com/sbasu276/RadFormer で公開される予定である。
要約(オリジナル)
We propose a novel deep neural network architecture to learn interpretable representation for medical image analysis. Our architecture generates a global attention for region of interest, and then learns bag of words style deep feature embeddings with local attention. The global, and local feature maps are combined using a contemporary transformer architecture for highly accurate Gallbladder Cancer (GBC) detection from Ultrasound (USG) images. Our experiments indicate that the detection accuracy of our model beats even human radiologists, and advocates its use as the second reader for GBC diagnosis. Bag of words embeddings allow our model to be probed for generating interpretable explanations for GBC detection consistent with the ones reported in medical literature. We show that the proposed model not only helps understand decisions of neural network models but also aids in discovery of new visual features relevant to the diagnosis of GBC. Source-code and model will be available at https://github.com/sbasu276/RadFormer
arxiv情報
著者 | Soumen Basu,Mayank Gupta,Pratyaksha Rana,Pankaj Gupta,Chetan Arora |
発行日 | 2022-11-09 10:40:35+00:00 |
arxivサイト | arxiv_id(pdf) |