Video Capsule Endoscopy Classification using Focal Modulation Guided Convolutional Neural Network

要約

ビデオカプセル内視鏡検査は、コンピュータービジョンと医学のホットトピックです。
ディープラーニングは、ビデオカプセル内視鏡技術の将来にプラスの影響を与える可能性があります。
これにより、異常検出率が向上し、医師のスクリーニング時間が短縮され、実際の臨床分析に役立ちます。
ビデオカプセル内視鏡検査用のCADx分類システムは、さらなる改善の大きな可能性を示しています。
たとえば、癌性ポリープと出血の検出は、迅速な医療反応につながり、患者の生存率を向上させることができます。
このため、自動化されたCADxシステムは、高いスループットと適切な精度を備えている必要があります。
この論文では、小腸の解剖学的ランドマークと管腔所見の分類のために、軽量畳み込み層と統合された焦点変調ネットワークであるFocalConvNetを提案します。
FocalConvNetは、フォーカルモジュレーションを活用してグローバルコンテキストを実現し、フォワードパス全体でグローバルとローカルの空間的相互作用を可能にします。
さらに、固有の帰納的/学習バイアスと階層的特徴を抽出する能力を備えた畳み込みブロックにより、FocalConvNetは高スループットで好ましい結果を達成できます。
FocalConvNetをKvasir-Capsule上の他のSOTAと比較します。これは、13クラスの異なる異常を持つ44,228フレームの大規模なVCEデータセットです。
私たちが提案する方法は、他のSOTA方法よりも、それぞれ0.6734、0.6373、0.2974の加重F1スコア、再現率、MCC}を達成します。
さらに、リアルタイムの臨床環境でFocalConvNetの可能性を確立するために、148.02画像/秒の速度という最高のスループットを報告します。
提案されたFocalConvNetのコードは、https://github.com/NoviceMAn-prog/FocalConvNetで入手できます。

要約(オリジナル)

Video capsule endoscopy is a hot topic in computer vision and medicine. Deep learning can have a positive impact on the future of video capsule endoscopy technology. It can improve the anomaly detection rate, reduce physicians’ time for screening, and aid in real-world clinical analysis. CADx classification system for video capsule endoscopy has shown a great promise for further improvement. For example, detection of cancerous polyp and bleeding can lead to swift medical response and improve the survival rate of the patients. To this end, an automated CADx system must have high throughput and decent accuracy. In this paper, we propose FocalConvNet, a focal modulation network integrated with lightweight convolutional layers for the classification of small bowel anatomical landmarks and luminal findings. FocalConvNet leverages focal modulation to attain global context and allows global-local spatial interactions throughout the forward pass. Moreover, the convolutional block with its intrinsic inductive/learning bias and capacity to extract hierarchical features allows our FocalConvNet to achieve favourable results with high throughput. We compare our FocalConvNet with other SOTA on Kvasir-Capsule, a large-scale VCE dataset with 44,228 frames with 13 classes of different anomalies. Our proposed method achieves the weighted F1-score, recall and MCC} of 0.6734, 0.6373 and 0.2974, respectively outperforming other SOTA methodologies. Furthermore, we report the highest throughput of 148.02 images/second rate to establish the potential of FocalConvNet in a real-time clinical environment. The code of the proposed FocalConvNet is available at https://github.com/NoviceMAn-prog/FocalConvNet.

arxiv情報

著者 Abhishek Srivastava,Nikhil Kumar Tomar,Ulas Bagci,Debesh Jha
発行日 2022-06-16 16:57:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク