要約
Capsule Vision Challenge 2024に向けた本研究では、カスタムCNNから高度な変換器アーキテクチャまで、様々なディープラーニングモデルを用いて、ビデオカプセル内視鏡検査(VCE)[1]におけるマルチクラス異常分類の課題に取り組んだ。その目的は、多様な消化管疾患を正しく分類することであり、これは臨床現場における診断効率を高めるために重要である。我々はベースラインCNNモデルから始め、より良い特徴抽出のためにResNet[2]を用いて性能を向上させ、続いてグローバルな依存関係を捉えるためにVision Transformer(ViT)[3]を用いた。さらに、階層的な特徴抽出を改善するためにMultiscale Vision Transformer (MViT)[4]を使用することで結果を改善し、Dual Attention Vision Transformer (DaViT)[5]は空間的な注意とチャンネル的な注意の方法を組み合わせることで最高の結果をもたらした。検証セット[6]における我々の最高のバランス精度は0.8592であり、平均AUCは0.9932であった。さらに、私たちのチーム・カプセル・コマンドは、テストセット[7]の平均AUC:0.7314、バランス精度:0.3235
要約(オリジナル)
In this work for Capsule Vision Challenge 2024, we addressed the challenge of multiclass anomaly classification in video capsule Endoscopy (VCE)[1] with a variety of deep learning models, ranging from custom CNNs to advanced transformer architectures. The purpose is to correctly classify diverse gastrointestinal disorders, which is critical for increasing diagnostic efficiency in clinical settings. We started with a baseline CNN model and improved performance with ResNet[2] for better feature extraction, followed by Vision Transformer (ViT)[3] to capture global dependencies. We further improve the results by using Multiscale Vision Transformer (MViT)[4] for improved hierarchical feature extraction, while Dual Attention Vision Transformer (DaViT) [5] delivered best results by combining spatial and channel attention methods. Our best balanced accuracy on validation set [6] was 0.8592 and Mean AUC was 0.9932. This methodology enabled us to improve model accuracy across a wide range of criteria, greatly surpassing all other methods.Additionally, our team capsule commandos achieved 7th place ranking with a test set[7] performance of Mean AUC: 0.7314 and balanced accuracy: 0.3235
arxiv情報
著者 | Dev Rishi Verma,Vibhor Saxena,Dhruv Sharma,Arpan Gupta |
発行日 | 2024-12-03 14:54:39+00:00 |
arxivサイト | arxiv_id(pdf) |