A novel method to enhance pneumonia detection via a model-level ensembling of CNN and vision transformer

要約

肺炎は依然として世界的な罹患率と死亡率の主要原因である。胸部X線(CXR)画像は基本的な診断ツールだが、従来の解析は時間のかかる専門家の評価に頼っていた。近年、ディープラーニングは、CXRからの肺炎検出を自動化するための計り知れない可能性を示している。本稿では、CXRに基づく肺炎診断を改善するためのニューラルネットワークの適用を検討する。我々は、モデルレベルのアンサンブルを介して、畳み込みニューラルネットワーク(CNN)とVision Transformerネットワークを融合した新しいモデルを開発した。我々の融合アーキテクチャは、ResNet34の変種とMulti-Axis Vision Transformerの小型モデルを組み合わせたものである。両方のベースモデルはImageNetで事前に訓練された重みで初期化される。出力層は除去され、最終的な分類の前に平坦化層を使って特徴が結合される。実験では、1,341枚の正常な肺炎CXR画像と3,875枚の肺炎CXR画像を含むKaggle小児肺炎データセットを使用した。同一の学習手順を用いて、ResNet34、Vision Transformer、Swin Transformer Tinyベースラインモデルと比較した。広範なデータ増強、アダムの最適化、学習率のウォームアップ、減衰を採用した。融合モデルは94.87%の最新精度を達成し、ベースラインを上回った。また、優れた感度、特異度、κスコア、陽性的中率を達成した。コンフュージョン・マトリックス分析により、誤分類が少ないことが確認された。ResNet34とVision Transformerの組み合わせは、CNNとTransformerのパラダイムからロバストな特徴を共同で学習することを可能にする。このモデルレベルのアンサンブル技術は、肺炎分類を強化するために、それぞれの補完的な強みを効果的に統合する。

要約(オリジナル)

Pneumonia remains a leading cause of morbidity and mortality worldwide. Chest X-ray (CXR) imaging is a fundamental diagnostic tool, but traditional analysis relies on time-intensive expert evaluation. Recently, deep learning has shown immense potential for automating pneumonia detection from CXRs. This paper explores applying neural networks to improve CXR-based pneumonia diagnosis. We developed a novel model fusing Convolution Neural networks (CNN) and Vision Transformer networks via model-level ensembling. Our fusion architecture combines a ResNet34 variant and a Multi-Axis Vision Transformer small model. Both base models are initialized with ImageNet pre-trained weights. The output layers are removed, and features are combined using a flattening layer before final classification. Experiments used the Kaggle pediatric pneumonia dataset containing 1,341 normal and 3,875 pneumonia CXR images. We compared our model against standalone ResNet34, Vision Transformer, and Swin Transformer Tiny baseline models using identical training procedures. Extensive data augmentation, Adam optimization, learning rate warmup, and decay were employed. The fusion model achieved a state-of-the-art accuracy of 94.87%, surpassing the baselines. We also attained excellent sensitivity, specificity, kappa score, and positive predictive value. Confusion matrix analysis confirms fewer misclassifications. The ResNet34 and Vision Transformer combination enables jointly learning robust features from CNNs and Transformer paradigms. This model-level ensemble technique effectively integrates their complementary strengths for enhanced pneumonia classification.

arxiv情報

著者 Sandeep Angara,Nishith Reddy Mannuru,Aashrith Mannuru,Sharath Thirunagaru
発行日 2024-01-04 16:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク