Comprehensive Comparison of Deep Learning Models for Lung and COVID-19 Lesion Segmentation in CT scans

要約

最近、医療画像のセグメンテーションのためのディープラーニング (DL) 手法の使用が爆発的に増加しています。
しかし、この分野の信頼性は、精度/パフォーマンス評価のための共通の参照ベースの欠如と、以前の研究が評価に異なるデータセットを使用しているという事実によって妨げられています。
この論文では、コンピューター断層撮影 (CT) スキャンにおける肺と新型コロナウイルス感染症の病変セグメンテーションに関する DL モデルの広範な比較が示されており、医療画像セグメンテーション モデルをテストするためのベンチマークとしても使用できます。
4 つの DL アーキテクチャ (Unet、Linknet、FPN、PSPNet) を、ランダムに初期化され事前トレーニングされた 25 個のエンコーダー (VGG、DenseNet、ResNet、ResNext、DPN、MobileNet、Xception、Inception-v4、EfficientNet のバリエーション) と組み合わせて、200 のテスト済みモデルを構築します。

肺のセグメンテーション、病変のセグメンテーション、および元の肺マスクを使用した病変のセグメンテーションの 3 つの実験セットアップが実行されます。
100 枚の CT スキャン画像 (トレーニング用に 80 枚、検証用に 20 枚) を含む公開 COVID-19 データセットがトレーニング/検証に使用され、テスト用に 9 CT スキャン ボリュームからの 829 枚の画像で構成される別の公開データセットが使用されます。
各実験に最適なアーキテクチャ – エンコーダー モデルや、実験、アーキテクチャ、エンコーダーごとに独立した平均 Dice 結果など、複数の結果が提供されます。
最後に、前処理ステップとして肺マスクを使用する場合、または事前トレーニングされたモデルを使用する場合の上限の改善が定量化されます。
3 つの実験用のソース コードと 600 の事前トレーニング済みモデルが提供されており、GPU 機能のない実験セットアップでの微調整に適しています。

要約(オリジナル)

Recently there has been an explosion in the use of Deep Learning (DL) methods for medical image segmentation. However the field’s reliability is hindered by the lack of a common base of reference for accuracy/performance evaluation and the fact that previous research uses different datasets for evaluation. In this paper, an extensive comparison of DL models for lung and COVID-19 lesion segmentation in Computerized Tomography (CT) scans is presented, which can also be used as a benchmark for testing medical image segmentation models. Four DL architectures (Unet, Linknet, FPN, PSPNet) are combined with 25 randomly initialized and pretrained encoders (variations of VGG, DenseNet, ResNet, ResNext, DPN, MobileNet, Xception, Inception-v4, EfficientNet), to construct 200 tested models. Three experimental setups are conducted for lung segmentation, lesion segmentation and lesion segmentation using the original lung masks. A public COVID-19 dataset with 100 CT scan images (80 for train, 20 for validation) is used for training/validation and a different public dataset consisting of 829 images from 9 CT scan volumes for testing. Multiple findings are provided including the best architecture-encoder models for each experiment as well as mean Dice results for each experiment, architecture and encoder independently. Finally, the upper bounds improvements when using lung masks as a preprocessing step or when using pretrained models are quantified. The source code and 600 pretrained models for the three experiments are provided, suitable for fine-tuning in experimental setups without GPU capabilities.

arxiv情報

著者 Paschalis Bizopoulos,Nicholas Vretos,Petros Daras
発行日 2023-11-13 18:22:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.IV パーマリンク