ビデオ カプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡 (GIE) 診断を変革し、疾患の早期発見を可能にしました。
ただし、その可能性は、イメージング手順中に生成される画像の膨大な量によって制限されます。イメージング手順には 6 ~ 8 時間かかり、最大 100 万枚の画像が生成される場合が多く、自動分析が必要になります。
これに対処するために、我々は、EndoExtend24 と呼ばれる新しい大規模な GIE データセットを導入します。これは、10 個の既存のパブリック データセットとプライベート データセットを結合して作成され、分割間での患者の完全性を保証します。
EndoExtend24 には、226,000 を超えるラベル付き画像と動的クラス マッピングが含まれており、異なるラベル付け粒度のデータセット間で統合トレーニングを可能にし、最大 123 個の異なる病理学的所見をサポートします。
さらに、一般的な画像データに対する自己監視でトレーニングされた基礎モデルのドメイン適応型事前トレーニングを活用して、それらを GIE 医用画像診断のタスクに適応させることを提案します。
具体的には、ViT アーキテクチャに基づいており、マスクされたイメージ モデリング (MIM 教師として EVA-CLIP を使用) を使用して ImageNet-22k でトレーニングされた EVA-02 モデルは、ドメイン適応を達成するために EndoExtend24 データセットで事前トレーニングされています。
最終的にカプセル内視鏡検査 2024 チャレンジ データセットでトレーニングされました。
当社のモデルは堅牢なパフォーマンスを実証し、カプセル内視鏡 2024 チャレンジで 3 位を獲得しました。
テストセットでは、マクロ AUC 0.762 とバランスの取れた精度 37.1% を達成しました。
これらの結果は、消化管内視鏡診断の進歩における、ドメイン適応型の事前トレーニング アプローチと充実した EndoExtend24 データセットの有効性を強調しています。
Video capsule endoscopy has transformed gastrointestinal endoscopy (GIE) diagnostics by offering a non-invasive method for capturing detailed images of the gastrointestinal tract, enabling early disease detection. However, its potential is limited by the sheer volume of images generated during the imaging procedure, which can take anywhere from 6-8 hours and often produce up to 1 million images, necessitating automated analysis. Additionally, the variability of these images, combined with the need for expert annotations and the scarcity of large, high-quality labeled datasets, constrains the effectiveness of current medical image analysis models. To address this, we introduce a novel large GIE dataset, called EndoExtend24, created by merging ten existing public and private datasets, ensuring patient integrity across splits. EndoExtend24 includes over 226,000 labeled images, as well as dynamic class mappings, which allow unified training across datasets with differing labeling granularity, supporting up to 123 distinct pathological findings. Further, we propose to leverage domain adaptive pre-training of foundation models trained with self-supervision on generic image data, to adapt them to the task of GIE medical image diagnosis. Specifically, the EVA-02 model, which is based on the ViT architecture and trained on ImageNet-22k with masked image modeling (using EVA-CLIP as a MIM teacher), is pre-trained on the EndoExtend24 dataset to achieve domain adaptation, and finally trained on the Capsule Endoscopy 2024 Challenge dataset. Our model demonstrates robust performance, securing third place in the Capsule Endoscopy 2024 Challenge. We achieved a macro AUC of 0.762 and a balanced accuracy of 37.1% on the test set. These results emphasize the effectiveness of our domain-adaptive pre-training approach and the enriched EndoExtend24 dataset in advancing gastrointestinal endoscopy diagnostics.
著者 | Marcel Roth,Micha V. Nowak,Adrian Krenzer,Frank Puppe |
発行日 | 2024-11-29 14:49:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google