Enhanced Anomaly Detection for Capsule Endoscopy Using Ensemble Learning Strategies

要約

カプセル内視鏡検査は、胃腸管の画像をキャプチャし、標準的な内視鏡で調査された場合に隠されたままになる可能性のある疾患のスクリーニングを取得する方法です。
ビデオカプセルのサイズが限られているため、AIモデルをカプセルに直接埋め込むには、モデルサイズを慎重に検討する必要があるため、この分野での異常検出が複雑になります。
さらに、このドメインで利用可能なデータの希少性は、効果的な異常検出を達成するための継続的な課題となります。
したがって、この作業は、ビデオカプセル内視鏡検査の異常検出タスクにおけるこの課題に対処するためのアンサンブル戦略を導入し、トレーニング段階と推論段階の両方で少数の個々のニューラルネットワークのみを必要とします。
アンサンブル学習は、複数の独立した訓練されたニューラルネットワークの予測を組み合わせています。
これは、機械学習モデルの精度と堅牢性の両方を高めるのに非常に効果的であることが示されています。
ただし、これには、メモリの使用量が増加し、計算努力が増加するための犠牲が払われ、多くの実際のアプリケーションではすぐに法外になります。
同じトレーニングアルゴリズムを個々のネットワークに適用する代わりに、各ネットワークをトレーニングするために、異常検出フィールドから描かれたさまざまな損失関数を使用して提案します。
この方法は、ビデオカプセル内視鏡画像の2つの最大の公開データセット、GalarとKvasir-Capsuleデータセットで検証されています。
KVasir-Capsuleで76.86%のAUCスコア、GalarデータセットでAUCスコアは76.98%を達成しています。
私たちのアプローチは、すべてのモデルのパラメーターが大幅に少ない現在のベースラインよりも優れています。これは、カプセル内視鏡検査に人工知能を組み込むための重要なステップです。

要約(オリジナル)

Capsule endoscopy is a method to capture images of the gastrointestinal tract and screen for diseases which might remain hidden if investigated with standard endoscopes. Due to the limited size of a video capsule, embedding AI models directly into the capsule demands careful consideration of the model size and thus complicates anomaly detection in this field. Furthermore, the scarcity of available data in this domain poses an ongoing challenge to achieving effective anomaly detection. Thus, this work introduces an ensemble strategy to address this challenge in anomaly detection tasks in video capsule endoscopies, requiring only a small number of individual neural networks during both the training and inference phases. Ensemble learning combines the predictions of multiple independently trained neural networks. This has shown to be highly effective in enhancing both the accuracy and robustness of machine learning models. However, this comes at the cost of higher memory usage and increased computational effort, which quickly becomes prohibitive in many real-world applications. Instead of applying the same training algorithm to each individual network, we propose using various loss functions, drawn from the anomaly detection field, to train each network. The methods are validated on the two largest publicly available datasets for video capsule endoscopy images, the Galar and the Kvasir-Capsule dataset. We achieve an AUC score of 76.86% on the Kvasir-Capsule and an AUC score of 76.98% on the Galar dataset. Our approach outperforms current baselines with significantly fewer parameters across all models, which is a crucial step towards incorporating artificial intelligence into capsule endoscopies.

arxiv情報

著者 Julia Werner,Christoph Gerum,Jorg Nick,Maxime Le Floch,Franz Brinkmann,Jochen Hampe,Oliver Bringmann
発行日 2025-04-08 13:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク