The unreasonable effectiveness of AI CADe polyp detectors to generalize to new countries

要約

$\textbf{背景と目的}$: ポリープ検出には人工知能 (AI) コンピューター支援検出 (CADe) が一般的に使用されますが、臨床現場で見られるデータはモデルのトレーニングとは異なる場合があります。
トレーニング中に観察されなかった国の結腸内視鏡検査で CADe 検出器がどの程度優れたパフォーマンスを発揮するかを評価した研究はほとんどなく、高価で時間のかかるラベルを収集せずにパフォーマンスを評価できる研究はありません。
$\textbf{方法}$: イスラエルの結腸内視鏡検査ビデオ (5004 ビデオ、1106 時間) で CADe ポリープ検出器をトレーニングし、日本のビデオ (354 ビデオ、128 時間) で真陽性率 (TPR) と誤報を測定して評価しました。
分(FAPM)。
当社では、結腸内視鏡検査間の差異をラベルなしで定量化するために、「MAsked mediCal Embedding Distance」(MACE)と呼ばれる結腸内視鏡検査の相違性尺度を導入しています。
私たちは、日本のすべてのビデオと最も高い MACE を持つビデオについて CADe を評価しました。
$\textbf{結果}$: MACE は、狭帯域イメージング (NBI) および色素内視鏡 (CE) フレームが日本の白色光よりもイスラエルのデータに類似していないことを正確に定量化しました (ブートストラップ z 検定、|z| > 690、p < $10^) 両方とも {-8}$)。 データの違いにもかかわらず、日本の結腸内視鏡検査におけるCADeのパフォーマンスは、追加のトレーニングなしでイスラエルの結腸内視鏡検査よりも劣っていませんでした(0.5 FAPMでのTPR:イスラエルと日本で0.957と0.972、1.0 FAPMでのTPR:イスラエルと日本で0.972と0.989、優越性テスト) t > 45.2、p < $10^{-8}$)。 NBI または CE の訓練を受けていないにもかかわらず、これらのサブセットの TPR は全体的に日本より非劣性でした (非劣性検定 t > 47.3、p < $10^{-8}$、両方とも $\delta$ = 1.5%)。 $\textbf{結論}$: 医療以外の環境で CADe 検出器の適切なパフォーマンスを妨げる相違点は、新しい国のデータに適用した場合、AI CADe ポリープ検出器のパフォーマンスを低下させることはありません。 MACE は、モデルを評価する最も「異なる」データを特定することで、医療 AI モデルの国際化を支援します。

要約(オリジナル)

$\textbf{Background and aims}$: Artificial Intelligence (AI) Computer-Aided Detection (CADe) is commonly used for polyp detection, but data seen in clinical settings can differ from model training. Few studies evaluate how well CADe detectors perform on colonoscopies from countries not seen during training, and none are able to evaluate performance without collecting expensive and time-intensive labels. $\textbf{Methods}$: We trained a CADe polyp detector on Israeli colonoscopy videos (5004 videos, 1106 hours) and evaluated on Japanese videos (354 videos, 128 hours) by measuring the True Positive Rate (TPR) versus false alarms per minute (FAPM). We introduce a colonoscopy dissimilarity measure called ‘MAsked mediCal Embedding Distance’ (MACE) to quantify differences between colonoscopies, without labels. We evaluated CADe on all Japan videos and on those with the highest MACE. $\textbf{Results}$: MACE correctly quantifies that narrow-band imaging (NBI) and chromoendoscopy (CE) frames are less similar to Israel data than Japan whitelight (bootstrapped z-test, |z| > 690, p < $10^{-8}$ for both). Despite differences in the data, CADe performance on Japan colonoscopies was non-inferior to Israel ones without additional training (TPR at 0.5 FAPM: 0.957 and 0.972 for Israel and Japan; TPR at 1.0 FAPM: 0.972 and 0.989 for Israel and Japan; superiority test t > 45.2, p < $10^{-8}$). Despite not being trained on NBI or CE, TPR on those subsets were non-inferior to Japan overall (non-inferiority test t > 47.3, p < $10^{-8}$, $\delta$ = 1.5% for both). $\textbf{Conclusion}$: Differences that prevent CADe detectors from performing well in non-medical settings do not degrade the performance of our AI CADe polyp detector when applied to data from a new country. MACE can help medical AI models internationalize by identifying the most 'dissimilar' data on which to evaluate models.

arxiv情報

著者 Joel Shor,Hiro-o Yamano,Daisuke Tsurumaru,Yotami Intrator,Hiroki Kayama,Joe Ledsam,Atsushi Hamabe,Koji Ando,Mitsuhiko Ota,Haruei Ogino,Hiroshi Nakase,Kaho Kobayashi,Eiji Oki,Roman Goldenberg,Ehud Rivlin,Ichiro Takemasa
発行日 2023-12-17 18:38:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク