Generalization in medical AI: a perspective on developing scalable models

要約

過去数年間にわたる研究では、大規模なデータセットでトレーニングされた深層学習モデルの進歩が目撃されており、その中には数百万の例が含まれる場合もあります。
これらは非表示のテスト セットでは優れたパフォーマンスを発揮しますが、外部データセットで評価するとパフォーマンスが劣ることがよくあります。
医療 AI 開発における一般化の重要な役割を認識し、多くの著名なジャーナルは現在、出版のための研究を検討する前に、ローカルの隠れたテスト セットと外部データセットの両方で結果を報告することを求めています。
事実上、医療 AI の分野は、トレーニングとテストに分割された単一のデータセットの従来の使用法から、複数のデータセットを使用するより包括的なフレームワークに移行しており、その一部はモデル開発 (ソース ドメイン) に使用され、その他はテストに使用されます (
ターゲットドメイン)。
ただし、この新しい実験設定は、必ずしも一般化の課題を解決するものではありません。
これは、病院の文化間で使用目的や特殊性が異なるため、普遍的に一般化できるシステムという考えが神話になっているためです。
一方で、個々の病院レベルでのモデルの体系的かつ強化された再調整は、理想的ではありますが、関連する法律、規制、技術的な課題を考慮すると楽観的すぎる可能性があります。
ターゲット ドメインの参照ラベルが利用できない場合には、転移学習を使用した再調整が不可能な場合もあります。
この観点から、医療 AI アルゴリズムの一般化レベルを反映する階層的な 3 レベルのスケール システムを確立します。
このスケールは、モデルの再キャリブレーションのためのターゲット ドメイン データが利用できるかどうか、また、利用できる場合には系統的に利用できる参照ラベルがあるかどうかなど、実際の医療シナリオの多様性をよりよく反映しています。

要約(オリジナル)

Over the past few years, research has witnessed the advancement of deep learning models trained on large datasets, some even encompassing millions of examples. While these impressive performance on their hidden test sets, they often underperform when assessed on external datasets. Recognizing the critical role of generalization in medical AI development, many prestigious journals now require reporting results both on the local hidden test set as well as on external datasets before considering a study for publication. Effectively, the field of medical AI has transitioned from the traditional usage of a single dataset that is split into train and test to a more comprehensive framework using multiple datasets, some of which are used for model development (source domain) and others for testing (target domains). However, this new experimental setting does not necessarily resolve the challenge of generalization. This is because of the variability encountered in intended use and specificities across hospital cultures making the idea of universally generalizable systems a myth. On the other hand, the systematic, and a fortiori recurrent re-calibration, of models at the individual hospital level, although ideal, may be overoptimistic given the legal, regulatory and technical challenges that are involved. Re-calibration using transfer learning may not even be possible in some instances where reference labels of target domains are not available. In this perspective we establish a hierarchical three-level scale system reflecting the generalization level of a medical AI algorithm. This scale better reflects the diversity of real-world medical scenarios per which target domain data for re-calibration of models may or not be available and if it is, may or not have reference labels systematically available.

arxiv情報

著者 Joachim A. Behar,Jeremy Levy,Leo Anthony Celi
発行日 2023-11-09 14:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク