Do Histopathological Foundation Models Eliminate Batch Effects? A Comparative Study

要約

深層学習は、診断、バイオマーカー予測、転帰予後などの計算組織病理学に目覚ましい進歩をもたらしました。
しかし、注釈付きデータの欠如とバッチ効果の影響、たとえば病院間の体系的な技術データの違いにより、モデルの堅牢性と一般化が妨げられています。
最近の組織病理学基礎モデル(数百万から数十億の画像で事前学習済み)は、さまざまな下流タスクでの汎化パフォーマンスを向上させることが報告されています。
ただし、バッチ効果を完全に排除するかどうかは体系的に評価されていません。
この研究では、基礎モデルの特徴埋め込みには依然として、偏った予測や誤分類につながる可能性のある個別の病院のシグネチャが含まれていることを経験的に示しています。
さらに、シグネチャは染色正規化法によって除去されず、特徴空間内の距離を支配し、さまざまな主成分にわたって明らかであることがわかりました。
私たちの研究は、医療基礎モデルの評価に関する新しい視点を提供し、より堅牢な事前トレーニング戦略と下流予測変数への道を開きます。

要約(オリジナル)

Deep learning has led to remarkable advancements in computational histopathology, e.g., in diagnostics, biomarker prediction, and outcome prognosis. Yet, the lack of annotated data and the impact of batch effects, e.g., systematic technical data differences across hospitals, hamper model robustness and generalization. Recent histopathological foundation models — pretrained on millions to billions of images — have been reported to improve generalization performances on various downstream tasks. However, it has not been systematically assessed whether they fully eliminate batch effects. In this study, we empirically show that the feature embeddings of the foundation models still contain distinct hospital signatures that can lead to biased predictions and misclassifications. We further find that the signatures are not removed by stain normalization methods, dominate distances in feature space, and are evident across various principal components. Our work provides a novel perspective on the evaluation of medical foundation models, paving the way for more robust pretraining strategies and downstream predictors.

arxiv情報

著者 Jonah Kömen,Hannah Marienwald,Jonas Dippel,Julius Hense
発行日 2024-11-08 11:39:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク