DIAGNOSE: Avoiding Out-of-distribution Data using Submodular Information Measures


医用画像分野で教師付き機械学習モデルを学習するためには,分布外(OOD)データを回避することが重要である.さらに,ラベル付けされた医療データを得るには,医師や放射線技師などの専門的なアノテータが必要なため,困難かつ高価である.能動学習(AL)は、最も多様で不確実なサンプルを選択することにより、ラベリングコストを軽減する方法としてよく知られている。しかし、現在のAL手法はOODデータを含む医療画像領域ではうまく機能しない。我々は、分布内データのマイニングとOODデータの回避を同時に行う上で重要な類似性と非類似性を共同でモデル化できる新しい能動学習フレームワーク、Diagnose (avoiDing out-of-dIstribution dAta usinG submodular iNfOrmation meaSurEs) を提案している。特に、少数のデータ点を模範として、クエリである流通内データ点とプライベートであるOODデータ点の集合を表現する。実世界の様々なOODシナリオで評価することにより、本フレームワークの一般性を説明する。我々の実験では、医療画像の複数のドメインにおいて、最新のAL手法に対するDiagnoseの優位性が検証された。


Avoiding out-of-distribution (OOD) data is critical for training supervised machine learning models in the medical imaging domain. Furthermore, obtaining labeled medical data is difficult and expensive since it requires expert annotators like doctors, radiologists, etc. Active learning (AL) is a well-known method to mitigate labeling costs by selecting the most diverse or uncertain samples. However, current AL methods do not work well in the medical imaging domain with OOD data. We propose Diagnose (avoiDing out-of-dIstribution dAta usinG submodular iNfOrmation meaSurEs), a novel active learning framework that can jointly model similarity and dissimilarity, which is crucial in mining in-distribution data and avoiding OOD data at the same time. Particularly, we use a small number of data points as exemplars that represent a query set of in-distribution data points and a private set of OOD data points. We illustrate the generalizability of our framework by evaluating it on a wide variety of real-world OOD scenarios. Our experiments verify the superiority of Diagnose over the state-of-the-art AL methods across multiple domains of medical imaging.


著者 Suraj Kothawade,Akshit Srivastava,Venkat Iyer,Ganesh Ramakrishnan,Rishabh Iyer
発行日 2022-10-04 11:07:48+00:00
