Information Gain Sampling for Active Learning in Medical Image Classification

要約

大規模な注釈付きデータセットは、大規模なデータセットのラベル付けに伴う法外な時間、コスト、および課題のために、医用画像分析では広く利用できません。
ラベル付けされていないデータセットは入手が容易であり、多くの状況では、専門家が画像の小さなサブセットにラベルを付けることができます。
この作業は、評価データセットで期待される情報ゲイン (EIG) を最大化することに基づいて、ラベル付けされていないプールから画像を最適に選択してラベル付けする情報理論的アクティブ ラーニング フレームワークを提示します。
実験は、2 つの異なる医用画像分類データセットに対して実行されます: マルチクラス糖尿病性網膜症疾患スケール分類とマルチクラス皮膚病変分類。
結果は、クラスの不均衡を考慮して EIG を適応させることにより、提案された適応期待情報利得 (AEIG) が、多様性ベースの CoreSet や不確実性ベースの最大エントロピー サンプリングなど、いくつかの一般的なベースラインよりも優れていることを示しています。
具体的には、AEIG はトレーニング データのわずか 19% で全体のパフォーマンスの ~95% を達成しますが、他のアクティブ ラーニング アプローチは約 25% を必要とします。
慎重な設計選択により、モデルを既存の深層学習分類器に統合できることを示します。

要約(オリジナル)

Large, annotated datasets are not widely available in medical image analysis due to the prohibitive time, costs, and challenges associated with labelling large datasets. Unlabelled datasets are easier to obtain, and in many contexts, it would be feasible for an expert to provide labels for a small subset of images. This work presents an information-theoretic active learning framework that guides the optimal selection of images from the unlabelled pool to be labeled based on maximizing the expected information gain (EIG) on an evaluation dataset. Experiments are performed on two different medical image classification datasets: multi-class diabetic retinopathy disease scale classification and multi-class skin lesion classification. Results indicate that by adapting EIG to account for class-imbalances, our proposed Adapted Expected Information Gain (AEIG) outperforms several popular baselines including the diversity based CoreSet and uncertainty based maximum entropy sampling. Specifically, AEIG achieves ~95% of overall performance with only 19% of the training data, while other active learning approaches require around 25%. We show that, by careful design choices, our model can be integrated into existing deep learning classifiers.

arxiv情報

著者 Raghav Mehta,Changjian Shui,Brennan Nichyporuk,Tal Arbel
発行日 2022-08-01 16:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク