Long-Tailed Classification of Thorax Diseases on Chest X-Ray: A New Benchmark Study

要約

胸部 X 線撮影などの画像検査では、一般的な所見の小さなセットと、一般的ではない所見のはるかに大きなセットが得られます。
訓練を受けた放射線科医は、いくつかの代表的な例を研究することでまれな状態の視覚的表現を学ぶことができますが、標準的な方法は最も頻繁なクラスに偏りやすいため、そのような「ロングテール」分布から学習するよう機械に教えることははるかに困難です。
.
この論文では、胸部 X 線上の胸部疾患の特定の領域におけるロングテール学習問題の包括的なベンチマーク研究を提示します。
自然に分散された胸部 X 線データからの学習に焦点を当て、一般的な「頭」クラスだけでなく、まれではあるが重要な「尾」クラスでも分類精度を最適化します。
これを達成するために、挑戦的な新しいロングテール胸部 X 線ベンチマークを導入して、医用画像分類のためのロングテール学習方法の開発に関する研究を促進します。
ベンチマークは、19 方向と 20 方向の胸部疾患分類用の 2 つの胸部 X 線データセットで構成され、最大 53,000 のクラスとわずか 7 のラベル付きトレーニング画像のクラスが含まれています。
この新しいベンチマークで標準および最先端のロングテール学習方法の両方を評価し、これらの方法のどの側面がロングテール医療画像分類に最も有益であるかを分析し、将来のアルゴリズム設計のための洞察を要約します。
データセット、トレーニング済みモデル、およびコードは、https://github.com/VITA-Group/LongTailCXR で入手できます。

要約(オリジナル)

Imaging exams, such as chest radiography, will yield a small set of common findings and a much larger set of uncommon findings. While a trained radiologist can learn the visual presentation of rare conditions by studying a few representative examples, teaching a machine to learn from such a ‘long-tailed’ distribution is much more difficult, as standard methods would be easily biased toward the most frequent classes. In this paper, we present a comprehensive benchmark study of the long-tailed learning problem in the specific domain of thorax diseases on chest X-rays. We focus on learning from naturally distributed chest X-ray data, optimizing classification accuracy over not only the common ‘head’ classes, but also the rare yet critical ‘tail’ classes. To accomplish this, we introduce a challenging new long-tailed chest X-ray benchmark to facilitate research on developing long-tailed learning methods for medical image classification. The benchmark consists of two chest X-ray datasets for 19- and 20-way thorax disease classification, containing classes with as many as 53,000 and as few as 7 labeled training images. We evaluate both standard and state-of-the-art long-tailed learning methods on this new benchmark, analyzing which aspects of these methods are most beneficial for long-tailed medical image classification and summarizing insights for future algorithm design. The datasets, trained models, and code are available at https://github.com/VITA-Group/LongTailCXR.

arxiv情報

著者 Gregory Holste,Song Wang,Ziyu Jiang,Thomas C. Shen,George Shih,Ronald M. Summers,Yifan Peng,Zhangyang Wang
発行日 2022-08-29 04:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク