How Can We Tame the Long-Tail of Chest X-ray Datasets?

要約

胸部 X 線 (CXR) は、多数の異常を推測するために使用される医療画像モダリティです。
胸部 X 線検査で同時に発生する可能性のあるこれらの異常の完全なリストを定義することは困難ですが、その一部は非常に一般的に観察され、自動推論用の深層学習モデルのトレーニングに使用される CXR データセットに豊富に表現されています。
ただし、現在のモデルにとって、まれではあるが重要性が高い可能性があるラベルの独立した識別特徴を学習することは困難です。
これまでの研究では、新しい損失関数や、データの再サンプリングや再重み付けの何らかのメカニズムを導入することにより、マルチラベル問題とロングテール問題の組み合わせに焦点を当てていました。
代わりに、ターゲット データセットのドメインに近いモデルの初期化を選択するだけで、大幅なパフォーマンスの向上が可能であることを提案します。
この方法は、既存の文献で提案されている手法を補完でき、新しいラベルに簡単に拡張できます。
最後に、テールラベルを拡張するために合成的に生成されたデータの真実性も調べ、モデルのパフォーマンス向上へのその寄与を分析します。

要約(オリジナル)

Chest X-rays (CXRs) are a medical imaging modality that is used to infer a large number of abnormalities. While it is hard to define an exhaustive list of these abnormalities, which may co-occur on a chest X-ray, few of them are quite commonly observed and are abundantly represented in CXR datasets used to train deep learning models for automated inference. However, it is challenging for current models to learn independent discriminatory features for labels that are rare but may be of high significance. Prior works focus on the combination of multi-label and long tail problems by introducing novel loss functions or some mechanism of re-sampling or re-weighting the data. Instead, we propose that it is possible to achieve significant performance gains merely by choosing an initialization for a model that is closer to the domain of the target dataset. This method can complement the techniques proposed in existing literature, and can easily be scaled to new labels. Finally, we also examine the veracity of synthetically generated data to augment the tail labels and analyse its contribution to improving model performance.

arxiv情報

著者 Arsh Verma
発行日 2023-09-08 12:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク