Source Matters: Source Dataset Impact on Model Robustness in Medical Imaging

要約

転移学習は医療画像分類アルゴリズムの重要な部分となっており、多くの場合 ImageNet の重みを活用しています。
ただし、自然画像から医療画像への領域の移行により、RadImageNet などの代替手段が登場し、多くの場合、同等の分類パフォーマンスを実証しています。
ただし、転移学習によるパフォーマンスの向上が一般化の改善によるものなのか、それともショートカット学習によるものなのかは不明のままです。
これに対処するために、私たちは、公開されている 2 つの胸部 X 線および CT データセットにわたって、合成されたものであるか、データからサンプリングされたものであるかにかかわらず、潜在的な交絡因子を調査します。
ImageNet と RadImageNet は同等の分類パフォーマンスを達成しますが、ImageNet は交絡因子に対して過剰適合する傾向がはるかに高いことを示します。
ImageNet で事前学習されたモデルを使用している研究者には、同様の実験を行ってモデルの堅牢性を再検討することをお勧めします。
私たちのコードと実験は https://github.com/DovileDo/source-matters で入手できます。

要約(オリジナル)

Transfer learning has become an essential part of medical imaging classification algorithms, often leveraging ImageNet weights. However, the domain shift from natural to medical images has prompted alternatives such as RadImageNet, often demonstrating comparable classification performance. However, it remains unclear whether the performance gains from transfer learning stem from improved generalization or shortcut learning. To address this, we investigate potential confounders — whether synthetic or sampled from the data — across two publicly available chest X-ray and CT datasets. We show that ImageNet and RadImageNet achieve comparable classification performance, yet ImageNet is much more prone to overfitting to confounders. We recommend that researchers using ImageNet-pretrained models reexamine their model robustness by conducting similar experiments. Our code and experiments are available at https://github.com/DovileDo/source-matters.

arxiv情報

著者 Dovile Juodelyte,Yucheng Lu,Amelia Jiménez-Sánchez,Sabrina Bottazzi,Enzo Ferrante,Veronika Cheplygina
発行日 2024-03-07 13:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク