Prevention is better than cure: a case study of the abnormalities detection in the chest

要約

治療よりも予防​​が大切です。
この古い真実は、病気の予防だけでなく、医療で使用される AI モデルの問題の予防にも当てはまります。
予測モデルの誤動作の原因は、トレーニング プロセスにあるのではなく、データ取得フェーズや実験フェーズの設計にあることがよくあります。
この論文では、X 線肺画像の異常検出に関連する Kaggle コンペティションという単一のユースケースを詳細に分析します。
データの不均衡に関する一連の簡単なテストによって、データの取得と注釈のプロセスにおける欠陥がどのように明らかにされるかを示します。
複雑なモデルはそのようなアーティファクトを学習することができますが、トレーニング中またはトレーニング後にこのバイアスを取り除くのは困難です。
データ収集段階でエラーが発生すると、モデルを正しく検証することが困難になります。
このユースケースに基づいて、データの取得からモデル スコアのパリティ分析まで、予測モデルのライフサイクル全体を通じてデータとモデルのバランス (公平性) を監視する方法を示します。

要約(オリジナル)

Prevention is better than cure. This old truth applies not only to the prevention of diseases but also to the prevention of issues with AI models used in medicine. The source of malfunctioning of predictive models often lies not in the training process but reaches the data acquisition phase or design of the experiment phase. In this paper, we analyze in detail a single use case – a Kaggle competition related to the detection of abnormalities in X-ray lung images. We demonstrate how a series of simple tests for data imbalance exposes faults in the data acquisition and annotation process. Complex models are able to learn such artifacts and it is difficult to remove this bias during or after the training. Errors made at the data collection stage make it difficult to validate the model correctly. Based on this use case, we show how to monitor data and model balance (fairness) throughout the life cycle of a predictive model, from data acquisition to parity analysis of model scores.

arxiv情報

著者 Weronika Hryniewska,Piotr Czarnecki,Jakub Wiśniewski,Przemysław Bombiński,Przemysław Biecek
発行日 2023-05-18 13:28:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク