Evaluating AI systems under uncertain ground truth: a case study in dermatology

要約

安全性を確保するために、健全な状態にある AI システムは展開前に徹底的な評価を受け、確実であると想定されるグランド トゥルースと照らし合わせて予測を検証します。
ただし、実際にはそうではなく、真実は不確かである可能性があります。
残念ながら、これは AI モデルの標準評価ではほとんど無視されていますが、将来のパフォーマンスを過大評価するなどの深刻な結果を招く可能性があります。
これを避けるために、私たちはグラウンドトゥルースの不確実性の影響を測定します。この不確実性は、信頼できるアノテーションの欠如に起因するアノテーションの不確実性と、限られた観測情報に起因する固有の不確実性の 2 つの主な構成要素に分解されると想定されます。
このグラウンド トゥルースの不確実性は、多数決や平均など、アノテーションを決定論的に集約してグラウンド トゥルースを推定する場合には無視されます。
対照的に、私たちは統計モデルを使用して集計が行われるフレームワークを提案します。
具体的には、アノテーションの集約をいわゆるもっともらしさの事後推論としてフレーム化し、ハイパーパラメータエンコーディングアノテーターの信頼性を条件として、分類設定におけるクラス全体の分布を表します。
このモデルに基づいて、アノテーションの不確実性を測定するための指標を提案し、パフォーマンス評価のための不確実性を調整した指標を提供します。
鑑別診断の形で注釈が提供される画像からの皮膚状態の分類に私たちのフレームワークを適用したケーススタディを紹介します。
以前の研究の逆ランク正規化 (IRN) と呼ばれる決定論的な判定プロセスでは、評価におけるグラウンド トゥルースの不確実性が無視されます。
代わりに、IRN の確率バージョンと Plackett-Luce ベースのモデルという 2 つの代替統計モデルを提示します。
データセットの大部分が重大なグラウンドトゥルースの不確実性を示しており、標準的な IRN ベースの評価では、不確実性の推定値を提供せずにパフォーマンスを大幅に過大評価していることがわかりました。

要約(オリジナル)

For safety, AI systems in health undergo thorough evaluations before deployment, validating their predictions against a ground truth that is assumed certain. However, this is actually not the case and the ground truth may be uncertain. Unfortunately, this is largely ignored in standard evaluation of AI models but can have severe consequences such as overestimating the future performance. To avoid this, we measure the effects of ground truth uncertainty, which we assume decomposes into two main components: annotation uncertainty which stems from the lack of reliable annotations, and inherent uncertainty due to limited observational information. This ground truth uncertainty is ignored when estimating the ground truth by deterministically aggregating annotations, e.g., by majority voting or averaging. In contrast, we propose a framework where aggregation is done using a statistical model. Specifically, we frame aggregation of annotations as posterior inference of so-called plausibilities, representing distributions over classes in a classification setting, subject to a hyper-parameter encoding annotator reliability. Based on this model, we propose a metric for measuring annotation uncertainty and provide uncertainty-adjusted metrics for performance evaluation. We present a case study applying our framework to skin condition classification from images where annotations are provided in the form of differential diagnoses. The deterministic adjudication process called inverse rank normalization (IRN) from previous work ignores ground truth uncertainty in evaluation. Instead, we present two alternative statistical models: a probabilistic version of IRN and a Plackett-Luce-based model. We find that a large portion of the dataset exhibits significant ground truth uncertainty and standard IRN-based evaluation severely over-estimates performance without providing uncertainty estimates.

arxiv情報

著者 David Stutz,Ali Taylan Cemgil,Abhijit Guha Roy,Tatiana Matejovicova,Melih Barsbey,Patricia Strachan,Mike Schaekermann,Jan Freyberg,Rajeev Rikhye,Beverly Freeman,Javier Perez Matos,Umesh Telang,Dale R. Webster,Yuan Liu,Greg S. Corrado,Yossi Matias,Pushmeet Kohli,Yun Liu,Arnaud Doucet,Alan Karthikesalingam
発行日 2023-07-05 10:33:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ME, stat.ML パーマリンク