Approaching Peak Ground Truth

要約

機械学習モデルは通常、参照アノテーションとの類似性を計算することによって評価され、そのようなものとの類似性を最大化することによってトレーニングされます。
特に生物医学分野では、注釈は主観的であり、評価者間および評価者内の信頼性が低いという問題があります。
注釈は注釈エンティティの現実世界の解釈のみを反映するため、モデルが高い類似性スコアを達成したとしても、これは最適ではない予測につながる可能性があります。
ここでは、Peak Ground Truth (PGT) の理論的概念を紹介します。
PGT は、参照アノテーションとの類似性の増加がより良い実世界モデル パフォーマンス (RWMP) への変換を停止するポイントを示します。
さらに、評価者間および評価者内の信頼性を計算することによって PGT を近似する定量的手法が提案されています。
最後に、モデルのパフォーマンスを評価および改善するための PGT 対応戦略の 3 つのカテゴリを確認します。

要約(オリジナル)

Machine learning models are typically evaluated by computing similarity with reference annotations and trained by maximizing similarity with such. Especially in the bio-medical domain, annotations are subjective and suffer from low inter- and intra-rater reliability. Since annotations only reflect the annotation entity’s interpretation of the real world, this can lead to sub-optimal predictions even though the model achieves high similarity scores. Here, the theoretical concept of Peak Ground Truth (PGT) is introduced. PGT marks the point beyond which an increase in similarity with the reference annotation stops translating to better Real World Model Performance (RWMP). Additionally, a quantitative technique to approximate PGT by computing inter- and intra-rater reliability is proposed. Finally, three categories of PGT-aware strategies to evaluate and improve model performance are reviewed.

arxiv情報

著者 Florian Kofler,Johannes Wahle,Ivan Ezhov,Sophia Wagner,Rami Al-Maskari,Emilia Gryska,Mihail Todorov,Christina Bukas,Felix Meissen,Tingying Peng,Ali Ertürk,Daniel Rueckert,Rolf Heckemann,Jan Kirschke,Claus Zimmer,Benedikt Wiestler,Bjoern Menze,Marie Piraud
発行日 2023-01-17 16:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク