Expert load matters: operating networks at high accuracy and low manual effort

要約

重要なアプリケーション向けの人間と AI のコラボレーション システムでは、エラーを最小限に抑えるために、ユーザーはモデルの信頼性に基づいて操作点を設定し、人間の専門家に決定を委任するタイミングを決定する必要があります。
モデルの信頼性が操作点よりも低いサンプルは、間違いを避けるために専門家によって手動で分析されます。
このようなシステムは、次の 2 つの側面を考慮した場合にのみ真に有用になります。モデルは、正確なサンプルに対してのみ信頼できるべきであり、専門家に委任されるサンプルの数は最小限に抑えられるべきです。
後者の側面は、ヘルスケアなど、利用できる専門家の時間が限られており、費用がかかるアプリケーションでは特に重要です。
モデルの精度と専門家に委任されたサンプル数の間のトレードオフは、ROC 曲線に似た曲線で表すことができます。これを信頼動作特性 (COC) 曲線と呼びます。
この論文では、精度と専門家の負荷の両方を考慮してディープ ニューラル ネットワークをトレーニングする必要があると主張し、そのために、この COC 曲線の下の面積を最大化する分類用の新しい補完損失関数を提案します。
これにより、ネットワークの精度の向上と人間に委託されるサンプル数の削減が同時に促進されます。
私たちは、分類のために複数のコンピューター ビジョンと医療画像データセットに対して実験を実行します。
私たちの結果は、提案された損失により分類精度が向上し、専門家に委任する決定の数が減り、既存の損失関数と比較してより優れた分布外サンプルの検出と同等のキャリブレーションパフォーマンスが達成されることを示しています。

要約(オリジナル)

In human-AI collaboration systems for critical applications, in order to ensure minimal error, users should set an operating point based on model confidence to determine when the decision should be delegated to human experts. Samples for which model confidence is lower than the operating point would be manually analysed by experts to avoid mistakes. Such systems can become truly useful only if they consider two aspects: models should be confident only for samples for which they are accurate, and the number of samples delegated to experts should be minimized. The latter aspect is especially crucial for applications where available expert time is limited and expensive, such as healthcare. The trade-off between the model accuracy and the number of samples delegated to experts can be represented by a curve that is similar to an ROC curve, which we refer to as confidence operating characteristic (COC) curve. In this paper, we argue that deep neural networks should be trained by taking into account both accuracy and expert load and, to that end, propose a new complementary loss function for classification that maximizes the area under this COC curve. This promotes simultaneously the increase in network accuracy and the reduction in number of samples delegated to humans. We perform experiments on multiple computer vision and medical image datasets for classification. Our results demonstrate that the proposed loss improves classification accuracy and delegates less number of decisions to experts, achieves better out-of-distribution samples detection and on par calibration performance compared to existing loss functions.

arxiv情報

著者 Sara Sangalli,Ertunc Erdil,Ender Konukoglu
発行日 2023-08-09 16:08:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC パーマリンク