要約
この論文では、機械学習モデルのトレーニングと評価への一般的なアプローチは、人々にとって有益な価値を生み出すことを目的とした組織または社会的文脈の中で、実際のアプリケーションを考慮していないことが多いと主張します。
視点の変化を提案し、モデルの評価と選択を再定義して、マシンの予測と人間の専門知識を組み合わせたワークフローへの統合を強調します。
精度やFスコアなどの従来の指標は、このようなハイブリッド設定でモデルの有益な価値をキャプチャできません。
これに対処するために、正しい予測、エラー、拒否のためのタスク固有のコストを組み込んだ、シンプルでありながら理論的には「値」メトリックを導入し、実際の評価のための実用的なフレームワークを提供します。
広範な実験を通じて、既存のメトリックが実際のニーズをキャプチャできず、多くの場合、分類器をランク付けするために使用される場合に価値の観点から最適ではない選択につながることがわかります。
さらに、モデル値を決定する際のキャリブレーションの重要な役割を強調し、単純で適切に調整されたモデルが、しばしばキャリブレーションが困難なより複雑なモデルを上回ることができることを示しています。
要約(オリジナル)
In this paper, we argue that the prevailing approach to training and evaluating machine learning models often fails to consider their real-world application within organizational or societal contexts, where they are intended to create beneficial value for people. We propose a shift in perspective, redefining model assessment and selection to emphasize integration into workflows that combine machine predictions with human expertise, particularly in scenarios requiring human intervention for low-confidence predictions. Traditional metrics like accuracy and f-score fail to capture the beneficial value of models in such hybrid settings. To address this, we introduce a simple yet theoretically sound ‘value’ metric that incorporates task-specific costs for correct predictions, errors, and rejections, offering a practical framework for real-world evaluation. Through extensive experiments, we show that existing metrics fail to capture real-world needs, often leading to suboptimal choices in terms of value when used to rank classifiers. Furthermore, we emphasize the critical role of calibration in determining model value, showing that simple, well-calibrated models can often outperform more complex models that are challenging to calibrate.
arxiv情報
著者 | Burcu Sayin,Jie Yang,Xinyue Chen,Andrea Passerini,Fabio Casati |
発行日 | 2025-04-23 15:24:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google