Meta Pattern Concern Score: A Novel Evaluation Measure with Human Values for Multi-classifiers

要約

タイトル:Meta Pattern Concern Score:人間の価値観を考慮したマルチクラシファイアの新しい評価尺度

要約:
– 安全重視の実世界アプリケーションにおいて、上級クラシファイアが急速に使用されている一方で、特定の人間の価値観に基づいてブラックボックスモデルを適切に評価する方法がコミュニティで問題になっています。
– このような人間の価値観には、異なる重大度のエラーケースの処罰、一般的なパフォーマンスの犠牲を払って特定の危険なケースを減らすなどが含まれます。
– 本稿では、確率予測の抽象表現と予測信頼度の譲歩範囲に基づく新しい評価尺度であるMeta Pattern Concern Scoreを提案し、人間の価値観をマルチクラシファイアに導入します。
– 科学的には、混同行列ベースの評価尺度とロス値の長所と短所から学び、我々の尺度は一般的なタスクでも有効であり、交差エントロピー損失は限界でわれわれの尺度の一特殊例となります。
– また、当社の尺度は、学習率を動的に調整することでモデルトレーニングを改良するためにも使用できます。
– 4種類のモデルと6つのデータセットでの実験により、当社の尺度の有効性と効率性が確認されました。そして、ケーススタディでは、学習精度を0.04%犠牲にして危険な割合を0.53%減らす理想的なモデルを見つけるだけでなく、学習率を改善して自己の値を1.62%低減し、危険な割合を0.36%減らすことで、元のモデルよりも優れた新しいモデルをトレーニングすることができました。

要約(オリジナル)

While advanced classifiers have been increasingly used in real-world safety-critical applications, how to properly evaluate the black-box models given specific human values remains a concern in the community. Such human values include punishing error cases of different severity in varying degrees and making compromises in general performance to reduce specific dangerous cases. In this paper, we propose a novel evaluation measure named Meta Pattern Concern Score based on the abstract representation of probabilistic prediction and the adjustable threshold for the concession in prediction confidence, to introduce the human values into multi-classifiers. Technically, we learn from the advantages and disadvantages of two kinds of common metrics, namely the confusion matrix-based evaluation measures and the loss values, so that our measure is effective as them even under general tasks, and the cross entropy loss becomes a special case of our measure in the limit. Besides, our measure can also be used to refine the model training by dynamically adjusting the learning rate. The experiments on four kinds of models and six datasets confirm the effectiveness and efficiency of our measure. And a case study shows it can not only find the ideal model reducing 0.53% of dangerous cases by only sacrificing 0.04% of training accuracy, but also refine the learning rate to train a new model averagely outperforming the original one with a 1.62% lower value of itself and 0.36% fewer number of dangerous cases.

arxiv情報

著者 Yanyun Wang,Dehui Du,Yuanhao Liu
発行日 2023-05-01 13:40:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, I.2.0 パーマリンク