要約
評価メトリクスは、二値分類タスクにおけるモデルの評価とモデルの選択にとって重要な質問です。
この調査では、さまざまなデータ シナリオの下でさまざまなモデルを評価する際に、メトリクスがどの程度一貫しているかを調査します。
統計シミュレーションを使用して 150 を超えるデータ シナリオと 18 のモデル評価メトリクスを分析したところ、バイナリ分類タスクでは、普及率の影響をあまり受けない評価メトリクスが、一連の異なるモデルのより一貫したランキングを提供することがわかりました。
特に、ROC 曲線下面積 (AUC) は、さまざまなモデルのランキングにおける差異が最も小さくなります。
モデルのパフォーマンスのより厳密な尺度としてのマシューの相関係数は、分散が 2 番目に小さいです。
これらのパターンは、豊富なデータ シナリオ、一般的に使用される 5 つの機械学習モデル、および単純なランダム推測モデル全体にわたって当てはまります。
この結果は、二項分類タスクにおけるモデルの評価とモデルの選択に重大な影響を及ぼします。
要約(オリジナル)
Evaluation Metrics is an important question for model evaluation and model selection in binary classification tasks. This study investigates how consistent metrics are at evaluating different models under different data scenarios. Analyzing over 150 data scenarios and 18 model evaluation metrics using statistical simulation, I find that for binary classification tasks, evaluation metrics that are less influenced by prevalence offer more consistent ranking of a set of different models. In particular, Area Under the ROC Curve (AUC) has smallest variance in ranking of different models. Matthew’s correlation coefficient as a more strict measure of model performance has the second smallest variance. These patterns holds across a rich set of data scenarios and five commonly used machine learning models as well as a naive random guess model. The results have significant implications for model evaluation and model selection in binary classification tasks.
arxiv情報
著者 | Jing Li |
発行日 | 2024-08-19 17:52:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google