要約
機械学習の進歩の基礎ではありますが、精度や F1 など、混同行列から抽出される古典的な評価指標には限界があります。
このようなメトリクスは、データの複雑さやヒットの品質を考慮せず、モデルのパフォーマンスの定量的なビューを提供するだけです。
これらの制限を克服するために、最近の研究では、個体の潜在的な特性のレベルでの評価を可能にするアイテム反応理論 (IRT) などの心理測定基準の使用が導入されています。
この研究では、同様のパフォーマンスを持つオプションの中でどのモデルが最も適切であるかを特定するために、IRT の概念が混同行列をどのように強化できるかを調査します。
実施された調査では、IRT は、特定のインスタンスにおけるモデルの微細な動作の評価と観察の新しい層を提供することで、古典的なメトリクスに代わるものではなく、それを補完します。
また、IRT からのスコアには、分析された古典的な指標の 66% とは異なる寄与があるという信頼度が 97% あることも観察されました。
要約(オリジナル)
Although fundamental to the advancement of Machine Learning, the classic evaluation metrics extracted from the confusion matrix, such as precision and F1, are limited. Such metrics only offer a quantitative view of the models’ performance, without considering the complexity of the data or the quality of the hit. To overcome these limitations, recent research has introduced the use of psychometric metrics such as Item Response Theory (IRT), which allows an assessment at the level of latent characteristics of instances. This work investigates how IRT concepts can enrich a confusion matrix in order to identify which model is the most appropriate among options with similar performance. In the study carried out, IRT does not replace, but complements classical metrics by offering a new layer of evaluation and observation of the fine behavior of models in specific instances. It was also observed that there is 97% confidence that the score from the IRT has different contributions from 66% of the classical metrics analyzed.
arxiv情報
| 著者 | Lucas Felipe Ferraro Cardoso,José de Sousa Ribeiro Filho,Vitor Cirilo Araujo Santos,Regiane Silva Kawasaki Frances,Ronnie Cley de Oliveira Alves |
| 発行日 | 2024-09-06 14:04:43+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google