要約
機械学習アルゴリズムは、多くのアプリケーション (画像分類など) で広く普及しています。
ただし、従来の指標 (各分類子の粗粒度など) の測定が不十分なため、通常、これらのアルゴリズムの現実世界のパフォーマンスと標準化された評価のスコアの間にはかなりのギャップが観察されます。
この論文では、人間の測定による心理測定理論に触発されて、タスクに依存しない評価フレームワーク Camilla を提案します。このフレームワークでは、各機械学習アルゴリズムの多面的な強度を協調的に測定するために、多次元の診断指標である能力が定義されています。
具体的には、さまざまなアルゴリズムからデータサンプルへの応答ログが与えられた場合、認知診断の仮定とニューラルネットワークを活用して、アルゴリズム、サンプル、および各サンプルのスキル(明示的または暗黙的に事前定義された)間の複雑な相互作用を学習します。
このようにして、複数のスキルに関する各アルゴリズムの能力と一部のサンプル要素 (サンプルの難易度など) の両方を同時に定量化できます。
私たちは 4 つの公開データセットで数百の機械学習アルゴリズムを使用した広範な実験を実施しました。その実験結果は、Camilla が各アルゴリズムの長所と短所をより正確に把握できるだけでなく、指標に関して最先端のベースラインを上回るパフォーマンスを示していることを示しています。
信頼性、ランクの一貫性、ランクの安定性。
要約(オリジナル)
Machine learning algorithms have become ubiquitous in a number of applications (e.g. image classification). However, due to the insufficient measurement of traditional metrics (e.g. the coarse-grained Accuracy of each classifier), substantial gaps are usually observed between the real-world performance of these algorithms and their scores in standardized evaluations. In this paper, inspired by the psychometric theories from human measurement, we propose a task-agnostic evaluation framework Camilla, where a multi-dimensional diagnostic metric Ability is defined for collaboratively measuring the multifaceted strength of each machine learning algorithm. Specifically, given the response logs from different algorithms to data samples, we leverage cognitive diagnosis assumptions and neural networks to learn the complex interactions among algorithms, samples and the skills (explicitly or implicitly pre-defined) of each sample. In this way, both the abilities of each algorithm on multiple skills and some of the sample factors (e.g. sample difficulty) can be simultaneously quantified. We conduct extensive experiments with hundreds of machine learning algorithms on four public datasets, and our experimental results demonstrate that Camilla not only can capture the pros and cons of each algorithm more precisely, but also outperforms state-of-the-art baselines on the metric reliability, rank consistency and rank stability.
arxiv情報
著者 | Qi Liu,Zheng Gong,Zhenya Huang,Chuanren Liu,Hengshu Zhu,Zhi Li,Enhong Chen,Hui Xiong |
発行日 | 2023-07-14 03:15:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google