Statistical Comparisons of Classifiers by Generalized Stochastic Dominance

要約

これは機械学習アルゴリズムの開発にとって重要な問題ですが、いくつかの基準に関して複数のデータセットにわたる分類器を比較する方法についてはまだコンセンサスがありません。
すべての比較フレームワークは、(少なくとも) 3 つの基本的な課題に直面しています。それは、品質基準の多重度、データセットの多重度、およびデータセットの選択のランダム性です。
この論文では、意思決定理論の最近の発展を採用することで、活発な議論に新たな視点を加えています。
いわゆる優先システムに基づいて、私たちのフレームワークは、確率的優位性の一般化された概念によって分類子をランク付けします。これにより、面倒で、しばしば自己矛盾さえ生じる集計への依存を強力に回避できます。
さらに、一般化された確率的優位性は、扱いやすい線形プログラムを解くことによって操作可能であり、さらに、適応された 2 サンプルの観測ランダム化テストを使用して統計的にテストできることを示します。
これにより、実際に、複数の品質基準に関して同時に複数のデータセットにわたる分類器を統計的に比較するための強力なフレームワークが得られます。
私たちは、一連の標準ベンチマーク データ セットを使用して、シミュレーション スタディでフレームワークを図示し、調査します。

要約(オリジナル)

Although being a crucial question for the development of machine learning algorithms, there is still no consensus on how to compare classifiers over multiple data sets with respect to several criteria. Every comparison framework is confronted with (at least) three fundamental challenges: the multiplicity of quality criteria, the multiplicity of data sets and the randomness of the selection of data sets. In this paper, we add a fresh view to the vivid debate by adopting recent developments in decision theory. Based on so-called preference systems, our framework ranks classifiers by a generalized concept of stochastic dominance, which powerfully circumvents the cumbersome, and often even self-contradictory, reliance on aggregates. Moreover, we show that generalized stochastic dominance can be operationalized by solving easy-to-handle linear programs and moreover statistically tested employing an adapted two-sample observation-randomization test. This yields indeed a powerful framework for the statistical comparison of classifiers over multiple data sets with respect to multiple quality criteria simultaneously. We illustrate and investigate our framework in a simulation study and with a set of standard benchmark data sets.

arxiv情報

著者 Christoph Jansen,Malte Nalenz,Georg Schollmeyer,Thomas Augustin
発行日 2023-07-05 13:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62C05, 62G10, cs.LG, stat.ME, stat.ML パーマリンク