What is the state of the art? Accounting for multiplicity in machine learning benchmark performance

要約

タイトル:機械学習ベンチマークにおける多重性の考慮:最先端の状況は何か?

要約:
– 機械学習手法は、公開リポジトリからのデータセットの性能によって評価され比較されることが一般的である。
– これにより、何千もの手法を同一条件下で評価することができ、最高ランクの性能は最先端の性能(SOTA)と呼ばれ、新しい手法の出版の参照点として使用される。
– SOTAを推定する最高ランク性能を使用することは、楽観的な結果を与える偏った推定器である。
– これは複数比較や複数検定の文脈でよく研究されている多重性の機構が働いているためであるが、SOTAの見積もりについての議論からほぼ取り上げられている。
– 楽観的な最先端の見積もりは、新しい手法を評価するための基準として使用されるため、大幅に劣る結果を示す手法が見過ごされることがある。
– 本論文では、複数の分類器の場合の確率分布を提供し、既知の分析方法を使用してより良いSOTAの見積もりを提供する。
– 独立した分類器を用いたシミュレーション例を通して、多重性の影響を示す。
– 分類器の依存性が分散に影響を与えることを示すが、精度が高い場合はその影響が限られることも述べる。
– 最後に、2020年に行われたKaggleの競技会の実例について説明する。

要約(オリジナル)

Machine learning methods are commonly evaluated and compared by their performance on data sets from public repositories. This allows for multiple methods, oftentimes several thousands, to be evaluated under identical conditions and across time. The highest ranked performance on a problem is referred to as state-of-the-art (SOTA) performance, and is used, among other things, as a reference point for publication of new methods. Using the highest-ranked performance as an estimate for SOTA is a biased estimator, giving overly optimistic results. The mechanisms at play are those of multiplicity, a topic that is well-studied in the context of multiple comparisons and multiple testing, but has, as far as the authors are aware of, been nearly absent from the discussion regarding SOTA estimates. The optimistic state-of-the-art estimate is used as a standard for evaluating new methods, and methods with substantial inferior results are easily overlooked. In this article, we provide a probability distribution for the case of multiple classifiers so that known analyses methods can be engaged and a better SOTA estimate can be provided. We demonstrate the impact of multiplicity through a simulated example with independent classifiers. We show how classifier dependency impacts the variance, but also that the impact is limited when the accuracy is high. Finally, we discuss a real-world example; a Kaggle competition from 2020.

arxiv情報

著者 Kajsa Møllersen,Einar Holsbø
発行日 2023-04-03 09:28:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ME パーマリンク