Simple Weak Coresets for Non-Decomposable Classification Measures

要約

コアセットは、いくつかの例外を除いて、アプリケーションの面では成長していますが、ほとんどが監視されていない設定に限定されています。
このような設定では、教師付き分類問題と非分解可能な評価尺度を検討します。
層別均一サンプリングベースのコアセットは、理論的な保証にも裏付けられた優れた経験的パフォーマンスを備えていることを示します。
我々は、F1 スコアとマシューズ相関係数に焦点を当てます。これは、最適化が自明ではない 2 つの広く使用されている分解不可能な目的関数であり、均一なコアセットがコアセット サイズの下限に達し、「よりスマート」に匹敵する優れた経験的パフォーマンスを備えていることを示します。
‘ コアセット構築戦略。

要約(オリジナル)

While coresets have been growing in terms of their application, barring few exceptions, they have mostly been limited to unsupervised settings. We consider supervised classification problems, and non-decomposable evaluation measures in such settings. We show that stratified uniform sampling based coresets have excellent empirical performance that are backed by theoretical guarantees too. We focus on the F1 score and Matthews Correlation Coefficient, two widely used non-decomposable objective functions that are nontrivial to optimize for and show that uniform coresets attain a lower bound for coreset size, and have good empirical performance, comparable with “smarter” coreset construction strategies.

arxiv情報

著者 Jayesh Malaviya,Anirban Dasgupta,Rachit Chhaya
発行日 2023-12-15 15:32:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.LG パーマリンク