Intrinsic Data Constraints and Upper Bounds in Binary Classification Performance

要約

データ編成の構造は、特にバイナリ分類タスクにおいて、機械学習アルゴリズムの有効性に大きな影響を与えることが広く認識されています。
私たちの研究は、特定のデータセットに対するバイナリ分類器の最大の可能性が主にデータの固有の品質によって制約されることを示唆する理論的枠組みを提供します。
理論的推論と経験的検討の両方を通じて、標準的な目的関数、評価指標、および二項分類子を使用して、2 つの主要な結論に達しました。
まず、実際のデータセットに対する二値分類パフォーマンスの理論上の上限が理論的に達成できることを示します。
この上限は、学習損失と評価指標の間の計算可能な均衡を表します。
次に、一般的に使用される 3 つの評価指標の正確な上限を計算しました。これにより、私たちの包括的なテーマとの基本的な統一性が明らかになりました。つまり、上限は、使用されている分類子とは無関係に、データセットの特性と複雑にリンクされています。
さらに、その後の分析により、パフォーマンスの上限とバイナリ分類データ内のクラスの重複レベルとの間の詳細な関係が明らかになりました。
この関係は、特徴エンジニアリングで使用する最も効果的な特徴サブセットを特定するのに役立ちます。

要約(オリジナル)

The structure of data organization is widely recognized as having a substantial influence on the efficacy of machine learning algorithms, particularly in binary classification tasks. Our research provides a theoretical framework suggesting that the maximum potential of binary classifiers on a given dataset is primarily constrained by the inherent qualities of the data. Through both theoretical reasoning and empirical examination, we employed standard objective functions, evaluative metrics, and binary classifiers to arrive at two principal conclusions. Firstly, we show that the theoretical upper bound of binary classification performance on actual datasets can be theoretically attained. This upper boundary represents a calculable equilibrium between the learning loss and the metric of evaluation. Secondly, we have computed the precise upper bounds for three commonly used evaluation metrics, uncovering a fundamental uniformity with our overarching thesis: the upper bound is intricately linked to the dataset’s characteristics, independent of the classifier in use. Additionally, our subsequent analysis uncovers a detailed relationship between the upper limit of performance and the level of class overlap within the binary classification data. This relationship is instrumental for pinpointing the most effective feature subsets for use in feature engineering.

arxiv情報

著者 Fei Jing,Zi-Ke Zhang,Qingpeng Zhang
発行日 2024-01-30 14:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, physics.data-an パーマリンク