X-Factor: Quality Is a Dataset-Intrinsic Property

要約

機械学習分類器を最適化するためのユニバーサルクエストでは、モデルアーキテクチャ、データセットサイズ、クラスバランスの3つの要因がテスト時間のパフォーマンスに影響を与えることが示されていますが、完全には説明していません。
以前は、データセット品質と呼ばれる追加の要因について証拠が提示されていましたが、これが実際にはデータセットとモデルアーキテクチャの共同プロパティ、またはデータセット自体の本質的なプロパティであるかどうかは不明でした。
品質が真にデータセット内であり、モデルアーキテクチャ、データセットサイズ、およびクラスのバランスから独立している場合、同じデータセットがこれらの他の要因に関係なく、より良い(または悪い)パフォーマンスを発揮する必要があります。
この仮説をテストするために、ここでは数千のデータセットを作成します。それぞれがサイズとクラスのバランスを制御し、ランダムフォレストやサポートベクトルマシンからディープネットワークまで、さまざまなアーキテクチャで分類器を訓練します。
分類器のパフォーマンスは、アーキテクチャ間のサブセット($ r^2 = 0.79 $)を越えたサブセットによって強く相関しており、データセットのサイズとクラスのバランスとモデルアーキテクチャの独特のデータセットの本質的なプロパティとしての品質をサポートしていることがわかります。
より深く掘り下げると、データセットの品質は、より基本的なものの緊急プロパティであると思われます。つまり、データセットの構成クラスの品質です。
したがって、品質は、パフォーマンスの独立した相関関係と、機械学習ベースの分類を最適化するための個別のターゲットとして、サイズ、クラスバランス、モデルアーキテクチャを結合します。

要約(オリジナル)

In the universal quest to optimize machine-learning classifiers, three factors — model architecture, dataset size, and class balance — have been shown to influence test-time performance but do not fully account for it. Previously, evidence was presented for an additional factor that can be referred to as dataset quality, but it was unclear whether this was actually a joint property of the dataset and the model architecture, or an intrinsic property of the dataset itself. If quality is truly dataset-intrinsic and independent of model architecture, dataset size, and class balance, then the same datasets should perform better (or worse) regardless of these other factors. To test this hypothesis, here we create thousands of datasets, each controlled for size and class balance, and use them to train classifiers with a wide range of architectures, from random forests and support-vector machines to deep networks. We find that classifier performance correlates strongly by subset across architectures ($R^2=0.79$), supporting quality as an intrinsic property of datasets independent of dataset size and class balance and of model architecture. Digging deeper, we find that dataset quality appears to be an emergent property of something more fundamental: the quality of datasets’ constituent classes. Thus, quality joins size, class balance, and model architecture as an independent correlate of performance and a separate target for optimizing machine-learning-based classification.

arxiv情報

著者 Josiah Couch,Miao Li,Rima Arnaout,Ramy Arnaout
発行日 2025-06-04 16:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG, I.2.6 パーマリンク