要約
個々のクラスで学習されたオートエンコーダ間の再構成誤差の比率に基づく、分類データセットを分析するための新しい枠組みを紹介する。この分析フレームワークにより、データセットをサンプル、クラス、データセット全体のレベルで効率的に特徴付けることができる。我々は、分類の難易度を調査し、(1)有限サンプルサイズ、(2)ベイズ誤差と決定境界の複雑さに分解できる再構成誤差比(RER)を定義する。19の一般的な視覚データセットにわたる系統的な研究を通じて、我々のRERに基づくデータセットの難易度プローブが、最先端の(SOTA)分類モデルのエラー率と強く相関することを見出す。さらに、サンプルレベルの分類難易度をラベルの誤りスコアとして解釈することで、RERが、対称・非対称のラベルノイズの下で、難しいデータセット上のラベル誤り検出タスクにおいてSOTAの性能を達成することを見出した。我々のコードはhttps://github.com/voxel51/reconstruction-error-ratios。
要約(オリジナル)
We introduce a new framework for analyzing classification datasets based on the ratios of reconstruction errors between autoencoders trained on individual classes. This analysis framework enables efficient characterization of datasets on the sample, class, and entire dataset levels. We define reconstruction error ratios (RERs) that probe classification difficulty and allow its decomposition into (1) finite sample size and (2) Bayes error and decision-boundary complexity. Through systematic study across 19 popular visual datasets, we find that our RER-based dataset difficulty probe strongly correlates with error rate for state-of-the-art (SOTA) classification models. By interpreting sample-level classification difficulty as a label mistakenness score, we further find that RERs achieve SOTA performance on mislabel detection tasks on hard datasets under symmetric and asymmetric label noise. Our code is publicly available at https://github.com/voxel51/reconstruction-error-ratios.
arxiv情報
著者 | Jacob Marks,Brent A. Griffin,Jason J. Corso |
発行日 | 2024-12-03 17:29:00+00:00 |
arxivサイト | arxiv_id(pdf) |