要約
分類モデルは、異なるクラスに対して等しく良好な性能を発揮することが期待されているが、実際には、その性能に大きなギャップが存在することが多い。このようなクラスの偏りの問題は、サンプルの不均衡があるデータセットの場合には広く研究されているが、バランスの取れたデータセットでは比較的見過ごされている。本研究では、クラスの不一致の潜在的な原因として、特徴量におけるスペクトルの不均衡という概念を導入し、理論と実践の両方におけるスペクトルの不均衡とクラスの偏りとの関連を研究する。スペクトルの不均衡とクラス格差との関連を構築するために、クラス格差を研究するための理論的枠組みを構築し、高次元混合モデル設定におけるクラス毎の誤差の厳密な式を導出する。次に、この現象を11の異なる最先端の事前訓練されたエンコーダで研究し、提案するフレームワークが、エンコーダの品質を比較し、この問題を緩和するためのデータ増強戦略を評価し、組み合わせるためにどのように利用できるかを示す。我々の研究は、学習のクラス依存効果に光を当て、最先端の事前訓練された特徴量が、そのスペクトルから診断できる未知のバイアスをどのように持っているかについての新しい洞察を提供する。
要約(オリジナル)
Classification models are expected to perform equally well for different classes, yet in practice, there are often large gaps in their performance. This issue of class bias is widely studied in cases of datasets with sample imbalance, but is relatively overlooked in balanced datasets. In this work, we introduce the concept of spectral imbalance in features as a potential source for class disparities and study the connections between spectral imbalance and class bias in both theory and practice. To build the connection between spectral imbalance and class gap, we develop a theoretical framework for studying class disparities and derive exact expressions for the per-class error in a high-dimensional mixture model setting. We then study this phenomenon in 11 different state-of-the-art pretrained encoders and show how our proposed framework can be used to compare the quality of encoders, as well as evaluate and combine data augmentation strategies to mitigate the issue. Our work sheds light on the class-dependent effects of learning, and provides new insights into how state-of-the-art pretrained features may have unknown biases that can be diagnosed through their spectra.
arxiv情報
著者 | Chiraag Kaushik,Ran Liu,Chi-Heng Lin,Amrit Khera,Matthew Y Jin,Wenrui Ma,Vidya Muthukumar,Eva L Dyer |
発行日 | 2024-06-03 14:09:10+00:00 |
arxivサイト | arxiv_id(pdf) |